JP2018530803A - コンピュータ環境における根本原因分析および修復のために機械学習原理を活用する装置および方法 - Google Patents

コンピュータ環境における根本原因分析および修復のために機械学習原理を活用する装置および方法 Download PDF

Info

Publication number
JP2018530803A
JP2018530803A JP2018502001A JP2018502001A JP2018530803A JP 2018530803 A JP2018530803 A JP 2018530803A JP 2018502001 A JP2018502001 A JP 2018502001A JP 2018502001 A JP2018502001 A JP 2018502001A JP 2018530803 A JP2018530803 A JP 2018530803A
Authority
JP
Japan
Prior art keywords
data element
host device
attribute
root cause
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018502001A
Other languages
English (en)
Inventor
セルゲイ, エー レイジン,
セルゲイ, エー レイジン,
スペンサー, ホール ロビンソン,
スペンサー, ホール ロビンソン,
トレーシー, エル マーラット,
トレーシー, エル マーラット,
ヨクキ トー,
ヨクキ トー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sios Technology Corp
Original Assignee
Sios Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sios Technology Corp filed Critical Sios Technology Corp
Publication of JP2018530803A publication Critical patent/JP2018530803A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/321Display for diagnostics, e.g. diagnostic result display, self-test user interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Mathematical Optimization (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本発明の実施形態は、メモリおよびプロセッサを備えるホスト装置に関し、前記ホスト装置は、コンピュータインフラのコンピュータ環境リソースの属性に関連する異常を決定するように構成されている。前記ホスト装置は、前記検出異常の前記属性に関連するオブジェクトを前記コンピュータインフラの関連オブジェクトと相関させるように構成されている。前記ホスト装置は、前記相関オブジェクトの各オブジェクトに対する根本原因確率を決定するように構成されており、前記根本原因確率は、前記相関オブジェクトが前記検出異常の原因として機能する確率を特定する。前記ホスト装置は、前記特定した根本原因確率に基づいて前記異常に関連する根本オブジェクトの識別を出力するように構成されている。
【選択図】図2

Description

現代の経済およびビジネスサービスは、通常、コンピュータインフラの複雑で動的で異種の情報技術(IT)を実行する。例えば、コンピュータインフラは、例えばスイッチやルータなどの通信装置によって相互接続された1つ以上のサーバまたはホスト装置および1つ以上のストレージアレイを含みうる。サーバは、動作中に1つ以上の仮想マシン(VM)を実行するように構成されうる。各VMは、通常、1つ以上のアプリケーションまたは作業負荷を実行するように構成されうる。このような作業負荷は、オンプレミス(データセンター)およびオフプレミス(パブリック/プライベートクラウド)環境の一部として実行されうる。
クラウド/仮想化環境において欠けている重要なアプリケーションの実行/変換に関連する最も一般的な問題の1つは、性能に関するものである。クラウド/仮想化環境においてアプリケーションに影響を与える可能性のある1つの性能問題は、ストレージ、特にデータストアの競合に関連している。データストアは、ある環境内の同じホスト上および/または異なるホスト上のVMと共有されるオブジェクトとして定義される。データストア競合は、その環境内の多くの異なるイベント、変更、および/または問題に起因しうる。
データストアの競合は、環境に関連する入出力(IO)レイテンシの異常な増加によって特定されうる。IOレイテンシは、通常、特定のデータストア上の全てのアプリケーションに影響しうる。しかし、ストレージ競合では、IOレイテンシはデータストアで発生する。
データストアは、通常、ローカルに接続されたデバイスの上に構築される場合、ホスト装置にまでより分離される。しかし、データストアがホスト装置間で共有され、例えば単一の論理オブジェクト(つまり、データストアまたはコンバージドインフラストラクチャ)などにさらされている、例えばSANなどによる、より複雑な構成がある。ここでは、ローカルに接続されたデバイスが集められて複数のホスト(およびVM)間の共有リソースとして構成されている。
クラウド/仮想化環境において欠けている重要なアプリケーションの実行/変換に関連する他の問題は、環境において問題の原因を特定することである。環境において問題の原因を決定するプロセスは、問題の根本原因を導出/決定するプロセスと呼ばれる。このプロセスは、通常、挙動を変更し、故障し、別の一連のイベントを経験するオブジェクトを含みうる。非常に複雑な相互関係を持つ環境では、例えばデータストア競合問題などの性能問題の根本原因の特定は、非常に複雑な手作業のプロセスであるが、アプリケーション問題がシステム管理者の目に明らかになった場合には、環境の運用を維持するために必要である。
例えばデータストアなどのクラウド/仮想化環境におけるリソース競合に対処する従来のアプローチには、さまざまな欠点がある。例えば、システム管理者は、特定のツール(スプレッドシートのような)および統計学に精通している必要がある。また、データストアの競合は、IOメトリクス(IOPSやレイテンシ、スループット、優れたIOPS、エラーのような)の素晴らしい経験と理解がなければ、やはり対処は非常に困難である。最後に、非常に大量の統計データセットに対して、それを連続して繰り返し行うことができるという問題もある。特にそのようなプロセスは継続的に行われる必要があるため、人間がそれを行うための効果的な方法はない。
さらに、あるレベルの閾値に基づく従来のツールを使用して性能問題の根本原因を特定することは、クラウド/仮想化環境における複雑な内部関係の理解なしには、非常に時間のかかる複雑な作業となりうる。これは、特に、問題がアプリケーションやコンピュータ、ストレージ、ネットワークのようなさまざまな分野にまたがる場合においてである。
1つの構成では、図1を参照すると、コンピュータインフラ2の動作中に、ホスト装置4の仮想マシン3は、別のホスト装置から他の仮想マシンのバックアップを実行することができる。例えば、ホスト装置4−2の仮想マシン3−14は、ホスト装置4−2の仮想マシン3−4、仮想マシン3−5、および仮想マシン3−6をバックアップするように構成されているとする。また、仮想マシン3−14は、ある時点でホスト装置4−4に移動させられるとする。しかし、移動後も、仮想マシン3−14は、依然として仮想マシン3−4、3−5、3−6のバックアップを実行するように構成されている。これらのバックアップは、コンピュータインフラ2のさまざまな側面でレイテンシを生じさせる圧力(例えば、IOPS)を発生させうる。例えば、仮想マシン3−1、3−2、3−3は、ネットワーク5を通じて仮想マシン3−4、3−5、3−6に関係しているため、仮想マシン3−4、3−5、3−6のバックアップは、性能に影響を与え、仮想マシン3−1、3−2、3−3のレイテンシの原因となりうる。
従来のモニタリングシステムでは、システム管理者は、例えば仮想マシン3−14などの仮想マシンを分析して、コンピュータインフラ2上で仮想マシン3−14によって生じた圧力を決定することができる。しかし、従来の分析は、時間がかかる(例えば、3〜8時間かかる)ことがある。また、仮想マシン3−1、3−2、3−3のレイテンシの原因を決定するために、システム管理者は、集められたすべてのホストから、そして、競合下でデータストアに関連するVMから、I/O統計を収集して分析しなければならない。さらに、システム管理者は、その後、通常、スプレッドシートまたは別の報告ツールに統計を集約して相互に関連付ける。これにより、処理に余分な時間が加わることがある。
例えばデータストア競合などの問題を特定し修復する従来の方法に比べると、本発明の実施形態は、半教師付き機械学習の原理を活用して根本原因の分析および導出を行いコンピュータ環境の問題を修復する装置および方法に関する。1つの構成では、ホスト装置は、機械学習およびトポロジ的挙動分析の原理を活用することによって、コンピュータ環境内の個々のオブジェクト、データストア、および/または仮想マシンの挙動を決定するように構成されている。ホスト装置は、アプリケーションに対して性能上の問題を引き起こす可能性のある挙動の異常を特定するだけでなく、異常を相関させてコンピュータインフラ内のリソース間の関係を導出するとともに問題(例えば、オブジェクトやイベントなど)の根本原因を特定するように構成されている。ホスト装置は、例えばダッシュボードやユーザインタフェース(UI)などによって、システム管理者に、性能に影響を与える可能性のあるいかなるインフラコンポーネントイベント異常をも表示するように構成されている。UIを使用すると、包括的で分かりやすい形式で複雑な問題を提示することができる。
ホスト装置は、システム管理者に、(1)データストアリソース競合の存在、(2)競合の発生日時、(3)競合の影響、および(4)競合の考えられる根本原因、に関する情報を提供するために、結果を相互に関連付けるように構成されている。
注目すべきは、データストアは実際には分散オブジェクトであるが、個々のホストは、独立してそれに接続されている(ネットワークに接続されたストレージブロックまたはファイルを想定する)。データストア上のリソース競合は、特定の「うるさい隣人(noisy neighbor)」によって引き起こされうるが、特定の状況下では、特に競合が特定のホストにまで分離されている(つまり、分散オブジェクトの異常が広範囲ではなく、特定のホストにまで分離されている)場合には、ネットワークが問題である可能性がある。こうした状況では、ホスト装置は、レイテンシおよびスループットに関係する全ての異常に対してデータストアが接続されているネットワークインタフェースを評価することもできる。
本発明の実施形態は、根本原因の分析および導出を利用して、例えばレイテンシ問題などのコンピュータ環境の全レイヤ(例えば、アプリケーション、ストレージ、ネットワーク、および計算)にわたる問題を検出するように構成された装置に関する。例えば、ホスト装置は、例えばk平均法クラスタリングやトポロジカル(グラフ理論)分析、イベント相関などの機械学習アルゴリズムを実行して、インフラ内のパターンおよび異常を検出するように構成されている。ホスト装置は、さらに、検出した異常に関する根本原因分析を実行して、コンピュータインフラに関連する性能問題をシステム管理者に提供するように構成されている。例えば、根本原因分析の間、ホスト装置は、例えばナイーブベイズ(Naieve Bayes)をベースにしたアルゴリズムなどの因果ネットワークアルゴリズムを実行して、検出した異常の根本原因を決定するように構成されている。
1つの構成では、ホスト装置は、根本原因分析に関連した出力を提供するように構成されている。これにより、エンドユーザは、検出された根本原因を評価またはランク付けすることができる。例えば、エンドユーザのランキング入力に基づいて、ホスト装置は、第2の根本原因分析を実行して根本原因分析確率を再計算することができる。このような構成によって、ホスト装置は、ユーザ入力を介した半教師付き学習を組み入れて、確率を動的に更新する。
本発明の実施形態は、ラスタリング分類アルゴリズムを使用する異常検出、グラフ理論の原理を活用する相関関係、およびネットワークベースの因果アルゴリズムを活用する根本原因導出を含むがこれらに限定されない半教師付き機械学習の原理を使用して根本原因の分析および導出を決定するように構成された装置に関する。本発明の実施形態は、根本原因のイベントを、イベントメタデータ、関連症状、関連オブジェクト、影響を受けたオブジェクト、および根本原因オブジェクトの形でモデル化する方法に関する。本発明の実施形態は、人間のエージェント入力を半教師付き学習の根本原因分析に組み込む方法に関する。1つの構成では、本発明の実施形態は、例えば、根本原因分析の機能を実行して(つまり、影響を受けたオブジェクトを調べ、コンピュータ環境内の他のオブジェクトとの関係を理解して)、根本原因オブジェクトを調べる能力を提供する根本原因分析グラフィカルユーザインタフェースに関する。
本発明の実施形態は、ホスト装置においてコンピュータ環境の異常分析を行う方法に関する。本方法は、前記ホスト装置が、前記コンピュータインフラのコンピュータ環境リソースの属性に関連する異常を決定するステップと、前記ホスト装置が、前記検出異常の前記属性に関連するオブジェクトを前記コンピュータインフラの関連オブジェクトと相関させるステップと、前記ホスト装置が、前記相関オブジェクトの各オブジェクトに対する根本原因確率を決定するステップであって、前記根本原因確率は、前記相関オブジェクトが前記検出異常の原因として機能する確率を特定する、ステップと、前記ホスト装置が、前記特定した根本原因確率に基づいて前記異常に関連する根本オブジェクトの識別を出力するステップと、を有する。1つの構成では、検出した異常の根本原因の特定に加えて、ホスト装置は、その異常によって影響を受けたオブジェクトをその後特定するように構成されている。根本原因でない異常オブジェクトも影響を受けるからである。
上記および他の目的、特徴、および効果は、添付の図面に示したように、本発明の特定の実施形態の以下の説明から明らかになるであろう。添付の図面では、異なる図面を通じて同様の参照文字は同一の部分を示している。図面は、必ずしも一定の縮尺ではなく、むしろ本発明のさまざまな実施形態の原理を説明することに重点が置かれている。
は、従来技術のコンピュータインフラの概略図である。
は、1つの構成に係るコンピュータシステムの概略図である。
は、1つの構成に係る、図2のホスト装置によって実行される手順の一例を示すフローチャートである。
は、1つの構成に係る、分析プラットフォームを実行する図2のホスト装置の概略図である。
は、1つの構成に係る、図4のデータトレーニングセットへのクラスタリング機能の適用を示すグラフである。
は、1つの構成に係る、図4のデータトレーニングセットへの学習挙動機能の適用を示すグラフである。
は、1つの構成に係る、図4のデータトレーニングセットへの感度機能の適用を示すグラフである。
は、1つの構成に係る、グラフィカルユーザインタフェースの一部として提供されるインシデント通知の一例を示す図である。
は、1つの構成に係る、図4のホスト装置によって提供されるグラフデータベースからのオブジェクトの相関を示す概略図である。
は、1つの構成に係る、観察ノードおよび根本原因ノードの構成を示す概略図である。
は、1つの構成に係る、図4のホスト装置によって出力されるグラフィカルユーザインタフェースの一例を示す図である。
は、1つの構成に係る、図4のホスト装置によって出力されるグラフィカルユーザインタフェースの一例を示す図である。
本発明の実施形態は、半教師付き機械学習の原理を活用して根本原因の分析および導出を行いコンピュータ環境の問題を修復する装置および方法に関する。1つの構成では、ホスト装置は、機械学習およびトポロジ的挙動分析の原理を利用することによって、コンピュータ環境内の個々のオブジェクト、データストア、および/または仮想マシンの挙動を決定するように構成されている。ホスト装置は、アプリケーションに対して性能上の問題を引き起こす可能性のある挙動の異常を特定するだけでなく、異常を相関させてコンピュータインフラ内のリソース間の関係を導出するとともに問題(例えば、オブジェクトやイベントなど)の根本原因を特定するように構成されている。ホスト装置は、例えばダッシュボードやユーザインタフェース(UI)などによって、システム管理者に、性能に影響を与える可能性のあるいかなるインフラコンポーネントイベント異常をも表示するように構成されている。UIを使用すると、包括的で分かりやすい形式で複雑な問題を提示することができる。
図2は、ホスト装置25と電気通信するように配置された少なくとも1つのコンピュータインフラ11を含むコンピュータシステム10の構成を示している。コンピュータインフラ11は、さまざまな方法で構成可能であるが、1つの構成では、コンピュータ環境リソース12を含む。例えば、コンピュータ環境リソース12は、例えばコンピュータ化された装置などの1つ以上のサーバ装置14、例えばスイッチやルータなどの1つ以上のネットワーク通信装置16、および例えばディスクドライブやフラッシュドライブなどの1つ以上のストレージ装置18を含む。
各サーバ装置14は、例えばメモリおよびプロセッサなどのコントローラまたはコンピュータハードウェア20を含みうる。例えば、サーバ装置14−1は、コントローラ20−1を含み、サーバ装置14−Nは、コントローラ20−Nを含む。各コントローラ20は、1つ以上の仮想マシン22を実行するように構成可能であり、各仮想マシン(VM)22は、1つ以上のアプリケーションまたは作業負荷23を実行するようにさらに構成されている。例えば、コントローラ20−1は、第1の仮想マシン22−1および第2の仮想マシン22−2を実行可能であり、これらはそれぞれ順に1つ以上の作業負荷23を実行するように構成されている。各コンピュータハードウェア要素20、ストレージ装置要素18、ネットワーク通信装置要素16、およびアプリケーション23は、コンピュータインフラ11の属性に関係している。
1つの構成では、サーバ装置14のVM22は、1つ以上の共有オブジェクトまたはデータストア29を含みうる。例えば、サーバ装置14−1は、データストア29を共有する第1VM22−1および第2VM22−2を含む。
1つの構成では、ホスト装置25は、例えばメモリおよびプロセッサなどのコントローラ26を有するコンピュータ化された装置として構成されている。ホスト装置25は、コンピュータインフラ11およびディスプレイ55の両方と電気通信するように配置されている。
ホスト装置25は、通信ポート(図示せず)を介して、コンピュータインフラ11の少なくとも1つのコンピュータ環境リソースから一連のデータ要素24を受信するように構成されている。一連のデータ要素24の各データ要素28は、コンピュータ環境リソース12の属性に関連している。例えば、データ要素28は、コンピュータ環境リソース12の計算レベル(計算属性)、ネットワークレベル(ネットワーク属性)、ストレージレベル(ストレージ属性)、および/またはアプリケーションもしくは作業負荷レベル(アプリケーション属性)に関連しうる。
動作中、ホスト装置25は、例えばプライベートAPIコールを介して、コンピュータ環境リソース12をポーリングして、コンピュータインフラ11の計算、ストレージ、およびネットワーク属性に関するデータ要素28を取得するように構成されている。例えば、ホスト装置25は、サーバ装置14のコントローラ構成および利用(つまり、計算属性)、各サーバ装置14のVMアクティビティ(つまり、アプリケーション属性)、ならびにコンピュータインフラ11に関連する現在の状態および履歴データに関するデータ要素28を受信しうる1つの構成では、各データ要素28は、例えばコンピュータインフラ11のイベント、統計、および構成など、コンピュータインフラ11に関連する追加情報を含みうる。
ホスト装置25は、さまざまな方法でコンピュータインフラ11からデータ要素28を受信することができるが、1つの構成では、ホスト装置25は、ほぼリアルタイムストリームの一部としてデータ要素28を受信するように構成されている。後述するように、ほぼリアルタイムのストリームとしてデータ要素28を受信することによって、ホスト装置25は、コンピュータインフラのアクティビティをほぼ継続的に監視することができる。これにより、ホスト装置25は、時間と共にほぼ継続的にコンピュータインフラ11内の変化に応答して1つ以上のコンピュータ環境リソース12に関連する異常アクティビティを検出することができる。
1つの構成では、ホスト装置25は、データ要素28に関するデータストア競合分析を行う分析プラットフォーム27を含む。例えば、図4に示すように、この分析プラットフォーム27は、異常検出コンポーネントまたは分析機能42およびグラフ理論機能44を備えるトポロジ的挙動分析コンポーネントを含みうる。また、分析プラットフォーム27は、根本原因分析機能46もユーザインタフェース(UI)機能48も含みうる。
図2に戻って、ホスト装置25のコントローラ26は、分析プラットフォーム27のアプリケーションを記憶しうる。例えば、分析プラットフォームアプリケーションは、コンピュータプログラム製品32からコントローラ26にインストールされる。いくつかの構成では、コンピュータプログラム製品32は、例えば収縮包装パッケージ(例えば、CD−ROMやディスケット、テープなど)のような標準的な市販形態で入手可能である。他の構成では、コンピュータプログラム32は、例えばダウンロード可能なオンライン媒体などの異なる形態で入手可能である。ホスト装置25のコントローラ26上で実行されると、分析プラットフォームアプリケーションは、ホスト装置25にトポロジ的挙動分析および根本原因分析を実行させる。
上記のように、ストレージI/Oに関する問題は、データストアの競合に起因し、通常、そのようなイベントの症状は、サーバ装置とデータストアの組み合わせにおけるレイテンシの増加である。問題が発生すると、最初は、通常、単一の要求に対してコマンドが停止され始め、状況が対応されないと、恐らく最終的にはキュー内のすべての要求が停止されてしまう。1つの構成では、分析プラットフォーム27を実行するとき、ホスト装置25は、コンピュータインフラ11に関連するデータストアリソースの競合を特定するように構成されている。例えば、ホスト装置25は、特定のデータストアに接続されたVM22だけでなく各サーバ装置14からのストレージI/O関連統計28も分析することができる。
図3は、例えばデータ要素28に関するデータストア競合分析を行うために、分析プラットフォーム27を実行するときに、図1のホスト装置25によって実行される方法の一例を示すフローチャート100である。要素102において、ホスト装置25は、コンピュータインフラ11のコンピュータ環境リソース12の属性に関連する異常を決定するように構成されている。
上記のように、ホスト装置25は、例えばサーバ装置14のコントローラ構成および利用(つまり、計算属性)、各サーバ装置14のVMアクティビティ(つまり、アプリケーション属性)、ならびにコンピュータインフラ11に関連する現在の状態および履歴データなど、さまざまな属性に関連するデータ要素28を受信しうる。以下では、データストア競合に関連する異常の存在を決定するときにホスト装置25によって実行されるプロセスについて説明する。
データ記憶装置の競合の検出に関して、ホスト装置25は、データ要素28として、コンピュータインフラ11のコンピュータ環境リソース12に関するレイテンシ情報(例えば、入力/出力(IO)レイテンシや入出力操作毎秒(IOPS)レイテンシなど)を収集するように構成されている。例えば、ホスト装置25は、例えばプライベートAPIコールを介して、コンピュータ環境リソース12をポーリングして、コンピュータインフラ11内のレイテンシに関するデータ要素28を取得するように構成されている。データ要素28は、分散データストアオブジェクトのレイテンシ統計、および、データストア競合に関連付けられた個々のVMの性能統計を含みうる。
1つの構成では、ホスト装置25がレイテンシデータ要素28を受信すると、ホスト装置25は、レイテンシ情報28を均一性または正規化機能34に導いて、データ要素28を正規化するように構成されている。例えば、さまざまなコンピュータ環境リソース12が、独自仕様のフォーマットでデータ要素28をホスト装置25に提供することができる。このような場合、ホスト装置25の正規化機能34は、データ要素28を標準の独自仕様でないフォーマットに正規化するように構成されている。
他のケースでは、ホスト装置25が時間と共にデータ要素28を受信すると、データ要素28は、さまざまな時間尺度で提示可能である。例えば、コンピュータインフラ11の複数のネットワーク装置16から受信したデータ要素28に対して、装置16のレイテンシは、秒(秒)またはミリ秒(ミリ秒)で提示可能である。このような例では、ホスト装置25の正規化機能34は、データ要素28を共通の時間尺度に整えるように構成されている。データ要素28の正規化、クラスタリング機能の適用は、後述するように、全てのデータ要素28に対して等しい尺度を提供し、クラスタリング機能によって利用される距離メトリック(例えば、ユークリッド距離メトリック)にバランスのとれた影響を与える。さらに、実際問題として、データ要素28の正規化は、クラスタベースの分析にとって一般的に望ましい特性であるほぼ球形に見えるクラスタを生成する傾向がある。
次に、ホスト装置25は、異常挙動検出に使用するためにデータトレーニングセット36を作成するように構成されている。データトレーニングセット36は、コンピュータ環境リソース12の特定の挙動パターンまたは傾向を特定するためにホスト装置25によって使用される一連の基本データとして構成される。
1つの構成では、ホスト装置25は、正規化されたレイテンシデータ要素30(つまり、コンピュータインフラのコンピュータインフラリソースの属性)に分類機能38を適用してデータトレーニングセット36を作成するように構成されている。分類機能38は、さまざまな方法で構成可能であるが、1つの構成で、分類機能38は、例えばクラスタリング機能などの半教師付き機械学習機能として構成されている。
クラスタリングは、クラスタと呼ばれる同じグループ内のオブジェクトが他のグループまたはクラスタ内のオブジェクトよりも互いに類似するような方法で、一連のオブジェクトをグループ化するタスクである。クラスタリングは、機械学習、パターン認識、画像解析、情報検索、およびバイオインフォマティクスを含む多くの分野で使用される、統計的データ分析のための従来の技術である。オブジェクトのクラスタへのグルーピングは、クラスタを構成するものの概念およびそれらを効率的に見つける方法の概念が大きく異なるさまざまなアルゴリズムによって達成されうる。例えば、既知のクラスタリングアルゴリズムは、階層的クラスタリング、重心ベースのクラスタリング(つまり、k平均法クラスタリング)、分布に基づくクラスタリング、および密度に基づくクラスタリングを含む。クラスタリングに基づいて、ホスト装置25は、コンピュータインフラ11のさまざまな構成要素に関連する異常または性能低下を検出するように構成されている。
1つの構成では、分類機能38の実行により、ホスト装置25は、正規化されたレイテンシデータ要素30にアクセスしてデータトレーニングセット36を作成するように構成されている。ホスト装置25は、時間と共に正規化レイテンシデータ要素30を受信することによってデータトレーニングセット36をほぼ連続的かつ継続的に作成することができる。このデータ要素は、コンピュータ環境リソース12に由来する。例えば、図5を参照すると、データトレーニングセット36を作成するために、ホスト装置25は、一定期間にわたって、コンピュータインフラ11からデータ要素28のほぼリアルタイムのストリームを受信する。データ要素28は、その後、正規化される(例えば、正規化データ要素30)。1つの構成では、ホスト装置25は、正規化データ要素30にトレーニング機能(図示せず)を適用して、データ要素28の継続的ストリームに基づいてデータトレーニングセット36を連続的に作成し訓練するように構成されている。したがって、コンピュータインフラの属性値が時間と共に変化すると(例えば、コンピュータインフラ11の特定のコントローラに対するCPU使用率の増減を示す)、データトレーニングセット36も、時間と共に変化しうる。
1つの構成では、分類機能38としてクラスタリング機能を適用することにより、ホスト装置25は、データトレーニングセット36をクラスタとして記憶する。例えば、データトレーニングセットは、1オブジェクト当たりの、例えば平均値や標準偏差、最大値、最小値、サイズ(例えば、クラスタ内のデータ点の数)、密度機能(例えば、クラスタがどの程度密集しているか)などの値を定義する、クラスタの中に入れられたモデルである。最大値および最小値は、例えば図5に示すx軸(例えば、時間)およびy軸(例えば、レイテンシ)に適用可能である。クラスタリングに基づいて、ホスト装置25は、クラスタの高さおよび幅に基づいて、レイテンシの一定の特性もレイテンシの持続時間も特定することができる。
図5は、データ要素30にクラスタリング機能38を適用してデータトレーニングセット36を生成する一例を示す図である。1つの構成では、データ要素28への分類(つまり、クラスタリング)機能38の適用の結果として一連のクラスタ82が生成されうる。例えば、特性化機能80を適用した後、トレーニングデータセット47は、第1、第2、および第3クラスタ82−1、82−2、82−3を含みうる。各クラスタ82−1〜82−3は、ある共通の類似性(例えば、入力/出力(IO)レイテンシや入出力操作毎秒(IOPS)レイテンシなど)を有するコンピュータインフラ属性を識別する。
1つの構成では、図4を参照すると、ホスト装置25は、データトレーニングセット36(例えば、7日間など一定期間にわたって収集された正規化レイテンシデータ要素30)を作成した後、ホスト装置25は、データトレーニングセット36および正規化レイテンシデータ要素30の両方に分析機能42を適用して異常を特定するように構成されている。
例えば、ホスト装置25は、分析機能42を、例えばデータストア競合やストレージ性能レイテンシなどの、データトレーニングセット36の特定の一連のユースケースに適用するものとして利用して、コンピュータインフラ11のさまざまなコンピュータ環境リソース12に関連付けられたレイテンシに関連する異常を検出するように構成されている。図4を参照すると、ホスト装置25は、分析機能42をデータトレーニングセット36および正規化レイテンシデータ要素30の両方に適用して、コンピュータインフラ11に関連するレイテンシ情報の異常を決定することができる。
上記のように、また図4を続けて参照すると、ホスト装置25は、分析機能42を実行するとき、正規化レイテンシデータ要素30をデータトレーニングセット36と比較するように構成されている。分析機能44のこのような適用によって、ホスト装置25は、データ要素28に関連する傾向およびコンピュータ環境リソース11に関連する異常な挙動の存在を決定することができる。
例えば、分析機能44の実行により、正規化レイテンシデータ要素30をデータトレーニングセット36と比較することによって、ホスト装置25は、外れデータ要素84(例えば、クラスタ82の外にあるデータ要素)を、コンピュータインフラ11に関連する異常アクティビティを表すデータ異常として識別するように構成されている。例えば、図5を参照すると、正規化レイテンシデータ要素30をデータトレーニングセット36と比較することにより、クラスタ82の外にある多数のデータ要素28が得られる。分析(例えば、分析機能42の適用)の結果として、ホスト装置25は、データ要素のクラスタ82−1〜82−3の外にあるデータ要素84−1、84−2、84−3、84−4を、コンピュータインフラ11に関連する異常なデータ要素および異常な挙動(例えば、レイテンシ)を示すものとして識別することができる。
1つの構成では、分析機能42は、さまざまな方法で、ホスト装置25によって決定された異常データの結果をフィルタリングするように構成可能である。
例えば、図5を参照すると、分析機能42は、ベストプラクティス機能45として構成することもでき、ベストプラクティス閾値85を、クラスタ82−1〜82−3の外にあるデータ要素84−1、84−2、84−3、84−4に適用することができる。ベストプラクティス閾値85は、非異常の非クラスタレイテンシ情報要素(例えば、「不良」要素)84−1を、異常な非クラスタレイテンシ情報要素から区別するためのカットオフとして構成されている。ベストプラクティス閾値85の適用に基づいて、ベストプラクティス機能45は、データ要素84−1を異常データ要素と見なして最小化または削除し、また、データ要素84−2、84−3、84−4を異常データ要素として提供する。
別の例では、図6を参照すると、分析機能42は、クラスタ82のデータ要素グループに対して学習挙動境界88を定義する学習挙動機能47として構成することもできる。学習挙動境界88は、クラスタ82にスケーラブルなカットオフを提供して、非異常の非クラスタレイテンシ情報要素を異常な非クラスタレイテンシ情報要素から区別するように構成されている。例えば、学習挙動機能47は、学習挙動境界88を、各クラスタ82の重心90からの3つの標準偏差として定義する。
図示の例では、学習挙動機能47は、第1および第2の学習挙動境界88−1、88−2を適用する。学習挙動境界88−1、88−2の適用に基づいて、学習挙動機能47は、データ要素84−2が学習挙動境界88−1、82−2の中にあるとき、このデータ要素84−2を異常データ要素と見なして最小化または削除する。また、学習挙動機能47は、データ要素84−3、84−4が学習挙動境界88−1、88−2の外にあるとき、これらのデータ要素84−3、84−4を異常データ要素として提供する。
別の例では、図7を参照すると、分析機能42は、予め定義された学習挙動境界88に対して感度境界92を定義する感度機能49として構成することもできる。感度境界92は、重要でない異常の報告を制限または阻止し、システム管理者に決定の意味論に影響を与える能力を提供する。例えば、感度機能49は、重要でない異常が異常な結果として示されないようにシステム管理者が学習挙動閾値を調整できるようにすることによって、異常検出フレームワークの挙動を変更することができる。
図7を参照すると、感度境界92は、学習挙動境界88に閾値を提供して、非異常の非クラスタレイテンシ情報要素を異常な非クラスタレイテンシ情報要素から区別するように構成されている。図示の例では、感度機能49は、第1および第2の感度境界92−1、92−2を学習挙動境界88に適用する。感度境界92−1、92−2の適用に基づいて、感度機能49は、データ要素84−3が学習挙動境界88−1、88−2の内にあるときに、このデータ要素84−3を異常データ要素と見なして最小化または削除する。また、感度機能49は、データ要素84−4が感度境界92−1、92−2の外にあるとき、このデータ要素84−4を異常データ要素として提供する。
コンピュータインフラ11の動作は、計算レベル、ネットワークレベル、ストレージレベル、および/またはアプリケーションもしくは作業負荷レベルの経時的な変化を識別するために新しいデータ要素28を作成することができる。1つの構成では、ホスト装置25は、ほぼ継続的にデータトレーニングセット36を更新して、コンピュータインフラ11内の異常アクティビティの変化を検出することができるように構成されている。例えば、図4を参照すると、ホスト装置25は、例えばストリームの一部として、時間と共にコンピュータインフラ11から更新データ要素28を受信し、この更新データ要素28をデータトレーニングセット36に提供するように構成されている。ホスト装置25は、さらに、コンピュータインフラ11に関連する異常データ要素を特定するために更新データ要素28を含むデータトレーニングセット36に分類機能38を適用するように構成されている。データトレーニングセット36のほぼ連続的な更新および特性化により、ホスト装置25は、時間と共にコンピュータ環境リソースの変化を検出することができる。
異常データ要素84の検出に応答して、1つの構成では、ホスト装置25は、コンピュータインフラ11に関連する異常の存在に関するインシデント通知51をシステム管理者に提供するように構成されている。1つの構成では、インシデント通知51は、オブジェクトの異常な挙動が検出され恐らく注意が必要であることをユーザに示すイベントである。すなわち、相関が導入されるまで(つまり、後述する競合)、その異常がインフラのいずれかの要素に何らかの影響を与えるかどうかは明確でない。
インシデント通知51は、さまざまな方法で構成可能であるが、一例では、インシデント通知は、以下の定義された一連の基準を有しうる。
カテゴリ:容量/性能/信頼性/効率(P:データストア競合の場合)
時間(開始終了日時の期間):開始時刻と終了時刻から導出可能
レイヤ:アプリケーション/計算/ストレージ/ネットワーク(ストレージ:データストア競合の場合)
問題種別:ストレージ競合/計算競合/ネットワーク競合
重大度:重要/警告/情報
関連オブジェクト:リソースの競合で追加される結果のオブジェクト
症状:レイテンシの増加(実際の値、傾向、差など)
したがって、インシデント通知51をシステム管理者に報告することにより、コンピュータインフラ11の潜在的な問題に関する情報を管理者に提供することができる。
1つの構成では、ホスト装置25は、インシデント通知51を、ディスプレイ装置55によって提供されるGUI50の一部として提供するように構成されている。例えば、図8に示すように、ホスト装置25は、インシデント通知51を平均レイテンシグラフ90として提供して、コンピュータインフラ11内の作業負荷を示すとともに、コンピュータインフラ11内のレイテンシに関連する異常の存在を示すことができる。
1つの構成では、ホスト装置25は、システム管理者に提供するインシデント通知51の頻度を制限するように構成可能である。例えば、システム管理者は、個々の異常インシデント通知51として5秒に1回の間隔で発生している一連の異常を受信したくない可能性がある。
対照的に、永久に続くイベントも存在しうる(つまり、挙動異常を引き起こす新たな負荷が加えられるが、そのイベントが消えてなくなる可能は現在も未来も低い)。インシデント通知51の頻度を制限するために、ホスト装置25は、ホスト装置25がインシデント通知51をいつ提供するかを、例えば以下の例に示すよう、決定するように構成されている。
−インシデントは、終了の日時がない(期間と無関係である)場合、直ちに起動される。欠点は、グラフ内で何らかのタイプの相関を行うことにした場合、終了が得られるまで異常の領域を記入することができないことである。
−インシデントは、終了の日時が得られる場合にのみ、起動される。これは、管理者またはアプリケーション所有者は問題をすでに経験しており、早期にそれを知らなければならない(これは我々を前述の戦略に引き戻す)という可能性があることを意味する。しかし、監視ツールではないことに注意してください。
1つの構成では、ホスト装置25は、イベント(異常および根本原因)関係デルタ閾値を用いて構成されている。この閾値は、発生したイベントであって当該イベントを関連付ける特定のオブジェクトに関連し最終的に進行中のイベントの終了時間を設定するイベント間のデルタ時間を定義する。
以下は、閾値の定義の一例である。
A.異常イベント(または一連のイベント)がポーリングサイクルタイムフレーム(現在のポーリングサイクルは5分)内で発生し、かつ、ポーリングサイクル収集データ(新しく開始しない限り5分)内のイベント間のデルタが関係閾値以下である場合、イベント(異常/根本原因)は終了せず(つまり、終了時間が空白である)、したがって継続する。
B.イベント間のデルタ時間が関係閾値よりも大きい場合、終了時間をイベントの最後の発生に設定する。
ホスト装置25は、コンピュータインフラ11に関連する異常(例えば、レイテンシ問題)の存在を検出すると、異常データ要素に関連するオブジェクトに関する根本原因分析を実行して考えられる異常発生源を特定するように構成されている。例えば、図4を参照すると、ホスト装置25は、根本原因分析の一部として、検出された異常に関連するオブジェクトに根本原因機能46を適用するように構成されている。
一般に、異常の根本原因分析を実行するとき、コンピュータ化された装置は、異常に関連するタイプに関係なく、一連の関連オブジェクトに関する情報を決定する。例えば、データストアの異常の根本原因を決定するために、ホスト装置25は、そのデータストアに関連するすべての関連オブジェクト(ホスト、VM、仮想ディスク、その他のデータストア)を見つけるように構成されている。通常、根本原因分析の一部として利用されるデータは全て、慣例的にリレーショナルデータベースに格納されており、したがって、コンピュータ化された装置は、通常、例えばリレーショナル(SQLと呼ばれることもある)データベースなどの従来のデータベースにアクセスして、この情報を取り出す。しかし、根本原因分析の一部としてのリレーショナルデータベースの使用は、コンピュータ化された装置がこの情報を照会するために多くの複雑な手順を実行することを必要とする。したがって、根本原因分析の結果は、返されるオブジェクトのタイプごとに異なる結果セットを含むため、使い切るのは困難である。
非リレーショナルデータベースの1つのタイプは、グラフデータベースである。グラフデータベースは、ホスト装置25に、データセット内の非常に複雑な関係を通じて捕捉および検索を行う能力を提供することができる。リレーショナルデータベースおよびグラフデータベースのそれぞれは、他のものよりも、特定のタイプのデータおよび特定のタイプの操作に適している。例えば、リレーショナルデータベースは、通常、格納される各タイプのデータが全て同じ特性を有する非常に均一なデータに適している。また、リレーショナルデータベースは、通常、例えば多くのデータポイントを持つ平均などの数学的特性を計算するとき、比較的高速に実行される。対照的に、グラフデータベースは、同じタイプの異なるオブジェクトが異なる一連の特性を有することがある不規則なデータに適している(例えば、データベースには人に関する情報が格納されており、「給料」の特性を有する人もいれば有しない人もいる)。グラフデータベースは、リレーショナルデータベースよりも迅速かつ簡単に関係に関する操作を実行するように構成されている。例えば、ソーシャルグラフには、人々の間の多くの異なるタイプの関係(配偶者、兄弟、同僚、友人など)がある。また、グラフデータベースは、これらの関係に関する情報を比較的速く照会するように構成されているが、リレーショナルデータベースは、このタイプの照会に時間がかかることがある。
1つの構成では、ホスト装置25は、グラフ理論を使用して、根本原因分析中に使用するために、コンピュータインフラ11を表すオブジェクトのグラフデータベース54を作成するように構成されている。グラフ理論は、オブジェクト間の対の関係をモデル化するために使用される数学的構造であるグラフの研究に関する。この文脈におけるグラフは、頂点またはノードと、ノードを接続する線または辺とからなる。したがって、グラフは、一連のV個の頂点またはノードと、ノード間の関係を表しVの2要素サブセットである一連の線またはエッジ(つまり、エッジは2つの頂点に関連している)とを含む順序付きペアG=(V、E)である。この関係は、特定のエッジに関して頂点32の順序付けられていない対として表される。
図4に戻ると、動作中、1つの構成では、ホスト装置25は、コンピュータインフラに関連するデータ要素28にグラフ理論機能44を適用してコンピュータインフラ11のトポロジを定義するように構成されている。例えば、ホスト装置25は、グラフ理論機能44をコンピュータインフラ11の各オブジェクトに適用して、各オブジェクトをグラフデータベース54内のノードとして定義することができる。さらに、ホスト装置25は、グラフ理論機能44を各オブジェクト28に適用して、オブジェクト間の関係に基づいて(例えば、オブジェクトに関連する関係基準に基づいて)ノード間の一連のエッジを定義するように構成されている。
1つの構成では、グラフデータベース54を生成するために、ホスト装置25は、グラフ理論機能44をリレーショナルデータベースに適用して、例えば管理オブジェクトなどの全ての関連オブジェクトを特定し、その管理オブジェクトをリレーショナルデータベースからグラフデータベース54に移動させるように構成されている。以下、管理オブジェクト(VM、ホストなど)のグラフデータベースへの保存について説明する。
1つの構成では、ホスト装置25は、グラフ検索クエリを実行して、環境を通過しない特定のオブジェクトへの経路を有する任意のオブジェクトを見つけるように構成可能である。1つの構成では、多くのオブジェクトが同じ環境のメンバーであるため、経路内の環境を除外する(つまり、データストアとホストは同じ環境のメンバーでありうるが、他の関係は共有できない。この場合、データストアの異常がホストの状態に関連する可能性は低い)。例えば、ホスト装置25は、例えば異常を示すデータ要素などのイベントと、その異常に関連するオブジェクトの識別とを用いて、関連オブジェクトを見つけるように構成されている。
上記のように、例えばレイテンシに関連する異常など、コンピュータインフラ11に関連する異常の検出後、ホスト装置25は、検出した異常に根本原因分析機能46を適用して、考えられる異常発生源を特定するように構成されている。
1つの構成では、根本原因機能46を適用する前に、ホスト装置25は、グラフデータベース54にアクセスして、検出した異常オブジェクトの影響を受けるオブジェクトを特定するように構成されている。例えば、図3のフローチャート100に戻ると、要素104において、ホスト装置25は、検出した異常の属性に関連するオブジェクトを、コンピュータインフラ11の関連オブジェクトと相関させるように構成されている。このような相関に基づいて、ホスト装置25は、検出した異常に関連するオブジェクトと、コンピュータインフラに関連する他のオブジェクトに対する異常オブジェクトの関係とを含むコンピュータインフラ11のトポロジを決定する。
例えば、図9を参照して、ホスト装置25が、第1の仮想マシン22−1(つまり、VM_R)に関連する例えばレイテンシなどの異常を特定する場合を想定する。このような特定に基づいて、ホスト装置25は、第1の仮想マシン22−1に関連する第1のVMオブジェクト122−1を特定するために、根本原因機能46を実行してグラフデータベース54にアクセスする。グラフデータベース54に提供されたトポロジ関係を使用して、根本原因機能46を実行するホスト装置25は、関係を詳しく検討して、第1のVMオブジェクト122−1に関連する(例えば、接続されたまたは接触している)関連オブジェクトを全て特定することができる。例えば、根本原因機能46は、トポロジ150によって示されるように、第1のVMオブジェクト122−1に関連している、データストアオブジェクト129(つまり、DS_Si)および第2のVMオブジェクト122−2(例えば、VM_B)を特定することができる。したがって、グラフデータベース54にアクセスすることによって、ホスト装置25は、さらなる根本原因分析のために、検出した異常に関連する全てのオブジェクトを特定することができる。
異常オブジェクトおよび関連オブジェクトのトポロジ150を決定した後、ホスト装置25は、これらの管理オブジェクトのそれぞれを異常の考えられる根本原因または発生源と見なす。ホスト装置25は、オブジェクトのVM固有のI/O性能データを分析して、各オブジェクトが実際に異常を経験しているかどうか、また、異常発生源であるかどうかを決定するように構成されている。例えば、図3のフローチャート100に戻ると、要素106において、ホスト装置25は、相関オブジェクトの各オブジェクトに対する根本原因確率を決定するように構成されている。根本原因確率は、相関オブジェクトが検出された異常の原因として機能する確率を特定する。
根本原因機能46は、根本原因分析を実行するようにホスト装置25をさまざまな方法で構成することができるが、1つの構成では、根本原因機能46は、異常オブジェクトおよび関連オブジェクトのうちの1つに起因する異常の事前確率と、異常オブジェクトおよび関連オブジェクトのうちの1つに起因する異常の条件付き確率と、異常オブジェクトおよび関連オブジェクトのうちの1つに起因する異常の事後確率とを決定するように構成されている。1つの構成では、根本原因機能46は、トポロジ150に一連のテンプレートを適用して異常の根本原因を決定するようにホスト装置25を構成する。以下、事前確率、条件付き確率、および事後確率を決定するために根本原因機能46によって適用されるテンプレートの例について説明する。
例えば、図4を参照すると、ホスト装置25がレイテンシに関連する異常を検出した場合、ホスト装置25は、トポロジ150のオブジェクトに関連する一連の観察を識別するように構成されている。1つの構成における観察(つまり、いわゆる単純ベイズ分類器(Naive Bayes Classifier)という専門用語における特徴)は、ホスト装置25がシステム10において発生したか発生しなかったと決定するあらゆる挙動である。観察は、例えば特定の測定に対する特定の範囲(例えば、特定のVMのIOPS測定値が特定の量よりも大きい)など、比較的粒度の細かいものでも、または、例えば環境全体に進行中の複数の異常があるかどうかなど、比較的一般的なものでもよい。例えば、観察は、特定のデータストアでレイテンシが急増したかどうか、または、異常が始まる前の最後の5分間に特定のVMがvMotionを経験したかどうかを特定することができる。
1つの構成では、観察は、ObservationTemplateノード(観察ノード)160としてグラフデータベース54に保存される。観察ノード160は、観察が行われたかどうかを決定するために根本原因機能46の詳細を提供することができる特性161を含む。例えば、図10を参照すると、観察ノード160は、Anomaly Observationノード160−1、160−2として構成されている。このノード160は、特性161として、異常を有する可能性のあるオブジェクトのタイプ(例えば、VM、データストアなど)、および、発生した可能性のある異常のタイプ(例えば、IOPS異常)を含む。
図4に戻って、ホスト装置25がレイテンシに関連する異常を検出した場合、ホスト装置25は、トポロジ150のオブジェクトに関連する一連の考えられる根本原因を特定するように構成されている。1つの構成において、根本原因は、観察された異常の真の原因である管理オブジェクト(例えば、VM、データストア、ホストなど)である。1つの構成では、考えられる根本原因は、RootCauseTemplateノード162としてグラフデータベース54に保存される。例えば、図10を参照すると、グラフデータベース54は、異常の考えられる根本原因である管理オブジェクトの各タイプ(VM、データストアなど)に対する根本原因ノード162−1、162−2を保存することができる。
図10に示すように、各RootCauseTemplateノード162は、ノードの特性(例えば、グラフデータベース54によって格納された)として事前確率値164を含む。1つの構成では、事前確率は、他の証拠が存在しない場合に特定のオブジェクトが真の根本原因である確率である。すなわち、事前確率値164は、証拠がオブジェクトに異常が発生したことを示すときに特定のオブジェクトがその異常を引き起こした可能性を示す。例えば、VMの考えられる根本原因ノード162−1は、RootCauseTemplateノード162−1が検出された異常の根本原因である事前確率を表す25%の事前確率値164−1を含むが、データストアの考えられる根本原因ノード162−2は、RootCauseTemplateノード162−2が検出された異常の根本原因である事前確率を表す50%の事前確率値164−2を含む。
観察ノード160およびRootCauseTemplateノード162に基づいて、根本原因機能46は、観察ノード160とRootCauseTemplateノード162の間のエッジをConditionalProbabilities(条件付き確率)166としてモデル化するように構成されている。1つの構成では、条件付き確率は、特定のオブジェクトが真の根本原因である場合に観察がどの程度確からしいかを示す。例えば、特定のVMが異常の真の根本原因である場合、そのVMがレイテンシ異常を起こしている確率は10%でありうる。また、ある他のオブジェクトが異常の真の根本原因である場合、特定のVMがレイテンシ異常を起こしている可能性は100%でありうる。
事前確率164および条件付き確率166に基づいて、ホスト装置25は、管理オブジェクトに関連する事後確率を決定するように構成されている。1つの構成では、事後確率は、ホスト装置25が観察された全ての証拠を考慮した後、特定の管理オブジェクトが異常の真の根本原因である確率である。例えば、単純ベイズ分類器では、事後確率は、事前確率と適用可能な全ての条件付き確率との積として計算される。
動作中、1つの例では、根本原因分析を実行するとき、ホスト装置25は、上記のテンプレートを利用して、根本原因機能46によって以下を実行して、検出した異常の根本原因を決定するように構成されている。
例えば、ホスト装置25が異常オブジェクトの存在を検出し、グラフデータベース54を利用して異常オブジェクトの関連オブジェクトを見つけることを想定する。ホスト装置25は、これらの管理オブジェクトのそれぞれが異常の考えられる根本原因であると考える。これらの考えられる根本原因のそれぞれに対して、ホスト装置25は、グラフデータベース54からRootCauseTemplate(例えば、根本原因ノード162)を検索して、例えばベイズの事前確率などの事前確率を決定するように構成されている。
次に、ホスト装置25は、根本原因に関連する、可能性のある全ての観察を検出または見つけるように構成されている。例えば、考えられる根本原因ノード162ごとに、ホスト装置25は、グラフデータベース54からObservationTemplate(例えば、観察ノード160)を検索するように構成されている。ある場合には、観察ノード160は、あるタイプの管理オブジェクトの全ての場合に適用可能でありうる。例えば、データストアがレイテンシ異常を起こしたことを示す観察ノード160は、ホスト装置25によって特定されたあらゆるデータストアに適用可能でありうる。したがって、グラフデータベース54は、そのような観察のために1つのノード160を含むだけでもよいが、ホスト装置25は、各データストアの各観察のインスタンスを作成することができる。
図10に示すように、観察ノード160および根本原因ノード162は、オブジェクトタイプを有するが、個々の管理オブジェクトには関連付けられていない。例えば、「DSがレイテンシ異常を起こしている」ための観察ノード160−2が存在するが、その観察ノード160−2は、実際のデータストアノードとの関係を持たない。1つの構成では、グラフデータベース54から観察および根本原因ノード160、162をロードするとき、ホスト装置25は、これらのテンプレートノード160、162をロードして、適用可能な各管理オブジェクトのテンプレートを複製するように構成されている。例えば、データストアに異常が発生しており、このデータストアに関連する2つのVMがあるとする。ホスト装置25は、データベース54から「レイテンシ異常を有するVM」ObservationTemplate160にアクセスし、ホスト装置65が検討している2つのVMのそれぞれについて1つのObservationクラスの2つのインスタンスを作成するように構成されている。また、ホスト装置25は、データベース54から「VM」RootCauseTemplate162にアクセスし、ホスト装置65が検討している2つのVMのそれぞれについて1つのRootCauseクラスの2つのインスタンス(および、例えばデータストアなどの他の関連オブジェクトのRootCauseインスタンス)を作成するようにも構成されている。
上記のように、ホスト装置25が根本原因機能46を実行するとき、ホスト装置25は、グラフデータベース54からObservationTemplate160、RootCauseTemplates162、およびConditionalProbabilities166を検索するように構成されている。1つの構成では、ホスト装置25は、これらがグラフデータベース54に存在しない場合、または、これらが何らかの方法で破損している場合、これらObservationTemplates160、RootCauseTemplates162、およびConditionalProbabilities166を作成するように構成されている。例えば、破損の場合、ホスト装置25は、これらのオブジェクトのいずれかをデータベース54から削除した後、これらの異なるオブジェクトのデフォルト値をデータベース54に設定するように構成されている。このようにして、ホスト装置25は、根本原因分析を行うために必要な情報を根本原因機能46に提供するように構成されている。
次に、図10を続けて参照すると、ホスト装置25は、考えられる根本原因ノードがそれぞれ与えられた場合、発生する各観察ノード160の条件付き確率166を決定するように構成されている。各条件付き確率166は、グラフデータベース54から検索されたパラメータに基づいて決定されうる。グラフデータベース54は、根本原因ノード162を観察ノード160と結び付けるエッジとして条件付き確率を保存する。例えば、1つのデータストアおよび1つのVMを有する単純な環境を例にとる。データストアが根本原因である場合、データストアがレイテンシの急増を観察する確率は90%であるが、VMが根本原因である場合、そのような観察が発生する確率はわずか15%である。
次に、ホスト装置25は、各根本原因ノード162の事後確率を決定するように構成されている。例えば、観察ノード160に関連する観察が発生したとホスト装置25が決定した場合単純ベイズ分類器のプロセスに従って、事後確率は、各根本原因ノード162に対する事前確率と各根本原因ノードおよび観察ノード160に関連する条件付き確率との積として構成される。
各根本原因ノード162の事後確率の比較に基づいて、ホスト装置25は、検出された異常の1つ以上の発生源または根本原因を選択するように構成されている。上記のように、異常検出の1つの態様は、検出された異常の根本原因または発生源の決定を含む。これに関連して、根本原因は、問題を引き起こしたと考えられる1つ以上の管理オブジェクト(VM、仮想ディスク、データストアなど)の集合である。複数の関連する管理オブジェクトがそれぞれ異常を経験する場合、これらの異常は、同じイベントの一部と見なされるため、同じ根本原因を共有する。したがって、上記の根本原因分析に基づいて、ホスト装置25は、検出された異常の発生源として、コンピュータインフラ11に関連する1つ以上のオブジェクトを選択するように構成されている。
以下、例えば単純ベイズ分類器を使用して、異常根本原因を決定するプロセスの一例を説明する。このプロセスでは、異常を有する管理オブジェクトがホスト装置25によって特定される。次に、そのオブジェクトおよびその関連オブジェクトの全てが、考えられる根本原因と見なされる。ホスト装置25は、考えられるそれぞれの根本原因を考慮して、インフラ11で観察された挙動がありそうか、ありそうにないかを決定する。従来の単純ベイズ分類器のプロセスを使用して、ホスト装置25は、考えられるそれぞれの根本原因の事後確率を、検出された異常の真の根本原因であると決定するように構成されている。最後に、ホスト装置25は、異常の最も可能性の高い根本原因として1つ以上の根本原因を選択するように構成されている。
さらに、後述するプロセスの例に関して、ホスト装置25が異常を検出すると、ホスト装置25は、異常の根本原因として1つ以上の管理オブジェクトを選択するように構成されている。ホスト装置25は、たとえ現在の異常が進行中の唯一の異常であったとしても、根本原因を選択する。例えば、どの関連オブジェクトも異常を経験していない場合において1つのVMが異常を経験した場合、ホスト装置25は、適切な根本原因を選択するように構成されている。さらに、第2の関連VMが異常を経験する場合、ホスト装置25は、両方の異常を同じイベントの一部として考慮するように構成されている。その結果、ホスト装置25は、このイベントに対する根本原因を選択することができ、これには2つの異常が含まれる。
例えば、図9を参照して、ここではVM_RedまたはVM_Rと呼ばれる第1の仮想マシン122−1と、ここではVM_BlueまたはVM_Bと呼ばれる第2の仮想マシン122−2と、ここではDS_SilverまたはDS_Siと呼ばれるデータストア129とを有する環境またはトポロジ150を検討する。また、次のシナリオが観察されるシーケンスを検討する。
(1)VM_Redはレイテンシ異常を経験する(他のオブジェクトは正常な状態である)。
(2)VM_Redがまだ異常を経験している間に、DS_Silverはレイテンシ異常を経験する(VM_Blueはまだ正常な状態である)。
(3)VM_RedおよびDS_Silverがまだ異常を経験している間に、VM_Blueはレイテンシ異常を経験し始める。この時点で全てのオブジェクトがレイテンシ異常を経験している。
ホスト装置25が根本原因機能46を実行するとき、ホスト装置25は、これらのシナリオのそれぞれを検討するように構成されている。例えば、環境150は3つの管理オブジェクトを含むため、観察された任意の異常に対して3つの考えられる根本原因がある。
(1)VM_Red(つまり、考えられる根本原因RC_Red)。いかなる異常に対しても、事前確率は25%である。これは、P(RC_Red)=0.25と記される。
(2)DS_Silver(つまり、考えられる根本原因RC_Silver)。いかなる異常に対しても、事前確率は50%である。これは、P(RC_Silver)=0.5と記される。
(3)VM_Blue(つまり、考えられる根本原因RC_Blue)。いかなる異常に対しても、事前確率は25%である。これは、P(RC_Blue)=0.25と記される。
ホスト装置25は、単純ベイズ分類器を使用して以下の観察を追跡するように構成されている。条件付確率のために使用される数学的記法は、以下の通りである。P(A|B)=0.75は、「イベントBが発生した場合のイベントAの発生確率は75%である」と読むことができる。次の表は、単純ベイズ分類器に基づく各観察に関連する各観察および関連する条件付き確率を特定したものである。
Figure 2018530803
ホスト装置25は、上記シーケンスの各シナリオにおいて、事前確率および条件付き確率を使用して事後確率を決定するように構成されている。
シナリオ1:VM_Redは異常あり
シーケンスの第1のシナリオでは、VM_Redはレイテンシ異常であるが、他のオブジェクトは異常状態ではない。システムの観察は、現在の状態である。
Lat_Red,NOT_Lat_Silver,NOT_Lat_Blue,NOT_Multi_Anom
ホスト装置25は、事後確率を以下のように計算する。

P(RC_Red | Lat_Red,NOT_Lat_Silver,NOT_Lat_Blue,NOT_Multi_Anom)=
P(RC_Red)* P(Lat_Red | RC_Red)* P(NOT_Lat_Silver | RC_Red)*
P(NOT_Lat_Blue | RC_Red)* P(NOT_Multi_Anom | RC_Red)=
0.25 * 1.0 * 0.9 * 0.65 * 0.85 = 0.1243 = 12.43%

P(RC_Silver | Lat_Red,NOT_Lat_Silver,NOT_Lat_Blue,NOT_Multi_Anom)=
P(RC_Silver)* P(Lat_Red | RC_Silver)* P(NOT_Lat_Silver | RC_Silver)*
P(NOT_Lat_Blue | RC_Silver)* P(NOT_Multi_Anom | RC_Silver)=
0.50×0.25×0.0×0.75×0.2 = 0.00 = 0.0%

P(RC_Blue | Lat_Red,NOT_Lat_Silver,NOT_Lat_Blue,NOT_Multi_Anom)=
P(RC_Blue)* P(Lat_Red | RC_Blue)* P(NOT_Lat_Silver | RC_Blue)*
P(NOT_Lat_Blue | RC_Blue)* P(NOT_Multi_Anom | RC_Blue)=
0.25 * 0.35 * 0.9 * 0.0 * 0.85 = 0.00 = 0.0%
RC_Redの計算された事後確率はRC_SilverまたはRC_Blueよりもはるかに大きいため、ホスト装置25は、この時点で、VM_Redが異常の根本原因であると決定する。
シナリオ2:VM_Redは異常あり、DS_Silverは異常あり
シーケンスの第2のシナリオでは、VM_Redはレイテンシ異常であり、DS_Silverはレイテンシ異常であるが、VM_Blueはレイテンシ異常ではない。現在2つのオブジェクトに異常が発生しているため、ホスト装置25は、NOT_Multi_AnomからMulti_Anomに切り替える。システムの観察は、現在の状態である。
Lat_Red,Lat_Silver,NOT_Lat_Blue,Multi_Anom
次に、ホスト装置25は、事後確率を以下のように決定する。

P(RC_Red | Lat_Red,Lat_Silver,NOT_Lat_Blue,Multi_Anom)=
P(RC_Red)* P(Lat_Red | RC_Red)* P(Lat_Silver | RC_Red)*
P(NOT_Lat_Blue | RC_Red)* P(Multi_Anom | RC_Red)=
0.25 * 1.0 * 0.1 * 0.65 * 0.15 = 0.0024 = 0.24%

P(RC_Silver | Lat_Red,Lat_Silver,NOT_Lat_Blue,Multi_Anom)=
P(RC_Silver)* P(Lat_Red | RC_Silver)* P(Lat_Silver | RC_Silver)*
P(NOT_Lat_Blue | RC_Silver)* P(Multi_Anom | RC_Silver)=
0.50×0.25×1.0×0.75×0.8 = 0.075 = 7.5%

P(RC_Blue | Lat_Red,Lat_Silver,NOT_Lat_Blue,Multi_Anom)=
P(RC_Blue)* P(Lat_Red | RC_Blue)* P(Lat_Silver | RC_Blue)*
P(NOT_Lat_Blue | RC_Blue)* P(Multi_Anom | RC_Blue)=
0.25 0.35×0.1×0.0×0.15 = 0.00 = 0.0%
DS_Silverの計算された事後確率はRC_RedまたはRC_Blueよりもはるかに大きいため、ホスト装置25は、この時点で、DS_Silverが異常の根本原因であることを検出する。シナリオ1で作成されたイベントは、DS_Silverが根本原因であることを反映するように更新される。
シナリオ3:VM_Redは異常あり、DS_Silverは異常あり
シーケンスの第3のシナリオでは、VM_Red、DS_Silver、およびVM_Blueは全てレイテンシ異常を経験している。システムの観察は、現在の状態である。
Lat_Red,Lat_Silver,Lat_Blue,Multi_Anom
ホスト装置25は、事後確率を以下のように計算する。

P(RC_Red | Lat_Red,Lat_Silver,Lat_Blue,Multi_Anom)=
P(RC_Red)* P(Lat_Red | RC_Red)* P(Lat_Silver | RC_Red)*
P(Lat_Blue | RC_Red)* P(Multi_Anom | RC_Red)=
0.25 * 1.0 * 0.1 * 0.35 * 0.15 = 0.0013 = 0.13%

P(RC_Silver | Lat_Red,Lat_Silver,Lat_Blue,Multi_Anom)=
P(RC_Silver)* P(Lat_Red | RC_Silver)* P(Lat_Silver | RC_Silver)*
P(Lat_Blue | RC_Silver)* P(Multi_Anom | RC_Silver)=
0.50×0.25×1.0×0.25×0.8 = 0.025 = 2.5%

P(RC_Blue | Lat_Red,Lat_Silver,Lat_Blue,Multi_Anom)=
P(RC_Blue)* P(Lat_Red | RC_Blue)* P(Lat_Silver | RC_Blue)*
P(Lat_Blue | RC_Blue)* P(Multi_Anom | RC_Blue)=
0.25 * 0.35 * 0.1 * 1.0 * 0.15 = 0.0013 = 0.13%
DS_Silverの計算された事後確率はRC_RedまたはRC_Blueよりもはるかに大きいため、ホスト装置25は、この時点で、DS_Silverが異常の根本原因であると決定することができる。シナリオ1で作成されたイベントは、DS_Silverが根本原因であることを反映するように更新される。
事前確率および条件付き確率に基づいて、ホスト装置25は、シーケンス内の各シナリオにおける異常に根本原因を割り当てた。VM_Redのみが異常を経験していた場合、VM_Redが根本原因として特定された。VM_RedおよびDS_Silverが両方とも異常を経験していた場合、DS_Silverが根本原因として特定された。VM_Red、DS_Silver、およびVM_Blueが異常を経験していた場合、DS_Silverが再度根本原因として特定された。
事前確率または条件付き確率が異なっていた場合には、シーケンスの各シナリオにおいて異なる結論に達した可能性があることに留意されたい。
1つの構成では、根本原因機能46の一部として学習が利用される。この学習は、ユーザ入力を意思決定(分析)プロセスに組み込む半教師付き方法の手段によって行うことができ、根本原因分析の精度についての入力を組み込むためのUIへの変更が含まれる。このユーザ入力に基づいて、異常の根本原因をより正確に選択するようにモデル内の確率が変更される。
ガウスの単純ベイズ分類器(Gaussian Naive Bayes Classifier)
1つの構成では、単純ベイズ分類器は、ブール値の観察だけでなく、ガウス分布に沿った測定の確率をも計算するように構成されている。例えば、特定の時間枠内でVMの最大レイテンシ測定値を表すObservationがありうる。単純ベイズ分類器は、確率を計算するためにイエス/ノーレスポンスを使用する代わりに、この測定値を使用して条件付き確率を計算することができる。
上記のように、ホスト装置25は、グラフデータベース54にアクセスして、検出された異常によって影響を受けるコンピュータインフラ11の特定の要素を特定するように構成されている。ホスト装置25は、根本原因分析機能46によって、根本原因分析を使用してVM固有のI/O性能データを分析することによって、これらの要素が本当に問題を経験しているかどうかを分析するように構成されている。この構成により、ホスト装置25は、エンドユーザ(例えば、システム管理者)に、検出された異常の考えられる原因に関する特定情報52をほぼタイムリーに提供することができる。例えば、図3のフローチャート100に戻ると、要素108において、ホスト装置25は、特定された根本原因確率に基づいて、異常に関連する根本オブジェクトの特定情報52を出力するように構成されている。
ホスト装置25は、さまざまな方法で特定情報52を提供することができる。例えば、ホスト装置25は、ユーザインタフェース(UI)出力50としてディスプレイ52に特定情報52を送信することができる。例えば、図11に示すように、ホスト装置25は、GUI50の一部として特定情報52を提供する。GUI50は、異常の発生源であるオブジェクト170、および、異常によって影響を受ける関連オブジェクト172を示す。このような特定情報により、システム管理者は、異常の発生源を決定し、必要に応じて是正措置を講じることができる。1つの構成では、VM上で動作する作業負荷の根本原因分析に続いて、UIは、エンドユーザ(例えば、システム管理者)に、コンピュータ環境における検出された異常の考えられる原因の特定を提案する。
1つの構成では、ホスト装置25は、エンドユーザが検出された根本原因を評価またはランク付けすることを可能にするUIとして特定情報52を提供するように構成されている。例えば、図12を参照すると、ホスト装置25は、検出された異常発生源(つまり、根本原因)180のリストおよびランキング入力部182を含むユーザインタフェース(UI)出力50として特定情報52を提供する。ランキング入力部182は、エンドユーザが検出された異常の重要度をランク付けする184ことを可能にする。ランク184が特定の閾値に達した場合、ホスト装置25は、ランク異常分析の第2根本原因分析を実行して、根本原因分析確率を再計算するように構成されている。この構成により、ホスト装置25は、根本原因分析を動的に更新するために、ユーザ入力による半教師付き学習を組み込む。
以上特に本発明のさまざまな実施形態を示し説明してきたが、当業者であれば、添付の特許請求の範囲によって定義された本発明の精神および範囲から逸脱することなく、形式および詳細のさまざまな変更を行うことができることを理解するであろう。

Claims (20)

  1. ホスト装置においてコンピュータ環境の異常分析を行う方法であって、
    前記ホスト装置が、コンピュータインフラのコンピュータ環境リソースの属性に関連する異常を決定するステップと、
    前記ホスト装置が、前記検出異常の前記属性に関連するオブジェクトを前記コンピュータインフラの関連オブジェクトと相関させるステップと、
    前記ホスト装置が、前記相関オブジェクトの各オブジェクトに対する根本原因確率を決定するステップであって、前記根本原因確率は、前記相関オブジェクトが前記検出異常の原因として機能する確率を特定する、ステップと、
    前記ホスト装置が、前記特定した根本原因確率に基づいて前記異常に関連する根本オブジェクトの識別を出力するステップと、
    を有する方法。
  2. 前記コンピュータインフラのコンピュータ環境リソースの前記属性に関連する前記異常を検出するステップは、
    ホスト装置が、前記コンピュータインフラの前記コンピュータ環境リソースの前記属性に関連するデータ要素集合に分類機能を適用して、前記データ要素集合の少なくとも1つデータ要素群を定義するステップと、
    ホスト装置が、前記データ要素集合のデータ要素が前記少なくとも1つのデータ要素群の外にある場合に、前記データ要素を前記属性に関連する異常要素として特定するステップと、
    を有する、請求項1に記載の方法。
  3. 前記分類機能を前記データ要素集合に適用して前記データ要素集合の前記少なくとも1つのデータ要素群を定義するステップは、ホスト装置が、前記データ要素集合にクラスタリング機能を適用して前記データ要素集合の少なくとも1つのデータ要素クラスタを定義するステップを有する、請求項2に記載の方法。
  4. 前記データ要素集合のデータ要素が前記少なくとも1つのデータ要素群の外にある場合に前記データ要素を前記属性に関連する異常要素として特定するステップは、ホスト装置が、前記データ要素集合のデータ要素が前記データ要素集合の前記少なくとも1つのデータ要素クラスタの外にある場合に、前記データ要素を前記属性に関連する異常要素として特定するステップを有する、請求項3に記載の方法。
  5. ホスト装置が、前記データ要素集合の前記少なくとも1つのデータ要素クラスタに学習挙動機能を適用するステップであって、前記学習挙動機能は、前記少なくとも1つのデータ要素クラスタに対して少なくとも1つの学習挙動境界を定義する、ステップ、
    をさらに有し、
    前記データ要素集合のデータ要素が前記少なくとも1つのデータ要素群の外にある場合に前記データ要素を前記属性に関連する異常要素として特定するステップは、ホスト装置が、前記データ要素集合のデータ要素が前記少なくとも1つの学習挙動境界の外にある場合に、前記データ要素を前記属性に関連する異常要素として特定するステップを有する、
    請求項3に記載の方法。
  6. ホスト装置が、前記少なくとも1つの学習挙動境界に感度機能を適用するステップであって、前記感度機能は、少なくとも1つの学習挙動境界に対して感度境界を定義する、ステップ、
    をさらに有し、
    前記データ要素集合のデータ要素が前記少なくとも1つのデータ要素群の外にある場合に前記データ要素を前記属性に関連する異常要素として特定するステップは、ホスト装置が、前記データ要素集合のデータ要素が前記感度境界の外にある場合に、前記データ要素を前記属性に関連する異常要素として特定するステップを有する、
    請求項5に記載の方法。
  7. 前記検出異常の前記属性に関連する前記オブジェクトを前記コンピュータインフラの前記関連オブジェクトと相関させるステップは、
    前記ホスト装置が、グラフデータベースにアクセスするステップと、
    前記ホスト装置が、前記検出異常の前記属性に関連する前記オブジェクトおよび前記関連オブジェクトをグラフデータベースによって特定するステップと、
    を有する、請求項1に記載の方法。
  8. 前記相関オブジェクトの各オブジェクトに対する前記根本原因確率を特定するステップは、
    前記ホスト装置が、異常オブジェクトおよび関連オブジェクトの1つに起因する異常の事前確率を検出するステップと、
    前記ホスト装置が、異常オブジェクトおよび関連オブジェクトの1つに起因する異常の条件付き確率を検出するステップと、
    前記ホスト装置が、異常オブジェクトおよび関連オブジェクトの1つに起因する異常の事後確率を検出するステップであって、前記事後確率は、前記事前確率および前記条件付き確率に基づく、ステップと、
    を有する、請求項1に記載の方法。
  9. 前記特定した根本原因確率に基づいて前記異常に関連する前記根本オブジェクトの前記識別を出力するステップは、
    前記ホスト装置が、前記コンピュータ環境における検出異常の少なくとも1つの推定原因を特定するユーザインタフェースを提供するステップと、
    前記ホスト装置が、前記検出異常に関連するランキング情報を受信するステップと、
    前記ホスト装置が、前記ランキング情報に基づいてデータセットに関する第2根本原因分析を行うステップと、
    を有する、請求項1に記載の方法。
  10. 前記ホスト装置が、前記コンピュータインフラリソースの前記属性に関連する前記データ要素集合を更新して更新データ要素を含めるステップと、
    前記ホスト装置が、前記更新データ要素を含む前記データ要素集合に特性化機能を適用して、前記データ要素集合の少なくとも1つのデータ要素群を定義するステップと、
    をさらに有する、請求項2に記載の方法。
  11. メモリおよびプロセッサを備えるコントローラを有し、前記コントローラは、
    コンピュータインフラのコンピュータ環境リソースの属性に関連する異常を決定し、
    前記検出異常の前記属性に関連するオブジェクトを前記コンピュータインフラの関連オブジェクトと相関させ、
    前記相関オブジェクトの各オブジェクトに対する根本原因確率を決定し、前記根本原因確率は、前記相関オブジェクトが前記検出異常の原因として機能する確率を特定する、
    前記特定した根本原因確率に基づいて前記異常に関連する根本オブジェクトの識別を出力する、
    ように構成されているホスト装置。
  12. 前記コンピュータインフラのコンピュータ環境リソースの前記属性に関連する前記異常を検出するとき、前記コントローラは、
    前記コンピュータインフラの前記コンピュータ環境リソースの前記属性に関連するデータ要素集合に分類機能を適用して、前記データ要素集合の少なくとも1つデータ要素群を定義し、
    前記データ要素集合のデータ要素が前記少なくとも1つのデータ要素群の外にある場合に、前記データ要素を前記属性に関連する異常要素として特定する、
    ように構成されている、請求項11に記載のホスト装置。
  13. 前記分類機能を前記データ要素集合に適用して前記データ要素集合の前記少なくとも1つのデータ要素群を定義するとき、前記ホスト装置は、前記データ要素集合にクラスタリング機能を適用して前記データ要素集合の少なくとも1つのデータ要素クラスタを定義するように構成されている、請求項12に記載のホスト装置。
  14. 前記データ要素集合のデータ要素が前記少なくとも1つのデータ要素群の外にある場合に前記データ要素を前記属性に関連する異常要素として特定するとき、前記コントローラは、前記データ要素集合のデータ要素が前記データ要素集合の前記少なくとも1つのデータ要素クラスタの外にある場合に、前記データ要素を前記属性に関連する異常要素として特定するように構成されている、請求項13に記載のホスト装置。
  15. 前記コントローラは、さらに、
    前記データ要素集合の前記少なくとも1つのデータ要素クラスタに学習挙動機能を適用するように構成されており、前記学習挙動機能は、前記少なくとも1つのデータ要素クラスタに対して少なくとも1つの学習挙動境界を定義し、
    前記データ要素集合のデータ要素が前記少なくとも1つのデータ要素群の外にある場合に前記データ要素を前記属性に関連する異常要素として特定するとき、前記コントローラは、前記データ要素集合のデータ要素が前記少なくとも1つの学習挙動境界の外にある場合に、前記データ要素を前記属性に関連する異常要素として特定するように構成されている、請求項13に記載のホスト装置。
  16. 前記コントローラは、さらに、
    前記少なくとも1つの学習挙動境界に感度機能を適用するように構成されており、前記感度機能は、少なくとも1つの学習挙動境界に対して感度境界を定義し、
    前記データ要素集合のデータ要素が前記少なくとも1つのデータ要素群の外にある場合に前記データ要素を前記属性に関連する異常要素として特定するとき、前記コントローラは、前記データ要素集合のデータ要素が前記感度境界の外にある場合に、前記データ要素を前記属性に関連する異常要素として特定するように構成されている、請求項15に記載のホスト装置。
  17. 前記検出異常の前記属性に関連する前記オブジェクトを前記コンピュータインフラの前記関連オブジェクトと相関させるとき、前記コントローラは、
    グラフデータベースにアクセスし、
    前記検出異常の前記属性に関連する前記オブジェクトおよび前記関連オブジェクトをグラフデータベースによって特定する、
    ように構成されている、請求項11に記載のホスト装置。
  18. 前記相関オブジェクトの各オブジェクトに対する前記根本原因確率を特定するとき、前記ホスト装置は、
    異常オブジェクトおよび関連オブジェクトの1つに起因する異常の事前確率を検出し、
    異常オブジェクトおよび関連オブジェクトの1つに起因する異常の条件付き確率を検出し、
    異常オブジェクトおよび関連オブジェクトの1つに起因する異常の事後確率を検出する、前記事後確率は、前記事前確率および前記条件付き確率に基づく、
    ように構成されている、請求項11に記載のホスト装置。
  19. 前記特定した根本原因確率に基づいて前記異常に関連する前記根本オブジェクトの前記識別を出力するとき、前記コントローラは、
    前記コンピュータ環境における検出異常の少なくとも1つの推定原因を特定するユーザインタフェースを提供し、
    前記検出異常に関連するランキング情報を受信し、
    前記ランキング情報に基づいてデータセットに関する第2根本原因分析を行う、
    ように構成されている、請求項11に記載のホスト装置。
  20. 前記コントローラは、さらに、
    前記コンピュータインフラリソースの前記属性に関連する前記データ要素集合を更新して更新データ要素を含め、
    前記更新データ要素を含む前記データ要素集合に特性化機能を適用して、前記データ要素集合の少なくとも1つのデータ要素群を定義する、
    ように構成されている、請求項12に記載のホスト装置。
JP2018502001A 2015-07-14 2016-07-14 コンピュータ環境における根本原因分析および修復のために機械学習原理を活用する装置および方法 Pending JP2018530803A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562192403P 2015-07-14 2015-07-14
US62/192,403 2015-07-14
PCT/US2016/042365 WO2017011708A1 (en) 2015-07-14 2016-07-14 Apparatus and method of leveraging machine learning principals for root cause analysis and remediation in computer environments

Publications (1)

Publication Number Publication Date
JP2018530803A true JP2018530803A (ja) 2018-10-18

Family

ID=57757598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018502001A Pending JP2018530803A (ja) 2015-07-14 2016-07-14 コンピュータ環境における根本原因分析および修復のために機械学習原理を活用する装置および方法

Country Status (4)

Country Link
US (1) US10055275B2 (ja)
EP (1) EP3323046A4 (ja)
JP (1) JP2018530803A (ja)
WO (1) WO2017011708A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020190935A (ja) * 2019-05-22 2020-11-26 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396283B2 (en) 2010-10-22 2016-07-19 Daniel Paul Miranker System for accessing a relational database using semantic queries
US20170206462A1 (en) * 2016-01-14 2017-07-20 International Business Machines Corporation Method and apparatus for detecting abnormal contention on a computer system
US10102055B1 (en) * 2016-03-22 2018-10-16 EMC IP Holding Company LLC Data driven converged infrastructure components evaluation
US10826933B1 (en) 2016-03-31 2020-11-03 Fireeye, Inc. Technique for verifying exploit/malware at malware detection appliance through correlation with endpoints
US10893059B1 (en) 2016-03-31 2021-01-12 Fireeye, Inc. Verification and enhancement using detection systems located at the network periphery and endpoint devices
US10169133B2 (en) * 2016-04-26 2019-01-01 Juniper Networks, Inc. Method, system, and apparatus for debugging networking malfunctions within network nodes
US10552427B2 (en) 2016-04-29 2020-02-04 Nutanix, Inc. Searching for information relating to virtualization environments
US11334625B2 (en) 2016-06-19 2022-05-17 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US10452677B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US11068847B2 (en) 2016-06-19 2021-07-20 Data.World, Inc. Computerized tools to facilitate data project development via data access layering logic in a networked computing platform including collaborative datasets
US11086896B2 (en) 2016-06-19 2021-08-10 Data.World, Inc. Dynamic composite data dictionary to facilitate data operations via computerized tools configured to access collaborative datasets in a networked computing platform
US10824637B2 (en) 2017-03-09 2020-11-03 Data.World, Inc. Matching subsets of tabular data arrangements to subsets of graphical data arrangements at ingestion into data driven collaborative datasets
US10452975B2 (en) 2016-06-19 2019-10-22 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US10353911B2 (en) 2016-06-19 2019-07-16 Data.World, Inc. Computerized tools to discover, form, and analyze dataset interrelations among a system of networked collaborative datasets
US10438013B2 (en) 2016-06-19 2019-10-08 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US11755602B2 (en) 2016-06-19 2023-09-12 Data.World, Inc. Correlating parallelized data from disparate data sources to aggregate graph data portions to predictively identify entity data
US11675808B2 (en) 2016-06-19 2023-06-13 Data.World, Inc. Dataset analysis and dataset attribute inferencing to form collaborative datasets
US11941140B2 (en) 2016-06-19 2024-03-26 Data.World, Inc. Platform management of integrated access of public and privately-accessible datasets utilizing federated query generation and query schema rewriting optimization
US10324925B2 (en) 2016-06-19 2019-06-18 Data.World, Inc. Query generation for collaborative datasets
US11023104B2 (en) 2016-06-19 2021-06-01 data.world,Inc. Interactive interfaces as computerized tools to present summarization data of dataset attributes for collaborative datasets
US11042537B2 (en) 2016-06-19 2021-06-22 Data.World, Inc. Link-formative auxiliary queries applied at data ingestion to facilitate data operations in a system of networked collaborative datasets
US11036697B2 (en) 2016-06-19 2021-06-15 Data.World, Inc. Transmuting data associations among data arrangements to facilitate data operations in a system of networked collaborative datasets
US10747774B2 (en) 2016-06-19 2020-08-18 Data.World, Inc. Interactive interfaces to present data arrangement overviews and summarized dataset attributes for collaborative datasets
US11468049B2 (en) 2016-06-19 2022-10-11 Data.World, Inc. Data ingestion to generate layered dataset interrelations to form a system of networked collaborative datasets
US11947554B2 (en) 2016-06-19 2024-04-02 Data.World, Inc. Loading collaborative datasets into data stores for queries via distributed computer networks
US10853376B2 (en) 2016-06-19 2020-12-01 Data.World, Inc. Collaborative dataset consolidation via distributed computer networks
US11042548B2 (en) 2016-06-19 2021-06-22 Data World, Inc. Aggregation of ancillary data associated with source data in a system of networked collaborative datasets
US11042556B2 (en) 2016-06-19 2021-06-22 Data.World, Inc. Localized link formation to perform implicitly federated queries using extended computerized query language syntax
US10645548B2 (en) 2016-06-19 2020-05-05 Data.World, Inc. Computerized tool implementation of layered data files to discover, form, or analyze dataset interrelations of networked collaborative datasets
US11036716B2 (en) 2016-06-19 2021-06-15 Data World, Inc. Layered data generation and data remediation to facilitate formation of interrelated data in a system of networked collaborative datasets
US10346429B2 (en) * 2016-06-19 2019-07-09 Data.World, Inc. Management of collaborative datasets via distributed computer networks
US11042560B2 (en) 2016-06-19 2021-06-22 data. world, Inc. Extended computerized query language syntax for analyzing multiple tabular data arrangements in data-driven collaborative projects
TWI608365B (zh) * 2016-09-23 2017-12-11 財團法人工業技術研究院 擾動源追溯方法
US11238109B2 (en) 2017-03-09 2022-02-01 Data.World, Inc. Computerized tools configured to determine subsets of graph data arrangements for linking relevant data to enrich datasets associated with a data-driven collaborative dataset platform
US11068453B2 (en) 2017-03-09 2021-07-20 data.world, Inc Determining a degree of similarity of a subset of tabular data arrangements to subsets of graph data arrangements at ingestion into a data-driven collaborative dataset platform
US11176464B1 (en) * 2017-04-25 2021-11-16 EMC IP Holding Company LLC Machine learning-based recommendation system for root cause analysis of service issues
US10642677B2 (en) * 2017-11-02 2020-05-05 International Business Machines Corporation Log-based diagnosis for declarative-deployed applications
US10419274B2 (en) 2017-12-08 2019-09-17 At&T Intellectual Property I, L.P. System facilitating prediction, detection and mitigation of network or device issues in communication systems
US11509540B2 (en) * 2017-12-14 2022-11-22 Extreme Networks, Inc. Systems and methods for zero-footprint large-scale user-entity behavior modeling
JP6954379B2 (ja) * 2018-01-12 2021-10-27 日本電信電話株式会社 異常箇所特定装置、異常箇所特定方法及びプログラム
US11023472B2 (en) 2018-02-27 2021-06-01 Nutanix, Inc. System and method for troubleshooting in a virtual computing system
US11243960B2 (en) 2018-03-20 2022-02-08 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
US10922308B2 (en) 2018-03-20 2021-02-16 Data.World, Inc. Predictive determination of constraint data for application with linked data in graph-based datasets associated with a data-driven collaborative dataset platform
US20210027182A1 (en) * 2018-03-21 2021-01-28 Visa International Service Association Automated machine learning systems and methods
US10789507B2 (en) * 2018-03-30 2020-09-29 Walmart Apollo, Llc Relative density-based clustering and anomaly detection system
US11070455B2 (en) 2018-04-30 2021-07-20 Hewlett Packard Enterprise Development Lp Storage system latency outlier detection
US10778552B2 (en) 2018-04-30 2020-09-15 Hewlett Packard Enterprise Development Lp Storage system latency evaluation based on I/O patterns
US11086646B2 (en) 2018-05-18 2021-08-10 Adobe Inc. Tenant-side detection, classification, and mitigation of noisy-neighbor-induced performance degradation
US11947529B2 (en) 2018-05-22 2024-04-02 Data.World, Inc. Generating and analyzing a data model to identify relevant data catalog data derived from graph-based data arrangements to perform an action
USD940732S1 (en) 2018-05-22 2022-01-11 Data.World, Inc. Display screen or portion thereof with a graphical user interface
USD940169S1 (en) 2018-05-22 2022-01-04 Data.World, Inc. Display screen or portion thereof with a graphical user interface
JP7202078B2 (ja) * 2018-05-24 2023-01-11 株式会社日立製作所 保全作業支援システム
US11442988B2 (en) 2018-06-07 2022-09-13 Data.World, Inc. Method and system for editing and maintaining a graph schema
EP3582050B1 (de) * 2018-06-12 2021-04-28 Siemens Aktiengesellschaft Verfahren zum analysieren einer ursache mindestens einer abweichung
CN109634252B (zh) * 2018-11-06 2020-06-26 华为技术有限公司 一种根因诊断的方法、装置
US11106525B2 (en) * 2019-02-04 2021-08-31 Servicenow, Inc. Systems and methods for classifying and predicting the cause of information technology incidents using machine learning
US11113132B2 (en) 2019-02-08 2021-09-07 Hewlett Packard Enterprise Development Lp Localization of potential issues to objects
DE102020102936B4 (de) 2019-02-08 2023-05-17 Hewlett Packard Enterprise Development Lp Lokalisierung potenzieller probleme an objekte
US11481117B2 (en) 2019-06-17 2022-10-25 Hewlett Packard Enterprise Development Lp Storage volume clustering based on workload fingerprints
US20190325292A1 (en) * 2019-06-28 2019-10-24 Intel Corporation Methods, apparatus, systems and articles of manufacture for providing query selection systems
US11243832B2 (en) * 2019-10-10 2022-02-08 International Business Machines Corporation Dynamically analyzing diagnostic operations data via machine learning techniques
US11526422B2 (en) 2019-11-18 2022-12-13 Bmc Software, Inc. System and method for troubleshooting abnormal behavior of an application
US11379442B2 (en) 2020-01-07 2022-07-05 Bank Of America Corporation Self-learning database issue remediation tool
US11651254B2 (en) * 2020-07-07 2023-05-16 Intuit Inc. Inference-based incident detection and reporting
US20220100636A1 (en) * 2020-09-29 2022-03-31 Amazon Technologies, Inc. Assisted detection of application performance issues using serverless compute templates
US20230016199A1 (en) * 2021-07-16 2023-01-19 State Farm Mutual Automobile Insurance Company Root cause detection of anomalous behavior using network relationships and event correlation
US11962456B2 (en) * 2021-07-21 2024-04-16 Microsoft Technology Licensing, Llc Automated cross-service diagnostics for large scale infrastructure cloud service providers
US11947600B2 (en) 2021-11-30 2024-04-02 Data.World, Inc. Content addressable caching and federation in linked data projects in a data-driven collaborative dataset platform using disparate database architectures
US20230195715A1 (en) * 2021-12-16 2023-06-22 Thomson Reuters Enterprise Centre Gmbh Systems and methods for detection and correction of anomalies priority
US20230351434A1 (en) * 2022-05-01 2023-11-02 Truist Bank Training an artificial intelligence engine to predict responses for determining appropriate action
US20240020191A1 (en) * 2022-07-13 2024-01-18 Vmware, Inc. Methods and systems for resolving root causes of performance problems with applications executing in a data center

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348640A (ja) * 2003-05-26 2004-12-09 Hitachi Ltd ネットワーク管理システム及びネットワーク管理方法
JP2011192097A (ja) * 2010-03-16 2011-09-29 Hitachi Ltd 異常検知方法およびそれを用いた情報処理システム
JP2012059063A (ja) * 2010-09-09 2012-03-22 Hitachi Ltd 計算機システムの管理方法、及び管理システム
WO2014132611A1 (ja) * 2013-02-26 2014-09-04 日本電気株式会社 システム分析装置、及び、システム分析方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8782087B2 (en) 2005-03-18 2014-07-15 Beyondcore, Inc. Analyzing large data sets to find deviation patterns
US8407170B2 (en) * 2008-11-25 2013-03-26 Lockheed Martin Corporation Root-cause analysis system and associated methods
US20120137367A1 (en) 2009-11-06 2012-05-31 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US8347144B2 (en) * 2010-06-11 2013-01-01 Scientific Monitoring Inc. False alarm mitigation
US20130173332A1 (en) * 2011-12-29 2013-07-04 Tom Thuy Ho Architecture for root cause analysis, prediction, and modeling and methods therefor
US20130080372A1 (en) * 2011-07-27 2013-03-28 Tom Thuy Ho Architecture and methods for tool health prediction
US8862727B2 (en) * 2012-05-14 2014-10-14 International Business Machines Corporation Problem determination and diagnosis in shared dynamic clouds
US9071510B2 (en) * 2012-10-25 2015-06-30 Hewlett-Packard Development Company, L.P. Determining root causes of network issues
US9183033B2 (en) * 2012-12-06 2015-11-10 Industrial Technology Research Institute Method and system for analyzing root causes of relating performance issues among virtual machines to physical machines
US9064213B2 (en) * 2013-02-05 2015-06-23 International Business Machines Corporation Dynamic model-based analysis of data centers
US9632858B2 (en) * 2013-07-28 2017-04-25 OpsClarity Inc. Organizing network performance metrics into historical anomaly dependency data
US10277476B2 (en) * 2014-01-06 2019-04-30 Cisco Technology, Inc. Optimizing network parameters based on a learned network performance model
US20150333998A1 (en) * 2014-05-15 2015-11-19 Futurewei Technologies, Inc. System and Method for Anomaly Detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348640A (ja) * 2003-05-26 2004-12-09 Hitachi Ltd ネットワーク管理システム及びネットワーク管理方法
JP2011192097A (ja) * 2010-03-16 2011-09-29 Hitachi Ltd 異常検知方法およびそれを用いた情報処理システム
JP2012059063A (ja) * 2010-09-09 2012-03-22 Hitachi Ltd 計算機システムの管理方法、及び管理システム
WO2014132611A1 (ja) * 2013-02-26 2014-09-04 日本電気株式会社 システム分析装置、及び、システム分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中島淳,外2名: "ITシステム運用管理への自動化技術適用に関する一考察", 電子情報通信学会技術研究報告 ICM2014−54−ICM2014−78 情報通信マネジメント, vol. 第114巻,第523号, JPN6019009135, 12 March 2015 (2015-03-12), JP, pages 73 - 78, ISSN: 0004140488 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020190935A (ja) * 2019-05-22 2020-11-26 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置
JP7197795B2 (ja) 2019-05-22 2022-12-28 富士通株式会社 機械学習プログラム、機械学習方法および機械学習装置

Also Published As

Publication number Publication date
US10055275B2 (en) 2018-08-21
WO2017011708A1 (en) 2017-01-19
US20170017537A1 (en) 2017-01-19
EP3323046A1 (en) 2018-05-23
EP3323046A4 (en) 2019-04-24

Similar Documents

Publication Publication Date Title
JP2018530803A (ja) コンピュータ環境における根本原因分析および修復のために機械学習原理を活用する装置および方法
US10365915B2 (en) Systems and methods of monitoring a network topology
US10983856B2 (en) Identifying root causes of performance issues
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和系统
US8924328B1 (en) Predictive models for configuration management of data storage systems
JP2017529590A (ja) グラフ理論を用いたアプリケーション、仮想化およびクラウド・インフラストラクチャ・リソースの集中型分析
US20170294112A1 (en) Alarm causality templates for network function virtualization
US10809936B1 (en) Utilizing machine learning to detect events impacting performance of workloads running on storage systems
US20210097431A1 (en) Debugging and profiling of machine learning model training
US9860109B2 (en) Automatic alert generation
US20230016199A1 (en) Root cause detection of anomalous behavior using network relationships and event correlation
US11900248B2 (en) Correlating data center resources in a multi-tenant execution environment using machine learning techniques
US20210366268A1 (en) Automatic tuning of incident noise
Bogojeska et al. Classifying server behavior and predicting impact of modernization actions
EP3956771B1 (en) Timeout mode for storage devices
US8782341B1 (en) Embedded advisory framework for storage configuration management
US11468365B2 (en) GPU code injection to summarize machine learning training data
US11403267B2 (en) Dynamic transformation code prediction and generation for unavailable data element
US10320636B2 (en) State information completion using context graphs
US9692665B2 (en) Failure analysis in cloud based service using synthetic measurements
WO2022072017A1 (en) Methods and systems for multi-resource outage detection for a system of networked computing devices and root cause identification
Harutyunyan et al. Challenges and Experiences in Designing Interpretable KPI-diagnostics for Cloud Applications
WO2019060314A1 (en) APPARATUS AND METHOD FOR INTRODUCING PROBABILITY AND UNCERTAINTY IN CLASSIFICATION OF DATA NOT SUPERVISED BY GROUPING, THROUGH CLASSIFICATION STATISTICS
US11663102B2 (en) Event-based operational data collection for impacted components
US20230385279A1 (en) Dynamic classification and optimization of computing resource utilization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190319

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191029