JP7215574B2 - 監視システム、監視方法及びプログラム - Google Patents
監視システム、監視方法及びプログラム Download PDFInfo
- Publication number
- JP7215574B2 JP7215574B2 JP2021527338A JP2021527338A JP7215574B2 JP 7215574 B2 JP7215574 B2 JP 7215574B2 JP 2021527338 A JP2021527338 A JP 2021527338A JP 2021527338 A JP2021527338 A JP 2021527338A JP 7215574 B2 JP7215574 B2 JP 7215574B2
- Authority
- JP
- Japan
- Prior art keywords
- event
- monitoring
- correlation
- failure
- types
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3495—Performance evaluation by tracing or monitoring for systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/86—Event-based monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
- Testing And Monitoring For Control Systems (AREA)
Description
本発明は、監視システム、監視方法及びプログラムに関する。
ICT(Information and Communication Technology)システム等のシステムに影響を与える障害が発生したことを検知することは一般的に行われており、近年では、障害が発生するより前に予兆を捉えたいというニーズが増えてきている。これに対して、障害予兆を検知するための既知技術としては以下のような方式が存在する。
<方式1>既知の予兆事象と障害事象の因果関係をルールとして記述し、ルールに基づいて判定する(イベントコリレーション、ルールベースAI)。
<方式2>既知障害発生時に、所定時間内のイベント一覧を監視システムが提示し、監視者が予兆事象として登録することにより、以降の予兆検知時に紐付けられた既知障害を提示する(特許文献1)。
<方式3>さまざまなセンサのデータに対して、障害事象との相関を、教師つき機械学習によって確率モデル(ベイジアンネットワーク、ニューラルネットワークなど)を作成し、センサデータより高確率で発生する障害事象を予測する(特許文献2)。
<方式1>は、予兆事象と障害事象の因果関係が数式等で記述できないとルール化そのものができないという問題があった。<方式2>は、所定時間内のイベント一覧から監視者が人手により選択するため、恣意性があり予兆事象と障害事象の因果関係が担保できないという問題があった。<方式3>は、予兆となるべきセンサデータと障害事象の相関を確率モデルにより担保しているが、教師つき学習が必要であるため教師データを的確に生成可能なシステム以外では、予測精度がよくならないという問題があった。本発明は、障害予兆を検知する従来の方式に存在するこれらの問題を解決することを課題とする。
本発明によれば、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力する監視実行手段と、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記監視実行手段が出力した前記イベントに基づき更新するイベント管理手段と、
複数の前記監視対象の互いの関係を示す構成情報に基づき、前記監視実行手段が出力した第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する相関度分析手段と、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定する相関度学習手段と、
出力装置に情報を出力させる監視制御手段と、
を有し、
前記相関度分析手段は、前記相関度学習手段が決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
前記監視制御手段は、前記相関度分析手段による分析結果を出力させる監視システムが提供される。
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力する監視実行手段と、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記監視実行手段が出力した前記イベントに基づき更新するイベント管理手段と、
複数の前記監視対象の互いの関係を示す構成情報に基づき、前記監視実行手段が出力した第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する相関度分析手段と、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定する相関度学習手段と、
出力装置に情報を出力させる監視制御手段と、
を有し、
前記相関度分析手段は、前記相関度学習手段が決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
前記監視制御手段は、前記相関度分析手段による分析結果を出力させる監視システムが提供される。
また、本発明によれば、
コンピュータが、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力し、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記イベントに基づき更新し、
複数の前記監視対象の互いの関係を示す構成情報に基づき、第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定し、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定し、
決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
分析結果を出力させる監視方法が提供される。
コンピュータが、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力し、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記イベントに基づき更新し、
複数の前記監視対象の互いの関係を示す構成情報に基づき、第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定し、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定し、
決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
分析結果を出力させる監視方法が提供される。
また、本発明によれば、
コンピュータを、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力する監視実行手段、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記監視実行手段が出力した前記イベントに基づき更新するイベント管理手段、
複数の前記監視対象の互いの関係を示す構成情報に基づき、前記監視実行手段が出力した第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する相関度分析手段、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定する相関度学習手段、
出力装置に情報を出力させる監視制御手段、
として機能させ、
前記相関度分析手段は、前記相関度学習手段が決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
前記監視制御手段は、前記相関度分析手段による分析結果を出力させるプログラムが提供される。
コンピュータを、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力する監視実行手段、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記監視実行手段が出力した前記イベントに基づき更新するイベント管理手段、
複数の前記監視対象の互いの関係を示す構成情報に基づき、前記監視実行手段が出力した第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する相関度分析手段、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定する相関度学習手段、
出力装置に情報を出力させる監視制御手段、
として機能させ、
前記相関度分析手段は、前記相関度学習手段が決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
前記監視制御手段は、前記相関度分析手段による分析結果を出力させるプログラムが提供される。
本発明によれば、障害予兆を検知する従来の方式に存在する上記問題を解決することができる。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本実施形態の監視システムについて詳細に説明する。監視システムは、ICTシステム等のシステムを監視し、障害を検知・通報する機能を有する。
図1に、本実施形態の監視システム1の機能ブロック図の一例を示す。図示するように、監視システム1は、監視実行部101と、監視制御部102と、監視UI(user interface)部103と、予兆分析・学習部2とを有する。予兆分析・学習部2は、イベント管理部201と、相関度分析部202と、相関度学習部203と、イベント相関DB(database)204と、構成DB301とを有する。なお、監視システム1は、イベント相関DB204、及び、構成DB301の少なくとも一方を有さなくてもよい。この場合、監視システム1と通信可能に構成された外部装置が、イベント相関DB204、及び、構成DB301の少なくとも一方を有する。以下、各機能部の構成を説明する。
監視実行部101は、監視対象システムに含まれる複数の監視対象各々の監視を行い、監視対象の識別情報、及び、監視対象に生じている事象を示すイベントを出力する。
監視対象システムは、ICTシステム等の任意のシステムである。監視対象は監視対象システム内に存在するリソースである。当該リソースは、例えば、ハードウエア、オペレーティングシステム、ミドルウェア、アプリケーション、ファイル等が例示されるが、これらに限定されない。監視対象を監視する方式は、本実施形態では特に限定されない。例えば、死活監視・ログ監視・閾値監視などのリアルタイムに監視する方式を採用してもよいし、過去データをもとにしたベースライン監視や統計的手法による特徴量検出などの監視方式を採用してもよい。また、監視実行部101がイベントを出力するタイミングは様々であり、例えば、予め定められた所定時間毎に出力してもよい。
監視制御部102は、監視実行部101が出力したイベントを取得する。そして、監視制御部102は、監視UI部103を介して監視者にイベント発生を通知する。例えば、監視制御部102は、取得したイベントが所定の障害事象を示す場合、監視UI部103を介して監視者に障害事象の発生を示す情報を出力させてもよい。なお、監視制御部102は、取得したイベントが所定の障害事象を示さない場合、監視UI部103を介したイベント発生の通知を実行しなくてもよい。
また、監視制御部102は、取得したイベントを予兆分析・学習部2に渡す。そして、監視制御部102は、渡したイベントに基づく分析結果(検知した予兆)を予兆分析・学習部2から取得し、監視UI部103を介して監視者にその分析結果を通知する。
なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと(能動的な取得)」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読出すこと等、および、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること(受動的な取得)」、たとえば、外部装置から送信されたデータを受信できる状態で待機しており、外部装置から送信されたデータを受信すること、外部装置から配信(または、送信、プッシュ通知等)されるデータを受信すること、また、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集(テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等)などして新たなデータを生成し、当該新たなデータを取得すること」の少なくともいずれか一方を含む。
監視UI部103は、ディスプレイ、投影装置、スピーカ、メーラ、プリンター等のあらゆる出力装置を介して情報を出力する。例えば、監視UI部103は、監視対象システムに発生したイベントや予兆分析・学習部2による分析結果(検知した予兆)等を出力する。
予兆分析・学習部2は、監視制御部102から取得したイベントに基づき、複数のイベント種間の因果関係を示す相関度の大きさを自己学習する。そして、予兆分析・学習部2は、学習した相関度を用いて、所定のイベント(例:新たに発生したイベント)と因果関係のある(相関度の大きな)イベント種を抽出し、監視制御部102に提示する。
本実施形態では、監視実行部101が出力したイベントを複数のイベント種に分類する。複数のイベント種は、互いに、監視対象の識別情報、及び、監視対象に生じている事象の少なくとも一方が異なる。換言すれば、監視対象の識別情報、及び、監視対象に生じている事象のいずれもが一致する複数のイベントは、同じイベント種に属する。
イベント管理部201は、相関度を学習する対象となるイベント種(それまでに発生したイベント種)及び各イベント種の状態を管理する。具体的には、イベント管理部201は、それまでに発生したイベント種を示す情報と、イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関DB204を、監視実行部101が出力したイベントに基づき更新する。
図2に、イベント相関DB204に格納されている情報の一例を模式的に示す。図示する例では、発生した複数のイベント種を互いに識別する情報であるイベント種ID(identifier)と、各イベント種に属するイベントが示す監視対象の識別情報及び事象の内容と、各事象が障害事象か否かを示す障害フラグと、各イベント種のステータス値とが互いに対応付けられている。
イベント管理部201は、監視実行部101が新たなイベントを出力すると、監視対象の識別情報、及び、監視対象に生じている事象のいずれもが新たなイベントと一致するイベント種がイベント相関DB204に登録されているか確認する。登録されていない場合には、イベント管理部201は、新たなイベントを新たなイベント種としてイベント相関DB204に登録し、予め定められた初期値をステータス値として登録する。一方、登録されている場合には、イベント管理部201は、新たなイベントが属するイベント種のステータス値を初期値に更新する。このようにして、イベント管理部201は、監視実行部101が出力した新たなイベントが属するイベント種の情報を更新する。
また、イベント管理部201は、イベント相関DB204に登録されているイベント種のステータス値を、時間経過に応じて変化させる。例えば、イベントの発生時に設定される初期値が最大であり、イベント管理部201は時間経過とともにステータス値を小さくする。イベント管理部201は、任意のタイミング(例:所定時間毎に)で、線形減少関数や反比例関数などの時間経過に応じて値が漸減していく関数(図3参照)に基づき、イベント相関DB204に登録されているイベント種各々のステータス値を再計算し、更新することができる。
相関度分析部202は、複数の監視対象の互いの関係を示す構成情報に基づき、監視実行部101が出力した新たなイベント(以下、「第1のイベント」)に関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する。第1の監視対象と第2の監視対象は、構成的に互いに近く(例:処理しているサーバが同一等)、各々に発生したイベントに因果関係が存在する可能性がある。上記「所定の関係」の内容は特段制限されないが、様々な方法でこのような第1の監視対象と第2の監視対象との間の関係を定義することができる。
ここで、一例を説明する。図4に、構成情報の一例を模式的に示す。図示するように、複数の監視対象の互いの関係は、階層型の木構造で管理されてもよい。そして、相関度分析部202は、この木構造において、第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定してもよい。例えば第1の監視対象がぶら下がる所定のノード(第1の監視対象の上位ノード)にぶら下がる他の監視対象を、第2の監視対象として特定してもよい。所定のノードは、第1の監視対象からM(Mは1以上の整数)階層上の上位ノードであってもよい。
例えば、図4に示す例において、第1の監視対象が「ファイル11」である場合、「ファイル11」がぶら下がるノード「AP1」にぶら下がる他の監視対象「ファイル12」を第2の監視対象として特定してもよい。他の例として、第1の監視対象が「ファイル11」である場合、「ファイル11」がぶら下がるノード「物理サーバ1」にぶら下がる他の監視対象「AP1」、「ファイル12」、「AP2」、「ファイル21」、「ファイル22」を第2の監視対象として特定してもよい。
なお、監視対象イベントの構成は変更される場合がある。そこで、上述した監視制御部102は、監視実行部101が出力したイベントに基づき、構成情報を自動更新する機能を有してもよい。
例えば、監視実行部101が出力したイベントに記述される第1の監視対象が、構成DB301にて管理される構成情報内に存在しない場合は、監視制御部102は、イベント中の第2の監視対象ノードの配下に新たなノードとして追加する。また、第1の監視対象が存在している場合でも、第2の監視対象が上位ノードではない場合も同様に、第2の監視対象ノードの配下に第1の監視対象を追加する。このようにして、図4に示される構成情報は図5に示される構成情報に更新される。
また、相関度分析部202は、以下で説明する相関度学習部203が決定した相関度重みに基づき、第1のイベントが障害イベント種の中のいずれかの予兆であるか否かを分析することができる。当該処理の詳細は後述する。
相関度学習部203は、イベント種間の因果関係を学習する機能を有する。具体的には、相関度学習部203は、上記第1の監視対象及び上記第2の監視対象のイベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、障害イベント種とその他のイベント種のステータス値に基づき決定する。
「第1の監視対象のイベント種」は、第1の監視対象に発生したイベントが属するイベント種であり、例えば、図2に示すイベント種の中の「監視対象の識別情報」が第1の監視対象を示すイベント種である。
「第2の監視対象のイベント種」は、第2の監視対象に発生したイベントが属するイベント種であり、例えば、図2に示すイベント種の中の「監視対象の識別情報」が第2の監視対象を示すイベント種である。
「障害イベント種」は、事象が障害事象であるイベント種であり、例えば、図2に示すイベント種の中の障害フラグが立っているイベント種である。
図6を用いて、相関度学習部203による処理の概要を説明する。A1乃至Amは、第1の監視対象及び第2の監視対象のイベント種のm個のその他のイベント種各々のステータス値である。X1乃至Xnは、第1の監視対象及び第2の監視対象のイベント種のn個の障害イベント種各々のステータス値である。ω11乃至ωmnは、m個のその他のイベント種の中の任意の1つと、n個の障害イベント種の中の任意の1つとでつくられるm×n個の組各々の相関度重みである。
相関度学習部203は、任意のタイミング(例:所定時間毎に)で繰り返し、相関度重みω11乃至ωmnを計算する。上述の通りステータス値は時間経過ともに変化するので、各タイミングにおいてA1乃至Am及びX1乃至Xnの中の少なくとも1つが、その直前のタイミングにおける値から変化している可能性がある。
相関度学習部203は、図6の「学習」の計算式に示すように、第1の決定タイミングにおける第1の障害イベント種(ステータス値X1)と第1のその他のイベント種(ステータス値A1)との間の前記相関度重みω11の決定処理では、直前の決定タイミングで決定した第1の障害イベント種と第1のその他のイベント種との間の相関度重みω11を、第1の決定タイミングにおける第1の障害イベント種のステータス値X1と第1のその他のイベント種のステータス値A1とに基づき補正(A1×X1を加算)した値を相関度重みとして決定することができる。この場合、第1の決定タイミングにおける第1の障害イベント種のステータス値X1及び第1のその他のイベント種のステータス値A1が大きい程、補正による相関度重みの増加幅が大きくなる。このような計算式によれば、より近いタイミングで発生するほど、その2つのイベント種の組における相関度重みが大きくなる。なお、図示する補正の方法(A1とX1の積を加算)はあくまで一例であり、上述のような効果が得られればその他の方法を採用してもよい。
ここで、相関度分析部202が、相関度学習部203が決定した相関度重みに基づき、第1のイベントが障害イベント種の中のいずれかの予兆であるか否かを分析する処理について説明する。
相関度分析部202は、第1の監視対象及び第2の監視対象のその他のイベント種のステータス値A1乃至Amと、第1の監視対象及び第2の監視対象の障害イベント種のステータス値X1乃至Xnと、相関度学習部203が決定した相関度重みω11乃至ωmnとに基づき、障害イベント種毎にその他のイベント種との間の相関度を算出し、算出した相関度に基づき、第1のイベントが障害イベント種の中のいずれかの予兆であるか否かを分析する。
例えば、相関度分析部202は、図3の「予兆検知」の計算式に基づき、上記相関度を算出することができる。図示する計算式は、n個の障害イベント種の中のk番目の障害イベント種の相関度Fkを算出する式を示す。なお、図示する計算式の右辺の分子は、複数のその他の予兆イベント全てのステータス値と、複数のその他の予兆イベント各々とk番目の障害イベント種との間の関係(相関度重み)とを反映した値となるが、第1のイベントの発生直後は第1のイベントが属するイベント種のステータス値が最大となり、最も支配的となる。このため、第1のイベントが属するイベント種とk番目の障害イベント種との間の相関をよく表した相関度Fkが算出される。なお、図3に示す計算式はあくまで一例であり、同様の作用効果が得られる範囲で変形が可能である。
相関度分析部202は、例えば、算出した相関度が基準値以上の障害イベント種がある場合、第1のイベントはその障害イベント種が示す障害の予兆と推定することができる。一方、算出した相関度が基準値以上の障害イベント種がない場合、相関度分析部202は、第1のイベントは障害の予兆でないと推定することができる。
次に、図7乃至図10のフローチャートを用いて、監視システム1の処理の流れの一例を説明する。
まず、図7に示すように、監視制御部102は新たなイベントを監視実行部101から取得すると(S1)、そのイベントが障害事象を示すか確認する(S2)。
障害事象を示す場合(S2のYes)、監視制御部102は、障害発生を監視者に通知する(S3)。具体的には、監視制御部102は、監視UI部103に、障害事象の発生を示す情報を出力させる。出力される情報は、障害事象の内容、及び、その障害事象が発生している監視対象の識別情報等を含むことができる。
一方、障害事象を示さない場合(S2のNo)、監視制御部102は、監視者への通知処理を実行しない。
また、図8に示すように、監視制御部102は新たなイベントを監視実行部101から取得すると(S10)、予兆分析・学習部2にそのイベントを渡す。
予兆分析・学習部2のイベント管理部201は、新たなイベントに基づき、イベント相関DB204を更新する(S20)。
ここで、図9のフローチャートを用いて、S20の処理の流れの一例を説明する。イベント管理部201は、監視対象の識別情報、及び、監視対象に生じている事象のいずれもが新たなイベントと一致するイベント種がイベント相関DB204に登録されているか確認する(S21)。
登録されていない場合(S21のNo)、イベント管理部201は、新たなイベントを新たなイベント種としてイベント相関DB204に登録し、予め定められた初期値をステータス値として設定する(S23)。
一方、登録されている場合(S21のYes)、イベント管理部201は、新たなイベントが属するイベント種のステータス値を初期値に更新する(S22)。
次いで、イベント管理部201は、イベント相関DB204に登録されているその他のイベント種のステータス値を、更新する(S24)。例えば、イベント管理部201は、線形減少関数や反比例関数などの時間経過に応じて値が漸減していく関数と、経過時間とに基づき、イベント相関DB204に登録されているイベント種各々のステータス値を再計算し、更新する。なお、S21乃至S23の処理と、S24の処理との処理順は図示する例に限定されない。
図8に戻り、イベント相関DB204が更新された後、相関度分析部202及び相関度学習部203による予兆分析が行われる(S30)。
ここで、図10のフローチャートを用いて、S30の処理の流れの一例を説明する。まず、最新のイベント相関DB204に基づき、第1の監視対象及び第2の監視対象の障害イベント種とその他のイベント種との間の相関度重みを算出する処理が行われる(S31)。当該処理の詳細は上述したので、ここでの説明は省略する。
次いで、第1の監視対象及び第2の監視対象の障害イベント種毎に、第1の監視対象及び第2の監視対象のその他のイベント種との間の相関度を算出する処理が行われる(S32)。当該処理の詳細は上述したので、ここでの説明は省略する。
次いで、S32で算出した相関度に基づき、新たなイベントが障害の予兆か否かを分析する処理が行われる(S33)。当該処理の詳細は上述したので、ここでの説明は省略する。
図8に戻り、S30で新たなイベントが障害の予兆と判断された場合(S40のYes)、監視制御部102は監視UI部103を介して分析結果を監視者に通知する(S50)。例えば、監視制御部102は、S32で算出された相関度が基準値以上の障害イベント種を示す情報を監視UI部103に出力させてもよい。なお、S32で算出された相関度が基準値以上の障害イベント種が複数ある場合、監視制御部102は、複数の障害イベント種を示す情報を監視UI部103に出力させてもよい。この場合、監視制御部102は、各障害イベント種の相関度、又は、相関度に基づき算出される「各障害イベント種の予兆である確信度」を、監視UI部103に出力させてもよい。
一方、S30で新たなイベントが障害の予兆と判断されなかった場合(S40のNo)、監視制御部102は監視UI部103を介した分析結果の通知を実行しない。
次に、本実施形態の監視システム1のハードウエア構成の一例を説明する。監視システム1が備える各機能は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
図11は、監視システム1のハードウエア構成を例示するブロック図である。図11に示すように、監視システム1は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。なお、周辺回路4Aは有さなくてもよい。なお、監視システム1は物理的及び/又は論理的に一体となった1つの装置で構成されてもよいし、物理的及び/又は論理的に分かれた複数の装置で構成されてもよい。物理的及び/又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。
バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、タッチパネル、物理ボタン、カメラ等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
次に、本実施形態の監視システム1の実施例を説明する。
監視システム1では、監視実行部101にて監視対象の状況を監視し、監視結果をイベントとして監視制御部102に通知する。ここで、イベントには、監視対象情報と事象情報(事象内容や重要度レベルなどを指す)とが含まれる。重要度レベルは、重大な障害から単なる情報通知までを段階的に数値やラベル等で示すものである。
監視制御部102は、監視実行部101からのイベントを受信すると、まず監視対象情報より監視対象の増減や構成変更の有無を認識し、監視対象間の構成情報として構成DB301に格納する。
また、監視制御部102は、事象情報の内容に応じて、監視UI部103を介して監視者に事象の発生を通知する(例:障害事象を示す場合に通知)。
また、監視制御部102は、取得したイベントを予兆分析・学習部2に送る。なお、事象の発生を通知した場合(すなわち、障害事象を示す場合)、監視制御部102は、「障害イベント」との情報を付与して、当該イベントを予兆分析・学習部2に送る。
予兆分析・学習部2では、イベント管理部201がイベントを受け取る。イベント管理部201では、当該イベントの種類(イベント種)が既知・未知のいずれか(すなわち、イベント相関DB204に登録されているか否か)、及び、障害イベントか否かを分類する。当該イベントの種類が未知の場合は、新しいイベント種としてイベント相関DB204に追加する。障害イベントか否かは、そのイベントを障害として監視者に通知するかどうかである。
予兆分析・学習部2は、相関度を学習する動作と、相関度に基づく予兆検知の動作を行う。
まず、相関度学習の動作について説明する。イベント管理部201は、イベント相関DB204に登録されているイベント種各々のステータス値を計算する。イベント種のステータス値は、発生した時点で最大値とし、時間経過により漸減していく関数(図3)により繰り返し計算され、更新される。この漸減を表す関数としては線形減少関数や反比例関数などが考えられるが、関数の具体的な式については特に限定しない。例えば、発生したイベントについては、直前のステータス値が閾値より大きければ同一のイベントが連続発生していると考えてそのままの値を用い、閾値より小さければ新たなイベントとして最大値をセットする。発生したイベント以外のイベント種については直前のステータス値をもとに関数に当てはめてステータス値を再計算して新たなステータス値とする。これらステータス値をイベント相関DB204に格納する。
続いて、イベント管理部201が受け取った新たなイベントの監視対象情報をキーとして構成DB301より構成的に近い監視対象(所定の関係を満たす監視対象)を抽出し、抽出された構成的に近い監視対象(第2の監視対象)とキーが示す監視対象(第1の監視対象)についての障害イベント種をイベント相関DB204より抽出し、新たなイベントとの相関度重みの学習対象とする。構成的な近さの抽出方法としては、構成を階層型の木構造で管理して階層の上下関係にある場合に階層の差を近さと判断する方法などが考えられるが、特に限定しない。例えば、図12に示すように、予めノード間の距離を定義し、当該定義が構成DB301に登録されていてもよい。そして、予兆分析・学習部2は、当該定義に基づき2つのノード間の距離を算出してもよい。そして、予兆分析・学習部2は、当該距離が閾値以下の2つのノードは互いに構成的に近い監視対象とみなしてもよい。
学習対象として抽出された構成的に近い監視対象の障害イベント種と、イベント管理部201が受け取った新たなイベントは、図6に示すような関係式にて相関度学習部203にてその相関度重みに対して、両方のイベントのステータスが大きな値(発生状態)ほど相関度重みの調整幅を大きくする。
これによって両方のイベントが関連して発生する頻度が高いほど相関度重みが大きくなるという学習を行う。
次に、予兆検知の動作について説明する。イベント管理部201が受け取った新たなイベントに基づくイベント相関DB204の更新が行われた後、相関度分析部202は、更新後のイベント相関DB204が示す各イベント種のステータス値と、更新後のイベント相関DB204に基づき算出された相関度重みと、図6に示す「予兆検知」の計算式とに基づき、障害イベント種毎に相関度Fkを算出する。その後、予兆分析・学習部2は、相関度が予め設定された閾値を越えた障害イベント種と、イベント管理部201が受け取った新たなイベントとをペアとして、監視制御部102に通知する。監視制御部102は、障害の予兆となるイベントが発生したとして監視UI部103から監視者に提示する。
次に、本実施形態の変形例を説明する。複数の障害イベント種各々とその他のイベント種との間の相関度は、N対1対応で計算してもよいし、1対1対応で計算してもよい。1対1対応とする場合、監視制御部102が取得した新たなイベント(第1のイベント)が属するその他のイベント種と、障害イベント種との相関度を計算することができる。N対1対応で計算する場合、この計算の仕組みを階層型ニューラルネットワーク等で実現するといったことが考えられる。
また、障害の予兆を検知した場合、監視UI部103を通じて監視者に通知するとしているが、各障害に対して決まっている対処がある場合、それを提示したり、対処を自動実行したりする構成を新たに組み入れることも可能である。
次に、本実施形態の作用効果を説明する。本実施形態の監視システム1は、自システムで検出するイベントをもとに自己学習するため、教師付き学習のように正確な教師データを用意する必要がなく、予兆検知のモデルを内部に生成し、予兆検知が実現できる。
また、本実施形態では、予兆事象と障害事象の因果関係を、監視システム1が検出したイベント間の相関の大きさとしてとらえ、因果関係を監視システム1自体が人手や外部からの教師データに依存せずに自己学習する仕組みを持つ。これにより、<方式1>でルール化困難であった因果関係の問題について、因果関係をシステム自身が見出すことを可能としている。また、<方式2>の問題であった人手による恣意性の排除による因果関係の担保も実現可能としている。また、<方式3>の問題である教師データの妥当性についても、教師データを用いない方式により解決している。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
1. 複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力する監視実行手段と、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記監視実行手段が出力した前記イベントに基づき更新するイベント管理手段と、
複数の前記監視対象の互いの関係を示す構成情報に基づき、前記監視実行手段が出力した第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する相関度分析手段と、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定する相関度学習手段と、
出力装置に情報を出力させる監視制御手段と、
を有し、
前記相関度分析手段は、前記相関度学習手段が決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
前記監視制御手段は、前記相関度分析手段による分析結果を出力させる監視システム。
2. 1に記載の監視システムにおいて、
前記イベント管理手段は、
前記監視実行手段が新たなイベントを出力すると、前記監視対象の識別情報、及び、前記監視対象に生じている事象のいずれもが前記新たなイベントと一致する前記イベント種が前記イベント相関データベースに登録されているか確認し、
登録されていない場合には、前記新たなイベントを新たな前記イベント種として前記イベント相関データベースに登録し、初期値を前記ステータス値として登録し、
登録されている場合には、前記新たなイベントが属する前記イベント種の前記ステータス値を前記初期値に更新する監視システム。
3. 1又は2に記載の監視システムにおいて、
前記イベント管理手段は、前記イベント相関データベースに登録されている前記ステータス値を、時間経過に応じて変化させる監視システム。
4. 1から3のいずれかに記載の監視システムにおいて、
前記相関度学習手段は、
繰り返し、前記相関度重みを決定し、
第1の決定タイミングにおける第1の障害イベント種と第1のその他のイベント種との間の前記相関度重みの決定処理では、直前の決定タイミングで決定した前記第1の障害イベント種と前記第1のその他のイベント種との間の前記相関度重みを、前記第1の決定タイミングにおける前記第1の障害イベント種及び前記第1のその他のイベント種の前記ステータス値に基づき補正した値を前記相関度重みとして決定する監視システム。
5. 4に記載の監視システムにおいて、
前記ステータス値は、前記イベントの発生時が最大であり、時間経過とともに小さくなり、
前記相関度学習手段は、前記第1の決定タイミングにおける前記第1の障害イベント種及び前記第1のその他のイベント種の前記ステータス値が大きい程、補正による前記相関度重みの増加幅を大きくする監視システム。
6. 1から5のいずれかに記載の監視システムにおいて、
前記相関度分析手段は、前記第1の監視対象及び前記第2の監視対象の前記障害イベント種毎に、前記第1の監視対象及び前記第2の監視対象の前記その他のイベント種との間の相関度を算出し、算出した前記相関度に基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析する監視システム。
7. 1から6のいずれかに記載の監視システムにおいて、
前記監視制御手段は、前記監視実行手段が出力した前記イベントに基づき、前記構成情報を更新する監視システム。
8. 1から7のいずれかに記載の監視システムにおいて、
前記監視制御手段は、前記監視実行手段が出力した前記イベントが所定の障害事象を示す場合、前記障害事象の発生を示す情報を出力させる監視システム。
9. コンピュータが、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力し、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記イベントに基づき更新し、
複数の前記監視対象の互いの関係を示す構成情報に基づき、第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定し、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定し、
決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
分析結果を出力させる監視方法。
10. コンピュータを、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力する監視実行手段、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記監視実行手段が出力した前記イベントに基づき更新するイベント管理手段、
複数の前記監視対象の互いの関係を示す構成情報に基づき、前記監視実行手段が出力した第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する相関度分析手段、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定する相関度学習手段、
出力装置に情報を出力させる監視制御手段、
として機能させ、
前記相関度分析手段は、前記相関度学習手段が決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
前記監視制御手段は、前記相関度分析手段による分析結果を出力させるプログラム。
1. 複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力する監視実行手段と、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記監視実行手段が出力した前記イベントに基づき更新するイベント管理手段と、
複数の前記監視対象の互いの関係を示す構成情報に基づき、前記監視実行手段が出力した第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する相関度分析手段と、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定する相関度学習手段と、
出力装置に情報を出力させる監視制御手段と、
を有し、
前記相関度分析手段は、前記相関度学習手段が決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
前記監視制御手段は、前記相関度分析手段による分析結果を出力させる監視システム。
2. 1に記載の監視システムにおいて、
前記イベント管理手段は、
前記監視実行手段が新たなイベントを出力すると、前記監視対象の識別情報、及び、前記監視対象に生じている事象のいずれもが前記新たなイベントと一致する前記イベント種が前記イベント相関データベースに登録されているか確認し、
登録されていない場合には、前記新たなイベントを新たな前記イベント種として前記イベント相関データベースに登録し、初期値を前記ステータス値として登録し、
登録されている場合には、前記新たなイベントが属する前記イベント種の前記ステータス値を前記初期値に更新する監視システム。
3. 1又は2に記載の監視システムにおいて、
前記イベント管理手段は、前記イベント相関データベースに登録されている前記ステータス値を、時間経過に応じて変化させる監視システム。
4. 1から3のいずれかに記載の監視システムにおいて、
前記相関度学習手段は、
繰り返し、前記相関度重みを決定し、
第1の決定タイミングにおける第1の障害イベント種と第1のその他のイベント種との間の前記相関度重みの決定処理では、直前の決定タイミングで決定した前記第1の障害イベント種と前記第1のその他のイベント種との間の前記相関度重みを、前記第1の決定タイミングにおける前記第1の障害イベント種及び前記第1のその他のイベント種の前記ステータス値に基づき補正した値を前記相関度重みとして決定する監視システム。
5. 4に記載の監視システムにおいて、
前記ステータス値は、前記イベントの発生時が最大であり、時間経過とともに小さくなり、
前記相関度学習手段は、前記第1の決定タイミングにおける前記第1の障害イベント種及び前記第1のその他のイベント種の前記ステータス値が大きい程、補正による前記相関度重みの増加幅を大きくする監視システム。
6. 1から5のいずれかに記載の監視システムにおいて、
前記相関度分析手段は、前記第1の監視対象及び前記第2の監視対象の前記障害イベント種毎に、前記第1の監視対象及び前記第2の監視対象の前記その他のイベント種との間の相関度を算出し、算出した前記相関度に基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析する監視システム。
7. 1から6のいずれかに記載の監視システムにおいて、
前記監視制御手段は、前記監視実行手段が出力した前記イベントに基づき、前記構成情報を更新する監視システム。
8. 1から7のいずれかに記載の監視システムにおいて、
前記監視制御手段は、前記監視実行手段が出力した前記イベントが所定の障害事象を示す場合、前記障害事象の発生を示す情報を出力させる監視システム。
9. コンピュータが、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力し、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記イベントに基づき更新し、
複数の前記監視対象の互いの関係を示す構成情報に基づき、第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定し、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定し、
決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
分析結果を出力させる監視方法。
10. コンピュータを、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力する監視実行手段、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記監視実行手段が出力した前記イベントに基づき更新するイベント管理手段、
複数の前記監視対象の互いの関係を示す構成情報に基づき、前記監視実行手段が出力した第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する相関度分析手段、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定する相関度学習手段、
出力装置に情報を出力させる監視制御手段、
として機能させ、
前記相関度分析手段は、前記相関度学習手段が決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
前記監視制御手段は、前記相関度分析手段による分析結果を出力させるプログラム。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2019年6月27日に出願された日本出願特願2019-120168号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
Claims (10)
- 複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力する監視実行手段と、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記監視実行手段が出力した前記イベントに基づき更新するイベント管理手段と、
複数の前記監視対象の互いの関係を示す構成情報に基づき、前記監視実行手段が出力した第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する相関度分析手段と、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定する相関度学習手段と、
出力装置に情報を出力させる監視制御手段と、
を有し、
前記相関度分析手段は、前記相関度学習手段が決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
前記監視制御手段は、前記相関度分析手段による分析結果を出力させる監視システム。 - 請求項1に記載の監視システムにおいて、
前記イベント管理手段は、
前記監視実行手段が新たなイベントを出力すると、前記監視対象の識別情報、及び、前記監視対象に生じている事象のいずれもが前記新たなイベントと一致する前記イベント種が前記イベント相関データベースに登録されているか確認し、
登録されていない場合には、前記新たなイベントを新たな前記イベント種として前記イベント相関データベースに登録し、初期値を前記ステータス値として登録し、
登録されている場合には、前記新たなイベントが属する前記イベント種の前記ステータス値を前記初期値に更新する監視システム。 - 請求項1又は2に記載の監視システムにおいて、
前記イベント管理手段は、前記イベント相関データベースに登録されている前記ステータス値を、時間経過に応じて変化させる監視システム。 - 請求項1から3のいずれか1項に記載の監視システムにおいて、
前記相関度学習手段は、
繰り返し、前記相関度重みを決定し、
第1の決定タイミングにおける第1の障害イベント種と第1のその他のイベント種との間の前記相関度重みの決定処理では、直前の決定タイミングで決定した前記第1の障害イベント種と前記第1のその他のイベント種との間の前記相関度重みを、前記第1の決定タイミングにおける前記第1の障害イベント種及び前記第1のその他のイベント種の前記ステータス値に基づき補正した値を前記相関度重みとして決定する監視システム。 - 請求項4に記載の監視システムにおいて、
前記ステータス値は、前記イベントの発生時が最大であり、時間経過とともに小さくなり、
前記相関度学習手段は、前記第1の決定タイミングにおける前記第1の障害イベント種及び前記第1のその他のイベント種の前記ステータス値が大きい程、補正による前記相関度重みの増加幅を大きくする監視システム。 - 請求項1から5のいずれか1項に記載の監視システムにおいて、
前記相関度分析手段は、前記第1の監視対象及び前記第2の監視対象の前記障害イベント種毎に、前記第1の監視対象及び前記第2の監視対象の前記その他のイベント種との間の相関度を算出し、算出した前記相関度に基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析する監視システム。 - 請求項1から6のいずれか1項に記載の監視システムにおいて、
前記監視制御手段は、前記監視実行手段が出力した前記イベントに基づき、前記構成情報を更新する監視システム。 - 請求項1から7のいずれか1項に記載の監視システムにおいて、
前記監視制御手段は、前記監視実行手段が出力した前記イベントが所定の障害事象を示す場合、前記障害事象の発生を示す情報を出力させる監視システム。 - コンピュータが、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力し、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記イベントに基づき更新し、
複数の前記監視対象の互いの関係を示す構成情報に基づき、第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定し、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定し、
決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
分析結果を出力させる監視方法。 - コンピュータを、
複数の監視対象各々の監視を行い、前記監視対象の識別情報、及び、前記監視対象に生じている事象を示すイベントを出力する監視実行手段、
発生したイベント種を示す情報と、前記イベント種各々の発生及び発生からの経過時間の大きさを示すステータス値とを格納するイベント相関データベースを、前記監視実行手段が出力した前記イベントに基づき更新するイベント管理手段、
複数の前記監視対象の互いの関係を示す構成情報に基づき、前記監視実行手段が出力した第1のイベントに関わる第1の監視対象と所定の関係を有する1つ又は複数の第2の監視対象を特定する相関度分析手段、
前記第1の監視対象及び前記第2の監視対象の前記イベント種の中の障害発生を示す障害イベント種とその他のイベント種との間の相関度重みを、前記障害イベント種と前記その他のイベント種の前記ステータス値に基づき決定する相関度学習手段、
出力装置に情報を出力させる監視制御手段、
として機能させ、
前記相関度分析手段は、前記相関度学習手段が決定した前記相関度重みに基づき、前記第1のイベントが前記障害イベント種の中のいずれかの予兆であるか否かを分析し、
前記監視制御手段は、前記相関度分析手段による分析結果を出力させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019120168 | 2019-06-27 | ||
JP2019120168 | 2019-06-27 | ||
PCT/JP2020/001657 WO2020261621A1 (ja) | 2019-06-27 | 2020-01-20 | 監視システム、監視方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020261621A1 JPWO2020261621A1 (ja) | 2020-12-30 |
JP7215574B2 true JP7215574B2 (ja) | 2023-01-31 |
Family
ID=74060224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021527338A Active JP7215574B2 (ja) | 2019-06-27 | 2020-01-20 | 監視システム、監視方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220229713A1 (ja) |
JP (1) | JP7215574B2 (ja) |
WO (1) | WO2020261621A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116300574B (zh) * | 2023-01-30 | 2023-10-24 | 江苏海盟金网信息技术有限公司 | 一种基于大数据的工控信息混合控制系统及方法 |
CN118445157B (zh) * | 2024-07-08 | 2024-10-11 | 陕西数图行信息科技有限公司 | 一种基于数据分析的监控指标动态调整方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014134987A (ja) | 2013-01-11 | 2014-07-24 | Hitachi Ltd | 情報処理システム監視装置、監視方法、及び監視プログラム |
JP2016201060A (ja) | 2015-04-14 | 2016-12-01 | 株式会社日立システムズ | システム障害の予兆監視システム及びシステム障害予兆監視方法 |
JP2018116545A (ja) | 2017-01-19 | 2018-07-26 | オムロン株式会社 | 予測モデル作成装置、生産設備監視システム、及び生産設備監視方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9086960B2 (en) * | 2012-08-21 | 2015-07-21 | International Business Machines Corporation | Ticket consolidation for multi-tiered applications |
US9239887B2 (en) * | 2012-12-18 | 2016-01-19 | Cisco Technology, Inc. | Automatic correlation of dynamic system events within computing devices |
US9697100B2 (en) * | 2014-03-10 | 2017-07-04 | Accenture Global Services Limited | Event correlation |
US10270668B1 (en) * | 2015-03-23 | 2019-04-23 | Amazon Technologies, Inc. | Identifying correlated events in a distributed system according to operational metrics |
US10176034B2 (en) * | 2016-02-16 | 2019-01-08 | International Business Machines Corporation | Event relationship analysis in fault management |
CN110609759B (zh) * | 2018-06-15 | 2021-09-14 | 华为技术有限公司 | 一种故障根因分析的方法及装置 |
-
2020
- 2020-01-20 JP JP2021527338A patent/JP7215574B2/ja active Active
- 2020-01-20 WO PCT/JP2020/001657 patent/WO2020261621A1/ja active Application Filing
- 2020-01-20 US US17/619,371 patent/US20220229713A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014134987A (ja) | 2013-01-11 | 2014-07-24 | Hitachi Ltd | 情報処理システム監視装置、監視方法、及び監視プログラム |
JP2016201060A (ja) | 2015-04-14 | 2016-12-01 | 株式会社日立システムズ | システム障害の予兆監視システム及びシステム障害予兆監視方法 |
JP2018116545A (ja) | 2017-01-19 | 2018-07-26 | オムロン株式会社 | 予測モデル作成装置、生産設備監視システム、及び生産設備監視方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220229713A1 (en) | 2022-07-21 |
JPWO2020261621A1 (ja) | 2020-12-30 |
WO2020261621A1 (ja) | 2020-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6609050B2 (ja) | 時間的因果グラフにおける異常フュージョン | |
US20220066906A1 (en) | Application state prediction using component state | |
US11533217B2 (en) | Systems and methods for predictive assurance | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
JP2018045403A (ja) | 異常検知システム及び異常検知方法 | |
Girish et al. | Anomaly detection in cloud environment using artificial intelligence techniques | |
US9860109B2 (en) | Automatic alert generation | |
US9524223B2 (en) | Performance metrics of a computer system | |
WO2007006811A1 (en) | System and method for detecting imbalances in dynamic workload scheduling in clustered environments | |
KR20190096706A (ko) | 서비스 연관성 추적을 통한 시스템 이상 징후 모니터링 방법 및 시스템 | |
JP7215574B2 (ja) | 監視システム、監視方法及びプログラム | |
US20220107858A1 (en) | Methods and systems for multi-resource outage detection for a system of networked computing devices and root cause identification | |
CN112702184A (zh) | 故障预警方法及装置、计算机可存储介质 | |
JP4635194B2 (ja) | 異常検知装置 | |
US20230038164A1 (en) | Monitoring and alerting system backed by a machine learning engine | |
US10462026B1 (en) | Probabilistic classifying system and method for a distributed computing environment | |
US11853330B1 (en) | Data structure navigator | |
US11704188B2 (en) | Apparatuses, computer-implemented methods, and computer program products for improved data event root cause identification and remediation | |
CN116418653A (zh) | 基于多指标根因定位算法的故障定位方法及装置 | |
US20210243069A1 (en) | Alert correlating using sequence model with topology reinforcement systems and methods | |
KR20160081321A (ko) | It 인프라 품질 감시 시스템 및 방법 | |
Zhou et al. | A novel system anomaly prediction system based on belief markov model and ensemble classification | |
JP2017211806A (ja) | 通信の監視方法、セキュリティ管理システム及びプログラム | |
Zwietasch | Online failure prediction for microservice architectures | |
US11138512B2 (en) | Management of building energy systems through quantification of reliability |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230102 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7215574 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |