JP6878984B2 - 監視プログラム、監視方法および監視装置 - Google Patents

監視プログラム、監視方法および監視装置 Download PDF

Info

Publication number
JP6878984B2
JP6878984B2 JP2017058207A JP2017058207A JP6878984B2 JP 6878984 B2 JP6878984 B2 JP 6878984B2 JP 2017058207 A JP2017058207 A JP 2017058207A JP 2017058207 A JP2017058207 A JP 2017058207A JP 6878984 B2 JP6878984 B2 JP 6878984B2
Authority
JP
Japan
Prior art keywords
event
monitoring
pattern
server
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017058207A
Other languages
English (en)
Other versions
JP2018160186A (ja
Inventor
佳弘 木村
佳弘 木村
康夫 瀬崎
康夫 瀬崎
古川 正和
正和 古川
章一 小木曽
章一 小木曽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017058207A priority Critical patent/JP6878984B2/ja
Publication of JP2018160186A publication Critical patent/JP2018160186A/ja
Application granted granted Critical
Publication of JP6878984B2 publication Critical patent/JP6878984B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、監視プログラム、監視方法および監視装置に関する。
データセンタなどの大規模なIT(Information Technology)システムでは、監視製品を導入し、業務サーバの安定稼動を監視することが行われている。例えば、業務サーバに異常が発生した場合、監視製品によって監視イベントが発行され、オペレータが監視イベントの内容を確認のうえ対処の判断を行っている。また、例えば、サーバ集約によって複数の業務アプリケーションをミドルウェア上に集約して運用している環境においても、監視製品によって各業務アプリケーションの監視が行われる。
このようなITシステムなどでは、メンテナンスなどの運用管理操作の対象や回数も増えることもあり、各運用管理操作をワークフローとして自動化している。一方で、メンテナンスのためにサーバの停止などを行った場合、大量の監視イベントが通知されるので、オペレータは、すべての監視イベントを一つ一つ確認することになり、他の障害への対応の遅れや見逃しが発生する可能性が高い。近年では、メンテナンスなどを行う場合、監視製品の機能によって、メンテナンス対象のサーバの監視抑制の設定を行って、監視イベントの通知を抑制することが行われている。
特開2012−234381号公報 特開2014−32598号公報 国際公開第2004/061681号
しかしながら、監視抑制の設定を行うことができないまま、メンテナンスが実行されることにより、運用管理操作による自明な監視イベントと障害による監視イベントとが発生する状況が起こりうる。この結果、他の障害への対応の遅れや見逃しが発生する可能性が高くなる。例えば、緊急メンテナンスで監視担当者による監視抑制の設定が間に合わない場合やメンテナンスの影響範囲を正しく理解できていない場合、自明な監視イベントの通知が実行されてしまう。
また、運用管理操作の自動化は、効果的な部分を優先して行っており、すべて一律で自動化している訳ではないので、ワークフローとして自動化をした範囲と、自動化していない範囲とが混在した状態が増えている。このような状況では、監視抑制の設定をしてしまうと、ワークフローによって発生する自明な監視イベントだけでなく、その間に発生したワークフローとは関係のない監視イベントも抑制してしまう。
一つの側面では、運用に関する処理に起因して生じるイベントに関する情報の通知を選択的に抑制することができる監視プログラム、監視方法および監視装置を提供することを目的とする。
第1の案では、監視プログラムは、コンピュータに、サーバの監視に関するイベントを取得すると、取得した前記イベントに関する情報を端末に通知する処理を実行させる。監視プログラムは、コンピュータに、前記サーバの運用に関する処理の識別情報と、該サーバの監視に関するイベントのうち該サーバの運用に関する処理の実行中に発生したイベントと、を取得する処理を実行させる。監視プログラムは、コンピュータに、サーバの運用に関する処理に起因して発生したイベントを該処理の識別情報に対応付けて記憶する記憶部を参照して、取得した前記処理の識別情報に対応付けられたイベントを特定する処理を実行させる。監視プログラムは、コンピュータに、取得した前記イベントのうち、特定した前記イベントに関する情報の通知を抑制する処理を実行させる。
一実施形態によれば、運用に関する処理に起因して生じるイベントに関する情報の通知を選択的に抑制することができる。
図1は、実施例1にかかるシステムの全体構成例を示す図である。 図2は、実施例1にかかるシステム構成ツリーを説明する図である。 図3は、実施例1にかかるワークフローを説明する図である。 図4は、実施例1にかかる監視装置の機能構成を示す機能ブロック図である。 図5は、監視イベントDBに記憶される監視イベントの例を示す図である。 図6は、実施例1にかかる運用管理装置の機能構成を示す機能ブロック図である。 図7は、ワークフロー管理DBに記憶されるワークフローの例を示す図である。 図8は、変数管理DBに記憶される変数の例を示す図である。 図9は、インスタンス管理DBに記憶されるインスタンスの例を示す図である。 図10は、イベントパターン管理DBに記憶されるイベントパターンの例を示す図である。 図11は、遷移ルート管理DBに記憶される遷移ルートの例を示す図である。 図12は、パターンデータ管理DBに記憶されるパターンデータの例を示す図である。 図13は、フィルタリング管理DBに記憶されるフィルタの例を示す図である。 図14は、ワークフローの実行処理の流れを示すフローチャートである。 図15は、イベントパターンの更新処理の全体的な流れを示すフローチャートである。 図16は、イベントグループ化の分割を説明する図である。 図17は、イベントグループの生成を説明する図である。 図18は、イベントグループ群を説明する図である。 図19は、生成されたイベントパターンを説明する図である。 図20は、突合処理の流れを示すフローチャートである。 図21は、一致処理の流れを示すフローチャートである。 図22は、一致判定の結果を説明する図である。 図23は、フィルタリングを説明する図である。 図24は、イベントパターンの更新処理の流れを示すフローチャートである。 図25は、イベントパターンの再生成処理の流れを示すフローチャートである。 図26は、ハードウェア構成例を示す図である。
以下に、本願の開示する監視プログラム、監視方法および監視装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[システム構成]
図1は、実施例1にかかるシステムの全体構成例を示す図である。図1に示すように、このシステムは、業務サーバ群1と監視装置10と運用管理装置50とがネットワークNを介して接続される。なお、ネットワークNは、有線や無線を問わず、インターネットや専用線などの各種ネットワークを採用することができる。また、監視装置10と運用管理装置50とは、別々の筐体で実現することもでき、同じ筐体で実現することもできる。
業務サーバ群1は、複数の業務サーバから構成される業務システムであり、例えば帳票管理のシステムなどである。図2は、実施例1にかかるシステム構成ツリーを説明する図である。図2に示すように、業務サーバ群1は、Web/APサーバ、WFサーバ、DBサーバを有する帳票管理システムである。なお、Web/APサーバは、Webサービスと業務アプリケーションであるAPサービスとをクライアントに提供し、WFサーバは、帳票管理である帳票サービスをクライアントに提供し、DBサーバは、DBの検索などのDBサービスをクライアントに提供する。
監視装置10は、業務サーバ群1を監視するサーバの一例である。具体的には、監視装置10は、監視アプリケーション(監視製品)のマネージャ機能を有し、監視アプリケーションのエージェント機能を業務サーバ群1の各サーバにインストールして、サーバの停止や異常処理などの監視イベントを検出する。そして、監視装置10は、検出した監視イベントをディスプレイ等に表示することで、異常をオペレータに通知する。
監視項目の一例としては、例えば、監視装置10は、各サーバの死活監視、各サーバの残ディスク容量の監視、各サーバのイベントログ監視、各サービスの起動状態監視、システム動作の監視を実行する。
運用管理装置50は、業務サーバ群1の各サーバに対して、メンテナンスなどの運用管理操作(運用製品)を実行するサーバの一例である。具体的には、運用管理装置50は、メンテナンスなどの運用管理操作をワークフローとして自動化し、業務サーバ群1に対して、メンテナンス等を自動で実行する。なお、メンテナンスの一例としては、ハードウェアの交換、パッチ適用、メモリ増設などがある。本実施例では、帳票管理のシステムを構成するWFサーバの帳票サービスを停止後にメンテナンス作業を実施し、その後に帳票サービスを起動するというワークフローを実行する。
図3は、実施例1にかかるワークフローを説明する図である。図3に示すように、ワークフローは、運用製品が実行し、STARTノードから開始してENDノードまで1つずつノードを遷移するように制御する。ノードごとに1つの「運用操作部品」を設定し、その運用操作部品の処理が完了すれば次のノードに遷移する。例えば、ノード1の構成情報の収集処理が終了すると、ノード2のサービス停止処理が実行される。ここでは、分岐のないワークフローとなっているが、運用操作部品の実行結果によって処理を分岐させ、異なるノードに遷移させることもできる。
[監視装置の機能構成]
図4は、実施例1にかかる監視装置の機能構成を示す機能ブロック図である。図4に示すように、監視装置10は、通信部11、記憶部12、制御部15を有する。
通信部11は、他の装置の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部11は、業務サーバ群1から監視イベントを受信し、運用管理装置50からフィルタを受信する。また、通信部11は、収集した監視イベントを、運用管理装置50へ送信する。
記憶部12は、データやプログラムを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部12は、監視イベントDB13とフィルタリングDB14を記憶する。
監視イベントDB13は、業務サーバ群1で検出された監視イベントを記憶するデータベースである。図5は、監視イベントDB13に記憶される監視イベントの例を示す図である。図5に示すように、各監視イベントは、「イベントNo、レベル、ソース、イベント種別、メッセージ、発生日時、対処フラグ」から構成される。
ここで記憶される「イベントNo」は、監視イベントを識別する識別子であり、発生順に一意に与えられる。「レベル」は、監視イベントの緊急度を示す情報であり、緊急度が高い順に、ERROR、WARNING、INFOなどが設定される。「ソース」は、監視イベントの発生元のサーバを示す情報であり、WFサーバやDBサーバなどが設定される。なお、ワークフローとは関係がなく、帳票管理システムとは関係のないXXサーバであっても、ノイズが検出された場合を考慮して検出対象の監視イベントに含める。
「イベント種別」は、監視イベントの種別を示す情報であり、例えばイベントログ監視、プロセス監視、シナリオ監視、MIB(Management Information Base)監視などが設定される。「メッセージ」は、監視イベントで検出されるエラーメッセージを示す。「発生日時」は、監視イベントが発生した日時を示す。「対処フラグ」は、監視イベントに対して障害対応等が実行されたか否かを示す情報である。
図5の1行目の監視イベントは、「XXサーバ」から出力された「イベントログ監視」の「ERROR」の監視イベントであり、「2016年9月3日、00:04:02」に、対処「不要」である「ログローテーションに失敗しました。」のメッセージが出力されたことを示す。
フィルタリングDB14は、監視イベントをフィルタリングするフィルタを記憶するデータベースである。ここで記憶されるフィルタは、運用管理装置50によって生成される。なお、記憶されるフィルタについては、後述するので、詳細な説明は省略する。
制御部15は、監視装置10全体を司る処理部であり、例えばプロセッサなどである。制御部15は、監視イベント管理部16、フィルタリング部17、画面出力部18を有する。なお、監視イベント管理部16、フィルタリング部17、画面出力部18は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
監視イベント管理部16は、監視機能を実行して、業務サーバ群1の各サーバを監視する処理部である。例えば、監視イベント管理部16は、各サーバで発生した監視イベントを検出して、監視イベントDB13に登録する。
フィルタリング部17は、検出された監視イベントのフィルタリングを実行する処理部である。具体的には、フィルタリング部17は、フィルタリングDB14に記憶されるフィルタを用いて、検出された監視イベントのフィルタリングを実行して、当該監視イベントが出力対象か否かを判定する。そして、フィルタリング部17は、出力対象である場合は、当該監視イベントに関する情報を画面出力部18に通知し、出力対象ではない場合は、当該監視イベントに関する情報の画面出力部18への通知を抑制する。
画面出力部18は、監視イベントをディスプレイなどの表示部に表示する処理部である。例えば、画面出力部18は、フィルタリング部17から、出力対象の監視イベントに関する情報として「イベントNo」などを受信すると、該当する監視イベントを監視イベントDB13から読み出して、ディスプレイなどの表示部に表示する。
[運用管理装置の機能構成]
図6は、実施例1にかかる運用管理装置の機能構成を示す機能ブロック図である。図6に示すように、運用管理装置50は、通信部51、記憶部52、制御部70を有する。
通信部51は、他の装置の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部51は、監視装置10から監視イベントを受信し、監視装置10にフィルタを送信する。
記憶部52は、データやプログラムを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部52は、ワークフロー管理DB53、変数管理DB54、インスタンス管理DB55、監視イベント管理DB56、イベントパターン管理DB57、遷移ルート管理DB58、パターンデータ管理DB59、フィルタリング管理DB60を記憶する。
ワークフロー管理DB53は、自動化されたワークフローの実行内容を記憶するデータベースである。図7は、ワークフロー管理DBに記憶されるワークフローの例を示す図である。図7に示すように、ワークフロー管理DB53は、ワークフローごとに、「ワークフローNo、部品No、運用操作部品名、操作対象、操作サービス/資源、次の部品No」を記憶する。なお、ここで記憶される情報は、メンテナンス実行者などによって設定される。
「ワークフローNo」は、ワークフローを識別する識別子である。「部品No」は、ワークフローを構成する部品の識別子である。「操作対象」は、部品の操作対象を示す情報であり、「操作サービス/資源」は、部品が操作するサービスや資源を示す情報である。「次の部品No」は、次に実行される部品を示す。
図7の例では、ワークフローNo.1は、0から99までの部品で構成され、1番目の部品は、部品名が「操作対象/資源の取得」であり、この部品の後に2番目の部品が実行されることを示す。また、部品No.3の部品名「サービス停止確認」は、変数1の変数2に対して実行され、確認結果に応じて、部品No.4と部品No.5に分離することを示す。
変数管理DB54は、ワークフローで読み出される変数を管理するデータベースである。図8は、変数管理DBに記憶される変数の例を示す図である。図8に示すように、変数管理DB54は、「変数No、インスタンスNo、ノードNo、変数名、変数値」を対応付けて記憶する。なお、ここで記憶される情報は、メンテナンス実行者などによって設定される。
「変数No」は、変数を識別する識別子であり、「インスタンスNo」は、例えば事象や事例などのインスタンスを識別する識別子である。「ノードNo」は、ワークフローで実行されるノードを識別する識別子である。「変数名」は、ワークフローの各部品で読み出される変数の名称であり、「変数値」は、当該変数名に設定される値である。図8の例では、変数NO.1として、インスタンスNo.1のノードNo.0において、変数値(hostA)の変数1が設定されることを示す。
インスタンス管理DB55は、ワークフローごとに、各ワークフローで実行されたインスタンスを記憶するデータベースである。図9は、インスタンス管理DB55に記憶されるインスタンスの例を示す図である。図9に示すように、インスタンス管理DB55は、「インスタンスNo、ワークフローNo、ノード位置、ノード遷移元、開始日時、終了日時、実行結果(標準出力)、実行結果(復帰値)」などを対応付けて記憶する。ここで記憶される情報は、ワークフローが実行されるたびに、ワークフロー実行部71によって格納される。
図9の例では、インスタンスNo.1は、ワークフローNo.1のワークフローで実行されたインスタンスであることを示す。また、図9の1行目は、ノード0から遷移したノード1において、2016年9月3日00:04:00から2016年9月3日00:04:02に実行され、実行結果として「構成情報の取得に成功」が取得され、実行結果が「0(正常)」であることを示す。
監視イベント管理DB56は、業務サーバ群1で発生した監視イベントを記憶するデータベースである。ここで記憶される情報は、監視装置10から取得した情報であり、監視装置10で管理される情報と同じなので、詳細な説明は省略する。
イベントパターン管理DB57は、ワークフローの実行で発生した監視イベントの集計結果を記憶するデータベースである。図10は、イベントパターン管理DBに記憶されるイベントパターンの例を示す図である。図10に示すように、イベントパターン管理DB57は、「パターンNo、ワークフローNo、ノードNo、操作対象、操作資源、実行回数、データNo、遷移ルート、更新日時」などを対応付けて記憶する。
「パターンNo」は、イベントパターンを識別する識別子であり、「ワークフローNo」は、イベントパターンが発生したワークフローを識別する識別子であり、「ノードNo」は、イベントパターンを発行したノードを識別する識別子である。「操作対象」は、イベントパターンの発生時に操作されたサーバの識別子であり、「操作資源」は、イベントパターンの発生時に操作されたサービスの識別子である。「実行回数」は、イベントパターンの実行回数であり、「データNo」は、詳細内容を特定するときに使用する識別子である。「遷移ルート」は、イベントパターンの順番を示す情報であり、「更新日時」は、最新の更新日時(発生日時)である。
図10の例では、パターンNo.2は、ワークフローNo.1のノード2において、APサーバのWebサービスに対して実行されたときに発生した監視イベントである。この監視イベントは、過去に14回発生し、遷移ルート1に該当し、データNo.2−4で特定される詳細なイベント内容に該当し、更新日時が2016年9月3日の00:04:00であることを示す。
遷移ルート管理DB58は、ワークフロー実行時のノードの遷移ルートを記憶するデータベースである。図11は、遷移ルート管理DBに記憶される遷移ルートの例を示す図である。図11に示すように、遷移ルート管理DB58は、「遷移ルートNo、ワークフローNo、遷移元ノード、遷移先ノード」を対応付けて記憶する。なお、ここで記憶される情報は、メンテナンス実行者などによって設定される。
「遷移ルートNo」は、遷移ルートを識別する識別子であり、「ワークフローNo」は、ワークフローを識別する識別子である。「遷移元ノード」は、遷移元のノードを識別する識別子であり、「遷移先ノード」は、遷移先のノードを識別する識別子である。図11の1行目の例は、ワークフローNo.1が有する遷移ルートを示し、ノード0からノード1への遷移を示す情報である。
パターンデータ管理DB59は、イベントパターンで発生したパターンの詳細情報を管理するデータベースである。図12は、パターンデータ管理DBに記憶されるパターンデータの例を示す図である。図12に示すように、パターンデータ管理DB59は、「データNo、イベント種類、メッセージ、ソース、レベル、発生時刻、信頼度、マージン」などを対応付けて記憶する。
「データNo」は、パターンデータを識別する識別子である。「イベント種類」は、監視イベントの種別を示す情報である。「メッセージ」は、当該監視イベントで出力されるメッセージの内容である。「ソース」は、当該監視イベントの発行元のサーバを示す情報である。「レベル」は、発行された監視イベントの危険度を示す情報である。「発生時刻」は、監視イベントの発生時刻である。「信頼度」は、監視イベントがワークフローを起因とするものか否かを示す情報である。「マージン」は、監視イベントの発生時刻の許容範囲を示す情報である。
図12の例では、データNo.2は、APサーバで発行されたイベントログ監視の監視イベントであり、「〜サービスを停止します」のメッセージが、危険度「INFO」で、「00:00:02」に発行されたことを示す。また、データNo.2のパターンデータには、マージンとして「2」、信頼度として「80」が設定される。つまり、「00:00:02」から前後2秒の間で出力された、データNo.2と同じ内容の監視イベントは、データNo.2として扱うことを示す。
フィルタリング管理DB60は、監視イベントをフィルタリングするフィルタに関する情報を管理するデータベースである。図13は、フィルタリング管理DBに記憶されるフィルタの例を示す図である。図13に示すように、フィルタリング管理DB60は、「フィルタNo、イベント種類、メッセージ、ソース、レベル、時刻条件、アクション、繰り返し」などを対応付けて記憶する。
「フィルタNo」は、フィルタを識別する識別子である。「イベント種類」は、監視イベントの種別を示す情報である。「メッセージ」は、当該監視イベントで出力されるメッセージの内容である。「ソース」は、当該監視イベントの発行元のサーバを示す情報である。「レベル」は、発行された監視イベントの危険度を示す情報である。「時刻条件」は、当該監視イベントが出力されると想定される時間帯である。「アクション」は、当該監視イベントの発行時に対応するアクションの内容である。「繰り返し」は、当該フィルタによる制御の繰り返し回数を示す。
図13の場合、フィルタNo.1は、2016年9月3日の00:04:01から00:04:05の間に、APサーバから発行された、「〜サービスを停止します」かつ「INFO」に対応するイベントログの表示を抑制することを示す。
制御部70は、運用管理装置50全体を司る処理部であり、例えばプロセッサなどである。制御部70は、ワークフロー実行部71とフィルタリング処理部80を有する。なお、ワークフロー実行部71とフィルタリング処理部80は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。
(1.ワークフローの実行)
ワークフロー実行部71は、ワークフローを実行する処理部である。具体的には、ワークフロー実行部71は、予め定めた時間に到達した場合やメンテナンス実行者によって開始が指示された場合、図7に示すワークフロー管理DB53に記憶されるワークフローの中から、該当するワークフローをStartノードからENDノードまで順に実行する。
図14は、ワークフローの実行処理の流れを示すフローチャートである。図14に示すように、ワークフロー実行部71は、Startノードから開始し(S101)、ENDノードまでS102からS107のループ処理を実行する。具体的には、ワークフロー実行部71は、ワークフロー管理DB53から操作対象と操作内容を取得し(S103)、運用操作部品に設定される処理を実行する(S104)。そして、ワークフロー実行部71は、ノードの処理完了の通知を受信すると(S105)、次のノードへ遷移して(S106)、次の処理を実行する。
(2.フィルタリング制御)
フィルタリング処理部80は、ワークフローの実行を起因とする監視イベントの出力を抑制するフィルタを生成する処理部である。フィルタリング処理部80は、イベントパターン読込部81、イベントパターン生成部82、突合処理部83、信頼度判定部84、一致判定部85、フィルタリング更新部86を、イベントパターン更新部87を有する。
ここでは、全体的な処理の流れを説明した後に、各処理の詳細を説明する。図15は、イベントパターンの更新処理の全体的な流れを示すフローチャートである。図15に示すように、フィルタリング処理部80は、イベントパターン管理DB57から該当するイベントパターンを読み込み(S201)、すでに作成済みである監視イベントのイベントパターンと今回新たに出力された監視イベントとを突合する突合処理を実行する(S202)。
その後、フィルタリング処理部80は、該当するイベントパターンの信頼度が閾値以上である場合(S203:Yes)、イベントパターンの一致判定を実行する(S204)。そして、フィルタリング処理部80は、類似度が閾値以上である場合(S205:Yes)、フィルタリングを更新し(S206)、イベントパターンを更新する(S207)。なお、フィルタリング処理部80は、信頼度が閾値未満である場合(S203:No)、S204からS206を実行せずに、イベントパターンを更新する(S207)。また、フィルタリング処理部80は、類似度が閾値未満である場合(S205:No)、S206を実行せずに、イベントパターンを更新する(S207)。
(2−1.イベントパターン読込)
イベントパターン読込部81は、イベントパターン管理DB57からイベントパターンの読み込みを実行する処理部である。具体的には、イベントパターン読込部81は、指定されたワークフローNoとインスタンスNoとノード位置から、インスタンス管理DB55および変数管理DB54を検索して、ノードの遷移ルートや設定された変数(対象サーバや制御対象のリソースなど)を取得する。
その後、イベントパターン読込部81は、イベントパターン管理DB57を検索して、取得したインスタンス情報と一致する条件のイベントパターンを取得する。ここで、イベントパターン読込部81は、例えば初回起動時などイベントパターンが存在しない場合、信頼度は0とする。そして、イベントパターン読込部81は、イベントパターンの生成し指示をイベントパターン生成部82に出力する。
一方、イベントパターン読込部81は、イベントパターンが存在する場合、信頼度をパターンデータ管理DB59から取得する。そして、イベントパターン読込部81は、取得した信頼度がユーザ指定の閾値を下回っている場合については一致判定をしないように制御する。
(2−2.イベントパターンの初回生成)
イベントパターン生成部82は、イベントパターン読込部81が読み込む対象のイベントパターンがない場合の初回時に、イベントパターンを生成する処理部である。具体的には、イベントパターン生成部82は、ワークフローの開始から終了までに発生した監視イベントをグループ化するイベントグループの生成と、過去のワークフロー実行時に発生した監視イベントに基づくイベントグループの生成とを実行する。
まず、イベントパターン生成部82は、イベントグループの生成を実行する。例えば、イベントパターン生成部82は、ワークフローの開始から終了までに発生した監視イベントを、図16のようにノードごとに分割する。このとき、各ノードの開始時間はワークフローの経過時間で表現できる。図16は、イベントグループ化の分割を説明する図である。図16に示すように、イベントパターン生成部82は、ノード毎に、ワークフローの経過時間(開始時刻をTf=0)、各ノードの経過時間(開始時間をTnx=0、xはノード)で分割する。
図3のワークフローを例に説明すると、イベントパターン生成部82は、ノード1の開始から終了、ノード2の開始から終了、ノード3の開始から終了、ノード4の開始から終了に分割する。そして、イベントパターン生成部82は、分割された各区間において、区間内で発生した監視イベントを時系列に並べる。なお、ワークフローとは関係ない監視イベントが検出された場合を考慮し、帳票管理システムとは関係のない別のXXサーバで発生した監視イベントを含めることとする。
各ノードで発生した監視イベントの収集結果を図17に示す。図17は、イベントグループの生成を説明する図である。図17に示すように、ワークフローの実行時に、ノード1では、Tn1=1.0のときにXXサーバでイベントログが発生し、ノード2では、Tn2=3.0のときにWFサーバでイベントログが発生し、Tn2=5.0のときに監視製品による監視イベントが検出されている。また、ノード3では、Tn3=1.0のときにDBサーバでイベントログが発生し、Tn3=2.0のときにAPサーバでイベントログが発生し、Tn3=10.0、55.5、115.0のときに監視製品による監視イベントが検出され、Tn3=20.0と80.0のときにXXサーバでイベントログが発生し、Tn3=60.0のときにWFサーバでイベントログが発生した。また、ノード4では、Tn4=3.0のときにWFサーバでイベントログが発生した。
次に、イベントパターンの生成について説明する。イベントパターン生成部82は、過去のワークフロー実行時に発生した監視イベントから、実行履歴の数だけイベントグループを生成する(図10参照)。それらイベントグループ群から統計的な発生パターンを求めることで、特定のワークフロー実行時に発生するイベントパターンを作成することができる。なお、イベントパターンはノードごとに作成し、全ノードのイベントパターンの集合がワークフローのイベントパターンとなる。
なお、図10のイベントパターンにおいて、ワークフローNoとノード位置の情報から、ワークフロー定義を格納したワークフロー管理DB53を参照することで、各ノードに設定された運用操作部品を参照できる。また、図12のパターンデータは、図17の時系列データを配列として格納したものである。また、信頼度の実態は、パターンデータの配列要素、言い換えると監視イベント単位ごとに保持する値である。
続いて、イベントパターンの生成手順を説明する。第1に、イベントパターン生成部82は、指定されたワークフローNoの定義情報を解析し、実行するノードの一覧を取得する。図3の例では、イベントパターン生成部82は、ノード1(構成情報を取得)、ノード2(サービスを停止)、ノード3(Activity)、ノード4(サービスを起動)の4つを取得する。
第2に、イベントパターン生成部82は、取得したワークフローNoとノード番号からでワークフロー(運用製品)の実行ログを検索し、過去に該当ノードを実行した日時、操作対象、操作資源などを取得する。第3に、イベントパターン生成部82は、取得した実行ログのうち、操作対象や操作資源などの条件が合致する履歴の数だけ、以下の処理1−2を繰り返す。処理1:実行日時の開始から次ノード開始の期間で発生したすべての監視イベントを監視製品のログから検索する処理。処理2:イベントグループの生成処理。
最後に、イベントパターン生成部82は、複数のイベントグループから統計的なパターンを求め、ノードごとにイベントパターンを生成する。図18は、イベントグループ群を説明する図である。図18は、横軸を経過時間とし、時系列に発生イベントを示している。また、網掛け等は、イベント種別により区別される。
図18の(a)は、ワークフローNo.100のノード2のイベントグループを説明する図である。ノード2の「サービスを停止」について、7回分のイベントグループが存在したとしても、呼び出し時のパラメータ(操作対象や操作資源)の違いから、帳票サービスを対象とした5回分のデータを用いる。図18の(a)は、過去にワークフローNo.100を数回実行したときに、インスタンスNo.10、20、30、40、50のそれぞれにおいて出力された監視イベントを表す。
ノード2の「サービスを停止」について、残りの2回分のデータを用いて作成したイベントパターンを図18の(b)に示す。図18の(b)は、過去にワークフローNo.100を数回実行したときに、インスタンスNo.35、45のそれぞれにおいて出力された監視イベントを表す。
図18に示すイベントパターンを生成した結果、点線枠(×印)で示したような特定のイベントグループにのみ存在する監視イベントは、運用操作部品の処理によって発生したものではないと判定することができる。つまり、ノイズであるとして、イベントパターンに含めない。このノイズについては、回数を重ねることによって全体に与える影響が小さくなる。
また、点線枠(矢印)で示したような、ノードの境界に位置する監視イベントについては、イベントパターンによって「サービスを停止」部品側のノードに含まれる場合と、次ノードに含まれる場合が考えられる。これは、運用製品と監視製品それぞれ別のログ情報を用いるために発生する。このような境界付近の監視イベントについては、マージン区間を設けることで、境界で分断されないように判定を行う。なお、図18では次ノードのみを示しているが、実際には前ノードとのマージンについても同様に考慮する。
そして、イベントパターン生成部82は、ノードごとに、呼び出し元ワークフローや対象サーバを考慮したイベントパターンを作成する。図19は、生成されたイベントパターンを説明する図である。図19は、図18に示したイベントグループに基づいて生成したイベントパターンである。図19に示すように、帳票サービスについては、インスタンスID=10、20、30、40、50で共通する2つの監視イベントがイベントパターンに登録され、Webサービスについては、インスタンスID=35、45で共通する6つの監視イベントがイベントパターンに登録される。つまり、これらのイベントパターンが、表示抑制対象の監視イベントとなる。
(2−3.突合処理)
図6に戻り、突合処理部83は、イベントパターン読込部81によってイベントパターンが読み込まれた場合に、ワークフロー管理DB53に記憶される情報と監視イベント管理DB56に記憶される情報を突き合せ、運用操作実行中に発生した監視イベント一覧を取得する処理部である。具体的には、突合処理部83は、運用操作を行った日時をスタートして、ワークフローと発生した監視イベントとの突合を行い、イベントグループを生成する。
図20は、突合処理の流れを示すフローチャートである。図20に示すように、突合処理部83は、開始時間を計算する(S301)。例えば、突合処理部83は、指定されたワークフローNoとインスタンスNoとノード位置を用いて、ワークフロー管理DB53を検索し、インスタンス情報に含まれる該当ノードの開始日時を取得する。その後、突合処理部83は、イベントパターン情報に含まれる「最初の監視イベントの発生日時マージン値」を取得し、そのマージンを含めた値を設定する。
続いて、突合処理部83は、終了時間を計算する(S302)。例えば、突合処理部83は、指定されたワークフローNoとインスタンスNoとノード位置を用いて、ワークフロー管理DB53を検索し、インスタンス情報に含まれる該当ノードの終了日時を取得する。その後、突合処理部83は、イベントパターン情報に含まれる「最後の監視イベントの発生日時マージン値」を取得し、そのマージンを含めた値を設定する。
そして、突合処理部83は、監視イベント管理DB56に記憶される監視イベントを、日時指定で検索する(S303)。例えば、突合処理部83は、S301で取得した開始日時からS302で取得した終了日時との間に発生したすべての監視イベントを取得する。
その後、突合処理部83は、監視イベントが存在する場合(S304:Yes)、イベントグループを生成し(S305)、監視イベントが存在しない場合(S304:No)、処理を終了する。例えば、突合処理部83は、取得された監視イベントの一覧から、監視イベントをノード開始時からの相対時間で時系列に並べた監視イベントの配列を作成する。なお、イベントグループの生成の詳細は、図16から図18と同様なので、詳細な説明を省略する。
(2−4.信頼度の判定処理)
信頼度判定部84は、イベントパターン読込部81で読み込まれたイベントパターンの信頼度が閾値以上か否かを判定する処理部である。具体的には、信頼度判定部84は、該当するイベントパターンに設定されるデータNoを特定する。続いて、信頼度判定部84は、特定したデータNoに該当するパターンデータをパターンデータ管理DB59から検索する。そして、信頼度判定部84は、検索されたパターンデータに設定される信頼度が閾値以上か否かを判定する。
つまり、読み込まれたイベントパターンが信頼度の高いイベントパターンである場合にのみ、当該監視イベントの抑制判定の可否を判定する。ここで、詳細については後述するが、信頼度は、「過去のワークフロー実行時に発生していた」ことを統計情報として信頼する度合いを示す情報である。つまり、信頼度は、実行回数ごとのイベントパターンに相関がある場合は高く、相関がない場合は低くなる。この値を考慮することで、1度しか発生していないイベントパターンを採用してしまうケースを防ぐことができる。ノイズの影響を受けることで、運用開始時は信頼性が低下するが、同じ環境で実行回数(母数)を増やしていくことで向上する。
(2−5.一致処理)
一致判定部85は、イベントパターン読込部81によって新たに生成されたイベントグループと、イベントパターン読込部81によってイベントパターン管理DB57から読み込まれたイベントパターンとの一致判定を行い、類似度を計算する処理部である。具体的には、一致判定部85は、ワークフローの実行によって発生したイベントグループと、イベントパターン管理DB57に登録されるイベントパターンとを照合し、過去の運用操作によって発生したイベントを検出する。イベントグループはノードごとに分割されているので、一致判定部85は、各ノードの運用操作部品のイベントグループとそれぞれ一致判定をする。一致判定部85は、この判定の確からしさは類似度として計算する。過去のデータと一致しない場合、類似度は低くなる。
つまり、一致判定部85は、今回のワークフローの実行時に生成されたイベントグループに含まれる各監視イベントが、過去のワークフローの実行時に検出された監視イベントと類似するか否かを判定する。そして、一致判定部85は、類似する場合は、今回のワークフローの実行時に検出された監視イベントの起因を、ワークフローの実行と判定する。すなわち、一致判定部85は、その監視イベントを表示抑制対象と判定することができる。
図21は、一致処理の流れを示すフローチャートである。図21に示すように、一致判定部85は、一致フラグを初期化する(S401)。例えば、一致判定部85は、イベントパターンのイベントグループの比較結果を格納する領域を初期化する。
続いて、一致判定部85は、イベントパターンのすべての監視イベントについてS402からS405のループ処理を実行する。具体的には、一致判定部85は、マージン区間内に同一の監視イベントが存在するか否かを判定する(S403)。そして、一致判定部85は、同一の監視イベントが存在する場合(S403:Yes)、一致フラグをONにし(S404)、同一の監視イベントが存在しない場合(S403:No)、次の監視イベントについて判定を実行する。
監視イベントには、運用操作時の環境の変化や監視製品の検出タイミングのズレによって一致と判断されないイベントが存在する。そのため、一致フラグが残存するイベントパターンについて、(1)イベントパターンの時間の長さを正規化する処理、(2)イベントの発生時刻をスライド移動する処理、(3)繰り返し検出されているイベントを1つに統合する処理、(4)ユーザ指定で無視すると定義されているイベントを対象外にする処理の各処理を実行する。なお、このループ処理はイベントパターン中で信頼度の高い監視イベントの順に実施する。
そして、ループ処理が終了すると、一致判定部85は、類似度を計算する(S406)。具体的には、一致判定部85は、一致フラグがONの監視イベントを、該当のイベントパターンと一致するように補正する。そして、一致判定部85は、補正後のイベントグループとイベントパターンを比較し、類似度を計算する。
類似度とは、イベントグループが過去のイベントパターンと共通している度合いを示す値であり、監視イベントの発生源やタイミングに相関がある場合は高く、相関がない場合は低くなる。例えば、一致判定部85は、相関係数を用いた「Si=100×(f(Ai,Ap(i−1))+1)/2」によって、相関係数を算出する。
ここで、Siはi番目のイベントグループとi−1番目のイベントパターンの類似度であり、fは相関関数であり、−1から1の範囲で値を返す。Aiはi番目のイベントグループであり、Apiはi番目のイベントパターンである。なお、i番目のイベントグループについては、実行回数ごとのずれを考慮して、所定の補正を行ったものを用いることができる。所定の補正の一例としては、ノード開始から終了までの時間の正規化(イベントパターンに合わせて縮尺)、監視イベントの発生時間スライド、複数発生している監視イベントの統合、その他ユーザ定義している判定不要イベントの除外などがある。
(2−6.フィルタ更新処理)
図6に戻り、フィルタリング更新部86は、一致判定によって運用操作に伴って発生した監視イベントの表示抑制を実行するフィルタリングデータ(フィルタ)を作成または更新する処理部である。具体的には、フィルタリング更新部86は、信頼度判定部84によって信頼度が閾値以上と判定され、一致判定部85によって類似度が閾値以上と判定された監視イベントのイベントパターンの表示を抑制するためのフィルタルールを生成したり、既存のフィルタに当該フィルタルールを追加したりする。
図22は、一致判定の結果を説明する図である。図22は、ワークフローを実行したタイミングで表示された12個の監視イベントをしている。このうち、XXサーバのイベントログで検出された3個の監視イベント以外は、過去のワークグループを実行したときに出力されたイベントパターンと一致すると判定されたとする。この場合、フィルタリング更新部86は、XXサーバで検出された3個の監視イベントのみを表示し、それ以外の表示を抑制するフィルタを生成する。つまり、Tn1=1.0、Tn3=20.0、Tn3=80.0の監視イベントのみが表示出力される。
すなわち、信頼度と類似度が閾値以上の場合のみ、一致したと判断される。これは、信頼できる過去データから作成したイベントパターンと、発生したイベントグループに高い相関が見られることを意味する。この場合は、フィルタリング更新部86は、過去に行った対処に従い、監視イベントを抑制するなど自動的に対処する。なお、この閾値は利用者が設定することも可能である。
なお、抑制するのはイベントパターンにあり、かつ過去に対処不要としている監視イベントのみである。図22の場合では、「サービスの停止」部品によって発生した監視イベントはイベントパターンと一致しているため、正しく抑制される。また、他の運用操作部品についても監視設定から発生する監視イベントであり、イベントパターンに含まれるため、同じく抑制される。図22では、このように抑制する監視イベントを、×マークで記載している。一方で、「構成要素を取得」部品やメンテナンス作業については、それぞれの運用操作部品のイベントパターンに含まれない、言い換えるとこのワークフローの操作以外の要因で発生している。このようなノイズについては意図したとおり抑制しない。
そして、フィルタリング更新部86は、生成したフィルタを監視装置10に送信し、監視装置10は、フィルタによってフィルタリングを実行する。図23は、フィルタリングを説明する図である。図23に示すように、運用管理装置50は、サーバ群にワークフローを実行する。この実行に伴って、監視装置10は、Tn1=1.0、Tn2=3.0、Tn2=5.0、Tn3=1.0、Tn3=2.0、Tn3=10.0、Tn3=20.0などの監視イベントを検出する。
これと並行して、運用管理装置50は、実行結果および検出結果を用いて、イベントパターンとの一致判定をもとに、フィルタリングの生成および更新を実行して、監視装置10に送信する。そして、監視装置10は、更新されたフィルタリングを適用して、検出したTn1=1.0、Tn2=3.0、Tn2=5.0、Tn3=1.0、Tn3=2.0、Tn3=10.0、Tn3=20.0などの監視イベントのうち、Tn1=1.0とTn3=20.0の監視イベントのみを対処要と表示する。もしくは、監視装置10は、Tn1=1.0とTn3=20.0以外の監視イベントを対処不要と表示する。
(2−7.イベントパターンの更新処理)
イベントパターン更新部87は、今回のワークフローの対象としたイベントグループの情報を用いて、イベントパターンを更新する処理部である。イベントパターンは、必ずしもワークフローの開始に伴って再作成しなくてもよい。あらかじめ作成済みのイベントパターンは、イベントパターン管理DB57に登録してあるので、これを更新することで計算量や計算時間を低減することができる。このような差分アップデートの場合、作成済みのイベントパターンと発生したイベントグループの比較または統合によって、イベントパターンを更新する。なお、 通常は登録済みイベントパターンを用いて計算し、これとは別に定期的にイベントパターンを再作成することで、「過去に発生していた監視イベント」を最新に保つことができる。
図24は、イベントパターンの更新処理の流れを示すフローチャートである。イベントパターン更新部87は、イベントグループを読み込み(S501)、イベントパターンを読み込む(S502)。例えば、イベントパターン更新部87は、イベントパターン管理DB57から更新元のイベントパターンを読み込み、今回のメンテナンスで検出されたイベントグループを各処理部から取得する。
続いて、イベントパターン更新部87は、取得したイベントパターンの各監視イベントについて、S503からS507のループ処理を実行する。具体的には、イベントパターン更新部87は、イベントパターンとイベントグループとの間で、一致する監視イベントがある場合(S504:Yes)、発生時刻およびマージンを更新し(S505)、信頼度を更新する(S506)。なお、イベントパターン更新部87は、イベントパターンとイベントグループとの間で、一致する監視イベントがない場合(S504:No)、S505を実行することなく、S506を実行する。
例えば、発生時刻は、最新の時刻に更新する。マージンの更新値は、実行回数が重みとなり、過去への影響を考慮して、「(実行回数×イベントパターンの値+イベントグループの値)/(実行回数+1)」で更新する。また、イベントパターン更新部87は、すべてのイベントグループの監視イベントについて、イベントパターンの信頼度を更新する。発生時刻、マージンの場合と同じく、更新値は実行回数が重みとなるが、基本的に一致すれば増え、一致しなければ下がる。
ここで、信頼度について説明する。イベントパターンは漸化処理で求める。つまり、実行回数がi番目のイベントパターンは、i−1番目のイベントパターンと、i番目に発生したイベントグループから求める。また、イベントパターン全体の信頼度は、イベントパターン中の各監視イベントがもつ信頼度の平均となる。監視イベント単位の信頼度は、出現回数/試行回数で計算できる。例えば、n回中m回のときは、「n/m×100」であり、毎回発生する場合は100となる。ただし、実行回数ごとに信頼度に与える影響が異なることを考慮し、「過去に発生したデータの影響を小さくするように、時間依存で減少させる補正」や「ユーザ対処があったときの影響を大きくするように、対処結果依存で増加または減少させる補正」を実行することもできる。
(2−8.イベントパターンの生成処理)
イベントパターン更新部87は、ワークフローの実行に依存することなく、予め指定した間隔や管理者が指定した間隔で、イベントパターン管理DB57に記憶されるイベントパターンの再作成を実行する処理部である。
例えば、イベントパターン更新部87は、ワークフローの実行と並行して処理を行うこともできる。新規作成と異なる点は、ノード遷移をするたびに通知され、その通知をトリガーとしてノード単位でイベントパターン作成時することである。信頼度の計算方法についての異なる点は、イベントグループ作成時にはそのタイミングまでに発生した監視イベントのみ存在するが、対処不要や対処済みなどのユーザ対処の有無を取得できない点である。
図25は、イベントパターンの再生成処理の流れを示すフローチャートである。図25に示すように、イベントパターン更新部87は、管理者等によって指定された回数だけ、S601からS606のループ処理を実行する。具体的には、イベントパターン更新部87は、iを変数、初期値を指定値、繰り返し回数を試行回数として、ループ処理を実行する。例えば、イベントパターン更新部87は、i番目のイベントグループを生成し(S602)、i番目とイベントグループとイベントパターンの一致判定を実行し(S603)、補正付き信頼度を計算した後(S604)、イベントパターンを更新する(S605)。
より詳細には、イベントパターンの再作成では、試行回数だけ「イベントグループの作成」と「一致判定」、「イベントパターン更新」を繰り返し行う。上述したイベントパターンの初期生成と異なり、運用管理製品と監視製品のデータ保持期間の関係上、ワークフロー管理DB53のインスタンス情報にあるが監視イベントに存在しない、または、その逆が考えられるので、試行回数の開始タイミングを、何ヶ月前からまたは何回目から指定する。
また、信頼度に過去情報に関する補正を付けることができる。したがって、補正付き信頼度Ri´は、補正無し信頼度Riを計算するときに、所定の係数を乗算することで求めることができる。例えば、時間の係数であり、現在からの過去のデータであるほど減衰する曲線となる「Kt(i)」、ユーザ対処による教示の係数であり、ユーザが対処不要とした回のイベントグループの影響を強く反映するように設定する「Ku(i)」などの係数を用いる。
[効果]
運用管理装置50は、メンテナンスなどの運用操作によって発生する監視イベントをパターン化して、イベントパターンとして記録できる。運用管理装置50は、上記イベントパターンの信頼度および、イベントパターンとの相関を示す類似度によって運用管理特有の情報の不確かさを表現することができる。運用管理装置50は、上記イベントパターンに基づいて、事前定義なしに指定のワークフローによって発生する監視イベントを抑制するフィルタリングルールを生成することができる。
運用管理装置50は、監視製品や運用製品のログからフィルタリングルールを自動生成するため、定義による管理が不要であり大規模環境にも適応ができる。また、監視アプリケーションのエージェントを必要としないため、監視アプリケーションのエージェントを業務サーバにインストールできない環境でも適応できる。運用管理装置50は、ワークフローの動作安定度を「信頼度」として定量的に示すことができる。利用者はこの数値が低ければ、環境もしくはワークフローに問題があると認識することができる。
運用管理装置50は、ワークフローによって発生する監視イベントのみを抑制することができる。自明かつ大量の監視イベントの確認が不要となり、手動操作や障害によって発生したイベントのみを確認することができる。オペレータの負担は低減され、監視イベントの見逃しや対応への遅れが発生する可能性を低減できる。
[比較]
一般的に、ワークフローで運用操作を行った場合、発生する監視イベントは、対象サーバから操作後すぐに発生するものだけでなく、関連するサーバやある程度時間が経ってから発生するものがある。部品の実行によって直接的に発生する監視イベントについては、操作と現象が明らかであることから、オペレータの負担も少なく、監視対象外と判定することができるが、部品の実行によって間接的に発生する監視イベントについては、オペレータで判断することが難しい。運用管理装置50では、イベントグループとして判定することで、監視イベントを統合的に判断するが、それでもまだ、ワークフローを実行するごとに異なるイベントグループが発生する可能性もある。
つまり、他のサーバから発生する監視イベントの有無、監視製品のリトライやインターバルの設定による監視イベントの発生タイミングのズレ、対象サーバや関連サーバ上アプリの状態による、発生する監視イベントの有無などのノイズがあるので、同じ対象サーバに、同じ論理構成で、同じワークフローを実行した場合であっても、必ずしも同じイベントパターンなるとは限らない。その結果、実行履歴から正しくイベントパターンを作成することができず、過去のワークフロー実行期間に発生していたかどうかの判定が難しいこともある。つまり、監視イベントを正しく抑制できないこともある。
ところが、運用管理装置50は、実行履歴におけるイベントグループ間の相関を「信頼度」として、イベントグループとイベントパターン間の相関を「類似度」として示すことで、ノイズの除去を行っている。また、監視製品による監視イベントの検出タイミングの変化など、同じ運用の範囲で発生しうるイベントグループの変動に対しては許容するように信頼度を計算することで対応している。したがって、運用管理装置50は、上記ノイズを正確に特定して、イベントパターンの対象外とすることができるので、監視イベントを正しく抑制できる。
さらに、運用管理装置50は、「信頼度」が閾値以上でなければフィルタリングによる抑制を行わないので、過剰な抑制を軽減できる。また、運用管理装置50は、イベントグループ間の相関を評価するにあたって、ワークフローで発生する監視イベントのイベントパターンの変化が早く収束するように、実行履歴のうち古いイベントグループほど影響が小さくなるように導出することもできる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。
[判定材料]
上記実施例では、信頼度を用いる例を説明したが、これに限定されるものではなく、例えば過去の実行回数などを用いることもでき、信頼度等の情報を用いずに、イベントパターンだけで判定することもできる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、監視装置10と運用管理装置50は1つの筐体で実現することもできる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア構成]
運用管理装置50と監視装置10は、同様のハードウェア構成を有するので、ここでは、情報処理装置100として説明する。図26は、ハードウェア構成例を示す図である。図26に示すように、情報処理装置100は、通信インタフェース100a、HDD(Hard Disk Drive)100b、メモリ100c、プロセッサ100dを有する。
通信インタフェース100aは、他の装置の通信を制御するネットワークインタフェースカードなどである。HDD100bは、プログラムやデータなどを記憶する記憶装置の一例である。
メモリ100cの一例としては、SDRAM(Synchronous Dynamic Random Access Memory)等のRAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等が挙げられる。プロセッサ100dの一例としては、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、PLD(Programmable Logic Device)等が挙げられる。
また、情報処理装置100は、プログラムを読み出して実行することでフィルタリング方法を実行する情報処理装置として動作する。つまり、情報処理装置100は、ワークフロー実行部71とフィルタリング処理部80と同様の機能を実行するプログラムを実行する。この結果、情報処理装置100は、ワークフロー実行部71とフィルタリング処理部80と同様の機能を実行するプロセスを実行することができる。なお、この他の実施例でいうプログラムは、情報処理装置100によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO(Magneto−Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
50 運用管理装置
51 通信部
52 記憶部
53 ワークフロー管理DB
54 変数管理DB
55 インスタンス管理DB
56 監視イベント管理DB
57 イベントパターン管理DB
58 遷移ルート管理DB
59 パターンデータ管理DB
60 フィルタリング管理DB
71 ワークフロー実行部
80 フィルタリング処理部
81 イベントパターン読込部
82 イベントパターン生成部
83 突合処理部
84 信頼度判定部
85 一致判定部
86 フィルタリング更新部
87 イベントパターン更新部

Claims (6)

  1. サーバの監視に関するイベントを取得すると、取得した前記イベントに関する情報を端末に通知する監視プログラムにおいて、
    前記サーバの運用に関する処理の識別情報と、該サーバの監視に関するイベントのうち該サーバの運用に関する処理の実行中に発生したイベントと、を取得し、
    前記サーバの運用に関する処理で発生するイベントの発生パターンを示すイベントパターンごとに、当該イベントパターンに含まれる前記サーバの運用に関する処理に起因して発生したイベント該処理の識別情報と前記イベントパターンの信頼度とを対応付けて記憶する記憶部を参照して、取得された各識別情報に対応付けられた各イベントの発生順に基づいて、前記イベントの通知判定に利用する該当イベントパターンを特定し、
    前記該当イベントパターンの信頼度が閾値未満である場合には、取得された前記各イベントに関する情報の通知を実行し、前記該当イベントパターンの信頼度が閾値以上である場合には、取得した前記イベントのうち、前記該当イベントパターンに含まれるイベントに関する情報の通知を抑制する、
    処理をコンピュータに実行させることを特徴とする監視プログラム。
  2. 前記サーバの運用に関する処理である運用処理が過去に実行されたときに出力された複数のイベントを収集し、
    収集された前記複数のイベントの種別および発生時刻にしたがって、前記運用処理に起因して発生するイベントの出力パターンを生成して前記記憶部に格納する処理を前記コンピュータにさらに実行させ、
    前記特定する処理は、前記記憶部に記憶される複数のイベントパターンのうち、前記出力パターンに該当する前記該当イベントパターンを特定することを特徴とする請求項1に記載の監視プログラム。
  3. 前記格納する処理は、前記出力パターンに含まれる各イベントに対して、前記運用処理が過去に実行されたときに当該イベントが出力された出力回数に基づく信頼度を算出し、算出した信頼度を前記出力パターンの各イベントに対応付けて前記記憶部に格納し、
    前記抑制する処理は、取得した前記運用処理の識別情報に対応付けられたイベントのうち、前記出力パターンに含まれる閾値以上の信頼度を有するイベントと一致するイベントに関する情報の通知を抑制することを特徴とする請求項2に記載の監視プログラム。
  4. 前記運用処理を新たに実行するたびに、前記運用処理の実行中に発生した複数のイベントを取得し、取得した前記複数のイベントの種別および発生時刻にしたがって、前記運用処理に起因して発生するイベントの出力パターンを生成し、
    生成した前記出力パターンが前記記憶部に記憶されていない場合、前記運用処理を起因とするイベントの新たな出力パターンとして登録する処理を前記コンピュータにさらに実行させることを特徴とする請求項2または3に記載の監視プログラム。
  5. サーバの監視に関するイベントを取得すると、取得した前記イベントに関する情報を端末に通知する監視方法において、
    前記サーバの運用に関する処理の識別情報と、該サーバの監視に関するイベントのうち該サーバの運用に関する処理の実行中に発生したイベントと、を取得し、
    前記サーバの運用に関する処理で発生するイベントの発生パターンを示すイベントパターンごとに、当該イベントパターンに含まれる前記サーバの運用に関する処理に起因して発生したイベント該処理の識別情報と前記イベントパターンの信頼度とを対応付けて記憶する記憶部を参照して、取得された各識別情報に対応付けられた各イベントの発生順に基づいて、前記イベントの通知判定に利用する該当イベントパターンを特定し、
    前記該当イベントパターンの信頼度が閾値未満である場合には、取得された前記各イベントに関する情報の通知を実行し、前記該当イベントパターンの信頼度が閾値以上である場合には、取得した前記イベントのうち、前記該当イベントパターンに含まれるイベントに関する情報の通知を抑制する、
    処理をコンピュータが実行することを特徴とする監視方法。
  6. サーバの監視に関するイベントを取得すると、取得した前記イベントに関する情報を端末に通知する監視装置において、
    前記サーバの運用に関する処理の識別情報と、該サーバの監視に関するイベントのうち該サーバの運用に関する処理の実行中に発生したイベントと、を取得する取得部と、
    前記サーバの運用に関する処理で発生するイベントの発生パターンを示すイベントパターンごとに、当該イベントパターンに含まれる前記サーバの運用に関する処理に起因して発生したイベント該処理の識別情報と前記イベントパターンの信頼度とを対応付けて記憶する記憶部を参照して、取得された各識別情報に対応付けられた各イベントの発生順に基づいて、前記イベントの通知判定に利用する該当イベントパターンを特定する特定部と、
    前記該当イベントパターンの信頼度が閾値未満である場合には、取得された前記各イベントに関する情報の通知を実行し、前記該当イベントパターンの信頼度が閾値以上である場合には、取得した前記イベントのうち、前記該当イベントパターンに含まれるイベントに関する情報の通知を抑制する抑制部と
    を有することを特徴とする監視装置。
JP2017058207A 2017-03-23 2017-03-23 監視プログラム、監視方法および監視装置 Active JP6878984B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017058207A JP6878984B2 (ja) 2017-03-23 2017-03-23 監視プログラム、監視方法および監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017058207A JP6878984B2 (ja) 2017-03-23 2017-03-23 監視プログラム、監視方法および監視装置

Publications (2)

Publication Number Publication Date
JP2018160186A JP2018160186A (ja) 2018-10-11
JP6878984B2 true JP6878984B2 (ja) 2021-06-02

Family

ID=63796736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017058207A Active JP6878984B2 (ja) 2017-03-23 2017-03-23 監視プログラム、監視方法および監視装置

Country Status (1)

Country Link
JP (1) JP6878984B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7003874B2 (ja) * 2018-08-09 2022-01-21 日本電信電話株式会社 リソース予約管理装置、リソース予約管理方法およびリソース予約管理プログラム
CN110069378A (zh) * 2019-03-16 2019-07-30 平安城市建设科技(深圳)有限公司 数据监控方法、装置、终端及计算机可读存储介质
JP7436002B2 (ja) 2019-12-12 2024-02-21 Necソリューションイノベータ株式会社 検出装置、検出方法、プログラム、及び記録媒体
WO2021152698A1 (ja) * 2020-01-28 2021-08-05 三菱電機株式会社 インシデント対応効率化システム、インシデント対応効率化方法およびインシデント対応効率化プログラム
JP7012778B2 (ja) * 2020-05-14 2022-01-28 株式会社日立製作所 監視システム、監視装置及び監視方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125808A (ja) * 1999-10-27 2001-05-11 Nec Software Chubu Ltd 障害識別方式
JP4944391B2 (ja) * 2005-05-11 2012-05-30 富士通株式会社 メッセージ異常自動判別装置、方法、及びプログラム
WO2010131746A1 (ja) * 2009-05-15 2010-11-18 日本電気株式会社 障害原因推定システム、障害原因推定方法、及び障害原因推定プログラム
JP5541130B2 (ja) * 2010-12-10 2014-07-09 富士通株式会社 管理装置、管理方法および管理用プログラム
JP5609637B2 (ja) * 2010-12-28 2014-10-22 富士通株式会社 プログラム、情報処理装置、及び情報処理方法
US20120260251A1 (en) * 2011-04-05 2012-10-11 International Business Machines Corporation Prevention of event flooding
JP2014010666A (ja) * 2012-06-29 2014-01-20 Fujitsu Ltd 情報出力装置、方法及びプログラム
JP5983102B2 (ja) * 2012-07-02 2016-08-31 富士通株式会社 監視プログラム、方法及び装置

Also Published As

Publication number Publication date
JP2018160186A (ja) 2018-10-11

Similar Documents

Publication Publication Date Title
JP6878984B2 (ja) 監視プログラム、監視方法および監視装置
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
US8984360B2 (en) Data quality analysis and management system
JP5684946B2 (ja) イベントの根本原因の解析を支援する方法及びシステム
US11157343B2 (en) Systems and methods for real time computer fault evaluation
US20120278663A1 (en) Operation management apparatus, operation management method, and program storage medium
JP4458493B2 (ja) ログ通知条件定義支援装置とログ監視システムおよびプログラムとログ通知条件定義支援方法
CN109614283B (zh) 分布式数据库集群的监控系统
CN105095056A (zh) 一种数据仓库数据监控的方法
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
CN106844145A (zh) 一种服务器硬件故障预警方法和装置
JP6141471B2 (ja) システムの可用性を解析するための方法、装置、当該装置を含むシステム、並びに、上記方法を実施するためのコンピュータプログラム
US9355005B2 (en) Detection apparatus and detection method
US10360090B2 (en) Determination method, determination apparatus, and recording medium
CN105404581A (zh) 一种数据库的评测方法和装置
US11165668B2 (en) Quality assessment and decision recommendation for continuous deployment of cloud infrastructure components
WO2015171860A1 (en) Automatic alert generation
JPWO2019049523A1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
JP6574533B2 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
US9690639B2 (en) Failure detecting apparatus and failure detecting method using patterns indicating occurrences of failures
JP2010152539A (ja) 障害発見システム検証装置、障害発見システム検証方法及び障害発見システム検証制御プログラム
JP2006331026A (ja) メッセージ分析システム及びメッセージ分析プログラム
JP4575020B2 (ja) 障害解析装置
JP6142881B2 (ja) 不具合通知システム、不具合通知方法、不具合通知装置、不具合通知プログラム及び記録媒体
US20220342788A1 (en) Anomaly location estimating apparatus, method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210412

R150 Certificate of patent or registration of utility model

Ref document number: 6878984

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150