JP2022039788A - イベント監視装置及びイベント監視方法 - Google Patents

イベント監視装置及びイベント監視方法 Download PDF

Info

Publication number
JP2022039788A
JP2022039788A JP2020144975A JP2020144975A JP2022039788A JP 2022039788 A JP2022039788 A JP 2022039788A JP 2020144975 A JP2020144975 A JP 2020144975A JP 2020144975 A JP2020144975 A JP 2020144975A JP 2022039788 A JP2022039788 A JP 2022039788A
Authority
JP
Japan
Prior art keywords
event
ledger
threshold value
message
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020144975A
Other languages
English (en)
Other versions
JP7522615B2 (ja
Inventor
貴志 爲重
Takashi Tameshige
康之 玉井
Yasuyuki Tamai
峰義 増田
Mineyoshi Masuda
洋輔 肥村
Yosuke Himura
耕一 村山
Koichi Murayama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020144975A priority Critical patent/JP7522615B2/ja
Priority to US17/192,281 priority patent/US11474884B2/en
Publication of JP2022039788A publication Critical patent/JP2022039788A/ja
Application granted granted Critical
Publication of JP7522615B2 publication Critical patent/JP7522615B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】監視対象システム毎の対応を行うことなく適切な閾値を設定する。【解決手段】台帳ガイドメッセージとイベントメッセージとの類似度を計算し、この類似度の最大値を第1の閾値として、この第1の閾値より所定値だけ大きい第2の閾値を設定する閾値決定プログラムと、類似度が第1の閾値と第2の閾値との間である台帳ガイドメッセージをイベントメッセージに対応付ける台帳引当てプログラム211と、類似度が第1の閾値を超えるときに監視対象システムの管理者に報知する閾値評価プログラム210とを有する。【選択図】図2

Description

本発明は、イベント監視装置及びイベント監視方法に関する。
情報システム(IT(Information Technology)システム)の運用業務の1つにイベント監視業務がある。企業における基幹業務等に利用される重要なITシステムでは不調や異常などの事象が発生するとイベントを発行するように構成されている。
イベントは、ITシステムに実装されるエージェントと呼ばれるプログラムが発行するデータである。エージェントは、ITシステムを構成する要素、例えばハードウェアあるいはOS(オペレーティングシステム)やミドルウェアなどのソフトウェアを監視対象とし、監視対象の性能や生死といった状態を観測し、また監視対象から出力されるログデータを取得する。観測された状態や取得されたログデータが特定の条件に該当すると、エージェントは、特定の条件に対応する事象の発生を表すイベントを発行する。イベントは、発生した事象を人に伝えるためのデータなので、通常、事象が発生した場所や事象が発生した監視対象や発生した事象などを人が読んで分かるように表した文字列データを含んでいる。この文字列データをイベントメッセージという。エージェントが発行したイベントは管理計算機へ送られる。
管理計算機では各エージェントから受信したイベントを蓄積し、一元的に管理する。また、管理計算機では、監視オペレータ(人間)が各エージェントから受信されるイベントを監視する。監視オペレータは、受信したイベントが、台帳管理テーブルに格納された台帳ガイドメッセージとほぼ一致していることを確認することで、監視対象システムであるITシステムが正常に稼働していることを確認している。
監視オペレータが行う作業としては、管理計算機に新しいイベントが到着すると、まず、そのイベントにほぼ一致する台帳ガイドメッセージを台帳管理部から探索する。具体的には、監視オペレータは、文書の目視あるいは文書の検索などを使用して、イベントに含まれているイベントメッセージの内容に近い台帳ガイドメッセージを見つけ出す(引き当てる)。そして、監視オペレータは、イベントメッセージに対応する台帳ガイドメッセージを引き当てることで、ITシステムが正常に稼働していることを監視する。
イベント監視業務には、以上のようなイベントの監視に関する一連の業務が含まれる。イベント監視業務を適切に継続することで、ITシステムの正常稼働を常時検出することが可能となる。言い換えれば、ITシステムが運用されている限り監視オペレータは常にイベント監視業務を行う必要がある。そのため、イベント監視業務の人件費は非常に大きいものとなっている。
特に、監視オペレータがイベントメッセージに対応する台帳ガイドメッセージを見つけ出す作業に多大なコストがかかっている。台帳ガイドメッセージの引当て作業は、台帳ガイドメッセージやイベントメッセージがITシステム固有のものであることが多く、台帳ガイドメッセージに対して正規表現等を行うことで引き当て精度を上げることができるものの、かかる作業も個別対応であるため、イベント監視業務をコンピュータで支援することができたとしても、作り込みに時間と手間を要していた。
そのため、イベント監視業務をコンピュータで支援する際に、プラント監視制御システムとの間で機器名が完全に一致しない場合でも、形態素解析した機器名とスコアをキーにして検索可能にすることで、イベント監視業務の構築を簡易にかつ迅速に行える技術が開示されている(特許文献1参照)。
特開2011-198176号公報
しかしながら、上述した特許文献1に開示された技術では、監視対象機器を絞り込むための閾値が一意に設定されており、監視対象となるITシステム毎の対応に不十分なところが存在していた。
本発明は、上記事情に鑑みなされたものであり、その目的は、監視対象システム毎の対応を行うことなく適切な閾値を設定することが可能なイベント監視装置及びイベント監視方法を提供することにある。
上記課題を解決すべく、本発明の一つの観点に従うイベント監視装置は、情報システムで発生した事象に関連する文字列で示されたイベントメッセージを含むイベントを監視するイベント監視装置であって、文字列で示された典型的な台帳ガイドメッセージを含みイベントへの対処方法を示す複数の台帳データが格納された台帳管理部と、台帳ガイドメッセージとイベントメッセージとの類似度を計算し、この類似度の最大値を第1の閾値として、この第1の閾値より所定値だけ大きい第2の閾値を設定する閾値決定部と、類似度が第1の閾値と第2の閾値との間である台帳ガイドメッセージをイベントメッセージに対応付ける台帳引当て部と、類似度が第1の閾値を超えるときに情報システムの管理者に報知する閾値評価部とを有する。
本発明によれば、監視対象システム毎の対応を行うことなく適切な閾値を設定することが可能なイベント監視装置及びイベント監視方法を実現することができる。
実施形態に係るイベント監視システムのハードウェア構成例を示す図である。 実施形態に係るイベント監視装置である管理サーバの概略構成を示す図である。 実施形態に係るイベント監視システムのサーバの概略構成を示す図である。 実施形態に係るイベント監視装置の動作の一例を説明するための図である。 実施形態に係るイベント監視装置による閾値決定の手順を説明するための図である。 実施形態に係るイベント監視装置の動作の他の例を説明するための図である。 実施形態に係るイベント監視装置のイベント管理テーブルの一例を示す図である。 実施形態に係るイベント監視装置の過去イベントグループ管理テーブルの一例を示す図である。 実施形態に係るイベント監視装置の台帳管理テーブルの一例を示す図である。 実施形態に係るイベント監視装置のイベントと台帳の一致度を管理するテーブルの一例を示す図である。 実施形態に係るイベント監視装置の台帳と過去の代表イベントを管理するテーブルの一例を示す図である。 実施形態に係るイベント監視装置の台帳における閾値管理テーブルの一例を示す図である。 実施形態に係るイベント監視装置の過去イベントグループ管理テーブルの作成手順の一例を説明するためのフローチャートである。 実施形態に係るイベント監視装置の閾値決定手順の一例を説明するためのフローチャートである。 実施形態に係るイベント監視装置の台帳管理テーブルの補充手順の一例を説明するためのフローチャートである。 実施形態に係るイベント監視装置の台帳引当て部及び閾値評価部の動作を説明するためのフローチャートである。 実施形態に係るイベント監視システムのオペレータ端末等に表示される画面の一例を示す図である。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
なお、以下の説明において、「メモリ」は、1以上のメモリであり、典型的には主記憶デバイスでよい。メモリ部における少なくとも1つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。
また、以下の説明において、「プロセッサ」は、1以上のプロセッサである。少なくとも1つのプロセッサは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサであるが、GPU(Graphics Processing Unit)のような他種のプロセッサでもよい。少なくとも1つのプロセッサは、シングルコアでもよいしマルチコアでもよい。
また、少なくとも1つのプロセッサは、処理の一部又は全部を行うハードウェア回路(例えばFPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサでもよい。
本開示において、ストレージ装置(デバイス)は、1台のHDD(Hard Disk Drive)やSSD(Solid State Drive)等の1台のストレージドライブ、複数台のストレージドライブを含むRAID装置、及び複数のRAID装置を含む。また、ドライブがHDDである場合には、例えば、SAS(Serial Attached SCSI) HDDを含んでもよく、NL-SAS(ニアラインSAS) HDDを含んでもよい。
また、以下の説明において、「xxxテーブル」といった表現により、入力に対して出力が得られる情報を説明することがあるが、この情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「xxxテーブル」を「xxx情報」と言うことができる。
また、以下の説明において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部又は一部が1つのテーブルであってもよい。
また、以下の説明において、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶資源(例えば、メモリ)及び/又は通信インターフェースデバイス(例えば、ポート)を用いながら行うため、処理の主語がプログラムとされてもよい。プログラムを主語として説明された処理は、プロセッサまたはそのプロセッサを有する計算機が行う処理としてもよい。
プログラムは、計算機のような装置にインストールされてもよいし、例えば、プログラム配布サーバ又は計算機が読み取り可能な(例えば非一時的な)記録媒体にあってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。
また、以下の説明において、同種の要素を区別しないで説明する場合には、参照符号(又は、参照符号のうちの共通符号)を使用し、同種の要素を区別して説明する場合は、要素の識別番号(又は参照符号)を使用することがある。
図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
図1は、実施形態に係るイベント監視装置が適用されるイベント監視システムのハードウェア構成例を示す図である。
図1において、本実施例のイベント監視装置が適用されるイベント監視システムは、監視対象となる管理システム(以下、監視対象システムと称する)100と、この監視対象システム100を監視する管理サーバ101と、オペレータ端末170と、上位管理者端末180とを概略有する。これら監視対象システム100、管理サーバ101、オペレータ端末170及び上位管理者端末180はネットワークスイッチ103を介して互いに通信可能とされている。ここに、監視対象システム100は情報システムを構成し、管理サーバ101はイベント監視装置を構成する。
監視対象システム100はサーバ102を有し、主に、このサーバ102で発生する事象に関連するイベントメッセージが管理サーバ101に通知される。図示例の監視対象システム100ではサーバ102が複数台(5台)設けられているが、その台数に特段の限定はない。
サーバ102は、PCIエクスプレススイッチ(PCIe-SW)107、ネットワークインターフェースコントローラ(NIC)112B、ネットワークスイッチ(NW-SW)104を介してストレージシステム105に接続されている。ストレージシステム105は複数のストレージ装置を有し、これらストレージ装置は複数の論理ユニット(LU)として管理されている。また、サーバ102は、ホストバスアダプタ115及びファイバチャンネルスイッチ(FC-SW)108を介してもストレージシステム105に接続されている。加えて、ストレージシステム105は、FC-SW108またはNW-SW104を介して管理サーバ101にも直接接続されている。
管理サーバ101は、制御プログラム110及び管理テーブル群111を有する。制御プログラム110等の具体的構成については後述する。
イベント監視システムを構成する監視対象システム100、管理サーバ101、オペレータ端末170及び上位管理者端末180は、各種情報処理が可能な情報処理装置である。
図2は、実施形態に係るイベント監視装置である管理サーバ101の概略構成を示す図である。
管理サーバ101は、プロセッサの一例であるCPU201、メモリ202、ディスクインタフェース203、ネットワークインタフェース204、PCIエクスプレスインタフェース205及びサーバマネジメントコントローラの一例であるベースボードマネジメントコントローラ(BMC)401を有する。
メモリ202には、ファームウェアなどの制御プログラム110が格納されている。管理サーバ101の動作開始時(例えば電源投入時)にファームウェア等のプログラムをこのメモリから読み出して実行し、管理サーバ101の全体制御を行う。また、メモリ202には、プログラム以外にも、管理サーバ101の各処理に必要な管理テーブル群111が格納されている。
メモリ202には、制御プログラム110として、閾値評価プログラム210、台帳引当てプログラム211、閾値決定プログラム212、イベント管理プログラム213、一致度計算プログラム214及びオペレーティングシステム(OS)216が格納されている。OS216を除く各種プログラムは、このプログラムがCPU201によって実行されることで、それぞれのプログラムに対応した機能部が実現される。それぞれのプログラムに対応した機能部が行う機能については後に詳述する。
また、メモリ202には、管理テーブル群111として、イベント管理テーブル220、台帳管理テーブル221、過去イベントグループ管理テーブル222、イベントと台帳の一致度を管理するテーブル223、台帳と過去の代表イベントを管理するテーブル224、及び台帳における閾値管理テーブル225が格納されている。これら各種テーブルの具体的構成については後に詳述する。
図3は、実施形態に係るイベント監視システムのサーバ102の概略構成を示す図である。
サーバ102は、プロセッサの一例であるCPU301、メモリ302、ディスクインタフェース303、ネットワークインタフェース304、PCIエクスプレスインタフェース305及びベースボードマネジメントコントローラ(BMC)401を有する。
本実施例のサーバ102は、複数の仮想マシン(VM)314が動作する構成を有する。それぞれのVM314上では、OS331及び業務アプリケーション341が動作し、また、これらOS331、業務アプリケーション341の動作を監視する監視プログラム342、及び監視プログラム342による監視の結果としてイベント毎にイベントメッセージを発行するイベント発行プログラム343が動作している。メモリ302には、VM314を実現するための上述した各種プログラムが格納されている。
また、メモリ302には、これら仮想マシン314をサーバ102上で動作させるためのハイパバイザ315、及びサーバ102の全体動作のためのOS316が格納されている。
図4は、実施形態に係るイベント監視装置である管理サーバ101の動作の一例を説明するための図である。図4に示す管理サーバ101の動作は、過去に監視対象システム100から出力された代表的なイベントメッセージ(以下、代表メッセージと称する)に基づいて、管理サーバ101が機械学習の手法を用いて閾値を決定する、学習フェーズの動作である。
まず、管理サーバ101による監視対象システム100の監視動作に先立って、上位管理者は、上位管理者端末180を介して台帳管理テーブル221を格納する。台帳管理テーブル221の具体的構成は後述するが、この台帳管理テーブル221には、監視対象システム100から出力されるイベントメッセージに引き当てられ、監視対象システム100が正常に稼働している際にこの監視対象システム100から出力されるべき典型的な台帳ガイドメッセージと、この台帳ガイドメッセージが出力された際に実行すべき処理が記述されている。台帳管理テーブル221の作成方法に特段の限定はないが、通常、上位管理者が手作業で作成する。
監視対象システム100において各種イベントが実行され、イベント発行プログラム343及びBMC401が適宜イベントメッセージを出力すると、イベント管理プログラム213はこのイベントメッセージを受信し、このイベントメッセージをイベント管理テーブル220に格納する。
次に、一致度計算プログラム214は、所定のタイミング(詳細は後述)でイベント管理テーブル220を参照し、代表イベントをとりまとめて必要となる事項を過去イベントグループ管理テーブル222に格納する。閾値決定プログラム212は、この過去イベントグループ管理テーブル222及び台帳管理テーブル221を参照して、後述する手順により閾値を決定する。閾値決定プログラム212により決定された閾値は台帳における閾値管理テーブル225に格納される。また、閾値決定プログラム212は、決定した閾値を上位管理者端末180に提示する。
図5は、実施形態に係るイベント監視装置である管理サーバ101による閾値決定の手順を説明するための図である。
まず、閾値決定プログラム212は、台帳管理テーブル221及び過去イベントグループ管理テーブル222に格納されているイベントメッセージ及び代表メッセージを単語単位に分割する。単語単位への分割手法に特段の限定はないが、一例として、mecabなどの形態素解析プログラムを用いることが好ましい。
一例として、"backup process func A_Func B is starting. XXX YYYY ZZ"なるメッセージに対して、閾値決定プログラム212は、{backup, process, func, A, _, Func, B, is, starting, XXX, YYYY, ZZ}(カンマで単語が区切られているものとする)という単語単位の形態素解析結果を出力する。
次いで、閾値決定プログラム212は、N-gramにより、形態素解析結果である単語単位の出力に基づいて単語の組(単語列)を生成する。上述のメッセージを例に取れば、1-gramの場合は {backup}, {process}, {func}, {A}, {_}, {Func}, {B}, {is}, {starting}, {XXX}, {YYYY}, {ZZ}、2-gramの場合は {backup,process}, {process,func}, {func,A}, {A,_}, {_,Func}, {Func,B} {B,is}, {is,starting}, {starting,XXX}, {XXX,YYYY}, {YYYY,ZZ}、1-gramと2gramの組で作成した単語列としては[{backup}, {process}, {func}, {A}, {_}, {Func}, {B}, {is}, {starting}, {XXX}, {YYYY}, {ZZ}, {backup,process}, {process,func}, {func,A}, {A,_}, {_,Func}, {Func,B} {B,is}, {is,starting}, {starting,XXX}, {XXX,YYYY}, {YYYY,ZZ}](ここに、{}でくくられる文字列が単語列である)となる。どれだけの数の単語を用いて単語列を生成するかは任意であり、上記の例に限定はされない。
次に、閾値決定プログラム212は、台帳管理テーブル221内の台帳ガイドメッセージの単語列、及び過去イベントグループ管理テーブル222に格納されている代表メッセージの単語列に基づいて、次の数を算出する。
F:台帳管理テーブル221内のメッセージ本文の単語列の総数
f:代表イベント内の代表メッセージ本文の単語列のうち、台帳管理テーブル221内のメッセージ本文の単語列と一致した数が一番多い値:トップ
g:代表イベント内の代表メッセージ本文の単語列のうち,台帳管理テーブル221内のメッセージ本文の単語列と一致した数が二番目に多い値:次点
以下、代表イベント内の代表メッセージ本文の単語列のうち、台帳管理テーブル221内のメッセージ本文の単語列と一致した数を類似度と称することがある。
閾値決定プログラム212は、f/F、つまり類似度の最大値(図中top scoreとして示す)を閾値(第1の閾値)として決定する。そして、閾値決定プログラム212は、この閾値の上下に閾値上限(第2の閾値)及び閾値下限(第3の閾値)を、さらには閾値下限より下に次点閾値上限(第4の閾値)を決定する。
まず、閾値決定プログラム212は、top scoreの1ステップ上の値である(f+1)/Fを算出し、この(f+1)/Fの値(F≧f>gであるからこの値は1以下の値になる)を小数点の所定桁になるように切り下げ、この値を閾値上限とする(図中(1)で示す)。あるいは、閾値決定プログラム212は、(f+1)/Fの絶対値(図中{}で示す)から所定の固定値(図示例では0.01)を減じた値を閾値上限とする(図中(2)で示す)。さらには、閾値決定プログラム212は、f/Fの絶対値に所定の固定値(図示例では0.01)を加算した値を閾値上限とする(図中(3)で示す)。閾値上限は、閾値に対して大なる値であればよく、管理サーバ101による監視動作を円滑に行いうる観点から適宜選択、調整がされうる。
また、閾値決定プログラム212は、top scoreの1ステップ下の値である(f-1)/Fを算出し、この(f-1)/Fの値(F≧f>gであるからこの値も1以下の値になる)を小数点の所定桁になるように切り上げ、この値を閾値下限とする(図中(1)で示す)。あるいは、閾値決定プログラム212は、(f-1)/Fの絶対値(図中{}で示す)から所定の固定値(図示例では0.01)を加算した値を閾値下限とする(図中(2)で示す)。さらには、閾値決定プログラム212は、f/Fの絶対値に所定の固定値(図示例では0.01)を減じた値を閾値下限とする(図中(3)で示す)。閾値下限も、閾値に対して小なる値であればよく、管理サーバ101による監視動作を円滑に行いうる観点から適宜選択、調整がされうる。
そして、閾値決定プログラム212は、類似度の次点(図中second scoreとして示す)の1ステップ上の値である(g+1)/Fを算出し、この(g+1)/Fの値(F≧f>gであるからこの値も1以下の値になる)を小数点の所定桁になるように切り下げ、この値を次点閾値上限とする(図中(1)で示す)。あるいは、閾値決定プログラム212は、(g+1)/Fの絶対値(図中{}で示す)から所定の固定値(図示例では0.01)を減じた値を次点閾値上限とする(図中(2)で示す)。さらには、閾値決定プログラム212は、g/Fの絶対値に所定の固定値(図示例では0.01)を加算した値を次点閾値上限とする(図中(3)で示す)。次点閾値上限も、閾値下限に対して小なる値であればよく、管理サーバ101による監視動作を円滑に行いうる観点から適宜選択、調整がされうる。
このように、閾値上限、閾値下限及び次点閾値上限を設けた理由について簡単に説明する。一般的なイベント監視装置では、台帳管理テーブル221に格納された台帳ガイドメッセージと監視対象システム100から出力されるイベントメッセージとの類似度を算出し、一例として、本実施例における閾値以上の類似度を有するイベントメッセージが出力されたら台帳ガイドメッセージを引当て、監視対象システム100が正常に稼働していることを確認している。
しかしながら、本発明者の解析により、閾値以上の類似度を有するイベントメッセージの中には、台帳管理テーブル221に格納されていないイベント、すなわち未知のイベント(以下、未知イベントと称する事がある)に係るメッセージが含まれる可能性があり、また、閾値を下回る類似度を有するイベントメッセージの中には、無視してもよいメッセージと上述の未知イベントに係るメッセージとが含まれる可能性があることが判明した。
そこで、本発明者は、類似度が閾値上限と閾値下限との間にあるイベントメッセージについては正常なイベントに関するメッセージであると判断し、台帳ガイドメッセージを引当て、また、類似度が閾値上限を上回るか、あるいは、閾値下限と次点閾値上限との間にあるイベントメッセージについては未知イベントに係るイベントメッセージであると判断し、上位管理者に通知する構成を考案した。
ここで、閾値決定プログラム212は、閾値上限、閾値下限及び次点閾値上限の全てを決定する、あるいは、後述する閾値評価プログラム210が、これら閾値上限、閾値下限及び次点閾値上限の全てに基づいて判断を行う必要はない。類似度が(a)閾値上限を超えたか否か、または(b)閾値下限と次点閾値上限との間にあるか否かの少なくとも一方について判断を行えばよい。
また、閾値上限と閾値下限とを設けたのは、閾値のみでの判定であると類似度に若干のブレが生じることがあるので、一定の範囲を設けることでより的確な判定を行うためである。
図6は、実施形態に係るイベント監視装置の動作の他の例を説明するための図である。図6に示す管理サーバ101の動作は、図4に示す学習フェーズによる閾値決定動作の後、監視対象システム100から出力されたイベントメッセージに基づいて、管理サーバ101が台帳管理テーブル221との引当て、及び、未知イベントの検出を行う、推論フェーズの動作である。
学習フェーズと同様に、監視対象システム100において各種イベントが実行され、イベント発行プログラム343及びBMC401が適宜イベントメッセージを出力すると、イベント管理プログラム213はこのイベントメッセージを受信し、このイベントメッセージをイベント管理テーブル220に格納する。
次に、台帳引当てプログラム211は、イベント管理テーブル220に格納された新着のイベントメッセージと台帳管理テーブル221に格納された台帳ガイドメッセージとの類似度(一致度)を算出し、イベントと台帳の一致度を管理するテーブル223に格納する。
閾値評価プログラム210は、台帳引当てプログラム211が算出した類似度と、台帳における閾値管理テーブル225に格納された閾値、閾値上限、閾値下限及び次点閾値上限に基づき、類似度が閾値上限を超えたか否か、及び、類似度が閾値下限と次点閾値上限との間にあるか否かを判定する。そして、これら判定のいずれかが肯定されたら、閾値評価プログラム210は、オペレータ(オペレータ端末170)に対して未知イベントを検出した旨を提示し、オペレータによる判断を促す。
一方、上述した判定が否定された、つまり類似度が閾値上限と閾値下限の間にあると判定されたら、台帳引当てプログラム211は、類似度が最大値となる台帳ガイドメッセージを引当て、その結果をオペレータ端末170及び上位管理者(上位管理者端末180)に提示する。また、類似度が次点閾値上限を下回ると判定されたら、台帳引当てプログラム211は特段の提示動作を行わない(イベントメッセージを捨てる)。
図7は、実施形態に係るイベント監視装置のメモリ202に格納されたイベント管理テーブル220の一例を示す図である。
イベント管理テーブル220は、エントリとして、事象ID701、発生日時702、ハッシュ値703、イベントID704、メッセージ本文705、引当て済台帳ID706及びイベントの単語列総数707を有する。
事象ID701はイベント管理テーブル220の各行を特定するIDである。発生日時702はイベントの発生日時である。ハッシュ値703はイベントメッセージのハッシュ値であり、イベント管理プログラム213が算出する。イベントID704はイベントを特定するIDである。メッセージ本文705は監視対象システム100から出力されるイベントメッセージの本文である。引当て済台帳ID706は、メッセージ本文705に記述されたイベントメッセージが引き当てられた台帳ガイドメッセージのIDであり、台帳引当てプログラム211により入力される。イベントの単語列総数707は、メッセージ本文705に記述されたイベントメッセージの単語列総数であり、イベント管理プログラム213が算出する。
図8は、実施形態に係るイベント監視装置のメモリ202に格納された過去イベントグループ管理テーブル222の一例を示す図である。
図8に示す過去イベントグループ管理テーブル222の各エントリは、一致度計算プログラム214により算出される。より詳細には、一致度計算プログラム214は、過去のあるイベントに対して、その他の過去のイベントと単語列を比較し,最も一致度が高いものを代表的なイベントメッセージとしてグループ化する。そして、一致度計算プログラム214は、この過去イベントグループ管理テーブル222を一致度でソートする。過去イベントグループ管理テーブル222の各エントリを計算してテーブル222を作成するタイミングは任意であり、一例として、新着イベントが到着する度にやっても良いし、定期的に実施しても良いし、一定数のイベントが到着したタイミングで実施しても良い。
過去イベントグループ管理テーブル222は、エントリとして、グループID801、代表メッセージ本文802、一致度803、代表メッセージ本文の単語列総数804及びグループ内イベント数805を有する。
グループID801はグループを特定するIDである。代表メッセージ本文802は、このグループを代表する代表的なイベントメッセージの本文である。一致度803はこの代表的なイベントメッセージの一致度である。代表メッセージ本文の単語列総数804は、代表メッセージ本文802に格納された代表的なイベントメッセージの本文の単語列総数である。グループ内イベント数805は、このグループにどれだけのイベントが含まれているかを示す数である。
過去イベントグループ管理テーブル222は、閾値決定プログラム212による機械学習の教師データであり、また、上位管理者が監視対象システム100から到着するイベントメッセージが適正であるか否かを判定する根拠ともなる。
図9は、実施形態に係るイベント監視装置の台帳管理テーブル221の一例を示す図である。既に説明したように、台帳管理テーブル221は上位管理者等が人手で入力することを想定している。
台帳管理テーブル221は、エントリとして、台帳ID901、発生日時指定902、台帳のメッセージ本文903、到着時に実行する処理904及び回数/単位期間905を有する。
台帳ID901は、台帳メッセージ本文(台帳ガイドメッセージ)903を特定するIDである。発生日時指定902は、台帳メッセージ本文903が監視対象システム100から通常出力される日時である。台帳のメッセージ本文903は、監視対象システム100から出力されるべき台帳ガイドメッセージである。到着時に実行する処理904は、台帳のメッセージ本文903が監視対象システム100から出力された際に行うべき処理である。回数/単位期間905は、台帳のメッセージ本文903が監視対象システム100から出力される頻度である。
図10は、実施形態に係るイベント監視装置のイベントと台帳の一致度を管理するテーブル223の一例を示す図である。
イベントと台帳の一致度を管理するテーブル223は、エントリとして、管理ID1001、事象ID1002、メッセージ本文1003、単語列総数1004、一致率1005、一致数1006、不一致、不足率1007、不一致、不足数1008、台帳ID1009、メッセージ本文1010、単語列総数1011、一致率1012、一致数1013、不一致、不足率1014、及び不一致、不足数1015を有する。
管理ID1001は、イベントと台帳の一致度を管理するテーブル223の各行を特定するIDである。
事象ID1002、メッセージ本文1003、単語列総数1004、一致率1005、一致数1006、不一致、不足率1007、不一致、不足数1008はイベントに関するエントリであり、事象ID1002は図7のイベント管理テーブル220の事象ID701と共通する。メッセージ本文1003は図7のイベント管理テーブル220のメッセージ本文705と共通する。単語列総数1004は図7のイベント管理テーブル220のイベントの単語列総数707と共通する。
一致率1005は、メッセージ本文1003に記述されたイベントメッセージがイベントと台帳の双方にある率である。一致数1006は、メッセージ本文1003に記述されたイベントメッセージがイベントと台帳の双方にある数である。不一致、不足率1007は、メッセージ本文1003に記述されたイベントメッセージがイベントにあって台帳にない率である。不一致、不足数1008は、メッセージ本文1003に記述されたイベントメッセージがイベントにあって台帳にない数である。一致率1005、一致数1006、不一致、不足率1007及び不一致、不足数1008の分母はイベントである。
台帳ID1009、メッセージ本文1010、単語列総数1011、一致率1012、一致数1013、不一致、不足率1014、不一致、不足数1015は台帳ガイドメッセージに関するエントリであり、台帳ID1009は図9の台帳管理テーブル221の台帳ID901と共通する。メッセージ本文1010は図9の台帳管理テーブル221の台帳のメッセージ本文903と共通する。単語列総数1011はメッセージ本文1010に記述された台帳ガイドメッセージの単語列の総数である。
一致率1012は、メッセージ本文1010に記述されたイベントメッセージがイベントと台帳の双方にある率である。一致数1013は、メッセージ本文1010に記述されたイベントメッセージがイベントと台帳の双方にある数である。不一致、不足率1014は、メッセージ本文1010に記述されたイベントメッセージがイベントにあって台帳にない率である。不一致、不足数1015は、メッセージ本文1010に記述されたイベントメッセージがイベントにあって台帳にない数である。一致率1012、一致数1013、不一致、不足率1014及び不一致、不足数1015の分母は台帳である。
図11は、実施形態に係るイベント監視装置の台帳と過去の代表イベントを管理するテーブル224の一例を示す図である。
台帳と過去の代表イベントを管理するテーブル224は、エントリとして、台帳ID1101、メッセージ本文1102、単語列総数1103、一致率1104、一致数1105、不一致、不足率1106、不一致、不足数1107、単語列総数1108、一致率1109、一致数1110、不一致、不足率1111、及び不一致、不足数1112を有する。
台帳ID1101、メッセージ本文1102、単語列総数1103、一致率1104、一致数1105、不一致、不足率1106、不一致、不足数1107は台帳ガイドメッセージに関するエントリであり、台帳ID1101は図9の台帳管理テーブル221の台帳ID901と共通する。メッセージ本文1102は図9の台帳管理テーブル221の台帳のメッセージ本文903と共通する。単語列総数1103は図10のイベントと台帳の一致度を管理するテーブル223の単語列総数1011と共通する。
一致率1104は、メッセージ本文1102に記述された台帳ガイドメッセージが台帳と代表イベントの双方にある率である。一致数1105は、メッセージ本文1102に記述された台帳ガイドメッセージが台帳と代表イベントの双方にある数である。不一致、不足率1106は、メッセージ本文1010に記述された台帳ガイドメッセージが台帳にあって代表イベントにない率である。不一致、不足数1107は、メッセージ本文1010に記述された台帳ガイドメッセージが台帳にあって代表イベントにない数である。一致率1104、一致数1105、不一致、不足率1106及び不一致、不足数1107の分母は台帳である。
単語列総数1108、一致率1109、一致数1110、不一致、不足率1111、不一致、不足数1112は代表イベントに関するエントリであり、単語列総数1108は図8の過去イベントグループ管理テーブル222の代表メッセージ本文の単語列総数804と共通する。
一致率1109は、代表イベントが台帳と代表イベントの双方にある率である。一致数1110は、代表イベントが台帳と代表イベントの双方にある数である。不一致、不足率1111は、代表イベントが台帳にない率である。不一致、不足数1112は、代表イベントが台帳にない数である。一致率1109、一致数1110、不一致、不足率1111及び不一致、不足数1112の分母は代表イベントである。
図12は、実施形態に係るイベント監視装置の台帳における閾値管理テーブル225の一例を示す図である。
台帳における閾値管理テーブル225は、エントリとして、台帳ID1201、メッセージ本文1202、回数/単位期間1203、過去イベントの代表メッセージ本文1204、グループ内イベント数1205、グループID1206、閾値1207、閾値上限1208、閾値下限1209、次点閾値上限1210、台帳の単語列総数1211及び引当済事象ID1212を有する。
台帳ID1201は図9の台帳管理テーブル221の台帳ID901と共通する。メッセージ本文1202は図9の台帳管理テーブル221の台帳のメッセージ本文903と共通する。回数/単位期間1203は、図9の台帳管理テーブル221の回数/単位期間905と共通する。
過去イベントの代表メッセージ本文1204は、図8の過去イベントグループ管理テーブル222の代表メッセージ本文802と共通する。グループ内イベント数1205は、図8の過去イベントグループ管理テーブル222のグループ内イベント数805と共通する。グループID1206は、図8の過去イベントグループ管理テーブル222のグループID801と共通する。
閾値1207、閾値上限1208、閾値下限1209、次点閾値上限1210は、学習フェーズにおいて閾値決定プログラム212により算出され、格納される。台帳の単語列総数1211は、台帳ID1201により特定される台帳ガイドメッセージの単語列の総数である。引当済事象ID1212は、推論フェーズにおいて台帳引当てプログラム211が引き当てたイベントの事象IDであり、図7のイベント管理テーブル220の事象ID701と共通する。
次に、図13~図16のフローチャートを参照して、本実施例のイベント監視装置である管理サーバ101の動作について説明する。
図13は、実施形態に係るイベント監視装置の過去イベントグループ管理テーブル222の作成手順の一例を説明するためのフローチャートであり、一致度計算プログラム214により実行される。
まず、一致度計算プログラム214は、イベント管理テーブル220の特定のイベントを参照する(ステップS1301)。次いで、一致度計算プログラム214は、イベント管理テーブル220の特定のイベント以外のイベントを参照し、類似度(一致度)を算出する(ステップS1302)。さらに、一致度計算プログラム214は、ステップS1302で算出した類似度でイベントをソートし、同じ類似度を持つイベントの個数を数える(ステップS1303)。そして、一致度計算プログラム214は、類似度がトップ、次点、次々点に対応するイベントの個数を含め、過去イベントグループ管理テーブル222のエントリに各値を格納する。
図14は、実施形態に係るイベント監視装置の閾値決定手順の一例を説明するためのフローチャートであり、台帳における閾値管理テーブル225の各値を格納する手順を示すフローチャートである。
まず、閾値決定プログラム212が過去イベントグループ管理テーブル222を参照する(ステップS1401)。次いで、一致度計算プログラム214が、台帳と過去の代表イベントを管理するテーブル224の台帳および代表イベントの単語列総数・一致数・不一致数・不足数を参照する(ステップS1402)。そして、一致度計算プログラム214は、閾値、閾値上限、閾値下限及び次点閾値上限を算出し、台帳における閾値管理テーブル225に格納する(ステップS1403)。
図15は、実施形態に係るイベント監視装置の台帳管理テーブル221の補充手順の一例を説明するためのフローチャートである。図15のフローチャートに示す手順は、例えば監視対象システム100によっては台帳管理テーブル221に格納される台帳ガイドメッセージや過去イベントグループ管理テーブル222に格納される代表イベントメッセージの個数、特に過去イベントグループ管理テーブル222における一致度が高い(top scoreの)代表イベントメッセージの個数が不足する場合、一致度が次点の(second scoreの)代表イベントメッセージの個数を繰り込んで処理するものであり、本実施例のイベント監視装置である管理サーバ101の動作に必須のものではない。
まず、一致度計算プログラム214は、イベント管理テーブル220の特定のイベントを参照する(ステップS1501)。次いで、一致度計算プログラム214は、イベント管理テーブル220の特定のイベント以外のイベントを参照し、類似度(一致度)を算出する(ステップS1502)。さらに、一致度計算プログラム214は、ステップS1302で算出した類似度でイベントをソートし、同じ類似度を持つイベントの個数を数える(ステップS1503)。
次に、一致度計算プログラム214は、台帳管理テーブル221の回数/単位期間905を参照する(ステップS1504)。そして、一致度計算プログラム214は、ステップS1504で参照した回数/単位期間905とステップS1503で数えたイベントの個数とを比較する(ステップS1505)。その結果、台帳管理テーブル221の回数/単位期間905がイベントの個数以上であれば(ステップS1506においてYES)ステップS1509に進み、台帳管理テーブル221の回数/単位期間905がイベントの個数より少なければ(ステップS1506においてNO)ステップS1507に進む。
ステップS1507では、次点の一致度を持つイベントグループを参照し、このイベントの個数を合算する(ステップS1508)。その後、プログラムはステップS1505に戻る。
一方、ステップS1509では、一致度計算プログラム214が、台帳における閾値管理テーブル225へ代表メッセージ文・グループ内イベント数の合計値・グルーピングに含むグループID全てを格納する。そして、一致度計算プログラム214は、台帳における閾値管理テーブル225へ一致度(合算した場合は低いほうの値)を閾値として格納する。
図16は、実施形態に係るイベント監視装置の推論フェーズにおける台帳引当てプログラム211及び閾値評価プログラム210の動作を説明するためのフローチャートである。
まず、イベント管理プログラム213は、監視対象システム100から新着イベントを受け取り、イベント管理テーブル220へ格納する(ステップS1601)。次いで、台帳引当てプログラム211は、新着イベントと各台帳との一致度を計算し,イベントと台帳の一致度を管理するテーブル223へ格納する(ステップS1602)。
次いで、閾値評価プログラム210は、ステップS1602で算出した一致度(類似度)が閾値上限を超えているか、あるいは閾値下限と次点閾値上限との間にあるか否かを判定する(ステップS1603)。その結果、判定が肯定されたら(ステップS1603においてYES)ステップS1604に移行し、判定が否定されたら(ステップS1603においてNO)ステップS1605に移行する。
ステップS1604では、閾値評価プログラム210が未知イベントを検出した旨をオペレータ端末170や上位管理者端末180に通知する。
一方、ステップS1605では、台帳引当てプログラム211が、台帳における閾値管理テーブル225を参照する。そして、台帳引当てプログラム211は、ステップS1602で算出した一致度が次点閾値上限より小さいか否かを判定し(ステップS1606)、判定が肯定されたら(ステップS1606においてYES)プログラムを終了し、判定が否定されたら(ステップS1606においてNO)ステップS1607に進む。次いで、ステップS1607において、台帳引当てプログラム211は、ステップS1602で算出した一致度が閾値に一致するか否かを判定し、判定が肯定されたら(ステップS1607においてYES)プログラムを終了し、判定が否定されたら(ステップS1607においてNO)ステップS1608に進む。
ステップS1608では、台帳引当てプログラム211が、イベント管理テーブル220へ引き当てた台帳を格納する。
さらに、台帳引当てプログラム211は、ステップS1602で算出した一致度が閾値より小さいか否かを判定し(ステップS1609)、判定が肯定されたら(ステップS1609においてYES)ステップS1610に進み、判定が否定されたら(ステップS1609においてNO)プログラムを終了する。
ステップS1610において、台帳引当てプログラム211は、台帳における閾値管理テーブル225の閾値を更新する。
なお、ステップS1604において未知イベントを検出したことをトリガとして、学習フェーズの動作を再度行ってもよい(学習をやり直す)。
図17は、実施形態に係るイベント監視システムのオペレータ端末170等に表示される画面の一例を示す図である。
オペレータ端末170等の画面には、事象ID1701、イベントID1702、引当の有無1703、未知イベント検出の有無1704、イベントの発生日時1705、引き当てられた台帳のID1706が表示される。図17に示す画面は単なる一例であり、図17の例に限定されない。
このように構成される本実施形態によれば、監視対象システム100毎の対応を行うことなく適切な閾値を設定することが可能なイベント監視装置及びイベント監視方法を実現することができる。
なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
100…監視対象システム 101…管理サーバ 102…サーバ 110…制御プログラム 111…管理テーブル群 170…オペレータ端末 180…上位管理者端末 210…閾値評価プログラム 211…台帳引当てプログラム 212…閾値決定プログラム 213…イベント管理プログラム 214…一致度計算プログラム 220…イベント管理テーブル 221…台帳管理テーブル 222…過去イベントグループ管理テーブル 223…イベントと台帳の一致度を管理するテーブル 224…台帳と過去の代表イベントを管理するテーブル 225…台帳における閾値管理テーブル

Claims (11)

  1. 情報システムで発生した事象に関連する文字列で示されたイベントメッセージを含むイベントを監視するイベント監視装置であって、
    文字列で示された典型的な台帳ガイドメッセージを含み前記イベントへの対処方法を示す複数の台帳データが格納された台帳管理部と、
    前記台帳ガイドメッセージと前記イベントメッセージとの類似度を計算し、この類似度の最大値を第1の閾値として、この第1の閾値より所定値だけ大きい第2の閾値を設定する閾値決定部と、
    前記類似度が前記第1の閾値と前記第2の閾値との間である前記台帳ガイドメッセージを前記イベントメッセージに対応付ける台帳引当て部と、
    前記類似度が前記第1の閾値を超えるときに前記情報システムの管理者に報知する閾値評価部と
    を有することを特徴とするイベント監視装置。
  2. 前記閾値決定部は、前記台帳ガイドメッセージと前記イベントメッセージの単語または単語の組の一致度に基づいて前記類似度を算出することを特徴とする請求項1に記載のイベント監視装置。
  3. 前記閾値決定部は、前記台帳ガイドメッセージと前記イベントメッセージの単語または単語の組の一致数の最大値を前記台帳ガイドメッセージの単語数で除した数を前記第1の閾値とし、前記最大値より1つ大きい数を前記台帳ガイドメッセージの単語数で除した数を前記第2の閾値とすることを特徴とする請求項2に記載のイベント監視装置。
  4. 前記情報システムからの前記イベントメッセージを保管するイベント管理部を有することを特徴とする請求項1に記載のイベント監視装置。
  5. 前記イベント管理部に格納されている前記イベントメッセージのうち単語の一致度が高い前記イベントメッセージを代表イベントメッセージとしてまとめる一致度計算部を有し、
    前記閾値決定部は、前記台帳ガイドメッセージと前記代表イベントメッセージとの類似度を計算することを特徴とする請求項4に記載のイベント監視装置。
  6. 情報システムで発生した事象に関連する文字列で示されたイベントメッセージを含むイベントを監視するイベント監視装置であって、
    文字列で示された典型的な台帳ガイドメッセージを含み前記イベントへの対処方法を示す複数の台帳データが格納された台帳管理部と、
    前記台帳ガイドメッセージと前記イベントメッセージとの類似度を計算し、この類似度の最大値を第1の閾値として、この第1の閾値より所定値だけ小さい第3の閾値と、前記類似度の第2の最大値である第4の閾値とを設定する閾値決定部と、
    前記類似度が前記第1の閾値と前記第3の閾値との間である前記台帳ガイドメッセージを前記イベントメッセージに対応付ける台帳引当て部と、
    前記類似度が前記第3の閾値と前記第4の閾値との間であるときに前記情報システムの管理者に報知する閾値評価部と
    を有することを特徴とするイベント監視装置。
  7. 前記閾値決定部は、前記台帳ガイドメッセージと前記イベントメッセージの単語または単語の組の一致度に基づいて前記類似度を算出することを特徴とする請求項6に記載のイベント監視装置。
  8. 前記閾値決定部は、前記台帳ガイドメッセージと前記イベントメッセージの単語または単語の組の一致数の最大値を前記台帳ガイドメッセージの単語数で除した数を前記第1の閾値とし、前記最大値より1つ小さい数を前記台帳ガイドメッセージの単語数で除した数を前記第3の閾値とすることを特徴とする請求項7に記載のイベント監視装置。
  9. 前記情報システムからの前記イベントメッセージを保管するイベント管理部を有することを特徴とする請求項6に記載のイベント監視装置。
  10. 前記イベント管理部に格納されている前記イベントメッセージのうち単語の一致度が高い前記イベントメッセージを代表イベントメッセージとしてまとめる一致度計算部を有し、
    前記閾値決定部は、前記台帳ガイドメッセージと前記代表イベントメッセージとの類似度を計算することを特徴とする請求項9に記載のイベント監視装置。
  11. 情報システムで発生した事象に関連する文字列で示されたイベントメッセージを含むイベントを監視し、文字列で示された典型的な台帳ガイドメッセージを含み前記イベントへの対処方法を示す複数の台帳データが格納された台帳管理部を有するイベント監視装置によるイベント監視方法であって、
    前記台帳ガイドメッセージと前記イベントメッセージとの類似度を計算し、この類似度の最大値を第1の閾値として、この第1の閾値より所定値だけ大きい第2の閾値を設定し、
    前記類似度が前記第1の閾値と前記第2の閾値との間である前記台帳ガイドメッセージを前記イベントメッセージに対応付け、
    前記類似度が前記第1の閾値を超えるときに前記情報システムの管理者に報知する
    ことを特徴とするイベント監視方法。
JP2020144975A 2020-08-28 2020-08-28 イベント監視装置及びイベント監視方法 Active JP7522615B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020144975A JP7522615B2 (ja) 2020-08-28 2020-08-28 イベント監視装置及びイベント監視方法
US17/192,281 US11474884B2 (en) 2020-08-28 2021-03-04 Event monitoring apparatus and event monitoring method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020144975A JP7522615B2 (ja) 2020-08-28 2020-08-28 イベント監視装置及びイベント監視方法

Publications (2)

Publication Number Publication Date
JP2022039788A true JP2022039788A (ja) 2022-03-10
JP7522615B2 JP7522615B2 (ja) 2024-07-25

Family

ID=80356613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020144975A Active JP7522615B2 (ja) 2020-08-28 2020-08-28 イベント監視装置及びイベント監視方法

Country Status (2)

Country Link
US (1) US11474884B2 (ja)
JP (1) JP7522615B2 (ja)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316808A (ja) 2004-04-30 2005-11-10 Nec Software Chubu Ltd 性能監視装置および性能監視方法並びにプログラム
JP5215344B2 (ja) 2010-03-23 2013-06-19 三菱電機株式会社 設備情報管理システム
US20130218765A1 (en) * 2011-03-29 2013-08-22 Ayman Hammad Graduated security seasoning apparatuses, methods and systems
JP5974905B2 (ja) 2013-01-15 2016-08-23 富士通株式会社 応答時間監視プログラム、方法および応答時間監視装置
US9612887B2 (en) * 2015-06-26 2017-04-04 Intel Corporation Firmware-related event notification
US9779557B2 (en) * 2015-08-18 2017-10-03 Carfit Corp. Automotive activity monitor
US10990616B2 (en) 2015-11-17 2021-04-27 Nec Corporation Fast pattern discovery for log analytics
JP6693010B2 (ja) 2016-02-08 2020-05-13 ブレインズコンサルティング株式会社 障害対応支援装置、障害対応支援プログラム及び記憶媒体
US10474513B2 (en) * 2016-10-11 2019-11-12 Oracle International Corporation Cluster-based processing of unstructured log messages
US10664797B2 (en) * 2017-07-19 2020-05-26 Amazon Technologies, Inc. Distributed ledger certification
US11349873B2 (en) * 2017-11-27 2022-05-31 ArmorBlox, Inc. User model-based data loss prevention
JP6788635B2 (ja) * 2018-07-09 2020-11-25 株式会社日立製作所 イベント監視装置、イベント管理システム、およびイベント監視方法
US11176126B2 (en) * 2018-07-30 2021-11-16 Entigenlogic Llc Generating a reliable response to a query
US10810147B1 (en) * 2019-03-25 2020-10-20 EMC IP Holding Company LLC Type-based message bus with message type hierarches for non-object oriented applications

Also Published As

Publication number Publication date
US11474884B2 (en) 2022-10-18
JP7522615B2 (ja) 2024-07-25
US20220066842A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
EP3143501B1 (en) Mechanism for performing rolling updates with data unavailability check in a networked virtualization environment for storage management
US20130198370A1 (en) Method for visualizing server reliability, computer system, and management server
US8386711B2 (en) Management method and management system for computer system
WO2014076834A1 (ja) 管理システム及び管理方法
US9201740B2 (en) Computer system, cluster management method, and management computer
US20150074251A1 (en) Computer system, resource management method, and management computer
CN110083494A (zh) 在多核心环境中管理硬件错误的方法和装置
US11816178B2 (en) Root cause analysis using granger causality
US11257012B1 (en) Automatic analysis of process and/or operations data related to a benefit manager organization
US10503500B2 (en) Inquiry response system and inquiry response method
US10990433B2 (en) Efficient distributed arrangement of virtual machines on plural host machines
US9852007B2 (en) System management method, management computer, and non-transitory computer-readable storage medium
US11635996B2 (en) Management system and management method for migrating a business system operating on a target infrastructure
US10536329B2 (en) Assisted configuration of data center infrastructure
US10601683B1 (en) Availability of a distributed application using diversity scores
US10176061B2 (en) Handling migration in a virtualization environment
Xue et al. Managing data center tickets: Prediction and active sizing
JP2017138895A (ja) 仮想化環境管理システムおよび仮想化環境管理方法
US20170206027A1 (en) Management system and management method of computer system
CN114253936A (zh) 分布式数据库的缩容方法、装置、设备和介质
JP2022039788A (ja) イベント監視装置及びイベント監視方法
Brandt et al. New systems, new behaviors, new patterns: Monitoring insights from system standup
US11237914B2 (en) Intelligent handling of consistency level of virtual machines
WO2016203580A1 (ja) 管理計算機、リソース移動管理方法、及び計算機システム
Golding et al. Walking toward moving goalposts: agile management for evolving systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240712

R150 Certificate of patent or registration of utility model

Ref document number: 7522615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150