JP2015191327A - システム監視装置、システムの監視方法、及びプログラム - Google Patents

システム監視装置、システムの監視方法、及びプログラム Download PDF

Info

Publication number
JP2015191327A
JP2015191327A JP2014066780A JP2014066780A JP2015191327A JP 2015191327 A JP2015191327 A JP 2015191327A JP 2014066780 A JP2014066780 A JP 2014066780A JP 2014066780 A JP2014066780 A JP 2014066780A JP 2015191327 A JP2015191327 A JP 2015191327A
Authority
JP
Japan
Prior art keywords
message
messages
normalized
filtering
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014066780A
Other languages
English (en)
Inventor
崇久 田中
Takahisa Tanaka
崇久 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014066780A priority Critical patent/JP2015191327A/ja
Publication of JP2015191327A publication Critical patent/JP2015191327A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】管理者におけるフィルタ設定の負担を軽減しつつ、メッセージの集約を可能とする、システム監視装置、システムの監視方法、及びプログラムを提供する。
【解決手段】システム監視装置100は、コンピュータシステムの監視を行うための装置である。システム監視装置100は、コンピュータシステム内から出力されるメッセージを取得する、メッセージ取得部20と、取得されたメッセージを正規化し、更に、正規化されたメッセージから、設定ルールに基づいて、新たなメッセージを作成する、解析部30と、予め設定されたフィルタを用いて、新たなメッセージに対してフィルタリングを実行する、フィルタリング部40とを備えている。
【選択図】図1

Description

本発明は、コンピュータシステムの監視を行うための、システム監視装置、システムの監視方法、及びこれらを実現するためのプログラムに関する。
従来から、コンピュータシステムでは、システムの安定稼働を図るため、監視システムが導入されている。監視システムは、アプリケーションプログラムが出力するアプリケーションログ、syslog、イベントログ等を監視対象として監視を行い、コンピュータシステムに障害等が発生した場合は、そのことを示すメッセージを管理装置へと通知する。
ところで、このような運用管理システムにおいて、管理装置へと出力されてくるメッセージは、監視対象によらず、類似していることが多くなっている。このため、管理者における負担が大きくなっている。
例えば、監視対象に異常が発生した場合は、「異常」、「error」、「Error」、「Err」等の単語が使用されたメッセージが生成される。また、監視対象の状態を通知する場合は、「異常(Error)」、「警告(Warning)」、「正常(Info)」等の単語が使用されたメッセージが生成される。このように、両方の場合において、メッセージは類似している。
更に、監視対象においては、同じ事象が何度も繰り返し発生することがよくあるため、同じメッセージが何度も繰り返されることがある。例えば、定期的(1分間に1回等)にエラーチェックが行われている場合、定期的にエラーが発生している場合は、同じエラーメッセージが何度も通知される。
また、運用管理システムでは、異なる監視対象について、同じタイミングで、同様のメッセージが出力されることがある。例えば、監視対象が、アプリケーションプログラム「APP1」のアプリケーションログとsyslogとであり、このときに、APP1が停止したとする。この場合は、APP1が出力したアプリケーションログに基づいて「停止:APP1 サービス」というメッセージが出力され、更に略同じタイミングで、APP1のsyslogに基づいて「APP1 daemon down」というメッセージが出力される。
このため、従来から、監視システムでは、監視対象から発生したメッセージのうち、必要なメッセージだけを管理者に通知するためにフィルタリングが行われている(例えば、特許文献1〜3参照。)。
上記特許文献1〜3に開示されたフィルタリング技術を用いた場合は、繰り返し発生する同様のメッセージや、一定基準を満たさないメッセージ等が、設定されたフィルタによって、廃棄されるため、管理者の負担は軽減されるものと考えられる。
特開2012−208736号公報 国際公開第2013/008289号
しかしながら、上記特許文献1〜3に開示されたフィルタリング技術を用いる場合であっても、監視対象毎に、フィルタを設定する必要がある。また、監視対象となるログのフォーマットは、日時の部分だけでも、「12/04/12 11:56:34:」、「2012-11-20 13:31:40」、「2013-10-22 09:59:16.750,」、「Monday, July 13, 2009 9:37:02 PM」等様々である。よって、フィルタの設定は、使用されている各種フォーマットを考慮して行う必要がある。これらの点から、上記特許文献1〜3に開示されたフィルタリング技術には、フィルタの設定の点で、管理者における負担が大きいという問題がある。
本発明の目的の一例は、上記問題を解消し、管理者におけるフィルタ設定の負担を軽減しつつ、メッセージの集約を可能とする、システム監視装置、システムの監視方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面におけるシステム監視装置は、コンピュータシステムの監視を行うための装置であって、
前記コンピュータシステム内から出力されるメッセージを取得する、メッセージ取得部と、
取得された前記メッセージを正規化し、更に、正規化された前記メッセージから、設定ルールに基づいて、新たなメッセージを作成する、解析部と、
予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、フィルタリング部と、
を備えていることを特徴とする。
また、上記目的を達成するため、本発明の一側面におけるシステム監視方法は、コンピュータシステムの監視を行うための方法であって、
(a)前記コンピュータシステム内から出力されるメッセージを取得する、ステップと、
(b)前記(a)のステップで取得された前記メッセージを正規化し、更に、正規化された前記メッセージから、設定ルールに基づいて、新たなメッセージを作成する、ステップと、
(c)予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、ステップと、
を有していることを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータシステムの監視を行うための方法であって、
前記コンピュータに、
(a)前記コンピュータシステム内から出力されるメッセージを取得する、ステップと、
(b)前記(a)のステップで取得された前記メッセージを正規化し、更に、正規化された前記メッセージから、設定ルールに基づいて、新たなメッセージを作成する、ステップと、
(c)予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、ステップと、
を実行させることを特徴とする。
以上のように、本発明によれば、管理者におけるフィルタ設定の負担を軽減しつつ、メッセージの集約を可能とすることができる。
図1は、本発明の実施の形態におけるシステム監視装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態におけるシステム監視装置の構成を具体的に示すブロック図である。 図3は、本発明の実施の形態で用いられる辞書の一例を示す図である。 図4は、本発明の実施の形態で用いられるテンプレートの一例を示す図である。 図5は、本発明の実施の形態で用いられる設定ルールの一例を示す図である。 図6は、本発明の実施の形態で用いられるフィルタの一例を示す図である。 図7は、本発明の実施の形態におけるシステム監視装置の動作を示すフロー図である。 図8は、具体例1において出力されてきたメッセージを示す図である。 図9は、本発明の実施の形態におけるシステム監視装置を実現するコンピュータの一例を示すブロック図である。
(実施の形態)
以下、本発明の実施の形態におけるシステム監視装置、システム監視方法、及びプログラムについて、図1〜図9を参照しながら説明する。
[装置構成]
最初に、図1を用いて、本実施の形態におけるシステム監視装置の概略構成について説明する。図1は、本発明の実施の形態におけるシステム監視装置の概略構成を示すブロック図である。
図1に示す本実施の形態におけるシステム監視装置100は、コンピュータシステムの監視を行うための装置である。図1に示すように、システム監視装置100は、メッセージ取得部20と、解析部30と、フィルタリング部40とを備えている。
メッセージ取得部20は、コンピュータシステム内から出力されるメッセージを取得し、これを解析部30に出力する。具体的には、メッセージ取得部20は、コンピュータシステム内の監視対象10−1〜10−N(N:自然数)からメッセージを取得する。また、監視対象としては、アプリケーションプログラムから出力される、アプリケーションログ、syslog等が挙げられ、この場合、メッセージ取得部20は、アプリケーションログ、syslog等をメッセージとして取得する。
解析部30は、メッセージ取得部20で取得されたメッセージを正規化し、更に、正規化されたメッセージから、設定ルールに基づいて、新たなメッセージを作成する。フィルタリング部40は、予め設定されたフィルタを用いて、作成された新たなメッセージに対してフィルタリングを実行する。
このように、システム監視装置100では、監視対象から出力されたメッセージは正規化され、表現態様が異なるが内容が同一のメッセージがひとまとめにされて新たなメッセージが作成されるので、監視対象毎にフィルタを設定する必要がない。このため、システム監視装置100によれば、管理者におけるフィルタ設定の負担を軽減しつつ、メッセージの集約が可能となる。
続いて、図2〜図6を用いて、本実施の形態におけるシステム監視装置100の構成について更に具体的に説明する。図2は、本発明の実施の形態におけるシステム監視装置の構成を具体的に示すブロック図である。
図2に示すように、システム監視装置100は、上述したメッセージ取得部20、解析部30、及びフィルタリング部40に加えて、解析ツール記憶部31と、フィルタ記憶部41と、通知部50とを備えている。
解析ツール記憶部31は、正規化表現毎に各正規化表現に関連する語を紐付けて構築した辞書32と、処理について設定された処理条件を記述したテンプレート33と、解析部30での新たなメッセージの作成時に用いられる設定ルール34とを格納している。解析部30は、本実施の形態では、まず、解析ツール記憶部31から、辞書32、テンプレート33、設定ルール34を読み出す。
また、解析部30は、本実施の形態では、メッセージに含まれる語を、正規化表現に変換することによってメッセージを正規化する。具体的には、解析部30は、辞書32を用いて、取得されたメッセージに含まれる語を、それが辞書32において紐付けられている正規化表現に置き換えることによって、メッセージを正規化する。
更に、解析部30は、正規化されたメッセージから新たなメッセージを作成すると、テンプレート33に記述されている処理条件に基づいて、新たなメッセージに対する処理を決定し、決定した処理を実行する。
ここで、図3〜図5を用いて、辞書32、テンプレート33、及び設定ルール34について具体的に説明する。図3は、本発明の実施の形態で用いられる辞書の一例を示す図である。図4は、本発明の実施の形態で用いられるテンプレートの一例を示す図である。図5は、本発明の実施の形態で用いられる設定ルールの一例を示す図である。
図3に示すように、辞書32では、正規化表現とそれに関連する語とが紐付けられている。但し、以降においては、正規化表現を「辞書語」と表記し、関連する語を「類似単語」と表記する。
具体的には、図3に示すように、辞書32においては、「<辞書語>:類似単語1、類似単語2、・・・類似単語L(L:自然数)」の形式で、複数の辞書語が登録されている。また、辞書語及び類似単語の登録は、原則として、製品出荷段階で行われているが、管理者が後から追加できる態様であっても良い。
また、図4に示すように、テンプレート33は、処理条件、例えば、特定のメッセージに対して、関連するメッセージが出力されてきた場合に指定される動作を記述している。図4の例では、テンプレート33は、「<最初に出現するメッセージ1><最初に出現するメッセージ2>・・・→<関連するメッセージ>:動作」の形式で定義されている。なお、メッセージは、それに含まれる語が関連する「辞書語」で表現されている。
例えば、「動作」が抑止である場合は、最初に出現したメッセージと、それに関連するメッセージとの両方の通知が中止される。また、「動作」がまとめて通知である場合は、最初に出現したメッセージと、それに関連するメッセージとの両方が、1通のメッセージにまとめられて通知される。
また、図5に示すように、設定ルール34は、正規化された各メッセージから新たなメッセージを作成する際のルールを規定している。図5の例では、ルールとしては、処理の実行態様を規定するルールと、時間的条件を満たす2以上のメッセージを1つのメッセージとするルールが示されている。具体的には、前者としては、「監視間隔:10min(解析部で受信したメッセージをまとめて処理する時間)」が例示され、後者としては「<Date>,<Time>が近い時間があればまとめる:True」、「関連メッセージをまとめる:True」、「関連メッセージが繰り返し出力されていたらまとめる:True」が例示されている。
設定ルール34が図5に示す例である場合、解析部30は、複数のメッセージを受け取ると、これらをそれぞれ正規化し、正規化した複数のメッセージうち、時間的条件を満たす2以上のメッセージを特定する。そして、解析部20は、特定した2以上のメッセージに含まれる正規化表現を1つにまとめ、その際、重複する2以上の正規化表現については1つを除き排除して、1つの新たなメッセージとする。
また、図2に示すように、フィルタ記憶部41は、利用されるフィルタ42−1〜42−M(M:自然数)を格納している。フィルタリング部40は、本実施の形態では、フィルタ記憶部41から、フィルタ42−1〜42−Mを読み出し、これらを用いて、フィルタリングを実行する。
ここで、図6を用いて、フィルタ42−1〜42−Mについて具体的に説明する。図6は、本発明の実施の形態で用いられるフィルタの一例を示す図である。図6に示すように、フィルタ42−1〜42−Mそれぞれは、本実施の形態では、辞書で用いられる正規化表現を用いて設定される。このため、監視対象毎にフィルタを設定する必要がなく、管理者におけるフィルタ設定の負担が軽減される。
また、本実施の形態では、フィルタリング部40は、フィルタリングの実行後、辞書32を用いて、フィルタリングによって抽出したメッセージ中の正規化表現を、正規化される前の語に戻し、そのメッセージを通知部50に送る。このとき、辞書32において、一つ辞書語に対して多数の類似単語が紐付けられている場合は、フィルタリング部40は、辞書語を類似単語1に変換する。その後、通知部50は、正規化表現が元の語に戻されたメッセージを外部に通知する。
続いて、図3〜図6を用いて、解析部、フィルタリング部40、及び通知部50における具体的な処理について説明する。例えば、監視対象10−1から、「停止:APP1 サービス」というメッセージが出力されたとする。この場合、図5に示した設定ルール34によって、「監視間隔」が「10min」と設定されているので、解析部30は、最初のメッセージの受信から10分間待ち、10分間に発生したメッセージをまとめて解析する。具体的には、この10分間に、syslogから出力された「APP1 daemon down」というメッセージが更に受信されているとする。
この場合、解析部30は、辞書32を用いて、各メッセージを正規化する。また、解析部30は、辞書32に登録してある語については、辞書語に変換するが、登録されていない助詞及び記号等については、意味を解釈する。例えば、本例では、APP1は、アプリケーションプログラムの名称であるので、解析部30は、これを<STR1>に変更する。正規化の結果は、下記の通りである。
<Stop> <STR1> <サービス>
<STR1> <サービス> <Stop>
<STR1> = APP1
次に、解析部30は、正規化したメッセージを、図4に示すテンプレート33に当てはめ、該当する処理条件が存在するかどうかを確認する。本例では、1通目のメッセージと2通目のメッセージとに<Stop>が存在するが、<Start>が存在する関連メッセージを受信していないため、解析部30は、テンプレートに一致するものはないと判断する。
また、上記の2通のメッセージには時刻情報はなく、時間的条件を満たす2以上のメッセージを1つのメッセージとするルールは適用されないので、解析部30は、これらのメッセージをそれぞれ、フィルタリング部40に渡す。
フィルタリング部40は、上述の正規化後のメッセージを受け取ると、これらをフィルタ42−1〜42−Mに照合する。本例では、正規化後のメッセージは、フィルタに定義されている「APP1 <サービス> <Stop>」と同じ文字列を含むため、フィルタリング部40は、受け取った各メッセージは、フィルタに一致すると判断する。
そして、フィルタリング部40は、辞書32を用いて、フィルタに一致すると判断したメッセージ中の辞書語を、最初に定義されている類似単語1に変換し、変換語のメッセージを、通知部50に出力する。また、フィルタに一致するメッセージが複数存在する場合は、フィルタリング部40は、各メッセージを、フィルタに定義された順に通知部50に出力する。なお、フィルタリング部40は、メッセージに含まれる辞書語の順番に制限されることなく、一致するかどうかを判定する。
本例では、図3に示すように、<サービス>の類似単語1は「サービス」、<Stop>の類似単語1は「停止」であるので、フィルタ「APP1 <サービス> <Stop>」によって、上述の正規化後のメッセージの一つは「停止 APP1 サービス」と変換され、残りの一つは「APP1 サービス 停止」と変換され、その後、これらは通知部50によって通知される。
上述のように、アプリケーションログからメッセージとして「停止:APP1 サービス」が出力され、syslogからメッセージとして「APP1 daemon down」が出力された場合、従来では、管理者は、メッセージ毎に、その文字列を意識してフィルタを定義する必要がある。しかしながら、本実施の形態によれば、アプリケーションログ用のフィルタ及びsyslog用のフィルタとして、管理者は、「APP1 <サービス> <Stop>」 と定義するだけでよい。即ち、管理者は、アプリケーションログ、及びsyslogに出力される文字列を意識せず、フィルタしたい内容を抽象的に記載するだけでよい。
[装置動作]
次に、本発明の実施の形態におけるシステム監視装置の動作について図7を用いて説明する。図7は、本発明の実施の形態におけるシステム監視装置の動作を示すフロー図である。以下の説明においては、適宜図1〜図6を参酌する。また、本実施の形態では、システム監視装置100を動作させることによって、システム監視方法が実施される。よって、本実施の形態におけるシステム監視方法の説明は、以下のシステム監視装置100の動作説明に代える。
まず、前提として、解析部30は、解析ツール記憶部31から、辞書32、テンプレート33、設定ルール34を読み出した状態にある。また、メッセージ取得部20は、いずれかの監視対象からメッセージが出力されると、これを取得し、取得したメッセージを解析部30に出力する。
図7に示すように、最初に、解析部30は、最初のメッセージが受信されてから設定時間(監視間隔:図5参照)が経過したかどうかを判定する(ステップA1)。ステップA1の判定の結果、設定時間を経過していない場合は、解析部10は、待機状態となり、一定時間が経過した後に再度ステップA1を実行する。また、この間に、メッセージ取得部20からメッセージが出力されてきた場合は、これを処理対象となる。
次に、解析部30は、出力されてきた各メッセージに対して正規化処理を実行する(ステップA2)。具体的には、ステップA2では、解析部30は、メッセージを構成する語句を、辞書32に照らし合わせ、各語句を対応する辞書語に変換する。これにより、各メッセージは正規化される。
次に、解析部30は、先に取得しているテンプレート33を確認し、該当する条件が存在している場合は、それを特定する。それに記述されている処理条件を特定する(ステップA3)。例えば、特定のメッセージに<Stop>が含まれ、それに関連するメッセージに<Start>が含まれている場合は、解析部30は、処理条件として「まとめて通知」を特定する(図4参照。)。なお、解析部30は、処理条件として「抑止」を特定した場合は、該当するメッセージに対する通知を中止する。
次に、解析部30は、受信された各メッセージが時刻情報を有しているかどうかを判定する(ステップA4)。ステップA4の判定の結果、各メッセージが時刻情報を有していない場合は、ステップA11が実行される。
一方、ステップA4の判定の結果、各メッセージが時刻情報を有している場合は、解析部30は、設定ルール34において「<Date>,<Time>が近い時間があればまとめる」(図5参照)がTrueであるかどうかを判定する(ステップA5)。
ステップA5の判定の結果、「<Date>,<Time>が近い時間があればまとめる」がTrueでない場合は、解析部30は、ステップA7を実行する。一方、ステップA5の判定の結果、「<Date>,<Time>が近い時間があればまとめる」がTrueである場合は、解析部30は、受信時刻の差が10秒以内にある同一の複数のメッセージを一つのメッセージとする(ステップA6)。
次に、解析部30は、設定ルール34において「関連メッセージをまとめる」がTrueであるかどうかを判定する(ステップA7)。ステップA7の判定の結果、「関連メッセージをまとめる」がTrueでない場合は、解析部30は、ステップA9を実行する。
一方、ステップA7の判定の結果、「関連メッセージをまとめる」がTrueである場合は、解析部30は、受信時刻の差が10秒以内にある関連メッセージをまとめて一つのメッセージとする(ステップA8)。
次に、解析部30は、設定ルール34において、「関連メッセージが繰り返し出力されていたらまとめる」がTrueであるかどうかを判定する(ステップA9)。ステップA9の判定の結果、「関連メッセージが繰り返し出力されていたらまとめる」がTrueでない場合は、ステップA11が実行される。
一方、ステップA9の判定の結果、「関連メッセージが繰り返し出力されていたらまとめる」がTrueである場合は、解析部30は、指定された「時間誤差」内に繰り返し出力されている関連するメッセージをまとめて一つのメッセージとする(ステップA10)。
次に、フィルタリング部40は、解析部30が作成した正規化後のメッセージに対してフィルタリングを実行する(ステップA11)。また、ステップA11では、フィルタリング部40は、辞書32を用いて、フィルタリングによって抽出したメッセージ中の辞書語を、最初に定義されている類似単語1に変換し、変換語のメッセージを、通知部50に出力する。
その後、通知部50は、出力されてきたメッセージを外部に通知する(ステップA12)。ステップA12の実行後、システム監視装置100における処理は一旦終了する。なお、監視対象から新たにメッセージが出力されてくると、再度、ステップA1が実行される。
[実施の形態における効果]
従来では、管理者が監視対象ごとに似たようなフィルタを1つずつ設定する必要があったが、本実施の形態によれば、監視対象に出力される内容を意識する必要がなく、抽象的なフィルタを設定するだけで良い。このため、管理者は、最小限の簡単な設定で、メッセージをフィルタリングでき、管理者における作業の煩雑さが低減される。また、この結果、管理者によるシステムのメンテナンスが容易となる。
また、本実施の形態では、最終的に、出力されるメッセージでは、辞書語は元の語に戻されるため、管理者には、見やすいメッセージが送信されることになる。更に、本実施の形態では、近い時間に受信されたメッセージ、類似のメッセージ、関連するメッセージを自動的にまとめたり、不必要なメッセージについては通知しないようにしたり、できる。よって、この点からも、管理者によるシステムのメンテナンスが容易となる。
[具体例1]
続いて、図8を用いて、本実施の形態における具体例1について説明する。図8は、具体例1において出力されてきたメッセージを示す図である。まず、具体例1では、監視対象から出力された類似のメッセージが、1つにまとめられる場合について説明する。
コンピュータシステムにおいて、監視対象から類似のメッセージが繰り返し出力されることが多々ある。例えば、図8に示すように、アプリケーションプログラム「APP2」のアプリケーションログとして、9行のメッセージが出力されているとする。この場合において、繰り返されるメッセージをすべて通知していては、メッセージが多数になり、管理者及びオペレータ(メッセージの監視者)の処理が増大する、という問題が発生する(繰り返し通知しなくても、1回通知すれば十分である)。
従来では、特に何も設定しなければ、類似のメッセージ9通は全て管理者に通知される。また、類似のメッセージを正確に抑止するために、管理者は、複雑なフィルタ設定を行う必要があった。
これに対して、本実施の形態では、システム監視装置100が、メッセージの内容を解析するため、管理者が何も設定しなくても、9通のメッセージは、「2012/12/04 11:34:08、11:39:38、11:42:42、APP2 Windows\Program 自動アップデート開始 有効なアップデートが見つかりません。 アップデートは失敗しました。」と1通にまとめられる。
以下に具体的に説明する。なお、辞書32、テンプレート33及び設定ルール34は、図3〜図5に示した通りであるとする。但し、フィルタとしては、「*」が用いられる。このフィルタは、すべてのメッセージを通知することを意味している。
まず、メッセージ取得部20は、監視対象から図8に示す9通のメッセージが出力されると、これらを読み込み、これらを解析部31に出力する。設定ルール34において、「監視間隔」が「10min」となっているため、解析部30は、最初に来たメッセージの受信後、10分間待って、10分間の間に受信したメッセージをまとめて解析する。本具体例1では、10分の間に、図8に示した9通のメッセージが受信されているので、解析部31は、これらのメッセージをまとめて解析する。
次に、解析部31は、各メッセージに対して、辞書32に登録してある辞書語に紐付けられた語を有していないかどうか確認し、このような語を有していれば、これを辞書語に変換して、各メッセージを正規化する。結果は下記の通りとなる。また、このとき、解析部31は、登録されていない助詞及び記号等については意味を解釈する。
正規化語のメッセージ:
<Date1> <Time1> <STR1> <Path_Win1> <STR2>
<Date1> <Time2> <STR1> <Path_Win1> <STR3>
<Date1> <Time2> <STR1> <Path_Win1> <STR4>
<Date1> <Time3> <STR1> <Path_Win1> <STR2>
<Date1> <Time4> <STR1> <Path_Win1> <STR3>
<Date1> <Time4> <STR1> <Path_Win1> <STR4>
<Date1> <Time5> <STR1> <Path_Win1> <STR2>
<Date1> <Time6> <STR1> <Path_Win1> <STR3>
<Date1> <Time6> <STR1> <Path_Win1> <STR4>
<Date1> = 2012/12/04
<Time1> = 11:34:08
<Time2> = 11:34:10
<Time3> = 11:39:38
<Time4> = 11:39:41
<Time5> = 11:42:42
<Time6> = 11:42:45
<STR1> = APP2
<STR2> = 自動アップデート開始
<STR3> = 有効なアップデートが見つかりません。
<STR4> = アップデートは失敗しました。
次に、解析部30は、正規化したメッセージを図4に示すテンプレート33に当てはめ、該当する処理条件が存在するかどうかを確認する。本具体例1では、解析部30は、該当する処理条件は存在しないと判定する。
また、本具体例1では、メッセージの中に時刻情報が存在する。また、図5に示すように、設定ルール34において、「<Date>、<Time> が近い時間があればまとめる」は「True」に設定され、更に「同時に出力されたとみなす時間誤差」は「10sec」に設定されている。従って、解析部30は、<Date>、<Time> が10秒以内にあるメッセージについては、まとめる処理をおこなう。但し、図8の例では、10秒以内に同じメッセージが出力されていないため、まとめられるメッセージは存在しない。
更に、図5に示すように、設定ルール34において、「関連メッセージをまとめる」が「True」で、「関連メッセージが同時に出力されたとみなす時間誤差」が「10sec」となっている。このため、解析部30は、関連メッセージが10秒以内に出力されていれば、これらをまとめる処理をおこなう。
具体的には、解析部30は、1通目のメッセージ「<STR1> <Path_Win1> <STR2>」の後に、「関連メッセージが同時に出力されたとみなす時間誤差」である10秒以内に出力されている関連メッセージは、以下の2通であると解析する。
<STR1> <Path_Win1> <STR3>・・・・・(1)
<STR1> <Path_Win1> <STR4>・・・・・(2)
また、1通目のメッセージ「<STR1> <Path_Win1> <STR2>」と同じメッセージは、4通目と7通目にある。そして、解析部30は、4通目「<STR1> <Path_Win1> <STR2>」の後に、「関連メッセージが同時に出力されたとみなす時間誤差」である10秒以内に出力されている関連メッセージは、以下の2通と解析する。
<STR1> <Path_Win1> <STR3>
<STR1> <Path_Win1> <STR4>
同様に、解析部30は、7通目「<STR1> <Path_Win1> <STR2>」の後に、「関連メッセージが同時に出力されたとみなす時間誤差」である10秒以内に出力されているメッセージは、以下の2通と解析する。
<STR1> <Path_Win1> <STR3>
<STR1> <Path_Win1> <STR4>
このように、1通目、4通目、7通目それぞれのメッセージについて、関連のあるメッセージを互いに比較すると、いずれにおいても、上記(1)及び(2)のメッセージが出力されていることが分かる。このため、本具体例1では、解析部30は、以下の3通のメッセージはセットである、と解析する。
<STR1> <Path_Win1> <STR2>
<STR1> <Path_Win1> <STR3>
<STR1> <Path_Win1> <STR4>
上記のセットとなる3通のメッセージにおいては、「<STR1> <Path_Win1>」の部分が共通となる。従って、解析部30は、これらをまとめて、下記のメッセージとする。
<STR1> <Path_Win1> <STR2> <STR3> <STR4>
従って、解析部30は、図8に示したメッセージから、下記に示すメッセージを新たに作成することになる。
<Date1> <Time1> <STR1> <Path_Win1> <STR2> <STR3> <STR4>
<Date1> <Time3> <STR1> <Path_Win1> <STR2> <STR3> <STR4>
<Date1> <Time5> <STR1> <Path_Win1> <STR2> <STR3> <STR4>
<Date1> = 2012/12/04
<Time1> = 11:34:08
<Time3> = 11:39:38
<Time5> = 11:42:42
<STR1> = APP2
<STR2> = 自動アップデート開始
<STR3> = 有効なアップデートが見つかりません。
<STR4> = アップデートは失敗しました。
また、図5に示すように、設定ルール34において、「関連メッセージが繰り返し出力されていたらまとめる」が「True」となっている。このため、解析部30は、関連メッセージが繰り返し出力されていたらまとめる処理をおこなう。
本具体例1では、以下のように、関連メッセージが、<Time1>、<Time3>、<Time5> で繰り返し出力されている。
<Date1> <Time1> <STR1> <Path_Win1> <STR2> <STR3> <STR4>
<Date1> <Time3> <STR1> <Path_Win1> <STR2> <STR3> <STR4>
<Date1> <Time5> <STR1> <Path_Win1> <STR2> <STR3> <STR4>
従って、解析部30は、こられを以下のように一つにまとめる。
<Date1> <Time1> <Time3> <Time5> <STR1> <Path_Win1> <STR2> <STR3> <STR4>
次に、フィルタリング部40は、解析部30が新たに作成したメッセージをフィルタに照合して、フィルタリングを実行する。但し、上述したように、具体例1では、フィルタは「*」に設定されているので、作成された全てのメールが抽出される。
更に、フィルタリング部40は、辞書32を用いて、抽出したメッセージ中の辞書語を、最初に定義されている類似単語1に変換し、変換語のメッセージを、通知部50に出力する。具体的には、メッセージ「2012/12/04 11:34:08、11:39:38、11:42:42、APP2 Windows\Program 自動アップデート開始 有効なアップデートが見つかりません。 アップデートは失敗しました。」が、通知部50に出力される。その後、通知部50は、この最初の9通を1通にまとめたメッセージを管理者等に通知する。
[具体例2]
続いて、本実施の形態における具体例2について説明する。具体例では、異なる監視対象から出力された類似のメッセージが、1つにまとめられる場合について説明する。
コンピュータシステムにおいては、異なる監視対象から、同じタイミングで類似のメッセージが出力されることが多々ある。この場合において、類似(同意語)のメッセージをすべて通知していては、メッセージが多数になり、管理者及びオペレータの処理が増大する、という問題が発生する(類似メッセージは、1回通知すれば十分である)。
例えば、アプリケーション「APP1」を停止すると、ほぼ同じタイミングで、アプリケーション「APP1」が出力するアプリケーションログには、「13/1/1 14:30:00 APP1 サービスが停止しました」というメッセージが出力され、syslogには、「2013/1/1 14:30:05 APP1 daemon down」というメッセージが出力される。
この場合、従来では、特に何も設定しなければ、類似のメッセージ2通それぞれ、全て通知される。また、類似のメッセージを正確に抑止するためには、管理者は複雑なフィルタ設定を行う必要があった。
これに対して、本実施の形態では、システム監視装置100が、メッセージの内容を自動で解析するため、管理者が何も設定しなくても、ほぼ同じタイミングで出力された類似のメッセージは、1通にまとめることができる。
以下に具体的に説明する。なお、監視対象10−1が、アプリケーション「APP1」が出力するアプリケーションログであり、監視対象10−2が、syslogであるとする。辞書32、テンプレート33及び設定ルール34は、図3〜図5に示した通りであるとする。また、フィルタは、図6に示した通りであるとする。
まず、メッセージ取得部20は、監視対象10−1が、メッセージとして、「13/1/1 14:30:00 APP1 サービスが停止しました」を出力すると、これを読み込み、これを解析部30に出力する。また、メッセージ取得部20は、監視対象10−2が、メッセージとして、「2013/1/1 14:30:05 APP1 daemon down」を出力すると、これを読み込み、これを解析部30に出力する。
設定ルール34において、「監視間隔」が「10min」となっているため、解析部31は、最初に来たメッセージの受信後、10分間待って、10分間の間に受信したメッセージをまとめて解析する。本具体例2では、10分の間に、上記2通のメッセージを受信している。
次に、解析部31は、各メッセージに対して、辞書32に登録してある辞書語に紐付けられた語を有していないかどうか確認し、このような語を有していれば、これを辞書語に変換して、各メッセージを正規化する。結果は下記の通りとなる。また、このとき、解析部31は、登録されていない助詞及び記号等については意味を解釈する。
正規化後のメッセージ:
<Date1> <Time1> <STR1> <サービス> <Stop> (アプリケーションログ)
<Date1> <Time2> <STR1> <サービス> <Stop> (syslog)
<Date1> = 2013/1/1
<Time1> = 14:30:00
<Time2> = 14:30:05
<STR1> = APP1
次に、解析部30は、正規化したメッセージを図4に示すテンプレート33に当てはめ、該当する処理条件が存在するかどうかを確認する。本具体例2では、1通目と2通目に<Stop>があるが、他の受信したメッセージに<Start>がないため、解析部30は、該当する処理条件は存在しないと判定する。
また、本具体例2では、メッセージの中に時刻情報が存在する。また、図5に示すように、設定ルール34において、「<Date>、<Time> が近い時間があればまとめる」は「True」に設定され、更に「同時に出力されたとみなす時間誤差」は「10sec」に設定されている。従って、解析部30は、<Date>、<Time> が10秒以内にあるメッセージについては、まとめる処理をおこなう。
具体的には、解析部30は、<Time1> と <Time2> とが10秒以内にあるため、2つのメッセージをまとめ、同一のメッセージとして扱う。結果、上記の正規化後のメッセージは、下記のようにまとめられる。
<Date1> <Time1> <STR1> <サービス> <Stop>
<Date1> = 2013/1/1
<Time1> = 14:30:00
<STR1> = APP1
更に、図5に示すように、設定ルール34においては、「関連メッセージをまとめる」が「True」で、「関連メッセージが同時に出力されたとみなす時間誤差」が「10sec」となっている。このため、解析部30は、関連メッセージが10秒以内に出力されていれば、これらをまとめる処理を行うが、具体例2では、該当するメッセージは存在していないと判断する。
次に、フィルタリング40は、解析部30が新たに作成したメッセージをフィルタに照合して、フィルタリングを実行する。本具体例2では、フィルタは、図6に示した通りなので、上記正規化後のメッセージが抽出される。
更に、フィルタリング部40は、辞書32を用いて、抽出したメッセージ中の辞書語を、最初に定義されている類似単語1に変換し、変換語のメッセージを、通知部50に出力する。具体的には、メッセージ「2013/1/1 14:30:00 APP1 サービス停止」が通知部50に出力される。その後、通知部50は、最初の2通を1通にまとめたメッセージを管理者等に通知する。
このように、アプリケーションログ、イベントログ、syslog から、どのような表記のメッセージが出力されても、管理者には、統一した表現で通知がなされる。また、アプリケーションログ、イベントログ、syslog のいずれを監視対象とした場合であっても、フィルタは「<STR1> <サービス> <Stop>」と設定すれば良い。このことは、監視対象に出力される内容を意識せずに、抽象的にフィルタを設定できることを示している。即ち、管理者は、アプリケーションログ、イベントログ、syslog が、どのような表記のメッセージを出力してくるのかを意識する必要がなく、その上で、フィルタを設定できる。
[具体例3]
続いて、本実施の形態における具体例3について説明する。具体例3では、関連するメッセージ(異常と回復等)がまとめて通知されない場合について説明する。
コンピュータシステムにおいては、監視対象から異常発生を知らせるメッセージが出力されても、すぐに回復が出力されることが多々ある。この場合において、全てのメッセージをすべて通知していては、メッセージが多数になり、管理者及びオペレータの処理が増大する、という問題が発生する(異常になっても回復になったメッセージは通知する必要がない)。
具体的には、CPU使用率が一瞬高負荷になって、CPU高負荷を示すメッセージが出力されたが、直ぐにCPU使用率が低負荷になって、CPU使用率が回復(低負荷)したことを示すメッセージが出力された場合が挙げられる。以下は、CPU使用率を2段階(正常、異常)で閾値判断(異常閾値:90%)してメッセージを通知する、システムにおける、上述のメッセージの具体例を示している。
「CPU使用率が異常域の閾値を超えました。 閾値:90% 現在値:95%」
「CPU使用率が正常域まで回復しました。 現在値:30%」
従来では、特に何も設定しなければ、CPU使用率が高負荷であることを示すメッセージと、CPU使用率が回復したことを示すメッセージとの2通それぞれが、管理者に通知される。また、CPU使用率が高負荷であることを示すメッセージとCPU使用率が回復したことを示すメッセージとを正確に抑止するためには、管理者は複雑なフィルタ設定を行う必要があった。
これに対して、本実施の形態では、システム監視装置100は、メッセージの内容を解析するため、管理者が何も設定しなくても、ある一定間隔の間に出力された関連するメッセージ、例えば、異常を示すメッセージと回復を示すメッセージとは、まとめて通知しないようにすることができる。
以下に具体的に説明する。なお、辞書32、テンプレート33及び設定ルール34は、図3〜図5に示した通りであるとする。但し、フィルタとしては、「*」が用いられる。このフィルタは、すべてのメッセージを通知することを意味している。
まず、メッセージ取得部20は、監視対象から、CPUが高負荷になったときに「CPU使用率が異常域の閾値を超えました。 閾値:90% 現在値:95%」というメッセージが出力されると、これを読み込み、これを解析部31に出力する。
その後、メッセージ取得部20は、監視対象から、CPUの使用率が回復(低負荷)したときに、「CPU使用率が正常域まで回復しました。 現在値:30%」というメッセージが出力されると、これを読み込み、これを解析部31に出力する。
そして、設定ルール34において、「監視間隔」が「10min」となっているため、解析部30は、10分間の間に受信したメッセージをまとめて解析する。本具体例3では、最初の「CPU使用率が異常域の閾値を超えました。 閾値:90% 現在値:95%」というメッセージを受信した後、解析部30は、10分の間に、「CPU使用率が正常域まで回復しました。 現在値:30%」というメッセージを受信している。
次に、解析部31は、各メッセージに対して、辞書32に登録してある辞書語に紐付けられた語を有していないかどうか確認し、このような語を有していれば、これを辞書語に変換して、各メッセージを正規化する。結果は下記の通りとなる。また、このとき、解析部31は、登録されていない助詞及び記号等については意味を解釈する。
正規化後のメッセージ:
<STR1> <Usage> <超過> <Error> <Thred>:90% <Current>:95%
<STR1> <Usage> <回復> <Info> <Current>:30%
<STR1> = CPU
次に、解析部30は、正規化したメッセージを図4に示すテンプレート33に当てはめ、該当する処理条件が存在するかどうかを確認する。本具体例3では、解析部30は、最初のメッセージに「<超過> <Error>」があり、2通目のメッセージに「<回復>」があるため、「<超過> <Error> → <回復> :抑止」が一致する処理条件の候補と判断する。
各メッセージでは「<STR1> <Usage> 」が共通し、両メッセージの間で「<Current>」が低下している。よって、解析部30は、一致する処理条件の候補と正規化後のメッセージとを比較し、これらのメッセージは、処理条件の候補「<超過> <Error> → <回復> :抑止」に一致すると判断する。また、解析部30は、一致した場合の動作は「抑止」なので、この2通のメッセージについては、抑止対象となるため、フィルタリング部40に渡さないと判断する。
一方、テンプレート33において、図4の例と異なり、「<超過> <Error> → <回復> :まとめて通知」と記述されている場合は、解析部30は、1通目のメッセージと2通目のメッセージとをまとめるため、下記のメッセージを作成する。
作成されたメッセージ:
<STR1> <Usage> <超過> <Error> <Thred>:90% <Current>:95% <回復> <Info> <Current>:30%
この場合、メッセージの中に時刻情報が存在しないため、解析部30は、上記の作成したメッセージをフィルタリング部40に渡す。その後、フィルタリング40は、フィルタリング処理を行う。但し、上述したように、具体例3では、フィルタは「*」に設定されているので、作成された全てのメールが抽出される。
更に、フィルタリング部40は、辞書32を用いて、抽出したメッセージ中の辞書語を、最初に定義されている類似単語1に変換し、変換語のメッセージを、通知部50に出力する。具体的には、メッセージ「CPU使用率超過 異常 閾値:90% 現在値:95% 回復 正常 現在値:30%」が通知部に出力される。その後、通知部50は、このメッセージを管理者等に通知する。
なお、上記の具体例3では、CPU使用率に関するメッセージのみが出力されているが、本具体例はこれに限定されず、CPU部分がメモリとなったメモリ使用率や、他の使用率が用いられていても良い。この場合でも、「<STR1>」が「<STR2>」、「<STR3>」・・・「<STRn>」になるだけで、同様の解析及び処理が可能である。
また、上記の具体例3では、システムにおいて、閾値の判断は、2段階(正常、異常)で行われているが、これに限定されず、閾値の判断は、3段階、更には5段階で会っても良く、このような場合でも同様の解析及び処理が可能である。
また、メッセージに使用される言語の種類は、特に限定されず、メッセージは、日本語の他、英語等の言語によって表現されていても良い。このような場合であっても、辞書において種々の言語によって、辞書語及び類似単語を登録すれば対応できる。
[変形例1]
本実施の形態では、図3に示した辞書32の内容を拡張することが可能である。これにより、上述していない種々のメッセージに対応することができる。また、辞書32において、単語登録の書式は特に限定されるものではない。また、辞書32における「区切りの文字」、「置換する文字列の指定」も特に限定されるものではない。
[変形例2]
本実施の形態では、図4に示したテンプレート33の内容を拡張することが可能である。これにより、解析部30においては、上述していない多様な解析動作が可能となる。例えば、以下の例が挙げられる。
図4の例では、「最初に出現するメッセージ」の後に「関連するメッセージ」が出現した場合の動作が指定されているが、例えば、「最初に出現するメッセージ」の後に、「1分以内」に「関連するメッセージ」が出現した場合、といったように時間が指定されていても良い。
また、「最初に出現するメッセージ」の後に、「他のメッセージが出る前」に「関連するメッセージ」が出現した場合、といったように、最初のメッセージと関連するメッセージとの間にメッセージの有無が指定されている等しても良い。
また、図5に示した設定ルール34では、「監視間隔:10min」となっているため、10分間の間に来たメッセージがまとめて解析されるが、これに限定されることはない。例えば、テンプレートに定義されている1行ごとに、監視間隔が定義されていても良く、この場合、より詳細な解析が実行可能となる。
[変形例3]
本実施の形態では、図5に示した設定ルール34の内容を拡張することが可能である。これにより、解析部30においては、上述していない多様な解析動作が可能となる。例えば、以下の例が挙げられる。
図5の例では、「監視間隔:10min」となっているため、最初のメッセージが来てから10分間の間に受信したメッセージをまとめて解析、としているが、これに限定されない。例えば、メッセージの受信の有無にかかわらず、常に10分間隔で解析処理が行われていても良い。
また、設定ルール34では、各メッセージを表現する言語として、日本語、英語、中国語等、異なる言語が用いられていても、同じ意味であれば、異なる言語のメッセージをまとめるようにルールが設定されていても良い。
更に、設定ルール34では、日時が近い場合だけでなく、蓄積している過去のメッセージの出現パターンに基づいて、メッセージをまとめるように、ルールが設定されていても良い。
また、本実施の形態では、メッセージは正規化された後、通知の際に元の語に戻されているが、例えば、正規化されたメッセージがそのまま管理者に通知されても良い。更に、メッセージは、もともと出力された順に管理者に通知されても良い。また、正規化されたメッセージを元の語に戻す際においては、メッセージの意味を分かり易くするために、メッセージに助詞が補われても良い。また、通知される際に、メッセージは、元の言語から別の言語に変更されても良い。
[変形例4]
本実施の形態では、図6に示したフィルタの内容を拡張することが可能である。これにより、フィルタリング部40においては、上述していない、多様な動作が可能となる。例えば、フィルタリング部40は、上述の例では、各メッセージの受信した順位を考慮せずにフィルタリングを行っているが、本実施の形態では、順位を考慮してフィルタリングを行っても良い。
[プログラム]
本発明の実施の形態におけるプログラムは、コンピュータに、図7に示すステップA1〜A12を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態におけるシステム監視装置100とシステム監視方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、メッセージ取得部20、解析部30、フィルタリング40、及び通知部50として機能し、処理を行なう。
また、本実施の形態では、解析ツール記憶部31及びフィルタ記憶部41は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現されている。
ここで、実施の形態におけるプログラムを実行することによって、○○装置を実現するコンピュータについて図9を用いて説明する。図9は、本発明の実施の形態におけるシステム監視装置を実現するコンピュータの一例を示すブロック図である。
図9に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記15)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
コンピュータシステムの監視を行うための装置であって、
前記コンピュータシステム内から出力されるメッセージを取得する、メッセージ取得部と、
取得された前記メッセージを正規化し、更に、正規化された前記メッセージから、設定ルールに基づいて、新たなメッセージを作成する、解析部と、
予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、フィルタリング部と、
を備えていることを特徴とするシステム監視装置。
(付記2)
前記解析部は、前記メッセージに含まれる語を、正規化表現に変換することによって前記メッセージを正規化し、その際、正規化表現毎に当該正規化表現に関連する語を紐付けて構築された辞書を用いて、取得された前記メッセージに含まれる語を、それが前記辞書において紐付けられている前記正規化表現に置き換え、
前記フィルタリング部は、前記正規化表現を用いて予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、
付記1に記載のシステム監視装置。
(付記3)
前記解析部は、処理について設定された処理条件に基づいて、前記新たなメッセージに対する処理を決定し、決定した処理を実行する、
付記1または2に記載のシステム監視装置。
(付記4)
前記設定ルールが、時間的条件を満たす2以上のメッセージを1つのメッセージとすることを規定している場合に、
前記解析部は、複数のメッセージそれぞれを正規化し、正規化した前記複数のメッセージうち、前記時間的条件を満たす2以上のメッセージを特定し、特定した前記2以上のメッセージに含まれる前記正規化表現を1つにまとめ、その際、重複する2以上の正規化表現については1つを除き排除して、1つの新たなメッセージとする、
付記1〜3のいずれかに記載のシステム監視装置。
(付記5)
当該システム監視装置が、更に、通知部を備え、
前記フィルタリング部は、前記フィルタリングの実行後、前記辞書を用いて、前記フィルタリングによって抽出したメッセージ中の前記正規化表現を、正規化される前の語に戻し、
前記通知部は、前記正規化表現が正規化される前の語に戻された前記メッセージを外部に通知する、
付記2に記載のシステム監視装置。
(付記6)
コンピュータシステムの監視を行うための方法であって、
(a)前記コンピュータシステム内から出力されるメッセージを取得する、ステップと、
(b)前記(a)のステップで取得された前記メッセージを正規化し、更に、正規化された前記メッセージから、設定ルールに基づいて、新たなメッセージを作成する、ステップと、
(c)予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、ステップと、
を有していることを特徴とするシステム監視方法。
(付記7)
前記(b)のステップにおいて、前記メッセージに含まれる語を、正規化表現に変換することによって前記メッセージを正規化し、その際、正規化表現毎に当該正規化表現に関連する語を紐付けて構築された辞書を用いて、取得された前記メッセージに含まれる語を、それが前記辞書において紐付けられている前記正規化表現に置き換え、
前記(c)のステップにおいて、前記正規化表現を用いて予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、
付記6に記載のシステム監視方法。
(付記8)
前記(b)のステップにおいて、処理について設定された処理条件に基づいて、前記新たなメッセージに対する処理を決定し、決定した処理を実行する、
付記6または7に記載のシステム監視方法。
(付記9)
前記設定ルールが、時間的条件を満たす2以上のメッセージを1つのメッセージとすることを規定している場合に、
前記(b)のステップにおいて、複数のメッセージそれぞれを正規化し、正規化した前記複数のメッセージうち、前記時間的条件を満たす2以上のメッセージを特定し、特定した前記2以上のメッセージに含まれる前記正規化表現を1つにまとめ、その際、重複する2以上の正規化表現については1つを除き排除して、1つの新たなメッセージとする、
付記6〜8のいずれかに記載のシステム監視方法。
(付記10)
(d)前記辞書を用いて、前記フィルタリングによって抽出されたメッセージ中の前記正規化表現を、正規化される前の語に戻し、その後、前記フィルタリングによって抽出されたメッセージを外部に通知する、ステップを更に有している、
付記7に記載のシステム監視方法。
(付記11)
コンピュータシステムの監視を行うための方法であって、
前記コンピュータに、
(a)前記コンピュータシステム内から出力されるメッセージを取得する、ステップと、
(b)前記(a)のステップで取得された前記メッセージを正規化し、更に、正規化された前記メッセージから、設定ルールに基づいて、新たなメッセージを作成する、ステップと、
(c)予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、ステップと、
を実行させる、プログラム。
(付記12)
前記(b)のステップにおいて、前記メッセージに含まれる語を、正規化表現に変換することによって前記メッセージを正規化し、その際、正規化表現毎に当該正規化表現に関連する語を紐付けて構築された辞書を用いて、取得された前記メッセージに含まれる語を、それが前記辞書において紐付けられている前記正規化表現に置き換え、
前記(c)のステップにおいて、前記正規化表現を用いて予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、
付記11に記載のプログラム。
(付記13)
前記(b)のステップにおいて、処理について設定された処理条件に基づいて、前記新たなメッセージに対する処理を決定し、決定した処理を実行する、
付記11または12に記載のプログラム。
(付記14)
前記設定ルールが、時間的条件を満たす2以上のメッセージを1つのメッセージとすることを規定している場合に、
前記(b)のステップにおいて、複数のメッセージそれぞれを正規化し、正規化した前記複数のメッセージうち、前記時間的条件を満たす2以上のメッセージを特定し、特定した前記2以上のメッセージに含まれる前記正規化表現を1つにまとめ、その際、重複する2以上の正規化表現については1つを除き排除して、1つの新たなメッセージとする、
付記11〜13のいずれかに記載のプログラム。
(付記15)
前記コンピュータに、
(d)前記辞書を用いて、前記フィルタリングによって抽出されたメッセージ中の前記正規化表現を、正規化される前の語に戻し、その後、前記フィルタリングによって抽出されたメッセージを外部に通知する、ステップを更に実行させる、
付記12に記載のプログラム。
以上のように、本発明によれば、管理者におけるフィルタ設定の負担を軽減しつつ、メッセージの集約を可能とすることができる。本発明は、監視対象から発生するメッセージの監視が必要となる運用管理の分野に有用である。
10−1〜10−N 監視対象
20 メッセージ取得部
30 解析部
31 解析ツール記憶部
32 辞書
33 テンプレート
34 設定ルール
40 フィルタリング部
41 フィルタ記憶部
42−1〜42−M
50 通知部
110 コンピュータ
100 システム監視装置
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (7)

  1. コンピュータシステムの監視を行うための装置であって、
    前記コンピュータシステム内から出力されるメッセージを取得する、メッセージ取得部と、
    取得された前記メッセージを正規化し、更に、正規化された前記メッセージから、設定ルールに基づいて、新たなメッセージを作成する、解析部と、
    予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、フィルタリング部と、
    を備えていることを特徴とするシステム監視装置。
  2. 前記解析部は、前記メッセージに含まれる語を、正規化表現に変換することによって前記メッセージを正規化し、その際、正規化表現毎に当該正規化表現に関連する語を紐付けて構築された辞書を用いて、取得された前記メッセージに含まれる語を、それが前記辞書において紐付けられている前記正規化表現に置き換え、
    前記フィルタリング部は、前記正規化表現を用いて予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、
    請求項1に記載のシステム監視装置。
  3. 前記解析部は、処理について設定された処理条件に基づいて、前記新たなメッセージに対する処理を決定し、決定した処理を実行する、
    請求項1または2に記載のシステム監視装置。
  4. 前記設定ルールが、時間的条件を満たす2以上のメッセージを1つのメッセージとすることを規定している場合に、
    前記解析部は、複数のメッセージそれぞれを正規化し、正規化した前記複数のメッセージうち、前記時間的条件を満たす2以上のメッセージを特定し、特定した前記2以上のメッセージに含まれる前記正規化表現を1つにまとめ、その際、重複する2以上の正規化表現については1つを除き排除して、1つの新たなメッセージとする、
    請求項1〜3のいずれかに記載のシステム監視装置。
  5. 当該システム監視装置が、更に、通知部を備え、
    前記フィルタリング部は、前記フィルタリングの実行後、前記辞書を用いて、前記フィルタリングによって抽出したメッセージ中の前記正規化表現を、正規化される前の語に戻し、
    前記通知部は、前記正規化表現が正規化される前の語に戻された前記メッセージを外部に通知する、
    請求項2に記載のシステム監視装置。
  6. コンピュータシステムの監視を行うための方法であって、
    (a)前記コンピュータシステム内から出力されるメッセージを取得する、ステップと、
    (b)前記(a)のステップで取得された前記メッセージを正規化し、更に、正規化された前記メッセージから、設定ルールに基づいて、新たなメッセージを作成する、ステップと、
    (c)予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、ステップと、
    を有していることを特徴とするシステム監視方法。
  7. コンピュータシステムの監視を行うための方法であって、
    前記コンピュータに、
    (a)前記コンピュータシステム内から出力されるメッセージを取得する、ステップと、
    (b)前記(a)のステップで取得された前記メッセージを正規化し、更に、正規化された前記メッセージから、設定ルールに基づいて、新たなメッセージを作成する、ステップと、
    (c)予め設定されたフィルタを用いて、前記新たなメッセージに対してフィルタリングを実行する、ステップと、
    を実行させる、プログラム。
JP2014066780A 2014-03-27 2014-03-27 システム監視装置、システムの監視方法、及びプログラム Pending JP2015191327A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014066780A JP2015191327A (ja) 2014-03-27 2014-03-27 システム監視装置、システムの監視方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014066780A JP2015191327A (ja) 2014-03-27 2014-03-27 システム監視装置、システムの監視方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2015191327A true JP2015191327A (ja) 2015-11-02

Family

ID=54425792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014066780A Pending JP2015191327A (ja) 2014-03-27 2014-03-27 システム監視装置、システムの監視方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2015191327A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019026968A1 (ja) * 2017-08-04 2019-02-07 日本電気株式会社 メッセージ入出力装置、方法および記録媒体
WO2020012579A1 (ja) * 2018-07-11 2020-01-16 日本電気株式会社 ログ分析装置、ログ分析方法、プログラム
JP2021069009A (ja) * 2019-10-23 2021-04-30 日鉄ソリューションズ株式会社 情報処理システム、情報処理システムの制御方法、情報処理装置、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366394A (ja) * 2002-03-28 2002-12-20 Hitachi Ltd ログデータの収集管理方法
JP2005141467A (ja) * 2003-11-06 2005-06-02 Nomura Research Institute Ltd コンピュータシステムの監視装置および監視方法
JP2006259892A (ja) * 2005-03-15 2006-09-28 Fujitsu Ltd 事象通知管理プログラム及び事象通知管理装置
WO2013008289A1 (ja) * 2011-07-08 2013-01-17 グリー株式会社 メッセージ処理システム及びメッセージ処理方法
JP2013171431A (ja) * 2012-02-21 2013-09-02 Fujitsu Telecom Networks Ltd ログ記録装置、ログ記録方法及び記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366394A (ja) * 2002-03-28 2002-12-20 Hitachi Ltd ログデータの収集管理方法
JP2005141467A (ja) * 2003-11-06 2005-06-02 Nomura Research Institute Ltd コンピュータシステムの監視装置および監視方法
JP2006259892A (ja) * 2005-03-15 2006-09-28 Fujitsu Ltd 事象通知管理プログラム及び事象通知管理装置
WO2013008289A1 (ja) * 2011-07-08 2013-01-17 グリー株式会社 メッセージ処理システム及びメッセージ処理方法
JP2013171431A (ja) * 2012-02-21 2013-09-02 Fujitsu Telecom Networks Ltd ログ記録装置、ログ記録方法及び記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019026968A1 (ja) * 2017-08-04 2019-02-07 日本電気株式会社 メッセージ入出力装置、方法および記録媒体
JPWO2019026968A1 (ja) * 2017-08-04 2020-07-30 日本電気株式会社 メッセージ入出力装置、方法およびプログラム
US11113141B2 (en) 2017-08-04 2021-09-07 Nec Corporation Message input/output device, method, and recording medium
WO2020012579A1 (ja) * 2018-07-11 2020-01-16 日本電気株式会社 ログ分析装置、ログ分析方法、プログラム
JPWO2020012579A1 (ja) * 2018-07-11 2021-07-08 日本電気株式会社 ログ分析装置、ログ分析方法、プログラム
JP7078114B2 (ja) 2018-07-11 2022-05-31 日本電気株式会社 ログ分析装置、ログ分析方法、プログラム
JP2021069009A (ja) * 2019-10-23 2021-04-30 日鉄ソリューションズ株式会社 情報処理システム、情報処理システムの制御方法、情報処理装置、及びプログラム
JP7263206B2 (ja) 2019-10-23 2023-04-24 日鉄ソリューションズ株式会社 情報処理システム、情報処理システムの制御方法、情報処理装置、及びプログラム

Similar Documents

Publication Publication Date Title
US10084681B2 (en) Method and system for monitoring server cluster
JP6919569B2 (ja) ログ分析システム、方法、及び記録媒体
US9170860B2 (en) Parallel incident processing
US9658902B2 (en) Adaptive clock throttling for event processing
US20120330918A1 (en) Flexible event data content management for relevant event and alert analysis within a distributed processing system
US9602337B2 (en) Event and alert analysis in a distributed processing system
WO2019223062A1 (zh) 系统异常的处理方法和系统
US10664765B2 (en) Labelling intervals using system data to identify unusual activity in information technology systems
JP2012059063A (ja) 計算機システムの管理方法、及び管理システム
US9361184B2 (en) Selecting during a system shutdown procedure, a restart incident checkpoint of an incident analyzer in a distributed processing system
WO2017110720A1 (ja) ログ分析システム、ログ分析方法及びプログラムを格納した記録媒体
JP6919438B2 (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
US11757708B2 (en) Anomaly detection device, anomaly detection method, and anomaly detection program
JP2015191327A (ja) システム監視装置、システムの監視方法、及びプログラム
US10574552B2 (en) Operation of data network
US8543552B2 (en) Detecting statistical variation from unclassified process log
JP2012079212A (ja) 情報処理装置、および障害復旧方法
JP6078485B2 (ja) 運用履歴分析装置及び方法及びプログラム
JP2009245154A (ja) シンプトンを評価するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2014153736A (ja) 障害予兆検出方法、プログラムおよび装置
US9952773B2 (en) Determining a cause for low disk space with respect to a logical disk
JP6798504B2 (ja) ログ分析システム、ログ分析方法及びプログラム
JP5435225B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6497268B2 (ja) 管理プログラム、管理装置及び管理方法
JP7263206B2 (ja) 情報処理システム、情報処理システムの制御方法、情報処理装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180126

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180403