JP6207357B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP6207357B2
JP6207357B2 JP2013239792A JP2013239792A JP6207357B2 JP 6207357 B2 JP6207357 B2 JP 6207357B2 JP 2013239792 A JP2013239792 A JP 2013239792A JP 2013239792 A JP2013239792 A JP 2013239792A JP 6207357 B2 JP6207357 B2 JP 6207357B2
Authority
JP
Japan
Prior art keywords
condition
log
event
search
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013239792A
Other languages
English (en)
Other versions
JP2015099533A (ja
Inventor
加藤 守
守 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2013239792A priority Critical patent/JP6207357B2/ja
Publication of JP2015099533A publication Critical patent/JP2015099533A/ja
Application granted granted Critical
Publication of JP6207357B2 publication Critical patent/JP6207357B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

コンピュータシステムの構成要素から出力されたログから、コンピュータシステムで発生した事象を判定する技術に関する。
多機器、多階層(HW(Hardware)、OS(Operating System)、アプリケーション(以下、「アプリ」ともいう))からなるコンピュータシステムにおいては、障害の発生時に、障害の発生条件の確認や要因の調査が難しいという課題がある。
特許文献1においては、多階層システムにおいて、異常の伝播がある要素間を結ぶシステムトポロジをあらかじめ定義し、多階層システムの複数の要素で発生した異常が、そのシステムトポロジに当てはまるかどうかを確認し、当てはまる場合に、伝播の最上流にある異常要素を原因として特定することが開示されている。
また、特許文献2においては、アラームログ、異常ログ、操作ログ、通信ログなど種類や発生源の異なるログから、特定時間範囲内のレコードを抽出し、発生順に並べたファイルを生成・表示することが開示されている。
ユーザはこれを検索することで、個別のログを解析して結果を付き合わせる場合に比べて、障害の解析を容易に行うことができる。
国際公開WO2010/016239号公報 特開2008−2898号公報
特許文献1の技術では、異常を検知しない要素に関してはトポロジの合致判定が行われないので、異常の真の原因にたどり着けない場合があるという課題がある。
例えば、操作員が間違った操作をしたことに起因する異常は、その操作自体が正常に終了する場合、操作ログをつき合わせてみなければわからない。
また正常に動作している別のアプリケーションの影響(リソース競合など)により異常が発生するような場合にも、異常の真の原因を追跡することができない。
特許文献2の技術を適用する場合でも、多機器、多階層からなる複雑なコンピュータシステムでは、操作ログや通信ログなどの異常以外のログが大量に蓄積されるため、単純に時系列に並べただけでは、ログの量が膨大となって人手による確認が困難であるという課題がある。
本発明は、上記の事情に鑑みたものであり、コンピュータシステムの構成要素から出力されたログから、コンピュータシステムで発生した事象を効率的かつ迅速に判定する構成を得ることを主な目的とする。
本発明に係る情報処理装置は、
コンピュータシステムに含まれる複数の構成要素であって、それぞれの属性に応じて複数の属性カテゴリーのうちのいずれかの属性カテゴリーに属する複数の構成要素から出力されるログを蓄積するログ蓄積部と、
前記コンピュータシステムで特定の事象が発生したか否かを判定するための事象条件が属性カテゴリーと論理演算子とで定義され、前記事象条件の定義に用いられた属性カテゴリーに対して、当該属性カテゴリーに属する構成要素と論理演算子とで定義された選択条件が記述され、前記選択条件の定義に用いられた構成要素に対してログ検索条件が記述されている条件情報を記憶する条件情報記憶部と、
前記条件情報のログ検索条件を用いて前記ログ蓄積部を検索し、ログ検索条件に合致するログが検索された構成要素と前記選択条件で定義されている構成要素及び論理演算子とを照合し、前記選択条件が成立する属性カテゴリーを選択し、選択した属性カテゴリーと前記事象条件で定義されている属性カテゴリー及び論理演算子とを照合して前記コンピュータシステムで前記特定の事象が発生したか否かを判定する検索判定部とを有することを特徴とする。
本発明によれば、ログ検索条件に合致するログが検索された構成要素と選択条件で定義されている構成要素及び論理演算子との照合、成立条件が成立する属性カテゴリーと事象条件で定義されている属性カテゴリー及び論理演算子との照合により、コンピュータシステムで発生した事象を効率的かつ迅速に判定することができる。
実施の形態1に係るイベント監視・解析装置の構成例を示す図。 実施の形態1に係るログデータベースのテーブル構成例を示す図。 実施の形態1に係るイベント要因ツリーの概念を示す図。 実施の形態1に係るノードテーブルの例を示す図。 実施の形態1に係るエッジテーブルの例を示す図。 実施の形態1に係る索引条件入力画面の例を示す図。 実施の形態1に係る索引結果表示画面の例を示す図。 実施の形態1に係る検索問い合わせ文の例を示す図。 実施の形態1に係るイベント監視・解析装置の動作例を示すフローチャート図。 実施の形態1に係るイベント監視・解析装置のハードウェア構成例を示す図。
実施の形態1.
以下では、イベント監視・解析装置の実施の形態について説明する。
以下に説明する実施の形態は、この発明の一例を示すものであって、具体的構成を限定するものではない。
本実施の形態では、イベント監視・解析装置が、コンピュータシステムで発生した事象として、コンピュータシステムで発生した障害を特定する例を説明する。
より具体的には、多機器、多階層(HW、OS、アプリケーション)からなるシステムにおいて、障害の発生時に収集したエラーログやシステムのトレース情報から関連するイベントの検索実行および検索結果確認を容易に行え、障害の発生条件の確認と要因の調査を迅速に行えるイベント監視・解析装置を説明する。
図1は、本実施の形態に係るイベント監視・解析装置10の構成例を示す。
イベント監視・解析装置10は、情報処理装置の例に相当する。
図1において、イベント監視・解析装置10は、ログ記憶処理部11、ログ検索部12、検索結果表示部13、イベント要因ツリー入力部14、イベント要因ツリー管理部15、検索条件入力部16、問い合わせ生成部17、ログデータベース20、イベント要因ツリーデータベース30から構成される。
イベント監視・解析装置10は、単一のコンピュータハードウェア上に構成されてもよいし、ネットワークで接続された複数台のコンピュータハードウェア上に構成されてもよい。
各種ログ40は、イベント監視・解析の対象とするコンピュータシステムの構成要素からネットワーク等を経由して収集された複数種類のログであり、例えば操作ログ41、アプリログ42、OSログ43、HWログ44などを含むが、それ以外のログを含んでもよい。
各種ログ40はログ記憶処理部11を通じて、ログデータベース20に蓄積される。
ログ記憶処理部11は、収集されたログを1イベント1レコードとしてログデータベース20に蓄積してもよいし、収集されたログを整形あるいはログ中の一部分を抽出するなどの形式変換を行ってログデータベース20に蓄積してもよい。
ログデータベース20は、ログ蓄積部の例に相当する。
図2は、ログデータベース20のテーブル構成の一例を示すものである。
この例は、収集されたログの形式変換を行って、あらかじめ定めたカラムにログから抽出された値を格納する場合の例である。
図2において、カラム「SeqNo」はレコードを一意に特定するシリアル番号であり、整数値を取る。
カラム「LogTime」はログ中のイベントのタイムスタンプであり、日時および時刻を表す。
カラム「LogID」はログの種類を示す識別子であり、操作ログ、HWログ、OSログ、アプリログなどの文字列値を取る例を示した。
数値にエンコードされたIDとすることもできることは以下のカラムも同様である。
カラム「MachineID」はイベント発生源の機器の識別子であり、Terminal_1やServer_1などの文字列値を取る例を示した。
カラム「DeviceID」はイベント発生源の機器に含まれる、イベント発生源のデバイスの識別子であり、機器Server_1に内蔵されるネットワークデバイスLAN1などの値を取る例を示した。
カラム「ProcessName」はイベント発生源のソフトウェアのプロセス名を示し、アプリケーション1に対応する名前APP1などの値を取る例を示した。
カラム「ErrorID」はイベントのエラー種別を示す識別子であり、HWERR、NW1ERR、APP1NWエラーなどの値を取る例を示した。
カラム「Message」はイベントの説明のためのメッセージである。
イベント要因ツリーデータベース30は、イベント要因ツリーを記憶する。
イベント要因ツリーは、コンピュータシステムで発生した障害(事象)を判定するための情報である。
図3は、イベント要因ツリーデータベース30に格納されるイベント要因ツリーの概念を示す図である。
要因ノード110はツリー構造の最上位のノードであり、「NW障害」という名前がついている。
ネットワーク障害の要因を表すイベント要因ツリーであることを示している。
要因ノード210、220、230、240はツリー構造の2階層目のノードであり、それぞれ「操作」、「アプリ」、「OS」、「HW」という名前が付いている。
ネットワーク障害の要因のうち、それぞれ操作ログ、アプリログ、OSログ、HWログに含まれるイベントを要因とすることを示している。
要因ノード310、320、330、340、350、360、370、380はツリー構造の3階層目のノードである。
要因ノード310、320は要因ノード210の下位ノードであり、それぞれ「端末1」、「端末2」という名前が付いている。
それぞれ端末1、端末2の操作ログに含まれるイベントを要因とすることを示している。
要因ノード330、340は要因ノード220の下位ノードであり、それぞれ「アプリ1」、「アプリ2」という名前が付いている。
それぞれアプリケーション1、アプリケーション2から出力されるアプリログに含まれるイベントを要因とすることを示している。
要因ノード350、360は要因ノード230の下位ノードであり、それぞれ「NW1」、「NW2」という名前が付いている。
それぞれOSログのうちネットワークデバイス1、ネットワークデバイス2に関連するイベントを要因とすることを示している。
要因ノード370、380は要因ノード240の下位ノードであり、それぞれ「LAN IF1」、「LAN IF2」という名前が付いている。
それぞれHWログのうち、ネットワークインタフェース1、ネットワークインタフェース2に関連するイベントを要因とすることを示している。
「端末1」、「端末2」、「アプリ1」、「アプリ2」、「NW1」、「NW2」、「LAN IF1」、「LAN IF2」の各々は、イベント監視・解析の対象のコンピュータシステムの構成要素である。
イベント要因ツリーは、各要因ノードにおいて、その要因ノードに関連するイベント検索条件を設定することができる。
イベント検索条件は、ログデータベース20を検索して該当する要因ノードのイベントを抽出するための検索条件である。
以下の例では、ログデータベース20をDBMS(DataBase Management System)を用いて実装する場合の例を示す。
この場合、DBMSの問い合わせ言語であるSQL(Structured Query Language)のWHERE句に使用可能な構文を用いて表記することにより、柔軟な検索条件を設定することができ、さらに後に述べる問い合わせ生成を容易に実現することができる。
ログデータベース20をその他の技術を用いて実現する場合には、相当する検索条件を設定するものとする。
例えば、ログデータベース20をテキストファイルとし、UNIX(登録商標) OSのgrepコマンドにより検索を行う場合であれば、イベント検索条件はgrepコマンドが解釈可能な正規表現を用いればよい。
図3のイベント要因ツリーでは、要因ノード310〜380にそれぞれイベント検索条件311〜381が設定されている。
イベント検索条件311には図2のテーブルのMachineIDのフィールドがTerminal_1であるときに抽出を行う検索条件として、「MachineID=Terminal_1」が設定されている。
イベント検索条件371には、図2のテーブルのErrorIDフィールドがHWERRであり、かつ、DeviceIDフィールドがLAN1であるときに抽出を行う検索条件として、「ErrorID=HWERR AND DeviceID=LAN1」が設定されている。
イベント要因ツリーはさらに、各要因ノードにおいて、下位ノードの検索結果に対する論理演算を設定することができる。
図3のイベント要因ツリーでは、要因ノード210に示す「+」は要因ノード310と320の論理和(OR)であることを示す。
すなわち、要因ノード210の検索は、「MachineID=Terminal_1」が成立するレコードがあるか、または、「MachineID=Terminal_2」が成立するレコードがある場合に成立する。
成立しない要因ノードの検索結果は無しとなり、成立した要因ノードの検索結果は、成立したレコードがすべて返される。
要因ノード220〜240も同様に論理和(OR)演算が設定されている。
要因ノード110に示す「*」は要因ノードの論理積(AND)であることを示す。
また、「・」は検索のみ行い、論理演算を行わない要因ノードであることを示す。
したがって、要因ノード110は要因ノード220が成立するレコードがあり、要因ノード230が成立するレコードがあり、かつ論理ノード240が成立するレコードがある場合に成立し、成立した場合に、要因ノード220、230、240が成立するレコードと、要因ノード210が成立するレコードが検索結果となる。
成立しない場合には、要因ノード210の成立に係らず、検索結果は無しとなる。
このように、コンピュータネットワークの構成要素である「端末1」、「端末2」、「アプリ1」、「アプリ2」、「NW1」、「NW2」、「LAN IF1」、「LAN IF2」は、それぞれの属性に応じて複数の上位の要因ノード210〜240(属性カテゴリーの例)のうちのいずれかの要因ノードに属している。
また、要因ノード110は、「NW障害」という障害(事象)がコンピュータシステムに発生したか否かを判定するための条件であり、事象条件の例に相当する。
また、要因ノード「アプリ」、要因ノード「OS」、要因ノード「HW」の各々の条件は、コンピュータシステムの構成要素(「アプリ1」と「アプリ2」、「NW1」と「NW2」、「LAN IF1」と「LAN IF2」)と論理演算子「+」とで定義されており、選択条件の例に相当する。
なお、図3の例において、「操作」は「NW障害」の成立条件の対象外であり、定義外属性カテゴリーの例に相当する。
また、「操作」の下位の要因ノードである「端末1」及び「端末2」は定義外構成要素の例に相当する。
そして、「操作」の条件である「端末1」+「端末2」は定義外選択条件の例に相当する。
また、イベント検索条件311〜381は、ログデータベース20を検索するための条件であり、ログ検索条件の例に相当する。
イベント要因ツリーは条件情報の例に相当し、イベント要因ツリーデータベース30は条件情報記憶部の例に相当する。
イベント要因ツリーデータベース30は、例えば、要因ノードの情報を保持するノードテーブルと、要因ノード間の接続関係を保持するエッジテーブルにより構成することができる。
図4はイベント要因ツリーデータベース30のノードテーブルの一例を示す。
「NodeID」フィールドは要因ノードの識別子を保持する。
「TreeName」フィールドはイベント要因ツリーの名前を保持する。
「NodeName」フィールドは要因ノードの名前を保持する。
「Condition」フィールドはイベント検索条件を保持する。
例えば、NodeID=110は「NW障害」という名前のイベント要因ツリーに属し、要因ノードの名前は「NW障害」であり、イベント検索条件を持たない。
また、NodeID=310の要因ノードの名前は「端末1」であり、イベント検索条件は「MachineID=Terminal_1」である。
図5はイベント要因ツリーデータベース30のエッジテーブルの一例を示す。
「EdgeID」フィールドはエッジの識別子を保持する。
「TreeName」フィールドはイベント要因ツリーの名前を保持する。
「ParentID」は親要因ノード(上位の要因ノード)の「NodeID」を保持する。
「ChildID」は子要因ノード(下位の要因ノード)の「NodeID」を保持する。
「Operator」は論理演算子の識別子を保持する。
例えば、EdgeID=1のエッジは、「NW障害」という名前のイベント要因ツリーに属し、要因ノードNodeID=110の下位に要因ノードNodeID=210を接続し、論理演算子は「・」である。
イベント要因ツリーは、イベント要因ツリー入力部14により入力される。
イベント要因ツリーデータベースへの入力内容をCSV等のファイル形式で入力するようにしてもよいし、GUI(Graphical User Interface)を通じて入力するようにしてもよい。
イベント要因ツリーは、様々な要因の解析のために、複数個を入力することができ、名前で識別されるようにすることができる。
検索条件入力部16は、検索条件入力画面を表示してユーザによる検索条件入力を可能とする。
画面はイベント監視・解析装置10に接続されたディスプレイに表示してもよいし、一般的に行われているようにWWW(World Wide Web)技術を用いてネットワーク上の端末に表示可能なように構成してもよい。
図6は検索条件入力部16による検索条件入力画面の例を示す。
検索条件入力画面400は、イベント要因ツリー指定領域410、検索実行ボタン420、検索条件(期間)入力領域430、イベント要因ツリー表示領域440、イベント表示領域450から構成される。
イベント要因ツリー指定領域410は検索に使用するイベント要因ツリーの名前を入力可能とするもので、テキスト入力領域および入力完了ボタンとして構成することもできるが、プルダウンメニューによりイベント要因ツリーデータベース30に登録済みのイベント要因ツリー名から選択可能な構成とすることでよりユーザの利便性が向上する。
指定されたイベント要因ツリーはイベント要因ツリーデータベース30から抽出されてイベント要因ツリー表示領域440に表示される。
検索条件(期間)入力領域430はログの検索対象とする期間を指定可能とするもので、開始日時、終了日時の指定が可能である。
検索条件として、これ以外にログデータベース20の特定のフィールドのキーワード指定などの条件を加えてもよい。
イベント要因ツリー表示領域440は、要因ノード名表示領域441、要因ノード検索指示領域442、要因ノード検索結果表示領域443を1要素として、ツリー構成での表示を行う。
要因ノード名表示領域441は要因ノードの名前を表示する。
要因ノード検索指示領域442は該当する要因ノードの検索の実行/不実行を指定可能とするもので、チェックボックス等により構成され、チェックした場合に該当する要因ノードの検索条件に基く検索を実行し、チェックしない場合に検索を実行しない。
要因ノード検索結果表示領域443およびイベント表示領域450は検索条件入力時には使用されず、後述する検索結果表示にて使用される。
検索条件入力部16はイベント要因ツリーを含む検索条件入力画面を表示しており、表示部の例に相当する。
図7は、検索結果表示部13による検索結果表示画面の例を示すものである。
この例では、図6の検索条件入力画面400と同じ画面を用いて検索結果を表示する場合の例を示すが、別な画面により構成してもよい。検索結果表示部13は、検索結果より、検索条件が成立し検索結果が得られた要因ノードに対して、要因ノード名表示領域441の色を変えて(図7では白から黒に)表示し、各要因ノードの成立状況を一覧可能とする。
要因ノード検索結果表示領域443には、検索条件が設定された要因ノードについて、結果件数が表示される。
図7の例は、図3のイベント要因ツリーを元にした検索結果例であり、「アプリ1」の検索結果が1件であることから「アプリ1」が成立し、その結果「アプリ」が成立する。
「NW1」の検索結果が1件であることから、「NW1」が成立し、その結果「OS」が成立する。
「LAN IF1」の検索結果が1件であることから、「LAN IF1」が成立し、その結果「HW」が成立する。
「アプリ」と「OS」と「HW」がそれぞれ成立したため、AND条件により「NW障害」が成立する。
したがって、指定の期間内のログに「NW障害」のパターンに合致したイベントが存在することをユーザが一目で確認できる。
なお、「操作」については、検索のみで論理演算を行わない要因ノードであるため、「NW障害」の成立には関係しないが、「端末1」の検索結果が3件であるため、「端末1」が成立し、その結果「操作」が成立しており、障害に関連して確認が必要なログがあることをユーザが認識できる。
また、成立の条件を上記では1件以上としているが、イベント要因ツリーにおいて要因ノードごとに検索件数の閾値である件数閾値(要求ログ検索件数)を設定可能とし、件数閾値を超えた場合に成立としてもよい。
イベント表示領域450には、検索結果のイベントがイベントマーク451により時系列で表示される。
各イベントマーク451の位置は、検索されたログに記述されている日付・時刻に対応している。
横軸は時間軸となっており、検索条件(期間)にて指定した期間が表示されるが、拡大・縮小などの表示切替が出来るようにしてもよい。
縦軸は各要因ノードに対応している。
イベント詳細452は、検索されたログを示すイベントマーク451をマウスでクリックする、あるいはマウスカーソルを載せることにより表示される該当イベントの詳細情報であり、ログデータベース20に保存された該当レコードの任意の情報を表示させるようにできる。
図7では「Message」フィールドを表示した例を示す。
なお、イベント表示領域450は例示したようなグラフ表示のほかに、図2に示したようなテーブルを表形式で表示することでもよい。
検索結果表示部13は検索結果表示画面を表示しており、前述の検索条件入力部16とともに表示部の例に相当する。
問い合わせ生成部17は、検索条件入力部16にて入力されたイベント要因ツリーおよび検索条件(期間)から、ログデータベース20の検索問い合わせ文を生成する。
つまり、問い合わせ生成部17は、図3のイベント要因ツリーのイベント検索条件311〜381を用いて検索問い合わせ文を生成する。
ログデータベース20をDBMSを用いて構成した場合の擬似SQLによる検索問い合わせ文の例を図8に示す。
行番号1〜18はSELECT句である。
行番号2は図2に例示したログデータベース20の各フィールドから検索結果表示に必要なフィールドを選択して生成される。
行番号3〜10は、イベント検索条件が設定された要因ノードに関して、各レコードがイベント検索条件にヒットしたかどうかを示す仮想的なカラムを定義するものであり、要因ノード名をカラム名として持つ。
1であればイベント検索条件にヒットしたことを示し、0であればヒットしなかったことを示す。
例えば、MachineID=Terminal_1であるレコードの「端末1」カラムが値1を持つ。
これらのカラムの内容により、検索結果表示部13がイベント表示領域450にイベントマークをプロットする際の検索結果レコードと要因ノードとの関連付けを行う。
行番号11〜18は、イベント検索条件が設定された要因ノードに関して、イベント検索条件にヒットしたレコード数をカウントした結果を示す仮想的なカラムを定義するものであり、要因ノード名に「_COUNT」を付けたカラム名を持つ。
これらのカラムの内容を、検索結果表示部13がイベント要因ツリー表示領域440の要因ノード検索結果表示領域443に表示する。
行番号19はあらかじめ定められたログデータベース20のテーブル名を指定するものである。
検索条件入力部16にてテーブル名を指定したり、設定ファイル等で設定できるようにしてもよい。
行番号21〜24は、イベント検索条件にヒットするレコードを選択するためのもので、すべての検索対象となる要因ノードのイベント検索条件を論理和(OR)にて結合することにより生成される。
行番号25は、検索条件(期間)の条件を指定するものであり、イベント要因ツリーの検索条件とANDにより結合される。
イベント要因ツリー以外のその他の検索条件を指定する場合にも、同様に条件を追加することができる。
行番号26は検索結果のレコードをログ内のタイムスタンプ順にソートするためのものである。
検索結果表示部13がイベント表示領域450に検索結果を表形式で表示する際に時刻順に並べるために使用することができる。
ログ検索部12は、問い合わせ生成部17により生成された検索問い合わせ文を用いて、ログデータベース20を検索する。
そして、検索結果と図3のイベント要因ツリーとを照合して、コンピュータシステムに発生した障害(事象)を判定する。
例えば、図3の「端末1」のイベント検索条件311に合致するログが検索され、「アプリ1」のイベント検索条件331に合致するログが検索され、「NW1」のイベント検索条件351に合致するログが検索され、「LAN IF1」のイベント検索条件371に合致するログが検索された場合を想定する。
この場合に、ログ検索部12は、ログの検索結果と「アプリ」の条件(「アプリ1」+「アプリ2」)とを照合し、「アプリ1」のイベント検索条件331に合致するログが検索されているため、「アプリ」の条件が成立していると判断する。
同様にして、ログ検索部12は、ログの検索結果と「OS」の条件(「NW1」+「NW2」との照合、ログの検索結果と「HW」の条件(「LAN IF1」+「LAN IF2」との照合を行い、「OS」の条件と「HW」の条件が成立していると判断する。
また、ログ検索部12は、「アプリ」の条件の成立状況、「OS」の条件の成立状況、「HW」の条件の成立状況と、「NW障害」の条件(「アプリ」*「OS」*「HW」)とを照合し、「NW障害」の条件が成立していると判断し、コンピュータシステムに「NW障害」が発生していると判定する。
この結果、検索結果表示部13には、図7に示すような各要因ノードの成立状況が表示される。
なお、ログ検索部12及び問い合わせ生成部17は、検索判定部の例に相当する。
次に、本実施の形態に係るイベント監視・解析装置10の動作を説明する。
図9は、本実施の形態に係るイベント監視・解析装置10によるログの検索動作を示すフローチャートである。
先ず、ユーザが検索条件入力部16から検索に使用するイベント要因ツリーの名前を入力する(S101)。
検索条件入力部16は、入力された名前のイベント要因ツリーをイベント要因ツリー管理部15を通じてイベント要因ツリーデータベース30から取得する(S102)。
そして、検索条件入力部16は、取得したイベント要因ツリーを画面表示する(S103)。
次に、ユーザが検索条件入力部16から検索条件(期間)を入力し、検索実行ボタンを押す(S104)。
検索条件入力部16は、イベント要因ツリーと検索条件(期間)を問い合わせ生成部17に送る(S105)。
問い合わせ生成部17は、問い合わせ文を生成し、ログ検索部12に問い合わせを発行する(S106)。
ログ検索部12は、ログデータベース20から検索結果を抽出し、検索結果表示部13に送る(S107)。
検索結果表示部13が検索結果を画面表示する(S108)。
以上により、障害要因の条件成立が直ちに確認できることに加えて、直接エラーとはならない操作のログなどを障害に関連して追跡することが容易となる。
図7の検索結果表示画面の例では、NW障害の要因として「LAN IF1」のHWERRが最初に発生しているが、その前にネットワークスイッチの設定を変更する操作が行われていることが分かり、その変更内容の間違いによりネットワーク障害が発生しているようなケースの追跡が可能となる。
なお、図3のイベント要因ツリーでは、論理演算子として「*」と「+」を用いているが、これら以外の論理演算子を用いて条件を定義してもよい。
以上、本実施の形態では、ハードウェア及びソフトウェアを含む複数の機能要素から構成されるコンピュータシステムのイベント監視・解析装置を説明した。
そして、本実施の形態に係るベント監視・解析装置が、ログ記憶処理部と、ログ検索部と、イベント要因ツリー入力部と、イベント要因ツリー管理部と、検索条件入力部と、問い合わせ生成部と、検索結果表示部とを備えることを説明した。
ログ記憶処理部は、複数の機能要素が出力する複数種類のログを蓄積して一元管理する。
ログ検索部は、ログに含まれるイベントを指定の問い合わせにより検索する。
イベント要因ツリー入力部は、イベントの検索条件を要因ノードに保存し、要因ノード間の関係性を木構造により管理するイベント要因ツリーを入力する。
イベント要因ツリー管理部は、イベント要因ツリーを管理する。
検索条件入力部は、検索に使用する1つ以上のイベント要因ツリーと、検索期間をユーザに指定させる。
問い合わせ生成部は、指定されたイベント要因ツリーおよび検索期間に基いてログ検索部による検索を行うための問い合わせ文を生成する。
検索結果表示部は、イベント要因ツリーに基いた検索結果を要因ノード毎に表示する。
また、本実施の形態では、イベント要因ツリーには、要因ノードにログから特定のIDや名前およびそれらの複数の組合せで識別されるイベントを検索するための0個以上のイベント検索条件が含まれ、要因ノードの下位に接続される要因ノードの検索結果のAND、ORの論理演算を行うための下位ノード論理演算条件が含まれることを説明した。
また、本実施の形態では、イベント検索条件には、ログに含まれる特定のイベントの件数のカウントに対し、閾値を超えた場合に条件成立と見なす件数閾値を含ませることができることを説明した。
また、本実施の形態では、検索結果表示部が、イベント要因ツリーを表示し、表示したイベント要因ツリーの各要因ノードに対応する検索結果を表示することを説明した。
また、本実施の形態では、検索結果表示部が、イベント要因ツリーのうち、検索結果のイベントが存在する要因ノードに対してそれぞれ、その要因ノードのイベント発生を時系列でプロットすることを説明した。
また、本実施の形態では、検索条件入力部が、指定のイベント要因ツリーのうち、一部の要因ノードとその下位要因ノードを検索対象外として指定させることができることを説明した。
最後に、本実施の形態に示したイベント監視・解析装置10のハードウェア構成例を図10を参照して説明する。
イベント監視・解析装置10はコンピュータであり、イベント監視・解析装置10の各要素をプログラムで実現することができる。
イベント監視・解析装置10のハードウェア構成としては、バスに、演算装置901、外部記憶装置902、主記憶装置903、通信装置904、入出力装置905が接続されている。
演算装置901は、プログラムを実行するCPU(Central Processing Unit)である。
外部記憶装置902は、例えばROM(Read Only Memory)やフラッシュメモリ、ハードディスク装置である。
主記憶装置903は、RAM(Random Access Memory)である。
通信装置904は、例えば、NIC(Network Interface Card)である。
入出力装置905は、例えばマウス、キーボード、ディスプレイ装置等である。
プログラムは、通常は外部記憶装置902に記憶されており、主記憶装置903にロードされた状態で、順次演算装置901に読み込まれ、実行される。
プログラムは、図1に示す「〜部」として説明している機能を実現するプログラムである。
更に、外部記憶装置902にはオペレーティングシステム(OS)も記憶されており、OSの少なくとも一部が主記憶装置903にロードされ、演算装置901はOSを実行しながら、図1に示す「〜部」の機能を実現するプログラムを実行する。
また、本実施の形態の説明において、「〜の判断」、「〜の判定」、「〜の抽出」、「〜の検索」、「〜の照合」、「〜の設定」、「〜の登録」、「〜の選択」、「〜の生成」、「〜の入力」、「〜の出力」等として説明している処理の結果を示す情報やデータや信号値や変数値が主記憶装置903にファイルとして記憶されている。
なお、図10の構成は、あくまでもイベント監視・解析装置10のハードウェア構成の一例を示すものであり、イベント監視・解析装置10のハードウェア構成は図10に記載の構成に限らず、他の構成であってもよい。
10 イベント監視・解析装置、11 ログ記憶処理部、12 ログ検索部、13 検索結果表示部、14 イベント要因ツリー入力部、15 イベント要因ツリー管理部、16 検索条件入力部、17 問い合わせ生成部、20 ログデータベース、30 イベント要因ツリーデータベース、40 各種ログ、41 操作ログ、42 アプリログ、43 OSログ、44 HWログ。

Claims (9)

  1. コンピュータシステムに含まれる複数の構成要素であって、それぞれの属性に応じて複数の属性カテゴリーのうちのいずれかの属性カテゴリーに属する複数の構成要素から出力されるログを蓄積するログ蓄積部と、
    前記コンピュータシステムで特定の事象が発生したか否かを判定するための事象条件が属性カテゴリーと論理演算子とで定義され、前記事象条件の定義に用いられた属性カテゴリーに対して、当該属性カテゴリーに属する構成要素と論理演算子とで定義された選択条件が記述され、前記選択条件の定義に用いられた構成要素に対してログ検索条件が記述されている条件情報を記憶する条件情報記憶部と、
    前記条件情報のログ検索条件を用いて前記ログ蓄積部を検索し、ログ検索条件に合致するログが検索された構成要素と前記選択条件で定義されている構成要素及び論理演算子とを照合し、前記選択条件が成立する属性カテゴリーを選択し、選択した属性カテゴリーと前記事象条件で定義されている属性カテゴリー及び論理演算子とを照合して前記コンピュータシステムで前記特定の事象が発生したか否かを判定する検索判定部とを有することを特徴とする情報処理装置。
  2. 前記条件情報記憶部は、
    要求されるログ検索件数が要求ログ検索件数として定義されている条件情報を記憶しており、
    前記検索判定部は、
    前記要求ログ検索件数以上のログが検索された構成要素と前記選択条件で定義されている構成要素及び論理演算子とを照合することを特徴とする請求項1に記載の情報処理装置。
  3. 前記条件情報記憶部は、
    前記コンピュータシステムで発生する複数の事象について、事象ごとに、異なる事象条件と選択条件とログ検索条件とが定義されている条件情報を記憶しており、
    前記検索判定部は、
    複数の条件情報の中から選択された条件情報を用いて前記コンピュータシステムで発生した事象を判定することを特徴とする請求項1に記載の情報処理装置。
  4. 前記情報処理装置は、更に、
    前記条件情報に基づき、前記コンピュータシステムの前記特定の状態と、前記事象条件の定義に用いられている属性カテゴリーと、前記選択条件の定義に用いられている構成要素とを、ツリー構造で表示する表示部を有することを特徴とする請求項1に記載の情報処理装置。
  5. 前記表示部は、
    前記検索判定部により前記ログ検索条件に合致するログが検索された構成要素と、前記検索判定部により選択された属性カテゴリーとを、前記検索判定部により前記ログ検索条件に合致するログが検索されなかった構成要素と、前記検索判定部により選択されなかった属性カテゴリーとから区別して表示し、
    前記検索判定部により前記コンピュータシステムで前記特定の事象が発生したと判定された場合に、前記コンピュータシステムで前記特定の事象が発生した旨を表示することを特徴とする請求項4に記載の情報処理装置。
  6. 前記表示部は、
    前記ログ検索条件に合致するログが検索された構成要素に対して、検索されたログを表すマークを、ログに記述されている時刻に従って、時系列に表示することを特徴とする請求項5に記載の情報処理装置。
  7. 前記条件情報記憶部は、
    前記事象条件の定義に用いられていない属性カテゴリーである定義外属性カテゴリーに対して、前記定義外属性カテゴリーに属する構成条件である定義外構成要素と論理演算子とが定義された定義外選択条件が記述され、前記定義外構成要素に対してログ検索条件が記述されている条件情報を記憶し、
    前記検索判定部は、
    前記定義外構成要素のログ検索条件を用いて前記ログ蓄積部を検索し、ログ検索条件に合致するログが検索された定義外構成要素と前記定義外選択条件で定義されている定義外構成要素及び論理演算子とを照合し、
    前記表示部は、
    前記定義外構成要素のログ検索条件に合致するログが検索され、前記定義外属性カテゴリーで前記定義外選択条件が成立した場合に、前記定義外構成要素のログ検索条件に合致するログが検索された旨、前記定義外属性カテゴリーで前記定義外選択条件が成立した旨を表示することを特徴とする請求項5に記載の情報処理装置。
  8. 前記表示部は、
    前記ログ検索条件に合致するログが検索された定義外構成要素に対して、検索されたログを表すマークを、ログに記述されている時刻に従って、時系列に表示することを特徴とする請求項7に記載の情報処理装置。
  9. コンピュータシステムに含まれる複数の構成要素であって、それぞれの属性に応じて複数の属性カテゴリーのうちのいずれかの属性カテゴリーに属する複数の構成要素から出力されるログを蓄積するログ蓄積部と、
    前記コンピュータシステムで特定の事象が発生したか否かを判定するための事象条件が属性カテゴリーと論理演算子とで定義され、前記事象条件の定義に用いられた属性カテゴリーに対して、当該属性カテゴリーに属する構成要素と論理演算子とで定義された選択条件が記述され、前記選択条件の定義に用いられた構成要素に対してログ検索条件が記述されている条件情報を記憶する条件情報記憶部とを有するコンピュータに、
    前記条件情報のログ検索条件を用いて前記ログ蓄積部を検索し、ログ検索条件に合致するログが検索された構成要素と前記選択条件で定義されている構成要素及び論理演算子とを照合し、前記選択条件が成立する属性カテゴリーを選択し、選択した属性カテゴリーと前記事象条件で定義されている属性カテゴリー及び論理演算子とを照合して前記コンピュータシステムで前記特定の事象が発生したか否かを判定する検索判定処理を実行させることを特徴とするプログラム。
JP2013239792A 2013-11-20 2013-11-20 情報処理装置及びプログラム Active JP6207357B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013239792A JP6207357B2 (ja) 2013-11-20 2013-11-20 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013239792A JP6207357B2 (ja) 2013-11-20 2013-11-20 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2015099533A JP2015099533A (ja) 2015-05-28
JP6207357B2 true JP6207357B2 (ja) 2017-10-04

Family

ID=53376097

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013239792A Active JP6207357B2 (ja) 2013-11-20 2013-11-20 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6207357B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003091434A (ja) * 2001-09-18 2003-03-28 Hitachi Information Systems Ltd ログ診断装置とその方法、およびその処理プログラム
JP2005242988A (ja) * 2004-01-27 2005-09-08 Seiko Epson Corp ログ情報管理システム、サービス提供システム、ログ情報管理プログラムおよびサービス提供プログラム、並びにログ情報管理方法およびサービス提供方法
JP2006338305A (ja) * 2005-06-01 2006-12-14 Toshiba Corp 監視装置及び監視プログラム
JP4400834B2 (ja) * 2007-06-20 2010-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報システムに発生したイベントのパターンを検出する技術
JP5140633B2 (ja) * 2008-09-04 2013-02-06 株式会社日立製作所 仮想化環境において生じる障害の解析方法、管理サーバ、及びプログラム

Also Published As

Publication number Publication date
JP2015099533A (ja) 2015-05-28

Similar Documents

Publication Publication Date Title
US11347622B1 (en) Generating metrics values for teams of microservices of a microservices-based architecture
CN110928772B (zh) 一种测试方法及装置
US11379475B2 (en) Analyzing tags associated with high-latency and error spans for instrumented software
US11250069B1 (en) Related content identification for different types of machine-generated data
US10810074B2 (en) Unified error monitoring, alerting, and debugging of distributed systems
JP6538980B2 (ja) 異種混成ログストリームにおける自動化された異常検出サービス
US10467084B2 (en) Knowledge-based system for diagnosing errors in the execution of an operation
US11388211B1 (en) Filter generation for real-time data stream
US20220342920A1 (en) Data categorization using inverted indexes
US9411673B2 (en) Management server, management system, and management method
US11526425B1 (en) Generating metric data streams from spans ingested by a cloud deployment of an instrumentation analytics engine
JP5913145B2 (ja) ログ可視化装置及び方法及びプログラム
JP2011034208A (ja) 異常検出方法、装置、及びプログラム
US11868234B1 (en) Generating metrics values at component levels of a monolithic application and of a microservice of a microservices-based architecture
US10489266B2 (en) Generating a visualization of a metric at one or multiple levels of execution of a database workload
US11106713B2 (en) Sampling data using inverted indexes in response to grouping selection
US20230156093A1 (en) Url normalization for rendering a service graph
CN112052134A (zh) 一种业务数据的监控方法及装置
US9727663B2 (en) Data store query prediction
US11516269B1 (en) Application performance monitoring (APM) detectors for flagging application performance alerts
WO2021242466A1 (en) Computing performance analysis for spans in a microservices-based architecture
US7844601B2 (en) Quality of service feedback for technology-neutral data reporting
CN107330031B (zh) 一种数据存储的方法、装置及电子设备
WO2021217119A1 (en) Analyzing tags associated with high-latency and error spans for instrumented software
JP6207357B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160930

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170905

R150 Certificate of patent or registration of utility model

Ref document number: 6207357

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250