JP5541130B2 - 管理装置、管理方法および管理用プログラム - Google Patents

管理装置、管理方法および管理用プログラム Download PDF

Info

Publication number
JP5541130B2
JP5541130B2 JP2010275215A JP2010275215A JP5541130B2 JP 5541130 B2 JP5541130 B2 JP 5541130B2 JP 2010275215 A JP2010275215 A JP 2010275215A JP 2010275215 A JP2010275215 A JP 2010275215A JP 5541130 B2 JP5541130 B2 JP 5541130B2
Authority
JP
Japan
Prior art keywords
message
pattern
failure
message pattern
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010275215A
Other languages
English (en)
Other versions
JP2012123694A (ja
Inventor
幸洋 渡辺
安英 松本
正純 松原
敦二 関口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010275215A priority Critical patent/JP5541130B2/ja
Priority to US13/292,493 priority patent/US8751874B2/en
Publication of JP2012123694A publication Critical patent/JP2012123694A/ja
Application granted granted Critical
Publication of JP5541130B2 publication Critical patent/JP5541130B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、1または2以上の情報処理装置を含むシステムを管理する管理装置、管理方法および管理用プログラムに関する。
近年、クラウドコンピューティングというICT(Information and Communication Technology;情報通信技術)の利用形態が知られている。クラウドコンピューティングは、ネットワーク上にあるICTリソースをネットワークを経由して利用するICTの利用形態である。
ICTリソースには、ネットワーク、ネットワークで相互に接続されるサーバやストレージ、サーバなどで動作するミドルウェアなど様々なものが含まれる。
クラウドコンピューティングを実現する環境、すなわち、クラウド環境では、同一または類似の構成を持つシステムが多数存在する場合がある。そして、クラウド環境では、ハードウェアの入れ替えやサーバの追加、アプリケーションの改版などにより、クラウド環境に含まれるICTリソースの構成が動的に変化する。そのため、クラウド環境の管理、例えば、障害の検知などの負担が大きかった。
上記技術に関連して、通信ネットワークから警報メッセージ信号を収集し処理して異常状態信号を生成する装置が知られている。
また、障害MSG(メッセージ)の特徴があらかじめ登録された周辺装置障害用パターンファイルとノード装置障害用パターンファイルを有し、MSGとパターンファイルの個々パターンとを比較し周辺装置障害MSGなどを判定する障害検出システムが知られている。
また、新規の接続装置を検出すると新規の接続装置の保守情報を障害辞書に登録し、通知されたログメッセージが障害辞書に登録されている場合に新規の接続装置の障害と判定する障害監視システムが知られている。
また、中継グループの情報などが変更された旨を通知する通知メッセージに関するメッセージ情報を共有リソース情報に追加し、共有リソース情報に通知メッセージに関するメッセージ情報を追加してから所定期間が経過した後に自動的に削除する中継サーバが知られている。
特開平08−307524号公報 特開2001−292143号公報 特開2005−184500号公報 特開2009−159129号公報
図1〜図3は、メッセージパターンを用いた障害検知を行う管理装置を説明する図である。
図1は、メッセージパターンの学習を説明する図である。メッセージパターンを用いて障害検知を行う場合、管理装置は、過去の障害事例のログから、障害を特徴づけるメッセージパターンを学習する必要がある。
管理装置は、クラウド環境下にある機器から出力された過去のメッセージログに記憶されているメッセージのうち、メッセージ辞書101に記憶されているメッセージを、一定期間に発生したメッセージ毎に分類する。図1では、メッセージログに記憶されているメッセージから、例えば、時刻t0〜t1までに発生したメッセージ1、2、3および4が分類されたことが例示されている。
管理装置は、分類したメッセージを、一定期間に発生したメッセージ毎にまとめてメッセージパターンを生成する。この一定期間を「ウィンドウ幅」という。例えば、図1には、ウィンドウ幅にメッセージ2、3および4を含むメッセージパターン102などが例示されている。
一方、管理装置は、過去の障害事例から、特定の時刻に障害が発生したことを知ることができる。
図1の例では、障害1の発生時刻T0〜T1に、メッセージパターン102に含まれるメッセージが発生している。この場合、管理装置は、障害1を特徴づけるメッセージパターンとして、メッセージパターン102をメッセージパターン辞書103に記憶する。このとき、管理装置は、メッセージパターン102に含まれるメッセージが発生した場合に障害1が発生した障害発生確率を算出してメッセージパターン辞書103に記憶する。
以上のようにして学習を行った結果得られるメッセージパターン辞書103に記憶されたメッセージパターンの例を図2に示す。図2は、障害1が発生したときに検出されたメッセージから作成されたメッセージパターンの一部を示している。
図2に示す各メッセージパターンは、<probability>タグを用いて表現されている。<probability>タグは、メッセージパターンを示すevents属性と、障害の発生確率を示すscore属性と、を含んでいる。events属性は、障害が発生した時刻に検出されたメッセージ、例えば、図1に示したメッセージ1、2、3および4など、の識別情報を含む情報である。score属性は、events属性が示すメッセージパターンを観測した場合の障害の発生確率、すなわち、メッセージパターンと障害との共起確率を示す情報である。
図3は、メッセージパターンから障害発生を検出する処理の概要を説明する図である。
管理装置は、クラウド環境下にある機器から受信したメッセージのうち、メッセージ辞書101に記憶されているメッセージを、一定期間に出力されたメッセージ毎に分類する。図3の例では、クラウド環境下にある機器から受信したメッセージから、例えば、時刻t’0〜t’1までに受信したメッセージ1、2、3および4が分類されたことが例示されている。
管理装置は、分類したメッセージを、ウィンドウ幅毎にまとめてメッセージパターンを生成する。図3には、例えば、メッセージ2、3および4を含むメッセージパターン102’などが例示されている。
管理装置は、生成したメッセージパターンと、メッセージパターン辞書103に記憶されているメッセージパターン、例えば、図2に示したevents属性が示すメッセージパターンと、を比較する。そして、メッセージパターン辞書103に記憶されているメッセージパターンと一致するメッセージパターンを検出すると、管理装置は、その検出したメッセージパターンとともにメッセージパターン辞書103に記憶されている障害発生確率、例えば、図2に示したscore属性が示す障害発生確率を参照する。管理装置は、障害発生確率が閾値以上であれば障害が発生したと判別することができる。
また、メッセージパターン辞書103に記憶されているメッセージパターンと一致するメッセージパターンを検出しない場合や、障害発生確率が閾値より小さい場合、管理装置は、障害は発生していない、すなわち、正常であると判別することができる。
しかし、クラウド環境下にある機器には、同一または類似の構成、例えば、ハードウェアやサーバ、アプリケーションなどを持つシステムが複数存在する。そして、それら同一または類似の構成は、そのライフサイクルを通じて頻繁に変更される。例えば、機器は、ハードウェアの入れ替えやアプリケーションの改版などによって、構成が日々変化していく。また、クラウド環境下では、新たなサーバの追加やサーバの削除なども行われる。
そして、例えば、機器の入れ替えやアプリケーションの設定変更などにより、従来出力されていたメッセージが出力されなくなる場合、学習したメッセージパターンの一部が欠けたメッセージパターンになってしまう。また、入れ替えられた機器や設定変更されたアプリケーションなどが従来と同じようにメッセージを出力するがメッセージ内容が従来と異なる場合、従来のメッセージパターンの一部が異なるメッセージパターンとなってしまう。
図4には、Webサーバのログが設定によって全く異なってしまうことを例示している。
図4には、Webサーバのログを、W3C(World Wide Web Consortium)拡張ログ形式で出力した場合と、MS(Microsoft)IISログ形式で出力した場合と、NCSA(National Center for Supercomputing Applications)フォーマットで出力した場合と、を示している。
上述のように、クラウド環境下にある機器の構成や設定が変わると、図1で学習したメッセージパターンを使用して、図3に示した、障害発生の検出を行うことができなくなる。
図5には、クラウド環境下にある機器の構成や構成の設定が変更したことにより、機器から得られるメッセージパターンが、学習したメッセージパターンと一致しない場合の例を示している。
機器から受信するメッセージは、図3で説明したように、一定期間に出力されたメッセージ毎に分類される。そして、例えば、管理装置は、メッセージパターン502を得る。しかし、このメッセージパターンは、従来含まれていたメッセージID「10」が、構成や構成の設定が変更されたことにより出力されなくなっている。
この場合、メッセージパターン辞書103に記憶されているメッセージパターン501と一致しなくなってしまう。その結果、従来検出できていた異常を検出することができなくなってしまう場合が生じる。そのため、一度学習して得たメッセージパターン辞書103に記憶されているメッセージパターンおよび障害発生確率を破棄して、新たに学習を行う必要があった。
なお、メッセージパターン間のベクトル距離などを用いてメッセージパターン間の相関を求め、メッセージパターン辞書103に記憶された学習済みのメッセージパターンと類似するメッセージパターンを検出することも考えられる。しかし、この場合、類似するメッセージパターンの障害発生率を統計的に算出することが難しくなってしまう。
本管理装置は、1側面では、障害管理に要する負担を低減することができる管理装置、管理方法および管理用プログラムを提供することを目的とする。
本管理装置の1つの観点によれば、本管理装置は、複数の構成要素を含む情報処理システムを管理する管理装置において、以下の構成を有する。
記憶手段は、前記情報処理システムに障害が発生したときに、前記情報処理システムから一定期間に受信した1または2以上のメッセージを含むメッセージ群を示す第1のメッセージパターンが検出された検出回数を記憶した障害共起情報を記憶する記憶装置である。
判別手段は、前記情報処理システムから一定期間に受信した1または2以上のメッセージから前記第1のメッセージパターンを検出する。この場合、判別手段は、前記記憶手段に記憶された前記障害共起情報から前記検出回数を読み出し、該検出回数に基づいて前記障害と前記第1のメッセージパターンとの共起確率を算出し、共起確率が閾値以上の場合に、前記障害が発生したと判別する。
更新手段は、前記構成要素が変更されたことを検出する。この場合、更新手段は、前記変更された前記構成要素が出力するメッセージを前記第1のメッセージパターンから除いたメッセージ群を示す第2のメッセージパターンを作成し、前記障害共起情報に記憶された前記第1のメッセージパターンを前記第2のメッセージパターンに更新する。
一態様では、管理装置は、障害管理に要する負担を低減することができる。
メッセージパターンの学習を説明する図である。 障害1が発生したときに検出されたメッセージから作成されたメッセージパターン辞書の一部を示す図である。 メッセージパターンから障害発生を検出する処理の概要を説明する図である。 Webサーバのログが設定によって全く異なってしまうことを例示する図である。 情報処理システムに含まれる構成や構成の設定が変更したことにより、機器から得られるメッセージパターンが、学習したメッセージパターンと一致しない場合の例を示す図である。 第1の実施例に係る管理装置を説明する図である。 第2の実施例に係る管理装置を使用する情報処理システムの構成例を示す図である。 第2の実施例に係る管理装置の具体的な構成例を示す図である。 第2の実施例に係るメッセージパターンテーブルの具体例を示す図である。 第2の実施例に係る共起確率テーブルの具体例を示す図である。 第2の実施例に係るメッセージテーブルの具体例を示す図である。 第2の実施例に係る構成情報の具体例を示す図である。 第2の実施例に係る障害事例の具体例を示す図である。 第2の実施例に係る構成情報付与部の処理の概要を説明する図である。 第2の実施例に係るメッセージパターン更新部の処理の概要を説明する図である。 第2の実施例に係るメッセージパターン更新部の処理の概要を説明する図である。 第2の実施例に係る統合すべきメッセージパターンを検出する方法の例を説明する図である。 第2の実施例に係るメッセージパターン学習部による学習処理を示すフローチャートである。 第2の実施例に係るメッセージパターン検知部によるメッセージパターン検知処理を示すフローチャートである。 第2の実施例に係る構成情報付与部による構成情報付与の処理を示すフローチャートである。 第2の実施例に係るメッセージパターン更新部によるメッセージパターン更新処理を示すフローチャートである。 第2の実施例に係る管理装置の具体的な構成例を示す図である。 第2の実施例に係る管理装置による効果の一例を説明する図である。
以下、本実施形態の一例について、図6〜図23に基づいて説明する。なお、以下に説明する実施形態はあくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図ではない。すなわち、本実施形態は、その趣旨を逸脱しない範囲で、各実施例を組み合わせるなど種々変形して実施することができる。
図6は、本実施例に係る管理装置600を説明する図である。
図6に示す管理装置600は、記憶手段601と、判別手段602と、更新手段603と、を備える。管理装置600は、管理対象の情報処理システム605と、ネットワークや専用回線を介して通信可能に接続している。
情報処理システム605は、本実施例に係る管理装置600の管理対象のシステムである。情報処理システム605は、例えば、クラウド環境を提供する情報処理システムである。情報処理システム605は、1または2以上の機器を含む。各機器は互いにネットワーク等で通信可能に接続している。機器には、サーバや、SAN(Storage Area Network)、NAS(Network Attached Storage)、CAS(Content Aware Storage)などの情報処理装置を含むことができる。本実施例では、機器や、機器に含まれるハードウェア、機器または機器に含まれるハードウェア上で動作するソフトウェアなどメッセージを出力する主体となりうるものを「構成要素」という。
記憶手段601は、情報処理システム605に障害が発生したときに、情報処理システム605から一定期間に受信した1または2以上のメッセージを含むメッセージ群を示す第1のメッセージパターンが検出された検出回数を記憶した障害共起情報を記憶する記憶装置である。RAM(Random Access Memory)などの揮発性の記憶装置であってもよいし、磁気ディスク装置などの不揮発性の記憶装置であってもよい。
判別手段602は、情報処理システム605から一定期間に受信した1または2以上のメッセージから第1のメッセージパターンを検出する。この場合、判別手段602は、記憶手段601に記憶された障害共起情報から検出回数を読み出し、出回数に基づいて障害と第1のメッセージパターンとの共起確率を算出する。そして、判別手段602は、共起確率が閾値以上の場合に、障害が発生したと判別する。
更新手段603は、情報処理システム605に含まれる構成要素が変更されたことを検出する。この場合、更新手段603は、変更された構成要素が出力するメッセージを第1のメッセージパターンから除いたメッセージ群を示す第2のメッセージパターンを作成し、障害共起情報に記憶された第1のメッセージパターンを第2のメッセージパターンに更新する。
判別手段602や更新手段603は、情報処理装置に所定のプログラムを実行させることによって実現することができる。
以上の構成において、情報処理システム605に含まれる構成要素が変更されると、更新手段603は、変更された構成要素が出力するメッセージを第1のメッセージパターンから除いた第2のメッセージパターンに、障害共起情報に記憶された第1のメッセージパターンを更新する。
これにより、判別手段602は、情報処理システム605から第2のメッセージパターンを検出しても、記憶手段601に記憶された障害共起情報から検出回数を読み出し、出回数に基づいて障害と第2のメッセージパターンとの共起確率を算出することができる。そして、判別手段602は、共起確率が閾値以上の場合に、障害が発生したと判別する。
その結果、情報処理システム605に含まれる構成要素が変更されたために、情報処理システム605が今まで出力していた第1のメッセージパターンを出力しなくなった場合でも、障害共起情報を用いて共起確率を求め、情報処理システム605の障害を検出することができる。その気か、情報処理システム605に対する障害管理に要する負担を低減することが可能となる。
図7は、本実施例に係る管理装置701を使用する情報処理システム700の構成例を示す図である。なお、以下の説明および図面で使用するNは1以上の整数とする。
図7に示す情報処理システム700は、機器1、機器2、・・・および機器Nと、管理装置701と、を含むシステムである。情報処理システム700は、クラウド環境を提供することができる。機器1、機器2、・・・および機器Nと、管理装置701と、はネットワーク702を介して互いに通信可能に接続している。
機器1、機器2、・・・および機器Nは、それぞれサーバ、SAN、NASおよびCASなどの情報処理装置を含むことができる。
機器1、機器2、・・・および機器Nや、機器1、機器2、・・・および機器Nそれぞれに含まれるハードウェアは、必要に応じて管理装置701にメッセージを出力する。なお、「ハードウェアがメッセージを出力する」とは、ハードウェアを制御するプログラムであって、ハードウェアと一体とみなすことができるものがメッセージを出力することと考えることができる。また、機器1、機器2、・・・および機器Nそれぞれで動作するアプリケーションや、機器1、機器2、・・・および機器Nそれぞれに含まれるハードウェア上で動作するアプリケーションなども、必要に応じて管理装置701にメッセージを出力する。
本実施例では、情報処理システム700に含まれる機器や、機器に含まれるハードウェア、機器または機器に含まれるハードウェア上で動作するソフトウェアなどメッセージを出力する主体となりうるものを「構成要素」という。
管理装置701は、図22に示すように、一般的な情報処理装置を用いて実現することができる。この場合、管理装置701に備わるCPU(Central Processing Unit)2201に所定のプログラムを実行させることによって、本実施例に係る管理装置を実現することができる。
管理装置701は、情報処理システム700に含まれる構成要素が出力するメッセージを収集する。そして、管理装置701は、収集したメッセージから障害の有無を判別するなどして、情報処理システム700の状態を管理する。
図8は、本実施例に係る管理装置701の具体的な構成例を示す図である。
管理装置701は、メッセージパターン辞書801と、メッセージ辞書802と、メッセージパターン検知部803と、を備える。さらに、管理装置701は、メッセージパターン学習部804を備えることができる。さらに、管理装置701は、構成情報記憶部805と、構成情報付与部806と、メッセージパターン更新部807と、を備えることができる。
メッセージパターン辞書801は、メッセージパターンテーブル900および共起確率テーブル1000を記憶する記憶装置である。メッセージパターンとは、1または2以上のメッセージを含むメッセージ群のことをいう。本実施例では、一定期間に管理対象の情報処理システム700から出力されたメッセージを含むメッセージ群をメッセージパターンとして用いる。なお、本実施例に係るメッセージパターンでは、出力されたメッセージの順番は問題にしない。例えば、メッセージ1、2および3の順に出力されたメッセージを含むメッセージパターンと、メッセージ3、2および1の順に出力されたメッセージを含むメッセージパターンと、は同じメッセージパターンとして扱う。
メッセージパターンテーブル900は、過去のメッセージログと過去の障害事例とから抽出した、障害を特徴づけるメッセージパターンを含む情報である。共起確率テーブル1000は、メッセージパターン毎の障害発生頻度を含む情報である。メッセージパターンテーブル900については図9に、共起確率テーブル1000については図10に具体例を示して後述する。
メッセージ辞書802は、メッセージテーブル1100を記憶する記憶装置である。メッセージテーブル1100は、管理対象のメッセージ、すなわち、メッセージパターンとして抽出したいメッセージを含む情報である。メッセージテーブル1100については、図11に具体例を示して後述する。
メッセージパターン検知部803は、情報処理システム700に含まれる構成要素が出力するメッセージ813を収集する。そして、メッセージパターン検知部803は、一定期間毎に、その一定期間に出力した1または2以上のメッセージ813を、管理対象のメッセージとそれ以外のメッセージに分類する。例えば、メッセージパターン検知部803は、メッセージ813が、メッセージテーブル1100に記憶されているメッセージと一致するメッセージであれば、管理対象のメッセージと判別することができる。さらに、メッセージパターン検知部803は、管理対象のメッセージを、ウィンドウ幅毎に1つのメッセージ群に分類してメッセージパターンを作成する。
メッセージパターン検知部803は、共起確率テーブル1000に基づいて、メッセージパターン毎に障害の共起確率を算出する。そして、メッセージパターン検知部803は、算出した障害の共起確率から障害発生の有無を検出する。例えば、メッセージパターン検知部803は、障害の共起確率が閾値を超える場合、障害が発生したと判別することができる。
メッセージパターン学習部804は、メッセージログ記憶部811内のメッセージログに記憶されたメッセージのうち、メッセージ辞書802に記憶されているメッセージを、一定期間に発生したメッセージ毎に分類する。そして、メッセージパターン学習部804は、分類したメッセージを、ウィンドウ幅毎にまとめてメッセージパターンを生成する。メッセージパターン学習部804は、生成したメッセージパターンをメッセージパターンテーブル900に記憶する。
また、メッセージパターン学習部804は、障害事例記憶部810に記憶されている障害事例に基づいて、生成したメッセージパターンが障害発生ときに検出された回数をカウントして共起確率テーブル1000に記憶する。
構成情報記憶部805は、情報処理システム700に含まれる構成要素についての情報、すなわち、構成情報を記憶する記憶装置である。
構成情報付与部806は、構成情報記憶部805に記憶されている構成情報に基づいて、メッセージ辞書802に記憶されているメッセージの発信元の構成要素を特定し、特定した構成要素をメッセージと関連付けてメッセージテーブル1100に記憶する。
メッセージパターン更新部807は、変更があった構成要素についての情報を含む構成変更情報812を受信する。この場合、メッセージパターン更新部807は、メッセージパターンテーブル900に記憶されているメッセージパターンから、変更があった構成要素が発信元のメッセージを削除した新たなメッセージパターンテーブル900’(不図示)を生成する。また、メッセージパターン更新部807は、新たなメッセージパターンテーブル900’についての共起確率テーブル1000’(不図示)を生成する。
障害事例記憶部810は、過去に情報処理システム700に含まれる構成要素で発生した障害事例を記憶する記憶装置である。また、メッセージログ記憶部811は、過去に情報処理システム700に含まれる構成要素が出力したメッセージをログとして記憶する記憶装置である。
図9は、本実施例に係るメッセージパターンテーブル900の具体例を示す図である。なお、以下の説明および図面で使用するiおよびmは1以上の整数とする。
メッセージパターンテーブル900は、メッセージパターン毎に、メッセージパターンに含まれるメッセージの有無を示すビット列を記憶するテーブルである。このビット列は、メッセージIDの数のビット幅を有する。そして、ビットが「0」の場合、そのビットに対応するメッセージIDが示すメッセージがメッセージパターンに含まれないことを示している。また、ビットが「1」の場合、そのビットに対応するメッセージIDが示すメッセージがメッセージパターンに含まれることを示している。
例えば、パターン1では、メッセージID「1」に対応するビットに「1」が設定されている。これは、パターン1のメッセージパターンに、メッセージID「1」のメッセージが含まれることを示している。
同様に、パターン3では、メッセージID「1」および「2」に対応するビットに「1」が設定されているので、パターン3のメッセージパターンに、メッセージID「1」のメッセージとメッセージID「2」のメッセージが含まれることを示している。
図10は、本実施例に係る共起確率テーブル1000の具体例を示す図である。なお、以下の説明および図面で使用するjは1以上の整数とする。
共起確率テーブル1000は、メッセージパターン毎の検出総数と検出回数とを含むテーブルである。検出総数は、障害1〜障害jが発生したときにメッセージパターンが検出された回数の合計である。また、検出回数は、障害毎に、その障害が発生したときにメッセージパターンが検出された回数である。
例えば、図10に示す共起確率テーブル1000によると、パターンiのメッセージパターンの検出総数は、Eiである。また、例えば、障害jが発生したときにパターンiのメッセージパターンが検出された検出回数は、Cijである。したがって、パターンiのメッセージパターンと障害jとの共起確率は、Cij/Eiで求めることができる。
図11は、本実施例に係るメッセージテーブル1100の具体例を示す図である。
メッセージテーブル1100は、メッセージID毎に、登録メッセージと、CI(Configuration Item)と、を含むテーブルである。
メッセージIDは、情報処理システム700に含まれる構成要素が出力するメッセージのうち、メッセージパターンに含まれるメッセージとして分類対象となるメッセージである。したがって、情報処理システム605に含まれる構成要素が変更されたために、従来と異なるメッセージが出力される場合でも、メッセージテーブル1100に登録メッセージとして登録しない限り分類対象とはならない。この場合、メッセージパターン検知部803は、構成要素が削除または変更されたためにメッセージが出力されなくなった場合と同様の処理を行うことができる。
CIは、情報処理システム700に含まれる構成要素のうち、メッセージの発信元の構成要素を示す情報である。
図12は、本実施例に係る構成情報1200の具体例を示す図である。
構成情報1200は、構成要素IDと、構成要素種別と、構成要素名と、説明と、管理者と、を含む情報である。
構成要素IDは、情報処理システム700に含まれる構成要素を識別する情報である。構成要素種別は、構成要素IDが示す構成要素の種別を示す情報である。例えば、図12に示す「Network」は、ネットワーク通信に使用するソフトウェアまたはハードウェアを示している。構成要素名は、構成要素IDが示す構成要素の名称を示す情報である。説明は、構成要素IDが示す構成要素に関する情報、例えば、ソフトウェア名やバージョンなどを含む情報である。管理者は、構成要素IDが示す構成要素を管理する管理者を示す情報である。
構成情報1200としては、構成要素ID、構成要素種別、および構成要素名のうち、少なくともいずれか1つ以上を必要に応じて含めることができる。また、例えば、図11に示したCIには、構成情報1200に含まれる構成要素ID、構成要素種別、および構成要素名のいずれかを必要に応じて用いることができる。
図13は、本実施例に係る障害事例の具体例を示す図である。
障害事例記憶部810には、障害IDと、障害種別と、個別事例と、を含む1または2以上の障害事例が記憶されている。図13の例では、障害事例1301、1302、1303および1304が、障害事例記憶部810に記憶されている場合の例を示している。
障害IDは、障害事例を識別する識別情報である。障害種別は、障害事例の障害種別、例えば、HDD(Hard Disk Drive)不良、ネットワークカード異常などを示す情報である。個別事例は、1または2以上の、同一障害種別の事例を含む情報である。例えば、図13に示す障害事例1304の個別事例には、事例1、2、・・・およびkの事例が含まれている例が示されている。kは3以上の整数を示している。各事例は、障害が発生した発生時刻と、障害が復旧した終了時刻と、で定義することができる。
図14は、本実施例に係る構成情報付与部806の処理の概要を説明する図である。なお、図14に記載の(1)〜(3)は、以下に記載する(1)〜(3)に対応する。
(1)構成情報付与部806は、メッセージログ記憶部811に記憶されているメッセージログから、メッセージ1401を読み出す。そして、構成情報付与部806は、メッセージ1401に含まれる文字列から特定の文字列を抽出する。特定の文字列をメッセージ1401のどの位置から抽出するかは、例えば、メッセージログの種類に応じてあらかじめ決めておくことができる。
(2)構成情報付与部806は、構成情報記憶部805に記憶されている構成情報1200を参照し、抽出した特定の文字列と一致する構成要素名の構成要素の構成要素種別を取得する。例えば、図14の例では、メッセージIDが「1」のメッセージには、特定の文字列「example−mail00」が含まれる。一方、構成情報1200の構成要素名には、「example−mail00」が含まれている。この場合、構成情報付与部806は、構成情報1200から、構成要素名「example−mail00」の構成要素種別「App」を取得する。
(3)構成情報付与部806は、構成情報1200から取得した構成要素種別を、メッセージのCIとしてメッセージテーブル1100に記憶する。これにより、メッセージと、メッセージの発信元の構成要素を示すCIと、が関連付けられて記憶される。
図15および図16は、メッセージパターン更新部807の処理の概要を説明する図である。なお、図15に記載の(1)〜(3)は、以下に記載する(1)〜(3)に対応する。
(1)メッセージパターン更新部807は、構成変更情報812を受信すると、構成変更情報812に含まれる文字列から、変更された構成要素の構成要素名を抽出する。図15では、メッセージパターン更新部807が、Host XXXのOS−001に対して更新を実施した旨の構成変更情報812を受信した場合の例を示している。この場合、メッセージパターン更新部807は、構成変更情報812に含まれる文字列から、構成要素名を表わす文字列「OS−001」を抽出する。構成要素名を表わす文字列か否かは、構成情報記憶部805に記憶された構成情報1200を参照すれば、判別することができる。
なお、構成変更情報812には、変更された構成要素の構成要素名のみを含むことができる。この場合、構成情報付与部806は、単に、構成情報付与部806から構成要素名を取得すればよい。
(2)メッセージパターン更新部807は、構成情報記憶部805に記憶された構成情報1200を参照し、構成変更情報812から抽出した構成要素名と一致する構成要素名の構成要素の構成要素種別を取得する。例えば、図15の例では、構成要素名がOS−001の構成要素の構成要素種別は「OS」となっている。
メッセージパターン更新部807は、メッセージ辞書802に記憶されているメッセージテーブル1100を参照し、構成情報1200から抽出した構成要素種別とCIが一致するメッセージのメッセージIDを特定する。図15の例では、メッセージパターン更新部807は、構成要素種別「OS」と一致するメッセージID「p」を特定する。
(3)メッセージパターン更新部807は、メッセージパターン辞書801に記憶されているメッセージパターンテーブル900から、特定したメッセージIDに対応するビットを除いたメッセージパターンテーブル900’を作成する。図15の例では、メッセージパターン更新部807は、メッセージパターンテーブル900からメッセージID「p」に対応するビットを除いたメッセージパターンテーブル900’を作成することになる。
ここで、例えば、変更があった構成要素が出力するメッセージが、メッセージID「1」のメッセージであった場合を考える。
図16には、メッセージの数がm個の場合のメッセージパターンテーブル900を示している。この場合、ビットパターンは、mビットのビット幅を有するビット列で表わされる。したがって、メッセージパターンの総数は、(2のm乗−1)個となる。メッセージID「1」のメッセージを示すビットがメッセージパターンテーブル900から除かれると、ビットパターンは、(m−1)ビットのビット幅を有するビット列で表わされることになる。この場合、メッセージパターンの総数は、(2の(m−1)乗−1)個となる。
したがって、メッセージID「1」に対応するビットをメッセージパターンテーブル900から除くと、図16に示すパターン2のメッセージパターンとパターン3のメッセージパターンのように、重複したメッセージパターンが存在することになる。
そこで、メッセージパターン更新部807は、メッセージパターンテーブル900からメッセージID「1」に対応するビットを削除し、かつ、パターン2と、パターン2のメッセージと重複することになったパターン3とをパターン2’に統合する。この統合により、メッセージパターンテーブル900’が作成される。
また、メッセージパターン更新部807は、メッセージパターン辞書801に記録されている共起確率テーブル1000の、パターン2とパターン3とパターン2’に統合した共起確率テーブル1000’を作成する。
図16に示す共起確率テーブル1000の例では、パターン2とパターン3とを統合すると、統合後のパターン2’の検出総数は91(=2+89)となる。また、パターン2とパターン3とを統合すると、例えば、障害2が発生したときパターン2’の検出回数は80(=0+80)となる。したがって、パターン2とパターン3とを統合したパターン2’のメッセージパターンが検出されたときに、障害2が発生する障害共起確率は、80/(89+2)と求めることができる。
図17は、メッセージパターンテーブル900において、変更があった構成要素が出力するメッセージをメッセージパターンから除外した結果同一となるメッセージパターン、すなわち、統合すべきメッセージパターンを検出する方法の例を説明する図である。
例えば、図17に示すように、パターン1のメッセージパターンを表わすビット列とパターン2のメッセージパターンを表わすビット列とを考える。変更があった構成要素が出力するメッセージ、すなわち、メッセージパターンテーブル900から取り除くべきメッセージのメッセージIDがpであったとする。この場合、メッセージパターン更新部807は、メッセージID「p」に対応するビットだけが「0」、その他のビットが「1」となるビット列を作成する。この作成したビット列を「マスクパターン」という。
そして、メッセージパターン更新部807は、マスクパターンと、パターン1およびパターン2それぞれとの論理積を算出する。マスクパターンとパターン1との論理積と、マスクパターンとパターン2との論理積と、が一致する場合、メッセージパターン更新部807は、パターン1とパターン2とは同一であると判断する。この場合、メッセージパターン更新部807は、パターン1とパターン2とは統合すべきメッセージパターンである判別する。このように、マスクパターンの論理積の比較処理を、以下では「マスク演算」という。
図18は、本実施例に係るメッセージパターン学習部804による学習処理を示すフローチャートである。メッセージパターン学習部804による学習処理は、あらかじめ決められた時刻にまたはユーザからの指示で、他の処理、例えば、メッセージパターン更新処理やメッセージパターン検知処理、構成情報付与処理などと独立して実行することができる。
ステップS1801において、メッセージパターン学習部804は、メッセージログ記憶部811を参照する。そして、メッセージパターン学習部804は、メッセージログ記憶部811に記憶されているメッセージログから、一定期間に出力された1または2以上のメッセージを取得する。このときの「一定期間」を「分類期間」という。
ステップS1801においてメッセージログの終端を検出すると(ステップS1802 YES)、メッセージパターン学習部804は、学習処理を終了する(ステップS1807)。
また、ステップS1801においてメッセージログの終端を検出しない場合(ステップS1802 NO)、メッセージパターン学習部804は、処理をステップS1803に移行する。この場合、メッセージパターン学習部804は、メッセージ辞書802に記憶されているメッセージテーブル1100を参照し、ステップS1801で取得した各メッセージのメッセージIDを取得する(ステップS1803)。
メッセージテーブル1100に記憶されていないメッセージが、ステップS1801で取得したメッセージに含まれている場合、メッセージパターン学習部804は、その記憶されていないメッセージを、新たなメッセージIDとともにメッセージテーブル1100に記憶する。
ステップS1804において、メッセージパターン学習部804は、メッセージパターンを表わすビット列を作成し、作成したビット列をビットパターンとしてメッセージパターンテーブル900に記憶する。この作成したビット列が表わすメッセージパターンを、以下では「対象メッセージパターン」という。
例えば、対象メッセージパターンを表わすビット列は、図9に示したように、メッセージテーブル1100に記憶されているメッセージの数と同じ数のビット幅を有するビット列で表わすことができる。対象メッセージパターンを表わすビット列は、対象メッセージパターンに含まれるメッセージに対応するビットを「1」、その他のビットを「0」で表わすビット列である。メッセージパターン学習部804は、ステップS1803で特定したメッセージIDのメッセージに対応するビットを「1」、その他のビットを「0」と設定したビット列を作成し、作成したビット列をビットパターンとしてメッセージパターンテーブル900に記憶する。
ただし、ステップS1804で作成したメッセージパターンと同一のメッセージパターンが既にメッセージパターンテーブル900に記憶されていた場合、メッセージパターン学習部804は、対象メッセージパターンをメッセージパターンテーブル900に記憶しない。
ステップS1805において、メッセージパターン学習部804は、障害事例記憶部810に記憶されている障害事例を参照し、分類期間に発生していた事例を抽出する。例えば、メッセージパターン学習部804は、障害事例の個別事例に含まれる事例の発生時刻と終了時刻を参照し、発生時刻と終了時刻で表わされる発生期間の一部または全部が分類期間に含まれる事例を含む障害事例を、分類期間に発生していた障害として抽出する。
ステップS1806において、メッセージパターン学習部804は、共起確率テーブル1000を参照し、ステップS1805で抽出した障害毎に、対象メッセージパターンに対応する検出回数を加算し、検出総数も更新する。
例えば、対象メッセージパターンが「パターンi」であり、ステップS1805で抽出した障害が「障害j」であった場合、メッセージパターン学習部804は、共起確率テーブル1000を参照し、「障害j」が発生したときの「パターンi」の検出回数「Cij」に1を加算する。また、メッセージパターン学習部804は、「パターンi」の検出総数「Ei」に1を加算する。
以上の処理を終了すると、メッセージパターン学習部804は、ステップS1801に処理を移行する。そして、メッセージパターン学習部804は、メッセージログ記憶部811に記憶されているメッセージログから、次の分類期間に出力された1または2以上のメッセージを取得する。そして、メッセージパターン学習部804は、ステップS1802〜S1806の処理を実行する。
図19は、本実施例に係るメッセージパターン検知部803によるメッセージパターン検知処理を示すフローチャートである。メッセージパターン検知部803によるメッセージパターン検知処理は、他の処理、例えば、学習処理やメッセージパターン更新処理、構成情報付与処理などと独立して実行することができる。
ステップS1901において、メッセージパターン検知部803は、分類期間に、情報処理システム700に含まれる構成要素が出力するメッセージを取得する。
ステップS1902において、メッセージパターン検知部803は、メッセージ辞書802に記憶されているメッセージテーブル1100を参照し、ステップS1901で取得した各メッセージのメッセージIDを取得する。なお、メッセージパターン検知部803は、メッセージテーブル1100からメッセージIDを取得できたメッセージに対してだけ以降の処理を行う。したがって、メッセージパターン検知部803は、メッセージテーブル1100に記憶されていないメッセージに対しては、以降の処理を行わない。
ステップS1903において、メッセージパターン検知部803は、ステップS1902で取得したメッセージIDのメッセージに対応するビットを「1」、その他のビットを「0」と設定したビット列を作成する。そして、メッセージパターン検知部803は、メッセージパターンテーブル900を参照し、作成したビット列と一致するメッセージパターンを特定する。この特定したメッセージパターンを、以下では「対象メッセージパターン」という。
ステップS1904において、メッセージパターン検知部803は、共起確率テーブル1000を参照し、ステップS1903で特定したメッセージパターンを検出した際の各障害の共起確率を算出する。
例えば、ステップS1903で作成したメッセージパターンが、図10に示した共起確率テーブル1000中の「パターンi」に該当する場合を考える。この場合、メッセージパターン検知部803は、パターンiのメッセージパターンと、障害1、障害2、・・・、障害j、・・・、障害nそれぞれと、の共起確率を算出する。例えば、障害1の共起確率は8/Eiとなる。同様に、障害2の共起確率は0、・・・、障害jの共起確率はCij/Ei、・・・となる。
ステップS1904で算出した共起確率に、あらかじめ決められた閾値を超える共起確率が含まれる場合(ステップS1905 YES)、メッセージパターン検知部803は、障害が発生した旨の通知を、管理者の端末装置等に出力する(ステップS1906)。この場合、メッセージパターン検知部803は、共起確率が閾値を超えた障害の障害種別を管理者端末等に出力することもできる。そして、メッセージパターン検知部803は、処理をステップS1901に移行する。
また、ステップS1904で算出した共起確率に、あらかじめ決められた閾値を超える共起確率が含まれない場合(ステップS1905 NO)、メッセージパターン検知部803は、処理をステップS1901に移行する。そして、メッセージパターン検知部803は、次の分類期間に、情報処理システム700に含まれる構成要素が出力するメッセージを取得する。そして、メッセージパターン検知部803は、ステップS1902〜S1906の処理を実行する。
図20は、本実施例に係る構成情報付与部806による構成情報付与処理を示すフローチャートである。構成情報付与部806による構成情報付与処理は、あらかじめ決められた時刻にまたはユーザからの指示で、他の処理、例えば、学習処理やメッセージパターン更新処理、メッセージパターン検知処理などと独立して実行することができる。
ステップS2001において、構成情報付与部806は、メッセージログ記憶部811を参照する。そして、構成情報付与部806は、メッセージログ記憶部811に記憶されているメッセージログから、メッセージを1つ取得する。メッセージは、メッセージログの先頭から取得するものとする。取得したメッセージを、以下では「対象メッセージ」という。
ステップS2001においてメッセージログの終端を検出すると(ステップS2002 YES)、構成情報付与部806は、構成情報付与の処理を終了する(ステップS2006)。
また、ステップS2001においてメッセージログの終端を検出しない場合(ステップS2002 NO)、構成情報付与部806は、処理をステップS2003に移行する。この場合、構成情報付与部806は、対象メッセージから、対象メッセージの送信元である構成要素の構成要素名を抽出する(ステップS2003)。
なお、メッセージログの種類によって、送信元の構成要素名がメッセージ内のどの位置に挿入されているのか、あらかじめ知ることができる。したがって、構成情報付与部806は、メッセージログ記憶部811に記憶されているメッセージログの種類から、構成要素名が挿入されている対象メッセージ内の位置を特定し、特定した位置から構成要素名を抽出することができる。
ステップS2004において、構成情報付与部806は、構成情報記憶部805を参照する。そして、構成情報付与部806は、ステップS2003で抽出した構成要素名から、対象メッセージの送信元の構成要素種別を特定する。
ステップS2005において、構成情報記憶部805は、ステップS2004で特定した構成要素種別を、メッセージ辞書802に記憶されているメッセージテーブル1100における、対象メッセージのCIとして記憶する。
以上の処理が終了すると、構成情報付与部806は、処理をステップS2001に移行する。そして、構成情報付与部806は、メッセージログ記憶部811に記憶されているメッセージログから、次の対象メッセージを1つ取得し、ステップS2002〜S2005の処理を行う。
図21は、本実施例に係るメッセージパターン更新部807によるメッセージパターン更新処理を示すフローチャートである。メッセージパターン更新部807によるメッセージパターン更新処理は、他の処理、例えば、学習処理やメッセージパターン検知処理、構成情報付与処理などと独立して実行することができる。
構成変更情報812を受信すると、メッセージパターン更新部807は、メッセージパターン更新処理を開始する(ステップS2100)。
ステップS2101において、メッセージパターン更新部807は、構成変更情報812から、構成変更のあった構成要素名を抽出する。なお、構成変更情報812は、後述する入力装置2203を利用してユーザが管理装置701に入力してもよいし、情報処理システム700に含まれる構成要素から出力されたメッセージ等を利用してもよい。
ステップS2102において、メッセージパターン更新部807は、構成情報記憶部805を参照する。そして、メッセージパターン更新部807は、ステップS2101で抽出した構成要素名から、構成変更のあった構成要素種別を特定する。
ステップS2103において、メッセージパターン更新部807は、メッセージ辞書802に記憶されているメッセージテーブル100を参照する。そして、メッセージパターン更新部807は、メッセージテーブル1100に記憶されているCIのうち、ステップS2102で特定した構成要素種別と一致する構成要素種別のメッセージIDを抽出する。
ステップS2104において、メッセージパターン更新部807は、ステップS2103で抽出したメッセージIDに対応するビットを「0」、その他のビットを「1」とするマスクパターンを作成する。
ステップS2105において、メッセージパターン更新部807は、メッセージパターン辞書801に記憶されているメッセージパターンテーブル900を参照する。そして、メッセージパターン更新部807は、メッセージパターンテーブル900に含まれている全てのメッセージパターンについてマスク演算を実行する。マスク演算については、図17で説明した。
ステップS2106において、メッセージパターン更新部807は、マスク演算の結果同一であると判断できるメッセージパターンを特定する。
ステップS2107において、メッセージパターン更新部807は、ステップS2106で同一と特定したメッセージパターンを統合し、新たなメッセージパターンテーブル900’を作成する。
ステップS2108において、メッセージパターン更新部807は、メッセージパターン辞書801に記憶されている共起確率テーブル1000の複製を作成する。
ステップS2109において、メッセージパターン更新部807は、ステップS2106で同一と特定したメッセージパターンの検出総数を合算することにより、メッセージパターン統合後の検出総数を算出する。また、メッセージパターン更新部807は、ステップS2106で同一と特定したメッセージパターンの検出回数を障害毎に合算することにより、メッセージパターン統合後の障害毎に検出回数を算出する。
ステップS2110において、メッセージパターン更新部807は、ステップS2108で複製した共起確率テーブル1000’に、ステップS2109の算出結果を反映する。具体的には、以下の処理が行われる。
まず、ステップS2108で複製した共起確率テーブル1000’に含まれるメッセージパターンのうち、ステップS2106で特定したメッセージパターンを統合する。そして、メッセージパターン更新部807は、ステップS2109で算出した検出総数、障害毎の検出回数を、共起確率テーブル1000’に反映する。
以上の処理が終了すると、メッセージパターン更新部807は、メッセージパターン更新処理を終了する(ステップS2111)。
なお、本実施例では、メッセージパターン更新部807は、メッセージパターンテーブル900からメッセージパターンテーブル900’を作成しているが、これはメッセージパターンテーブル900をメッセージパターンテーブル900’の内容に更新することと同義である。
同様に、本実施例では、メッセージパターン更新部807は、共起確率テーブル1000から共起確率テーブル1000’を作成しているが、これは、共起確率テーブル1000を共起確率テーブル1000’の内容に更新することと同義である。
図22は、本実施例に係る管理装置701の具体的な構成例を示す図である。
図22に示す管理装置701は、CPU2201と、メモリ2202と、入力装置2203と、出力装置2204と、外部記憶装置2205と、媒体駆動装置2206と、ネットワーク接続装置2208と、を備える。そして、これらの装置がバスに接続されて相互にデータの受け渡しが行える構成となっている。
CPU2201は、周辺機器や各種ソフトウェアを実行する他に本実施例に係る障害検出を実現するプログラムを実行する演算装置である。
メモリ2202は、プログラムを実行するために使用される揮発性の記憶装置である。メモリ2202には、例えば、RAMなどを使用することができる。
入力装置2203は、外部からのデータ入力手段である。入力装置2203には、例えば、キーボードやマウスなどを使用することができる。
出力装置2204は、データ等を表示装置等に出力する装置である。なお、出力装置2204には、表示装置を含むこともできる。
外部記憶装置2205は、管理装置701が動作するために必要なプログラムやデータの他に本実施例に係る障害検出を実現するプログラムを記憶する不揮発性の記憶装置である。外部記憶装置2205には、例えば、磁気ディスク記憶装置などを使用することができる。
媒体駆動装置2206は、メモリ2202や外部記憶装置2205のデータを可搬記憶媒体2207、例えば、フロッピイディスクやMOディスク、CD−RやDVD−Rなどに出力し、または可搬記憶媒体2207からプログラムやデータ等を読み出す装置である。
ネットワーク接続装置2208は、ネットワーク702に接続する装置である。
なお、メモリ2202、外部記憶装置2205および可搬記憶媒体2207などの情報処理装置に読取り可能な記憶媒体は、非一時的(non−transitory)な媒体を使用することができる。
また、図22は、管理装置701の構成の一例を示すものであって、図22に示す構成に限定するものではない。例えば、図22に示す装置の一部を必要に応じて使用してもよいし、図22に示さない新たな装置を追加してもよい。
図23は、本実施例に係る管理装置701による効果の一例を説明する図である。
図23に示す共起確率テーブル2300は、共起確率テーブル1000の一部、例えば、図10に示した共起確率テーブル1000における各メッセージパターンと障害jとの共起確率、をタグ形式で表わしたものである。
図23に示す各<probability>タグは、メッセージパターンを示すevents属性と、そのメッセージパターンと障害jとの共起確率を示すscore属性と、を含んでいる。なお、event属性は、メッセージパターンに含まれるメッセージ、例えば、図10に示した共起確率テーブル1000で「1」に設定されたメッセージのメッセージIDだけを含む情報である。
例えば、図23に示すように、メッセージパターン更新部807は、構成変更情報812からHost XXXのOSに変更があったことを検出する。すると、メッセージパターン更新部807は、メッセージテーブル1100を参照し、変更のあった構成要素種別、図23では「OS」、と同一のCIのメッセージを特定する。
そして、メッセージパターン更新部807は、特定したメッセージのメッセージID、図23では四角で囲んだメッセージID「10」および「118」を、共起確率テーブル2300から削除する。そして、メッセージパターン更新部807は、各メッセージパターンの共起確率、図23では四角で囲んだscore属性の値を、再計算して更新する。
以上のように、今まで出力されていたメッセージID「10」および「118」のメッセージが、Host XXXのOSが変更されたことにより出力されなくなった場合、共起確率テーブル2300からも、メッセージID「10」および「118」が削除される。したがって、Host XXXのOSが変更されてメッセージID「10」および「118」のメッセージを含まなくなったメッセージパターンについての共起確率を、共起確率テーブル2300から得ることが可能となる。
その結果、Host XXXのOSなど構成要素に変更があった場合であっても、既に学習した結果、例えば、メッセージパターンテーブル900や共起確率テーブル1000を破棄することなく利用して、情報処理システム700の障害管理を行うことが可能となる。
そして、構成要素に変更があっても既に学習した結果を利用することができるので、クラウド環境のように構成要素が頻繁に変更される環境であっても、構成要素の変更のたびに新たに学習処理を行う必要がなくなる。そのため、クラウド環境のように構成要素が頻繁に変更される環境であっても、障害管理に要する負担が軽減される。
また、新たに学習処理を行っている間は、既に学習した結果、例えば、メッセージパターンテーブル900や共起確率テーブル1000を利用して、情報処理システム700の障害管理を行うことができる。そのため、常に障害管理を行うことができるので、障害管理の信頼性が向上する。
また、本実施例に係るメッセージパターン更新処理は、図21で説明したように、メッセージパターンテーブル900における重複するメッセージパターンの統合、共起確率テーブル1000における検出総数および検出回数の合算が主な処理となっている。したがって、あらためて学習処理を行うよりも迅速にメッセージパターンテーブル900や共起確率テーブル1000を更新することが可能となる。
また、図21で説明したメッセージパターン更新処理では、更新処理により使用しなくなったメッセージパターンテーブル900および共起確率テーブル1000を、外部記憶装置2205などに記憶しておくこともできる。この場合、必要なときに、メッセージパターンテーブル900’および共起確率テーブル1000’に変えて、メッセージパターンテーブル900および共起確率テーブル1000を使用することが可能となる。
以上の説明において、メッセージパターンテーブル900に示すパターン1〜パターン(2のm乗−1)などは、第1のメッセージパターンの一例として挙げられる。また、共起確率テーブル1000は、障害共起情報の一例として挙げられる。また、メッセージパターン辞書801は、記憶手段の一例として挙げられる。また、図6に示すパターン2’は、第2のメッセージパターンの一例として挙げられる。また、メッセージパターン検知部803は、判別手段の一例として挙げられる。また、メッセージパターン更新部807は、更新手段の一例として挙げられる。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の構成要素を含む情報処理システムを管理する管理装置において、
前記情報処理システムに障害が発生したときに、前記情報処理システムから一定期間に受信した1または2以上のメッセージを含むメッセージ群を示す第1のメッセージパターンが検出された検出回数を記憶した障害共起情報を記憶する記憶手段と、
前記情報処理システムから一定期間に受信した1または2以上のメッセージから前記第1のメッセージパターンを検出し、前記記憶手段に記憶された前記障害共起情報から前記検出回数を読み出し、該検出回数に基づいて前記障害と前記第1のメッセージパターンとの共起確率を算出し、該共起確率が閾値以上の場合に、前記障害が発生したと判別する判別手段と、
前記構成要素が変更されたことを検出すると、該変更された前記構成要素が出力するメッセージを前記第1のメッセージパターンから除いたメッセージ群を示す第2のメッセージパターンを作成し、前記障害共起情報に記憶された前記第1のメッセージパターンを前記第2のメッセージパターンに更新する更新手段と、
を備える管理装置。
(付記2)
前記判別手段は、
前記情報処理システムから一定期間に受信した1または2以上のメッセージを含むメッセージ群を示すメッセージパターン毎に該メッセージパターンに含まれる前記メッセージを記憶したメッセージパターン情報にしたがって、前記第1のメッセージパターンを検出する、
ことを特徴とする付記1に記載の管理装置。
(付記3)
前記更新手段は、
前記メッセージ毎に該メッセージを出力する前記構成要素を示す構成要素情報と関連付けて記憶したメッセージ情報にしたがって、前記構成要素が出力するメッセージを特定する、
ことを特徴とする付記1に記載の管理装置。
(付記4)
前記更新手段は、
前記構成要素が変更されたことを検出すると、該変更された前記構成要素が出力するメッセージを前記メッセージパターン情報から除外し、該除外した結果同一となったメッセージパターンを統合して新たなメッセージパターン情報に更新する、
ことを特徴とする付記2に記載の管理装置。
(付記5)
前記更新手段は、
前記変更された前記構成要素が出力するメッセージを前記メッセージパターン情報から除いた結果同一となった、前記障害共起情報に含まれるメッセージパターンを統合し、前記検出回数を合算して新たな障害共起情報に更新する、
ことを特徴とする付記2に記載の管理装置。
(付記6)
前記情報処理システムから前記メッセージを受信すると、該メッセージに含まれる前記構成要素情報を抽出し、該構成要素情報を前記メッセージと関連付けて前記メッセージ情報に記憶する構成情報付与手段、
をさらに備える付記3に記載の管理装置。
(付記7)
前記情報処理システムから受信したメッセージを記憶したメッセージログから、前記一定期間に受信した1または2以上のメッセージを含むメッセージ群を読み出して該読み出したメッセージ群を示す第3のメッセージパターンを作成し、前記一定期間に前記情報処理システムで障害が発生したときに前記第3のメッセージパターンが検出された検出回数を前記障害共起情報に記憶する学習手段、
をさらに備える付記1に記載の管理装置。
(付記8)
複数の構成要素を含む情報処理システムを管理する管理方法において、
前記情報処理システムから一定期間に受信した1または2以上のメッセージから第1のメッセージパターンを検出し、
前記情報処理システムに障害が発生したときに前記第1のメッセージパターンが検出された検出回数を記憶した障害共起情報を記憶する記憶手段に記憶された前記障害共起情報から前記検出回数を読み出して、該検出回数に基づいて前記障害と前記第1のメッセージパターンとの共起確率を算出し、
前記共起確率が閾値以上の場合に、前記障害が発生したと判別し、
前記構成要素が変更されたことを検出すると、該変更された前記構成要素が出力するメッセージを前記第1のメッセージパターンから除いたメッセージ群を示す第2のメッセージパターンを作成し、前記障害共起情報に記憶された前記第1のメッセージパターンを前記第2のメッセージパターンに更新する、
管理方法。
(付記9)
複数の構成要素を含む情報処理システムを管理するプログラムにおいて、
前記情報処理システムから一定期間に受信した1または2以上のメッセージから第1のメッセージパターンを検出し、
前記情報処理システムに障害が発生したときに前記第1のメッセージパターンが検出された検出回数を記憶した障害共起情報を記憶する記憶手段に記憶された前記障害共起情報から前記検出回数を読み出して、該検出回数に基づいて前記障害と前記第1のメッセージパターンとの共起確率を算出し、
前記共起確率が閾値以上の場合に、前記障害が発生したと判別し、
前記構成要素が変更されたことを検出すると、該変更された前記構成要素が出力するメッセージを前記第1のメッセージパターンから除いたメッセージ群を示す第2のメッセージパターンを作成し、前記障害共起情報に記憶された前記第1のメッセージパターンを前記第2のメッセージパターンに更新する、
処理をコンピュータに実行させるためのプログラム。
801 メッセージパターン辞書
802 メッセージ辞書
803 メッセージパターン検知部
804 メッセージパターン学習部
805 構成情報記憶部
806 構成情報付与部
807 メッセージパターン更新部
810 障害事例記憶部
811 メッセージログ記憶部
900 メッセージパターンテーブル
1000 共起確率テーブル
1100 メッセージテーブル

Claims (5)

  1. 複数の構成要素を含む情報処理システムを管理する管理装置において、
    前記情報処理システムに障害が発生したときに、前記情報処理システムから一定期間に受信した1または2以上のメッセージを含むメッセージ群を示す第1のメッセージパターンが検出された検出回数を記憶した障害共起情報を記憶する記憶手段と、
    前記情報処理システムから一定期間に受信した1または2以上のメッセージから前記第1のメッセージパターンを検出し、前記記憶手段に記憶された前記障害共起情報から前記検出回数を読み出し、該検出回数に基づいて前記障害と前記第1のメッセージパターンとの共起確率を算出し、該共起確率が閾値以上の場合に、前記障害が発生したと判別する判別手段と、
    前記構成要素が変更されたことを検出すると、該変更された前記構成要素が出力するメッセージを前記第1のメッセージパターンから除いたメッセージ群を示す第2のメッセージパターンを作成し、前記障害共起情報に記憶された前記第1のメッセージパターンを前記第2のメッセージパターンに更新する更新手段と、
    を備える管理装置。
  2. 前記更新手段は、
    前記メッセージ毎に該メッセージを出力する前記構成要素を示す構成要素情報と関連付けて記憶したメッセージ情報にしたがって、前記構成要素が出力するメッセージを特定する、
    ことを特徴とする請求項1に記載の管理装置。
  3. 前記情報処理システムから前記メッセージを受信すると、該メッセージに含まれる前記構成要素情報を抽出し、該構成要素情報を前記メッセージと関連付けて前記メッセージ情報に記憶する構成情報付与手段、
    をさらに備える請求項2に記載の管理装置。
  4. 複数の構成要素を含む情報処理システムを管理する管理方法において、
    前記情報処理システムから一定期間に受信した1または2以上のメッセージから第1のメッセージパターンを検出し、
    前記情報処理システムに障害が発生したときに前記第1のメッセージパターンが検出された検出回数を記憶した障害共起情報を記憶する記憶手段に記憶された前記障害共起情報から前記検出回数を読み出して、該検出回数に基づいて前記障害と前記第1のメッセージパターンとの共起確率を算出し、
    前記共起確率が閾値以上の場合に、前記障害が発生したと判別し、
    前記構成要素が変更されたことを検出すると、該変更された前記構成要素が出力するメッセージを前記第1のメッセージパターンから除いたメッセージ群を示す第2のメッセージパターンを作成し、前記障害共起情報に記憶された前記第1のメッセージパターンを前記第2のメッセージパターンに更新する、
    管理方法。
  5. 複数の構成要素を含む情報処理システムを管理するプログラムにおいて、
    前記情報処理システムから一定期間に受信した1または2以上のメッセージから第1のメッセージパターンを検出し、
    前記情報処理システムに障害が発生したときに前記第1のメッセージパターンが検出された検出回数を記憶した障害共起情報を記憶する記憶手段に記憶された前記障害共起情報から前記検出回数を読み出して、該検出回数に基づいて前記障害と前記第1のメッセージパターンとの共起確率を算出し、
    前記共起確率が閾値以上の場合に、前記障害が発生したと判別し、
    前記構成要素が変更されたことを検出すると、該変更された前記構成要素が出力するメッセージを前記第1のメッセージパターンから除いたメッセージ群を示す第2のメッセージパターンを作成し、前記障害共起情報に記憶された前記第1のメッセージパターンを前記第2のメッセージパターンに更新する、
    処理をコンピュータに実行させるためのプログラム。
JP2010275215A 2010-12-10 2010-12-10 管理装置、管理方法および管理用プログラム Expired - Fee Related JP5541130B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010275215A JP5541130B2 (ja) 2010-12-10 2010-12-10 管理装置、管理方法および管理用プログラム
US13/292,493 US8751874B2 (en) 2010-12-10 2011-11-09 Managing apparatus, managing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010275215A JP5541130B2 (ja) 2010-12-10 2010-12-10 管理装置、管理方法および管理用プログラム

Publications (2)

Publication Number Publication Date
JP2012123694A JP2012123694A (ja) 2012-06-28
JP5541130B2 true JP5541130B2 (ja) 2014-07-09

Family

ID=46200684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010275215A Expired - Fee Related JP5541130B2 (ja) 2010-12-10 2010-12-10 管理装置、管理方法および管理用プログラム

Country Status (2)

Country Link
US (1) US8751874B2 (ja)
JP (1) JP5541130B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9172766B2 (en) 2011-01-10 2015-10-27 Fiberlink Communications Corporation System and method for extending cloud services into the customer premise
US8930756B2 (en) * 2011-12-22 2015-01-06 International Business Machines Corporation Grouping related errors in a distributed computing environment
WO2014024283A1 (ja) * 2012-08-08 2014-02-13 富士通株式会社 障害検出装置、障害検出プログラムおよび障害検出方法
JP6160064B2 (ja) * 2012-11-19 2017-07-12 富士通株式会社 適用判定プログラム、障害検出装置および適用判定方法
JP2014106851A (ja) 2012-11-29 2014-06-09 Fujitsu Ltd 情報処理装置、情報処理方法及びプログラム
JP6079243B2 (ja) * 2013-01-10 2017-02-15 日本電気株式会社 障害分析支援装置、障害分析支援方法、及びプログラム
JP5933463B2 (ja) * 2013-02-04 2016-06-08 日本電信電話株式会社 ログ生起異常検知装置及び方法
JP6126891B2 (ja) * 2013-03-29 2017-05-10 富士通株式会社 検出方法、検出プログラム、および検出装置
US9612898B2 (en) 2013-06-03 2017-04-04 Nec Corporation Fault analysis apparatus, fault analysis method, and recording medium
WO2015045262A1 (ja) * 2013-09-24 2015-04-02 日本電気株式会社 ログ分析システム、障害原因分析システム、ログ分析方法、および、プログラムを記憶する記録媒体
JP6413537B2 (ja) * 2013-10-23 2018-10-31 富士通株式会社 障害予兆通報装置および予兆通報方法、予兆通報プログラム
JP6152788B2 (ja) * 2013-12-02 2017-06-28 富士通株式会社 障害予兆検知方法、情報処理装置およびプログラム
JP6503679B2 (ja) * 2014-10-06 2019-04-24 富士通株式会社 フィルタルール作成装置、フィルタルール作成方法、およびプログラム
JP2017111601A (ja) * 2015-12-16 2017-06-22 富士通株式会社 調査対象特定プログラム、および調査対象特定方法
JP6878984B2 (ja) * 2017-03-23 2021-06-02 富士通株式会社 監視プログラム、監視方法および監視装置
GB201706543D0 (en) * 2017-04-25 2017-06-07 Anitech Solutions Ltd Geo-location fences-based transient messages
CN109587328B (zh) * 2018-11-21 2021-07-20 Oppo广东移动通信有限公司 消息管理方法和装置、存储介质及电子设备
JP2020149250A (ja) * 2019-03-12 2020-09-17 富士通株式会社 出力プログラム、出力方法および情報処理装置
US11269706B2 (en) * 2020-07-15 2022-03-08 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for alarm correlation and aggregation in IT monitoring
CN112099476A (zh) * 2020-09-27 2020-12-18 珠海格力电器股份有限公司 故障预警方法、装置及系统、存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699403A (en) 1995-04-12 1997-12-16 Lucent Technologies Inc. Network vulnerability management apparatus and method
US5699502A (en) 1995-09-29 1997-12-16 International Business Machines Corporation System and method for managing computer system faults
SE9904008D0 (sv) * 1999-11-03 1999-11-03 Abb Ab Förfarande vid maskin
JP3450264B2 (ja) 2000-04-05 2003-09-22 Necソフト株式会社 障害検出システム
US7434109B1 (en) * 2002-09-26 2008-10-07 Computer Associates Think, Inc. Network fault manager for maintaining alarm conditions
JP3965383B2 (ja) 2003-12-17 2007-08-29 松下電器産業株式会社 携帯端末装置
JP2005184500A (ja) 2003-12-19 2005-07-07 Nec Corp 障害監視システム、障害監視方法、監視装置及びそのプログラム
US7225368B2 (en) * 2004-04-15 2007-05-29 International Business Machines Corporation Efficient real-time analysis method of error logs for autonomous systems
JP4944391B2 (ja) * 2005-05-11 2012-05-30 富士通株式会社 メッセージ異常自動判別装置、方法、及びプログラム
JP4862446B2 (ja) 2006-03-22 2012-01-25 日本電気株式会社 障害原因推定システム、方法、及び、プログラム
JP4859558B2 (ja) 2006-06-30 2012-01-25 株式会社日立製作所 コンピュータシステムの制御方法及びコンピュータシステム
US7827447B2 (en) * 2007-01-05 2010-11-02 International Business Machines Corporation Sliding window mechanism for data capture and failure analysis
JP4819014B2 (ja) 2007-09-20 2011-11-16 株式会社日立製作所 ログ解析方法、ログ格納装置及びプログラム
JP4406850B2 (ja) 2007-12-25 2010-02-03 村田機械株式会社 中継サーバ及び中継通信システム
JP2009217381A (ja) 2008-03-07 2009-09-24 Nec Corp 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP2010049551A (ja) 2008-08-22 2010-03-04 Toshiba Corp 障害監視装置および障害監視方法
JP5428934B2 (ja) 2010-02-22 2014-02-26 富士通株式会社 障害パターン生成プログラムおよび障害パターン生成装置

Also Published As

Publication number Publication date
JP2012123694A (ja) 2012-06-28
US8751874B2 (en) 2014-06-10
US20120151282A1 (en) 2012-06-14

Similar Documents

Publication Publication Date Title
JP5541130B2 (ja) 管理装置、管理方法および管理用プログラム
US9122694B1 (en) Systems and methods for highly scalable system log analysis, deduplication and management
US9652318B2 (en) System and method for automatically managing fault events of data center
JP6643211B2 (ja) 異常検知システム及び異常検知方法
JP6048038B2 (ja) 情報処理装置,プログラム,情報処理方法
JP6160064B2 (ja) 適用判定プログラム、障害検出装置および適用判定方法
US10592325B2 (en) Enabling symptom verification
JP6919569B2 (ja) ログ分析システム、方法、及び記録媒体
AU2017274576B2 (en) Classification of log data
CN105743730B (zh) 为移动终端的网页服务提供实时监控的方法及其系统
US8650444B2 (en) Operation management device and operation management method
US10776487B2 (en) Systems and methods for detecting obfuscated malware in obfuscated just-in-time (JIT) compiled code
US11455389B2 (en) Evaluation method, information processing apparatus, and storage medium
JP6413537B2 (ja) 障害予兆通報装置および予兆通報方法、予兆通報プログラム
Landauer et al. Time series analysis: unsupervised anomaly detection beyond outlier detection
US10664335B2 (en) System and method for maintaining the health of a machine
CN111183620B (zh) 入侵调查
CN110457953B (zh) 一种文件完整性的检测方法和装置
US20120054324A1 (en) Device, method, and storage medium for detecting multiplexed relation of applications
JP2014153736A (ja) 障害予兆検出方法、プログラムおよび装置
JP6988827B2 (ja) 異常識別システム、方法及びプログラム
JP6330280B2 (ja) アラート出力装置、アラート出力方法、及び、アラート出力プログラム
JP7263206B2 (ja) 情報処理システム、情報処理システムの制御方法、情報処理装置、及びプログラム
KR102311997B1 (ko) 인공지능 행위분석 기반의 edr 장치 및 방법
US11514163B2 (en) Terminal device, method for control of report of operation information performed by terminal device, and recording medium storing therein program for control of report of operation information performed by terminal device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140421

R150 Certificate of patent or registration of utility model

Ref document number: 5541130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees