JP5428934B2 - 障害パターン生成プログラムおよび障害パターン生成装置 - Google Patents

障害パターン生成プログラムおよび障害パターン生成装置 Download PDF

Info

Publication number
JP5428934B2
JP5428934B2 JP2010036512A JP2010036512A JP5428934B2 JP 5428934 B2 JP5428934 B2 JP 5428934B2 JP 2010036512 A JP2010036512 A JP 2010036512A JP 2010036512 A JP2010036512 A JP 2010036512A JP 5428934 B2 JP5428934 B2 JP 5428934B2
Authority
JP
Japan
Prior art keywords
message
failure
learning
unit
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010036512A
Other languages
English (en)
Other versions
JP2011170802A (ja
Inventor
幸洋 渡辺
正純 松原
敦二 関口
裕二 和田
安英 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010036512A priority Critical patent/JP5428934B2/ja
Priority to US13/029,931 priority patent/US8751417B2/en
Priority to GB1103038.4A priority patent/GB2478066B/en
Publication of JP2011170802A publication Critical patent/JP2011170802A/ja
Application granted granted Critical
Publication of JP5428934B2 publication Critical patent/JP5428934B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment

Description

本発明は、障害パターン生成プログラムおよび障害パターン生成装置に関する。
近年、コンピュータの高性能化やネットワークの高速化に伴って、IT(Information Technology)システムの高性能化が進み、個人情報や社外秘情報など機密性の高い重要な情報を処理対象とするITシステムが広く利用されている。このようなITシステムで発生した異常処理やITシステムへの不正アクセスなどのいわゆる障害は、迅速な対応が要求される重大な障害であることが多い。
このため、ITシステムで発生した障害を迅速かつ正確に検出する様々な障害監視技術が開示されている。例えば、過去のトラブル発生時のログからトラブルを特徴づける障害メッセージパターンを抽出して保持しておく。そして、ITシステム運用時に、保持する障害メッセージパターンと一致するメッセージパターンをログから検知した場合に、障害発生を検出する障害監視技術が開示されている。
この障害検出技術を用いた場合、抽出した障害メッセージパターンにノイズが混じってしまい、障害検知精度が低下する場合がある。例えば、この障害検出技術では、障害メッセージ、システムログインメッセージ、障害メッセージと連続してメッセージが発生した場合、障害メッセージ間に発生した正常なメッセージも含めたパターンを障害メッセージパターンとして検出する。したがって、この障害検出技術では、不要なメッセージを含めた障害メッセージパターンを生成することがあり、障害検知精度が低下する。
そして、このような障害検知精度の低下を防止する手法として、式(1)に示すベイズ推定などの繰り返し学習によって、障害メッセージパターンを学習する技術が開示されている。具体的には、あるイベントaが出力されたときに、トラブルAが発生している状態である確率を算出する。この結果、障害検知装置は、ベイズ推定によって、システム運用中に発生したメッセージがトラブルである確率を検出することができる。
Figure 0005428934
例えば、図19に示すように、イベントaが出力されたとき、トラブルAである確率Pij(H1|Y)とトラブルAでない確率Pij(H1|N)があったとする。次に、イベントaが出力されたとき、それまでの事前確率であるPij(H1)を用いて、Pij(H1|Y)およびPij(H1|N)を更新する。このようにすることで、イベントaが出力されるたびに、その都度、トラブルAである確率とトラブルAでない確率の両方を更新することができる。この結果、トラブルのときに必ず発生するメッセージ以外は、障害メッセージパターンから除外することができ、障害メッセージパターンによる障害検知精度を向上させることができる。
特開2006−318071号公報
しかしながら、上述した従来の技術では、障害検知精度の高い障害メッセージパターンを生成するのに多くの時間が必要であるという課題があった。具体的には、ベイズ推定による障害メッセージパターンの確率算出手法は、全く同じトラブルが発生したときのメッセージによって確率を学習するため、全く同じトラブルが多く発生し、その時のメッセージ出力を収集する必要がある。したがって、例えば1ヶ月に1度しか発生しない発生頻度の少ないトラブルの障害メッセージパターンは、1ヶ月に1度しかメッセージを収集することができず、確率の更新も1ヶ月に1度しかできない。そのため、全ての障害メッセージパターンの確率の精度を高くするには、多くの時間が必要である。
開示の技術は、上記に鑑みてなされたものであって、障害検知精度の高い障害メッセージパターンを短時間で効率的に生成することが可能である障害パターン生成プログラムおよび障害パターン生成装置を提供することを目的とする。
本願の開示する障害パターン生成プログラムは、一つの態様において、複数の構成要素を有する情報システムが所定期間内に出力した複数のログメッセージから、当該ログメッセージ各々を発信した構成要素を抽出する構成要素抽出手順を有する。そして、前記構成要素抽出手順によって抽出された構成要素間の関連度を算出する関連度算出手順を有する。そして、前記複数のログメッセージが出力された回数のうち前記情報システムに障害が発生していた回数の割合を、前記関連度算出手順によって算出された関連度に応じた回数学習する学習実行手順を有する。さらに、前記学習実行手順によって学習された結果に基づいて、前記障害が発生した際に出力される障害パターンメッセージを生成するパターン生成手順をコンピュータに実行させる。
本願の開示する障害パターン生成プログラムおよび障害パターン生成装置の一つの態様によれば、障害検知精度の高い障害メッセージパターンを短時間で生成することが可能であるという効果を奏する。
図1は、本願が開示する障害パターン生成装置を含むシステムの全体構成を示す図である。 図2は、実施例2に係る障害検出装置の構成を示すブロック図である。 図3は、CMDBに記憶される情報の例を示す図である。 図4は、メッセージDBに記憶される情報の例を示す図である。 図5は、障害情報DBに記憶される情報の例を示す図である。 図6は、重み係数決定DBに記憶される情報の例を示す図である。 図7は、学習回数決定DBに記憶される情報の例を示す図である。 図8は、障害パターンDBに記憶される情報の例を示す図である。 図9は、構成要素抽出対象のメッセージ群を例示した図である。 図10は、構成要素間のホップ数の算出例を示す図である。 図11は、構成アイテムごとに特定した重み係数の例を示す図である。 図12は、実施例2に係る障害検出装置における重み係数決定処理の流れを示すフローチャートである。 図13は、重み係数決定処理における構成要素間のホップ数による重み決定処理の流れを示すフローチャートである。 図14は、構成要素間のホップ数による重み決定処理における経路両端の構成要素の重み計算処理の流れを示すフローチャートである。 図15は、実施例2に係る障害検出装置における重みつき学習処理の流れを示すフローチャートである。 図16は、重みつき学習処理におけるベイズ推定による学習実施処理の流れを示すフローチャートである。 図17は、実施例2に係る障害検出装置における障害検出処理の流れを示すフローチャートである。 図18は、障害パターン生成および障害検出プログラムを実行するコンピュータシステムを示す図である。 図19は、ベイズ推定による学習例を説明する図である。
以下に、本願の開示する障害パターン生成プログラムおよび障害パターン生成装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1は、本願が開示する障害パターン生成装置を含むシステムの全体構成を示す図である。図1に示すように、この障害パターン生成装置1は、クラウドコンピューティングを提供するデータセンターで管理される構成要素で発生する障害を検出する障害メッセージパターンを生成する装置である。
データセンターのサーバXでは、webサービスを提供する構成要素としてweb1〜web3を有し、サーバYでは、アプリケーションを提供する構成要素としてap1〜ap3を有する。また、サーバZでは、データベースを提供する構成要素としてdb1〜db3を有する。そして、web1、ap1、db1を有する情報システムをテナント1として提供し、同様に、web2、ap2、db2を有する情報システムをテナント2として提供し、web3、ap3、db3を有する情報システムをテナント3として提供する。
また、各サーバの構成要素各々は、サーバ内の他の構成要素や外部の構成要素との間で、予め定義された関係性(Relationship)を有しており、CMDB(Configuration Management Database)で統合管理される。すなわち、CMDBは、異なる情報システムで利用される複数の異なる構成要素を関連付けて管理するデータベースである。
上述した状態において、障害パターン生成装置1は、CMDBで管理される構成要素の関係性を用いて障害メッセージパターンを生成する装置である。特に、障害パターン生成装置1は、構成要素抽出部1aと、関連度算出部1bと、学習実行部1cと、パターン生成部1dとを有する。
かかる構成要素抽出部1aは、複数の構成要素を有する情報システムが所定期間内に出力した複数のログメッセージから、当該ログメッセージ各々を発信した構成要素を抽出する。例えば、構成要素抽出部1aは、サーバXやサーバYなどが出力したログメッセージから、当該ログメッセージを発信した構成要素として、web1、ap2、db1などと抽出する。
続いて、関連度算出部1bは、構成要素抽出部1aによって抽出された構成要素間の関連度を算出する。例えば、関連度算出部1bは、構成要素抽出部1aによって抽出された「web1、ap2、db1」に対して、web1とap2の関連度、web1とdb1の関連度、ap2とdb1の関連度をCMDB内で予め定義される関係性を用いて算出する。
学習実行部1cは、複数のログメッセージが出力された回数のうち情報システムに障害が発生していた回数の割合を、関連度算出部1bによって算出された関連度に応じた回数学習する。例えば、学習実行部1cは、関連度算出部1bによって算出された関連度が大きい構成要素間では多くの回数学習し、関連度が小さい構成要素間では少ない回数学習する。
パターン生成部1dは、学習実行部1cによって学習された結果に基づいて、障害が発生した際に出力される障害パターンメッセージを生成する。例えば、パターン生成部1dは、障害Xが発生したときのメッセージIDの組み合わせと、そのメッセージの組み合わせが障害である割合とを対応付けたパターンを生成する。一例として、パターン生成部1dは、「ID:確立」として、「0002、0014、0024:1.0」や「0002、0046:0.125」などが示される障害パターンメッセージを生成する。
このように、実施例1によれば、構成要素の関連による重みつきメッセージパターンを学習することができる。つまり、近い構成要素同士が出力しているメッセージは重みを大きく、近隣にメッセージを出している構成要素がない構成要素のメッセージは重みを小さくして、メッセージパターンを学習する。この結果、全体メッセージ数が少ない場合でも、重要なメッセージの学習回数を多くし、重要でないメッセージの学習回数を少なくできるので、障害検知精度の高い障害メッセージパターンを短時間で生成することが可能である。
ところで、実施例1で説明した障害パターン生成装置は、図1以外に示した制御部以外の他の様々な制御部を有していてもよく、生成した障害メッセージパターンを用いて障害検出を行うこともできる。そこで、実施例2では、本願が開示する障害パターン生成装置による手法で、障害メッセージパターンを生成し、生成した障害メッセージパターンを用いて障害検出を行う障害検出装置について説明する。
[障害検出装置の構成]
まず、図2を用いて障害検出装置の構成を説明する。図2は、実施例2に係る障害検出装置の構成を示すブロック図である。図2に示すように、障害検出装置10は、通信制御I/F部11と入力部12と表示部13と、各種データベース14〜19と、制御部20とを有する。そして、各種データベースであるCMDB14、メッセージDB15、障害情報DB16、重み係数決定DB17、学習回数決定DB18、障害パターンDB19は、半導体メモリ素子、または、ハードディスクなどの記憶装置である。
通信制御I/F部11は、少なくとも1つの通信ポートを有するインタフェースであり、他の装置と間でやり取りされる情報を制御する。例えば、通信制御I/F部11は、各サーバから出力されたメッセージを受信し、また、検出した障害情報を管理サーバに送信する。
入力部12は、例えば、キーボードやマウス、マイクなどであり、障害メッセージパターンの学習開始指示や終了指示の入力を受付け、後述する制御部20等に入力する。なお、後述する表示部13も、マウスと協働してポインティングディバイス機能を実現する。表示部13は、例えば、モニタ、ディスプレイ、タッチパネルやスピーカなどであり、後述する制御部20で生成された障害メッセージパターンや検出された障害情報などを表示出力する。
CMDB14は、複数のサーバが有する構成要素を仮想的に統合して管理する場合に、予め定めた関係性に従って、構成要素各々を関連付けて管理する。具体的には、CMDB14は、クラウドコンピューティングを提供するデータセンターの各サーバが有し、他の構成要素と連動することで情報サービスを提供する構成要素を関連付けて保持する。例えば、CMDB14は、図3に示すように、サーバXで実行される構成要素「web1〜web3」と、サーバYで実行される構成要素「ap1〜ap3」と、サーバZで実行される構成要素「db1〜db3」と、構成要素を連動させたサービスを示す「tenant1〜3」を関連付けて記憶する。なお、図3は、CMDBに記憶される情報の例を示す図である。
メッセージDB15は、複数の構成要素を有する情報システムを提供する装置または構成要素が所定期間内に出力したログメッセージを記憶する。例えば、メッセージDB15は、図4に示すように、「時刻、メッセージ種別ID、メッセージ発信CI」として「2009-06-08-T10:20:00-09:00、0012、web1」などと記憶する。
ここで記憶される「時刻」は、ログメッセージが発信した時刻を示しており、「メッセージ種別ID」は、発信されたログメッセージを一意に識別する識別子であり、「メッセージ発信CI」は、ログメッセージを発信した構成要素を示している。また、ここで記憶される情報は、後述するメッセージ分類部21によって自動的に格納される。なお、図4は、メッセージDBに記憶される情報の例を示す図である。
障害情報DB16は、情報システムを提供する装置で発生した障害、又は、CMDB14内で管理される構成要素で発生した障害に関する情報を記憶する。例えば、障害情報DB16は、図5に示すように、XML(Extensible Markup Language)形式で生成された障害情報を記憶し、この障害情報は、メッセージ分類部21によって自動的に生成することもでき、管理者等によって手動で作成することもできる。
一例を説明すると、図5に示した障害情報は、「障害(Trouble)」として、「Trouble=5」の障害である「Web Down」が「2009/01/05の18:27:00」から「2009/01/05の19:05:00」の間で発生したことを示している。同様に、「Trouble=21」の障害である「HDD Fault」が「2009/01/07の18:22:00」から「2009/01/07の19:20:00」の間で発生したことを示している。また、「Trouble=39」の障害である「DB Slow Down」が「2009/01/14の16:13:00」から「2009/01/14の16:14:00」の間で発生したことを示している。また、「Trouble=49」の障害である「Web Slow Down」が「2009/01/20の4:14:00」から「2009/01/20の19:05:00」の間で発生したことを示している。なお、図5は、障害情報DBに記憶される情報の例を示す図である。
重み係数決定DB17は、後述する関連度算出部23によって算出された構成要素間の関連度から重み係数を決定する情報を記憶する。例えば、重み係数決定DB17は、図6に示すように、「ホップ数h、重み係数」として「h=1、1.0」、「h=2、0.8」、「h=3、0.6」、「h=4、0.2」、「h≧5、0.0」などと記憶する。ここで記憶される重み係数は、ホップ数を式「重み係数=1.0−0.2×(ホップ数−1)」に代入して得られる値であり、算出式はこれに限定されるものではなく任意の関数式を用いることができる。
また、ここで記憶される「ホップ数h」は、構成要素間の関連度を示しており、ダイクストラ法によって算出された値である。「重み係数」は、構成要素に適用する重み係数を示している。一例として、関連度が「3」と算出された構成要素の重み係数は、「0.6」となる。なお、図6は、重み係数決定DBに記憶される情報の例を示す図である。
学習回数決定DB18は、情報システムに障害が発生した時に出力されるログメッセージの組み合わせが、障害が発生した時に出力される確率を算出する学習回数を決定する情報を記憶する。例えば、学習回数決定DB18は、図7に示すように、「重み係数w、繰り返し回数」として「1.0≦w、5」、「0.8≦w<1.0、4」、「0.6≦w<0.8、3」、「0.4≦w<0.6、2」、「0.2≦w<0.4、1」、「w<0.2、0」などと記憶する。
ここで記憶される「重み係数w」は、重み係数決定DB17を用いて決定された重み係数である。また、「繰り返し回数」は、情報システムに障害が発生した時に出力されるログメッセージの組み合わせが、障害が発生した時に出力される確率を算出する学習回数である。一例として、重み係数が「0.7」と決定された場合は、学習回数は「3」となる。なお、図7は、学習回数決定DBに記憶される情報の例を示す図である。
障害パターンDB19は、ログメッセージの組み合わせごとに、障害が発生した際に出力されるメッセージのパターンであって、当該組み合わせが障害である確率を示した障害パターンメッセージを記憶する。例えば、障害パターンDB19は、図8に示すように、XML形式で、障害パターンメッセージとそのパターンが障害である確率とを記憶する。
図8に示した情報は、一例として、「障害パターンメッセージ(Pattern)」として、「メッセージ種別ID」が「0005、0148、0150」であるメッセージの組み合わせが出力されたときに、「Trouble=5」の障害である確率が「score=0.018」であることを示している。また、障害パターンメッセージ(Pattern)」として、「メッセージ種別ID」が「0002、0095、0098、0110」であるメッセージの組み合わせが出力されたときに、「Trouble=5」の障害である確率が「score=0.125」であることを示している。また、障害パターンメッセージ(Pattern)」として、「メッセージ種別ID」が「0006、0095、0110、0148」であるメッセージの組み合わせが出力されたときに、「Trouble=5」の障害である確率が「score=1.0」であることを示している。
すなわち、「メッセージ種別ID」が「0006、0095、0110、0148」であるメッセージの組み合わせが出力されたときは、100%の確率で障害Bが発生していることがわかる。なお、図8は、障害パターンDBに記憶される情報の例を示す図である。
制御部20は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路である。この制御部20は、OS(Operating System)などの制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有する。さらに、制御部20は、メッセージ分類部21と、構成要素抽出部22と、関連度算出部23と、重み算出部24と、学習回数決定部25と、学習実行部26と、パターン生成部27と、障害検出部28とを有し、これらによって各種処理を実行する。
メッセージ分類部21は、各サーバから出力されたログメッセージを通信制御I/F部11を介して受信し、メッセージDB15と障害情報DB16とに分類する。例えば、メッセージ分類部21は、通常のログメッセージと特定する情報および障害情報を特定する情報や、文字認識を行うための情報をメッセージ辞書として保持する。そして、メッセージ分類部21は、通信制御I/F部11を介してログメッセージを受信すると、メッセージ辞書を参照し文字認識を実施する。その結果、メッセージ分類部21は、当該ログメッセージが通常のログメッセージであると判定した場合にはメッセージDB15に格納すし、当該ログメッセージが障害メッセージであると判定した場合には障害情報DB16に格納する。
構成要素抽出部22は、複数の構成要素を含む情報システムが所定期間内に出力した複数のログメッセージから、当該ログメッセージ各々を発信した構成要素を抽出する。例えば、構成要素抽出部22は、図9に示すような「Window幅=10分」としてメッセージDB15から抽出したメッセージから「メッセージ発信CI」を抽出する。図9の場合、構成要素抽出部22は、「メッセージ発信CI」として「web1、ap1、ap2、db1」を抽出し、関連度算出部23に出力する。
ここでは、「Window幅=10分」、すなわち、メッセージDB15に格納される任意のログメッセージから10分前までに出力されているログメッセージを一つのメッセージ群として、このメッセージ群を構成要素抽出対象とする。したがって、構成要素抽出部22は、次のメッセージ群は、任意のメッセージの次に出力されているメッセージから10分前までに出力されているメッセージ群となる。なお、ここで説明した「Window幅」は例示であり、これに限定されるものではない。また、図9は、構成要素抽出対象のメッセージ群を例示した図である。
関連度算出部23は、構成要素抽出部22によって抽出された構成要素間の関連度として、構成要素間のホップ数を算出する。例えば、構成要素は、図10の(1)に示す関連性を有しており、構成要素抽出部22によって「メッセージ発信CI」が「web1、ap1、ap2、db1」であると抽出されたとする。この場合、関連度算出部23は、抽出された構成要素「web1、ap1、ap2、db1」の組み合わせを示すマトリックスを生成し、その組み合わせにおける構成要素間の関連性を示すホップ数を図10の(1)に示す関連性とダイクストラ法によって算出する。続いて、関連度算出部23は、図10の(2)に示すように、構成要素の組み合わせとホップ数とを示したマトリックスを生成する。
一例を説明すると、関連度算出部23は、図10の(1)に示すように、web1からap1へは直接つながっているので、「web1とap1とのホップ数」を「1」と算出する。また、関連度算出部23は、図10の(1)に示すように、web1からap2へはweb1−ap1−サーバY−ap2でつながっているので、「web1とap1とのホップ数」を「3」と算出する。関連度算出部23は、このような手法で、構成要素「web1、ap1、ap2、db1」の各組み合わせについて、ホップ数を算出する。
つまり、関連度算出部23は、図10の(3)に示すように、web1−ap1間のホップ数を1、web1−db1間のホップ数を2、web1−ap2間のホップ数を3と算出する。また、関連度算出部23は、ap1−db1間のホップ数を1、ap1−ap2間のホップ数を2、db1−ap2間のホップ数を3と算出し、この結果を重み算出部24に出力する。なお、図10は、構成要素間のホップ数の算出例を示す図である。
重み算出部24は、関連度算出部23によって算出された関連度が閾値以上である構成要素の組に対し、算出された関連度を用いて、当該構成要素各々の重み係数を算出する。例えば、重み算出部24は、構成要素抽出部22によって抽出された構成要素各々について、関連度算出部23によって算出されたホップ数に対応する重み係数を重み係数決定DB17から特定し、学習回数決定部25に出力する。
上述した例では、重み算出部24は、構成要素抽出部22によって抽出された構成要素である「ap1」を起点とした場合、「ap2」を起点とした場合、「web1」を起点とした場合、「db1」を起点とした場合のそれぞれについて重み係数を特定する。そして、重み算出部24は、最も重み係数が大きい値や4パターンの平均した値を重み係数として特定する。このとき、重み算出部24は、例えばホップ数が「5以上」である構成要素の組を除外する。
ここで、図10に示した関係性(Relationship)を例にして説明する。例えば、「ap1」を起点とした場合、ap1−web1間のホップ数が1、ap1−ap2間のホップ数が2、ap1−db1間のホップ数が1となる。この場合、重み算出部24は、重み係数決定DB17を用いて、「web1」の重み係数を「1.0」、「ap2」の重み係数を「0.8」、「db1」の重み係数を「1.0」と特定する。
同様に、「ap2」を起点とした場合、ap2−web1間のホップ数が3、ap2−ap1間のホップ数が2、ap2−db1間のホップ数が3となる。この場合、重み算出部24は、重み係数決定DB17を用いて、「web1」の重み係数を「0.6」、「ap1」の重み係数を「0.8」、「db1」の重み係数を「0.6」と特定する。
同様に、「web1」を起点とした場合、web1−ap1間のホップ数が1、web1−ap2間のホップ数が3、web1−db1間のホップ数が2となる。この場合、重み算出部24は、重み係数決定DB17を用いて、「ap1」の重み係数を「1.0」、「ap2」の重み係数を「0.6」、「db1」の重み係数を「0.8」と特定する。
同様に、「db1」を起点とした場合、db1−web1間のホップ数が2、db1−ap1間のホップ数が1、db1−ap2間のホップ数が3となる。この場合、重み算出部24は、重み係数決定DB17を用いて、「web1」の重み係数を「0.8」、「ap1」の重み係数を「1.0」、「ap2」の重み係数を「0.6」と特定する。
以上より、「web1」の重み係数の候補が「1.0、0.6、0.8」、「ap1」の重み係数の候補が「0.8、1.0、1.0」、「ap2」の重み係数の候補が「0.8、0.6、0.6」、「db1」の重み係数の候補が「1.0、0.6、0.8」となる。そして、最も重み係数が大きい値を重み係数とする場合、重み算出部24は、上述した4パターンから得られた3つの値のうち、最も大きい値を重み係数として特定する。すなわち、重み算出部24は、図11に示したように「CI、重み係数」として「web1、1.0」、「ap1、1.0」、「ap2、0.8」、「db1、1.0」を生成する。なお、図11は、構成アイテムごとに特定した重み係数の例を示す図である。
学習回数決定部25は、重み算出部24で算出された構成要素各々の重み係数を用いて、所定期間内に出力された複数のログメッセージが、情報システムに障害が発生した時に出力されるメッセージの組み合わせである確率を算出する学習回数を決定する。具体的には、学習回数決定部25は、重み算出部24によって算出された発信元の構成要素の重み係数を用いて、所定期間内に出力された複数のログメッセージ全体の重み係数を算出する。そして、学習回数決定部25は、算出した複数のログメッセージ全体の重み係数に対応する繰り返し回数を学習回数決定DB18から特定し、学習回数として学習実行部26に出力する。
例えば、学習回数決定部25は、所定期間内に出力された15個のログメッセージにおいて、「web1」が発信元である回数が5回、「ap1」が5回、「ap2」が3回、「db1」が2回であったとする。この場合、学習回数決定部25は、上述した構成要素ごとの重み係数を用いて、15個のログメッセージの全体の重み係数を、「(1.0×5+1.0×3+0.8×3+1.0×2)/15=0.826666・・・」と算出する。そして、学習回数決定部25は、算出した重み係数「0.826」に対応する繰り返し回数「4」を学習回数決定DB18から特定する。
つまり、学習回数決定部25によって決定される繰り返し回数は、所定期間内に出力されたログメッセージの組み合わせがCMDB14上のRelationshipにおいて関連度が強い場合、言い換えると、少ないホップ数で連携されている場合には、多くなる。一方、所定期間内に出力されたログメッセージの組み合わせがCMDB14上のRelationshipにおいて関連度が弱い場合、言い換えると、多いホップ数で連携されている場合には、少なくなる。
学習実行部26は、障害に関する情報を示す障害情報を用いて、情報サービスに障害が発生した時に出力されるメッセージの組み合わせである確率を、学習回数決定部25によって決定された回数学習する。例えば、学習実行部26は、複数のログメッセージが出力された回数のうち情報システムに障害が発生していた回数の割合を、学習回数決定部25によって決定された回数学習する。つまり、学習実行部26は、あるメッセージパターンの観測回数のうち、実際にトラブルであった回数である確率を推定する。
より具体的に説明すると、学習実行部26は、メッセージDB15から所定日時に観測されたログメッセージA、B、Cを抽出するとともに、障害情報DB16を参照して観測時に障害が発生していたか否かを判定する。そして、学習実行部26は、ログメッセージA、B、Cの組み合わせ観測時に障害が発生していないと判定した場合には、学習回数決定部25によって決定された回数分、ログメッセージA、B、Cが障害でない確率を繰り返し算出することになる。したがって、ログメッセージA、B、Cの組み合わせが障害である確率が小さくなる。
一方、学習実行部26は、ログメッセージA、B、Cの組み合わせ観測時に障害が発生していたと判定した場合には、学習回数決定部25によって決定された回数分、メッセージA、B、Cが障害である確率を繰り返し算出する。したがって、ログメッセージA、B、Cの組み合わせが障害である確率が大きくなる。
つまり、学習実行部26は、メッセージDB15から任意に時間帯で観測されたログメッセージの組み合わせの関連度が強く、その時間帯で障害が発生していない場合は、このログメッセージの組み合わせが障害である確率が小さくなるように学習する。また、学習実行部26は、メッセージDB15から任意に時間帯で観測されたログメッセージの組み合わせの関連度が強く、その時間帯で障害Bが発生している場合は、このログメッセージの組み合わせが障害Bである確率が大きくなるように学習する。すなわち、観測されたログメッセージの組み合わせの関連度が強い場合に算出する確率については、その信用度が高いと判断し、学習回数を多くする。
さらに、学習実行部26は、メッセージDB15から任意に時間帯で観測されたログメッセージの組み合わせの関連度が弱い場合には、当該ログメッセージの組み合わせが障害であるのかないのかを学習する回数を少なくする。すなわち、観測されたログメッセージの組み合わせの関連度が弱い場合に算出する確率については、その信用度が低いと判断し、学習回数を少なくする。
学習手法としては、例えば、学習実行部26は、ログメッセージA、B、Cが抽出された回数と、ログメッセージA、B、Cが抽出されたときに障害であった回数とを用いて、決定された学習回数ベイズ推定を実施してもよく、任意の学習手法を実施しても良い。任意の手法としては、例えば、学習実行部26は、決定された回数に応じて係数を乗算する手法を用いてもよく、一例としては、学習回数が「4」である場合には「係数=1.3」、学習回数が「5」である場合には「係数=1.5」を既に算出されている確率に乗算する。また、学習実行部26は、学習回数が「1」である場合には「係数=0.5」を既に算出されている確率に乗算するようにして、確率を学習することもできる。
パターン生成部27は、学習実行部26によって算出された確率と、ログメッセージの組み合わせとを対応付けた障害パターンメッセージを生成する。具体的には、パターン生成部27は、ログメッセージA、B、Cの組み合わせが障害Bである確率20%、ログメッセージA、B、Dの組み合わせが障害Cである確率35%などの障害パターンメッセージを生成して障害パターンDB19に格納する。例えば、パターン生成部27は、図8で説明したように、「メッセージ種別ID」が「0005、0148、0150」、これらのメッセージの組み合わせが出力されたときに「Trouble=5」の障害である確率が「score=0.018」などを生成して障害パターンDB19に格納する。なお、ここでは、確率として、障害である割合を示すscoreを格納した例を図示したが、これに限定されるものではなく、score×100とした確率を格納するようにしてもよい。
障害検出部28は、障害検知対象となるサーバ装置等から出力されるメッセージを観測し、障害パターンDB19に記憶される障害パターンを検知した場合に、障害発生を通知する。例えば、障害検出部28は、障害検知対象となるサーバ装置等から出力されるメッセージを観測した時点から10分前までに出力されたメッセージを取得する。続いて、障害検出部28は、取得したメッセージの組み合わせが障害パターンDB19に記憶されているか否かを判定する。そして、障害検出部28は、取得したメッセージの組み合わせが障害パターンDB19に記憶されていない場合には、障害でないことを管理装置に送信したり、表示部13に表示したりする。
一方、障害検出部28は、取得したメッセージの組み合わせが障害パターンDB19に記憶されている場合には、当該メッセージの組み合わせのscore又は確率が所定値以上か否かを判定する。そして、障害検出部28は、score又は確率が所定値以上である場合には、障害発生を検知し、管理装置に送信したり、表示部13に表示したりする。また、障害検出部28は、score又は確率が所定値未満である場合には、障害の可能性があることを検知し、管理装置に送信したり、表示部13に表示したりする。
[処理の流れ]
次に、図12〜図17を用いて、実施例2に係る障害検出装置における処理の流れを説明する。ここでは、重み係数決定処理、重み係数決定処理における構成要素間のホップ数による重み決定処理、ホップ数による重み決定処理における経路両端の構成要素の重み決定処理を順に説明する。さらに、重みつき学習処理、ベイズ推定による学習実施処理、障害検出処理についても順に説明する。
(重み係数決定処理)
まず、図12を用いて、重み係数決定処理について説明する。図12は、実施例2に係る障害検出装置における重み係数決定処理の流れを示すフローチャートである。
図12に示すように、障害検出装置10の構成要素抽出部22は、情報システムが所定期間内に出力した複数のログメッセージから、当該ログメッセージ各々を発信した構成要素を抽出する(ステップS101)。
例えば、構成要素抽出部22は、予め定められた障害メッセージパターン生成タイミングに到達した場合や入力部12によって開始指示が受け付けられた場合に、メッセージDB15に格納されるメッセージ群から構成要素を抽出する。より具体的には、構成要素抽出部22は、所定のWindow幅で、メッセージDB15から複数のメッセージを取得する。
続いて、関連度算出部23は、構成要素抽出部22によって抽出された構成要素の組み合わせを示すマトリックスを生成する(ステップS102)。そして、関連度算出部23は、マトリックスを生成した構成要素に対し、CMDB14に記憶される構成要素のRelationshipを用いて、構成要素間のホップ数を算出する(ステップS103)。
その後、重み算出部24は、関連度算出部23によって算出された関連度が閾値以上である構成要素の組に対し、算出された関連度を用いて、構成要素各々の重み係数を算出する構成要素間のホップ数による重み決定処理を実施する(ステップS104)。
なお、重み算出部24は、所定のWindow幅がメッセージDB15の最後のメッセージを含むまで、言い換えると、メッセージDB15に記憶される全てのメッセージについて、ステップS101〜ステップS104の処理を実行する。このため、重み算出部24は、取得される複数のメッセージごとに、構成要素を抽出して、ホップ数を算出することとなる。
(構成要素間のホップ数による重み決定処理)
続いて、図13を用いて、構成要素間のホップ数による重み決定処理について説明する。図13は、重み係数決定処理における構成要素間のホップ数による重み決定処理の流れを示すフローチャートであり、この処理は、図12のステップS104で実行される処理である。
図13に示すように、障害検出装置10の重み算出部24は、関連度算出部23によって生成された構成要素のマトリックスを読み込む(ステップS201)。続いて、重み算出部24は、抽出する対象とする構成要素間のホップ数に「1」を代入し(ステップS202)、抽出対象のホップ数が閾値未満であるか否かを判定する(ステップS203)。
そして、重み算出部24は、抽出対象のホップ数が閾値未満である場合(ステップS203肯定)、当該ホップ数と一致する構成要素の組み合わせを抽出し(ステップS204)、経路が存在するか否かを判定する(ステップS205)。
続いて、重み算出部24は、経路が存在する場合(ステップS205肯定)、経路両端の構成要素の重み計算処理を実行する(ステップS206)。そして、重み算出部24は、関連度算出部23によって生成されたマトリックスの全ての構成要素について重み計算処理を実行すると(ステップS207肯定)、算出された構成要素ごとの重み係数を学習回数決定部25に出力する(ステップS208)。
一方、重み算出部24は、関連度算出部23によって生成されたマトリックスにおいて、重み計算処理を実行していない構成要素が存在する場合には(ステップS207否定)、抽出対象のホップ数を1増加させて、ステップS203以降の処理を実行する。また、重み算出部24は、ステップS205において、経路が存在しないと判定した場合にも(ステップS205否定)、抽出対象のホップ数を1増加させて、ステップS203以降の処理を実行する。
また、重み算出部24は、ステップS203において、抽出対象のホップ数が閾値以上になった場合(ステップS203否定)、その時点までで算出された構成要素ごとの重み係数を学習回数決定部25に出力する(ステップS208)。
(経路両端の構成要素の重み計算処理)
続いて、図14を用いて、経路両端の構成要素の重み計算処理について説明する。図14は、構成要素間のホップ数による重み決定処理における経路両端の構成要素の重み計算処理の流れを示すフローチャートであり、この処理は、図13のステップS206で実行される処理である。
図14に示すように、障害検出装置10の重み算出部24は、図13で検出された経路における片方の構成要素を取得し(ステップS301)、取得した構成要素の重みが既に決定されているか否かを判定する(ステップS302)。そして、重み算出部24は、取得した構成要素の重みがまだ決定されていない場合(ステップS302否定)、当該経路のホップ数に対応する重み係数を重み係数決定DB17から特定する(ステップS303)。なお、重み算出部24は、ステップS301〜ステップS303の処理を、図13で検出された経路の両端の構成要素に対して実行する。
(重みつき学習処理)
次に、図15を用いて、重みつき学習処理について説明する。図15は、実施例2に係る障害検出装置における重みつき学習処理の流れを示すフローチャートである。
図15に示すように、障害検出装置10の学習回数決定部25は、構成要素抽出部22によってメッセージDB15から抽出された複数のログメッセージを有するメッセージ情報を1件読み込む(ステップS401)。
続いて、学習回数決定部25は、読み込んだメッセージが既に学習済みであるか否かを判定する(ステップS402)。そして、学習回数決定部25は、読み込んだメッセージが学習済みでない場合(ステップS402否定)、算出された構成要素ごとの重み係数を参照し、読み込んだメッセージ全体の重み係数を算出する(ステップS403)。
続いて、学習実行部26は、後述する重みつき学習実施処理を実行する(ステップS404)。その後、学習回数決定部25は、学習実行部26による学習処理が終了すると、ステップS401に戻って、次のメッセージ情報1件を読み込んで、ステップS402以降の処理を繰り返す。
そして、学習実行部26は、メッセージDB15に記憶されるメッセージ全てに対して重みつき学習を実行した場合(ステップS402肯定)、学習結果をパターン生成部27に出力する(ステップS405)。言い換えると、学習実行部26は、メッセージを取得する所定のWindow幅がメッセージDB15の最後にまで到達した場合、学習結果をパターン生成部27に出力する。
その後、パターン生成部27は、学習実行部26によって算出された確率と、ログメッセージの組み合わせとを対応付けた障害パターンメッセージを生成し、障害パターンDB19に格納する。
(ベイズ推定による学習実施処理)
次に、図16を用いて、ベイズ推定による学習実施処理について説明する。図16は、重みつき学習処理におけるベイズ推定による学習実施処理の流れを示すフローチャートである。なお、この処理は、図15のステップS404で実行される処理である。
図16に示すように、障害検出装置10の学習実行部26は、確率の算出対象となるメッセージ情報と障害情報とを読み込む(ステップS501)。学習回数決定部25は、重み算出部24で算出された構成要素各々の重み係数を読み込み、メッセージの全体の重み係数を算出し、算出した繰り返し回数を学習回数決定DB18から特定する(ステップS502)。
そして、学習実行部26は、学習回数決定部25によって特定された回数分、ログメッセージの組み合わせが情報システムに障害が発生した時に出力されるメッセージの組み合わせである確率を学習する(ステップS503)。
(障害検出処理)
次に、図17を用いて、図12〜図16を実行して生成された障害メッセージパターンを用いた障害検出処理について説明する。図17は、実施例2に係る障害検出装置における障害検出処理の流れを示すフローチャートである。なお、この処理は、図12〜図16と同期を取る必要はなく、メッセージが発生するたびに実行される。
図17に示すように、障害検出装置10の障害検出部28は、障害検知対象となるサーバ装置等からメッセージが出力されると(ステップS601肯定)、現時点から所定時間前までのメッセージ群を抽出する(ステップS602)。
続いて、障害検出部28は、抽出したメッセージ群の「メッセージ種別ID」の組み合わせが、障害パターンDB19に記憶される障害メッセージパターンと一致するか否かを判定する(ステップS603)。
そして、障害検出部28は、抽出したメッセージ群のパターンが障害メッセージパターンと一致する場合(ステップS603肯定)、当該障害メッセージパターンの確率(score)が閾値より大きいか否かを判定する(ステップS604)。
続いて、障害検出部28は、障害メッセージパターンの確率(score)が閾値より大きい場合(ステップS604肯定)、障害の可能性が高いと判定し、障害発生したことおよびその確率を表示部13に表示する(ステップS605)。
一方、障害検出部28は、抽出したメッセージ群のパターンが障害メッセージパターンと一致しない場合(ステップS603否定)、障害メッセージパターンの確率(score)が閾値より小さい場合(ステップS604否定)、処理を終了する。
[実施例2による効果]
このように、実施例2によれば、本願が開示する障害パターン生成装置を組み込んだ障害検出装置を用いた場合、障害検知精度の高い障害メッセージパターンを短時間で生成することが可能であるとともに、障害検知まで実施することができる。また、関係のない構成要素が出力するノイズの影響を減らし、少ない学習回数で障害メッセージパターンを生成することができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。
(学習手法)
上述した実施例では、障害である確率を学習する手法として、ベイズ推定を用いた例を説明したが、これに限定されるものではなく、繰り返し学習を実施できる他の手法を用いることもできる。また、障害である確率の代わりに、障害でない確率を算出するようにしてもよい。
(システム)
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、例えば図3〜図11等に示した各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、学習実行部26とパターン生成部27を統合するなど各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(プログラム)
ところで、上記の実施例で説明した各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することができる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータシステムの一例を説明する。
図18は、障害パターン生成および障害検出プログラムを実行するコンピュータシステムを示す図である。図18に示すように、コンピュータシステム100は、RAM101と、HDD102と、ROM103と、CPU104とを有する。ここで、ROM103には、上の実施例と同様の機能を発揮するプログラムがあらかじめ記憶されている。つまり、図18に示すように、メッセージ分類プログラム103a、構成要素抽出プログラム103b、関連度算出プログラム103c、重み算出プログラム103d、学習回数決定プログラム103eがあらかじめ記憶されている。さらに、ROM103には、学習実行プログラム103f、パターン生成プログラム103g、障害検出プログラム103hがあらかじめ記憶されている。
そして、CPU104には、これらのプログラム103a〜103hを読み出して実行することで、図18に示すように、各プロセスとなる。つまり、メッセージ分類プロセス104a、構成要素抽出プロセス104b、関連度算出プロセス104c、重み算出プロセス104dとなる。また、学習回数決定プロセス104e、学習実行プロセス104f、パターン生成プロセス104gは、障害検出プロセス104hとなる。なお、メッセージ分類プロセス104a、図2に示したメッセージ分類部21に対応し、同様に、構成要素抽出プロセス104bは、構成要素抽出部22に対応し、関連度算出プロセス104cは、関連度算出部23に対応する。また、重み算出プロセス104dは、重み算出部24に対応し、学習回数決定プロセス104eは、学習回数決定部25に対応し、学習実行プロセス104fは、学習実行部26に対応する。また、パターン生成プロセス104gは、パターン生成部27に対応し、障害検出プロセス104hは、障害検出部28に対応する。
また、HDD102には、統合情報テーブル102aと、メッセージテーブル102bと、障害情報テーブル102cと、重み決定決定テーブル102dと、学習回数決定テーブル102eと、障害パターンテーブル102fとが設けられる。統合情報テーブル102aは、図2に示したCMDB14に対応し、メッセージテーブル102bは、メッセージDB15に対応し、障害情報テーブル102cは、障害情報DB16に対応し、重み決定テーブル102dは、重み係数決定DB17に対応する。また、学習回数決定テーブル102eは、学習回数決定DB18に対応し、障害パターンテーブル102fは、障害パターンDB19に対応する。
ところで、上記したプログラム103a〜103hは、必ずしもROM103に記憶させておく必要はない。例えば、コンピュータシステム100に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に記憶させておくようにしてもよい。また、コンピュータシステム100の内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」に記憶させておいてもよい。さらに、公衆回線、インターネット、LAN、WANなどを介してコンピュータシステム100に接続される「他のコンピュータシステム」に記憶させておいてもよい。そして、コンピュータシステム100がこれらからプログラムを読み出して実行するようにしてもよい。
すなわち、この他の実施例でいうプログラムは、上記した「可搬用の物理媒体」、「固定用の物理媒体」、「通信媒体」などの記録媒体に、コンピュータ読み取り可能に記録されるものである。そして、コンピュータシステム100は、このような記録媒体からプログラムを読み出して実行することで上記した実施例と同様の機能を実現する。なお、この他の実施例でいうプログラムは、コンピュータシステム100によって実行されることに限定されるものではない。例えば、他のコンピュータシステムまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
1 障害パターン生成装置
1a 構成要素抽出部
1b 関連度算出部
1c 学習実行部
1d パターン生成部
10 障害検出装置
11 通信制御I/F部
12 入力部
13 表示部
14 CMDB
15 メッセージDB
16 障害情報DB
17 重み係数決定DB
18 学習回数決定DB
19 障害パターンDB
20 制御部
21 メッセージ分類部
22 構成要素抽出部
23 関連度算出部
24 重み算出部
25 学習回数決定部
26 学習実行部
27 パターン生成部
28 障害検出部

Claims (4)

  1. 複数の構成要素を有する情報システムが所定期間内に出力した複数のログメッセージから、当該ログメッセージ各々を発信した構成要素を抽出する構成要素抽出手順と、
    前記構成要素抽出手順によって抽出された構成要素間の関連度を算出する関連度算出手順と、
    前記関連度算出手順によって算出された関連度が閾値以上である構成要素の組に対し、前記算出された関連度を用いて、当該構成要素各々の重みを算出する重み算出手順と、
    前記重み算出手順によって算出された構成要素各々の重みを用いて、前記複数のログメッセージが、前記情報システムに障害が発生した時に出力されるメッセージの組み合わせである確率を繰り返し算出する回数を決定する学習回数決定手順と、
    前記複数のログメッセージが出力された回数のうち前記情報システムに障害が発生していた回数の割合を、前記学習回数決定手順によって決定された回数学習して、前記確率を算出する学習実行手順と、
    前記学習実行手順によって算出された確率と、前記ログメッセージの組み合わせとを対応付けた障害パターンメッセージを生成するパターン生成手順と
    をコンピュータに実行させることを特徴とする障害パターン生成プログラム。
  2. 前記学習回数決定手順は、前記複数のログメッセージの発信元の構成要素各々を計数し、当該発信元の構成要素ごとに、前記重み算出手順によって重みと計数した数とを乗算し、乗算して得られた発信元の構成要素ごとの重みを加算し、加算した結果を前記複数のログメッセージの総数で除算して、前記複数のログメッセージの全体の重みを算出し、算出した前記複数のログメッセージの全体の重みを用いて、前記回数を決定することを特徴とする請求項に記載の障害パターン生成プログラム。
  3. 前記情報システムからログメッセージが新たに出力された場合に、当該新たに出力されたメッセージから所定時間前までに出力されたメッセージを取得し、取得されたメッセージが前記パターン生成手順によって生成された障害パターンメッセージと一致するか否かを判定する障害判定手順と、
    前記障害判定手順によって、前記取得されたメッセージが前記障害パターンメッセージと一致すると判定された場合に、当該メッセージに対応する前記確率が閾値以上であるか否かを判定する確率判定手順と、
    前記確率判定手順によって、前記取得されたメッセージに対応する前記確率が閾値以上であると判定された場合に、障害が発生したと検知する障害検知手順とをさらにコンピュータに実行させることを特徴とする請求項に記載の障害パターン生成プログラム。
  4. 複数の構成要素を有する情報システムが所定期間内に出力した複数のログメッセージから、当該ログメッセージ各々を発信した構成要素を抽出する構成要素抽出部と、
    前記構成要素抽出部によって抽出された構成要素間の関連度を算出する関連度算出部と、
    前記関連度算出部によって算出された関連度が閾値以上である構成要素の組に対し、前記算出された関連度を用いて、当該構成要素各々の重みを算出する重み算出部と、
    前記重み算出部によって算出された構成要素各々の重みを用いて、前記複数のログメッセージが、前記情報システムに障害が発生した時に出力されるメッセージの組み合わせである確率を繰り返し算出する回数を決定する学習回数決定部と、
    前記複数のログメッセージが出力された回数のうち前記情報システムに障害が発生していた回数の割合を、前記学習回数決定部によって決定された回数学習して、前記確率を算出する学習実行部と、
    前記学習実行部によって算出された確率と、前記ログメッセージの組み合わせとを対応付けた障害パターンメッセージを生成するパターン生成部と
    を有することを特徴とする障害パターン生成装置。
JP2010036512A 2010-02-22 2010-02-22 障害パターン生成プログラムおよび障害パターン生成装置 Expired - Fee Related JP5428934B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010036512A JP5428934B2 (ja) 2010-02-22 2010-02-22 障害パターン生成プログラムおよび障害パターン生成装置
US13/029,931 US8751417B2 (en) 2010-02-22 2011-02-17 Trouble pattern creating program and trouble pattern creating apparatus
GB1103038.4A GB2478066B (en) 2010-02-22 2011-02-22 Trouble pattern creating program and trouble pattern creating apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010036512A JP5428934B2 (ja) 2010-02-22 2010-02-22 障害パターン生成プログラムおよび障害パターン生成装置

Publications (2)

Publication Number Publication Date
JP2011170802A JP2011170802A (ja) 2011-09-01
JP5428934B2 true JP5428934B2 (ja) 2014-02-26

Family

ID=43881486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010036512A Expired - Fee Related JP5428934B2 (ja) 2010-02-22 2010-02-22 障害パターン生成プログラムおよび障害パターン生成装置

Country Status (3)

Country Link
US (1) US8751417B2 (ja)
JP (1) JP5428934B2 (ja)
GB (1) GB2478066B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5541130B2 (ja) 2010-12-10 2014-07-09 富士通株式会社 管理装置、管理方法および管理用プログラム
US9612892B2 (en) * 2011-04-04 2017-04-04 Hewlett Packard Enterprise Development Lp Creating a correlation rule defining a relationship between event types
US9389946B2 (en) 2011-09-19 2016-07-12 Nec Corporation Operation management apparatus, operation management method, and program
US10540354B2 (en) 2011-10-17 2020-01-21 Micro Focus Llc Discovering representative composite CI patterns in an it system
JP5692414B2 (ja) * 2011-12-15 2015-04-01 富士通株式会社 検知装置、検知プログラムおよび検知方法
JP5741418B2 (ja) 2011-12-19 2015-07-01 富士通株式会社 障害検出方法および障害検出システム
JP5935890B2 (ja) * 2012-08-08 2016-06-15 富士通株式会社 障害検出装置、障害検出プログラムおよび障害検出方法
WO2014103071A1 (ja) * 2012-12-28 2014-07-03 富士通株式会社 対処方法作成プログラム、対処方法作成方法、及び情報処理装置
JP6503679B2 (ja) * 2014-10-06 2019-04-24 富士通株式会社 フィルタルール作成装置、フィルタルール作成方法、およびプログラム
JP6451483B2 (ja) 2015-05-11 2019-01-16 富士通株式会社 予兆検知プログラム、装置、及び方法
WO2017085921A1 (ja) * 2015-11-17 2017-05-26 日本電気株式会社 ログ分析システム、方法およびプログラム
JP6741216B2 (ja) * 2015-11-30 2020-08-19 日本電気株式会社 ログ分析システム、方法およびプログラム
JP6693010B2 (ja) * 2016-02-08 2020-05-13 ブレインズコンサルティング株式会社 障害対応支援装置、障害対応支援プログラム及び記憶媒体
EP3591532B1 (en) * 2017-04-03 2022-09-07 Nippon Telegraph And Telephone Corporation Analysis device, analysis method, and analysis program
US20220398143A1 (en) * 2019-11-20 2022-12-15 Nippon Telegraph And Telephone Corporation Network monitoring apparatus, method, and program
JP7401764B2 (ja) * 2020-03-11 2023-12-20 富士通株式会社 制御プログラム、制御方法および制御装置
CN115374658B (zh) * 2022-10-25 2023-02-14 中国人民解放军海军工程大学 一种电子设备最少耗时故障排查次序优化方法和系统
CN116502846B (zh) * 2023-04-27 2023-12-26 中国人民解放军海军工程大学 一种考虑维修耗时的电子件备件平均消耗数量估计方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5321795A (en) * 1991-05-24 1994-06-14 Alvarez De Toledo Santiago Pattern association central subsystem and a perception learning system
JPH09298544A (ja) * 1996-05-08 1997-11-18 Fujitsu Ltd ネットワーク運用管理装置
JP2000010805A (ja) * 1998-06-19 2000-01-14 Hitachi Ltd コンソールメッセージのルーティング方法およびコンソールシステム
US20040199828A1 (en) * 2003-04-01 2004-10-07 International Business Machines Corporation Method and apparatus for tracing troubleshooting events for aiding technical assistance
JP3682778B2 (ja) * 2003-06-04 2005-08-10 株式会社エヌ・ティ・ティ・ドコモ 故障措置システム、及び、故障要因特定方法
US7689872B2 (en) * 2003-07-01 2010-03-30 International Business Machines Corporation Autonomic program error detection and correction
WO2006003874A1 (ja) * 2004-06-30 2006-01-12 Matsushita Electric Industrial Co., Ltd. 通信装置、通信設定方法、通信設定プログラム及び通信設定プログラムを記録した記録媒体
US7469375B2 (en) * 2005-01-18 2008-12-23 International Business Machines Corporation Systems and methods for managing error dependencies
JP4944391B2 (ja) 2005-05-11 2012-05-30 富士通株式会社 メッセージ異常自動判別装置、方法、及びプログラム
US7676695B2 (en) * 2007-06-05 2010-03-09 Compuware Corporation Resolution of computer operations problems using fault trend analysis
JP5035417B2 (ja) * 2008-07-04 2012-09-26 富士通株式会社 情報処理装置、情報処理プログラム、情報処理方法

Also Published As

Publication number Publication date
GB201103038D0 (en) 2011-04-06
US20110208679A1 (en) 2011-08-25
GB2478066A (en) 2011-08-24
GB2478066B (en) 2014-09-24
US8751417B2 (en) 2014-06-10
JP2011170802A (ja) 2011-09-01

Similar Documents

Publication Publication Date Title
JP5428934B2 (ja) 障害パターン生成プログラムおよび障害パターン生成装置
JP6126891B2 (ja) 検出方法、検出プログラム、および検出装置
US8751874B2 (en) Managing apparatus, managing method
US11061756B2 (en) Enabling symptom verification
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
EP3338191B1 (en) Diagnostic framework in computing systems
US9246777B2 (en) Computer program and monitoring apparatus
WO2014013603A1 (ja) 監視システム及び監視プログラム
JP6160064B2 (ja) 適用判定プログラム、障害検出装置および適用判定方法
CN113328872B (zh) 故障修复方法、装置和存储介质
JP2017500791A (ja) リアルタイムまたは準リアルタイムの改善フィードバックを供給するパフォーマンス・モニタリング
US10360090B2 (en) Determination method, determination apparatus, and recording medium
JP2011154483A (ja) 異常検出装置、プログラム、及び異常検出方法
JP6988304B2 (ja) 運用管理システム、監視サーバ、方法およびプログラム
JP6280862B2 (ja) イベント分析システムおよび方法
US20150113337A1 (en) Failure symptom report device and method for detecting failure symptom
JPWO2018142703A1 (ja) 異常要因推定装置、異常要因推定方法及びプログラム
JP2012186667A (ja) ネットワーク障害検出装置、ネットワーク障害検出装置のネットワーク障害検出方法およびネットワーク障害検出プログラム
CN114257493A (zh) 网络节点的故障预警方法、装置、介质及电子设备
US9886498B2 (en) Title standardization
US20220038467A1 (en) Impact range estimation apparatus, impact range estimation method, and computer-readable recording medium
US8798982B2 (en) Information processing device, information processing method, and program
JPWO2013114911A1 (ja) リスク評価システム、リスク評価方法、及びプログラム
JP6060123B2 (ja) 影響範囲特定装置、影響範囲特定方法、及びプログラム
JP2012044373A (ja) ネットワーク故障評価システム、ネットワーク故障評価方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131118

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees