JP6405851B2 - 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、 - Google Patents

予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、 Download PDF

Info

Publication number
JP6405851B2
JP6405851B2 JP2014201501A JP2014201501A JP6405851B2 JP 6405851 B2 JP6405851 B2 JP 6405851B2 JP 2014201501 A JP2014201501 A JP 2014201501A JP 2014201501 A JP2014201501 A JP 2014201501A JP 6405851 B2 JP6405851 B2 JP 6405851B2
Authority
JP
Japan
Prior art keywords
configuration information
value
failure
setting change
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014201501A
Other languages
English (en)
Other versions
JP2016071696A (ja
Inventor
大塚 浩
浩 大塚
幸洋 渡辺
幸洋 渡辺
松本 安英
安英 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014201501A priority Critical patent/JP6405851B2/ja
Priority to US14/831,161 priority patent/US10042686B2/en
Publication of JP2016071696A publication Critical patent/JP2016071696A/ja
Application granted granted Critical
Publication of JP6405851B2 publication Critical patent/JP6405851B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)

Description

本発明は、予兆検知支援プログラム、予兆検知支援方法、予兆検知支援装置、及び予兆検知プログラムに関する。
従来、ユーザ側で運用しているシステムを監視し、システムでの障害発生の予兆を検知した場合に、ユーザ側のシステム管理者等に障害発生の予兆を検知したことを通知するサービスが行われている。
例えば、プロセスをモニターする方法において、プロセスを表すシグネチャを生成するステップと、生成されたシグネチャを継続的に更新するステップと、継続的に更新されるシグネチャに基づいて異常を検知するステップとを備える方法が提案されている。
また、少なくともひとつのプロセッサとひとつのソフトウェア・アプリケーションをもち、中に搭載するプロセッサによって自動的にワイヤレスデバイスの診断を行うために収集した診断データを管理するシステムが提案されている。このシステムでは、あらゆる不具合に対して診断能力を高めるためにいままで発生した不具合パターンを学習する。
特開2004−348740号公報 特開2007−052756号公報
システムに障害が発生する原因の一つに、システムの構成を示す構成情報における各種設定項目に設定する値の設定ミスがある。さらに、設定ミスには、間違った値を設定した場合と、変更すべき値の変更漏れの場合とがある。システムに障害が発生した場合、ユーザは設定した値が間違っているだろうという推測は可能であるが、値の変更漏れが障害発生の原因である場合には、障害の原因推定及び障害発生の予兆検知をユーザが判断することは難しい。
従来技術では、障害が発生した前後の情報を用いて障害の検知や学習を行っているが、この場合には、値の変更漏れによる障害発生を検知することは困難である。
また、システムに障害が発生し、その復旧作業を行った場合に、障害復旧前の構成情報と障害復旧後の構成情報とを比較することで、障害に関連する構成情報の設定項目が分かる。そこで、一定期間の構成情報を蓄積し、障害復旧前後で値が変更された設定項目の値を設定変更項目の情報として学習する。そして、新たに入力された構成情報の設定項目に設定されている値と、設定変更項目の情報との比較により、障害発生の予兆を検知することが考えられる。しかし、障害の種別や設定項目の相違などにより、適切な設定変更項目の情報として、障害復旧前の値と障害復旧後の値のどちらを使うべきかを特定することは困難である。
本発明は、一つの側面として、障害発生の予兆検知のために適切な設定変更項目の情報を特定することを目的とする。
一つの態様として、システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積する。そして、特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出する。さらに、抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値を誤りの値とする学習データとし、前記第2の構成情報における設定値を正解の値とする学習データとし、前記第1の構成情報と前記第2の構成情報のいずれか一方を予兆検知に使用する学習データとして特定する
一つの側面として、障害発生の予兆検知のために適切な設定変更項目の情報を特定することができる、という効果を有する。
本実施形態に係る予兆検知装置を含むシステム構成を示す概略図である。 本実施形態に係る予兆検知装置の機能ブロック図である。 障害の発生及び復旧と構成情報の採取との関係を説明するための図である。 事例データの一例を示す図である。 障害種別リストの一例を示す図である。 キーリストの一例を示す図である。 パターンリストの一例を示す図である。 無視リストの一例を示す図である。 学習データ・データベースの一例を示す図である。 カウントデータ・データベースの一例を示す図である。 特定スコア・データベースの一例を示す図である。 予兆検知結果リストの一例を示す図である。 本実施形態に係る予兆検知装置として機能するコンピュータの概略構成を示すブロック図である。 学習処理の一例を示すフローチャートである。 パターン生成処理の一例を示すフローチャートである。 学習データ生成処理の一例を示すフローチャートである。 特定スコア計算処理の一例を示すフローチャートである。 検知処理の一例を示すフローチャートである。
以下、図面を参照して本発明に係る実施形態の一例を詳細に説明する。
図1に示すように、本実施形態に係る予兆検知装置10は、インターネット等のネットワーク12を介して、複数の処理装置16を有する処理システム14と接続される。予兆検知装置10は、処理装置16の各々を監視し、処理装置16における障害発生の予兆を検知する。
処理装置16における障害発生の予兆検知は、例えば、処理装置16の構成情報(詳細は後述)における各種設定項目の設定値として、正しい値が設定されているか否かを判定することにより行うことができる。設定されている値が正しいか否かを判定する方法としては、設定されている値と、予め用意された正解の学習データ、または誤りの学習データと比較する方法が想定される。設定されている値と正解の学習データとを比較する場合には、両者が一致する場合に、設定されている値が正しいと判定することができる。設定されている値と誤りの学習データとを比較する場合には、両者が一致する場合に、設定されている値が正しくないと判定することができる。
しかし、処理装置16に障害が発生する要因には、構成情報の各設定項目の値として、誤った値を設定した場合と、変更すべき値の変更漏れが生じた場合とがある。このように、障害発生の要因に相違があるため、設定された値と、正解の学習データまたは誤りの学習データのいずれとを比較した方が、より適切な予兆検知を行うことができるかを判断することは困難である。
例えば、所定の初期値が設定された設定項目の値を、処理装置16毎に適切な値に変更しなければならない場合において、値の変更漏れがあった場合には、その設定項目の値は初期値のままになってしまい、障害発生の要因となる。この場合、正しい設定値は、処理装置16毎に各々異なる可能性があり、これら全てを網羅する正解の学習データを用意しておくことは容易ではない。この場合、初期値が設定されている場合には誤りであることを示す学習データを用意しておき、この誤りの学習データと設定されている値とを比較した方が、障害発生の予兆検知を適切に行うことができる。
そこで、本実施形態に係る予兆検知装置10では、設定されている値と比較するための正解の学習データと、誤りの学習データとを用意しておき、より適切に障害発生の予兆を検知できる学習データを特定して用いる。
また、構成情報の変更前後の値を比較して障害発生の予兆を検知する場合には、設定値の変更漏れが障害発生の要因になる場合を検知することができない。構成情報の変更前後の値を比較しても値に変化がないためである。本実施形態では、障害復旧前後の構成情報から正解の学習データ及び誤りの学習データを生成し、これらの学習データと設定された値とを比較することにより、設定されている値が正しいか否かを判定する。
図2に、予兆検知装置10の機能ブロック図を示す。図2に示すように、予兆検知装置10は、パターン生成部21、学習データ生成部22、及び特定スコア計算部23を含む学習部20と、検知部24とを有する。また、記憶部30には、学習データ・データベース(DB)31、カウントデータDB32、及び特定スコアDB33が記憶される。各データベースについては後述する。なお、学習部2は、本発明の予兆検知支援装置の一例である。パターン生成部21は、本発明の蓄積部及び抽出部の一例である。また、学習データ生成部22及び特定スコア計算部23は、本発明の特定部の一例である。
ここで、図3に示すように、処理装置16において障害が発生した場合には、障害発生時の状態を確認するために、障害発生直後に構成情報が採取される。そして、障害が復旧した後にも、復旧作業の記録及び動作確認のためなどに構成情報が採取される。予兆検知装置10には、この障害復旧前後で採取される構成情報の組が、事例データとして入力される。なお、構成情報とは、処理装置16を構成するハードウェアの構成、及び処理装置16にインストールされているオペレーティングシステム(Operating System、OS)やアプリケーション等のソフトウェアの構成を示す情報である。構成情報は、例えば、処理装置16のファイルシステムから従来既知の専用のツールを用いて構成に関する情報を抽出したディレクトリ構造のデータである。
図4に事例データ34の一例を示す。図4の例では、障害復旧前に採取した構成情報35Aがその採取時刻と共に記録されている。また、障害復旧後に採取した構成情報35Bがその採取時刻と共に記録されている。さらに、障害の種別毎に予め定めた識別情報である障害種別36が記録されている。障害種別36は、例えば、障害復旧時に構成情報を採取する作業者等が事例データ34に記録する。
パターン生成部21は、複数の事例データ34を入力として受け付け、所定の記憶領域に蓄積する。また、パターン生成部21は、蓄積した複数の事例データ34の各々に含まれる障害種別36を、例えば、図5に示すような障害種別リスト37に記録する。なお、重複する障害種別は記録しない。
また、パターン生成部21は、各事例データ34に含まれる障害復旧前の構成情報35A、及び障害復旧後の構成情報35Bの各々から、構成に関する各種設定項目を特定するキーの全てを抽出する。例えば、上述したように、ディレクトリ構造の構成情報では、キーは、ルートディレクトリからファイルまでのパスと、そのファイルに設定されるパラメータ名とで表される。そこで、パターン生成部21は、例えば、図4の事例データ34の障害復旧前の構成情報35Aの1行目の記述「/etc/my.cnf:port=3306」から、「/etc/my.cnf:port」をキーとして抽出する。パターン生成部21は、抽出したキーを羅列して、例えば、図6に示すようなキーリスト38を作成する。
また、パターン生成部21は、キーリスト38に記録された各キーについて、障害復旧の前後で値が異なる場合に、障害種別と、キーと、障害復旧前後の値とを対応付けたパターンを生成する。例えば、図4の事例データにおいて、キー「/etc/my.cnf:port」については、障害復旧前の値「3306」と、障害復旧後の値「3309」とが異なる。そのため、障害種別「F001」と、キー「/etc/my.cnf:port」と、障害復旧前の値「3306」と、障害復旧後の値「3309」とを対応付けたパターンが生成される。パターン生成部21は、各キーについて生成したパターンを、例えば、図7に示すようなパターンリスト39に記録する。図7の例では、「値V」が障害復旧前の値、「値V」が障害復旧後の値である。
さらに、パターン生成部21は、例えば、図8に示すような無視リスト40に予め定められた障害種別とキーとの組に一致する障害種別とキーとを有するパターンを、パターンリスト39から削除する。無視リスト40には、例えば、システムを起動する毎に値が変わるキーなど、障害復旧前後の値を比較したとしても、障害発生の要因や予兆を見つけることが困難なキーを、障害種別毎に予め定めておく。
学習データ生成部22は、パターン生成部21で生成されたパターンリスト39に記録された各パターンから学習データを生成する。学習データは、障害種別毎に、あるキーについて、ある値が正解として出現した回数、及び誤りとして出現した回数を集計したデータである。パターンリスト39に記録されたパターンは、各キーについて障害復旧前後の値を有しており、障害復旧前の値Vは誤りの値、障害復旧後の値Vは正解の値である。
例えば、図9に示すように、学習データDB31には、障害種別、キー、正誤、値、及び回数の項目を有する複数の学習データが記録される。学習データ生成部22は、あるパターンの障害種別、キー、及び障害復旧前の値Vと、障害種別、キー、及び値が一致する学習データであって、正誤が「Failure」の学習データの回数を、1つのパターンに付き1増加させる。また、学習データ生成部22は、あるパターンの障害種別、キー、及び障害復旧後の値Vと、障害種別、キー、及び値が一致する学習データであって、正誤が「Success」の学習データの回数を、1つのパターンに付き1増加させる。なお、学習データ生成部22は、学習データDB31に障害種別、キー、及び障害復旧前の値Vまたは障害復旧後の値Vがパターンと一致する学習データが登録されていない場合には、該当の学習データを追加した上で、回数に1を設定する。
また、学習データ生成部22は、例えば、図10に示すように、正誤が「Success」の学習データの数を、障害種別毎かつキー毎にカウントした回数Nを、カウントデータDB32に記録する。同様に、学習データ生成部22は、正誤が「Failure」の学習データの数を、障害種別かつキー毎にカウントした回数Nを、カウントデータDB32に記録する。
特定スコア計算部23は、新たに入力された構成情報から障害発生の予兆を検知する際に、学習データのうち、正解の値を有する学習データを利用するか、誤りの値を有する学習データを利用するかを特定するための特定スコアを計算する。特定スコアは、あるキーに対する値として、同じ値をとる確率が高いほど、すなわち、あるキーに対する値のバリエーションが少ないほど、その値が正解として、または誤りとして確からしいことを表す。
例えば、特定スコア計算部23は、学習データDB31において、ある障害種別のあるキーについて、正誤が「Success」の学習データの各値が出現する経験的確率を求める。そして、特定スコア計算部23は、求めた確率から条件付エントロピーを計算し、これを、正誤が「Success」である学習データの確からしさを示す正解の特定スコアSとする。同様に、特定スコア計算部23は、正誤が「Failure」の学習データの各値が出現する経験的確率から条件付エントロピーを計算し、これを、正誤が「Failure」である学習データの確からしさを示す正解の特定スコアSとする。特定スコアSは下記(1)式で、特定スコアSは下記(2)式で表される。なお、XSuccessは、ある障害種別のあるキーについて、正誤が「Success」の学習データの集合、XFailureは、正誤が「Failure」の学習データの集合である。
より具体的に、図9に示す学習データDB31及び図10に示すカウントデータDB32を用いて、障害種別「F001」かつキー「/etc/my.cnf:port」についての特定スコアS及び特定スコアSを計算する例を説明する。この場合、XSuccess及びXFailureは下記のとおりである。
Success={3309}
Failure={3306,3307,3308}
なお、上記の集合に含まれる各学習データは、その学習データが有する値で表している。
特定スコア計算部23は、学習データDB31から、XSuccessに含まれる値「3309」の学習データの出現回数(3回)を取得する。同様に、特定スコア計算部23は、学習データDB31から、XFailureに含まれる値「3306」、値「3307」、及び値「3308」の各学習データの出現回数(各1回)をそれぞれ取得する。また、特定スコア計算部23は、カウントデータDB32から、障害種別「F001」かつキー「/etc/my.cnf:port」の正誤「Success」の学習データの出現回数N(3回)、及び正誤「Failure」の学習データの出現回数N(3回)を取得する。
特定スコア計算部23は、取得した回数を用いて、下記に示すように、学習データの各値について経験的確率を計算する。
p(3306|Failure)=1/3
p(3307|Failure)=1/3
p(3308|Failure)=1/3
p(3309|Success)=3/3
特定スコア計算部23は、計算した経験的確率を用いて、上記(1)式及び(2)式を用いて、下記のように特定スコアS及び特定スコアSを計算する。
特定スコア計算部23は、障害種別毎、かつキー毎に特定スコアS及び特定スコアSを計算し、例えば、図11に示すような特定スコアDB33に記録する。
検知部24は、予兆検知の対象となる構成情報が入力された場合に、記憶部30に記憶された学習データDB31、カウントデータDB32、及び特定スコアDB33を用いて、障害発生の予兆を検知する。具体的には、検知部24は、検知対象の構成情報に含まれるキー及び値の組で表される各検知対象データと、学習データとの比較を行い、構成情報における各設定項目の値が正しく設定されているか否かを判定する。検知部24は、正しい値が設定されていないと判定した場合には、障害発生の予兆として検知し、予兆検知結果を出力する。
上述したように、本実施形態では、正解の学習データと誤りの学習データとのいずれを用いるかを特定したうえで、予兆検知を行う。具体的には、検知部24は、特定スコアDB33から、障害種別毎に、検知対象データに含まれるキーと一致するキーに対応する特定スコアS及び特定スコアSを取得する。上記(1)式に示す特定スコアSは、値が小さいほど正解の学習データの値が正解である確からしさの確度が高いことを表す。また、上記(2)式に示す特定スコアSは、値が小さいほど誤りの学習データの値が誤りである確からしさの確度が高いことを表す。そこで、検知部24は、特定スコアSが特定スコアSより小さい障害種別については、正解の学習データを特定し、特定スコアSが特定スコアSより小さい障害種別については、誤りの学習データを特定する。
検知部24は、正解の学習データを特定した障害種別については、検知対象データと正解の学習データとを比較し、一致しなかった場合に障害発生の予兆を検知する。また、検知部24は、誤りの学習データを特定した障害種別については、検知対象データと誤りの学習データとを比較し、一致した場合に障害発生の予兆を検知する。検知部24は、障害発生の予兆を検知した場合には、その障害種別と、検知対象データ(キー及び値)とに、検知スコア(詳細は後述)を付与した予兆検知結果を、例えば、図12に示すような予兆検知結果リスト41に記録する。
検知スコアとは、その予兆検知結果の確からしさを示すスコアである。例えば、ある障害種別について、検知対象データのキーと一致するキーを有する誤りの学習データが複数存在し、検知対象データの値が、その誤りの学習データのいずれかと一致したとする。この場合、検知対象データの値と一致した誤りの学習データの出現回数が多いほど、その値が誤りであることの確からしさの確度が高くなる。そこで、検知部24は、例えば、検知対象データの値と一致した誤りの学習データの出現回数Nを、同一の障害種別及びキーの誤りの学習データの出現回数Nで除した値を検知スコアとすることができる。なお、出現回数Nは学習データDB31から取得することができ、出現回数NはカウントデータDB32から取得することができる。
また、ある障害種別について、検知対象データのキーと一致するキーを有する正解の学習データの値と、検知対象データの値とが一致しなかった場合には、上記のような出現回数に基づく検知スコアを計算することができない。そこで、検知部24は、上記の出現回数に基づく検知スコアとは異なり、正解の学習データと一致しなかったことを示す値(例えば、「−1」)を検知スコアとして付与する。
予兆検知装置10は、例えば図13に示すコンピュータ50で実現することができる。コンピュータ50はCPU51、一時記憶領域としてのメモリ52、及び不揮発性の記憶装置53を備える。また、コンピュータ50は、入出力装置58が接続される入出力インターフェース(I/F)54を備える。また、コンピュータ50は、記録媒体59に対するデータの読み込み及び書き込みを制御するread/write(R/W)部55、及びインターネット等のネットワーク12に接続されるネットワークI/F56を備える。CPU51、メモリ52、記憶装置53、入出力I/F54、R/W部55、及びネットワークI/F56は、バス57を介して互いに接続される。
記憶装置53はHDD(Hard Disk Drive)、SSD(solid state drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶装置53には、コンピュータ50を予兆検知装置10として機能させるための予兆検知プログラム60が記憶される。また、記憶装置53は、学習データが記憶される学習データ記憶領域71と、カウントデータが記憶されるカウントデータ記憶領域72と、特定スコアが記憶される特定スコア記憶領域73とを有する。
CPU51は、予兆検知プログラム60を記憶装置53から読み出してメモリ52に展開し、予兆検知プログラム60が有するプロセスを順次実行する。また、CPU51は、学習データ記憶領域71に記憶された学習データを読み出し、学習データDB31としてメモリ52に展開する。また、CPU51は、カウントデータ記憶領域72に記憶されたカウントデータを読み出し、カウントデータDB32としてメモリ52に展開する。また、CPU51は、特定スコア記憶領域73に記憶された特定スコアを読み出し、特定スコアDB33としてメモリ52に展開する。さらに、CPU51は、予兆検知プログラム60の実行中に、上述した障害種別リスト37、キーリスト38、パターンリスト39、及び予兆検知結果リスト41をメモリ52上に作成する。
予兆検知プログラム60は、パターン生成プロセス61と、学習データ生成プロセス62と、特定スコア計算プロセス63と、検知プロセス64とを有する。
CPU51は、パターン生成プロセス61を実行することで、図2に示すパターン生成部21として動作する。また、CPU51は、学習データ生成プロセス62を実行することで、図2に示す学習データ生成部22として動作する。また、CPU51は、特定スコア計算プロセス63を実行することで、図2に示す特定スコア計算部23として動作する。また、CPU51は、検知プロセス64を実行することで、図2に示す検知部24として動作する。これにより、予兆検知プログラム60を実行したコンピュータ50が、予兆検知装置10として機能することになる。
なお、予兆検知装置10は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、本実施形態に係る予兆検知装置10の作用について説明する。まず、予兆検知装置10に複数の事例データ34が入力されると、予兆検知装置10において、図14に示す学習処理が実行され、記憶部30に学習データDB31、カウントデータDB32、及び特定スコアDB33が記憶される。この状態で、予兆検知装置10に検知対象の構成情報が入力されると、予兆検知装置10において、図18に示す検知処理が実行され、予兆検知結果リスト41が出力される。なお、予兆検知装置10により実行される学習処理及び検知処理は、本発明の予兆検知方法の一例である。以下、各処理について詳述する。
図14に示す学習処理のステップS10で、パターン生成部21が、図15に詳細を示すパターン生成処理を実行する。
図15に示すパターン生成処理のステップS11で、パターン生成部21は、入力された複数の事例データ34から1つの事例データ34を取得する。事例データ34には、障害復旧前の構成情報35A、及び障害復旧後の構成情報35B、及び障害種別36が含まれる。また、パターン生成部21は、所定領域(図示省略)に記憶された無視リスト40を取得する。
次に、ステップS12で、パターン生成部21が、取得した事例データ34に含まれる障害種別36を、例えば、図5に示すような障害種別リスト37に記録する。
次に、ステップS13で、パターン生成部21が、取得した事例データ34に含まれる障害復旧前の構成情報35A、及び障害復旧後の構成情報35Bの各々から、キーを全て抽出し、例えば、図6に示すようなキーリスト38を作成する。
次に、ステップS14で、パターン生成部21が、キーリスト38に以下のステップS15〜S17の処理が未処理のキーが存在するか否かを判定する。未処理のキーが存在する場合には、処理はステップS15へ移行し、パターン生成部21が、未処理のキーから1つを選択し、キーKとする。
次に、ステップS16で、パターン生成部21が、キーKに対応する障害復旧前後の値を、障害復旧前の構成情報35A、及び障害復旧後の構成情報35Bの各々から取得する。そして、パターン生成部21は、取得した障害復旧前後の値が異なるか否かを判定する。異なる場合には、処理はステップS17へ移行し、等しい場合には、処理はステップS14に戻る。
ステップS17では、パターン生成部21が、ステップS11で取得した事例データ34に含まれる障害種別と、キーKと、キーKに対応する障害復旧前の値Vと、障害復旧前の値Vとを対応付けたパターンを生成する。そして、パターン生成部21は、例えば、図7に示すようなパターンリスト39に、生成したパターンを追加する。
上記ステップS14で、未処理のキーが存在しないと判定されると、処理はステップS18へ移行する。ステップS18では、パターン生成部21が、上記ステップS11で取得した無視リスト40に予め定められた障害種別とキーとの組に一致する障害種別とキーとを有するパターンを、パターンリスト39から削除する。
次に、ステップS19で、パターン生成部21が、生成した障害種別リスト37、及びパターンリスト39を出力する。入力された全ての事例データ34についてパターン生成処理が終了した場合には、処理は図14に示す学習処理に戻る。
次に、図14に示す学習処理のステップS20で、学習データ生成部22が、図16に詳細を示す学習データ生成処理を実行する。
図16に示す学習データ生成処理のステップS21で、学習データ生成部22が、パターン生成部21から出力されたパターンリスト39を取得する。
次に、ステップS22で、学習データ生成部22が、パターンリスト39に、以下のステップS23〜S26の処理が未処理のパターンが存在するか否かを判定する。未処理のパターンが存在する場合には、処理はステップS23へ移行する。ステップS23では、学習データ生成部22が、未処理のパターンから1つを選択し、パターンに含まれる障害種別をF、キーをK、障害復旧前の値をV、障害復旧後の値をVとする。
次に、ステップS24で、学習データ生成部22が、例えば、図9に示すような学習データDB31において、障害種別がF、キーがK、値がVである学習データであって、正誤が「Failure」の学習データの回数を1増加させる。次に、ステップS25で、学習データ生成部22が、学習データDB31において、障害種別がF、キーがK、値がVである学習データであって、正誤が「Success」の学習データの回数を1増加させる。なお、ステップS24及びS25において、該当の学習データが学習データDB31に登録されていない場合には、学習データ生成部22は、該当の学習データを追加した上で、回数に1を設定する。
次に、ステップS26で、学習データ生成部22が、例えば、図10に示すようなカウントデータDB32において、障害種別がF、キーがKのカウントデータ(N及びN)をそれぞれ1増加させ、処理はステップS22に戻る。なお、該当のカウントデータがカウントデータDB32に登録されていない場合には、学習データ生成部22は、該当のカウントデータを追加した上で、N及びNの各々に1を設定する。
上記ステップS22で、未処理のパターンが存在しないと判定された場合には、処理はステップS27へ移行し、学習データ生成部22が、学習データDB31及びカウントデータDB32を出力して、処理は図14に示す学習処理に戻る。
次に、図14に示す学習処理のステップS30で、特定スコア計算部23が、図17に詳細を示す特定スコア計算処理を実行する。
図17に示す特定スコア計算処理のステップS31で、特定スコア計算部23が、パターン生成部21から出力された障害種別リスト37と、学習データ生成部22から出力された学習データDB31及びカウントデータDB32とを取得する。
次に、ステップS32で、特定スコア計算部23が、障害種別リスト37に、以下のステップS33〜S40の処理が未処理の障害種別が存在するか否かを判定する。未処理の障害種別が存在する場合には、処理はステップS33へ移行し、特定スコア計算部23が、未処理の障害種別から1つを選択し、障害種別Fとする。
次に、ステップS34で、特定スコア計算部23が、学習データDB31に記録された学習データのうち、障害種別がFの学習データに含まれるキーを全て抽出し、Fのキーリストを作成する。次に、ステップS35で、特定スコア計算部23が、Fのキーリストに、以下のステップS36〜S40の処理が未処理のキーが存在するか否かを判定する。未処理のキーが存在する場合には、処理はステップS36へ移行し、特定スコア計算部23が、未処理のキーから1つを選択し、キーKとする。
次に、ステップS37で、特定スコア計算部23が、カウントデータDB32から、障害種別がFで、キーがKのカウントデータ(N及びN)を取得する。
次に、ステップS38で、特定スコア計算部23が、学習データDB31から、障害種別がF、キーがK、正誤が「Success」の学習データの回数を、学習データの値毎に取得する。そして、特定スコア計算部23が、上記ステップS37で取得した回数Nと、学習データから取得した回数とを用いて値毎の経験的確率を求め、例えば(1)式により、正解の特定スコアSを計算する。
次に、ステップS39で、特定スコア計算部23が、学習データDB31から、障害種別がF、キーがK、正誤が「Failure」の学習データの回数を、学習データの値毎に取得する。そして、特定スコア計算部23が、上記ステップS37で取得した回数Nと、学習データから取得した回数とを用いて値毎の経験的確率を求め、例えば(2)式により、誤りの特定スコアSを計算する。
次に、ステップS40で、特定スコア計算部23が、障害種別Fと、キーKと、特定スコアSと、特定スコアSとの組を、例えば、図11に示すような特定スコアDB33に記録し、処理はステップS35に戻る。
上記ステップS35で、未処理のキーが存在しないと判定されると、処理はステップS32に戻る。ステップS32で、未処理の障害種別が存在しないと判定されると、処理はステップS41へ移行する。
ステップS41では、特定スコア計算部23が、学習データDB31、カウントデータDB32、及び特定スコアDB33を、記憶部30に記憶して、処理は図14に戻り、学習処理を終了する。
次に、図18に示す検知処理のステップS51で、検知部24が、入力された検知対象の構成情報を取得する。また、検知部24が、記憶部30に記憶された学習データDB31、カウントデータDB32、及び特定スコアDB33を取得する。
次に、ステップS52で、検知部24が、検知対象の構成情報に含まれるキー及び値の組で表される検知対象データのうち、以下のステップS53〜S63の処理が未処理の検知対象データが存在するか否かを判定する。未処理の検知対象データが存在する場合には、処理はステップS53へ移行し、検知部24が、未処理の検知対象データから1つを選択し、選択した検知対象データに含まれるキーをK、値をVとする。
次に、ステップS54で、検知部24が、特定スコアDB33に、キーKに対応して記録された障害種別のうち、以下のステップS55〜S63の処理が未処理の障害種別が存在するか否かを判定する。未処理の障害種別が存在する場合には、処理はステップS55へ移行し、検知部24が、未処理の障害種別から1つを選択してFとし、障害種別がF、かつキーがKに対応する特定スコアS及び特定スコアSを、選択スコアDB33から取得する。
次に、ステップS56で、検知部24が、特定スコアSと特定スコアSとを比較し、S<Sか否かを判定する。上述したように、上記(1)式に示す特定スコアSは、値が小さいほど正解の学習データの値が正解である確からしさの確度が高いことを表す。また、上記(2)式に示す特定スコアSは、値が小さいほど誤りの学習データの値が誤りである確からしさの確度が高いことを表す。従って、S<Sの場合には、正解の学習データを用いた方がより適切に予兆検知を行うことができ、S>Sの場合には、誤りの学習データを用いた方がより適切に予兆検知を行うことができる。S=Sの場合には、どちらを用いてもよいが、本実施形態では、誤りの学習データを用いることとする。S<Sの場合には、処理はステップS57へ移行し、S≧Sの場合には、処理はステップS60へ移行する。
ステップS57では、検知部24が、学習データDB31から、障害種別がF、キーがK、正誤が「Success」の学習データの値を取得し、Vとする。次に、ステップS58で、検知部24が、検知対象データの値Vと取得した学習データの値Vとが一致するか否かを判定する。V=Vの場合には、検知対象データの値Vには正しい値が設定されていることを表しているため、そのまま処理はステップS54に戻る。V≠Vの場合には、処理はステップS59へ移行し、検知部24が、検知スコアSに、検知対象データの値が、正解の学習データと一致しなかったことを示す値「−1」を設定し、処理はステップS63へ移行する。
一方、ステップS60では、検知部24が、学習データDB31から、障害種別がF、キーがK、正誤が「Failure」の学習データの値を取得し、Vとする。次に、ステップS61で、検知部24が、検知対象データの値Vと取得した学習データの値Vとが一致するか否かを判定する。V≠Vの場合には、検知対象データの値Vには誤りの値が設定されているとはいえないため、そのまま処理はステップS54に戻る。V=Vの場合には、処理はステップS62へ移行する。ステップS62では、検知部24が、障害種別がF、かつキーがKで、値Vを有する誤りの学習データの出現回数Nを学習データDB31から取得する。また、検知部24が、障害種別がF、かつキーがKの誤りの学習データの出現回数NをカウントデータDB32から取得する。そして、検知部24は、検知スコアSに、N/Nを設定し、処理はステップS63へ移行する。
ステップS63では、検知部24が、障害種別Fと、キーKと、値Vと、検知スコアSとの組を予兆検知結果として、例えば、図12に示すような予兆検知結果リスト41に記録し、処理はステップS54に戻る。ステップS54で、未処理の障害種別が存在しないと判定されると、処理はステップS52に戻る。ステップS52で、未処理の検知対象データが存在しないと判定されると、処理はステップS64へ移行する。
ステップS64では、検知部24が、予兆検知結果リスト41を出力して、検知処理は終了する。
なお、上記ステップS57で、複数の値Vが取得された場合には、ステップS58で、検知対象データの値Vが、いずれの値Vとも一致しないと判定される場合に、ステップS59へ移行するようにするとよい。
また、上記ステップS60で、複数の値Vが取得された場合には、ステップS61で、検知対象データの値Vが、いずれかの値Vと一致すると判定される場合に、ステップS62へ移行するようにするとよい。また、検知スコアSに対する閾値Sthを設定しておき、S>Sthとなる予兆検知結果のみを予兆検知結果リスト41に追加するようにしてもよい。これにより、障害発生の予兆としてより確からしい場合のみを予兆検知結果リスト41に含めることができる。また、閾値Sthは、障害種別毎及びキー毎に異なる値を設定してもよい。
以上説明したように、本実施形態によれば、障害復旧の前後で取得した構成情報の各々から学習データを生成し、この学習データと検知対象の構成情報に含まれる検知対象データとを比較して、各設定項目に正しい値が設定されているか否かを判定する。これにより、構成情報の変更前後で値が異なる箇所を検出して、その箇所が障害の原因になり得るか否かを分析する手法では検知することができない、設定値の変更漏れに起因する障害発生の予兆も検知することができる。
また、本実施形態によれば、正解の学習データと、誤りの学習データとで、より正解としての確からしさ、または誤りとしての確からしさの確度が高い方の学習データを用いる。これにより、設定値の変更ミスまたは変更漏れに起因する障害発生のいずれの場合も、より適切に予兆を検知することができる。
なお、上記実施形態では、処理装置16に障害が発生する都度、その障害の復旧前後で構成情報を採取することを想定している。そのため、入力される事例データ34に含まれる構成情報35A、35Bは、障害復旧前後の構成情報であることが特定されていることを前提としている。
ただし、構成情報は、定期的なタイミング(例えば、1日1回)で採取したり、障害復旧とは関係なく任意のタイミングで採取したりする場合もある。このようなタイミングで採取された構成情報が入力された場合には、採取時刻が障害復旧前の期間として予め定めた所定期間内に含まれる構成情報を障害復旧前の構成情報35Aとして特定する。同様に、採取時刻が障害復旧後の期間として予め定めた所定期間内に含まれる構成情報を障害復旧後の構成情報35Bとして特定する。そして、障害復旧前後の期間として対応する所定期間の各々において採取された障害復旧前の構成情報35Aと障害復旧後の構成情報35Bとを組にして、値が変更された設定項目についてのパターンを生成すればよい。
例えば、障害復旧作業以外の作業中に採取した構成情報には、本来正解ではない値や、障害復旧とは関係ない値が設定されている設定項目が含まれる場合がある。このような構成情報から学習データを生成した場合には、正解または誤りの学習データとして不適な学習データが生成されてしまう。従って、障害復旧前後の期間を特定するための「所定期間」としては、障害復旧作業に関係しない作業期間を除外するような期間を定めておく。
また、上記実施形態では、予兆検知結果に障害種別、キー、値、及び検知スコアを含める場合について説明したが、予兆検知結果に、正解の値も加えてもよい。具体的には、正解の学習データを用いて予兆検知を行った場合には、正解の学習データが有する値を正解の値として加えることができる。また、誤りの学習データを用いて予兆検知を行った場合には、その学習データと障害種別及びキーが同一で、正誤が「Success」の学習データが有する値を正解の値として加えることができる。
また、上記では、本発明に係る予兆検知プログラムの一例である予兆検知プログラム60が記憶装置53に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係る予兆検知プログラムは、CD−ROM、DVD−ROM、USBメモリ等の記録媒体に記録された形態で提供することも可能である。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
コンピュータに、
システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積し、
特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出し、
抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値の種類と前記第2の構成情報における設定値の種類とに基づいて、前記第1の構成情報と前記第2の構成情報のいずれか一方の設定変更項目を予兆検知に使用する情報として特定する
処理を実行させる予兆検知支援プログラム。
(付記2)
前記予兆検知に使用する情報を特定する際に、前記第1の構成情報の設定変更項目及び前記第2の構成情報の設定変更項目の各々について、前記予兆検知に使用する情報としての確からしさを示す特定スコアを計算し、前記第1の構成情報の設定変更項目の特定スコアと前記第2の構成情報の設定変更項目の特定スコアとを比較して、前記予兆検知に使用する情報としての確からしさの確度が高い設定変更項目を特定する付記1記載の予兆検知支援プログラム。
(付記3)
前記特定スコアは、前記設定値の種類が少ないほど、前記確からしさの確度が高くなる付記2記載の予兆検知支援プログラム。
(付記4)
前記第1の構成情報の設定変更項目の特定スコアとして、前記設定値の種類毎に求めた該種類の設定値が、前記第1の構成情報に出現する経験的確率を用いた条件付きエントロピーを計算し、前記第2の構成情報の設定変更項目の特定スコアとして、前記設定値の種類毎に求めた該種類の設定値が、前記第2の構成情報に出現する経験的確率を用いた条件付きエントロピーを計算する付記2または付記3記載の予兆検知支援プログラム。
(付記5)
障害復旧前の期間として予め定めた第1の期間に採取時刻が含まれる構成情報を前記第1の構成情報とし、障害復旧後の期間として予め定めた第2の期間に採取時刻が含まれる構成情報を前記第2の構成情報とする付記1〜付記4のいずれか1項記載の予兆検知支援プログラム。
(付記6)
前記第1の構成情報の設定変更項目の設定値を誤りの値を示す学習データとして用い、前記第2の構成情報の設定変更項目の設定値を正解の値を示す学習データとして用いる付記1〜付記5のいずれか1項記載の予兆検知支援プログラム。
(付記7)
コンピュータに、
システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積し、
特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出し、
抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値の種類と前記第2の構成情報における設定値の種類とに基づいて、前記第1の構成情報と前記第2の構成情報のいずれか一方の設定変更項目を予兆検知に使用する情報として特定し、
特定された前記第1の構成情報の設定変更項目の設定値、または前記第2の構成情報の設定変更項目の設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とを比較して、障害発生の予兆検知を行う
処理を実行させる予兆検知プログラム。
(付記8)
前記予兆検知に使用する情報として前記第1の構成情報の設定変更項目の設定値が特定された場合、特定された設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致しない場合に、障害発生の予兆として検知する付記7記載の予兆検知プログラム。
(付記9)
前記予兆検知に使用する情報として前記第2の構成情報の設定変更項目の設定値が特定された場合、特定された設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致する場合に、障害発生の予兆として検知する付記7記載の予兆検知プログラム。
(付記10)
特定された設定値が前記第2の構成情報に出現する回数を、前記設定変更項目が前記第2の構成情報に出現する回数で除した検知スコアを計算し、前記検知スコアを前記障害発生の予兆検知の結果に付加する付記9記載の予兆検知プログラム。
(付記11)
前記検知スコアが予め定めた閾値以上の設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致する場合に、障害発生の予兆として検知する付記10記載の予兆検知プログラム。
(付記12)
コンピュータに、
システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積し、
特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出し、
抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値の種類と前記第2の構成情報における設定値の種類とに基づいて、前記第1の構成情報と前記第2の構成情報のいずれか一方の設定変更項目を予兆検知に使用する情報として特定する
処理を実行させる予兆検知支援方法。
(付記13)
前記予兆検知に使用する情報を特定する際に、前記第1の構成情報の設定変更項目及び前記第2の構成情報の設定変更項目の各々について、前記予兆検知に使用する情報としての確からしさを示す特定スコアを計算し、前記第1の構成情報の設定変更項目の特定スコアと前記第2の構成情報の設定変更項目の特定スコアとを比較して、前記予兆検知に使用する情報としての確からしさの確度が高い設定変更項目を特定する付記12記載の予兆検知支援方法。
(付記14)
前記特定スコアは、前記設定値の種類が少ないほど、前記確からしさの確度が高くなる付記13記載の予兆検知支援方法。
(付記15)
前記第1の構成情報の設定変更項目の特定スコアとして、前記設定値の種類毎に求めた該種類の設定値が、前記第1の構成情報に出現する経験的確率を用いた条件付きエントロピーを計算し、前記第2の構成情報の設定変更項目の特定スコアとして、前記設定値の種類毎に求めた該種類の設定値が、前記第2の構成情報に出現する経験的確率を用いた条件付きエントロピーを計算する付記13または付記14記載の予兆検知支援方法。
(付記16)
障害復旧前の期間として予め定めた第1の期間に採取時刻が含まれる構成情報を前記第1の構成情報とし、障害復旧後の期間として予め定めた第2の期間に採取時刻が含まれる構成情報を前記第2の構成情報とする付記12〜付記15のいずれか1項記載の予兆検知支援方法。
(付記17)
前記第1の構成情報の設定変更項目の設定値を誤りの値を示す学習データとして用い、前記第2の構成情報の設定変更項目の設定値を正解の値を示す学習データとして用いる付記12〜付記16のいずれか1項記載の予兆検知支援方法。
(付記18)
コンピュータに、
システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積し、
特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出し、
抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値の種類と前記第2の構成情報における設定値の種類とに基づいて、前記第1の構成情報と前記第2の構成情報のいずれか一方の設定変更項目を予兆検知に使用する情報として特定し、
特定された前記第1の構成情報の設定変更項目の設定値、または前記第2の構成情報の設定変更項目の設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とを比較して、障害発生の予兆検知を行う
処理を実行させる予兆検知方法。
(付記19)
前記予兆検知に使用する情報として前記第1の構成情報の設定変更項目の設定値が特定された場合、特定された設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致しない場合に、障害発生の予兆として検知する付記18記載の予兆検知方法。
(付記20)
前記予兆検知に使用する情報として前記第2の構成情報の設定変更項目の設定値が特定された場合、特定された設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致する場合に、障害発生の予兆として検知する付記18記載の予兆検知方法。
(付記21)
特定された設定値が前記第2の構成情報に出現する回数を、前記設定変更項目が前記第2の構成情報に出現する回数で除した検知スコアを計算し、前記検知スコアを前記障害発生の予兆検知の結果に付加する付記20記載の予兆検知方法。
(付記22)
前記検知スコアが予め定めた閾値以上の設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致する場合に、障害発生の予兆として検知する付記21記載の予兆検知方法。
(付記23)
システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積する蓄積部と、
特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出する抽出部と、
抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値の種類と前記第2の構成情報における設定値の種類とに基づいて、前記第1の構成情報と前記第2の構成情報のいずれか一方の設定変更項目を予兆検知に使用する情報として特定する特定部と、
を含む予兆検知支援装置。
(付記24)
前記特定部は、前記第1の構成情報の設定変更項目及び前記第2の構成情報の設定変更項目の各々について、前記予兆検知に使用する情報としての確からしさを示す特定スコアを計算し、前記第1の構成情報の設定変更項目の特定スコアと前記第2の構成情報の設定変更項目の特定スコアとを比較して、前記予兆検知に使用する情報としての確からしさの確度が高い設定変更項目を特定する付記23記載の予兆検知支援装置。
(付記25)
前記特定スコアは、前記設定値の種類が少ないほど、前記確からしさの確度が高くなる付記24記載の予兆検知支援装置。
(付記26)
前記特定部は、前記第1の構成情報の設定変更項目の特定スコアとして、前記設定値の種類毎に求めた該種類の設定値が、前記第1の構成情報に出現する経験的確率を用いた条件付きエントロピーを計算し、前記第2の構成情報の設定変更項目の特定スコアとして、前記設定値の種類毎に求めた該種類の設定値が、前記第2の構成情報に出現する経験的確率を用いた条件付きエントロピーを計算する付記24または付記25記載の予兆検知支援装置。
(付記27)
前記蓄積部は、障害復旧前の期間として予め定めた第1の期間に採取時刻が含まれる構成情報を前記第1の構成情報として蓄積し、障害復旧後の期間として予め定めた第2の期間に採取時刻が含まれる構成情報を前記第2の構成情報として蓄積する付記23〜付記26のいずれか1項記載の予兆検知支援装置。
(付記28)
前記第1の構成情報の設定変更項目の設定値を誤りの値を示す学習データとして用い、前記第2の構成情報の設定変更項目の設定値を正解の値を示す学習データとして用いる付記23〜付記27のいずれか1項記載の予兆検知支援装置。
(付記29)
システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積する蓄積部と、
特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出する抽出部と、
抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値の種類と前記第2の構成情報における設定値の種類とに基づいて、前記第1の構成情報と前記第2の構成情報のいずれか一方の設定変更項目を予兆検知に使用する情報として特定する特定部と、
特定された前記第1の構成情報の設定変更項目の設定値、または前記第2の構成情報の設定変更項目の設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とを比較して、障害発生の予兆検知を行う検知部と、
含む予兆検知装置。
(付記30)
前記検知部は、前記予兆検知に使用する情報として前記第1の構成情報の設定変更項目の設定値が特定された場合、特定された設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致しない場合に、障害発生の予兆として検知する付記29記載の予兆検知装置。
(付記31)
前記検知部は、前記予兆検知に使用する情報として前記第2の構成情報の設定変更項目の設定値が特定された場合、特定された設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致する場合に、障害発生の予兆として検知する付記29記載の予兆検知装置。
(付記32)
前記検知部は、特定された設定値が前記第2の構成情報に出現する回数を、前記設定変更項目が前記第2の構成情報に出現する回数で除した検知スコアを計算し、前記検知スコアを前記障害発生の予兆検知の結果に付加する付記31記載の予兆検知装置。
(付記33)
前記検知部は、前記検知スコアが予め定めた閾値以上の設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致する場合に、障害発生の予兆として検知する付記32記載の予兆検知装置。
10 予兆検知装置
14 処理システム
16 処理装置
20 学習部
21 パターン生成部
22 学習データ生成部
23 特定スコア計算部
24 検知部
30 記憶部
31 学習データ・データベース
32 カウントデータ・データベース
33 特定スコア・データベース
34 事例データ
35A 障害復旧前の構成情報
35B 障害復旧後の構成情報
36 障害種別
50 コンピュータ
51 CPU
52 メモリ
53 記憶装置
60 予兆検知プログラム

Claims (10)

  1. コンピュータに、
    システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積し、
    特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出し、
    抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値を誤りの値とする学習データとし、前記第2の構成情報における設定値を正解の値とする学習データとし、前記第1の構成情報と前記第2の構成情報のいずれか一方を予兆検知に使用する学習データとして特定する
    処理を実行させる予兆検知支援プログラム。
  2. 前記予兆検知に使用する学習データを特定する際に、前記第1の構成情報の設定変更項目及び前記第2の構成情報の設定変更項目の各々について、前記予兆検知に使用する学習データとしての確からしさを示す特定スコアを計算し、前記第1の構成情報の設定変更項目の特定スコアと前記第2の構成情報の設定変更項目の特定スコアとを比較して、前記予兆検知に使用する学習データとしての確からしさの確度が高い設定変更項目を特定する請求項1記載の予兆検知支援プログラム。
  3. 前記第1の構成情報の設定変更項目の特定スコアとして、前記設定値の種類毎に求めた該種類の設定値が、前記第1の構成情報に出現する経験的確率を用いた条件付きエントロピーを計算し、前記第2の構成情報の設定変更項目の特定スコアとして、前記設定値の種類毎に求めた該種類の設定値が、前記第2の構成情報に出現する経験的確率を用いた条件付きエントロピーを計算する請求項2記載の予兆検知支援プログラム。
  4. 障害復旧前の期間として予め定めた第1の期間に採取時刻が含まれる構成情報を前記第1の構成情報とし、障害復旧後の期間として予め定めた第2の期間に採取時刻が含まれる構成情報を前記第2の構成情報とする請求項1〜請求項3のいずれか1項記載の予兆検知支援プログラム。
  5. コンピュータに、
    システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積し、
    特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出し、
    抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値を誤りの値とする学習データとし、前記第2の構成情報における設定値を正解の値とする学習データとし、前記第1の構成情報と前記第2の構成情報のいずれか一方を予兆検知に使用する学習データとして特定し、
    特定された前記第1の構成情報の設定変更項目の設定値、または前記第2の構成情報の設定変更項目の設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とを比較して、障害発生の予兆検知を行う
    処理を実行させる予兆検知プログラム。
  6. 前記予兆検知に使用する情報として前記第2の構成情報の設定変更項目の設定値が特定された場合、特定された設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致する場合に、障害発生の予兆として検知する請求項5記載の予兆検知プログラム。
  7. 特定された設定値が前記第2の構成情報に出現する回数を、前記設定変更項目が前記第2の構成情報に出現する回数で除した検知スコアを計算し、前記検知スコアを前記障害発生の予兆検知の結果に付加する請求項6記載の予兆検知プログラム。
  8. 前記検知スコアが予め定めた閾値以上の設定値と、検知対象の構成情報の設定変更項目に設定されている設定値とが一致する場合に、障害発生の予兆として検知する請求項7記載の予兆検知プログラム。
  9. コンピュータに、
    システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積し、
    特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出し、
    抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値を誤りの値とする学習データとし、前記第2の構成情報における設定値を正解の値とする学習データとし、前記第1の構成情報と前記第2の構成情報のいずれか一方を予兆検知に使用する学習データとして特定する
    処理を実行させる予兆検知支援方法。
  10. システムを構成する複数の処理装置について、障害復旧前の第1の構成情報と、障害復旧後の第2の構成情報と、障害種別を示す情報とを取得して蓄積する蓄積部と、
    特定の障害種別に関する前記第1の構成情報と前記第2の構成情報から該特定の障害種別に関連して構成情報の変更がされた設定変更項目を抽出する抽出部と、
    抽出した前記特定の障害種別に関連する設定変更項目それぞれについて、前記第1の構成情報における設定値を誤りの値とする学習データとし、前記第2の構成情報における設定値を正解の値とする学習データとし、前記第1の構成情報と前記第2の構成情報のいずれか一方を予兆検知に使用する学習データとして特定する特定部と、
    を含む予兆検知支援装置。
JP2014201501A 2014-09-30 2014-09-30 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、 Expired - Fee Related JP6405851B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014201501A JP6405851B2 (ja) 2014-09-30 2014-09-30 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
US14/831,161 US10042686B2 (en) 2014-09-30 2015-08-20 Determination method, selection method, and determination device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014201501A JP6405851B2 (ja) 2014-09-30 2014-09-30 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、

Publications (2)

Publication Number Publication Date
JP2016071696A JP2016071696A (ja) 2016-05-09
JP6405851B2 true JP6405851B2 (ja) 2018-10-17

Family

ID=55584524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014201501A Expired - Fee Related JP6405851B2 (ja) 2014-09-30 2014-09-30 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、

Country Status (2)

Country Link
US (1) US10042686B2 (ja)
JP (1) JP6405851B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6717067B2 (ja) * 2016-06-13 2020-07-01 富士通株式会社 対処履歴分析プログラム、方法、及び装置
US11126494B2 (en) * 2017-10-31 2021-09-21 Paypal, Inc. Automated, adaptive, and auto-remediating system for production environment
JP7367495B2 (ja) * 2019-11-29 2023-10-24 富士通株式会社 情報処理装置および通信ケーブルログ情報採取方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3854384T2 (de) * 1987-11-30 1996-03-28 Ibm Verfahren zum Betreiben eines einen anteilig genutzten virtuellen Speicher verwendenden Multiprozessorsystems.
US5483637A (en) * 1994-06-27 1996-01-09 International Business Machines Corporation Expert based system and method for managing error events in a local area network
JP3532289B2 (ja) * 1995-04-27 2004-05-31 三菱電機株式会社 計算機システム解析装置
US6023507A (en) * 1997-03-17 2000-02-08 Sun Microsystems, Inc. Automatic remote computer monitoring system
US6738811B1 (en) * 2000-03-31 2004-05-18 Supermicro Computer, Inc. Method and architecture for monitoring the health of servers across data networks
US20030145083A1 (en) * 2001-11-16 2003-07-31 Cush Michael C. System and method for improving support for information technology through collecting, diagnosing and reporting configuration, metric, and event information
US7386839B1 (en) * 2002-11-06 2008-06-10 Valery Golender System and method for troubleshooting software configuration problems using application tracing
US9069666B2 (en) * 2003-05-21 2015-06-30 Hewlett-Packard Development Company, L.P. Systems and methods for controlling error reporting and resolution
US7624174B2 (en) 2003-05-22 2009-11-24 Microsoft Corporation Self-learning method and system for detecting abnormalities
US20060179116A1 (en) * 2003-10-10 2006-08-10 Speeter Thomas H Configuration management system and method of discovering configuration data
JP2007052756A (ja) 2005-08-16 2007-03-01 Movell Software:Kk ワイヤレスデバイスの不具合診断に適用する学習型診断データベース
JP4971121B2 (ja) 2007-12-14 2012-07-11 株式会社テイエルブイ スチームトラップ
WO2009144825A1 (ja) * 2008-05-30 2009-12-03 富士通株式会社 復旧方法管理プログラム、復旧方法管理装置及び復旧方法管理方法
JP2011002906A (ja) * 2009-06-16 2011-01-06 Fujitsu Ltd 監視プログラム、監視装置、および監視方法
JP5609637B2 (ja) * 2010-12-28 2014-10-22 富士通株式会社 プログラム、情報処理装置、及び情報処理方法
WO2012127588A1 (ja) * 2011-03-18 2012-09-27 富士通株式会社 対処支援プログラム、対処支援装置および対処支援方法
US8862938B2 (en) * 2011-04-18 2014-10-14 General Electric Company System, method, and apparatus for resolving errors in a system
JP6160064B2 (ja) * 2012-11-19 2017-07-12 富士通株式会社 適用判定プログラム、障害検出装置および適用判定方法

Also Published As

Publication number Publication date
US10042686B2 (en) 2018-08-07
JP2016071696A (ja) 2016-05-09
US20160092289A1 (en) 2016-03-31

Similar Documents

Publication Publication Date Title
US10514974B2 (en) Log analysis system, log analysis method and program recording medium
JP6327234B2 (ja) イベント解析装置、イベント解析システム、イベント解析方法、およびイベント解析プログラム
JP6233411B2 (ja) 障害分析装置、障害分析方法、および、コンピュータ・プログラム
US10248517B2 (en) Computer-implemented method, information processing device, and recording medium
US8504874B2 (en) Repair-policy refinement in distributed systems
JP6183450B2 (ja) システム分析装置、及び、システム分析方法
JP6295857B2 (ja) 抽出方法、装置、及びプログラム
JP6988304B2 (ja) 運用管理システム、監視サーバ、方法およびプログラム
JP6183449B2 (ja) システム分析装置、及び、システム分析方法
JP6405851B2 (ja) 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
US9430318B2 (en) Health monitoring and recovery for infrastructure devices
JP6582527B2 (ja) アラーム予測装置、アラーム予測方法及びプログラム
JPWO2018069950A1 (ja) ログ分析方法、システムおよびプログラム
US20180173687A1 (en) Automatic datacenter state summarization
JP6579995B2 (ja) 静観候補特定装置、静観候補特定方法及び静観候補特定プログラム
US9690639B2 (en) Failure detecting apparatus and failure detecting method using patterns indicating occurrences of failures
JP2007164346A (ja) 決定木変更方法、異常性判定方法およびプログラム
US9996410B2 (en) Non-transitory computer-readable recording medium storing program for sign detection, sign detection device, and sign detection method
JP7504816B2 (ja) ログ検索支援装置、及びログ検索支援方法
JP6627258B2 (ja) システムモデル生成支援装置、システムモデル生成支援方法、及び、プログラム
JP6340990B2 (ja) メッセージ表示方法、メッセージ表示装置、およびメッセージ表示プログラム
JP2016157361A (ja) プラント診断装置
JP6717067B2 (ja) 対処履歴分析プログラム、方法、及び装置
JP6508202B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US20220253529A1 (en) Information processing apparatus, information processing method, and computer readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180903

R150 Certificate of patent or registration of utility model

Ref document number: 6405851

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees