JP2014102661A - 適用判定プログラム、障害検出装置および適用判定方法 - Google Patents

適用判定プログラム、障害検出装置および適用判定方法 Download PDF

Info

Publication number
JP2014102661A
JP2014102661A JP2012253731A JP2012253731A JP2014102661A JP 2014102661 A JP2014102661 A JP 2014102661A JP 2012253731 A JP2012253731 A JP 2012253731A JP 2012253731 A JP2012253731 A JP 2012253731A JP 2014102661 A JP2014102661 A JP 2014102661A
Authority
JP
Japan
Prior art keywords
failure
pattern
system configuration
configuration
sign
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012253731A
Other languages
English (en)
Other versions
JP6160064B2 (ja
Inventor
Koyo Watanabe
幸洋 渡辺
Hiroshi Otsuka
浩 大塚
Yasuhide Matsumoto
安英 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012253731A priority Critical patent/JP6160064B2/ja
Priority to US14/011,824 priority patent/US9176798B2/en
Priority to GB1315890.2A priority patent/GB2508064A/en
Publication of JP2014102661A publication Critical patent/JP2014102661A/ja
Application granted granted Critical
Publication of JP6160064B2 publication Critical patent/JP6160064B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Abstract

【課題】障害の予兆を検出する際に用いる障害予兆パターンの有効性を判定することを課題とする。
【解決手段】障害検出装置は、第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、第1のシステムで過去に発生した障害事象に基づいて生成する。障害検出装置は、第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出する。そして、障害検出装置は、算出した差分情報に応じて、第2のシステム構成における障害の予兆検出への障害予兆パターンの適用可否を判定する。
【選択図】図2

Description

本発明は、適用判定プログラム、障害検出装置および適用判定方法に関する。
情報処理システムで発生する障害を検出する方法として、障害の予兆を示す障害予兆パターンを用いる障害検出装置が知られている。例えば、障害検出装置は、過去のログと障害発生情報とから、障害が起こる共起確率が高いメッセージの組み合わせを抽出する。そして、障害検出装置は、情報処理システムにおいて障害予兆パターンと同じ組み合わせのメッセージが出力された場合に、障害が発生する可能性があると判定する。
また、障害の検出に用いる障害判定ルールを他のシステム等に流用する際に、情報処理システムを構成する構成要素ごとに流用可否の基準を設ける手法が知られている。例えば、OS(Operating System)の監視項目が閾値以上一致している場合やOSのバージョンが一致している場合に、障害判定ルールを流用すると判定する。
特開2009−176203号公報 特開2012−3713号公報
しかしながら、上記の技術では、共起確率に基づいて障害予兆パターンが生成されるので、システム構成の変化が当該パターンに与える影響度が明確ではなく、障害予兆パターンの適用が妥当か否かを判定できないという問題がある。
例えば、クラウドシステムは、システムを構成する構成要素も多く、システム構成も頻繁に変わる。したがって、システム構成が変更されるたびに障害予兆パターンを学習すると、学習時間が短くなるので、生成される障害予兆パターンの信頼性も低下する。
また、構成要素ごとに基準を設ける手法を障害予兆パターンに適用した場合、構成要素ごとに基準を作成し、システム構成が変わるたびに基準に応じて障害予兆パターンを変更することになる。したがって、この手法は、作業負担も多くなり、クラウドシステムには適さない。
このように、上記の技術では、特定の情報処理システムに適用される障害予兆パターンが有効なパターンであるか否かを判定できないので、有効ではない障害予兆パターンが適用されてしまい、障害の予兆を見逃すことが発生する。
1つの側面では、障害の予兆を検出する際に用いる障害予兆パターンの有効性を判定することができる適用判定プログラム、障害検出装置および適用判定方法を提供することを目的とする。
第1の案では、コンピュータに、第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、前記第1のシステム構成において過去に発生した障害事象に基づいて生成する処理を実行させる。コンピュータに、前記第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出する処理を実行させる。コンピュータに、算出した前記差分情報に応じて、前記第2のシステム構成における障害の予兆検出への前記障害予兆パターンの適用可否を判定する処理を実行させる。
本発明の1実施態様によれば、障害の予兆を検出する際に用いる障害予兆パターンの有効性を判定することができる。
図1は、実施例1に係るシステムの全体構成例を示す図である。 図2は、実施例1に係る障害検出装置の機能構成を示す機能ブロック図である。 図3は、構成情報DBに記憶される情報の例を示す図である。 図4は、構成要素の関係性を説明する図である。 図5は、構成変更情報DBに記憶される情報の例を示す図である。 図6は、管理メッセージDBに記憶される情報の例を示す図である。 図7は、障害情報DBに記憶される情報の例を示す図である。 図8は、障害予兆パターンDBに記憶される情報の例を示す図である。 図9は、障害予兆記録DBに記憶される情報の例を示す図である。 図10は、障害予兆パターンの学習を説明する図である。 図11は、構成情報の遷移を説明する図である。 図12は、障害予兆パターンの有効範囲を説明する図である。 図13は、障害予兆検出時の構成情報例を示す図である。 図14は、構成の変更回数を説明する図である。 図15は、構成の差分数を説明する図である。 図16は、判定基準を説明する図である。 図17は、閾値の学習を説明する図である。 図18は、障害予兆学習処理の流れを示すフローチャートである。 図19は、障害予兆検出処理の流れを示すフローチャートである。 図20は、予兆通報判定処理の流れを示すフローチャートである。 図21は、構成差分算出処理の流れを示すフローチャートである。 図22は、閾値学習処理の流れを示すフローチャートである。 図23は、負荷量を説明する図である。 図24は、負荷パターンを説明する図である。 図25は、ハードウェア構成例を説明する図である。
以下に、本願の開示する適用判定プログラム、障害検出装置および適用判定方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
[全体構成]
図1は、実施例1に係るシステムの全体構成例を示す図である。図1に示すように、このシステムは、複数のクライアント端末1とデータセンタ2と、CMDB(Configuration Management Database)5と障害検出装置10とを有し、クラウドシステムによるサービスをクライアント端末1に提供するシステムである。
各クライアント端末1は、データセンタ2にアクセスしてクラウドシステムを利用し、サービスの提供を受ける端末である。データセンタ2には、複数の物理サーバが設置され、複数の仮想マシンが動作し、複数の仮想マシンによって顧客ごとに情報処理システムを構築する。各情報処理システムは、同じテンプレートから生成され、各顧客にサービスを提供する。
CMDB5は、データセンタ2で提供される情報処理システムの構成を統合管理するデータベースである。CMDB5は、各情報処理システムが有する構成要素(CI:Configuration Item)、各構成要素の属性、各構成要素が他の情報処理システムの構成要素との間で有する関係性などを関連付けて管理する。
障害検出装置10は、CMDB5を用いて、データセンタ2で提供される情報処理システムで発生する障害の予兆を検出するサーバである。このような状態において、障害検出装置10は、第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、第1のシステム構成において過去に発生した障害事象に基づいて生成する。そして、障害検出装置10は、第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出する。その後、障害検出装置10は、算出した差分情報に応じて、第2のシステム構成における障害の予兆検出への障害予兆パターンの適用可否を判定する。
このように、障害検出装置10は、障害予兆パターンを学習した時のシステム構成と、当該パターンが適用されるシステム構成との異なり具合を定量化し、学習時と異なるシステムへの適用可否を判定することで、障害予兆パターンの有効性を判定することができる。
[障害検出装置の構成]
図2は、実施例1に係る障害検出装置の機能構成を示す機能ブロック図である。なお、図1に示したクライアント端末1は一般的なコンピュータと同様の機能構成を有するので、詳細な説明は省略する。同様に、データセンタ2が有する物理サーバの機能構成についても、一般的なサーバと同様の構成を有するので、詳細な説明は省略する。
図2に示すように、障害検出装置10は、通信処理部11、記憶部12、制御部20を有する。ここで、通信処理部11は、ネットワークインターフェースカードなどであり、記憶部12は、メモリなどの記憶装置であり、制御部20は、CPU(Central Processing Unit)などのプロセッサである。
通信処理部11は、他の装置との間の通信を制御する処理部である。例えば、通信処理部11は、データセンタ2からログメッセージを受信する。また、通信処理部11は、図示しない管理装置に障害の発生や障害の予兆を通知する。また、通信処理部11は、データセンタ2内の情報処理システムを構成する構成要素の変更や、発生した障害情報などを管理装置などから受け付ける。
記憶部12は、構成情報DB13、構成変更情報DB14、管理メッセージDB15、障害情報DB16、障害予兆パターンDB17、障害予兆記録DB18を保持する。
構成情報DB13は、データセンタ2内の情報処理システムの構成情報を記憶する。具体的には、構成情報DB13は、情報処理システムごとに、情報処理システムを構成する構成要素と、各構成要素間の関係性とを記憶する。この構成情報DB13は、CMDB5そのものであってもよく、CMDB5から取得したデータを記憶する記憶部であってもよい。図3は、構成情報DBに記憶される情報の例を示す図である。なお、図3には、一例としてXML(Extensible Markup Language)形式で構成情報を管理する例を図示したが、これに限定されるものではなく、他の形式であってもよい。
図3に示すように、構成情報DB13は、構成要素の情報を管理する「CIs」と、構成要素間の関係性を示す「Relations」とを記憶する。ここで設定される情報は、管理者等によって変更される。「CIs」は、「CI id」と「item」と「type」と「ip」等を含むレコードで構成要素を定義して管理する。「CI id」には、構成要素を識別する識別子が設定される。「item」には、構成要素の情報処理システム上での役割が設定される。「type」は、構成要素の名称等が設定される。「ip」は、構成要素に割当てるアドレスが設定される。
例えば、図3の「CIs」の1行目は、「type=PC1」の構成要素が、情報処理システム上で「Pc」として動作し、「CI id=0SOIW3SH」で識別されることを定義する。同様に、図3の「CIs」の3行目は、「type=OS(A)」の構成要素が、情報処理システム上で「Os」として動作し、「CI id=H38FHZ0S」で識別されるとともに、「ip=192.168.1.10」が設定されることを定義する。また、図3の「CIs」の5行目は、「type=AP1」の構成要素が、情報処理システム上で「APP」すなわちアプリケーションとして動作し、「CI id=2H9JIIHY」で識別されることを定義する。また、図3の「CIs」の7行目は、「type=table_a」の構成要素が、情報処理システム上で「Instance」すなわち記憶部として動作し、「CI id=HREIO928」で識別されることを定義する。
また、「Relations」は、「Relations id」、「src」、「dst」、「type」等を含むレコードで構成要素間の関係性を定義する。「Relations id」には、関係性を識別する識別子が設定される。「src」には、関係元の構成要素の識別子が設定され、「dst」には、関係先の構成要素の識別子が設定される。「tyep」には、関係性を特定する情報が設定される。
図3の「Relations」の1行目は、「src」側の「CI id=0SOIW3SH」である「PC1」が、「dst」側の「CI id=H38FHZ0S」である「OS(A)」を保持していることを定義する。「type」に設定される「Has」は、関係元が関係先を保持している関係、すなわち、関係先が関係元で動作している関係を示す。また、「InstalledOn」は、関係先が関係元にインストールされている関係を示す。「ConnectedTo」は、関係元と関係先とが相互に接続されている関係を示す。「Use」は、関係元が関係先を使用や参照する関係を示す。「DeployedOn」は、関係元が関係先を利用可能にする関係、すなわち、関係元を用いて関係先を利用する関係を示す。
ここで、図3で説明した構成要素の関係性を図4に図示する。図4は、構成要素の関係性を説明する図である。図4では、四角が構成要素で、矢印が関係性を示す。図4に示すように、構成要素「PC1」が構成要素「OS(A)」を保持し、構成要素「OS(A)」が構成要素「AP1」を保持し、構成要素「AP1」が構成要素「table_a」を保持する。また、構成要素「table_a」が構成要素「AP1」で利用可能に制御され、構成要素「AP1」が構成要素「OS(A)」にインストールされ、構成要素「OS(A)」が構成要素「PC1」にインストールされている。
同様に、構成要素「PC2」が構成要素「OS(B)」を保持し、構成要素「OS(B)」が構成要素「AP2」を保持し、構成要素「AP2」が構成要素「servlet_a」を保持する。また、構成要素「servlet_a」が構成要素「AP2」で利用可能に制御され、構成要素「AP2」が構成要素「OS(B)」にインストールされ、構成要素「OS(B)」が構成要素「PC2」にインストールされている。また、構成要素「OS(A)」と構成要素「OS(B)」とが接続されており、構成要素「servlet_a」が構成要素「table_a」を参照している。
また、図4に示した全構成要素で1つの情報処理システムとして動作し、テナントとして顧客にサービスを提供する。なお、「PC1」と「OS(A)」と「AP1」と「table_a」とがテナント1として顧客にサービスを提供し、「PC2」と「OS(B)」と「AP2」と「servlet_a」とがテナント2として顧客にサービスを提供するようにすることもできる。
図2に戻り、構成変更情報DB14は、情報処理システムの構成変更を記憶する。ここで記憶される情報は、後述する構成変更学習部21によって更新されてもよく、管理者等によって更新されてもよい。図5は、構成変更情報DBに記憶される情報の例を示す図である。
図5に示すように、構成変更情報DB14は、「時刻、変更種別、対象、パラメータ」を記憶する。「時刻」は、構成変更が実行された日時を示す。「変更種別」は、変更された内容を示し、削除された場合には「DEL」、追加された場合には「ADD」、設定変更された場合には「MOD」が設定される。「対象」は、変更された構成要素を示す。「パラメータ」は、変更されたパラメータを示す。なお、構成変更情報DB14は、これらの情報以外にも、例えば変更が実行された情報処理システムやテナントを特定する情報等を記憶してもよい。
図5の場合、「日本標準時の2012年3月13日10:31:02」に、構成要素「2H9JIIHY」が情報処理システムから削除されたことを示す。また、「日本標準時の2012年3月13日10:35:28」に、構成要素「22OGEANA」が情報処理システムに追加されたことを示す。また、「日本標準時の2012年3月25日21:00:18」に、構成要素「93H6SK8A」の設定として「OSのバージョン」が「SP3」に変更されたことを示す。
管理メッセージDB15は、情報処理システムの各構成要素等から出力されるログメッセージを記憶する。ここで記憶される情報は、後述するメッセージ収集部22によって更新されてもよく、管理者等によって更新されてもよい。図6は、管理メッセージDBに記憶される情報の例を示す図である。
図6に示すように、管理メッセージDB15は、フィールド15aから15eで構成される各メッセージを記憶する。時刻フィールド15aには、ログメッセージが出力された日時が出力される。ホスト名フィールド15bには、ログメッセージを出力した構成要素のホスト名が出力される。モジュール名フィールド15cには、ログメッセージを出力したモジュール名が出力される。メッセージ種別フィールド15dには、ログメッセージの種別を識別するメッセージIDが出力される。メッセージフィールド15eには、出力されたログメッセージの詳細な内容が出力される。
ホスト名フィールド15bと、モジュール名フィールド15cとを用いて、構成情報を特定することができる。具体的には、図6のホスト名フィールド15bが図3の「item」に対応し、図6のモジュール名フィールド15cが図3の「type」に対応する。
障害情報DB16は、発生した障害の情報を記憶する。ここで記憶される情報は、管理者等によって更新されてもよく、制御部20が管理者端末から取得して更新してもよい。図7は、障害情報DBに記憶される情報の例を示す図である。なお、図7には、一例としてXML形式で障害情報を管理する例を図示したが、これに限定されるものではなく、他の形式であってもよい。
図7に示すように、障害情報DB16は、「Trouble uid」と「type」と「date」と「title」等を含むレコードで障害情報を記憶する。「Trouble uid」は、障害情報を識別する識別子である。「tyep」は、障害の種別を特定する情報である。「date」は、障害が発生した日時である。「title」は、障害の内容である。
図7を例にして説明すると、「Web Down」の障害を示す「T001」が「日本標準時の2012年3月13日の10:51:02」に発生し、この障害が「201203130001」で識別されることを示す。また、「Web Down」の障害を示す「T001」が「日本標準時の2014年4月12日の16:31:08」にも発生し、この障害が「201204120001」で識別されることを示す。同様に、「DB Slow Down」の障害を示す「T003」が「日本標準時の2012年3月18日の03:25:22」に発生し、この障害が「201203180025」で識別されることを示す。
障害予兆パターンDB17は、障害の予兆を特定するログメッセージのパターンである障害予兆パターンと、当該パターンが生成されたときの構成情報とを対応付けて記憶する。ここで記憶される情報は、後述する障害予兆学習部23によって更新される。図8は、障害予兆パターンDBに記憶される情報の例を示す図である。図8に示すように、障害予兆パターンDB17は、障害予兆パターン17aと、学習時の構成情報17bとを対応付けて記憶する。
障害予兆パターン17aは、「障害、メッセージパターン、発生総数、障害前発生数、共起確率」で構成される。「障害」は、障害の種別を特定する情報であり、図7に示した「type」に対応する。「メッセージパターン」は、障害が実際に検出される前に発生するメッセージの組み合わせであり、図6に示したメッセージ種別フィールド15dに出力された識別子の組み合わせである。「発生総数」は、当該メッセージパターンが発生した回数である。「障害前発生数」は、当該メッセージパターンが発生した後に、障害が実際に検出された回数である。「共起確率」は、メッセージパターンが発生した際に障害が発生する確率であり、障害前発生数/発生総数で算出された値である。
図8の場合、障害予兆パターン「0005、0007、0012」は、今までに572回発生し、そのうち534回で実際に障害「T001」が発生しており、当該パターンが発生した際に障害「T001」が起こる共起確率が「0.93」であることを示している。同様に、障害予兆パターン「0005、0007、0012」は、今までに572回発生し、そのうち501回で実際に障害「T002」が発生しており、当該パターンが発生した際に障害「T002」が起こる共起確率が「0.88」であることを示している。また、障害予兆パターン「0008、0036、0041、0108」は、今までに72回発生し、そのうち62回で実際に障害「T001」が発生しており、当該パターンが発生した際に障害「T001」が起こる共起確率が「0.86」であることを示している。
学習時の構成情報17bは、障害予兆パターンごとに「学習時刻、構成情報(時刻、メッセージ種別ID、メッセージ発信CI)」を対応付けて記憶する。図8に示した学習時の構成情報17bの「パターン」は、障害予兆パターンに該当し、「学習時刻」は、障害予兆パターンを学習したときの時刻である。また、構成情報内の「時刻」は、メッセージが発信された時刻である。「メッセージ種別ID」は、発信されたメッセージの識別子であり、図6に示したメッセージ種別フィールド15dに出力された識別子に該当する。「メッセージ発信CI」は、メッセージを発信した構成要素であり、図3に示した「CI id」に対応する。
図8の場合、障害予兆パターン「0005、0007、0012」を学習した日時が「日本標準時の2012年3月8日10:20:00」である。このときに、構成要素「029KKZHE」がメッセージ「0005」を出力し、構成要素「029KKZHE」と構成要素「2H9JIIHY」とがメッセージ「0007」を出力し、構成要素「0SOIW3SH」がメッセージ「0012」を出力したことを示す。
障害予兆記録DB18は、検出された障害予兆を記憶する。ここで記憶される情報は、予兆通報判定部26等によって更新される。図9は、障害予兆記録DBに記憶される情報の例を示す図である。図9に示すように、障害予兆記録DB18は、「時刻、障害種別、検出パターン、検出構成、共起確率、構成変更量」を記憶する。
「時刻」は、障害の予兆が検出された時刻である。「障害種別」は、予兆があるとして検出された障害を識別する識別子であり、図8の「障害」に対応する。「検出パターン」は、検出された障害予兆パターンであり、図8の「メッセージパターン」に対応する。「検出構成」は、障害予兆が検出されたときのシステム構成であり、構成要素「Ci id」の組み合わせである。「共起確率」は、検出された障害予兆パターンが「障害種別」の障害を共起させる確率であり、図8の「共起確率」に対応する。「構成変更量」は、検出された障害予兆パターンの学習時の構成情報と、当該障害予兆パターンの検出時の構成情報との異なり具合を示す情報であり、後述する構成差分算出部25によって算出される。
図9の場合、「日本標準時の2012年4月12日の16:16:00」に、障害「T001」の共起確率が「0.93」である障害予兆パターン「0005、0007、0012」が検出されたことを示す。さらに、この障害予兆パターン「0005、0007、0012」を検出したときのシステム構成が「0SOIW3SH、029KKZHE、00OGEANA」であり、この検出時の構成情報と当該障害予兆パターンの学習時の構成情報との構成変更量が「10、2」であることを示す。
図2に戻り、制御部20は、構成変更学習部21、メッセージ収集部22、障害予兆学習部23、障害予兆検出部24、構成差分算出部25、予兆通報判定部26、閾値学習部27を有し、これらによって障害予兆の検出を実行する処理部である。
構成変更学習部21は、情報処理システムのシステム構成の変更を検出して構成変更情報DB14を更新し、構成情報の変更を学習する処理部である。具体的には、構成変更学習部21は、構成情報DB13を監視し、構成情報DB13が更新されたことを検出すると、更新された内容を構成変更情報DB14に格納する。
例えば、「2012年5月12日11:00:00」にテナント1の「H38FHZ0S」のOSが「OS(A)」から「OS(C)」に変更されたとする。この場合、構成変更学習部21は、「時刻(2012-05-12T11:00:00-09:00)、変更種別(MOD)、対象(H38FHZ0S)、パラメータ(TARGET=OS、VALUE=OS(C))」を構成変更情報DB14に格納する。
メッセージ収集部22は、データセンタ2内の情報処理システムから出力されたログメッセージを各情報処理システムから収集して、収集したメッセージを管理メッセージDB15に格納する処理部である。
障害予兆学習部23は、障害の予兆を示すログメッセージのパターンである障害予兆パターンを、過去に発生した障害事象に基づいて生成し、所定の間隔で学習する処理部である。具体的には、障害予兆学習部23は、障害予兆パターンの生成、障害予兆パターンの抽出、障害予兆パターンの共起確率の学習などを定期的に実行して、障害予兆パターンDB17を更新する処理部である。
例えば、障害予兆学習部23は、過去一定期間のログメッセージを管理メッセージDB15から抽出し、抽出したログメッセージ群からメッセージパターンを生成する。また、障害予兆学習部23は、生成した各メッセージパターンを構成するメッセージを出力した構成要素を特定する。そして、障害予兆学習部23は、生成したメッセージパターンの組み合わせが障害予兆パターンDB17に記憶されている場合に、「発生総数」をインクリメントし、記憶されていない場合には、新たにエントリを生成する。
その後、障害予兆学習部23は、メッセージの発生時刻から所定時間内に障害が発生している場合には、当該障害を特定する識別子とメッセージパターンと組み合わせに該当する「障害前発生数」をインクリメントした後、共起確率を更新する。一方、障害予兆学習部23は、障害が発生していない場合には、当該障害を特定する識別子とメッセージパターンと組み合わせに該当する「障害前発生数」をインクリメントすることなく、共起確率を更新する。
ここで、図10を用いて具体的に説明する。図10は、障害予兆パターンの学習を説明する図である。図10に示すように、障害予兆学習部23は、任意に設定された学習タイミングに到達すると、障害予兆学習期間(P分間)内のW分の間に出力されたメッセージを管理メッセージDB15から抽出する。なお、P分は任意に設定してもよく、障害発生時刻(S分)を基準として、S分から所定時間前までと設定してもよい。続いて、障害予兆学習部23は、各メッセージのメッセージ種別フィールド15dを参照し、W分の間に、「0005、0007、0012」の組み合わせを抽出したとする。
すると、障害予兆学習部23は、障害予兆パターンDB17を参照し、「障害」に関係なく「0005、0007、0012」に対応する「発生回数」をインクリメントする。図8の例では、障害予兆学習部23は、「0005、0007、0012」に対応する「T001」と「T002」の両方の「発生回数」とをインクリメントする。また、障害予兆学習部23は、抽出したメッセージパターン「0005、0007、0012」の各メッセージについて、ホスト名フィールド15bとモジュール名フィールド15cとから構成情報DB13に記憶される「item」と「type」とを特定し、これらに対応する「CI id」を特定する。その後、障害予兆学習部23は、抽出したメッセージパターン「0005、0007、0012」と、特定した「CI id」とを対応付けて、学習時の構成情報17bとして障害予兆パターンDB17に格納する。
その後、障害予兆学習部23は、障害情報DB16を参照し、W分後からP分までの間に障害「T001」が発生していれば、「T001」と「0005、0007、0012」との組に対応する「障害前発生数」をインクリメントする。一方、障害予兆学習部23は、障害情報DB16を参照し、W分後からP分までの間に障害「T002」が発生していれば、「T002」と「0005、0007、0012」との組に対応する「障害前発生数」をインクリメントする。その後、障害予兆学習部23は、現時点で格納されている、更新済みの「発生総数」および「障害前発生数」を用いて共起確率を算出して更新する。
図2に戻り、障害予兆検出部24は、障害予兆パターンDB17に記憶される障害予兆パターンを用いて、障害の予兆を検出する処理部である。具体的には、障害予兆検出部24は、管理メッセージDB15に随時格納されるログメッセージを監視し、障害予兆パターンDB17に記憶される障害予兆パターンと同じパターンの発生を検出した場合に、障害の予兆を検出する。そして、障害予兆検出部24は、検出した障害の予兆や障害予兆パターンを構成差分算出部25や予兆通報判定部26に通知する。
例えば、障害予兆検出部24は、管理メッセージDB15に「0005、0007、0012」のパターンが検出された場合に、障害「T001」と「T002」の障害の予兆を検出し、構成差分算出部25や予兆通報判定部26に通知する。このとき、障害予兆検出部24は、障害予兆パターンと一致したメッセージを出力した構成要素を、障害予兆学習部23と同様の手法で特定して、構成差分算出部25や予兆通報判定部26に通知する。
構成差分算出部25は、障害予兆パターン学習時のシステム構成と障害の予兆検出時のシステム構成との間で構成が異なることを特徴づける複数の指標を用いて、システム構成間の差を示す差分距離を算出する処理部である。
例えば、構成差分算出部25は、障害予兆パターン学習時の構成情報から障害の予兆検出時の構成情報へ構成が遷移する際に、構成要素の変更が実行された累積回数である変更回数を算出する。また、構成差分算出部25は、障害予兆パターン学習時の構成要素と障害の予兆検出時の構成要素とで相違する構成要素の数である差分数を算出する。そして、構成差分算出部25は、変更回数と差分数とを用いて、学習時と検出時との構成情報の差分距離を算出する。なお、構成差分算出部25は、適用されている障害予兆パターンの学習時間を保持しておき、当該学習時間に対応する学習時の構成情報を障害予兆パターンDB17から特定する。このようにすることで、構成差分算出部25は、最新の障害予兆パターンが未適用であっても、学習時と検出時との構成情報の差分距離を正確に算出することができる。
具体的には、構成差分算出部25は、障害の予兆が検出されたことが障害予兆検出部24から通知されると、障害予兆パターンDB17から検出された予兆に対応するエントリを抽出し、予兆が検出された障害に対応するエントリを障害予兆記録DB18に生成する。このとき、構成差分算出部25は、予兆検出時の構成情報を障害予兆検出部24から受信して、障害予兆記録DB18に生成したエントリの「検出構成」に格納する。そして、構成差分算出部25は、検出された障害予兆パターンの学習時の構成情報を障害予兆パターンDB17から取得し、学習時の構成情報と検出時の構成情報とからシステム構成間の構成変更量を算出する。その後、構成差分算出部25は、障害予兆記録DB18に生成したエントリの「構成変更量」に、算出した構成変更量を格納する。
ここで、構成情報の遷移について説明する。図11は、構成情報の遷移を説明する図である。図11に示すように、システムA1に着目にした場合、A1の構成は時間によって一部ずつ更新されていく。これを時間的連続性と呼ぶ。また、クラウドシステムは、同じテンプレートから複数のシステムを生成されるので、同じ時間帯で、完全に均一ではなく部分的に異なる他のシステムが存在する。これを空間的連続性と呼ぶ。
この時間的連続性に着目して算出した変更量が上記「変更回数」であり、空間的連続性に着目して算出した変更量が上記「差分数」である。つまり、「変更回数」は、変更の回数のみで算出され、変更の内容や変更の結果、システム構成がどのようにかわったかは見ていない値であり、システム構成に依存しない特徴量である。また、「差分数」は、システム構成同士の差分のみで算出され、システム構成が過去に何度の変更を経て現在の構成になったか見ておらず、システム変更履歴に依存しない特徴量である。このように、構成差分算出部25は、互いに関連性のない、独立した特徴量を用いて、学習時と検出時の構成情報の構成変更量を算出する。
予兆通報判定部26は、検出された予兆が妥当であるか否かを判定する処理部である。具体的には、予兆通報判定部26は、構成差分算出部25により算出された構成変更量が閾値未満の場合には、適用される障害予兆パターンが有効であると判定し、当該障害予兆パターンを用いて検出された障害の予兆を管理者等に通報する。
例えば、図9を例にすると、予兆通報判定部26は、図9の1行目の障害予兆パターン「0005、0007、0012」と一致するとして検出された障害の予兆について、構成変更量「10、2」を障害予兆記録DB18から取得する。そして、予兆通報判定部26は、構成変更量「10、2」によって特定される差分距離が閾値未満であれば、障害「T001」が発生する可能性があることを管理者等に通報する。このとき、予兆通報判定部26は、構成変更量「10、2」によって特定される差分距離が閾値未満であっても、共起確率が所定値未満であれば、通報しないように制御することもできる。
ここで、障害予兆の有効範囲を説明する。図12は、障害予兆パターンの有効範囲を説明する図である。図12に示すように、障害予兆パターンを学習したときから、図11と同様、システムの構成は、時間軸および空間軸で変更されていく。具体的には、システムAは、時間とともにソフトウェアのバージョンアップなどのマイナーチェンジが実行されるので、A1、A2、A3、A4と構成変更が実行される。この場合に、システムAがA1に構成変更されたタイミングで障害検出パターンが学習されて、構成変更が短時間で発生したとすると、この障害検出パターンを用いてA1、A2、A3、A4の各々で障害予兆の検出が実行される。
一方で、クラウドシステムの特性上、システムAと似た構成のシステムB1、C1、D1が同時期に存在する。この場合も、システムAがA1に構成変更されたタイミングで学習された障害検出パターンを用いて、同時期に存在するB1、C1、D1の各々で障害予兆の検出が実行される。
このように、あるタイミングで学習された障害予兆パターンが、時間的または空間的に異なるシステム、すなわち、構成が異なるシステムで利用される。一方、障害予兆パターンは、共起確率に基づいて生成されるので、システム構成の変化が当該パターンに与える影響度が明確ではない。そこで、予兆通報判定部26は、構成差分算出部25により算出された構成変更量を用いて、適用される障害予兆パターンの有効性を判定する。つまり、予兆通報判定部26は、学習された障害予兆パターンがどの時間、どの空間まで有効であるかを定量的に判定する。そして、予兆通報判定部26は、有効ではないと判定された場合には、共起確率が高くても、誤検出の可能性が高いとして、検出された障害の予兆を通報しないように制御する。
閾値学習部27は、障害の予兆が検出された後に、実際に障害が発生したか否か判定し、判定した結果に基づいて、障害予兆パターンの適用可否を判定する差分距離の閾値を決定する。つまり、閾値学習部27は、障害予兆パターンを用いて検出された複数の障害予兆各々が正解なのか誤検出なのかを統計的に判断し、予兆通報判定部26が障害予兆パターンの有効性の判定に用いる閾値を更新する。
[有効性判定の具体例]
次に、図13から図16を用いて、適用される障害予兆パターンの有効性を判定する具体例を説明する。図13は、障害予兆検出時の構成情報例を示す図である。図14は、構成の変更回数を説明する図である。図15は、構成の差分数を説明する図である。図16は、判定基準を説明する図である。なお、ここでは、障害検出パターンとして「0005、0007、0012」が検出され、学習時の構成が図8に示す「0SOIW3SH、2H9JIIHY、029KKZHE」であるものとする。
まず、障害予兆検出部24は、管理メッセージDB15に格納されるログメッセージから障害検出パターン「0005、0007、0012」と一致するメッセージが発生したことを検出する。すると、障害予兆検出部24は、障害検出パターン「0005、0007、0012」を出力した構成要素を抽出する。具体的には、障害予兆検出部24は、障害検出パターン「0005、0007、0012」を検出した時刻、メッセージ種別ID、メッセージ発信CIを、検出したメッセージから抽出し、図13に示す構成情報を生成する。なお、障害予兆検出部24は、図6に示したメッセージ種別フィールド15dから「メッセージ種別ID」を抽出する。また、障害予兆検出部24は、図6に示したホスト名フィールド15bとモジュール名フィールド15cとから、図3に示した「item」と「type」とを特定し、これらに対応する「CI id」を「メッセージ発信CI」として抽出する。
また、障害予兆検出部24は、検出された障害の予兆に関する情報が格納されるエントリを障害予兆記録DB18に生成する。具体的には、障害予兆検出部24は、障害予兆パターンDB17から、障害検出パターン「0005、0007、0012」、「障害」、「共起確率」を抽出し、それぞれを「検出パターン、障害種別、共起確率」とするレコードを障害予兆記録DB18に生成する。また、障害予兆検出部24は、生成したエントリの「時刻」に、予兆を検出した時刻を格納し、上述した手法で特定した「メッセージ発信CI」を「検出構成」に格納する。
その後、構成差分算出部25は、障害予兆記録DB18に格納されたエントリから検出パターン「0005、0007、0012」を特定し、特定した検出パターンに対応する構成情報「0SOIW3SH、029KKZHE、22OGEANA」および「学習時刻」を障害予兆パターンDB17から抽出する。すなわち、構成差分算出部25は、検出されたメッセージパターン「0005、0007、0012」の学習時の構成情報を抽出する。
続いて、構成差分算出部25は、構成変更情報DB14を参照し、「学習時刻」より後の時間で構成変更が実行された回数を計数する。つまり、構成差分算出部25は、学習時から検出時までの構成変更の回数を計数する。
具体的には、構成差分算出部25は、構成変更情報DB14を参照することで、図14に示すように「0SOIW3SH」が学習時から検出時まで4回設定変更されたことを検出する。同様に、構成差分算出部25は、学習時の「2H9JIIHY」が1回設定変更された後に削除されたことを検出し、学習時の「029KKZHE」が検出時まで2回設定変更されたことを検出する。同様に、構成差分算出部25は、学習時にはなかった「22OGEANA」が学習時以降に追加された後に1回設定変更されたことを検出する。以上から、構成差分算出部25は、学習時から検出時まで10回の構成変更があったことを検出する。すなわち、構成差分算出部25は、変更が実行された累積回数である変更回数として10を算出する。
さらに、構成差分算出部25は、構成変更情報DB14を参照し、学習時の構成要素の種類と、検出時の構成要素の種類の相違数を計数する。つまり、構成差分算出部25は、学習時と検出時とで構成要素が相違する数を計数する。
具体的には、構成差分算出部25は、学習時の構成情報「0SOIW3SH、2H9JIIHY、029KKZHE」の各構成要素について、構成情報DB13を参照して、「CI id」を「type」に変換する。つまり、構成差分算出部25は、「0SOIW3SH」を「PC1」、「2H9JIIHY」を「OS(A)」、「029KKZHE」を「AP2」に変換する。同様に、構成差分算出部25は、検出時の構成情報「0SOIW3SH、029KKZHE、22OGEANA」の各構成要素について、「0SOIW3SH」を「PC1」、「029KKZHE」を「AP2」、「22OGEANA」を「OS(B)」に変換する。そして、構成差分算出部25は、学習時の構成情報「PC1、OS(A)、AP2」と検出時の構成情報「PC1、AP2、OS(B)」とを比較し、一致する構成要素の数が「2個」であると特定する。すなわち、構成差分算出部25は、相違する構成要素の差分数として2を算出する。
その後、構成差分算出部25は、障害予兆記録DB18に生成したレコードの「構成変更量」に、時間軸の構成差分である変更回数「10」と空間軸の構成差分である差分数「2」とを格納する。続いて、予兆通報判定部26は、構成変更量「10、2」に基づいて、検出された予兆の精度すなわち障害予兆パターンの有効性を判定する。具体的には、予兆通報判定部26は、図16に示すように、横軸を変更回数、縦軸を差分数として、構成変更量「10、2」をプロットする。このとき、プロットされた構成変更量「10、2」で特定される点と、原点(0、0)とを結ぶ直線の長さが、差分距離として表される。そして、予兆通報判定部26は、この差分距離が閾値の範囲内である場合に、検出された障害予兆パターンは有効であると判定し、予兆を通報する。一方で、予兆通報判定部26は、この差分距離が閾値の範囲外である場合に、検出された障害予兆パターンは有効ではないと判定し、予兆を通報しないように制御する。
[閾値学習の具体例]
次に、予兆通報判定部26が予兆の有効性を判定する際に用いる閾値の学習例を説明する。図17は、閾値の学習を説明する図である。図17に示すように、閾値学習部27は、横軸を変更回数、縦軸を差分数として、障害予兆記録DB18に記憶される各レコードの「構成変更量」をプロットする。そして、閾値学習部27は、予兆を有効と判定したか無効と判定したかによって、プロットした各構成変更量を「正解群」と「誤検出群」とにグループ分けする。その後、閾値学習部27は、プロットした状態から「正解群」が多く含まれるように境界を決定し、決定した境界を新たな閾値とする。なお、境界の決定手法は、マハラノビス距離などの統計学の様々な手法を用いることができる。
[処理の流れ]
続いて、障害検出装置10が実行する処理の流れについて説明する。ここでは、障害予兆学習処理、障害予兆検出処理、予報通報判定処理、構成差分算出処理、閾値学習処理について説明する。
(障害予兆学習処理)
図18は、障害予兆学習処理の流れを示すフローチャートである。この処理は定期的に実行される。図18に示すように、障害予兆学習部23は、学習タイミングに到達すると、管理メッセージDB15から過去一定期間(W分)のメッセージを抽出し、様々なパターンを生成する(S101)。
続いて、障害予兆学習部23は、生成した各パターンについて、構成情報DB13や管理メッセージDB15を参照し、各パターンを構成するメッセージの発信元のCI(構成要素)を抽出する(S102)。
そして、障害予兆学習部23は、生成した各パターンのうち、障害予兆パターンDB17の障害予兆パターン17aに記憶される障害予兆パターンと一致するパターンについては、該当する障害予兆パターンの「発生総数」を更新する(S103)。具体的には、障害予兆学習部23は、当該パターンに対応するエントリの「発生総数」をインクリメントする。このとき、障害予兆学習部23は、障害予兆パターンDB17に記憶される障害予兆パターン17aと一致しないパターンについては、新たなエントリを障害予兆パターンDB17に生成する。
その後、障害予兆学習部23は、管理メッセージDB15から抽出したメッセージ群の時刻から一定期間(P分)以内の障害を、障害情報DB16から取り出す(S104)。そして、障害予兆学習部23は、障害予兆パターンDB17の障害予兆パターン17aに記憶される各エントリの「障害」と一致する障害が発生している場合には、当該エントリの「障害」に対応する「障害前発生数」を更新する(S105)。
さらに、障害予兆学習部23は、障害予兆パターンDB17の障害予兆パターン17aに記憶される各エントリに対応付けられる学習時の構成情報17bを、S102で抽出した構成要素を組み合わせた構成情報で更新する(S106)。その後、障害予兆学習部23は、障害予兆パターンDB17の障害予兆パターン17aの各エントリについて、共起確率を再計算して更新する(S107)。その後は、S101に戻って以降の処理が繰り返される。
(障害予兆検出処理)
図19は、障害予兆検出処理の流れを示すフローチャートである。この処理は定期的に実行される。図19に示すように、障害予兆検出部24は、管理メッセージDB15から最新一定時間(W分)のメッセージを抽出して、様々なパターンを生成する(S201)。
続いて、障害予兆検出部24は、生成した各パターンについて、構成情報DB13や管理メッセージDB15を参照し、各パターンを構成するメッセージの発信元のCI(構成要素)を抽出する(S202)。
その後、障害予兆検出部24は、生成した各パターンのうち、障害予兆パターンDB17の障害予兆パターン17aに記憶される障害予兆パターンと一致するパターンを検索する(S203)。
そして、障害予兆検出部24は、一致するパターンが検索された場合(S204:Yes)、一致したパターンと当該パターンの構成要素等を用いて、障害予兆記録DB18にエントリを生成する(S205)。その後、障害予兆検出部24は、予兆通報判定部26に予兆通報判定処理の実行を依頼した後(S206)、S201以降を繰り返す。なお、障害予兆検出部24は、一致するパターンが検索されなかった場合も(S204:No)、S201以降を繰り返す。
(予兆通報判定処理)
図20は、予兆通報判定処理の流れを示すフローチャートである。図20に示すように、予兆通報判定部26は、障害予兆検出部24から処理の実行開始が依頼されると(S301:Yes)、障害予兆検出部24によって障害予兆記録DB18に格納されたエントリ、すなわち、障害予兆通報の内容を取得する(S302)。
その後、予兆通報判定部26は、構成差分算出部25に構成差分算出処理の開始を依頼する(S303)。このとき、予兆通報判定部26は、S302で取得した障害予兆通報の内容を構成差分算出部25に出力してもよい。
そして、予兆通報判定部26は、構成差分算出部25から構成差分算出処理の算出結果を取得し(S304)、取得した算出結果である構成変更量と閾値とを比較する(S305)。
予兆通報判定部26は、構成変更量が閾値以下であると判定した場合(S306:Yes)、予兆を通報する(S307)。一方、予兆通報判定部26は、構成変更量が閾値より大きいと判定した場合(S306:No)、処理を終了する。
(構成差分算出処理)
図21は、構成差分算出処理の流れを示すフローチャートである。図21に示すように、構成差分算出部25は、予兆通報判定部26から処理の実行開始が依頼されると(S401:Yes)、障害予兆検出部24によって障害予兆記録DB18に格納されたエントリ、すなわち、障害予兆通報の内容を取得する(S402)。
そして、構成差分算出部25は、S402で取得した障害予兆通報の内容から予兆検出時の構成情報を取得する(S403)。具体的には、構成差分算出部25は、障害予兆パターンの各メッセージの出力元の構成要素を抽出する。
続いて、構成差分算出部25は、障害予兆に該当するパターンの学習時の構成情報を取得する(S404)。具体的には、構成差分算出部25は、検出されたパターンに対応するエントリを障害予兆パターンDB17から検索し、検索された障害予兆パターンに対応付けられる学習時の構成情報を特定する。さらに、構成差分算出部25は、特定した構成情報を構成する構成要素「メッセージ発信CI」を取得する。
その後、構成差分算出部25は、構成変更量を算出し(S405)、その算出結果を予兆通報判定部26に応答する(S406)。具体的には、構成差分算出部25は、学習時から検出時までの構成要素の変更が実行された累積回数である変更回数と、学習時と検出時とで構成要素が相違する数を示す差分数とを算出する。また、構成差分算出部25は、算出した構成変更量(変更回数、差分数)を、障害予兆記録DB18の該当するエントリに格納してもよい。
(閾値学習処理)
図22は、閾値学習処理の流れを示すフローチャートである。この処理は定期的に実行される。図22に示すように、閾値学習部27は、閾値の学習タイミングに到達すると、障害予兆記録DB18から、1種類の障害について予兆通報を抽出する(S501)。具体的には、閾値学習部27は、障害予兆記録DB18から、「障害種別」が一致するエントリを取得する。
続いて、閾値学習部27は、抽出した予兆通報について、予兆が正解であったか誤検出であったかを判定する(S502)。具体的には、閾値学習部27は、抽出した予兆通報が検出された時刻から所定時間が経過するまでに、当該予兆通報に対応する「障害」が発生したか否かを判定する。
その後、閾値学習部27は、各予兆通報の判定した結果から正解群と誤検出群の構成変更量について、マハラノビス距離を算出する(S503)。そして、閾値学習部27は、マハラノビス距離の算出結果から閾値となる判別式を求め(S504)、閾値を更新する(S505)。その後は、S501に戻って以降の処理が繰り返される。
このように、実施例1に係る障害検出装置10は、互いに独立する指標を用いて、学習時の構成と検出時の構成との異なり具合を定量化し、使用される障害検出パターンの有効性を判定することができる。したがって、障害検出装置10は、システム構成がどの程度変わると学習した障害予兆パターンが使用できなくなるのかを定量的に評価することができる。
また、障害検出装置10は、実際に障害の予兆が検出された場合に、当該予兆に対応する障害予兆パターンの有効性を判定することができるので、検出された予兆の信頼性を判定することができる。つまり、障害検出装置10は、信頼性の低い予兆、すなわち、構成変更量が閾値より大きい障害予兆パターンで検出された予兆については、管理者等への通報を抑制できる。したがって、障害検出装置10は、適用が妥当ではない障害予兆パターンによって検出される、予兆の誤検出を抑制することができる。
また、障害検出装置10は、予兆の検出と障害の実績とから、障害予兆パターンの有効性を判定する基準を更新することができるので、実績を考慮した基準で有効性を判定することができ、判定精度を向上させることができる。
実施例1では、構成変更量(変更回数、差分数)を用いて、学習時と検出時との構成情報の差分距離を算出する例を説明したが、差分距離の算出には他の指標を用いることもできる。そこで、実施例2では、構成変更量の1つとして負荷量を用いる例と、負荷パターンを用いる例とを説明する。
(負荷量)
図23は、負荷量を説明する図である。図23は、該当システムの負荷量が時間によって変化する例を図示し、縦軸が負荷、横軸が時間である。図23に示す負荷量は、単位時間当たりの処理数、利用者の同時接続数など、システムに対する外部からの負荷量である。なお、単位時間当たりの処理数としては、例えば1日あたりのページ閲覧数などが該当し、利用者の同時接続数としては、ある時刻に接続しているユーザ数などが該当する。
図23に示すように、時間が経過するに連れてシステムの構成が変更されると、システムの負荷量も変化する。つまり、学習時「t0」時の負荷量「F(t0)」と、検出時「t1」の負荷量「F(t1)」とが異なっていれば、システムの変更が行われている可能性が高い。そこで、この例では、F(t0)とF(t1)との比を算出し、算出した負荷量の比を構成変更量として用いる。具体的には、構成差分算出部25は、負荷量の比「D」を「D=|F(t1)−F(t0)|/F(t0)」と算出する。
このように、障害検出装置10は、実施例1で説明した構成変更量の1つ、または、3つ目の構成変更量として、負荷量の比を用いることもできる。この結果、システムの内部構成に直接的には依存しない、システムの外部からの影響を客観的に用いることができるので、判定精度の向上が期待できる。
(負荷パターン)
図24は、負荷パターンを説明する図である。図24は、該当システムがユーザに対してサービス等を提供することで発生する負荷の変化を図示し、縦軸が負荷、横軸が時間である。つまり、負荷パターンは、該当システムを所有するテナントの業務パターンである。
ここでは、負荷のピーク周期tと、負荷のピーク時の値であるピーク負荷lpと、平均負荷laとを用いて負荷パターンLをL(t、lp、la)と定義する。なお、学習時の負荷パターンは、L0(t0、lp0、la0)と定義でき、検出時の負荷パターンは、L1(t1、lp1、la1)と定義できる。
そして、学習時のシステムの負荷パターンと、検出時のシステムの負荷パターンとの差分Dは、「D=(|t1−t0|/t0)+(|lp1−lp0|/lp0)+(la1−la0|/la0)」と算出することができる。
学習時のテナントと検出時のテナントとが同一であれば、利用方法や業務の負荷パターンが類似すると考えられる。したがって、負荷パターンの差分「D」は0に近いほど、学習した障害予兆パターンの有効性は高い。一方、学習時のテナントと検出時のテナントとが異なれば、利用方法や業務の負荷パターンが異なると考えられる。したがって、負荷パターンの差分「D」は、例えば30のように大きな値ほど、学習した障害予兆パターンの有効性は低い。
このように、障害検出装置10は、実施例1で説明した構成変更量の1つ、または、3つ目の構成変更量として、負荷パターンの差分を用いることもできる。この結果、システムの内部構成に直接的には依存しない、システムの負荷状態の変化を客観的に用いることができるので、判定精度の向上が期待できる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。
(適用システム)
実施例1や実施例2で説明した障害予兆パターンの適用判定方法は、学習時と検出時とが同じシステムであってもよく、異なるシステムであっても同様に処理することができる。上述したように、クラウドシステムは、同じテンプレートを用いて複数のシステムから構成されることが多い。このため、システムAで障害予兆パターンを学習し、システムBに当該障害予兆パターンを適用することもある。つまり、障害予兆パターン学習時は、システムAとシステムBとは同様の構成であり、時間経過とともに、各々でシステム構成の変更が行われる。
したがって、障害検出装置10は、システムAで学習された障害予兆パターンをシステムBに適用し、システムBにおける構成変更を管理する。そして、障害検出装置10は、システムBで障害の予兆が検出された場合に、学習時のシステムAと現在のシステムBとの差分数と、学習時のシステムAから現在のシステムBに変更されるまでの変更回数とを算出する。こうして、障害検出装置10は、当該障害予兆パターンの適用が有効か否かをでき、各実施例と同様の効果を得ることができる。
(指標の組み合わせ)
実施例1では、変更回数と差分数とを用いて差分距離を算出する例を説明し、実施例2では、負荷量比または負荷パターンの比を用いる例を説明したが、これらは任意に組み合わせることができる。例えば、変更回数と負荷パターンの比とを用いる場合には、横軸を変更回数、縦軸を負荷パターンの比として、構成変更量をプロットし、差分距離が閾以下か否かを判定することもできる。また、変更回数、差分数、負荷量比、負荷パターンを用いた四次元で差分距離が閾以下か否かを判定することもできる。なお、負荷量比や負荷パターンを用いる場合には、これらを用いることを予め決定しておき、学習時から負荷量比や負荷パターンを計測する。
(共起確率)
実施例1等で示した障害予兆パターンDB17は、共起確率が所定値以上のパターンを記憶するようにすることもできる。このような状態で、障害検出装置10は、障害予兆を検出した場合に、障害予兆パターンの有効性を判定する。この結果、障害検出装置10は、共起確率が高い障害予兆パターンで障害の予兆が検出され、障害予兆パターンが有効ではない場合には、信頼性の低い予兆が検出されたとして、予兆の通報を抑制することができる。
障害予兆パターンDB17は、共起確率が低いパターンを記憶してもよい。このような状態で、障害検出装置10は、障害予兆を検出した場合に、障害予兆パターンの有効性を判定する。この結果、障害検出装置10は、学習時と検出時のシステム構成の違いによっては、共起確率が低く信頼性の低い障害予兆パターンで障害の予兆が検出されるが、障害予兆パターンを有効であると判定する場合もある。この場合、障害検出装置10は、信頼性の高い予兆が検出されたとして、予兆の通報を実行することができる。
(システム)
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(ハードウェア)
図25は、ハードウェア構成例を示す図である。ここで示したハードウェア構成は、障害検出装置10のハードウェア構成である。図25に示すように、コンピュータ100は、CPU101、メモリ102、HDD(Hard Disk Drive)103、通信インタフェース104、入力装置105、表示装置106を有する。また、図25に示した各部は、バス100aで相互に接続される。
入力装置105は、例えばキーボードなどであり、表示装置106は、例えばディスプレイなどであり、通信インタフェース104は、例えばNIC(Network Interface Card)などである。HDD103は、図2等に示した機能を実行するプログラムや図2に示した各DBを記憶する。記録媒体の例としてHDD103を例に挙げたが、ROM(Read Only Memory)、RAM、CD−ROM等の他のコンピュータが読み取り可能な記録媒体に各種プログラムを格納しておき、コンピュータに読み取らせることとしてもよい。なお、記録媒体を遠隔地に配置し、コンピュータが、その記憶媒体にアクセスすることでプログラムを取得して利用してもよい。また、その際、取得したプログラムをそのコンピュータ自身の記録媒体に格納して用いてもよい。
CPU101は、図2に示した各処理部と同様の処理を実行するプログラムをHDD103等から読み出してメモリ102に展開することで、図2等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、障害検出装置10が有する各処理と同様の機能を実行する。具体的には、CPU101は、構成変更学習部21、メッセージ収集部22、障害予兆学習部23、障害予兆検出部24、構成差分算出部25、予兆通報判定部26、閾値学習部27と同様の機能を有するプログラムをHDD103等から読み出す。そして、CPU101は、各処理部と同様の処理を実行するプロセスを実行する。このようにコンピュータ100は、プログラムを読み出して実行することで適用判定方法を実行する情報処理装置として動作する。
また、コンピュータ100は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、コンピュータ100によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータに、
第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、前記第1のシステム構成において過去に発生した障害事象に基づいて生成し、
前記第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出し、
算出した前記差分情報に応じて、前記第2のシステム構成における障害の予兆検出への前記障害予兆パターンの適用可否を判定する
処理を実行させることを特徴とする適用判定プログラム。
(付記2)前記差分情報を算出する処理は、前記第1のシステム構成を構成する構成要素と前記第2のシステム構成を構成する構成要素とで相違する構成要素の数である差分数をさらに用いて、前記差分情報を算出することを特徴とする付記1に記載の適用判定プログラム。
(付記3)前記差分情報を算出する処理は、さらに、前記第1のシステム構成時におけるシステムの負荷量と前記第2のシステム構成時におけるシステムの負荷量との比である負荷量比を用いて、前記差分情報を算出することを特徴とする付記2に記載の適用判定プログラム。
(付記4)前記差分情報を算出する処理は、さらに、前記第1のシステム構成時におけるシステムの負荷の傾向を示す負荷パターンと前記第2のシステム構成時におけるシステムの負荷傾向を示す負荷パターンとの差である負荷パターン差を用いて、前記差分情報を算出することを特徴とする付記2または3に記載の適用判定プログラム。
(付記5)前記差分情報を算出する処理は、前記変更回数とさらに、前記第1のシステム構成を構成する構成要素と前記第2のシステム構成を構成する構成要素とで相違する構成要素の数である差分数と、前記第1のシステム構成時におけるシステムの負荷量と前記第2のシステム構成時におけるシステムの負荷量との比である負荷量比と、前記第1のシステム構成時におけるシステムの負荷の傾向を示す負荷パターンと前記第2のシステム構成時におけるシステムの負荷の傾向を示す負荷パターンとの差である負荷パターン差とのうち、少なくとも1つを用いて、前記差分距離を算出することを特徴とする付記1に記載の適用判定プログラム。
(付記6)前記生成した障害予兆パターンを用いて障害の予兆を検出する処理を前記コンピュータにさらに実行させ、
前記差分情報を算出する処理は、前記障害の予兆が検出された際のシステム構成を前記第2のシステム構成として抽出し、前記システム構成間の差分情報を算出することを特徴とする付記1から5のいずれか一つに記載の適用判定プログラム。
(付記7)前記障害予兆パターンを用いて障害の予兆を検出し、
前記障害の予兆が検出された後に、実際に障害が発生したか否か判定し、
判定した結果に基づいて、前記第2のシステム構成への前記障害予兆パターンの適用可否を判定する前記差分情報の閾値を決定する処理を前記コンピュータにさらに実行させることを特徴とする付記1から6のいずれか一つに記載の適用判定プログラム。
(付記8)第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、前記第1のシステム構成において過去に発生した障害事象に基づいて生成する生成部と、
前記第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出する算出部と、
前記算出部によって算出された前記差分情報に応じて、前記第2のシステム構成における障害の予兆検出への前記障害予兆パターンの適用可否を判定する判定部と
を有することを特徴とする障害検出装置。
(付記9)コンピュータが、
第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、前記第1のシステム構成において過去に発生した障害事象に基づいて生成し、
前記第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出し、
算出した前記差分情報に応じて、前記第2のシステム構成における障害の予兆検出への前記障害予兆パターンの適用可否を判定する
処理を含んだことを特徴とする適用判定方法。
(付記10)メモリと、
前記メモリに接続されるプロセッサと、を有し、
前記プロセッサは、
第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、前記第1のシステム構成において過去に発生した障害事象に基づいて生成し、
前記第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出し、
算出した前記差分情報に応じて、前記第2のシステム構成における障害の予兆検出への前記障害予兆パターンの適用可否を判定する
処理を実行することを特徴とする障害検出装置。
(付記11)第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、前記第1のシステム構成において過去に発生した障害事象に基づいて生成し、
前記第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出し、
算出した前記差分情報に応じて、前記第2のシステム構成における障害の予兆検出への前記障害予兆パターンの適用可否を判定する処理をコンピュータに実行させる適用判定プログラムを記憶する、コンピュータ読み取り可能な記憶媒体。
1 クライアント端末
2 データセンタ
5 CMDB
10 障害検出装置
11 通信処理部
12 記憶部
13 構成情報DB
14 構成変更情報DB
15 管理メッセージDB
16 障害情報DB
17 障害予兆パターンDB
18 障害予兆記録DB
20 制御部
21 構成変更学習部
22 メッセージ収集部
23 障害予兆学習部
24 障害予兆検出部
25 構成差分算出部
26 予兆通報判定部
27 閾値学習部

Claims (9)

  1. コンピュータに、
    第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、前記第1のシステム構成において過去に発生した障害事象に基づいて生成し、
    前記第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出し、
    算出した前記差分情報に応じて、前記第2のシステム構成における障害の予兆検出への前記障害予兆パターンの適用可否を判定する
    処理を実行させることを特徴とする適用判定プログラム。
  2. 前記差分情報を算出する処理は、前記第1のシステム構成を構成する構成要素と前記第2のシステム構成を構成する構成要素とで相違する構成要素の数である差分数をさらに用いて、前記差分情報を算出することを特徴とする請求項1に記載の適用判定プログラム。
  3. 前記差分情報を算出する処理は、さらに、前記第1のシステム構成時におけるシステムの負荷量と前記第2のシステム構成時におけるシステムの負荷量との比である負荷量比を用いて、前記差分情報を算出することを特徴とする請求項2に記載の適用判定プログラム。
  4. 前記差分情報を算出する処理は、さらに、前記第1のシステム構成時におけるシステムの負荷の傾向を示す負荷パターンと前記第2のシステム構成時におけるシステムの負荷傾向を示す負荷パターンとの差である負荷パターン差を用いて、前記差分情報を算出することを特徴とする請求項2または3に記載の適用判定プログラム。
  5. 前記差分情報を算出する処理は、前記変更回数とさらに、前記第1のシステム構成を構成する構成要素と前記第2のシステム構成を構成する構成要素とで相違する構成要素の数である差分数と、前記第1のシステム構成時におけるシステムの負荷量と前記第2のシステム構成時におけるシステムの負荷量との比である負荷量比と、前記第1のシステム構成時におけるシステムの負荷の傾向を示す負荷パターンと前記第2のシステム構成時におけるシステムの負荷の傾向を示す負荷パターンとの差である負荷パターン差とのうち、少なくとも1つを用いて、前記差分情報を算出することを特徴とする請求項1に記載の適用判定プログラム。
  6. 前記生成した障害予兆パターンを用いて障害の予兆を検出する処理を前記コンピュータにさらに実行させ、
    前記差分情報を算出する処理は、前記障害の予兆が検出された際のシステム構成を前記第2のシステム構成として抽出し、前記システム構成間の差分情報を算出することを特徴とする請求項1から5のいずれか一つに記載の適用判定プログラム。
  7. 前記障害予兆パターンを用いて障害の予兆を検出し、
    前記障害の予兆が検出された後に、実際に障害が発生したか否か判定し、
    判定した結果に基づいて、前記第2のシステム構成への前記障害予兆パターンの適用可否を判定する前記差分情報の閾値を決定する処理を前記コンピュータにさらに実行させることを特徴とする請求項1から6のいずれか一つに記載の適用判定プログラム。
  8. 第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、前記第1のシステム構成において過去に発生した障害事象に基づいて生成する生成部と、
    前記第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出する算出部と、
    前記算出部によって算出された前記差分情報に応じて、前記第2のシステム構成における障害の予兆検出への前記障害予兆パターンの適用可否を判定する判定部と
    を有することを特徴とする障害検出装置。
  9. コンピュータが、
    第1のシステム構成において障害の予兆検出に用いられる障害予兆パターンを、前記第1のシステム構成において過去に発生した障害事象に基づいて生成し、
    前記第1のシステム構成から第2のシステム構成へシステム構成が遷移する際に、システムを構成する構成要素の変更が実行された累積回数である変更回数を用いて、システム構成間の差を示す差分情報を算出し、
    算出した前記差分情報に応じて、前記第2のシステム構成における障害の予兆検出への前記障害予兆パターンの適用可否を判定する
    処理を含んだことを特徴とする適用判定方法。
JP2012253731A 2012-11-19 2012-11-19 適用判定プログラム、障害検出装置および適用判定方法 Expired - Fee Related JP6160064B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012253731A JP6160064B2 (ja) 2012-11-19 2012-11-19 適用判定プログラム、障害検出装置および適用判定方法
US14/011,824 US9176798B2 (en) 2012-11-19 2013-08-28 Computer-readable recording medium, failure prediction device and applicability determination method
GB1315890.2A GB2508064A (en) 2012-11-19 2013-09-06 Determining validity of failure predictor pattern after change of system configuration

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012253731A JP6160064B2 (ja) 2012-11-19 2012-11-19 適用判定プログラム、障害検出装置および適用判定方法

Publications (2)

Publication Number Publication Date
JP2014102661A true JP2014102661A (ja) 2014-06-05
JP6160064B2 JP6160064B2 (ja) 2017-07-12

Family

ID=49486836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012253731A Expired - Fee Related JP6160064B2 (ja) 2012-11-19 2012-11-19 適用判定プログラム、障害検出装置および適用判定方法

Country Status (3)

Country Link
US (1) US9176798B2 (ja)
JP (1) JP6160064B2 (ja)
GB (1) GB2508064A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071696A (ja) * 2014-09-30 2016-05-09 富士通株式会社 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
WO2016132717A1 (ja) * 2015-02-17 2016-08-25 日本電気株式会社 ログ分析システム、ログ分析方法およびプログラム記録媒体
WO2018163280A1 (ja) * 2017-03-07 2018-09-13 株式会社日立製作所 予兆検知装置及び予兆検知方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6028657B2 (ja) 2013-03-28 2016-11-16 富士通株式会社 検証プログラム、検証方法および検証装置
US10282215B2 (en) * 2014-11-27 2019-05-07 Telefonaktiebolaget Lm Ericsson (Publ) Partial validation of configurations at runtime
JP2017111601A (ja) * 2015-12-16 2017-06-22 富士通株式会社 調査対象特定プログラム、および調査対象特定方法
US20190036768A1 (en) * 2016-02-08 2019-01-31 Nec Corporation Alteration procedure generation system, alteration procedure generation method, and program storage medium
US11307949B2 (en) * 2017-11-15 2022-04-19 American Express Travel Related Services Company, Inc. Decreasing downtime of computer systems using predictive detection
CN108089963B (zh) * 2017-11-27 2021-03-26 温州大学瓯江学院 一种多媒体教室电脑余量检测方法和装置
WO2020000405A1 (en) 2018-06-29 2020-01-02 Microsoft Technology Licensing, Llc. Multi-phase cloud service node error prediction
JP7207009B2 (ja) * 2019-02-26 2023-01-18 日本電信電話株式会社 異常検知装置、異常検知方法および異常検知プログラム
US20240036999A1 (en) * 2022-07-29 2024-02-01 Dell Products, Lp System and method for predicting and avoiding hardware failures using classification supervised machine learning

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009176203A (ja) * 2008-01-28 2009-08-06 Nec Corp 監視装置、監視システム、監視方法およびプログラム
JP2009193153A (ja) * 2008-02-12 2009-08-27 Nec Corp 管理システム、履歴情報の保存方法、及び履歴情報データベースのデータ構造
JP2009533739A (ja) * 2006-04-11 2009-09-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 構成可能アイテムの構成データを提供するシステム、方法、媒体、及びコンピュータ・プログラム(構成管理システムにおける重み付け決定)
JP2010231825A (ja) * 2010-07-21 2010-10-14 Fujitsu Ltd システム監視プログラム、システム監視方法およびシステム監視装置
WO2011125138A1 (ja) * 2010-04-06 2011-10-13 株式会社日立製作所 性能監視装置,方法,プログラム
WO2012067031A1 (ja) * 2010-11-17 2012-05-24 日本電気株式会社 違反予兆条件設定支援システム、違反予兆条件設定支援方法および違反予兆条件設定支援プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747422B1 (en) * 1999-10-13 2010-06-29 Elizabeth Sisley Using constraint-based heuristics to satisfice static software partitioning and allocation of heterogeneous distributed systems
US6898564B1 (en) * 2000-05-23 2005-05-24 Microsoft Corporation Load simulation tool for server resource capacity planning
JP4707376B2 (ja) * 2004-11-29 2011-06-22 富士通株式会社 情報処理方法及びプログラム
JP2007249445A (ja) * 2006-03-15 2007-09-27 Hitachi Ltd クラスタシステムの負荷分散制御方法およびその装置
US7539907B1 (en) * 2006-05-05 2009-05-26 Sun Microsystems, Inc. Method and apparatus for determining a predicted failure rate
JP2008090372A (ja) * 2006-09-29 2008-04-17 Hitachi Ltd ストレージ装置及び負荷分散方法
JP4331742B2 (ja) * 2006-10-25 2009-09-16 株式会社日立製作所 I/oの割り振り比率に基づいて性能を管理する計算機システム、計算機及び方法
JP5277667B2 (ja) * 2008-03-07 2013-08-28 日本電気株式会社 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
WO2009144780A1 (ja) 2008-05-27 2009-12-03 富士通株式会社 システム運用管理支援プログラム,方法及び装置
US8689188B2 (en) * 2009-09-11 2014-04-01 International Business Machines Corporation System and method for analyzing alternatives in test plans
JP5514643B2 (ja) 2010-06-21 2014-06-04 株式会社日立ソリューションズ 障害原因判定ルール変化検知装置及びプログラム
JP5541130B2 (ja) * 2010-12-10 2014-07-09 富士通株式会社 管理装置、管理方法および管理用プログラム
JP6059046B2 (ja) * 2013-03-04 2017-01-11 アズビル株式会社 不具合検知システムおよび不具合検知方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009533739A (ja) * 2006-04-11 2009-09-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 構成可能アイテムの構成データを提供するシステム、方法、媒体、及びコンピュータ・プログラム(構成管理システムにおける重み付け決定)
JP2009176203A (ja) * 2008-01-28 2009-08-06 Nec Corp 監視装置、監視システム、監視方法およびプログラム
JP2009193153A (ja) * 2008-02-12 2009-08-27 Nec Corp 管理システム、履歴情報の保存方法、及び履歴情報データベースのデータ構造
WO2011125138A1 (ja) * 2010-04-06 2011-10-13 株式会社日立製作所 性能監視装置,方法,プログラム
JP2010231825A (ja) * 2010-07-21 2010-10-14 Fujitsu Ltd システム監視プログラム、システム監視方法およびシステム監視装置
WO2012067031A1 (ja) * 2010-11-17 2012-05-24 日本電気株式会社 違反予兆条件設定支援システム、違反予兆条件設定支援方法および違反予兆条件設定支援プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071696A (ja) * 2014-09-30 2016-05-09 富士通株式会社 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、
US10042686B2 (en) 2014-09-30 2018-08-07 Fujitsu Limited Determination method, selection method, and determination device
WO2016132717A1 (ja) * 2015-02-17 2016-08-25 日本電気株式会社 ログ分析システム、ログ分析方法およびプログラム記録媒体
US10514974B2 (en) 2015-02-17 2019-12-24 Nec Corporation Log analysis system, log analysis method and program recording medium
WO2018163280A1 (ja) * 2017-03-07 2018-09-13 株式会社日立製作所 予兆検知装置及び予兆検知方法

Also Published As

Publication number Publication date
GB201315890D0 (en) 2013-10-23
US20140143625A1 (en) 2014-05-22
JP6160064B2 (ja) 2017-07-12
US9176798B2 (en) 2015-11-03
GB2508064A (en) 2014-05-21

Similar Documents

Publication Publication Date Title
JP6160064B2 (ja) 適用判定プログラム、障害検出装置および適用判定方法
US7984334B2 (en) Call-stack pattern matching for problem resolution within software
US8751874B2 (en) Managing apparatus, managing method
KR101547721B1 (ko) 검출 이벤트에 따른 액션 실행을 지원하는 시스템, 검출 이벤트에 다른 액션 실행을 지원하는 방법, 지원 장치 및 컴퓨터 프로그램
US20070168696A1 (en) System for inventing computer systems and alerting users of faults
US20110099559A1 (en) Monitoring Information Assets and Information Asset Topologies
KR101436033B1 (ko) 운용 관리 장치, 운용 관리 방법 및 운용 관리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP6413537B2 (ja) 障害予兆通報装置および予兆通報方法、予兆通報プログラム
US11526422B2 (en) System and method for troubleshooting abnormal behavior of an application
CN105637488A (zh) 追踪源代码用于末端用户监控
US20170345015A1 (en) Service request management in cloud computing systems
US20180095819A1 (en) Incident analysis program, incident analysis method, information processing device, service identification program, service identification method, and service identification device
US20120054324A1 (en) Device, method, and storage medium for detecting multiplexed relation of applications
US20150012622A1 (en) Information system management apparatus, information system management method, and program
JP2009181496A (ja) ジョブ処理システムおよびジョブ管理方法
US8296262B1 (en) Systems and methods for real-time online monitoring of computing devices
US9443196B1 (en) Method and apparatus for problem analysis using a causal map
JP2015194797A (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
US9594622B2 (en) Contacting remote support (call home) and reporting a catastrophic event with supporting documentation
JP2017211806A (ja) 通信の監視方法、セキュリティ管理システム及びプログラム
CN110633165B (zh) 故障处理方法、装置、系统服务器及计算机可读存储介质
CN113138896A (zh) 一种应用运行情况的监控方法、装置和设备
JP2013235408A (ja) ログ管理システム、ログ管理サーバ及びプログラム
JPWO2018122889A1 (ja) 異常検出方法、システムおよびプログラム
JP5686001B2 (ja) 情報処理装置、メッセージ切分け方法およびメッセージ切分けプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170529

R150 Certificate of patent or registration of utility model

Ref document number: 6160064

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees