JP2008198123A - 障害検知システム及び障害検知プログラム - Google Patents

障害検知システム及び障害検知プログラム Download PDF

Info

Publication number
JP2008198123A
JP2008198123A JP2007035332A JP2007035332A JP2008198123A JP 2008198123 A JP2008198123 A JP 2008198123A JP 2007035332 A JP2007035332 A JP 2007035332A JP 2007035332 A JP2007035332 A JP 2007035332A JP 2008198123 A JP2008198123 A JP 2008198123A
Authority
JP
Japan
Prior art keywords
failure
condition
failure detection
operation information
editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007035332A
Other languages
English (en)
Inventor
Shinichi Yoshiya
伸一 吉屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information Systems Ltd
Original Assignee
Hitachi Information Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information Systems Ltd filed Critical Hitachi Information Systems Ltd
Priority to JP2007035332A priority Critical patent/JP2008198123A/ja
Publication of JP2008198123A publication Critical patent/JP2008198123A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】コンピュータの障害検知条件の自動更新。
【解決手段】コンピュータから入力した稼動情報を基にコンピュータの障害を検知する障害検知システムであって、前記コンピュータの稼動情報の組合せによる既知障害検知条件を格納する条件データベース2300と、コンピュータから入力した複数の稼動情報を表示し、該表示した稼動情報の組合せによる障害検知条件を編集する機能と障害に対する対応内容情報を入力する機能とを有する障害閲覧編集装置3100と、該障害閲覧編集装置3100が編集した編集障害検知条件を格納する対応内容データベース3200と、条件データベース2300に格納されている既知障害検知条件と前記対応内容データベースに格納した編集障害検知条件とを入力とし、前記既知障害検知条件に編集障害検知条件により追加された条件を定義する条件定義支援装置3300とを備えたもの。
【選択図】図1

Description

本発明は、複数のコンピュータシステムからシステム稼動情報をメッセージとして収集し、そのメッセージの内容から障害を検知する障害検知システム及び障害検知プログラムに係り、特に障害を特定するための条件を自動で修正することができる障害検知システム及び障害検知プログラムに関する。
一般に企業等における各種業務を行うコンピュータシステムは、障害が発生したときに当該障害の詳細内容を特定するために膨大な量の稼動情報を監視し、保存している。特に各種業務に応じた特定業務用のサーバコンピュータをLAN等によって接続し、本店・支店等の端末が前記特定業務用のサーバコンピュータにアクセスして業務処理を行うコンピュータシステムにおいては、これら膨大な量の稼動情報の中から対応すべき障害情報のみを抽出するため、システムが稼動する各端末から稼動情報を中央にある端末に収集し、収集したデータを分析する事によって障害を特定する障害検知ツール(コンピュータプログラム)を利用することが知られている。
この障害検知ツールは、過去の障害時のデータなどから稼動情報の出力パターン(同一の稼動情報の発現回数や異なる稼動情報の発生順序の組合せや該稼動情報の組合せが発生した時間帯)などを割り出し、そのパターンと同一のパターンの稼動情報が出力されている場合に障害を検知したと判断する手法が採用され、近年では、前述の検知した障害情報に加えて、過去の同一障害発生時に実施した対応方法なども付加して、システムの管理者へ通知するものが提案されている。
しかしながら、従来技術による障害検知ツールは、障害検知の精度が必ずしも高いとは言い難く、特に複数のシステム且つ当該複数システムが複数のアプリケーションやミドルウェアなどから構成されている場合、障害発生時の稼動情報出力パターンが複雑なため、正確に障害を検知するための条件を設定する事が困難であり、障害検知の正確性が高いとは言い難いと言う不具合があった。これを具体的に説明すると、従来の障害検知ツールは、例えば、正常ではあるが他の障害時に生じる稼動情報と同一の稼動情報を出力しているために誤って障害とみなされる場合や、1回の障害発生時に複数回の稼動情報が繰り返して出力されるために、1回の障害であるにも関わらず同一時間帯の複数回の障害として検知される場合があると言う不具合があった。更に、この障害検知の精度が高いとは言い難いため、過去の障害発生時の対応方法などが付加されて管理者に通知された場合、管理者が誤った対応をしてしまう可能性があると言う不具合もあった。
従来技術による障害検知ツールが記載された文献としては、下記特許文献が挙げられ、この特許文献には、ネットワーク上の各端末から障害情報を収集し、最初に収集した障害情報と同一端末から発生した同一内容の障害が、特定時間内に複数回発生した場合は、最初の障害メッセージ以外の障害情報を無視することにより、同一の稼動情報が1回の障害で複数回出力される場合に、同一の障害が複数回通知される事を防ぎ、精度が比較的高い障害検知を実施することが記載されている。
特開2003−345681号公報
前述の特許文献に記載された技術は、最初の障害検知を通知した後、同一の障害を示す稼動情報が一定時間内に受信したとき、それらを通知済みの障害として無視するものであるが、障害であるか否かを検知するための条件としては、障害とみなす稼動情報の内容、稼動情報を出力した端末情報、その後同一の稼動情報を受信した場合に無視する経過時間、無視する稼動情報の件数などの多種の条件をシステム構成、システムのバージョン、障害内容に応じて予め詳細に設定しておかなければならず、更に稼動情報にも変更が生じる場合があり、実際のシステム障害に応じた条件設定が困難であると言う不具合があった。
また、従来技術は、当初のシステムに対して条件設定を行った以降にシステム変更がない場合であっても、条件を設定する際に見落としている障害の稼動情報などがある可能性があり、実際にその障害が発生した際には再度その稼動情報を調査する必要が生じ、更に同一障害発生時でも、連携している他システムなどに影響を受け稼動情報の出力パターンが毎回異なる可能性があり、従って障害検知条件の設定を調整する必要が生じ、これらの点からも条件設定が困難であると言う不具合があった。
更に従来技術による障害検知ツールを使用したシステムは、検知条件に合わない障害が発生した場合、システムの管理者または障害検知ツールの管理者が、障害の内容および稼動情報を再度調査し、障害であるかどうかを調査し、障害であるとみなしたとき、それに対する対応を実施する必要がある。このとき、管理者は、再度障害検知ツール条件の調整・再設定しなければ前述の不具合が生じるが、管理者などが多忙である場合、それらは放置されてしまう可能性があり、この場合、再度同一の障害が発生した場合、再度障害内容を調査するところから実施しなくてはならないと言う不具合もあった。
本発明の目的は、前述の不具合を除去することであり、障害検知の検知条件を自動的に設定することができる障害検知システム及び障害検知プログラムを提供することである。
前記目的を達成するために本発明は、コンピュータから入力した稼動情報を基にコンピュータの障害を検知する障害検知システムであって、前記コンピュータの稼動情報の組合せによる既知障害検知条件を格納する条件データベースと、前記コンピュータから入力した複数の稼動情報を表示し、該表示した稼動情報の組合せによる障害検知条件を編集する機能及び前記障害に対する対応内容情報を入力する機能とを有する障害閲覧編集装置と、該障害閲覧編集装置が編集した編集障害検知条件を格納する対応内容データベースと、前記条件データベースに格納されている既知障害検知条件と前記対応内容データベースに格納した編集障害検知条件とを入力し、前記既知障害検知条件に編集障害検知条件により追加された条件を定義する条件定義支援装置とを備えることを第1の特徴とする。
また本発明は、前記第1の特徴による障害検知システムにおいて、前記障害検知条件が、複数の稼動情報の発現回数及び発生順序並びに発生時間帯を含み、前記条件定義支援装置が、前記既知障害検知条件から編集障害検知条件に加えられた稼動情報の発現回数及び発生順序並びに発生時間帯を定義することを第2の特徴とし、該第2の特徴の障害検知システムにおいて、前記条件定義支援装置が、前記既知障害検知条件と編集障害検知条件とを比較し、前記既知障害検知条件に含まれる稼動情報と同一の稼動情報が前記編集障害検知条件に含まれるとき、前記既知障害検知条件の同一の稼動情報の発現回数を増加するように定義することを第3の特徴とする。
更に本発明は、コンピュータの稼動情報の組合せによる既知障害検知条件を格納する条件データベースと、前記コンピュータから入力した複数の稼動情報を表示し、該表示した稼動情報の組合せによる障害検知条件を編集する機能と障害に対する対応内容情報を入力する機能とを有する障害閲覧編集装置と、該障害閲覧編集装置が編集した編集障害検知条件を格納する対応内容データベースと、前記各データベース及び障害閲覧編集装置に接続された障害検知コンピュータとから成る障害検知システムにおいて、前記障害検知コンピュータに実行させるための障害検知プログラムであって、前記障害検知コンピュータに、前記障害閲覧編集装置により編集された編集障害検知条件を対応内容データベースに格納する機能と、前記条件データベースに格納されている既知障害検知条件に対応内容データベースに格納した編集障害検知条件により追加された条件を定義する機能とを実行させることを第4の特徴とする。
また本発明は、前記第4の特徴の障害検知プログラムにおいて、前記障害検知条件が、複数の稼動情報の発現回数及び発生順序並びに発生時間帯を含み、前記障害検知プログラムが、前記既知障害検知条件から編集障害検知条件に加えられた稼動情報の発現回数及び発生順序並びに発生時間帯を定義する機能を含むことを第5の特徴とし、該第5の特徴の障害検知プログラムにおいて、前記既知障害検知条件と編集障害検知条件とを比較する機能と、該比較によって前記既知障害検知条件に含まれる稼動情報と同一の稼動情報が前記編集障害検知条件に含まれると判断したとき、前記既知障害検知条件の同一の稼動情報の発現回数を増加するように定義する機能とを含むことを第6の特徴とする。
本発明による障害検知システム及び障害検知プログラムは、条件定義支援装置又は障害検知プログラムが、条件データベースに格納されている既知障害検知条件と対応内容データベースに格納した編集障害検知条件とを入力し、前記既知障害検知条件に編集障害検知条件により追加された条件を定義することによって、障害検知の検知条件を自動的に設定することができ、従来の障害検知ツールと本発明とを併せて使用することにより、障害検知のための条件を修正するのに掛かる工数を低減することができる。
以下、図面を参照して本発明による障害検知プログラムを実行する障害検知システムを詳細に説明する。図1は本発明の一実施形態による障害検知プログラムを実行する障害検知システムを含むコンピュータシステムを示す図、図2は、障害の判定条件の設定例を説明するための図、図3は障害レコード例を説明するための図、図4は修正条件データ例を説明するための図、図5は、修正条件データ作成フローを示す図、図6は修正条件データ作成フローを示す図、図7は修正条件データ作成フローを示す図である。
<全体構成>
本実施形態による障害検知ツールを含むコンピュータシステムは、図1に示す如く、障害検知の対象となるコンピュータである監視対象システム1000と、該監視対象システム1000からの稼動情報を収集して障害の検知を行う障害検知プログラムを実行するコンピュータである障害検知ツール2200と、監視対象システム1000からの稼動情報と比較して障害の発生を検知するための過去の障害発生時の稼動情報の出力パターン(稼動情報の種類/発現回数/発生順序/発生時間帯の組合せから成る既知の障害検知条件)を格納する条件データベース2300と、システム管理者4000が障害内容を閲覧して障害に対応した作業等の指示を行うための障害閲覧編集(GUI)装置3100と、該障害閲覧編集装置3100を用いて管理者が指示した対応作業の内容を格納する対応内容データベース3200と、前記条件データベース2300及び対応内容データベース3200と接続され、管理者が指示した対応作業内容に応じた障害検知条件の設定を支援する条件定義支援装置3300とから構成される。
前記監視対象システム1000は、各種業務を実行するソフトウェアであるアプリケーションと、該アプリケーションが使用する各種データを格納するデータベースと、外部と接続するためのネットワークと、これらを制御するコンピュータと、前記アプリケーション他から出力された稼動情報を収集する稼動情報収集装置2100とから構成されている。尚、前記監視対象システム1000の構成は、図示の例に限られるものではなく、所定の機能を実行するハードウェアやプログラムから構成されていても良い。
<条件データ100>
前記条件データベース2300に格納した障害を判定するための条件データ100の定義例を図2に示す。この条件データ100は、既知の障害検知条件であって、図2に示す如く、障害および正常時の事象単位を検知する単位で記録され、それぞれ一意な値である条件IDと、該条件ID毎に対象システム/障害レベル/障害内容/当該条件データの有効・無効/当該条件データの説明/更新日時の各項目から成り、例えば、No1の条件ID「XXX000001−0022」の検知条件は、対象が「SYSTEM」、障害レベルが「E」、障害内容が「シャットダウン」、条件データの有効・無効が「有効」、条件内容が「XXX・・」、更新日時が「06/07/07 12:00:00」の各条件データから成る。
更に個々の条件データ100は、図2下段に示す如く、前記条件ID毎に、その稼動情報が発生した時間帯条件120と稼動情報の内容と最低/最大発現回数など稼動情報単位に設定する(メッセージ)内容条件110とを含んでいる。尚、前記障害内容及び障害レベルの項目は、実際の障害に関する説明を管理者が入力するものであり、条件データの有効・無効欄にて、「無効」となっているものは、当該条件に合致する稼動情報が出力されてもその事象を通知しないという意味である。
<障害レコード>
前記対応内容データベース3200に障害閲覧編集装置3100を用いて格納した障害対応作業の内容である障害レコードの一例を図3に示す。この障害レコードは、前記障害検知ツール2200から通知された障害レコードを格納したものであり、障害検知ツール2200が検知した事象単位に構成され、具体的には図3に示す如く、障害レコードを識別し、障害レコードを特定するための一意な値である障害ID200と、該障害ID200に対応して前記障害検知ツール2200が記録した内容である障害内容210と、前記障害閲覧編集装置3100において記録された対応内容を記録する対応内容220との各項目から成る。更に前記障害内容210は、前記障害検知ツールがこの事象を検知した際に合致した障害検知ツール条件IDと、当該条件IDに対応した条件データに定義されている稼動情報メッセージ内容と、事象を検知した際の稼動情報の発現回数と、稼動情報発生の時間帯とを含み、前記対応内容220は、通知された事象が障害であるか正常時の事象であるかを記録した障害/正常を示す項目と、同一障害で発生していると思われる関連する障害レコードの障害IDを記録する項目から成る。特に本例においては、図3左端に示す番号(No)1が既知の障害ID「FE−00045545」に対応する稼動情報の続いて、番号(No)2以降の障害ID「FE−00045545」/「FE−00045546」〜「FE−00045549」に対する対応内容220の欄に前記既知の障害ID「FE−00045545」が関連障害IDとして登録される。
<修正条件データ>
前記条件定義支援装置3300が管理者4000の操作によって編集された修正条件データの一例を図4を参照して説明する。図4に示す修正条件データ(編集障害検出条件)は、前記図2の条件データ及び図3の障害レコードから作成したものであって、例えば図2に示した条件ID「XXX000001−0022」が付与された障害が、「データの送出に失敗しました」とのメッセージAPP01が10〜15回発生し、「経由ブリッジのポートが閉じています」とのメッセージNW1が1〜2回発生し、「致命的エラーによりシャットダウンします」とのメッセージAPP01が1回発生するの各項目から成る条件内容110と、発生時間帯が17:45:00〜09:00:00(例えば顧客システム営業時間外)との時間帯条件120とが設定されている状況において、図3に示した如く、障害内容として、「データの送出に失敗しました」とのメッセージAPP01が15回、「経由ブリッジのポートが閉じています」とのメッセージNW1が2回、「致命的エラーによりシャットダウンします」とのメッセージAPP01が1回発生し、これに続いて「データの送出に失敗しました」(APP01)の稼動情報(障害ID:FE−000045545)と「連帯APの応答がありません」(APP02)の稼動情報(障害ID:FE−000045546)と「連帯APの応答がありません(リトライ)」(APP02)の稼動情報(障害ID:FE−00045547)と「連帯APからの応答がないためリトライします」(APP02)との稼動情報(障害ID:FE−45548)と「ネットワークが高負荷のためシャットダウンします」(APP02)との障害情報(障害ID:FE−000045549/条件ID:XXX000001−0024)が各1回発生し、これら障害情報が条件定義支援装置3300に表示されたものとする。
このとき、管理者が図3に示した障害レコードを見て、前記障害検知ツール条件IDが付与されず、前記新たに発生した障害ID「FE−45546」〜障害ID「FE−45549」の稼動情報が、条件ID「XXX000001−0022」の障害に付随して発生した稼動情報(メッセージ)と判断し、これら障害ID「FE−45546」〜障害ID「FE−45549」が条件ID「XXX000001−0022」の障害による稼動情報(メッセージ)の一部であることを障害閲覧編集装置3100を用いて入力した場合、条件定義支援装置3300が、図4に示す如く、条件ID「XXX000001−0022」の図2下段に示した条件内容110(稼動情報「A」/「B」/「C」)に、前記障害ID「FE−000045545」等の稼動情報(メッセージ)も条件ID「XXX000001−0022」の障害に含まれることを追加し、この修正済み条件を条件データベース2300に反映するように更新する。
尚、図4下段に示した稼動情報単位の定義項目の稼動情報「A」(「データの送出に失敗しました」とのメッセージAPP01)においては、メッセージの最大発言回数が16回となっており、図2の条件データと比べて1つ多くなっているが、これは、図3の障害レコードにおいて、稼動情報「A」と同一のメッセージ(APP01)が条件に合致しない稼動情報として追加して通知されており、この追加された条件(16回でも条件に合致する)を図2の条件データに合致した障害レコードと関連付けたためである。また、図3において、条件IDがなく、関連する障害レコードとして、図2の条件データに、稼動情報「D」〜「F」と、ネットワークが高負荷のためにシャットダウンする旨の稼動情報「G」とを追加している。
このため本実施形態においては、前述の修正条件データを条件データベース2300に反映し、障害検知ツール2300が使用することによって、図3に示した6件の障害レコードを1件の障害レコードとして検知するものである。
<概略動作説明>
次に前述のように構成した障害検知システムの概略動を説明する。
まず、本実施形態によるコンピュータシステムは、監視対象システム1000からの稼動情報を稼動情報収集装置2100が収集して障害検知ツール2200に送信し、これを受けた障害検知ツール2200が、過去の障害時の稼動情報の出力パターンを記録した条件データベース2300から障害特定のための条件(稼動情報の発現回数/順序/時間帯等の組合せ)を読み込み、収集した稼動情報の出力パターンが条件に合致するかを分析し、この分析の結果、障害と判定又は条件に合致しない稼動情報があった場合、障害内容を記録した障害レコードを障害閲覧編集装置3100に通知するように動作する。
この通知を受けた障害閲覧編集装置3100が、管理者4000に通知することによって、管理者4000が、障害内容を確認し、各障害内容に応じて監視対象システム1000に対応を指示し、この対応の結果、あるひとつの障害から複数の障害レコードが指示されている場合、障害閲覧編集装置3100は、それら複数の障害レコードが関連していると判定し、この判定された障害レコードを対応内容データベース3200に格納する。この対応内容データベース3200に格納する条件データは、前述の図4を用いて説明した条件である。
次いで条件定義支援装置3300は、対応内容データベース3200から障害レコードを全て読み込み、関連している障害ごとに障害レコードをグループ分けを行い、この障害レコードが障害検知ツール2200により判定する条件に合致している場合には、その条件データを条件データベース2300から読み込み、その条件に設定されている稼動情報の内容、発生時間帯、最低発言回数、および最大発言回数を読み込み、修正条件データのテンプレートを作成する。
次いで条件定義支援装置3300は、前記条件定義支援装置3300がグループ分けした障害レコードに記録されている稼動情報を読み込み、その稼動情報の内容、稼動情報の発生時間帯、および発現回数を修正条件データとして記録し、修正条件データのテンプレートが存在する場合には、その修正条件データに対して上書きを行う。
前記障害検知ツール2200は、前述した稼動情報を受信したとき、条件データに定義されているかをチェックし、定義されている場合には、その稼動情報の内容と合計発現回数を内部記憶に記憶し、予め条件データに定義されている時間帯において、全ての稼動情報が最低発言回数を満たした場合、障害を検知したと判断し、障害レコードを作成して障害閲覧編集装置3100に通知する。この通知は、条件データに定義されている時間帯内で、最大発現回数を超える稼動情報を受信した場合には、その稼動情報は別の障害であるとみなして通知し、条件データに定義されている時間帯内に、全ての稼動情報が最低発言回数を超えなかった場合には、それは条件で定義されている障害とはみなされず、条件に合致しない事象として障害レコードを作成して通知し、どの条件データにも該当しない稼動情報を受信した場合には、それも条件に合致しない事象として障害レコードを作成して通知する。尚、同一の稼動情報が複数の条件データに定義されている場合には、どちらの条件にも合致するようにしても良いし、先に合致した条件を優先するようにしても良い。どちらの条件にも合致するようにした場合、障害レコードを通知する際には、それぞれの条件データの何%を満たしているかなどの情報を付加するのが好ましい。また、障害検知ツールが条件に合致しなかった事象として通知した障害レコードである場合、条件ID項目には値は設定されない。
次いで条件定義支援装置3300は、この対応内容データベース3200から、障害レコードを読み込み、関連障害ID列の値をキーに障害レコードをグループ化し、そのグループの中の障害レコードに記録されている全ての稼動情報の出力パターンを割り出し、それを修正条件データとして作成する。この作成する修正条件データ例は前述の図4の通りであり、この修正条件データを条件データベース2300に反映し、障害検知ツール2200が参照して使用することによって、例えば図3に示した6件の障害レコードを1件の障害レコードとして捕捉することができる。
<詳細動作>
次いで、前述した条件定義支援装置3300が修正条件データを作成するための処理フローを図5〜図7を参照して詳細に説明する。
本実施形態による修正条件データの作成処理は、対応内容データベース3200から障害レコードを読み込み、図3の障害レコード表の関連障害IDをキーとしてグループ分けし、そのグループを内部記憶に記録する処理を行うものであって、図5に示す如く、条件定義支援装置3300が修正条件データ作成を指示されたとき、対応内容データベース3200から障害レコードを1件読み込むステップ101と、該読み込んだ障害レコードに関連障害IDが設定されているかを判定し、設定されていないと判定したときに対応内容データベース3200から次のレコードを読み込むステップ101に戻るステップ102と、該ステップ102において関連障害IDが設定されていると判定したとき、同一の関連障害IDを持つ障害レコードが既に内部記憶に記録されているかを判定するステップ103と、該ステップ103において存在しないと判定したとき、本障害レコードの関連障害IDをキーとした障害グループ900を作成するステップ104と、前記ステップ103において存在すると判定したとき、該当関連障害IDをキーとする障害グループ900に障害レコードを追加するステップ106と、以上のステップ101乃至105を処理を全ての障害レコードを読み込むまで繰り返すステップ106とを実行することによって、関連障害IDをキーとして障害のグループ分けの処理を行うように動作する。
次いで本実施形態による修正条件データの作成処理は、図6に示す如く、図5のフローで作成した障害グループ900を1件読み込むステップ201と、該読み込んだ障害グループのキーとなっている関連障害IDを障害IDとして持つ障害レコードを対応内容データベース3200から読み込むステップ202と、該読み込んだ障害レコードに関連障害IDが存在するかを判定するステップ203と、該ステップ203において存在すると判定したとき、その関連障害IDをキーとした障害グループ900に、本フローの最初で読み込んだ障害グループ900の障害レコードを全て追加し、最初で読み込んだ障害グループを削除するステップ204と、前記ステップ203において存在しないと判定したときに前記ステップ201乃至203を全ての障害グループを読み込むまで繰り返すステップ205とを実行する。
次いで本実施形態による修正条件データの作成処理は、図7に示す如く、図5及び図6のフローで作成した障害グループ900を1件読み込むステップ301と、該読み込んだ障害グループ900のキーとなっている関連障害IDを障害IDとして持つ障害レコードを対応内容データベース3200から読み込むステップ302と、該読み込んだ障害レコードに、障害検知ツール2200で条件と合致した場合に設定される条件IDが設定されているかどうかを判定するステップ303と、該ステップ303において設定されていると判定したとき、該設定されている条件IDをキーとして条件データベース2300から条件データを読み込むステップ304と、該ステップ304において読み込んだ条件データに設定されているメッセージ内容、メッセージの発生時刻、およびメッセージの最低/最大発現回数を内部記憶に記憶するステップ305と、該ステップ305に続いて前記記憶した条件データ910を複製し、新たな修正条件データ920を作成するステップ306とを実行することによって、障害IDと障害IDとを紐付ける処理を行う。尚、前記条件データ910及びこれを複製した修正条件データ920はフォーマットが同じものであるため、複製後、特に編集等する必要はないものとする。
次いで本修正条件データの作成処理は、前記ステップ303において障害レコードに条件IDが設定されていないと判定したとき、内部記憶に空の修正条件データ920を作成するステップ307と、該修正条件データ920を作成した後に、障害グループ900内の障害レコードから稼動情報を読み込むステップ308と、該読み込んだ稼動情報が修正条件データ920に既に定義されているかを判定するステップ309と、該ステップ309により既に定義されていると判定したとき、修正条件データ920の該当稼動情報の発現回数を、障害レコードに設定されていた発現回数分インクリメントするステップ310と、該ステップ301に続いて修正条件データと障害レコードに設定されている時間帯にズレがある場合、どちらの時間帯もカバーする時間帯を再設定するステップ311と、前記ステップ309において稼動情報が修正条件データ920に定義されていないと判定したとき、該当稼動情報の内容、発現回数を障害レコードから読み込み、修正条件データ920に新規に定義するステップ312と、障害レコードから時間帯を読み込み、修正条件データ920に定義するステップ313と、前記ステップ307による修正条件データ920作成からステップ313迄の処理を全障害レコードの全稼動情報を読み込むまで繰り返すステップ314と、該ステップ314に続いて修正条件データ作成完了とし、修正条件データ920を出力するステップ315と、以上の処理を、全障害グループを読み込むまで繰り返すステップ316とを実行することによって、前記紐付け処理で作成したグループを元に条件IDデータを作成する。
この様に本実施形態による修正条件データの作成処理は、関連障害IDを用いて障害のグループ分けを行う処理(図5)と、関連障害IDと障害IDとを紐付ける処理(図6)と、前記グループを元に条件IDデータを作成することによって、条件定義支援装置3300が既知の障害検知条件と編集された編集障害検知条件とを関連づけ、従って管理者が編集した編集障害検知条件と条件データベースに格納されている既知障害検知条件とを用いて追加された検知条件を定義することができ、障害検知の検知条件を自動的に設定又は更新することができる。
このように本実施形態によれば、運用担当者が障害検知ツール導入後に状況によって障害検知条件を再定義する作業を支援することができる。特に稼動情報が発生した時間帯や発現回数、同一の稼動情報が既に定義されているかなど、全て検知条件の更新を自動で実施することができるため、障害検知ツールのメンテナンス作業工数を低減することができる。
本発明の一実施形態による障害検知プログラムを実行する障害検知システムを含むコンピュータシステムを示す図。 本実施形態による障害判定条件の設定例を説明するための図。 本実施形態による障害レコード例を説明するための図。 本実施形態による修正条件データ例を説明するための図。 本実施形態による修正条件データ作成フローを示す図。 本実施形態による修正条件データ作成フローを示す図。 本実施形態による修正条件データ作成フローを示す図。
符号の説明
1000:監視対象システム、2100:稼動情報収集装置、2200:障害検知ツール、2300:条件データベース、2300:障害検知ツール、2300:条件データベース、3100:障害閲覧編集装置、3200:対応内容データベース、3300:条件定義支援装置、4000:システム管理者、100:条件データ、110:内容条件、120:時間帯条件、210:障害内容、220:対応内容、900:障害グループ、910:条件データ、920:修正条件データ。

Claims (6)

  1. コンピュータから入力した稼動情報を基にコンピュータの障害を検知する障害検知システムであって、
    前記コンピュータの稼動情報の組合せによる既知障害検知条件を格納する条件データベースと、
    前記コンピュータから入力した複数の稼動情報を表示し、該表示した稼動情報の組合せによる障害検知条件を編集する機能及び前記障害に対する対応内容情報を入力する機能とを有する障害閲覧編集装置と、
    該障害閲覧編集装置が編集した編集障害検知条件を格納する対応内容データベースと、
    前記条件データベースに格納されている既知障害検知条件と前記対応内容データベースに格納した編集障害検知条件とを入力し、前記既知障害検知条件に編集障害検知条件により追加された条件を定義する条件定義支援装置と
    を備える障害検知システム。
  2. 前記障害検知条件が、複数の稼動情報の発現回数及び発生順序並びに発生時間帯を含み、前記条件定義支援装置が、前記既知障害検知条件から編集障害検知条件に加えられた稼動情報の発現回数及び発生順序並びに発生時間帯を定義する請求項1記載の障害検知システム。
  3. 前記条件定義支援装置が、前記既知障害検知条件と編集障害検知条件とを比較し、前記既知障害検知条件に含まれる稼動情報と同一の稼動情報が前記編集障害検知条件に含まれるとき、前記既知障害検知条件の同一の稼動情報の発現回数を増加するように定義する請求項2記載の障害検知システム。
  4. コンピュータの稼動情報の組合せによる既知障害検知条件を格納する条件データベースと、前記コンピュータから入力した複数の稼動情報を表示し、該表示した稼動情報の組合せによる障害検知条件を編集する機能及び前記障害に対する対応内容情報を入力する機能とを有する障害閲覧編集装置と、該障害閲覧編集装置が編集した編集障害検知条件を格納する対応内容データベースと、前記各データベース及び障害閲覧編集装置に接続された障害検知コンピュータとから成る障害検知システムにおいて、前記障害検知コンピュータに実行させるための障害検知プログラムであって、
    前記障害検知コンピュータに、
    前記障害閲覧編集装置により編集された編集障害検知条件を対応内容データベースに格納する機能と、
    前記条件データベースに格納されている既知障害検知条件に対応内容データベースに格納した編集障害検知条件により追加された条件を定義する機能とを実行させる障害検知プログラム。
  5. 前記障害検知条件が、複数の稼動情報の発現回数及び発生順序並びに発生時間帯を含み、前記障害検知プログラムが、前記既知障害検知条件から編集障害検知条件に加えられた稼動情報の発現回数及び発生順序並びに発生時間帯を定義する機能を含む請求項4記載の障害検知プログラム。
  6. 前記障害検知プログラムが、前記既知障害検知条件と編集障害検知条件とを比較する機能と、該比較によって前記既知障害検知条件に含まれる稼動情報と同一の稼動情報が前記編集障害検知条件に含まれると判断したとき、前記既知障害検知条件の同一の稼動情報の発現回数を増加するように定義する機能とを含む請求項5記載の障害検知プログラム。
JP2007035332A 2007-02-15 2007-02-15 障害検知システム及び障害検知プログラム Pending JP2008198123A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007035332A JP2008198123A (ja) 2007-02-15 2007-02-15 障害検知システム及び障害検知プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007035332A JP2008198123A (ja) 2007-02-15 2007-02-15 障害検知システム及び障害検知プログラム

Publications (1)

Publication Number Publication Date
JP2008198123A true JP2008198123A (ja) 2008-08-28

Family

ID=39756977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007035332A Pending JP2008198123A (ja) 2007-02-15 2007-02-15 障害検知システム及び障害検知プログラム

Country Status (1)

Country Link
JP (1) JP2008198123A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209908A (ja) * 2010-03-29 2011-10-20 Hitachi Solutions Ltd 障害原因解析システムにおけるルール生成装置及びそのプログラム
US9262260B2 (en) 2012-09-27 2016-02-16 Fujitsu Limited Information processing apparatus, information processing method, and recording medium
WO2017104119A1 (ja) * 2015-12-14 2017-06-22 日本電気株式会社 ログ分析システム、方法およびプログラム
JP2018028778A (ja) * 2016-08-17 2018-02-22 日本電信電話株式会社 パターン抽出及びルール生成装置、及びその方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209908A (ja) * 2010-03-29 2011-10-20 Hitachi Solutions Ltd 障害原因解析システムにおけるルール生成装置及びそのプログラム
US9262260B2 (en) 2012-09-27 2016-02-16 Fujitsu Limited Information processing apparatus, information processing method, and recording medium
WO2017104119A1 (ja) * 2015-12-14 2017-06-22 日本電気株式会社 ログ分析システム、方法およびプログラム
JPWO2017104119A1 (ja) * 2015-12-14 2018-09-27 日本電気株式会社 ログ分析システム、方法およびプログラム
JP2018028778A (ja) * 2016-08-17 2018-02-22 日本電信電話株式会社 パターン抽出及びルール生成装置、及びその方法

Similar Documents

Publication Publication Date Title
JP4318643B2 (ja) 運用管理方法、運用管理装置および運用管理プログラム
JP4458493B2 (ja) ログ通知条件定義支援装置とログ監視システムおよびプログラムとログ通知条件定義支援方法
JP6669156B2 (ja) アプリケーション自動制御システム、アプリケーション自動制御方法およびプログラム
US8429463B2 (en) Log management method and apparatus, information processing apparatus with log management apparatus and storage medium
US20210248144A1 (en) Systems and methods for data quality monitoring
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
CN109669844B (zh) 设备故障处理方法、装置、设备和存储介质
US20070226222A1 (en) Computer-readable recording medium having recorded system development support program, system development support apparatus, and system development support method
US7398511B2 (en) System and method for providing a health model for software
CN111327685A (zh) 分布式存储系统数据处理方法、装置及设备和存储介质
JP4383484B2 (ja) メッセージ解析装置、制御方法および制御プログラム
JP2008198123A (ja) 障害検知システム及び障害検知プログラム
JP2006313399A (ja) 保守業務支援プログラム
JP4309803B2 (ja) 保守支援プログラム
JP2003216457A (ja) エラーログ収集解析エージェントシステム
JP2019049802A (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
JP5668425B2 (ja) 障害検知装置、情報処理方法、およびプログラム
KR101415528B1 (ko) 분산된 시스템을 위한 데이터 오류 처리 장치 및 방법
CN112598226B (zh) 一种设备清查方法、装置、设备及存储介质
JPH11296480A (ja) 遠隔障害監視システム
JP5444071B2 (ja) 障害情報収集システムと方法およびプログラム
JP6547341B2 (ja) 情報処理装置、方法及びプログラム
CN113094265B (zh) 测试脚本的分析方法及分析装置、电子设备
JP5768964B2 (ja) 障害調査支援装置、方法およびプログラム
JP2021117547A (ja) 障害解析装置、マルチクラスタシステム、障害解析プログラムおよび障害解析方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100323