JP2008198123A - 障害検知システム及び障害検知プログラム - Google Patents
障害検知システム及び障害検知プログラム Download PDFInfo
- Publication number
- JP2008198123A JP2008198123A JP2007035332A JP2007035332A JP2008198123A JP 2008198123 A JP2008198123 A JP 2008198123A JP 2007035332 A JP2007035332 A JP 2007035332A JP 2007035332 A JP2007035332 A JP 2007035332A JP 2008198123 A JP2008198123 A JP 2008198123A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- condition
- failure detection
- operation information
- editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】コンピュータから入力した稼動情報を基にコンピュータの障害を検知する障害検知システムであって、前記コンピュータの稼動情報の組合せによる既知障害検知条件を格納する条件データベース2300と、コンピュータから入力した複数の稼動情報を表示し、該表示した稼動情報の組合せによる障害検知条件を編集する機能と障害に対する対応内容情報を入力する機能とを有する障害閲覧編集装置3100と、該障害閲覧編集装置3100が編集した編集障害検知条件を格納する対応内容データベース3200と、条件データベース2300に格納されている既知障害検知条件と前記対応内容データベースに格納した編集障害検知条件とを入力とし、前記既知障害検知条件に編集障害検知条件により追加された条件を定義する条件定義支援装置3300とを備えたもの。
【選択図】図1
Description
本実施形態による障害検知ツールを含むコンピュータシステムは、図1に示す如く、障害検知の対象となるコンピュータである監視対象システム1000と、該監視対象システム1000からの稼動情報を収集して障害の検知を行う障害検知プログラムを実行するコンピュータである障害検知ツール2200と、監視対象システム1000からの稼動情報と比較して障害の発生を検知するための過去の障害発生時の稼動情報の出力パターン(稼動情報の種類/発現回数/発生順序/発生時間帯の組合せから成る既知の障害検知条件)を格納する条件データベース2300と、システム管理者4000が障害内容を閲覧して障害に対応した作業等の指示を行うための障害閲覧編集(GUI)装置3100と、該障害閲覧編集装置3100を用いて管理者が指示した対応作業の内容を格納する対応内容データベース3200と、前記条件データベース2300及び対応内容データベース3200と接続され、管理者が指示した対応作業内容に応じた障害検知条件の設定を支援する条件定義支援装置3300とから構成される。
前記条件データベース2300に格納した障害を判定するための条件データ100の定義例を図2に示す。この条件データ100は、既知の障害検知条件であって、図2に示す如く、障害および正常時の事象単位を検知する単位で記録され、それぞれ一意な値である条件IDと、該条件ID毎に対象システム/障害レベル/障害内容/当該条件データの有効・無効/当該条件データの説明/更新日時の各項目から成り、例えば、No1の条件ID「XXX000001−0022」の検知条件は、対象が「SYSTEM」、障害レベルが「E」、障害内容が「シャットダウン」、条件データの有効・無効が「有効」、条件内容が「XXX・・」、更新日時が「06/07/07 12:00:00」の各条件データから成る。
前記対応内容データベース3200に障害閲覧編集装置3100を用いて格納した障害対応作業の内容である障害レコードの一例を図3に示す。この障害レコードは、前記障害検知ツール2200から通知された障害レコードを格納したものであり、障害検知ツール2200が検知した事象単位に構成され、具体的には図3に示す如く、障害レコードを識別し、障害レコードを特定するための一意な値である障害ID200と、該障害ID200に対応して前記障害検知ツール2200が記録した内容である障害内容210と、前記障害閲覧編集装置3100において記録された対応内容を記録する対応内容220との各項目から成る。更に前記障害内容210は、前記障害検知ツールがこの事象を検知した際に合致した障害検知ツール条件IDと、当該条件IDに対応した条件データに定義されている稼動情報メッセージ内容と、事象を検知した際の稼動情報の発現回数と、稼動情報発生の時間帯とを含み、前記対応内容220は、通知された事象が障害であるか正常時の事象であるかを記録した障害/正常を示す項目と、同一障害で発生していると思われる関連する障害レコードの障害IDを記録する項目から成る。特に本例においては、図3左端に示す番号(No)1が既知の障害ID「FE−00045545」に対応する稼動情報の続いて、番号(No)2以降の障害ID「FE−00045545」/「FE−00045546」〜「FE−00045549」に対する対応内容220の欄に前記既知の障害ID「FE−00045545」が関連障害IDとして登録される。
前記条件定義支援装置3300が管理者4000の操作によって編集された修正条件データの一例を図4を参照して説明する。図4に示す修正条件データ(編集障害検出条件)は、前記図2の条件データ及び図3の障害レコードから作成したものであって、例えば図2に示した条件ID「XXX000001−0022」が付与された障害が、「データの送出に失敗しました」とのメッセージAPP01が10〜15回発生し、「経由ブリッジのポートが閉じています」とのメッセージNW1が1〜2回発生し、「致命的エラーによりシャットダウンします」とのメッセージAPP01が1回発生するの各項目から成る条件内容110と、発生時間帯が17:45:00〜09:00:00(例えば顧客システム営業時間外)との時間帯条件120とが設定されている状況において、図3に示した如く、障害内容として、「データの送出に失敗しました」とのメッセージAPP01が15回、「経由ブリッジのポートが閉じています」とのメッセージNW1が2回、「致命的エラーによりシャットダウンします」とのメッセージAPP01が1回発生し、これに続いて「データの送出に失敗しました」(APP01)の稼動情報(障害ID:FE−000045545)と「連帯APの応答がありません」(APP02)の稼動情報(障害ID:FE−000045546)と「連帯APの応答がありません(リトライ)」(APP02)の稼動情報(障害ID:FE−00045547)と「連帯APからの応答がないためリトライします」(APP02)との稼動情報(障害ID:FE−45548)と「ネットワークが高負荷のためシャットダウンします」(APP02)との障害情報(障害ID:FE−000045549/条件ID:XXX000001−0024)が各1回発生し、これら障害情報が条件定義支援装置3300に表示されたものとする。
次に前述のように構成した障害検知システムの概略動を説明する。
まず、本実施形態によるコンピュータシステムは、監視対象システム1000からの稼動情報を稼動情報収集装置2100が収集して障害検知ツール2200に送信し、これを受けた障害検知ツール2200が、過去の障害時の稼動情報の出力パターンを記録した条件データベース2300から障害特定のための条件(稼動情報の発現回数/順序/時間帯等の組合せ)を読み込み、収集した稼動情報の出力パターンが条件に合致するかを分析し、この分析の結果、障害と判定又は条件に合致しない稼動情報があった場合、障害内容を記録した障害レコードを障害閲覧編集装置3100に通知するように動作する。
次いで、前述した条件定義支援装置3300が修正条件データを作成するための処理フローを図5〜図7を参照して詳細に説明する。
本実施形態による修正条件データの作成処理は、対応内容データベース3200から障害レコードを読み込み、図3の障害レコード表の関連障害IDをキーとしてグループ分けし、そのグループを内部記憶に記録する処理を行うものであって、図5に示す如く、条件定義支援装置3300が修正条件データ作成を指示されたとき、対応内容データベース3200から障害レコードを1件読み込むステップ101と、該読み込んだ障害レコードに関連障害IDが設定されているかを判定し、設定されていないと判定したときに対応内容データベース3200から次のレコードを読み込むステップ101に戻るステップ102と、該ステップ102において関連障害IDが設定されていると判定したとき、同一の関連障害IDを持つ障害レコードが既に内部記憶に記録されているかを判定するステップ103と、該ステップ103において存在しないと判定したとき、本障害レコードの関連障害IDをキーとした障害グループ900を作成するステップ104と、前記ステップ103において存在すると判定したとき、該当関連障害IDをキーとする障害グループ900に障害レコードを追加するステップ106と、以上のステップ101乃至105を処理を全ての障害レコードを読み込むまで繰り返すステップ106とを実行することによって、関連障害IDをキーとして障害のグループ分けの処理を行うように動作する。
この様に本実施形態による修正条件データの作成処理は、関連障害IDを用いて障害のグループ分けを行う処理(図5)と、関連障害IDと障害IDとを紐付ける処理(図6)と、前記グループを元に条件IDデータを作成することによって、条件定義支援装置3300が既知の障害検知条件と編集された編集障害検知条件とを関連づけ、従って管理者が編集した編集障害検知条件と条件データベースに格納されている既知障害検知条件とを用いて追加された検知条件を定義することができ、障害検知の検知条件を自動的に設定又は更新することができる。
Claims (6)
- コンピュータから入力した稼動情報を基にコンピュータの障害を検知する障害検知システムであって、
前記コンピュータの稼動情報の組合せによる既知障害検知条件を格納する条件データベースと、
前記コンピュータから入力した複数の稼動情報を表示し、該表示した稼動情報の組合せによる障害検知条件を編集する機能及び前記障害に対する対応内容情報を入力する機能とを有する障害閲覧編集装置と、
該障害閲覧編集装置が編集した編集障害検知条件を格納する対応内容データベースと、
前記条件データベースに格納されている既知障害検知条件と前記対応内容データベースに格納した編集障害検知条件とを入力し、前記既知障害検知条件に編集障害検知条件により追加された条件を定義する条件定義支援装置と
を備える障害検知システム。 - 前記障害検知条件が、複数の稼動情報の発現回数及び発生順序並びに発生時間帯を含み、前記条件定義支援装置が、前記既知障害検知条件から編集障害検知条件に加えられた稼動情報の発現回数及び発生順序並びに発生時間帯を定義する請求項1記載の障害検知システム。
- 前記条件定義支援装置が、前記既知障害検知条件と編集障害検知条件とを比較し、前記既知障害検知条件に含まれる稼動情報と同一の稼動情報が前記編集障害検知条件に含まれるとき、前記既知障害検知条件の同一の稼動情報の発現回数を増加するように定義する請求項2記載の障害検知システム。
- コンピュータの稼動情報の組合せによる既知障害検知条件を格納する条件データベースと、前記コンピュータから入力した複数の稼動情報を表示し、該表示した稼動情報の組合せによる障害検知条件を編集する機能及び前記障害に対する対応内容情報を入力する機能とを有する障害閲覧編集装置と、該障害閲覧編集装置が編集した編集障害検知条件を格納する対応内容データベースと、前記各データベース及び障害閲覧編集装置に接続された障害検知コンピュータとから成る障害検知システムにおいて、前記障害検知コンピュータに実行させるための障害検知プログラムであって、
前記障害検知コンピュータに、
前記障害閲覧編集装置により編集された編集障害検知条件を対応内容データベースに格納する機能と、
前記条件データベースに格納されている既知障害検知条件に対応内容データベースに格納した編集障害検知条件により追加された条件を定義する機能とを実行させる障害検知プログラム。 - 前記障害検知条件が、複数の稼動情報の発現回数及び発生順序並びに発生時間帯を含み、前記障害検知プログラムが、前記既知障害検知条件から編集障害検知条件に加えられた稼動情報の発現回数及び発生順序並びに発生時間帯を定義する機能を含む請求項4記載の障害検知プログラム。
- 前記障害検知プログラムが、前記既知障害検知条件と編集障害検知条件とを比較する機能と、該比較によって前記既知障害検知条件に含まれる稼動情報と同一の稼動情報が前記編集障害検知条件に含まれると判断したとき、前記既知障害検知条件の同一の稼動情報の発現回数を増加するように定義する機能とを含む請求項5記載の障害検知プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007035332A JP2008198123A (ja) | 2007-02-15 | 2007-02-15 | 障害検知システム及び障害検知プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007035332A JP2008198123A (ja) | 2007-02-15 | 2007-02-15 | 障害検知システム及び障害検知プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008198123A true JP2008198123A (ja) | 2008-08-28 |
Family
ID=39756977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007035332A Pending JP2008198123A (ja) | 2007-02-15 | 2007-02-15 | 障害検知システム及び障害検知プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008198123A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011209908A (ja) * | 2010-03-29 | 2011-10-20 | Hitachi Solutions Ltd | 障害原因解析システムにおけるルール生成装置及びそのプログラム |
US9262260B2 (en) | 2012-09-27 | 2016-02-16 | Fujitsu Limited | Information processing apparatus, information processing method, and recording medium |
WO2017104119A1 (ja) * | 2015-12-14 | 2017-06-22 | 日本電気株式会社 | ログ分析システム、方法およびプログラム |
JP2018028778A (ja) * | 2016-08-17 | 2018-02-22 | 日本電信電話株式会社 | パターン抽出及びルール生成装置、及びその方法 |
-
2007
- 2007-02-15 JP JP2007035332A patent/JP2008198123A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011209908A (ja) * | 2010-03-29 | 2011-10-20 | Hitachi Solutions Ltd | 障害原因解析システムにおけるルール生成装置及びそのプログラム |
US9262260B2 (en) | 2012-09-27 | 2016-02-16 | Fujitsu Limited | Information processing apparatus, information processing method, and recording medium |
WO2017104119A1 (ja) * | 2015-12-14 | 2017-06-22 | 日本電気株式会社 | ログ分析システム、方法およびプログラム |
JPWO2017104119A1 (ja) * | 2015-12-14 | 2018-09-27 | 日本電気株式会社 | ログ分析システム、方法およびプログラム |
JP2018028778A (ja) * | 2016-08-17 | 2018-02-22 | 日本電信電話株式会社 | パターン抽出及びルール生成装置、及びその方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4318643B2 (ja) | 運用管理方法、運用管理装置および運用管理プログラム | |
JP4458493B2 (ja) | ログ通知条件定義支援装置とログ監視システムおよびプログラムとログ通知条件定義支援方法 | |
JP6669156B2 (ja) | アプリケーション自動制御システム、アプリケーション自動制御方法およびプログラム | |
US8429463B2 (en) | Log management method and apparatus, information processing apparatus with log management apparatus and storage medium | |
US20210248144A1 (en) | Systems and methods for data quality monitoring | |
JP4598065B2 (ja) | 監視シミュレーション装置,方法およびそのプログラム | |
CN109669844B (zh) | 设备故障处理方法、装置、设备和存储介质 | |
US20070226222A1 (en) | Computer-readable recording medium having recorded system development support program, system development support apparatus, and system development support method | |
US7398511B2 (en) | System and method for providing a health model for software | |
CN111327685A (zh) | 分布式存储系统数据处理方法、装置及设备和存储介质 | |
JP4383484B2 (ja) | メッセージ解析装置、制御方法および制御プログラム | |
JP2008198123A (ja) | 障害検知システム及び障害検知プログラム | |
JP2006313399A (ja) | 保守業務支援プログラム | |
JP4309803B2 (ja) | 保守支援プログラム | |
JP2003216457A (ja) | エラーログ収集解析エージェントシステム | |
JP2019049802A (ja) | 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム | |
JP5668425B2 (ja) | 障害検知装置、情報処理方法、およびプログラム | |
KR101415528B1 (ko) | 분산된 시스템을 위한 데이터 오류 처리 장치 및 방법 | |
CN112598226B (zh) | 一种设备清查方法、装置、设备及存储介质 | |
JPH11296480A (ja) | 遠隔障害監視システム | |
JP5444071B2 (ja) | 障害情報収集システムと方法およびプログラム | |
JP6547341B2 (ja) | 情報処理装置、方法及びプログラム | |
CN113094265B (zh) | 测试脚本的分析方法及分析装置、电子设备 | |
JP5768964B2 (ja) | 障害調査支援装置、方法およびプログラム | |
JP2021117547A (ja) | 障害解析装置、マルチクラスタシステム、障害解析プログラムおよび障害解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090409 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090929 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100323 |