JP2005018179A - 障害監視装置 - Google Patents

障害監視装置 Download PDF

Info

Publication number
JP2005018179A
JP2005018179A JP2003178870A JP2003178870A JP2005018179A JP 2005018179 A JP2005018179 A JP 2005018179A JP 2003178870 A JP2003178870 A JP 2003178870A JP 2003178870 A JP2003178870 A JP 2003178870A JP 2005018179 A JP2005018179 A JP 2005018179A
Authority
JP
Japan
Prior art keywords
failure
failure recovery
recovery
fault
client terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003178870A
Other languages
English (en)
Inventor
Takaharu Uchikado
隆治 内門
Masaki Hara
正樹 原
Seiji Tanaka
誠司 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003178870A priority Critical patent/JP2005018179A/ja
Publication of JP2005018179A publication Critical patent/JP2005018179A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】障害発生時に障害内容に対応した障害回復シナリオを選定し、必要な処理を行う障害監視装置を提供する。また障害発生事にクライアント端末に必要な情報を通知する障害監視装置を提供する。さらに障害発生事にクライアント端末で必要なアクションを実行する障害監視装置を提供する。
【解決手段】障害発生時に予め想定した障害に対して障害回復内容を定義してデータベース化することで、障害に対応する回復処理を自動判定し、クライアント端末に障害回復のガイダンスを通知する。障害回復のガイダンスを通知する必要がないクライアント端末に対しては上記データベースに障害回復アクションを定義しておくことで、クライアント端末で端末システムの再起動や該当処理の停止等の障害時の回復処理を実行させる。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、障害通知処理および障害回復処理を行う障害監視装置に関する。
【0002】
【従来の技術】
近年クライアント・サーバ型システムを利用した業務システムが増加し、外部のサーバから障害監視を行ない、障害を即時に検知し障害内容を効率的に判断することが必要となっている。この解決方法として、原因診断マトリックス型故障診断知識を用いた下記の特許文献1に示される技術や、故障診断知識ツリーを用いた特許文献2に示される技術により、効率的に障害内容を特定する方法が提案されている。
【0003】
【特許文献1】
特開平5−307661号公報
【特許文献2】
特開平9−146627号公報
【0004】
【発明が解決しようとする課題】
上記のような技術を用いて効率的に監視サーバあるいはクライアント端末で障害内容を特定することは可能であるが、障害に対する代替処置を行なうための判断情報をクライアント端末で取得することはできない。従ってクライアント端末に障害回復までのガイダンスを通知すること、あるいは障害発生時にクライアント端末で必要なアクションを実行させることが望まれていた。
【0005】
本発明の目的は、上記課題を解決し、障害発生時に障害内容に対応した障害回復シナリオを選定し、必要な処理を行う障害監視装置を提供することにある。また本発明の他の目的は、障害発生事にクライアント端末に必要な情報を通知する障害監視装置を提供することにある。さらに本発明の他の目的は、障害発生事にクライアント端末で必要なアクションを実行する障害監視装置を提供することにある。
【0006】
【課題を解決するための手段】
上記本発明の第一の目的を実現するために、本発明の障害監視装置は障害検知を行なう機能、障害内容の条件に応じて障害メッセージを出力する機能、障害内容とそれに対応した障害回復シナリオを格納するデータベース、条件に応じて障害回復シナリオを選定する機能を備え、望ましくはさらに障害回復事例を格納するデータベース、障害回復事例データベースから障害回復事例を抽出する機能を備える。障害監視装置は条件に応じて障害内容を特定し、監視装置上に障害メッセージを出力する。障害回復シナリオ選定機能は、障害回復シナリオデータベースから条件に一致する障害回復シナリオを選定する。障害回復事例抽出機能は障害回復事例データベースから障害回復事例を抽出し、障害回復シナリオデータベースに登録及び更新を行う。
【0007】
本発明の第二の目的を実現するために、本発明の障害監視装置は、第一の目的を実現するための構成において、障害内容に対応付けた障害回復ガイダンス情報を備え、障害回復シナリオ選定機能で選定した障害回復シナリオが障害回復ガイダンスを通知すべきものであった場合、予めデータベースに登録されたクライアントに対して障害回復ガイダンスを通知する。
【0008】
本発明の第三の目的を実現するために、本発明の障害監視装置は、第一の目的を実現するための構成において、障害内容に対応付けた障害回復アクション情報を備え、障害回復シナリオ選定機能で選定した障害回復シナリオが障害回復アクションを実行すべきものであった場合、予めデータベースに登録されたクライアントに対して障害回復アクションを実行する。障害回復アクション情報は、クライアントへのコマンドであっても、実行可能なプログラムであっても良い。
【0009】
【発明の実施の形態】
本発明の障害監視装置の実施例を以下に図を用いて説明する。図1は本発明を実現するためのシステム全体構成である。
【0010】
障害を検知する障害検知部1、障害を検知する条件を格納する障害情報管理部2、障害メッセージを出力する障害メッセージ出力部3、障害回復シナリオを選定する障害回復シナリオ選定部4、障害回復ガイダンスや障害回復アクション情報を含む障害回復シナリオを格納する障害回復シナリオデータベース5、障害回復ガイダンス通知あるいは障害回復アクション実行を行なう障害回復実行部6、障害回復事例を抽出し障害回復シナリオデータベース5への登録及び更新を行う障害回復事例抽出部7、障害回復事例を格納する障害回復事例データベース8により構成する。
【0011】
以下、障害内容に対応した障害回復シナリオを選定し、障害回復ガイダンスを通知する処理手順及び障害回復アクションを実行する処理手順について説明する。
【0012】
図2は本発明の障害回復ガイダンス通知処理及び障害回復アクション実行処理を示すフロー図である。
【0013】
サーバ9で障害が発生した場合、ステップS11で障害検知部1により条件に一致した障害を検知する。次に、ステップS12で障害メッセージ出力部3へ検知した障害に対するメッセージを渡す。ステップ13で障害メッセージ出力部3により障害メッセージを出力する。ステップS11からS13までは従来の方式を使用した障害監視装置により実現できる。
【0014】
ステップS14で、ステップS13の障害メッセージにより障害回復シナリオ選定部4が障害回復シナリオデータベース5から障害回復シナリオを選定する処理を行う。
【0015】
ステップS15で、ステップS14により選択した障害回復シナリオの判定処理を行う。この障害回復シナリオ選定とその判定の処理の詳細を図3に示す。
【0016】
判定の結果が一致しない場合、ステップS16のデフォルトガイダンス通知処理を行う。
【0017】
一致した場合は、ステップS17で障害回復ガイダンスを選択して通知する処理か、ステップS18で障害回復アクションを選択して外部コマンドを実行する処理を行う。ステップS15による障害回復シナリオの判定処理後、ステップS16、S17、S18までの処理の詳細を図7に示す。
【0018】
図3は図2の障害メッセージを受けて障害回復シナリオ選定部4が行う障害回復シナリオ選定と判定の処理を示すフロー図である。ステップS21で障害回復シナリオ選定部4は障害メッセージ出力部3から障害メッセージ情報を受け取る。次に、ステップS22で障害回復シナリオデータベース5に登録済みの障害メッセージと、障害メッセージ出力部3から受け取った障害メッセージとを比較する。
【0019】
図4に障害回復シナリオデータベース5のデータ構成例を示す。障害回復シナリオデータベース5には、格納しているシステム名、障害メッセージ、障害回復区分、障害回復内容、回復時間、グループ名が登録された障害回復シナリオ管理テーブルを備える。障害回復シナリオ管理テーブルの障害メッセージには、障害情報管理部2に格納されている障害メッセージの中で障害回復シナリオを定義している障害メッセージが存在する。障害回復区分については障害回復ガイダンスを通知する、あるいは障害回復アクションを実行するかについてのコードを設定する。図4の例では障害回復ガイダンスを通知する障害については0、障害回復アクションを実行する障害については1となる。障害回復内容については、障害回復区分によって障害回復のためのガイダンスメッセージあるいは障害回復アクションである外部実行コマンドを設定する。回復時間には障害回復までの予定時間を設定する。
【0020】
ステップS22で障害回復シナリオデータベース5に登録済みの障害メッセージと受け取った障害メッセージが一致している場合は、ステップS24で該当障害に対して障害回復シナリオ管理テーブルの障害回復区分が0の障害回復ガイダンス通知かどうかを判定する。ステップS22で障害回復シナリオデータベース5に登録済みの障害メッセージと受け取った障害メッセージが一致しない場合は、ステップS23で障害回復実行部6へ該当するシナリオがないという情報を渡す。ステップ24で障害回復区分が0であれば、ステップS25で障害回復実行部6へ障害回復ガイダンス通知を行なうという情報を渡す。ステップ24で障害回復区分が1であれば、ステップS26で障害回復実行部6へ障害回復アクション実行を行なうという情報を渡す。ステップS23によって障害回復実行部6のステップS16に示す障害回復デフォルトガイダンス通知処理を実行する。ステップS25によって障害回復実行部6のステップS17に示す障害回復ガイダンス通知処理を実行する。ステップS26によって障害回復実行部6のステップS18に示す障害回復アクション実行処理を実行する。
【0021】
図5は、障害回復事例データベース8から抽出した障害回復事例を、障害回復シナリオデータベース5の障害回復シナリオ管理テーブルに対して登録及び更新を行う処理のフロー図である。ステップ31で障害回復事例データベース8から、任意のタイミングで障害回復事例の収集を行う。ステップ32では障害回復事例データベース8内に同一の障害回復事例が複数あるかどうかを判定する。同一の障害回復事例が複数あった場合は、ステップ33で、複数の同一障害回復事例より従来の統計処理方式を用いて最適な障害回復シナリオを作成する。障害回復事例が単独で存在した場合は、ステップ34で障害回復シナリオを抽出する。ステップ35では、抽出した障害回復シナリオが障害回復シナリオデータベース5の障害回復シナリオ管理テーブルに存在するかどうかを判定する。障害回復シナリオが既に障害回復シナリオデータベース5の障害回復シナリオ管理テーブルに存在した場合、ステップ36で、該当する障害回復シナリオに対して所定の条件のもとに更新処理を行う。障害回復シナリオが障害回復シナリオデータベース5の障害回復シナリオ管理テーブルに存在しなかった場合、ステップ37で、障害回復シナリオを障害回復シナリオデータベース5の障害回復シナリオ管理テーブルに新規に登録する。図4の例では障害回復ガイダンスを通知する場合は、「AシステムでM00障害が発生しました。障害復旧まであと1時間程度お待ち下さい。」「ZシステムでM99障害が発生しました。障害復旧まであと24時間程度お待ち下さい。」となる。グループ名には障害回復ガイダンス通知あるいは障害回復アクション実行の対象となるクライアント端末ホスト名をグループ化したデータを格納する。
【0022】
図6はクライアント端末ホスト名をグループ化したクライアント管理テーブルの概念図を示す。クライアント管理テーブルには、各グループに属するクライアント端末ホスト名、有効フラグを登録する。図6の例では、グループG01に対応するクライアント端末ホスト名はPC01、PC02、PC03・・・となる。有効フラグについては、クライアント端末ホスト名が有効(1)か無効(0)かを設定する。図6の例では、グループ名G00のクライアント端末ホスト名PC01、PC02、PC04は有効であり、PC03は無効であるため、障害回復内容はクライアント端末PC03に対しては対象外となる。
【0023】
図7に障害回復実行部6で実行する処理フローを示す。
【0024】
ステップS41で障害回復シナリオ選定部4から障害回復ガイダンスまたは障害回復アクション情報を含む障害回復内容と対象グループ名を受け取る。障害回復内容がない場合は、ステップS42で障害回復方法を判定した後、ステップS43で全てのクライアント端末をガイダンス通知先に設定し、ステップS44で障害回復デフォルトガイダンスを通知する。ステップS44で予め登録されたガイダンスをクライアント10に対して通知する。例えば、「障害が発生しましたので、状況が判明するまでシステムのご利用を中止して下さい。」と通知される。
【0025】
障害回復ガイダンス通知の情報を受け取った場合、ステップS42で障害回復方法を判定した後、ステップS45で対象グループ名により対象となるクライアント端末を限定してガイダンス通知先に設定し、ステップS46で障害回復ガイダンスをステップS45で設定したクライアント10に対して通知する。
【0026】
障害回復アクション実行の情報を受け取った場合、ステップS42で障害回復方法を判定した後、ステップS47で対象グループ名により対象となるクライアント端末を限定してアクション実行先に設定し、ステップS48で障害回復アクションをステップS47で設定したクライアント10に対して実行する。
【0027】
【発明の効果】
以上、本発明の障害監視装置によれば、障害発生時に予め想定した障害に対して障害回復内容を定義してデータベース化することで、障害に対応する回復処理を自動判定し、クライアント端末に障害回復のガイダンスを通知することができる。障害回復のガイダンスを通知する必要がないクライアント端末に対しては上記データベースに障害回復アクションを定義しておくことで、クライアント端末で端末システムの再起動や該当処理の停止等の障害時の回復処理を実行させることができる。
【0028】
上記ガイダンスやアクションにより、クライアント端末利用者は障害が回復するまでにクライアント端末で行なうべき代替策を適宜判断することができる。
【図面の簡単な説明】
【図1】本発明を達成するための障害監視装置の構成図。
【図2】本発明の障害回復処理動作フローチャート。
【図3】本発明の障害回復シナリオ選定動作フローチャート。
【図4】本発明の障害回復シナリオ管理テーブルの概念図。
【図5】本発明の障害事例抽出処理動作フローチャート。
【図6】本発明のクライアント端末管理テーブルの概念図。
【図7】本発明の障害回復実行動作フローチャート。
【符号の説明】
1…障害検知部、2…障害情報管理部、3…障害メッセージ出力部、4…障害回復シナリオ選定部、5…障害回復シナリオデータベース、6…障害回復実行部、7…障害回復事例抽出処理部、8…障害回復事例データベース、9…サーバ、10…クライアント。

Claims (3)

  1. クライアント・サーバシステムを障害監視サーバにより監視する障害監視装置において、障害内容とそれに対応した障害回復シナリオを有するデータベースを備え、障害内容を判定する機能を備え、障害内容に対応した障害回復シナリオを選定する機能を備えたことを特徴とする障害監視装置。
  2. 請求項1に記載の障害監視装置において、障害内容に対応付けた障害回復ガイダンス情報を備え、クライアント端末に対して障害内容に対応した障害回復ガイダンスを通知する機能を備えたことを特徴とする障害監視装置。
  3. 請求項1または2に記載の障害監視装置において、障害内容に対応付けた障害回復アクション情報を備え、クライアント端末に対して障害内容に対応した障害回復アクションを実行する機能を備えたことを特徴とする障害監視装置。
JP2003178870A 2003-06-24 2003-06-24 障害監視装置 Pending JP2005018179A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003178870A JP2005018179A (ja) 2003-06-24 2003-06-24 障害監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003178870A JP2005018179A (ja) 2003-06-24 2003-06-24 障害監視装置

Publications (1)

Publication Number Publication Date
JP2005018179A true JP2005018179A (ja) 2005-01-20

Family

ID=34180327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003178870A Pending JP2005018179A (ja) 2003-06-24 2003-06-24 障害監視装置

Country Status (1)

Country Link
JP (1) JP2005018179A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007116671A (ja) * 2005-09-21 2007-05-10 Fuji Xerox Co Ltd 画像処理装置の保守システム、画像処理装置及びプログラム
JP2007267352A (ja) * 2006-03-02 2007-10-11 Alaxala Networks Corp 障害回復システム及びサーバ
JP2009076103A (ja) * 2008-12-22 2009-04-09 Nec Corp 障害復旧装置および障害復旧方法ならびにプログラム
JP2014032598A (ja) * 2012-08-06 2014-02-20 Hitachi Systems Ltd インシデント管理システム及びその方法
CN104122686A (zh) * 2013-04-26 2014-10-29 索尼公司 液晶显示单元和投影显示装置
JP2020135287A (ja) * 2019-02-18 2020-08-31 日本電気株式会社 業務サービス提供システム、業務サービス復旧方法及び業務サービス復旧プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007116671A (ja) * 2005-09-21 2007-05-10 Fuji Xerox Co Ltd 画像処理装置の保守システム、画像処理装置及びプログラム
JP4730263B2 (ja) * 2005-09-21 2011-07-20 富士ゼロックス株式会社 画像処理装置の保守システム
JP2007267352A (ja) * 2006-03-02 2007-10-11 Alaxala Networks Corp 障害回復システム及びサーバ
JP4701148B2 (ja) * 2006-03-02 2011-06-15 アラクサラネットワークス株式会社 障害回復システム及びサーバ
JP2009076103A (ja) * 2008-12-22 2009-04-09 Nec Corp 障害復旧装置および障害復旧方法ならびにプログラム
JP2014032598A (ja) * 2012-08-06 2014-02-20 Hitachi Systems Ltd インシデント管理システム及びその方法
CN104122686A (zh) * 2013-04-26 2014-10-29 索尼公司 液晶显示单元和投影显示装置
JP2020135287A (ja) * 2019-02-18 2020-08-31 日本電気株式会社 業務サービス提供システム、業務サービス復旧方法及び業務サービス復旧プログラム
JP7363049B2 (ja) 2019-02-18 2023-10-18 日本電気株式会社 業務サービス提供システム、業務サービス復旧方法及び業務サービス復旧プログラム

Similar Documents

Publication Publication Date Title
CN110515820B (zh) 一种服务器故障维护方法、装置、服务器及存储介质
CN106533805B (zh) 一种微服务请求处理方法、微服务控制器及微服务架构
CN110309029B (zh) 异常数据的采集方法、装置、计算机设备和存储介质
JP5198154B2 (ja) 障害監視システム及びデバイスと監視装置並びに障害監視方法
CN111400104A (zh) 数据同步方法及装置、电子设备、存储介质
CN113923181B (zh) 一种群消息处理方法、装置、系统及存储介质
JP2005018179A (ja) 障害監視装置
CN109559121B (zh) 交易路径调用异常分析方法、装置、设备及可读存储介质
WO2023055405A1 (en) Static and dynamic non-deterministic finite automata tree structure application apparatus and method
JPH10214208A (ja) ソフトウェアの異常監視方式
CN112181695A (zh) 异常应用处理方法、装置、服务器及存储介质
JP6210010B2 (ja) 情報処理プログラム、装置及び方法
CN116450471A (zh) 异常日志的告警方法及装置、存储介质、计算机设备
CN113918407A (zh) 一种管理服务进程的方法、装置及可读存储介质
CN109491841A (zh) 一种提高Spark on yarn实时任务可靠性的方法
CN110879756A (zh) 协作流程异常处理方法、装置、计算机设备及存储介质
US20220334825A1 (en) Modular firmware update
JP4230946B2 (ja) アプリケーション監視装置、そのプログラム、及びその記録媒体。
JP2006331026A (ja) メッセージ分析システム及びメッセージ分析プログラム
JP5935890B2 (ja) 障害検出装置、障害検出プログラムおよび障害検出方法
JP5499484B2 (ja) プログラム修正システム、端末装置、サーバ装置、プログラム修正方法、エラー検出プログラム及び管理プログラム
JP6497268B2 (ja) 管理プログラム、管理装置及び管理方法
CN106055429A (zh) 一种信息处理方法及装置
JP4388449B2 (ja) 画面遷移システムの監視システム及び監視方法
CN111682964B (zh) 一种组合Web服务失效快速恢复方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050921

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080520