JP2009076103A - 障害復旧装置および障害復旧方法ならびにプログラム - Google Patents

障害復旧装置および障害復旧方法ならびにプログラム Download PDF

Info

Publication number
JP2009076103A
JP2009076103A JP2008325500A JP2008325500A JP2009076103A JP 2009076103 A JP2009076103 A JP 2009076103A JP 2008325500 A JP2008325500 A JP 2008325500A JP 2008325500 A JP2008325500 A JP 2008325500A JP 2009076103 A JP2009076103 A JP 2009076103A
Authority
JP
Japan
Prior art keywords
operation state
command
failure
state
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008325500A
Other languages
English (en)
Other versions
JP2009076103A5 (ja
JP4998455B2 (ja
Inventor
Kiyoshi Kato
清志 加藤
Ryuichi Hiraike
龍一 平池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008325500A priority Critical patent/JP4998455B2/ja
Publication of JP2009076103A publication Critical patent/JP2009076103A/ja
Publication of JP2009076103A5 publication Critical patent/JP2009076103A5/ja
Application granted granted Critical
Publication of JP4998455B2 publication Critical patent/JP4998455B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】 管理コストを抑え、対処時間を減少させた障害復旧装置を提供する。
【解決手段】動作状態検出手段1は、サービス実行手段10の動作状態を検出する。ルール蓄積手段2は、サービス実行手段10で障害が発生した場合の動作状態を判定する為の条件式とその動作状態になった場合に障害を復旧又は回避する為の対処コマンドとルールの優先度情報とを含む複数の障害対処ルールを蓄積する。対処方法検索手段3は、サービス実行手段10の現在の動作状態に合致する条件式を持つルールを取り出し、その優先
度情報に応じて順次試行すると共に、対処コマンドを実行した後に変化すると予想される動作状態の変化情報を状態レジスタ5に出力する。効果判定手段6は、状態レジスタ5に保持された動作状態の変化情報と対処コマンド実行後のサービス実行手段10の動作状態を比較して、復旧又は回避の成否を判定し、その結果に応じて優先度情報を修正する。
【選択図】 図4

Description

本発明は、WEBサービスや業務サービスといった情報通信サービスを提供する情報処理
装置に関し、特に、障害状態を検知して対処コマンドを実行する耐障害機能を有する障害
復旧装置に関する。
通信網を介した情報提供や商品販売といった情報通信サービスは、時間や距離の制約をあ
まり受けずに業務効率化やきめ細かいユーザサービスを提供できることから、急速に利用
範囲が拡大している。このような利用範囲の拡大に伴い、これらのサービスを提供するコ
ンピュータが障害に陥った場合の影響も大きくなり、その耐障害性が大きな課題となって
いる。
第1の従来技術として、サービスを実行する装置の状態を検出して、予め決められた状態
になった場合を障害とみなして自動的に対処コマンドを実行する障害復旧装置では、特定
の障害を自動的に復旧または回避することが可能である。しかし、検知状態や対処コマン
ドが固定されているため、実際のサービス実行環境毎の特性の違いに対応できず、連続運
用に伴って装置の状態が徐々に変化してしまう場合や、他の装置との組合せにより装置の
状態が変化してしまう場合には、適切な対処が行われないという問題があった。また、こ
のような状態の変化に対応するためには、頻繁に検出状態や対処コマンドを変更する必要
があり、管理コストが増大するという問題があった。
第2の従来技術として、同じ検出状態に対する対処コマンドを複数用意し、予め決められ
た優先度順に順次対処コマンドを試行する障害復旧装置がある(例えば特許文献1参照)
。この従来の障害復旧装置では、サービス実行環境毎の特性が違う場合でも、複数の対処
コマンドを順次実行することで効果のある対処を行うことができる。しかし、対処コマン
ドの適用順序が固定されているため、最初から個々のサービス実行環境に適した対処が行
われるわけではなく、何度か対処に失敗してから正しい対処が行われることになり、対処
時間が増大するとともに、間違った対処を行ってしまうことで別の障害を引き起こす可能
性があるという問題があった。また、このような問題を避けるためには、別の障害を引き
起こす可能性のある対処コマンドを制限したり、個々のサービス実行環境毎に適切な優先
度を設定する必要があり、障害に対する対処の幅が制限され、システムが大規模/複雑化
するに従って管理コストが増大するという問題があった。
第3の従来技術として、復旧処理を行うオペレータの作業を支援するために、過去の障害
の状況および対処法を記載したナレッジ情報をオペレータに提示する障害復旧装置がある
(例えば特許文献2参照)、この従来の障害復旧装置では、障害時に検出された障害状態
と過去の障害状態との類似度に応じて提示するナレッジ情報の優先度を変化させることに
よって、より適切な作業支援を行うことができる。しかし、検出された状態のみで優先度
を制御するため、提示されたナレッジ情報が現在の症状に類似しているかどうかは判断で
きても、このナレッジ情報に従って実行された対処コマンドで障害が復旧するのかどうか
は判断できず、復旧効率の向上が期待できないという問題があった。また、このような実
行の成否をオペレータに入力させる機能を新たに有する従来の障害復旧装置では、対処コ
マンドの実行がオペレータの判断によって行われるため、提示された情報通りに実行され
たのかどうかが検出できず、提示したナレッジ情報に記載されている対処コマンド自体の
有効性を検証できないという問題があった。
特公平7−54474号公報 特開2002ー251295号公報
これらの従来の障害復旧装置では、以下の課題がある。
第1の課題として、第1の従来技術では、連続運用に伴って装置の状態が徐々に変化して
しまう場合や、他の装置との組合せにより装置の状態が変化してしまう場合には、適切な
対処が行われないという問題があった。また、頻繁に検出状態や対処コマンドを変更する
必要があり、管理コストが増大するという問題があった。
第2の課題として、第2の従来技術では、何度か対処に失敗してから正しい対処が行われ
ることによって対処時間が増大するとともに、間違った対処を行ってしまうことで別の障
害を引き起こす可能性があるという問題があった。また、障害に対する対処の幅が制限さ
れ、システムが大規模/複雑化するに従って管理コストが増大するという問題があった。
第3の課題として、第3の従来技術では、検出された状態のみで優先度を制御するため、
復旧効率の向上が期待できないという問題があった。また、対処コマンドの実行がオペレ
ータの判断によって行われるため、提示したナレッジ情報に記載されている対処コマンド
自体の有効性を検証できないという問題があった。
本発明は、これらの従来の課題を解決する障害復旧装置を提供することを目的とする。ま
た本発明の別の目的は、管理コストを増大させることなく、対処時間を減少させ、広い範
囲の障害に対してきめ細かな障害対策が可能な障害復旧装置を提供することにある。
本発明の第1の障害復旧装置は、サービス実行手段の動作状態を検出する動作状態検出手
段と、前記サービス実行手段で障害が発生した場合の動作状態または障害の前兆と推測さ
れる動作状態を判定するための条件式とその動作状態になった場合に障害を復旧または回
避するための対処コマンドとルール間の適用順序の優先度情報とを含む複数の障害対処ル
ールを蓄積するルール蓄積手段と、前記ルール蓄積手段から、前記動作状態検出手段で検
出された前記サービス実行手段の現在の動作状態に合致する条件式を持つルールを取り出
し、その優先度情報に応じて順次試行するとともに、前記対処コマンドを実行した後に変
化すると予想される動作状態の変化情報を状態レジスタに出力する対処方法検索手段と、
前記状態レジスタに保持された動作状態の変化情報と前記動作状態検出手段の出力である
前記対処コマンド実行後の前記サービス実行手段の動作状態を比較して、対処コマンドに
よる復旧または回避の成否を判定し、その結果に応じて前記優先度情報を修正する効果判
定手段と、を含んで構成される。
本発明の第2の障害復旧装置は、サービス実行手段の動作状態を検出する動作状態検出手
段と、前記サービス実行手段で障害が発生した場合の動作状態または障害の前兆と推測さ
れる動作状態を判定するための条件式であって、前記動作状態の1または複数の状態変数
とその閾値を規定する条件式と、その動作状態になった場合に障害を復旧または回避する
ための対処コマンドと、この対処コマンドの実行によって変化する前記状態変数の値を示
す実績値情報とを含む複数の障害対処ルールを蓄積するルール蓄積手段と、前記ルール蓄
積手段から、前記動作状態検出手段で検出された前記サービス実行手段の現在の動作状態
に合致する条件式を有し且つ現在の動作状態と前記実績値情報とから推測される対処コマ
ンド実行後の動作状態が前記合致した条件式を満たさなくなるルールを取り出して試行す
るとともに、前記対処コマンドを実行する前の前記状態変数の値を状態レジスタに出力す
る対処方法検索手段と、前記状態レジスタに保持された前記対処コマンドを実行する前の
前記状態変数の値と前記動作状態検出手段の出力である前記対処コマンド実行後の前記サ
ービス実行手段の動作状態における前記状態変数の値を比較して、前記実績値情報を修正
する効果判定手段と、を含んで構成される。
本発明の第3の障害復旧装置は、サービス実行手段の動作状態を検出する動作状態検出手
段と、前記サービス実行手段で障害が発生した場合の動作状態または障害の前兆と推測さ
れる動作状態を判定するための条件式であって、前記動作状態の1または複数の状態変数
とその閾値を規定する条件式と、その動作状態になった場合に障害を復旧または回避する
ための対処コマンドと、この対処コマンドの実行によって変化する前記状態変数の値を示
す実績値情報と、ルール間の適用順序の優先度情報とを含む複数の障害対処ルールを蓄積
するルール蓄積手段と、前記ルール蓄積手段から、前記動作状態検出手段で検出された前
記サービス実行手段の現在の動作状態に合致する条件式を有し且つ現在の動作状態と前記
実績値情報とから推測される対処コマンド実行後の動作状態が前記合致した条件式を満た
さなくなるルールを優先度情報による優先度順に取り出して試行するとともに、前記対処
コマンドを実行した後に変化すると予想される動作状態の変化情報および前記対処コマン
ドを実行する前の前記状態変数の値を状態レジスタに出力する対処方法検索手段と、前記
状態レジスタに保持された動作状態の変化情報と前記動作状態検出手段の出力である前記
対処コマンド実行後の前記サービス実行手段の動作状態を比較して対処コマンドによる復
旧または回避の正否を判定し、その結果に応じて前記優先度情報を修正するとともに、前
記状態レジスタに保持された前記対処コマンドを実行する前の前記状態変数の値と前記動
作状態検出手段の出力である前記対処コマンド実行後の前記サービス実行手段の動作状態
における前記状態変数の値を比較して、前記実績値情報を修正する効果判定手段と、を含
んで構成される。
本発明の第4の障害復旧装置は、第1ないし第3の障害復旧装置において、前記動作状態
検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ルールに含まれる
条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段は、同じ条件式
を有するルール群から優先度または実績値に応じて対処コマンドを1つづつ選択して対処
コマンド群を生成した後、その対処コマンド群に含まれる対処コマンドを優先度または実
績値の高い順に試行する。
本発明の第5の障害復旧装置は、第1ないし第4の障害復旧装置において、前記動作状態
検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ルールに含まれる
条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段は、その異なる
条件式に共通する対処コマンドが存在する場合には、共通する対処コマンドを優先的に試
行する。
本発明の第1の障害復旧方法は、a)動作状態検出手段が、サービス実行手段の動作状態
を検出するステップ、b)対処方法検索手段が、前記サービス実行手段で障害が発生した
場合の動作状態または障害の前兆と推測される動作状態を判定するための条件式とその動
作状態になった場合に障害を復旧または回避するための対処コマンドとルール間の適用順
序の優先度情報とを含む複数の障害対処ルールを蓄積するルール蓄積手段から、前記動作
状態検出手段で検出された前記サービス実行手段の現在の動作状態に合致する条件式を持
つルールを取り出し、その優先度情報に応じて順次試行するとともに、前記対処コマンド
を実行した後に変化すると予想される動作状態の変化情報を状態レジスタに出力するステ
ップ、c)前記動作状態検出手段が、前記対処コマンド実行後の前記サービス実行手段の
動作状態を検出するステップ、d)効果判定手段が、前記状態レジスタに保持された動作
状態の変化情報と前記動作状態検出手段の出力である前記対処コマンド実行後の前記サー
ビス実行手段の動作状態を比較して、対処コマンドによる復旧または回避の成否を判定し
、その結果に応じて前記優先度情報を修正するステップ、を含んで構成される。
本発明の第2の障害復旧方法は、a)動作状態検出手段が、サービス実行手段の動作状態
を検出するステップ、b)対処方法検索手段が、前記サービス実行手段で障害が発生した
場合の動作状態または障害の前兆と推測される動作状態を判定するための条件式であって
、前記動作状態の1または複数の状態変数とその閾値を規定する条件式と、その動作状態
になった場合に障害を復旧または回避するための対処コマンドと、この対処コマンドの実
行によって変化する前記状態変数の値を示す実績値情報とを含む複数の障害対処ルールを
蓄積するルール蓄積手段から、前記動作状態検出手段で検出された前記サービス実行手段
の現在の動作状態に合致する条件式を有し且つ現在の動作状態と前記実績値情報とから推
測される対処コマンド実行後の動作状態が前記合致した条件式を満たさなくなるルールを
取り出して試行するとともに、前記対処コマンドを実行する前の前記状態変数の値を状態
レジスタに出力するステップ、c)前記動作状態検出手段が、前記対処コマンド実行後の
前記サービス実行手段の動作状態を検出するステップ、d)効果判定手段が、前記状態レ
ジスタに保持された前記対処コマンドを実行する前の前記状態変数の値と前記動作状態検
出手段の出力である前記対処コマンド実行後の前記サービス実行手段の動作状態における
前記状態変数の値を比較して、前記実績値情報を修正するステップ、を含んで構成される
本発明の第3の障害復旧方法は、a)動作状態検出手段が、サービス実行手段の動作状態
を検出するステップ、b)対処方法検索手段が、前記サービス実行手段で障害が発生した
場合の動作状態または障害の前兆と推測される動作状態を判定するための条件式であって
、前記動作状態の1または複数の状態変数とその閾値を規定する条件式と、その動作状態
になった場合に障害を復旧または回避するための対処コマンドと、この対処コマンドの実
行によって変化する前記状態変数の値を示す実績値情報と、ルール間の適用順序の優先度
情報とを含む複数の障害対処ルールを蓄積するルール蓄積手段から、前記動作状態検出手
段で検出された前記サービス実行手段の現在の動作状態に合致する条件式を有し且つ現在
の動作状態と前記実績値情報とから推測される対処コマンド実行後の動作状態が前記合致
した条件式を満たさなくなるルールを優先度情報による優先度順に取り出して試行すると
ともに、前記対処コマンドを実行した後に変化すると予想される動作状態の変化情報およ
び前記対処コマンドを実行する前の前記状態変数の値を状態レジスタに出力するステップ
、c)前記動作状態検出手段が、前記対処コマンド実行後の前記サービス実行手段の動作
状態を検出するステップ、d)効果判定手段が、前記状態レジスタに保持された動作状態
の変化情報と前記動作状態検出手段の出力である前記対処コマンド実行後の前記サービス
実行手段の動作状態を比較して対処コマンドによる復旧または回避の正否を判定し、その
結果に応じて前記優先度情報を修正するとともに、前記状態レジスタに保持された前記対
処コマンドを実行する前の前記状態変数の値と前記動作状態検出手段の出力である前記対
処コマンド実行後の前記サービス実行手段の動作状態における前記状態変数の値を比較し
て、前記実績値情報を修正するステップ、を含んで構成される。
本発明の第4の障害復旧方法は、第1ないし第3の障害復旧方法において、前記動作状態
検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ルールに含まれる
条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段は、同じ条件式
を有するルール群から優先度または実績値に応じて対処コマンドを1つづつ選択して対処
コマンド群を生成した後、その対処コマンド群に含まれる対処コマンドを優先度または実
績値の高い順に試行する。
本発明の第5の障害復旧方法は、第1ないし第4の障害復旧方法において、前記動作状態
検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ルールに含まれる
条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段は、その異なる
条件式に共通する対処コマンドが存在する場合には、共通する対処コマンドを優先的に試
行する。
本発明の第1の障害復旧装置および方法にあっては、対処方法検索手段によって対処方法
が同じ条件式に対する複数の対処コマンドを優先度情報に応じて順次試行する。さらに、
この対処コマンドを実行した後に変化すると予想される動作状態の変化情報を出力するこ
とで、効果判定手段が現在の動作状態がこの変化と合致しているか否かによって対処コマ
ンドの成否を判定し、その成否に応じて優先度情報を修正する。これにより、個々のサー
ビス実行環境に適した対処コマンドを探し出して実行することができるため、第1の課題
を解決する。
また、成功した対処コマンドの優先度を上昇させることで、予め個々のサービス実行環境
の特性に合わせた優先度を提供できない場合でも、障害への対処が継続されるに従って自
動的に適切な優先度へと修正されるため、対処時間が短縮され、誤った対処によって別の
障害を引き起こす確率を低下させることができる。さらに、与えられた対処コマンドに適
切なものが含まれていれば、失敗によって優先度の低下した対処コマンドが実行される前
に障害への対処が完了することになることから、サービス実行環境の特性によっては別の
障害を引き起こす可能性の高い危険な対処コマンドを混在させた障害対処ルール群を用い
た場合にも、悪影響を抑えた適切な障害対策が可能となり、第2の課題を解決する。
さらに、これらの優先度制御は、実際に実行された対処コマンドの成否を判定することに
よって行われるため、成功率の高い対処コマンドを優先的に実行することができる。また
、自動実行によって検証されるため、オペレータの主観に依らず、ルールの有効性を統一
した基準で正確に判定することが可能となり、第3の課題を解決する。
本発明の第2の障害復旧装置および方法にあっては、対処方法検索手段によって対処方法
が同じ条件式に対する複数の対処コマンドのうち、サービス実行手段の現在の動作状態と
ルールの実績値情報とから推測される対処コマンド実行後の動作状態が前記条件式を満た
さなくなるルールを選択して試行する。さらに、この対処コマンドを実行する前の状態変
数の値を保存しておき、その対処コマンド実行後のサービス実行手段の動作状態における
状態変数の値と比較して、前記実績値情報を修正する。これにより、個々のサービス実行
環境に適した対処コマンドを探し出して実行することができるため、第1の課題を解決す
る。
また、サービス実行手段の現在の動作状態とルールの実績値情報とから推測される対処コ
マンド実行後の動作状態が条件式を満たさなくなるルールを選択して実行するため、対処
時間が短縮され、誤った対処によって別の障害を引き起こす確率を低下させることができ
る。さらに、実行しても条件式を満たさなくできないルールの実行を防止できるため、サ
ービス実行環境の特性によっては別の障害を引き起こす可能性の高い危険な対処コマンド
を混在させた障害対処ルール群を用いた場合にも、悪影響を抑えた適切な障害対策が可能
となり、第2の課題を解決する。
さらに、これらの実績値情報の更新は、実際に実行された対処コマンドの結果に基づいて
機械的に実行されるため、オペレータの主観に依らず、ルールの有効性を統一した基準で
正確に判定することが可能となり、第3の課題を解決する。
本発明の第3の障害復旧装置および方法にあっては、第1および第2の障害復旧装置およ
び方法の効果をあわせ持つことにより、第1ないし第3の課題を解決する。
本発明の第1の障害復旧装置および方法では、対処方法検索手段によって対処方法が同じ
条件式に対する複数の対処コマンドを優先度情報に応じて順次試行する。さらに、この対
処コマンドを実行した後に変化すると予想される動作状態の変化情報を出力することで、
効果判定手段が現在の動作状態がこの変化と合致しているか否かによって対処コマンドの
成否を判定し、その成否に応じて優先度情報を修正する。これにより、個々のサービス実
行環境に適した対処コマンドを探し出して実行することができる。また、成功した対処コ
マンドの優先度を上昇させることで、予め個々のサービス実行環境の特性に合わせた優先
度を提供できない場合でも、障害への対処が継続されるに従って自動的に適切な優先度へ
と修正されるため、対処時間が短縮され、誤った対処によって別の障害を引き起こす確率
を低下させるという効果がある。さらに、与えられた対処コマンドに適切なものが含まれ
ていれば、失敗によって優先度の低下した対処コマンドが実行される前に障害への対処が
完了することになることため、サービス実行環境の特性によっては別の障害を引き起こす
可能性の高い危険な対処コマンドを混在させた障害対処ルール群を用いた場合にも、悪影
響を抑えた適切な障害対策が可能となるという効果がある。
本発明の第2の障害復旧装置および方法では、対処方法検索手段によって対処方法が同じ
条件式に対する複数の対処コマンドのうち、サービス実行手段の現在の動作状態とルール
の実績値情報とから推測される対処コマンド実行後の動作状態が前記条件式を満たさなく
なるルールを選択して試行する。さらに、この対処コマンドを実行する前の状態変数の値
を保存しておき、その対処コマンド実行後のサービス実行手段の動作状態における状態変
数の値と比較して、前記実績値情報を修正する。これにより、個々のサービス実行環境に
適した対処コマンドを探し出して実行することができる。また、サービス実行手段の現在
の動作状態とルールの実績値情報とから推測される対処コマンド実行後の動作状態が条件
式を満たさなくなるルールを選択して実行するため、対処時間が短縮され、誤った対処に
よって別の障害を引き起こす確率を低下させることができる。さらに、実行しても条件式
を満たさなくできないルールの実行を防止できるため、サービス実行環境の特性によって
は別の障害を引き起こす可能性の高い危険な対処コマンドを混在させた障害対処ルール群
を用いた場合にも、悪影響を抑えた適切な障害対策が可能となるとういう効果がある。
本発明の第3の障害復旧装置および方法では、第1および第2の障害復旧装置および方法
の効果をあわせ奏することが可能となる。
本発明の第4の障害復旧装置および方法では、複数の障害が同時発生した場合にも、対処
コマンドの成否に応じて関連するルールの優先度、実績値が適切に修正されるという効果
を得ることができる。
本発明の第5の障害復旧装置および方法では、共通する対処コマンドが存在する場合には
、対処方法検索手段が共通する対処コマンドを優先的に試行することで、復旧時間を短縮
しつつ着実に障害復旧できるという効果がある。
本発明の実施の形態を説明する前に、図1、図2、図3を用いて本発明の前提となる障害
復旧装置について説明する。
図1を参照すると、本発明の前提となる障害復旧装置は、サービス実行手段10に接続さ
れた動作状態検出手段1およびコマンド実行手段4と、ルール蓄積手段2と、これらに接
続された対処方法検索手段3とを含んで構成される。
サービス実行手段10は、WEBサービスや業務サービスといった情報通信サービスを提
供する。ルール蓄積手段2は、障害対処ルールを蓄積する。図2に障害対処ルールの例を
示す。障害対処ルールは、障害が発生した場合の動作状態または障害の前兆と推測される
動作状態を判定するための条件式と、その動作状態になった場合に障害を復旧または回避
するための対処コマンドと、同じ条件式に対する対処コマンドの適用順序を示す優先度で
構成される。図2の番号1および2のルールは、サービス実行手段10のメモリ残量の数
値が20以下となった状態を障害とみなすための条件式と、その状態で実行すべき対処コ
マンドとしてアプリケーション(AP)再起動コマンドおよびオペレーティングシステム
(OS)再起動コマンドがそれぞれ優先度80、50として定義されている。同様に、番
号3〜5のルールは、APの出力が異常の場合に、AP再起動、OS再起動、ディスク切
り替えがそれぞれ優先度80、40、30で定義されている。
図3は、図1の障害復旧装置における動作のフローチャートを示す。動作状態検出手段1
は、サービス実行手段10の動作状態を検出する(図3のステップ101)。動作状態は
、障害対処ルールの条件式に沿った形で検出される。図2の例では、メモリ残量やAP出
力の正常/異常等が検出される。対処方法探索手段3は、動作状態検出手段1から現在の
動作状態を受け取り、ルール蓄積手段2に蓄積されている障害対処ルールの条件式に合致
するものがあるかどうかを探索する(ステップ102)。合致する条件式が無い場合は、
障害が発生していないものとして、ステップ101に戻る。合致する条件があった場合は
、障害発生とみなして対応する対処コマンド探索する。例えば、検出された動作状態のう
ち、メモリ残量が20未満であった場合は、図2の番号1および番号2の条件式に合致す
るため、対処コマンドとしてAP再起動とOS再起動が候補となるが、AP再起動の優先
度の方が高いため、対処コマンドとしてAP再起動を選択して出力する。この対処コマン
ドをコマンド実行手段4が受け取り、サービス実行手段10にその実行を指示することで
、サービス実行環境上のアプリケーションが再起動される(ステップ103)。この後、
ステップ101に戻って動作状態検出手段1が、対処コマンド実行後の動作状態を検出す
る。ここで、メモリ残量が20未満のままであれば(ステップ102)、次の対処コマン
ドとしてOS再起動が実行される(ステップ103)。メモリ残量が20以上になってい
れば、合致する条件式がなくなり、障害への対処が完了する。
このように、図1に示す障害復旧装置では、予め決められた条件で対処コマンドを自動的
に実行するため、障害対処ルールに記述された障害に関してはサービス実行手段10の障
害を自動的に復旧または回避することができる。この場合、優先度として予め決められた
順序で対処コマンドが実行されることになり、一般的に成功する可能性の高い対処コマン
ドに高い優先度をつけることで、対処の効率を制御することができる。しかし、対処コマ
ンドのうちどれが有効であるかは、サービス実行手段10のハードウェア構成や実行ソフ
トウェアの種類の他、提供するサービスの内容や、運用継続によって変化する内部状態に
も依存するものであり、常に効率的な優先度を定義することは困難である。このため、例
えば図2の例でAP再起動が常に失敗するようなサービス実行手段10では、OS再起動
の実行前に常にAP再起動が失敗するのを待つ必要があり、対処にかかる時間が増大して
しまう。また、AP再起動が失敗する理由によっては別の障害を引き起こす場合があり、
対処自体ができなくなる可能性もある。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
(第1の実施の形態)
先ず、図4、図5、図6、図7を用いて、本発明の第1の実施の形態について説明する。
図4は、本発明の第1の実施の形態の構成を示すブロック図である。この実施の形態の障
害復旧装置では、図1の構成に加えて、対処コマンドを実行した後に変化すると予想され
る動作状態の変化情報を保持する状態レジスタ5と、この動作状態の変化情報と動作状態
検出手段1の出力である動作状態を比較して、対処コマンドによる復旧または回避の成否
を判定し、その結果に応じて優先度を修正する効果判定手段6を新たに有する。また、対
処方法検索手段3は、現在の状態値に合致した対処コマンドを出力する際に、その対処コ
マンドを実行した後に変化すると予想される動作状態の変化情報を出力する機能を新たに
有する。
動作状態検出手段1、対処方法検索手段3、コマンド実行手段4および効果判定手段6の
各機能手段は、例えばコンピュータと障害復旧プログラムとで実現することができる。障
害復旧プログラムは、磁気ディスク等のコンピュータ可読記録媒体に記録されて提供され
、コンピュータの立ち上げ時などにコンピュータに読み取られ、コンピュータの動作を制
御することにより、そのコンピュータ上に動作状態検出手段1、対処方法検索手段3、コ
マンド実行手段4および効果判定手段6の各機能手段を実現する。また、ルール蓄積手段
2および状態レジスタ5は、コンピュータに備わる主記憶や外部記憶装置で実現可能であ
る。
図5は、図4に示した障害復旧装置の動作のフローチャートを示す。図6、図7は、本実
施の形態における障害対処ルールの優先度の変化例を示した図である。まず、初期状態と
して図2のような優先度である場合を例に本実施の形態の動作を説明する。
動作状態検出手段1は、サービス実行手段10の動作状態を検出する(図5のステップ2
01)。次に、効果判定手段6が状態レジスタ5を参照し、既に実行された対処コマンド
があるかどうかを判定する(ステップ202)。実行された対処コマンドが無い場合には
効果判定手段6は何もしない。対処方法探索手段3は、動作状態検出手段1から現在の動
作状態を受け取り、ルール蓄積手段2に蓄積されている障害対処ルールの条件式に合致す
るものがあるかどうかを探索する(ステップ205)。例えば、メモリ残量が20未満で
あった場合、図2の番号1および番号2の条件式に合致し、優先度の高いAP再起動が選
択される。この時、対処方法探索手段3は対処コマンドの出力と同時に、この対処コマン
ドを実行した後に変化すると予想される動作状態の変化情報を状態レジスタにセットする
。この場合、対処コマンドの実行によってルール内の条件式で示される障害状態が回避さ
れること、つまり、動作状態の1つであるメモリ残量が条件式に示される閾値である20
を超えることが予想されることから、実行する対処コマンドと対処が成功した場合の条件
として「メモリ残量が20以上」という条件を状態レジスタ5にセットする(ステップ2
06)。対処コマンドは、コマンド実行手段4を介してサービス実行手段10上で実行さ
れる(ステップ207)。
この後、ステップ201に戻って動作状態検出手段1が、対処コマンド実行後のサービス
実行手段10の動作状態を検出する。効果判定手段6は、対処コマンドが実行されている
ことを検知して(ステップ202)、現在の動作状態と状態レジスタ5の「メモリ残量が
20以上」という条件を比較して効果を判定し(ステップ203)、対応する番号1のル
ールの優先度を修正する(ステップ204)。図6のルール群301は、AP再起動によ
る復旧に失敗し、OS再起動による復旧に成功した場合の変化を示す。図6では、優先度
の修正方法の一例として、成功した場合に優先度を10増やし、失敗した場合に10減ら
す例を示す。この場合、AP再起動後のステップ203で条件が満たされない(メモリ残
量が閾値である20未満であり障害状態が継続している)ことを判定して、番号1の優先
度を80から10減らした70とする。続いて、ステップ205からステップ207を経
てOS再起動を実行し、その後のステップ203で条件が満たされた(メモリ残量が閾値
である20を超え障害状態が回避された)ことを判定して、番号2の優先度を50から1
0増やした60とする。
同様に、図6のルール群302では、同じメモリ残量の障害が発生し、AP再起動、OS
再起動共に復旧に失敗した場合の優先度の変化を示す。番号1のルールの優先度は、さら
に10減った60になり、番号2の優先度は、10減った50に戻っている。この時点で
は、まだ番号1のルールの方が優先度が高いため、新たな障害が発生した場合は、AP再
起動が先に実行されることになる。次に、再度同じ障害が発生し、AP再起動による復旧
が失敗、OS再起動による復旧が成功した場合を図6のルール群303に示す。この場合
、番号1のルールはさらに10減った50になり、番号2のルールは10増えて60とな
る。ここで、2回成功した番号2のルールの優先度は、3回とも失敗した番号1よりも高
くなり、次回同じ障害が発生した場合は、OS再起動が先に実行されることになる。
図7は、同様にしてAP出力異常の障害が発生した場合の優先度の変化を示す。ルール群
304は、図6のルール群303の状態で、AP出力が異常であることを検出し、番号3
、4、5のルールが順に実行された例を示す。この場合、番号3、4の対処コマンドであ
るAP再起動、OS再起動は共に復旧に失敗したため、優先度が10づつ減っており、番
号5のディスク切り替えによる復旧に成功したため、優先度が10増えている。この時点
で、番号4と番号5の優先度は逆転しており、次に、同じAP出力異常が発生した場合、
まず番号3のルールが適用されAP再起動が行われるが、AP再起動による復旧に失敗し
た場合は、ディスク切り替えが実行される。ディスク切り替えによる復旧に成功した場合
には、ここで対処が完了するため、番号4のOS再起動が実行されることはない。このよ
うにして、番号3の優先度が10減り、番号5の優先度が10増えると、図7のルール3
05のようになる。次に同じ障害で、またディスク切り替えによる復旧に成功する場合を
考えると、やはり、AP再起動が試されて、次にディスク切り替えによる復旧が成功する
。その後は、ルール群306に示すように、ディスク切り替えの優先度が最も高くなるた
め、同じ障害に対してはディスク切り替えが最初に実行されることになり、これが成功し
た場合には、他の対処コマンドが実行されることはなくなるため、不要な処理によって別
の障害が引き起こされることを防止できる。
以上述べたように、第1の実施の形態にかかる障害復旧装置では、対処コマンドによる復
旧または回避の成否を判定し、その結果に応じて優先度を修正する効果判定手段6を有す
ることにより、特性の異なるサービス実行手段10に同じルール群を適用した場合にも効
率的な運用が可能になるという効果を得ることができる。
例えば図6は、継続運用でメモリ残量が減るような障害にAPプログラムのバグによるメ
モリリークが原因であるものが多いため、AP再起動の優先度を高くしておくといった運
用効率化の例である。しかし、サービス実行手段10の特性によっては、通常は問題とな
らないOSのバグが何らかの状態で発現している場合もあり、このような状況では、AP
再起動の優先度が高いことが運用効率の低下を招く可能性もある。本実施の形態では、前
述した通り、実際のサービス実行手段10の特性に応じて優先度が自動的に最適化される
ことから、同じルール群を適用していても個々のサービス実行手段10に適した障害対策
を実現することができる。図7は、AP出力の異常がディスクにより引き起こされるよう
な例である。AP出力の異常がAP再起動で復旧できていたサービス実行手段10であっ
ても、例えばディスク交換等の修理を行った後に特性が変わってしまうといったように、
新たなルールを適用しなければ効率的な運用が出来ない場合がある。従来の障害復旧装置
では、このような状況をオペレータが把握し、その都度ルールを修正する必要があったが
、本実施の形態では、このような場合でも適切な優先度に修正されるため、管理コストを
増大させることなく、対処時間を減少させ、広い範囲の障害に対して決め細かな障害対策
を行うことができる。
尚、本実施の形態で例に挙げた動作状態や対処コマンドについては、この例に限定される
ものではなく、本発明の構成に従ってサービス実行手段10で検出できる動作状態や実行
可能な対処コマンドであれば同様の効果が得られるものである。また、優先度の数値や計
算方法についても、対処コマンドの実行結果に従った修正を行うものであれば、対処コマ
ンドを効率的に実行することができる。
(第2の実施の形態)
本実施の形態では、第1の実施の形態で説明した構成および動作に加えて、図8を用いて
複数の障害が同時に発生した場合の動作の例を示す。対処方法検索手段3は、第1の実施
の形態の機能に加えて、同じ条件式を有するルール群から優先度に応じて対処コマンドを
1つづつ選択して対処コマンド群を生成した後、その対処コマンド群に含まれる対処コマ
ンドを優先度の高い順に試行する機能を有する。
図8のルール群307は、図7のルール群306の状態からAP出力異常が発生して番号
5のルールによる復旧が成功し優先度が70となった例を示す。この状態で、メモリ残量
不足とAP出力異常が同時に発生した場合、番号1ないし5の条件式がすべて有効となり
、対処コマンドとして最大の優先度を持つ番号5のルールが適用され、対処コマンドとし
てディスク切り替えが実行される。ルール群308は、ディスク切り替えによる復旧が失
敗した場合の例を示し、番号5の優先度が10減っている。この場合、障害は継続してい
るため、次の対処コマンドを探索することになり、候補として優先度が60である番号2
と番号5のルールが挙げられる。ここで、番号順に対処コマンドを実行するとすると、番
号2のルールが適用され、OS再起動が実行される。ルール群309は、OS再起動によ
る復旧が成功した場合の例を示し、番号2の優先度が10増加している。
一般に、複数の障害が発生している場合、ある障害が派生して別の障害が併発した後に状
態が検出されることが多い。このような状態から復旧するためには、それらの障害の根本
原因となる障害に対処することが必要となる。図8のルール群307において、ディスク
切り替えはAP出力異常特有の対処コマンドであり、複合障害の場合にこのような対処コ
マンドを選択することは最適とは言えず、このような対処コマンドを実行している間にさ
らに状態を悪化させることもあり得る。本実施の形態では、このような対処コマンドを実
行して失敗した場合、ルール群308、ルール群309に示すように、失敗したルールの
優先度が低下し、結果的に条件式の異なるOS再起動が実行されることになる。この結果
、同時発生する障害に対応する条件式を持つ複数のルールの間で、同時発生時に優先すべ
きルールの優先度が相対的に増加し、次回以降同じ障害が発生した場合に効果の高いルー
ルが先に選択されることになる。
さらに、対処方法検索手段3は、異なる条件式に共通する対処コマンドが存在する場合に
は、共通する対処コマンドを優先的に試行する機能を有することができる。図9、図10
を用いてこの例の障害復旧装置の動作を説明する。
図10のルール群320は、図8のルール群307に相当する状態を示す。この時、動作
状態検出手段1がサービス実行手段10の動作状態からメモリ残量不足とAP出力異常の
両方が発生していることを検出する(ステップ211)。対処方法検索手段3は、ルール
群320に示す番号1ないし5のルールの条件式に合致していることを知り(ステップ2
15)、異なる条件式を持つルールのうち共通する対処コマンドを有するルールを探索す
る(ステップ216)。ルール群320では、番号1と2のルールは同じ条件式を持ち、
対処コマンドはAP再起動とOS再起動となる。同様に、番号3ないし5のルールの対処
コマンドはAP再起動、OS再起動、ディスク切り替えとなる。番号1と2のルール群、
番号3ないし5のルール群に共通する対処コマンドはOS再起動であり、対処方法検索手
段3は、「メモリ残量が20以上」と「AP出力が正常」という状態を予測して状態レジ
スタをセットし(ステップ217)、OS再起動を実行する(ステップ218)。
この後、ステップ211の状態検出を経て対処コマンドの終了を検出すると(ステップ2
12)、効果が判定され(ステップ213)、ルールの優先度が修正される(ステップ2
14)。ルール群321は、メモリ残量とAP出力の両方が改善された場合の例を示し、
対処コマンドがOS再起動である番号2と4のルールの優先度が上昇する。ルール群32
2は、メモリ残量のみが改善された場合の例を示し、番号2のルールの優先度は上昇する
が、番号4のルールの優先度は低下する。この場合、AP出力異常は継続しているため、
さらに次の対処コマンドとして番号3ないし5のルールから優先度の高い番号5のルール
が選択され、ディスク切り替えが行われることになる。このように、対処方法検索手段3
が同時に状態を改善できる対処コマンドを優先的に実行することにより、複数の障害が同
時に発生した場合でも短時間で復旧できる確率が増加し、さらに、継続して次の対処を行
うことで着実に状態を改善することができる。
以上述べたように、本実施の形態の障害復旧装置では、複数の障害が同時に発生した場合
にも、対処コマンドの成否に応じて、関連するルールの優先度が適切に修正されるという
効果を得ることができる。また、共通する対処コマンドが存在する場合には、共通する対
処コマンドを優先的に試行することで、復旧時間を短縮しつつ着実に障害復旧できる。
(第3の実施の形態)
本実施の形態では、第1の実施の形態で説明した優先度に変えて、過去の対処コマンド実
行の結果として得られた状態変数の変化量を表す実績値を用いてルールの探索を行う例を
示す。図11のルール群400は、本発明の前提例における図2のルール群300におい
て優先度が実績値に、番号3、4、5の条件式が変数とその閾値で構成される「CPU使
用率が50より大きい」に置き換わったものを示す。つまり、本実施の形態においては、
ルール蓄積手段2に蓄積されている障害対処ルールの条件式は、1または複数の状態変数
とその閾値を規定する条件式となっている。以下、対処実行前後の状態変数の値の変化を
実績値とした場合を例に、図12、図13、図14を用いて本実施の形態の動作を説明す
る。
図13は、図11のルール群400の状態において、メモリ残量不足が発生した場合の実
績値の変化を示す。動作状態検出手段1がサービス実行手段10の動作状態からメモリ残
量不足を検出すると(ステップ501)、対処方法検索手段3が番号1と2のルールが条
件に合致することを知り(ステップ504)、現在のメモリ残量に各々のルールの実績値
を加えて条件式を満たさなくなるルールを探索する(ステップ505)。図11のルール
群400は、対処コマンドを実行した実績がない状態であり、実績値は不明であるため番
号の小さいルールとして番号1を選択する。さらに、現在のメモリ量が18であった場合
、「現在のメモリ残量が18」および対処が成功した場合の条件として「メモリ残量が2
0以上」という条件をルール番号1と共に状態レジスタ5にセットし(ステップ506)
、AP再起動を実行する(ステップ507)。その後、ステップ501を経て、効果判定
手段6が対処コマンドの終了を検知し(ステップ502)、現在状態から実績値が算出さ
れる(ステップ503)。図13のルール群401では、メモリ残量が18から25に増
えた例であり、番号1のルールの実績値として7が設定される。この場合、メモリ残量が
25であれば条件式を満たさなくなるため(ステップ504)、障害復旧が成功したもの
として次の障害状態検出に戻る(ステップ501)。
同様に、ルール群402は、新たにメモリ残量が15となった場合を示す。ステップ50
5において、番号1のルールの実績値6と現在のメモリ量15を加えると条件式を満たさ
なくなることを知り、番号1のルールが実行される。この後、メモリ残量が21になった
ことを検知すると(ステップ501)、対処コマンド実行前後の差分から実績値が6に変
更される。ルール群403は、さらにメモリ残量が12となった場合を示す。この場合、
ステップ505において番号1のルールの実績値である6では障害を回避できないことを
判断し、実績値が不明な番号2のルールが選択され、OS再起動が実行される。この後、
メモリ残量が50になった場合、番号2のルールの実績値として38が設定される。
同様に、図14は、メモリ残量不足が何度か発生した例を示す。ルール群404は、メモ
リ残量が18となった場合であり、番号1のルールの実績値である7で障害復旧できるこ
とから番号1のルールが実行され、実績値が修正される。さらに、ルール群405では、
メモリ残量が8となった場合を示し、番号1と番号2のルールの実績値から、障害を回避
できるルールとして番号2のルールが選択される。ルール群406では、メモリ残量が1
5であり、番号1のルールが選択される。このように、対処コマンドを実行した結果によ
って変化するメモリの増加量を実績値として保持することにより、障害時に条件式の閾値
からどれだけ離れているかに応じて適用するルールを変化させることができる。
尚、本実施の形態では、適用したルールの実績値のみを修正する例で説明したが、これに
限定されるものではなく、同じ対処コマンドを持つルールの実績値を同時に修正すること
もできる。例えば、図13では、番号1のルールを選択してAP再起動を実行する場合に
、コマンド実行前後のCPU使用量を検出することで、同じ対処コマンドを持つ番号3の
ルールの実績値を算出することができる。この場合、同じ対処コマンドを持つルールを探
索する処理は増加するが、効率的な実績値の算出が可能となる。
以上説明したように、本実施の形態によれば、実際のサービス運用の結果に応じて対処方
法検索手段が各々の対処コマンドの実績値を算出することにより、同じ条件式に合致する
ルールであっても効果のあるルールを優先的に選択することができ、復旧時間が短縮し確
実性が向上する。
以上、単一の障害が発生した場合の動作を説明したが、複数の障害が同時に発生した場合
には、対処方法検索手段3は、同じ条件式を有するルール群から実績値に応じて対処コマ
ンドを1つづつ選択して対処コマンド群を生成した後、その対処コマンド群に含まれる対
処コマンドを、例えば実績値の高い順に試行する。また、対処方法検索手段3は、異なる
条件式に共通する対処コマンドが存在する場合には、共通する対処コマンドを優先的に試
行する。
(第4の実施の形態)
本実施の形態は、第1の実施の形態で説明した優先度と第3の実施の形態で説明した実績
値とを用いてルールの探索を行う例を示す。図15のルール群600は、第3の実施の形
態における図14のルール群406に優先度を追加したものを示す。図16は本実施の形
態の動作のフローチャートを示す。
第1の実施の形態と同様に、動作状態検出手段1はサービス実行手段10の動作状態を検
出し(ステップ701)、効果判定手段6は状態レジスタ5を参照し、既に実行された対
処コマンドがあるかどうかを判定する(ステップ702)。実行された対処コマンドが無
い場合には効果判定手段6は何もしない。対処方法探索手段3は、動作状態検出手段1か
ら現在の動作状態を受け取り、ルール蓄積手段2に蓄積されている障害対処ルールの条件
式に合致するものがあるかどうかを探索する(ステップ705)。
例えば、メモリ残量が10であった場合、図15の番号1および番号2の条件式に合致す
る。第1の実施の形態では、優先度の高い番号1のルールのAP再起動を選択し、第3の
実施の形態では、現在のメモリ残量10に各々のルールの実績値を加えると条件式を満た
さなくなるルールを選択した。これに対し本実施の形態では、優先度および実績値の双方
を考慮し、より優先度が高く且つ条件式を満たさなくなる実績値を持つルールを選択する
(ステップ706)。図15の場合、番号1のルールは、その優先度は80で、番号2の
ルールの優先度50より高いが、実績値が8であるため、現在のメモリ残量10に8を足
してもメモリ残量20未満の条件が依然として成立するため、第1候補から除外され、メ
モリ残量20未満という条件を満たさなくなる実績値40を持つ番号2のルールが選択さ
れる。他方、現在のメモリ残量が15であった場合、番号1のルールが、より優先度が高
く且つ条件式を満たさなくなる実績値を持つルールとして選択される。各ルールの優先度
の修正は第1の実施の形態と同様に効果判定手段6で行われ、各ルールの実績値の算出は
第3の実施の形態と同様に効果判定手段6で行われる(ステップ703、704)。
以上述べたように、第4の実施の形態にかかる障害復旧装置では、対処コマンドによる復
旧または回避の成否を判定し、その結果に応じて優先度を修正することにより、特性の異
なるサービス実行手段10に同じルール群を適用した場合にも効率的な運用が可能となる
という効果と、実際のサービス運用の結果に応じて対処方法検索手段3が各々の対処コマ
ンドの実績値を算出することにより、同じ条件式に合致するルールであっても効果のある
ルールを優先的に選択することができ、復旧時間が短縮し確実性が向上するという効果と
を得ることができる。
以上、単一の障害が発生した場合の動作を説明したが、複数の障害が同時に発生した場合
には、対処方法検索手段3は、同じ条件式を有するルール群から優先度および実績値に応
じて対処コマンドを1つづつ選択して対処コマンド群を生成した後、その対処コマンド群
に含まれる対処コマンドを、例えば優先度の高い順に試行する。また、対処方法検索手段
3は、異なる条件式に共通する対処コマンドが存在する場合には、共通する対処コマンド
を優先的に試行する。
本発明の前提となる障害復旧装置の構成例を示すブロック図である。 ルール蓄積手段に蓄積される障害対処ルールの一例を示す図である。 本発明の前提となる障害復旧装置の動作を示すフローチャートである。 本発明の第1の実施の形態の構成例を示すブロック図である。 本発明の第1の実施の形態の動作を示すフローチャートである。 本発明の第1の実施の形態における障害対処ルールにおける優先度の変化の一例を示す図である。 本発明の第1の実施の形態における障害対処ルールにおける優先度の変化の別の例を示す図である。 本発明の第2の実施の形態における障害対処ルールにおける優先度の変化の別の例を示す図である。 本発明の第2の実施の形態の動作を示すフローチャートである。 本発明の第2の実施の形態における障害対処ルールにおける優先度の変化の別の例を示す図である。 本発明の第3の実施の形態におけるルール蓄積手段に蓄積される障害対処ルールの例を示す図である。 本発明の第3の実施の形態の動作の例を示すフローチャートである。 本発明の第3の実施の形態の障害対処ルールにおける実績値の変化例を示す図である。 本発明の第3の実施の形態の障害対処ルールにおける実績値の別の変化例を示す図である。 本発明の第4の実施の形態におけるルール蓄積手段に蓄積される障害対処ルールの例を示す図である。 本発明の第4の実施の形態の動作の例を示すフローチャートである。
符号の説明
1 動作状態検出手段
2 ルール蓄積手段
3 対処方法検索手段
4 コマンド実行手段
5 状態レジスタ
6 効果判定手段
10 サービス実行手段

Claims (17)

  1. サービス実行手段の動作状態を検出する動作状態検出手段と、
    前記サービス実行手段で障害が発生した場合の動作状態または障害の前兆と推測される
    動作状態を判定するための条件式とその動作状態になった場合に障害を復旧または回避す
    るための対処コマンドとルール間の適用順序の優先度情報とを含む複数の障害対処ルール
    を蓄積するルール蓄積手段と、
    前記ルール蓄積手段から、前記動作状態検出手段で検出された前記サービス実行手段の
    現在の動作状態に合致する条件式を持つルールを取り出し、その優先度情報に応じて順次
    試行するとともに、前記対処コマンドを実行した後に変化すると予想される動作状態の変
    化情報を状態レジスタに出力する対処方法検索手段と、
    前記状態レジスタに保持された動作状態の変化情報と前記動作状態検出手段の出力であ
    る前記対処コマンド実行後の前記サービス実行手段の動作状態を比較して、対処コマンド
    による復旧または回避の成否を判定し、その結果に応じて前記優先度情報を修正する効果
    判定手段と、
    を含むことを特徴とする障害復旧装置。
  2. 前記動作状態検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ル
    ールに含まれる条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段
    は、同じ条件式を有するルール群から優先度に応じて対処コマンドを1つづつ選択して対
    処コマンド群を生成した後、その対処コマンド群に含まれる対処コマンドを優先度の高い
    順に試行することを特徴とする請求項1記載の障害復旧装置。
  3. サービス実行手段の動作状態を検出する動作状態検出手段と、
    前記サービス実行手段で障害が発生した場合の動作状態または障害の前兆と推測される
    動作状態を判定するための条件式であって、前記動作状態の1または複数の状態変数とそ
    の閾値を規定する条件式と、その動作状態になった場合に障害を復旧または回避するため
    の対処コマンドと、この対処コマンドの実行によって変化する前記状態変数の値を示す実
    績値情報とを含む複数の障害対処ルールを蓄積するルール蓄積手段と、
    前記ルール蓄積手段から、前記動作状態検出手段で検出された前記サービス実行手段の
    現在の動作状態に合致する条件式を有し且つ現在の動作状態と前記実績値情報とから推測
    される対処コマンド実行後の動作状態が前記合致した条件式を満たさなくなるルールを取
    り出して試行するとともに、前記対処コマンドを実行する前の前記状態変数の値を状態レ
    ジスタに出力する対処方法検索手段と、
    前記状態レジスタに保持された前記対処コマンドを実行する前の前記状態変数の値と前
    記動作状態検出手段の出力である前記対処コマンド実行後の前記サービス実行手段の動作
    状態における前記状態変数の値を比較して、前記実績値情報を修正する効果判定手段と、
    を含むことを特徴とする障害復旧装置。
  4. 前記動作状態検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ル
    ールに含まれる条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段
    は、同じ条件式を有するルール群から実績値情報に応じて対処コマンドを1つづつ選択し
    て対処コマンド群を生成した後、その対処コマンド群に含まれる対処コマンドを実績値の
    高い順に試行することを特徴とする請求項3記載の障害復旧装置。
  5. サービス実行手段の動作状態を検出する動作状態検出手段と、
    前記サービス実行手段で障害が発生した場合の動作状態または障害の前兆と推測される
    動作状態を判定するための条件式であって、前記動作状態の1または複数の状態変数とそ
    の閾値を規定する条件式と、その動作状態になった場合に障害を復旧または回避するため
    の対処コマンドと、この対処コマンドの実行によって変化する前記状態変数の値を示す実
    績値情報と、ルール間の適用順序の優先度情報とを含む複数の障害対処ルールを蓄積する
    ルール蓄積手段と、
    前記ルール蓄積手段から、前記動作状態検出手段で検出された前記サービス実行手段の
    現在の動作状態に合致する条件式を有し且つ現在の動作状態と前記実績値情報とから推測
    される対処コマンド実行後の動作状態が前記合致した条件式を満たさなくなるルールを優
    先度情報による優先度順に取り出して試行するとともに、前記対処コマンドを実行した後
    に変化すると予想される動作状態の変化情報および前記対処コマンドを実行する前の前記
    状態変数の値を状態レジスタに出力する対処方法検索手段と、
    前記状態レジスタに保持された動作状態の変化情報と前記動作状態検出手段の出力であ
    る前記対処コマンド実行後の前記サービス実行手段の動作状態を比較して対処コマンドに
    よる復旧または回避の正否を判定し、その結果に応じて前記優先度情報を修正するととも
    に、前記状態レジスタに保持された前記対処コマンドを実行する前の前記状態変数の値と
    前記動作状態検出手段の出力である前記対処コマンド実行後の前記サービス実行手段の動
    作状態における前記状態変数の値を比較して、前記実績値情報を修正する効果判定手段と

    を含むことを特徴とする障害復旧装置。
  6. 前記動作状態検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ル
    ールに含まれる条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段
    は、同じ条件式を有するルール群から優先度および実績値に応じて対処コマンドを1つづ
    つ選択して対処コマンド群を生成した後、その対処コマンド群に含まれる対処コマンドを
    優先度の高い順に試行することを特徴とする請求項5記載の障害復旧装置。
  7. 前記動作状態検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ル
    ールに含まれる条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段
    は、その異なる条件式に共通する対処コマンドが存在する場合には、共通する対処コマン
    ドを優先的に試行することを特徴とする請求項1ないし6の何れか1項に記載の障害復旧
    装置。
  8. a)動作状態検出手段が、サービス実行手段の動作状態を検出するステップ
    b)対処方法検索手段が、前記サービス実行手段で障害が発生した場合の動作状態または
    障害の前兆と推測される動作状態を判定するための条件式とその動作状態になった場合に
    障害を復旧または回避するための対処コマンドとルール間の適用順序の優先度情報とを含
    む複数の障害対処ルールを蓄積するルール蓄積手段から、前記動作状態検出手段で検出さ
    れた前記サービス実行手段の現在の動作状態に合致する条件式を持つルールを取り出し、
    その優先度情報に応じて順次試行するとともに、前記対処コマンドを実行した後に変化す
    ると予想される動作状態の変化情報を状態レジスタに出力するステップ
    c)前記動作状態検出手段が、前記対処コマンド実行後の前記サービス実行手段の動作状
    態を検出するステップ
    d)効果判定手段が、前記状態レジスタに保持された動作状態の変化情報と前記動作状態
    検出手段の出力である前記対処コマンド実行後の前記サービス実行手段の動作状態を比較
    して、対処コマンドによる復旧または回避の成否を判定し、その結果に応じて前記優先度
    情報を修正するステップ
    を含むことを特徴とする障害復旧方法。
  9. 前記動作状態検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ル
    ールに含まれる条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段
    は、同じ条件式を有するルール群から優先度に応じて対処コマンドを1つづつ選択して対
    処コマンド群を生成した後、その対処コマンド群に含まれる対処コマンドを優先度の高い
    順に試行することを特徴とする請求項8記載の障害復旧方法。
  10. a)動作状態検出手段が、サービス実行手段の動作状態を検出するステップ
    b)対処方法検索手段が、前記サービス実行手段で障害が発生した場合の動作状態または
    障害の前兆と推測される動作状態を判定するための条件式であって、前記動作状態の1ま
    たは複数の状態変数とその閾値を規定する条件式と、その動作状態になった場合に障害を
    復旧または回避するための対処コマンドと、この対処コマンドの実行によって変化する前
    記状態変数の値を示す実績値情報とを含む複数の障害対処ルールを蓄積するルール蓄積手
    段から、前記動作状態検出手段で検出された前記サービス実行手段の現在の動作状態に合
    致する条件式を有し且つ現在の動作状態と前記実績値情報とから推測される対処コマンド
    実行後の動作状態が前記合致した条件式を満たさなくなるルールを取り出して試行すると
    ともに、前記対処コマンドを実行する前の前記状態変数の値を状態レジスタに出力するス
    テップ
    c)前記動作状態検出手段が、前記対処コマンド実行後の前記サービス実行手段の動作状
    態を検出するステップ
    d)効果判定手段が、前記状態レジスタに保持された前記対処コマンドを実行する前の前
    記状態変数の値と前記動作状態検出手段の出力である前記対処コマンド実行後の前記サー
    ビス実行手段の動作状態における前記状態変数の値を比較して、前記実績値情報を修正す
    るステップ
    を含むことを特徴とする障害復旧方法。
  11. 前記動作状態検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ル
    ールに含まれる条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段
    は、同じ条件式を有するルール群から実績値情報に応じて対処コマンドを1つづつ選択し
    て対処コマンド群を生成した後、その対処コマンド群に含まれる対処コマンドを実績値の
    高い順に試行することを特徴とする請求項10記載の障害復旧方法。
  12. a)動作状態検出手段が、サービス実行手段の動作状態を検出するステップ
    b)対処方法検索手段が、前記サービス実行手段で障害が発生した場合の動作状態または
    障害の前兆と推測される動作状態を判定するための条件式であって、前記動作状態の1ま
    たは複数の状態変数とその閾値を規定する条件式と、その動作状態になった場合に障害を
    復旧または回避するための対処コマンドと、この対処コマンドの実行によって変化する前
    記状態変数の値を示す実績値情報と、ルール間の適用順序の優先度情報とを含む複数の障
    害対処ルールを蓄積するルール蓄積手段から、前記動作状態検出手段で検出された前記サ
    ービス実行手段の現在の動作状態に合致する条件式を有し且つ現在の動作状態と前記実績
    値情報とから推測される対処コマンド実行後の動作状態が前記合致した条件式を満たさな
    くなるルールを優先度情報による優先度順に取り出して試行するとともに、前記対処コマ
    ンドを実行した後に変化すると予想される動作状態の変化情報および前記対処コマンドを
    実行する前の前記状態変数の値を状態レジスタに出力するステップ
    c)前記動作状態検出手段が、前記対処コマンド実行後の前記サービス実行手段の動作状
    態を検出するステップ
    d)効果判定手段が、前記状態レジスタに保持された動作状態の変化情報と前記動作状態
    検出手段の出力である前記対処コマンド実行後の前記サービス実行手段の動作状態を比較
    して対処コマンドによる復旧または回避の正否を判定し、その結果に応じて前記優先度情
    報を修正するとともに、前記状態レジスタに保持された前記対処コマンドを実行する前の
    前記状態変数の値と前記動作状態検出手段の出力である前記対処コマンド実行後の前記サ
    ービス実行手段の動作状態における前記状態変数の値を比較して、前記実績値情報を修正
    するステップ
    を含むことを特徴とする障害復旧方法。
  13. 前記動作状態検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ル
    ールに含まれる条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段
    は、同じ条件式を有するルール群から優先度および実績値に応じて対処コマンドを1つづ
    つ選択して対処コマンド群を生成した後、その対処コマンド群に含まれる対処コマンドを
    優先度の高い順に試行することを特徴とする請求項12記載の障害復旧方法。
  14. 前記動作状態検出手段の出力である前記サービス実行手段の動作状態が前記障害対処ル
    ールに含まれる条件式のうち複数の異なる条件式と合致する場合、前記対処方法検索手段
    は、その異なる条件式に共通する対処コマンドが存在する場合には、共通する対処コマン
    ドを優先的に試行することを特徴とする請求項8ないし13の何れか1項に記載の障害復
    旧方法。
  15. コンピュータを、サービス実行手段の動作状態を検出する動作状態検出手段、前記サー
    ビス実行手段で障害が発生した場合の動作状態または障害の前兆と推測される動作状態を
    判定するための条件式とその動作状態になった場合に障害を復旧または回避するための対
    処コマンドとルール間の適用順序の優先度情報とを含む複数の障害対処ルールを蓄積する
    ルール蓄積手段から、前記動作状態検出手段で検出された前記サービス実行手段の現在の
    動作状態に合致する条件式を持つルールを取り出し、その優先度情報に応じて順次試行す
    るとともに、前記対処コマンドを実行した後に変化すると予想される動作状態の変化情報
    を状態レジスタに出力する対処方法検索手段、前記状態レジスタに保持された動作状態の
    変化情報と前記動作状態検出手段の出力である前記対処コマンド実行後の前記サービス実
    行手段の動作状態を比較して、対処コマンドによる復旧または回避の成否を判定し、その
    結果に応じて前記優先度情報を修正する効果判定手段、として機能させるプログラム。
  16. コンピュータを、サービス実行手段の動作状態を検出する動作状態検出手段、前記サー
    ビス実行手段で障害が発生した場合の動作状態または障害の前兆と推測される動作状態を
    判定するための条件式であって、前記動作状態の1または複数の状態変数に対する閾値を
    規定する条件式と、その動作状態になった場合に障害を復旧または回避するための対処コ
    マンドと、この対処コマンドの実行によって変化する前記状態変数の値を示す実績値情報
    とを含む複数の障害対処ルールを蓄積するルール蓄積手段から、前記動作状態検出手段で
    検出された前記サービス実行手段の現在の動作状態に合致する条件式を有し且つ現在の動
    作状態と前記実績値情報とから推測される対処コマンド実行後の動作状態が前記合致した
    条件式を満たさなくなるルールを取り出して試行するとともに、前記対処コマンドを実行
    する前の前記状態変数の値を状態レジスタに出力する対処方法検索手段、前記状態レジス
    タに保持された前記対処コマンドを実行する前の前記状態変数の値と前記動作状態検出手
    段の出力である前記対処コマンド実行後の前記サービス実行手段の動作状態における前記
    状態変数の値を比較して、前記実績値情報を修正する効果判定手段、として機能させるプ
    ログラム。
  17. コンピュータを、サービス実行手段の動作状態を検出する動作状態検出手段、前記サー
    ビス実行手段で障害が発生した場合の動作状態または障害の前兆と推測される動作状態を
    判定するための条件式であって、前記動作状態の1または複数の状態変数に対する閾値を
    規定する条件式と、その動作状態になった場合に障害を復旧または回避するための対処コ
    マンドと、この対処コマンドの実行によって変化する前記状態変数の値を示す実績値情報
    と、ルール間の適用順序の優先度情報とを含む複数の障害対処ルールを蓄積するルール蓄
    積手段から、前記動作状態検出手段で検出された前記サービス実行手段の現在の動作状態
    に合致する条件式を有し且つ現在の動作状態と前記実績値情報とから推測される対処コマ
    ンド実行後の動作状態が前記合致した条件式を満たさなくなるルールを優先度情報による
    優先度順に取り出して試行するとともに、前記対処コマンドを実行した後に変化すると予
    想される動作状態の変化情報および前記対処コマンドを実行する前の前記状態変数の値を
    状態レジスタに出力する対処方法検索手段、前記状態レジスタに保持された動作状態の変
    化情報と前記動作状態検出手段の出力である前記対処コマンド実行後の前記サービス実行
    手段の動作状態を比較して対処コマンドによる復旧または回避の正否を判定し、その結果
    に応じて前記優先度情報を修正するとともに、前記状態レジスタに保持された前記対処コ
    マンドを実行する前の前記状態変数の値と前記動作状態検出手段の出力である前記対処コ
    マンド実行後の前記サービス実行手段の動作状態における前記状態変数の値を比較して、
    前記実績値情報を修正する効果判定手段、として機能させるプログラム。
JP2008325500A 2008-12-22 2008-12-22 障害復旧装置および障害復旧方法ならびにプログラム Expired - Fee Related JP4998455B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008325500A JP4998455B2 (ja) 2008-12-22 2008-12-22 障害復旧装置および障害復旧方法ならびにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008325500A JP4998455B2 (ja) 2008-12-22 2008-12-22 障害復旧装置および障害復旧方法ならびにプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003275107A Division JP4728565B2 (ja) 2003-07-16 2003-07-16 障害復旧装置および障害復旧方法ならびにプログラム

Publications (3)

Publication Number Publication Date
JP2009076103A true JP2009076103A (ja) 2009-04-09
JP2009076103A5 JP2009076103A5 (ja) 2011-06-16
JP4998455B2 JP4998455B2 (ja) 2012-08-15

Family

ID=40610937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008325500A Expired - Fee Related JP4998455B2 (ja) 2008-12-22 2008-12-22 障害復旧装置および障害復旧方法ならびにプログラム

Country Status (1)

Country Link
JP (1) JP4998455B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019142591A1 (ja) * 2018-01-22 2019-07-25 日本電気株式会社 異常検知装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02137035A (ja) * 1988-11-18 1990-05-25 Hitachi Ltd 計算機システム故障診断装置
JPH02194437A (ja) * 1989-01-24 1990-08-01 Nippondenso Co Ltd 知識ベースを用いた推論装置
JPH03144831A (ja) * 1989-10-31 1991-06-20 Matsushita Electric Ind Co Ltd システム復旧方法
JP2000293451A (ja) * 1999-04-06 2000-10-20 Mitsubishi Electric Corp 分散データ配信管理システムおよび配信監視方法
JP2002342184A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd リトライ処理装置およびリトライ処理プログラム
JP2004326764A (ja) * 2003-04-24 2004-11-18 Internatl Business Mach Corp <Ibm> 組込み型プロセッサ・システムにおけるプロセス回復のための装置および方法
JP2005018179A (ja) * 2003-06-24 2005-01-20 Hitachi Ltd 障害監視装置
JP2006500654A (ja) * 2002-09-20 2006-01-05 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システムにおける適応型問題判別及びリカバリー

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02137035A (ja) * 1988-11-18 1990-05-25 Hitachi Ltd 計算機システム故障診断装置
JPH02194437A (ja) * 1989-01-24 1990-08-01 Nippondenso Co Ltd 知識ベースを用いた推論装置
JPH03144831A (ja) * 1989-10-31 1991-06-20 Matsushita Electric Ind Co Ltd システム復旧方法
JP2000293451A (ja) * 1999-04-06 2000-10-20 Mitsubishi Electric Corp 分散データ配信管理システムおよび配信監視方法
JP2002342184A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd リトライ処理装置およびリトライ処理プログラム
JP2006500654A (ja) * 2002-09-20 2006-01-05 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータ・システムにおける適応型問題判別及びリカバリー
JP2004326764A (ja) * 2003-04-24 2004-11-18 Internatl Business Mach Corp <Ibm> 組込み型プロセッサ・システムにおけるプロセス回復のための装置および方法
JP2005018179A (ja) * 2003-06-24 2005-01-20 Hitachi Ltd 障害監視装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019142591A1 (ja) * 2018-01-22 2019-07-25 日本電気株式会社 異常検知装置
JPWO2019142591A1 (ja) * 2018-01-22 2021-01-14 日本電気株式会社 異常検知装置

Also Published As

Publication number Publication date
JP4998455B2 (ja) 2012-08-15

Similar Documents

Publication Publication Date Title
JP4728565B2 (ja) 障害復旧装置および障害復旧方法ならびにプログラム
JP3826940B2 (ja) 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム
JP4313823B2 (ja) 障害対応システム及び障害対応方法
JP5093259B2 (ja) Biosとbmcとの間の通信パス強化方法、その装置及びそのプログラム
US20100318837A1 (en) Failure-Model-Driven Repair and Backup
US9342426B2 (en) Distributed system, server computer, distributed management server, and failure prevention method
JP4239989B2 (ja) 障害復旧システム、障害復旧装置、ルール作成方法、および障害復旧プログラム
US20120023495A1 (en) Rejuvenation processing device, rejuvenation processing system, computer program, and data processing method
CN103152419A (zh) 一种云计算平台的高可用集群管理方法
JP2008009842A (ja) コンピュータシステムの制御方法及びコンピュータシステム
US9244773B2 (en) Apparatus and method for handling abnormalities occurring during startup
CN108255576B (zh) 虚拟机热迁移异常处理方法、装置和存储介质
CN102369513A (zh) 提高计算机系统稳定性的方法及计算机系统
JP7387469B2 (ja) 通信装置、監視サーバ及びログ収集方法
CN105335244B (zh) 用于应用程序恢复的方法
JP4998455B2 (ja) 障害復旧装置および障害復旧方法ならびにプログラム
CN112650624B (zh) 一种集群升级方法、装置、设备及计算机可读存储介质
CN108737153B (zh) 区块链灾备系统、方法、服务器和计算机可读存储介质
CN104158843B (zh) 分布式文件存储系统的存储单元失效检测方法及装置
JP6016128B2 (ja) 可用性モデル生成支援装置、可用性モデル生成支援方法、およびプログラム
US20160224444A1 (en) Distributed system, server computer, distributed management server, and failure prevention method
JP7147495B2 (ja) 復旧支援装置、復旧支援方法及びプログラム
CN109859755B (zh) 一种语音识别方法、存储介质及终端
JP5018140B2 (ja) マルチプロセッサシステム、タスクスケジューリング方法およびタスクスケジューリングプログラム
JP2021069009A (ja) 情報処理システム、情報処理システムの制御方法、情報処理装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081222

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110421

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120417

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120430

R150 Certificate of patent or registration of utility model

Ref document number: 4998455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees