JP4728565B2 - 障害復旧装置および障害復旧方法ならびにプログラム - Google Patents
障害復旧装置および障害復旧方法ならびにプログラム Download PDFInfo
- Publication number
- JP4728565B2 JP4728565B2 JP2003275107A JP2003275107A JP4728565B2 JP 4728565 B2 JP4728565 B2 JP 4728565B2 JP 2003275107 A JP2003275107 A JP 2003275107A JP 2003275107 A JP2003275107 A JP 2003275107A JP 4728565 B2 JP4728565 B2 JP 4728565B2
- Authority
- JP
- Japan
- Prior art keywords
- operation state
- failure
- rule
- command
- service execution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0781—Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Retry When Errors Occur (AREA)
- Debugging And Monitoring (AREA)
Description
先ず、図4、図5、図6、図7を用いて、本発明の第1の実施の形態について説明する。
本実施の形態では、第1の実施の形態で説明した構成および動作に加えて、図8を用いて複数の障害が同時に発生した場合の動作の例を示す。対処方法検索手段3は、第1の実施の形態の機能に加えて、同じ条件式を有するルール群から優先度に応じて対処コマンドを1つづつ選択して対処コマンド群を生成した後、その対処コマンド群に含まれる対処コマンドを優先度の高い順に試行する機能を有する。
本実施の形態では、第1の実施の形態で説明した優先度に変えて、過去の対処コマンド実行の結果として得られた状態変数の変化量を表す実績値を用いてルールの探索を行う例を示す。図11のルール群400は、本発明の前提例における図2のルール群300において優先度が実績値に、番号3、4、5の条件式が変数とその閾値で構成される「CPU使用率が50より大きい」に置き換わったものを示す。つまり、本実施の形態においては、ルール蓄積手段2に蓄積されている障害対処ルールの条件式は、1または複数の状態変数とその閾値を規定する条件式となっている。以下、対処実行前後の状態変数の値の変化を実績値とした場合を例に、図12、図13、図14を用いて本実施の形態の動作を説明する。
本実施の形態は、第1の実施の形態で説明した優先度と第3の実施の形態で説明した実績値とを用いてルールの探索を行う例を示す。図15のルール群600は、第3の実施の形態における図14のルール群406に優先度を追加したものを示す。図16は本実施の形態の動作のフローチャートを示す。
2 ルール蓄積手段
3 対処方法検索手段
4 コマンド実行手段
5 状態レジスタ
6 効果判定手段
10 サービス実行手段
Claims (3)
- サービス実行手段の動作状態を検出する動作状態検出手段と、
前記サービス実行手段で障害が発生した場合の動作状態または障害の前兆と推測される動作状態を判定するための条件式とその動作状態になった場合に障害を復旧または回避するための対処コマンドとルール間の適用順序の優先度情報とを含む複数の障害対処ルールを蓄積するルール蓄積手段と、
前記ルール蓄積手段から、前記動作状態検出手段で検出された前記サービス実行手段の現在の動作状態に合致する条件式を持つルールを取り出し、その優先度情報に応じて順次試行するとともに、前記現在の動作状態に合致した条件式の否定から前記対処コマンドを実行した後に変化すると予想される動作状態の変化情報を生成して状態レジスタに出力する対処方法検索手段と、
前記状態レジスタに保持された動作状態の変化情報と前記動作状態検出手段の出力である前記対処コマンド実行後の前記サービス実行手段の動作状態を比較して、対処コマンドによる復旧または回避の成否を判定し、その結果に応じて前記優先度情報を修正する効果判定手段と、
を含むことを特徴とする障害復旧装置。 - a)動作状態検出手段が、サービス実行手段の動作状態を検出するステップ
b)対処方法検索手段が、前記サービス実行手段で障害が発生した場合の動作状態または障害の前兆と推測される動作状態を判定するための条件式とその動作状態になった場合に障害を復旧または回避するための対処コマンドとルール間の適用順序の優先度情報とを含む複数の障害対処ルールを蓄積するルール蓄積手段から、前記動作状態検出手段で検出された前記サービス実行手段の現在の動作状態に合致する条件式を持つルールを取り出し、その優先度情報に応じて順次試行するとともに、前記現在の動作状態に合致した条件式の否定から前記対処コマンドを実行した後に変化すると予想される動作状態の変化情報を生成して状態レジスタに出力するステップ
c)前記動作状態検出手段が、前記対処コマンド実行後の前記サービス実行手段の動作状態を検出するステップ
d)効果判定手段が、前記状態レジスタに保持された動作状態の変化情報と前記動作状態検出手段の出力である前記対処コマンド実行後の前記サービス実行手段の動作状態を比較して、対処コマンドによる復旧または回避の成否を判定し、その結果に応じて前記優先度情報を修正するステップ
を含むことを特徴とする障害復旧方法。 - コンピュータを、サービス実行手段の動作状態を検出する動作状態検出手段、前記サービス実行手段で障害が発生した場合の動作状態または障害の前兆と推測される動作状態を判定するための条件式とその動作状態になった場合に障害を復旧または回避するための対処コマンドとルール間の適用順序の優先度情報とを含む複数の障害対処ルールを蓄積するルール蓄積手段から、前記動作状態検出手段で検出された前記サービス実行手段の現在の動作状態に合致する条件式を持つルールを取り出し、その優先度情報に応じて順次試行するとともに、前記現在の動作状態に合致した条件式の否定から前記対処コマンドを実行した後に変化すると予想される動作状態の変化情報を生成して状態レジスタに出力する対処方法検索手段、前記状態レジスタに保持された動作状態の変化情報と前記動作状態検出手段の出力である前記対処コマンド実行後の前記サービス実行手段の動作状態を比較して、対処コマンドによる復旧または回避の成否を判定し、その結果に応じて前記優先度情報を修正する効果判定手段、として機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003275107A JP4728565B2 (ja) | 2003-07-16 | 2003-07-16 | 障害復旧装置および障害復旧方法ならびにプログラム |
US10/893,443 US7620849B2 (en) | 2003-07-16 | 2004-07-16 | Fault recovery system and method for adaptively updating order of command executions according to past results |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003275107A JP4728565B2 (ja) | 2003-07-16 | 2003-07-16 | 障害復旧装置および障害復旧方法ならびにプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008325500A Division JP4998455B2 (ja) | 2008-12-22 | 2008-12-22 | 障害復旧装置および障害復旧方法ならびにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005038223A JP2005038223A (ja) | 2005-02-10 |
JP4728565B2 true JP4728565B2 (ja) | 2011-07-20 |
Family
ID=34056114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003275107A Expired - Fee Related JP4728565B2 (ja) | 2003-07-16 | 2003-07-16 | 障害復旧装置および障害復旧方法ならびにプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7620849B2 (ja) |
JP (1) | JP4728565B2 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7464294B2 (en) * | 2004-09-20 | 2008-12-09 | International Business Machines Corporation | Monitoring method with trusted corrective actions |
DE602006019401D1 (de) * | 2005-04-18 | 2011-02-17 | Research In Motion Ltd | Zentralisierte speicherverwaltung in drahtlosen endgeräten |
US7702780B2 (en) * | 2005-06-22 | 2010-04-20 | International Business Machines Corporation | Monitoring method, system, and computer program based on severity and persistence of problems |
JP5076290B2 (ja) * | 2005-07-21 | 2012-11-21 | 日本電気株式会社 | 運用管理ルール流用装置、運用管理ルール流用方法およびプログラム |
JP4872262B2 (ja) * | 2005-07-27 | 2012-02-08 | 日本電気株式会社 | 管理支援システム、管理支援方法、および管理支援プログラム |
JP2007172131A (ja) * | 2005-12-20 | 2007-07-05 | Nec Fielding Ltd | 障害予測システム、障害予測方法、障害予測プログラム |
JP2007304837A (ja) * | 2006-05-11 | 2007-11-22 | Nec Fielding Ltd | 情報処理装置及び監視方法並びにプログラム |
JP4859558B2 (ja) | 2006-06-30 | 2012-01-25 | 株式会社日立製作所 | コンピュータシステムの制御方法及びコンピュータシステム |
JP2008015596A (ja) * | 2006-07-03 | 2008-01-24 | Nec Fielding Ltd | 管理サーバ及び修復プログラム送信方法 |
US8341260B2 (en) * | 2006-08-16 | 2012-12-25 | Oracle America, Inc. | Method and system for identification of decisive action state of server components via telemetric condition tracking |
US7788534B2 (en) * | 2007-12-11 | 2010-08-31 | International Business Machines Corporation | Method for monitoring and managing a client device in a distributed autonomic computing environment |
JP4867908B2 (ja) * | 2007-12-19 | 2012-02-01 | 日本電気株式会社 | 監視システム、ネットワーク監視装置及びサービス実行環境監視方法 |
JP2009181441A (ja) * | 2008-01-31 | 2009-08-13 | Nomura Research Institute Ltd | 自動修復システム及び方法 |
JP5141762B2 (ja) * | 2008-03-31 | 2013-02-13 | 富士通株式会社 | トラブル対処システム、方法およびそのためのプログラム |
GB2472550B (en) * | 2008-05-30 | 2013-02-27 | Fujitsu Ltd | Recovery method management program, recovery method management device, and recovery method management method |
JP5453883B2 (ja) * | 2009-03-31 | 2014-03-26 | 富士通株式会社 | 運用管理システム、プロセス解析装置、プロセス解析プログラムおよびプロセス解析方法 |
JP5257384B2 (ja) * | 2010-03-10 | 2013-08-07 | 日本電気株式会社 | 物理装置制御システム |
US8823536B2 (en) * | 2010-04-21 | 2014-09-02 | Microsoft Corporation | Automated recovery and escalation in complex distributed applications |
JP2012027869A (ja) * | 2010-07-28 | 2012-02-09 | Pfu Ltd | 管理サーバ、情報処理装置、方法およびプログラム |
JP5588295B2 (ja) * | 2010-10-05 | 2014-09-10 | 株式会社日立システムズ | 情報処理装置、および障害復旧方法 |
EP2726987A4 (en) * | 2011-11-04 | 2016-05-18 | Hewlett Packard Development Co | TREATMENT OF FAILURES IN A SYSTEM |
JP2014124735A (ja) * | 2012-12-27 | 2014-07-07 | Seiko Epson Corp | ロボット制御方法、ロボット制御装置、プログラム、及びロボット |
JP6079350B2 (ja) * | 2013-03-25 | 2017-02-15 | セイコーエプソン株式会社 | ロボット制御方法、ロボット制御装置、ロボット及びロボット制御プログラム |
US10248321B1 (en) * | 2015-09-15 | 2019-04-02 | Amazon Technologies, Inc. | Simulating multiple lower importance levels by actively feeding processes to a low-memory manager |
US10289446B1 (en) | 2015-09-15 | 2019-05-14 | Amazon Technologies, Inc. | Preserving web browser child processes by substituting a parent process with a stub process |
US10101910B1 (en) * | 2015-09-15 | 2018-10-16 | Amazon Technologies, Inc. | Adaptive maximum limit for out-of-memory-protected web browser processes on systems using a low memory manager |
US10474532B1 (en) * | 2017-07-28 | 2019-11-12 | EMC IP Holding Company LLC | Automatic fault tolerance in a computing system providing concurrent access to shared computing resource objects |
JP6988304B2 (ja) * | 2017-09-21 | 2022-01-05 | 日本電気株式会社 | 運用管理システム、監視サーバ、方法およびプログラム |
JP7183885B2 (ja) * | 2019-03-15 | 2022-12-06 | 株式会社リコー | 起動制御装置、画像形成装置、起動制御方法、およびプログラム |
WO2021059396A1 (ja) * | 2019-09-25 | 2021-04-01 | 日本電信電話株式会社 | 異常対処支援装置、方法およびプログラム |
JP7380830B2 (ja) | 2020-02-28 | 2023-11-15 | 日本電気株式会社 | 障害対処装置及びシステム、ルールリスト生成方法並びにプログラム |
JP7483143B2 (ja) * | 2021-07-05 | 2024-05-14 | 三菱電機株式会社 | システム設計支援装置、システム設計支援方法及びシステム設計支援システム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02137035A (ja) | 1988-11-18 | 1990-05-25 | Hitachi Ltd | 計算機システム故障診断装置 |
JPH02194437A (ja) | 1989-01-24 | 1990-08-01 | Nippondenso Co Ltd | 知識ベースを用いた推論装置 |
JPH03144831A (ja) | 1989-10-31 | 1991-06-20 | Matsushita Electric Ind Co Ltd | システム復旧方法 |
DE69228986T2 (de) * | 1991-02-05 | 1999-08-12 | Storage Technology Corp | Durch hierarchisch verteilte wissenbasierte maschine ausgelöste wartungs-vorrichtung und -verfahren |
JPH0754474A (ja) | 1993-08-13 | 1995-02-28 | Matsushita Electric Works Ltd | 断熱材の取り付け構造 |
US6182059B1 (en) * | 1997-04-03 | 2001-01-30 | Brightware, Inc. | Automatic electronic message interpretation and routing system |
US6145096A (en) * | 1998-05-06 | 2000-11-07 | Motive Communications, Inc. | Method, system and computer program product for iterative distributed problem solving |
US6742141B1 (en) * | 1999-05-10 | 2004-05-25 | Handsfree Networks, Inc. | System for automated problem detection, diagnosis, and resolution in a software driven system |
US6658598B1 (en) * | 2000-02-17 | 2003-12-02 | Motive Communications, Inc. | Technical support chain automation with guided self-help capability using active content assertions |
US6738928B1 (en) * | 2000-06-19 | 2004-05-18 | Hewlett-Packard Development Company, L.P. | Method and expert system for analysis of crash dumps |
US6877115B2 (en) * | 2000-06-30 | 2005-04-05 | Sinapse Graphic International | Interactive on-line diagnostics for printing |
US6681344B1 (en) * | 2000-09-14 | 2004-01-20 | Microsoft Corporation | System and method for automatically diagnosing a computer problem |
JP2002251295A (ja) | 2000-12-18 | 2002-09-06 | Fujitsu Ltd | 情報処理装置、プログラムの障害対処方法、媒体、およびプログラム |
JP2002342184A (ja) | 2001-05-16 | 2002-11-29 | Matsushita Electric Ind Co Ltd | リトライ処理装置およびリトライ処理プログラム |
US7194445B2 (en) | 2002-09-20 | 2007-03-20 | Lenovo (Singapore) Pte. Ltd. | Adaptive problem determination and recovery in a computer system |
US7089450B2 (en) | 2003-04-24 | 2006-08-08 | International Business Machines Corporation | Apparatus and method for process recovery in an embedded processor system |
US7209860B2 (en) * | 2003-07-07 | 2007-04-24 | Snap-On Incorporated | Distributed expert diagnostic service and system |
US7130770B2 (en) * | 2004-09-09 | 2006-10-31 | International Business Machines Corporation | Monitoring method and system with corrective actions having dynamic intensities |
-
2003
- 2003-07-16 JP JP2003275107A patent/JP4728565B2/ja not_active Expired - Fee Related
-
2004
- 2004-07-16 US US10/893,443 patent/US7620849B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2005038223A (ja) | 2005-02-10 |
US7620849B2 (en) | 2009-11-17 |
US20050015665A1 (en) | 2005-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4728565B2 (ja) | 障害復旧装置および障害復旧方法ならびにプログラム | |
JP3826940B2 (ja) | 障害復旧装置および障害復旧方法、マネージャ装置並びにプログラム | |
JP5754704B2 (ja) | 複数の産業制御システム間の通信を制御するシステム | |
JP5093259B2 (ja) | Biosとbmcとの間の通信パス強化方法、その装置及びそのプログラム | |
JP4313823B2 (ja) | 障害対応システム及び障害対応方法 | |
JP2008009842A (ja) | コンピュータシステムの制御方法及びコンピュータシステム | |
CN108255576B (zh) | 虚拟机热迁移异常处理方法、装置和存储介质 | |
JP6988304B2 (ja) | 運用管理システム、監視サーバ、方法およびプログラム | |
CN113657715A (zh) | 一种基于核密度估计调用链的根因定位方法及系统 | |
WO2021157299A1 (ja) | 通信装置、監視サーバ及びログ収集方法 | |
US20090138757A1 (en) | Failure recovery method in cluster system | |
CN102369513A (zh) | 提高计算机系统稳定性的方法及计算机系统 | |
JP2006244404A (ja) | 障害復旧システム、障害復旧装置、ルール作成方法、および障害復旧プログラム | |
CN105335244B (zh) | 用于应用程序恢复的方法 | |
JP4998455B2 (ja) | 障害復旧装置および障害復旧方法ならびにプログラム | |
CN112650624B (zh) | 一种集群升级方法、装置、设备及计算机可读存储介质 | |
JP4449929B2 (ja) | トランザクション装置、遅延障害検出装置及び方法、並びにプログラム | |
JP2009025971A (ja) | 情報処理装置、ログデータ収集システム | |
CN102221995A (zh) | 地震数据处理作业的断点恢复方法 | |
JP7147495B2 (ja) | 復旧支援装置、復旧支援方法及びプログラム | |
CN114490193A (zh) | 一种面向异构冗余系统的恢复方法及装置 | |
JP7327493B2 (ja) | 異常対処支援装置、方法およびプログラム | |
JP2019020864A (ja) | 演算装置 | |
JP7000797B2 (ja) | 起動管理装置、起動管理システム、起動管理方法、および、起動管理プログラム | |
JP4989496B2 (ja) | コマンドネット実行装置、コマンドネット実行プログラム及びコマンドネット実行プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070731 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081021 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20081120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20081121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081222 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20081226 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20090130 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4728565 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |