JP2009211618A - 障害自動復旧装置 - Google Patents
障害自動復旧装置 Download PDFInfo
- Publication number
- JP2009211618A JP2009211618A JP2008056212A JP2008056212A JP2009211618A JP 2009211618 A JP2009211618 A JP 2009211618A JP 2008056212 A JP2008056212 A JP 2008056212A JP 2008056212 A JP2008056212 A JP 2008056212A JP 2009211618 A JP2009211618 A JP 2009211618A
- Authority
- JP
- Japan
- Prior art keywords
- recovery
- failure
- time
- fault
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
【解決手段】障害を自動的に復旧する障害自動復旧装置において、前記障害の障害情報を外部から受信する障害検出手段と、前記障害情報と前記障害の復旧方法とを対応づけて記憶されている障害復旧記憶手段と、前記復旧方法を決定する復旧方法決定手段と、前記障害の復旧を実施するか否かを判断する処理制御手段と、を備え、前記復旧方法には前記障害の緊急度を示す情報と前記障害の復旧の影響度を示す情報とが含まれており、前記処理制御手段による判断の結果、前記障害の緊急度が高い場合又は前記障害の緊急度は高くなくとも前記障害の復旧の影響度が全くない場合は、前記処理制御手段は、前記復旧方法に基づいて即時に前記障害の復旧を実施し、前記障害の緊急度は低いが前記障害の復旧の影響度が存在する場合は、所定のタイミングに前記障害の復旧を実施する。
【選択図】図1
Description
障害緊急度100となるまでの余力(D):100−B1
障害緊急度100となる予想時間(E):A1+D/C
例えば、A1=12:00、B1=95、A2=10:00、B2=90であれば、C=(95−90)/(12:00−10:00)=5/2=2.5、D=100−95=5、E=12:00+5/2.5=14:00と計算する。
Hが「0以上」であれば復旧実施可能、「0未満」であれば復旧実施不可能と判定する。
Webサーバ21にてAP出力異常の障害が発生すると、障害自動復旧装置1は、障害情報(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「AP出力異常」、障害状況「出力メッセージ#1」を受け取る(ステップ901)。
Webサーバ21にてログサイズ増加の障害が発生すると、障害自動復旧装置1は、障害情報(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「ログサイズ増加」、障害状況「ログサイズ10MB」を受け取る(ステップ901)。
Webサーバ21にてメモリ枯渇の障害が発生すると、障害自動復旧装置1は、障害情報(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、障害状況「メモリ残量100MB」を受け取る(ステップ901)。
既にWebサーバ21にてメモリ枯渇の障害が発生しており、復旧実施スケジュール管理テーブル111には、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 18:00」)が登録されている。
既にWebサーバ21にてメモリ枯渇の障害が発生しており、復旧実施スケジュール管理テーブル111には、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 18:00」)が登録されている。
既にWebサーバ21にてメモリ枯渇の障害が発生しており、復旧実施スケジュール管理テーブル111には、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 18:00」)が登録されている。
既にWebサーバ21にてメモリ枯渇の障害が発生しており、復旧実施スケジュール管理テーブル111には、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 18:00」)が登録されている。
既にWebサーバ21にてメモリ枯渇の障害が発生しており、復旧実施スケジュール管理テーブル111には、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 21:00」)が登録されている。
処理制御手段1は、復旧実施手段15に復旧指示を行い、復旧完了の通知を受け取ると(ステップ1101)、実施した復旧作業と同じ作業が既に登録されているか確認する(ステップ1102)。
処理制御手段1は、復旧実施手段15に復旧指示を行い、復旧完了の通知を受け取ると(ステップ1101)、実施した復旧作業と同じ作業が既に登録されているか確認する(ステップ1102)。
11 処理制御手段
111 復旧実施スケジュール管理テーブル
12 障害検出手段
13 復旧方法決定手段
131 障害復旧DB
14 復旧実施時間管理手段
141 復旧実施可能時間DB
15 復旧実施手段
16 サービス要件確認手段
161 サービス要件DB
17 サービス状況確認手段
18 アラーム通知手段
Claims (5)
- 障害を自動的に復旧する障害自動復旧装置において、
前記障害が発生した旨を示す障害情報を外部から受信する障害検出手段と、
前記障害情報と前記障害を復旧する復旧方法とを対応づけて記憶されている障害復旧記憶手段と、
前記障害情報に基づいて、障害復旧記憶手段内に記憶されている前記復旧方法を決定する復旧方法決定手段と、
前記決定された前記復旧方法に応じて、即時に前記障害の復旧を実施するか否かを判断する処理制御手段と、を備え、
前記復旧方法には前記障害の緊急度を示す情報と前記障害の復旧の影響度を示す情報とが含まれており、
前記処理制御手段による判断の結果、前記障害の緊急度が高い場合又は前記障害の緊急度は高くなくとも前記障害の復旧の影響度が全くない場合は、前記処理制御手段は、前記復旧方法に基づいて即時に前記障害の復旧を実施し、前記障害の緊急度は低いが前記障害の復旧の影響度が存在する場合は、所定のタイミングに前記障害の復旧を実施することを特徴とする障害自動復旧装置。 - 請求項1に記載の障害自動復旧装置において、
運用ルールとして決められた復旧実施可能時間を含む運用要件が記憶されている復旧実施可能時間記憶手段と、
前記障害情報に基づいて前記復旧実施可能時間記憶手段内の前記復旧実施予定時間を決定する復旧実施時間管理手段と、
前記復旧実施時間管理手段により前記復旧実施予定時間が決定された後に、前記復旧実施予定時間、前記障害情報、及び前記復旧方法を復旧実施スケジュール管理テーブルに登録する登録手段と、備え、
前記処理制御手段は、前記復旧実施スケジュール管理テーブルに登録された前記復旧実施予定時間になると前記障害の復旧を実施することを特徴とする障害自動復旧装置。 - 請求項2に記載の障害自動復旧装置において、
サービスの提供に最低限必要な外部の装置の稼動状況を示すサービス要件が記憶されているサービス要件記憶手段と、
前記サービス要件記憶手段内の前記サービス要件を確認するサービス要件確認手段と、
前記外部の装置のサービス状況を確認するサービス状況確認手段と、
前記処理制御手段は、前記サービス要件、及び前記サービス状況に基づいて、前記復旧方法を実施した後の状態が前記サービス要件を満たしているか否かを判定し、
前記判定の結果、前記サービス要件を満たしている場合は、前記復旧方法に基づいて前記障害の復旧を実施することを特徴とする障害自動復旧装置。 - 請求項3に記載の障害自動復旧装置において、
前記判定の結果、前記サービス要件を満たさなくなる場合は、前記処理制御手段は、再度、新たな復旧実施予定時間を前記復旧実施スケジュール管理テーブルに登録し、新たに登録した復旧実施予定時間になれば前記サービス状況、及び前記サービス要件の確認と前記障害の復旧を実施することができるか否かの判定を行い、
前記障害の復旧が実施することができると判定された場合には前記障害の復旧を実施し、
前記障害の復旧が実施することができないと判定された場合には再スケジューリングを行うことを特徴とする障害自動復旧装置。 - 請求項4に記載の障害自動復旧装置において、
当該障害自動復旧装置の使用者にこのままでは前記運用要件を満たす時間になる前に即時復旧可能な時間に障害が発生する旨のアラームを通知するアラーム通知手段を更に備え、
前記復旧実施スケジュール管理テーブルに前記復旧実施予定時間を登録し、同じ障害要因の復旧実施予定が既に登録されている場合には、前記処理制御手段は、前記障害の緊急度の増加率と前記障害の発生時間との比較により、前記障害の緊急度が即時の復旧を必要とするようになる時間を予想し、当該予想した時間が前記復旧実施予定時間より遅い場合は何もせず待機し、前記予想した時間が前記復旧実施予定時間より早い場合は前記アラーム通知手段にアラーム通知の指示を出すことを特徴とする障害自動復旧装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008056212A JP4893663B2 (ja) | 2008-03-06 | 2008-03-06 | 障害自動復旧装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008056212A JP4893663B2 (ja) | 2008-03-06 | 2008-03-06 | 障害自動復旧装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009211618A true JP2009211618A (ja) | 2009-09-17 |
JP4893663B2 JP4893663B2 (ja) | 2012-03-07 |
Family
ID=41184669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008056212A Expired - Fee Related JP4893663B2 (ja) | 2008-03-06 | 2008-03-06 | 障害自動復旧装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4893663B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013035243A1 (ja) * | 2011-09-08 | 2013-03-14 | 日本電気株式会社 | クラウドサービス復旧時間予測システム、方法およびプログラム |
US9609476B2 (en) | 2015-01-06 | 2017-03-28 | Fujitsu Limited | Wireless device, wireless base station, and control method for a failure in a wireless network |
JP2021043864A (ja) * | 2019-09-13 | 2021-03-18 | 東芝テック株式会社 | 処理装置及び起動方法 |
CN113590370A (zh) * | 2021-08-06 | 2021-11-02 | 北京百度网讯科技有限公司 | 一种故障处理方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0962626A (ja) * | 1995-08-21 | 1997-03-07 | Hitachi Ltd | 分散処理システムのオンラインテスト方法 |
JPH11232222A (ja) * | 1998-02-19 | 1999-08-27 | Fujitsu Ltd | 保守運用端末装置 |
JP2003241999A (ja) * | 2002-02-14 | 2003-08-29 | Hitachi Ltd | 保守管理システム |
JP2004280171A (ja) * | 2003-03-12 | 2004-10-07 | Fujitsu Ltd | 障害情報通知プログラム |
JP2006277685A (ja) * | 2005-03-30 | 2006-10-12 | Fujitsu Ltd | 障害発生通知プログラム、および通知装置。 |
WO2006117832A1 (ja) * | 2005-04-25 | 2006-11-09 | Fujitsu Limited | 運用中システムチェック処理装置,方法およびそのプログラム |
JP2006344061A (ja) * | 2005-06-09 | 2006-12-21 | Hitachi Ltd | シナリオ適用支援方法、管理サーバおよび管理プログラム |
-
2008
- 2008-03-06 JP JP2008056212A patent/JP4893663B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0962626A (ja) * | 1995-08-21 | 1997-03-07 | Hitachi Ltd | 分散処理システムのオンラインテスト方法 |
JPH11232222A (ja) * | 1998-02-19 | 1999-08-27 | Fujitsu Ltd | 保守運用端末装置 |
JP2003241999A (ja) * | 2002-02-14 | 2003-08-29 | Hitachi Ltd | 保守管理システム |
JP2004280171A (ja) * | 2003-03-12 | 2004-10-07 | Fujitsu Ltd | 障害情報通知プログラム |
JP2006277685A (ja) * | 2005-03-30 | 2006-10-12 | Fujitsu Ltd | 障害発生通知プログラム、および通知装置。 |
WO2006117832A1 (ja) * | 2005-04-25 | 2006-11-09 | Fujitsu Limited | 運用中システムチェック処理装置,方法およびそのプログラム |
JP2006344061A (ja) * | 2005-06-09 | 2006-12-21 | Hitachi Ltd | シナリオ適用支援方法、管理サーバおよび管理プログラム |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013035243A1 (ja) * | 2011-09-08 | 2013-03-14 | 日本電気株式会社 | クラウドサービス復旧時間予測システム、方法およびプログラム |
JP5370624B2 (ja) * | 2011-09-08 | 2013-12-18 | 日本電気株式会社 | クラウドサービス復旧時間予測システム、方法およびプログラム |
US8904242B2 (en) | 2011-09-08 | 2014-12-02 | Nec Corporation | Cloud service recovery time prediction system, method and program |
US9609476B2 (en) | 2015-01-06 | 2017-03-28 | Fujitsu Limited | Wireless device, wireless base station, and control method for a failure in a wireless network |
JP2021043864A (ja) * | 2019-09-13 | 2021-03-18 | 東芝テック株式会社 | 処理装置及び起動方法 |
JP7320415B2 (ja) | 2019-09-13 | 2023-08-03 | 東芝テック株式会社 | 処理装置及び起動方法 |
JP7521081B2 (ja) | 2019-09-13 | 2024-07-23 | 東芝テック株式会社 | 処理装置及びプログラム |
CN113590370A (zh) * | 2021-08-06 | 2021-11-02 | 北京百度网讯科技有限公司 | 一种故障处理方法、装置、设备及存储介质 |
CN113590370B (zh) * | 2021-08-06 | 2022-06-21 | 北京百度网讯科技有限公司 | 一种故障处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4893663B2 (ja) | 2012-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10223193B2 (en) | Proactive failure handling in data processing systems | |
US8140914B2 (en) | Failure-model-driven repair and backup | |
JP6387747B2 (ja) | 情報処理装置、障害回避方法およびコンピュータプログラム | |
JP4893663B2 (ja) | 障害自動復旧装置 | |
US8468386B2 (en) | Detecting and recovering from process failures | |
JP4796086B2 (ja) | クラスタシステム及び同システムにおいてマスタノードを選択する方法 | |
JP5155699B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2016076072A (ja) | 障害通報装置、障害通報方法及び障害通報プログラム | |
JP2010231293A (ja) | 監視装置 | |
JP2010176303A (ja) | バッチ処理システムおよびこれに用いる情報端末装置、バッチ処理のリカバリ方法 | |
JP2010067115A (ja) | データ記憶システム、データ記憶方法 | |
JP2006277685A (ja) | 障害発生通知プログラム、および通知装置。 | |
JP4968568B2 (ja) | 障害監視方法、障害監視システムおよびプログラム | |
CN112269693B (zh) | 一种节点自协调方法、装置和计算机可读存储介质 | |
JP2000322399A (ja) | 保守スケジュール決定方式 | |
JP4768574B2 (ja) | 電源制御システム及び方法、電子装置、プログラム | |
JP2005209029A (ja) | アプリケーション管理システム、アプリケーション管理方法およびその管理方法を実行させるためのプログラム | |
JP5018140B2 (ja) | マルチプロセッサシステム、タスクスケジューリング方法およびタスクスケジューリングプログラム | |
JP2007249614A (ja) | システム装置及び情報収集方法 | |
JP2009098715A (ja) | 冗長システム装置並びに冗長システム装置におけるジョブの実行方法及び実行プログラム | |
JP4362440B2 (ja) | 通報装置及び方法 | |
JP2005293010A (ja) | 遠隔監視システムとその方法、警報配信装置、受信端末、およびプログラム | |
WO2008015730A1 (fr) | Procédé et programme pour éviter un échec d'exécution d'une tâche dans un système de calcul de grille et système de calcul de grille | |
JP2005252618A (ja) | 通信網管理装置及び制御命令制御方法 | |
JP2019168928A (ja) | 緊急性判定装置、緊急性判定方法および緊急性判定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110830 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111205 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150106 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |