JP4893663B2 - 障害自動復旧装置 - Google Patents

障害自動復旧装置 Download PDF

Info

Publication number
JP4893663B2
JP4893663B2 JP2008056212A JP2008056212A JP4893663B2 JP 4893663 B2 JP4893663 B2 JP 4893663B2 JP 2008056212 A JP2008056212 A JP 2008056212A JP 2008056212 A JP2008056212 A JP 2008056212A JP 4893663 B2 JP4893663 B2 JP 4893663B2
Authority
JP
Japan
Prior art keywords
recovery
failure
time
service
urgency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008056212A
Other languages
English (en)
Other versions
JP2009211618A (ja
Inventor
友宏 粉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008056212A priority Critical patent/JP4893663B2/ja
Publication of JP2009211618A publication Critical patent/JP2009211618A/ja
Application granted granted Critical
Publication of JP4893663B2 publication Critical patent/JP4893663B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、システム上の装置で発生した障害を検知し、適切なタイミングで自動復旧させることを可能にする障害自動復旧装置に関する。
近年、インターネットの普及により、電子商取引やWebコンテンツの提供等24時間365日決して止まることの許されないミッションクリティカルなシステムが急増している。
システムで障害が発生した際には、速やかかつ安全に復旧を行う必要がある。
しかし、人手を介した復旧作業には、時間もかかり、作業ミスで障害を拡大させてしまう危険性もある。
また、システムが大規模化、複雑化するほど、復旧作業に要する時間や作業ミスの可能性も増大する。
そのため、システムで発生した障害を検知し、自動で復旧するような仕組みが求められている。
システムで発生した障害を検知し、自動で復旧するような仕組みとして、障害の要因と復旧方法を蓄積したDB(データベース)を用意し、障害検出手段によって障害を検出してDBに復旧方法を問い合わせ、復旧実施手段によって障害復旧を行う方法がある(例えば下記特許文献1、特許文献2、特許文献3等)。また、復旧方法を複数用意し、優先度に従って復旧方法を試行し、最初に選択した復旧方法で復旧できなければ、次の優先度の復旧方法を試行する仕組みや、更にその優先度を実績等から動的に修正していくことで、より最適な復旧方法が選択できるようにする仕組みもある。
これらの従来技術は、原則として、発生した障害を検知すると直ちに自動復旧するものである。
ここで、障害の復旧を実施するという措置自体が、システムが提供するサービスに何らかの影響を与えてしまう場合や、そうでなくとも冗長性が失われることによりサービス停止のリスクを高めてしまう場合が多いことに着目する。
例えば、復旧方法には、AP再起動やOS再起動等、その装置が提供しているサービスの停止を伴う場合が多い。また、サービスの停止を伴わなくても、復旧中は冗長性が失われ、一時的であるが片系運用となってしまうリスクは発生する。また、負荷分散を行うシステム構成であれば、復旧中はシステムを構成する装置数が一時的に減少して、システムの性能要件を満たせなくなる場合もある。
一方で、全ての障害が即時の復旧を要するものではなく、障害の発生から多少の時間が経過しても、該当装置の提供するサービスには影響を与えないことも多い。逆に、障害を放置しておくのは非常に危険であり、直ちに復旧を要する場合もある。
障害復旧は、可能な限り早く実施すべきではあるが、緊急性のない障害の場合は、サービスに影響を与えてまで即時復旧をする必要はない。即ち、復旧は、障害の内容に応じて適切なタイミングで行えなければならない。
特開2005‐322014号公報 特開2005‐085178号公報 特開平04‐147347号公報
しかしながら、上記従来の技術では、どのような障害であっても、復旧を即時実施してしまうので、実施のタイミングによってはサービスが停止する、あるいはサービス影響を与えてしまうという問題点があった。また、障害緊急度に応じて即時復旧するか判断については、障害緊急度の増加率を計算して即時復旧が必要となる時間を予想し、アラーム等を上げるなどの対処を行っていないこと、復旧作業による影響度から復旧要否を判断する際に、判断基準としてシステムが保証するサービス要件を配慮していないこと、再スケジュール時に運用要件を配慮していないこと、スケジュール管理テーブルを用いて自動復旧の実施タイミングを制御していないこと等の問題点があった。
そこで、本発明は、上記各問題点に鑑みて為されたもので、その目的の一例は、障害の内容に応じて適切なタイミングで復旧を行うことが可能な障害自動復旧装置を提供することである。
上記の課題を解決するために、請求項1に記載の発明は、障害を自動的に復旧する障害自動復旧装置において、前記障害が発生した旨を示す障害情報を外部から受信する障害検出手段と、前記障害情報と前記障害を復旧する復旧方法とを対応づけて記憶る障害復旧記憶手段と、前記障害情報に基づいて、障害復旧記憶手段内に記憶されている前記復旧方法を決定する復旧方法決定手段と、前記決定された前記復旧方法に応じて、即時に前記障害の復旧を実施するか否かを判断する処理制御手段と、を備え、前記復旧方法には、予め設定された前記障害ごとの緊急度を示す障害緊急度情報と、予め設定された前記障害ごとの復旧の影響度を示す復旧影響度情報とが含まれており、前記処理制御手段による判断の結果、前記障害が前記障害緊急度情報により即時の復旧が必要とされている前記緊急度の障害である場合又は前記障害が、前記障害緊急度情報により即時の復旧が必要とされていない前記緊急度の障害ではあるが、前記復旧影響度情報により前記障害の復旧の影響度が全くないとされている前記影響度の障害である合、前記処理制御手段は、前記復旧方法に基づいて即時に前記障害の復旧を実施し、前記障害が前記障害緊急度情報により即時の復旧が必要とされていない前記緊急度の障害ではあり、且つ前記復旧営業度情報により記影響度が存在するとされている障害の場合は、所定のタイミングに前記障害の復旧を実施することを特徴とする。
上記の課題を解決するために、請求項2に記載の発明は、請求項1に記載の障害自動復旧装置において、運用ルールとして決められた復旧実施可能時間を含む運用要件が記憶されている復旧実施可能時間記憶手段と、前記障害情報と、前記復旧実施可能時間記憶手段内の前記復旧実施可能時間と、に基づいて復旧実施予定時間を決定する復旧実施時間管理手段と、前記復旧実施時間管理手段により前記復旧実施予定時間が決定された後に、前記復旧実施予定時間、前記障害情報、及び前記復旧方法を復旧実施スケジュール管理テーブルに登録する登録手段と、備え、前記処理制御手段は、前記復旧実施スケジュール管理テーブルに登録された前記復旧実施予定時間になると前記障害の復旧を実施することを特徴とする。
上記の課題を解決するために、請求項3に記載の発明は、請求項2に記載の障害自動復旧装置において、サービスの提供に最低限必要な外部の装置の稼動状況を示すサービス要件が記憶されているサービス要件記憶手段と、前記サービス要件記憶手段内の前記サービス要件を確認するサービス要件確認手段と、前記外部の装置のサービス状況を確認するサービス状況確認手段と、を備え、前記処理制御手段は、前記サービス要件、及び前記サービス状況に基づいて、前記復旧方法を実施した後の状態が前記サービス要件を満たしているか否かを判定し、前記判定の結果、前記サービス要件を満たしている場合は、前記復旧方法に基づいて前記障害の復旧を実施することを特徴とする。
上記の課題を解決するために、請求項4に記載の発明は、請求項3に記載の障害自動復旧装置において、前記判定の結果、前記サービス要件を満たさなくなる場合、前記復旧実施時間管理手段及び前記登録手段は、再度、新たな復旧実施予定時間を前記復旧実施スケジュール管理テーブルに登録し、前記処理制御手段は、新たに登録した復旧実施予定時間になれば前記サービス状況、及び前記サービス要件の確認と前記障害の復旧を実施することができるか否かの判定を行い、更に前記処理制御手段は、前記障害の復旧が実施することができると判定された場合には前記障害の復旧を実施し、前記障害の復旧が実施することができないと判定された場合には再スケジューリングを行うことを特徴とする。
上記の課題を解決するために、請求項5に記載の発明は、請求項4に記載の障害自動復旧装置において、当該障害自動復旧装置の使用者にこのままでは前記運用要件を満たす時間になる前に即時復旧可能な時間に障害が発生する旨のアラームを通知するアラーム通知手段を更に備え、前記復旧実施スケジュール管理テーブルに前記復旧実施予定時間を登録し、同じ障害要因の復旧実施予定が既に登録されている場合には、前記処理制御手段は、前記障害の緊急度の増加率と前記障害の発生時間との比較により、前記障害の緊急度が即時の復旧を必要とするようになる時間を予想し、当該予想した時間が前記復旧実施予定時間より遅い場合は何もせず待機し、前記予想した時間が前記復旧実施予定時間より早い場合は前記アラーム通知手段にアラーム通知の指示を出すことを特徴とする。
本発明によれば、障害の緊急度、復旧作業の影響度、システムの運用要件によって自動復旧作業の実施時間をスケジューリングするため、障害の内容に応じて適切なタイミングで自動復旧を行うことができる。
また本発明によれば、サービス状況を確認してから自動復旧を行うため、復旧措置自体がもたらすサービス影響を防ぐことができる。
更にまた本発明によれば、障害緊急度と発生時間から障害が致命的となる時間を予測し、オペレータに通知するため、障害が悪化して適切なタイミングに自動復旧できないが予想される場合でも、障害が致命的となる前にオペレータが対応を検討することができる。
次に、本発明に好適な実施の形態について、図面に基づいて説明する。なお、以下の説明は、障害自動復旧装置に対して本発明を適用した場合の実施形態である。
本発明の実施形態の構成について、図1を用いて説明する。
図1は、本実施形態に係る障害自動復旧装置1の概略構成を示す図である。
図1に示すように、障害自動復旧装置1は、処理制御手段11、復旧実施スケジュール管理テーブル111、障害検出手段12、復旧方法決定手段13、障害復旧DB131(障害復旧記憶手段の一例)、復旧実施時間管理手段14、復旧実施可能時間DB141(復旧実施可能時間記憶手段の一例)、復旧実施手段15、サービス要件確認手段16、サービス要件DB161(サービス要件記憶手段の一例)、サービス状況確認手段17、アラーム通知手段18を含む。
処理制御手段11は、全体の処理を制御し、他の手段に対して情報の受け渡し、判断、指示をする機能を含む。なお、処理制御手段11の詳細については後述する。
サービス提供手段2の概略構成について、図2を用いて説明する。
図2は、サービス提供手段2の概略構成を示す図である。
図2に示すように、サービス提供手段2は、Webサーバ21〜2Nを含む複数のサーバ群から構成される。
Webサーバ21〜2Nは、N台全現用で負荷分散を行っており、N−1台のサーバが稼動していれば、システムが保証するサービス要件を満たす(可用性向上のために1台分冗長な構成としている)。
また、サーバ種別20は、サーバの種別を表し、本実施形態の場合、Webサーバ21〜2Nのサーバ種別20は、全て「Webサーバ」である。
障害検出手段12は、サービス提供手段2から発行される障害情報3を受領し、処理制御手段11に障害情報3を渡す。
図3は、障害情報3の構成を示す図である。
図3に示すように、障害情報3には、対象サーバ31、障害発生時間32、障害要因33、障害状況34が含まれる。
例えば、対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ残量が枯渇」、障害状況「メモリ残量100MB」、のようになる。
復旧方法決定手段13は、処理制御手段11より障害情報3とサーバ種別20を受け取り、サーバ種別20、障害要因33、障害状況34をキーにして、障害復旧DB131に問い合わせを行い、復旧方法4を決定し、決定した復旧方法4を処理制御手段11に返す。
図4は、復旧方法4を説明するための図である。
図4に示すように、復旧方法4には、復旧方法詳細41と障害緊急度42と復旧影響度43が含まれる。
復旧方法詳細41は、復旧方法の詳細を表す。例えば、「AP再起動」、「OS再起動」、「ログ出力先の切替」等である。
障害緊急度42は、障害の緊急度を表す。「0」〜「100」の値を取り、「100」であれば、即時復旧を必要とする。
復旧影響度43は、復旧作業の影響度を表す。「0」以下の値(下限なし)を取り、「0」であれば復旧作業による影響が全くない。「0未満」であれば作業影響がある。本実施形態の場合は、「0」又は「−1」の値を取り、「−1」の場合は、対象サーバは、復旧作業中のサービス提供一切不可を表す。
図5は、障害復旧DB131を説明するための図である。
図5に示すように、障害復旧DB131には、障害情報3と復旧方法4の対応表が蓄積されている。
復旧実施時間管理手段14は、処理制御手段11よりサーバ種別20、再スケジュールフラグ142を受け取り、復旧実施可能時間DB141に問い合わせを行って、復旧実施予定時間5を決定し、決定した復旧実施予定時間5を処理制御手段11に返す。
図6は、復旧実施可能時間DB141を説明するための図である。
図6に示すように、復旧実施可能時間DB141には、サーバ種別20、サーバ種別ごとに運用ルールとして決められた復旧実施可能時間1411、再スケジュール間隔1412を含む。
再スケジュールフラグは、「0」又は「1」の値を持ち、「0」であれば新規の障害発生による問い合わせ、「1」であれば復旧を実施しようとしたが、現状のサービス稼動状況で復旧を実施するとサービス要件を満たさなくなってしまうため、再スケジューリングを行うときの問い合わせを表す。
再スケジュール間隔1412は、再スケジュール時の間隔を表す。再スケジューリングフラグ142が「1」の時は、現在時刻に再スケジューリング間隔1412をプラスした時刻を処理制御手段11に返す。ただし、プラスした時刻が復旧実施可能時間1411を超えている場合は、次の復旧実施可能時間1411を返す。
復旧実施時間管理手段14の動作について、図7を用いて説明する。
復旧実施手段15は、処理制御手段11から対象サーバ31、復旧方法詳細41を受け取り、復旧方法詳細41に従って、対象サーバ31を復旧する。
復旧が完了したら、処理制御手段11に復旧完了の応答を返す。
サービス要件確認手段16は、処理制御手段11から対象サーバ31のサーバ種別20を受け取り、サーバ種別20のサービス要件指数1612をサービス要件DB161に問い合わせ、得られたサービス要件指数1611を処理制御手段11に返す。
図8は、サービス要件DB161を説明するための図である。
図8に示すように、サービス要件DB161には、サーバ種別20とサービス要件指数1611が蓄積されている。
サービス要件指数1611は、サーバ種別20のサーバ群がサービスを提供するのに最低限必要なサーバ稼動台数を表す。
サービス状況確認手段17は、処理制御手段11からサーバ種別20を受け取り、サービス提供手段2に問い合わせ、サーバ種別20のサービス状況指数171を確認し、処理制御手段11に得られたサービス状況指数を返す。
サービス状況指数171は、その時点で稼動中のサーバ種別20のサーバ群のサーバ台数の総計を表す。
アラーム通知手段18は、処理制御手段11の指示を受けて、オペレータ50にアラームを通知する。
処理制御手段11の動作について、図9乃至11を用いて説明する。
なお、必要に応じてサーバ種別DB112を参照して、対象サーバ31のサーバ種別20を特定する。
図9は、障害検出してから復旧実施の時間を決定するまでのフローを示す図である。
障害検出手段12から障害情報3を受け取る(ステップ901)。
ステップ901で受け取った障害情報3とサーバ種別20を復旧方法決定手段13に渡し、復旧方法4を受け取る(ステップ902)。
ステップ902で受け取った復旧方法4の障害緊急度42が「100」、あるいは復旧影響度43が負(0未満)である場合は、図11のステップ1101(復旧作業)を実施し、そうでない場合は、ステップ904を実施する(ステップ903)。
復旧実施スケジュール管理テーブル111を参照して、対象サーバ31、障害要因33の両方が同じものが、既にスケジュールされているか確認する(ステップ904)。
両方が同じものがある場合は、ステップ906を行い、同じものがない場合は、ステップ910を行う(ステップ905)。
処理中の障害の障害発生時間32(A1)、障害緊急度42(B1)と登録済の復旧実施スケジュールの障害発生時間32(A2)、障害緊急度42(B2)から、以下の式で障害緊急度42が「100」となる予想される時間を算出する(ステップ906)。
1時間あたりの障害緊急度の増加率(C):(B1−B2)/(A1−A2)
障害緊急度100となるまでの余力(D):100−B1
障害緊急度100となる予想時間(E):A1+D/C
例えば、A1=12:00、B1=95、A2=10:00、B2=90であれば、C=(95−90)/(12:00−10:00)=5/2=2.5、D=100−95=5、E=12:00+5/2.5=14:00と計算する。
ステップ906において算出した予想時間(E)と復旧実施スケジュールの復旧実施予定時間5とを比較して、予想時間(E)の方が復旧実施予定時間5よりも早い時間である場合はステップ908の処理を行い、遅い場合はステップ909の処理を行う(ステップ907)。
アラーム通知手段17にオペレータにアラーム通知をするよう指示を出す(ステップ908)。
復旧実施予定時間5となるか、新たな障害を検知するまで待機する(ステップ909)。
復旧実施時間管理手段14にサーバ種別20、再スケジュールフラグ142「0」を渡し、復旧実施予定時間5を受け取る(ステップ910)。
ステップ910において受け取った復旧実施予定時間5と、対象サーバ31、障害要因33、障害発生時間32、復旧方法詳細41、障害緊急度42、復旧影響度43からなる復旧実施スケジュール1111とを復旧実施スケジュール管理テーブル111に新規登録し、ステップ909の処理を行う(ステップ911)。
図10は、復旧実施予定時間となってから復旧を行うまでのフローを示す図である。
復旧実施スケジュール管理テーブル111を常に参照し、復旧実施スケジュール1111の復旧実施予定時間5となったら、ステップ1002、及びステップ1003を実施する(ステップ1001)。
サービス要件確認手段16に対象サーバ31のサーバ種別20を渡してサービス要件指数1611を受け取る(ステップ1002)。
サービス状況確認手段17に対象サーバ31のサーバ種別20を渡してサービス状況指数171を受け取る(ステップ1003)。
ステップ1002、及び1003において受け取ったサービス要件指数1611(F)、サービス状況指数171(G)と復旧影響度43(H)から、以下の式で復旧実施の可否を判定する(ステップ1004)。
復旧実施可否(H):G+H−F
Hが「0以上」であれば復旧実施可能、「0未満」であれば復旧実施不可能と判定する。
ステップ1004の判定結果で、復旧実施可能であれば図11のステップ1101(復旧作業)を実施し、復旧実施不可能であればステップ1006を行う(ステップ1005)。
復旧実施時間管理手段14にサーバ種別20、再スケジュールフラグ142「1」を渡し、復旧実施予定時間5を受け取る(ステップ1006)。
機能18により再スケジュールした復旧実施予定時間5を受け取り、復旧実施スケジュール1111の復旧実施予定時間5を更新して、ステップ1008の処理を行う(ステップ1007)。
復旧実施予定時間5となるか、新たな障害を検知するまで待機する(ステップ1008)。
図11は、実際に復旧を行った後のフローを示す図である。
復旧実施手段15に対象サーバ31、復旧方法詳細41を渡して復旧指示を行い、復旧完了の通知を受け取る(ステップ1101)。
ステップ1001において復旧完了の通知を受け取ると、復旧実施スケジュール管理テーブル111を参照して、対象サーバ31、復旧方法詳細41の両方が同一のスケジュール1111が存在するか確認する(ステップ1102)。
ステップ1002の確認結果で存在すればステップ1004の処理を行い、存在しなければステップ1005の処理を行う(ステップ1103)。
該当スケジュール1111を削除し、ステップ1005の処理を行う(ステップ1104)。
復旧実施予定時間5となるか、新たな障害を検知するまで待機する(ステップ1105)。
図12は、復旧実施スケジュール管理テーブル111を説明するための図である。
図12に示すように、復旧実施スケジュール管理テーブル111は、対象サーバ31、障害要因33、障害発生時間32、復旧方法詳細41、障害緊急度42、復旧影響度43、復旧実施予定時間5からなる復旧実施スケジュール1111を含む。
サーバ種別管理DB112は、サーバとサーバ種別の対応表で、必要に応じて、制御処理手段11から参照される。
なお、サーバ種別管理DB112は、本実施形態の場合にのみ必要なDBであり、障害自動復旧装置1の構成には必須なDBというわけではない。
次に、本実施形態の動作の概略について説明する。
障害自動復旧装置1は、障害検出手段12によってサービス提供手段2を常に監視している。
サービス提供手段2は、障害が発生すると、障害自動復旧装置1に障害が発生した旨を障害情報という形で伝える。
障害自動復旧装置1は、障害検出手段12によって障害情報を受け取ると、受け取った障害情報を処理制御手段11に渡す。
処理制御手段11は、受け取った障害情報を復旧方法決定手段13に渡し、復旧方法の問い合わせを行う。
復旧方法決定手段13は、処理制御手段11より障害情報を受け取ると、障害情報をキーにして障害復旧DB131に問い合わせて復旧方法を決定し、処理制御手段11に決定した復旧方法を返す。
障害復旧DB131には、障害情報と復旧方法の対応表が蓄積されている。
復旧方法には、障害の緊急性や復旧措置の影響度を表す情報が含まれており、処理制御手段11は、これらの値に応じて、即時で復旧を行うか否かを判断する。
障害の緊急性が高く即時で復旧が必要である場合や、緊急性は高くなくとも復旧措置の影響が全くない場合は、処理制御手段11は、即座に復旧実施手段15に復旧指示を出す。
復旧実施手段15は、処理制御手段11より指示を受けると復旧方法に従い障害の復旧を行う。
それ以外の場合、すなわち、緊急性は低いが復旧措置がサービスに影響を与えてしまう場合は、適切なタイミングに復旧を実施するようスケジューリングする。
まず、処理制御手段11は、復旧実施時間管理手段14に障害情報を渡して、復旧実施予定時間を問い合わせる。
復旧実施時間管理手段14は、障害情報をキーにして復旧実施可能時間DB141に問い合わせを行い、復旧実施予定時間を決定し、決定した復旧実施予定時間を処理制御手段11に返す。
復旧実施可能時間DB141には、運用ルールとして決められた復旧実施可能時間などの運用要件が蓄積されている。
処理制御手段11は、復旧実施予定時間を受け取ると、復旧実施予定時間、障害情報、復旧方法を復旧実施スケジュール管理テーブル111に登録する。
処理制御手段11は、復旧実施スケジュール管理テーブル111を常に監視しており、テーブルに登録された復旧実施予定時間になると復旧の実施を試みる。
ここで、実際に復旧を行う前に現在のサービス状況を確認し、復旧を実施しても問題ないかを確認する。
まず、処理制御手段11は、サービス要件確認手段16にサービス要件確認の指示とサービス状況確認手段17にサービス状況の指示をそれぞれ出す。
サービス要件確認手段16は指示を受けると、サービス要件DB161に問い合わせを行い、サービス要件を確認し、得られたサービス要件を処理制御手段11に返す。
サービス要件DB161には、サービス提供に最低限必要なサービス提供手段2の稼動状況などのサービス要件が蓄積されている。
サービス状況確認手段17は、指示を受けるとサービス提供手段2のサービス状況を確認し、得られたサービス状況を処理制御手段11に返す。
処理制御手段11は、サービス要件、サービス状況を受け取り、復旧方法を実施した後の状態がサービス要件を満たしているか判定する。
判定の結果、サービス要件を満たしている場合は、復旧実施手段15に復旧指示を出し、指示を受けた復旧実施手段15は復旧方法に従い障害の復旧を行う。
判定の結果、サービス要件を満たさなくなる場合は、再度、復旧実施管理手段14に復旧実施可能時間を問い合わせ、新たな復旧実施予定時間を復旧実施スケジュール管理テーブル111に登録する。
新たに登録した復旧実施予定時間になれば、上記のサービス状況、サービス要件の確認と復旧実施可否の判定を行い、実施可能であれば復旧を実施し、不可能であれば再スケジューリングを行う。
また、障害を検知した時点での緊急度が低かったため、復旧実施予定時間をスケジューリングしたが、その後障害が悪化する場合も考えられる。
この場合、最初に検出した障害の緊急度と新たに検出した障害の緊急度から、緊急度が閾値を超過する時間を予想する。
サービス提供手段2で障害発生すると、上記と同様にして、障害情報から復旧方法を決定し、処理制御手段11は、復旧実施スケジュール管理テーブル111に復旧実施予定時間を登録する。
この時、同じ障害要因の復旧実施予定が既に登録されている場合、障害緊急度の増加率と障害発生時間の比較から、障害の緊急度が即時復旧を必要とするようになる時間を予想する。
予想した時間が復旧実施予定時間より遅い場合は、何もせず待機する。一方、予想した時間が復旧実施予定時間より早い場合は、アラーム通知手段18にアラーム通知の指示を出す。
アラーム通知手段18は、指示を受けると、オペレータ50にこのままでは運用要件を満たす時間になる前に即時復旧可能な時間に障害が発生する旨のアラームを通知する。
次に、本実施形態の動作の一例について、図9乃至11を用いて具体的に説明する。
まず、図9に示されるフローについて説明する。
なお、復旧実施(ステップ1101〜1105)の処理については後で説明する。
(1)障害緊急度が「100」のため、即時復旧が必要な場合
Webサーバ21にてAP出力異常の障害が発生すると、障害自動復旧装置1は、障害情報(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「AP出力異常」、障害状況「出力メッセージ#1」を受け取る(ステップ901)。
復旧方法決定手段13に復旧方法を問い合わせると、図5の1311の障害に該当するので、復旧方法(復旧方法詳細「AP再起動」、障害緊急度「100」、復旧影響度「−1」)を受け取る(ステップ902)。
障害緊急度=「100」であるため(ステップ903)、復旧実施手段15に復旧指示を行い、復旧を実施する(ステップ1101〜1105)。
(2)復旧影響度が「0」のため、即時復旧する場合
Webサーバ21にてログサイズ増加の障害が発生すると、障害自動復旧装置1は、障害情報(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「ログサイズ増加」、障害状況「ログサイズ10MB」を受け取る(ステップ901)。
復旧方法決定手段13に復旧方法を問い合わせると、図5の1315の障害に該当するので、復旧方法(復旧方法詳細「ログ出力先切替」、障害緊急度「50」、復旧影響度「0」)を受け取る(ステップ902)。
復旧影響度=「0」であるため(ステップ903)、復旧実施手段15に復旧指示を行い、復旧実施する(ステップ1101〜1105)。
(3)障害緊急度が「100」ではなく、復旧影響度が「0未満」、かつ、スケジュールが空の場合
Webサーバ21にてメモリ枯渇の障害が発生すると、障害自動復旧装置1は、障害情報(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、障害状況「メモリ残量100MB」を受け取る(ステップ901)。
復旧方法決定手段13に復旧方法を問い合わせると、図5の1313の障害に該当するので、復旧方法(復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」)を受け取る(ステップ902)。
障害緊急度が「100」ではなく、復旧影響度が「0未満」なので(ステップ903)、同じ障害復旧の作業があるか確認する(ステップ904)。
スケジュールは空なので(ステップ905)、復旧実施時間管理手段14 に再スケジュールフラグ「0」として、復旧実施予定時間の問い合わせを行う(ステップ910)。
復旧実施管理手段14は、処理制御手段1より復旧実施予定時間の問い合わせを受けると(ステップ701)、サーバ種別「Webサーバ」をキーにして復旧実施管理DB141に復旧実施可能時間を問い合わせると、実施可能時間「18:00〜21:30」、再スケジュール間隔「1時間」であることが分かる(ステップ702)。
ここで、再スケジュールフラグ「0」であるので(ステップ703)、最も早い時間である「11/28 18:00」を復旧実施予定時間として(ステップ708)、処理制御手段1に「11/28 18:00」を返す(ステップ709)。
処理制御手段11は、復旧実施管理手段14から復旧実施予定時間「11/28 18:00」を受け取ると、復旧実施スケジュール管理テーブル111に復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 18:00」)を登録し(ステップ911)、復旧実施予定時間となるか次の障害を検知するまで待機する(ステップ909)。
(4)障害緊急度が「100」ではなく、復旧影響度が「0未満」、かつ、同じスケジュールが登録されているが、障害緊急度が「100」となる前に復旧実施できる場合
既にWebサーバ21にてメモリ枯渇の障害が発生しており、復旧実施スケジュール管理テーブル111には、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 18:00」)が登録されている。
この時、Webサーバ21にてメモリ枯渇の障害が悪化したため、障害自動復旧装置1は、障害情報(対象サーバ「Webサーバ21」、障害発生時間「11/28 15:00」、障害要因「メモリ枯渇」、障害状況「メモリ残量50MB」を受け取る(ステップ901)。
復旧方法決定手段13に復旧方法を問い合わせると、図5の1314の障害に該当するので、復旧方法(復旧方法詳細「OS再起動」、障害緊急度「95」、復旧影響度「−1」)を受け取る(ステップ902)。
障害緊急度が「100」ではなく、復旧影響度が「0未満」なので(ステップ903)、同じ障害復旧の作業があるか確認する(ステップ904)。
復旧実施スケジュール管理テーブル111を確認すると、既に対象サーバ、障害要因が同じ復旧実施スケジュールが登録されているので(ステップ905)、障害緊急度が100となる時間を予想すると、A1=15:00、B1=95、A2=10:00、B2=90であれば、C=(95−90)/(15:00−10:00)=5/5=1、D=100−95=5、E=15:00+5/1=20:00 なので、予想時間は「11/28 20:00」であることが分かる(ステップ906)。
スケジュールに登録されている復旧実施予定時間は、「11/28 18:00」なので、障害緊急度が「100」となる前に復旧実施可能であることから(ステップ907)、このまま待機する(ステップ909)。
(5)障害緊急度が「100」ではなく、復旧影響度が「0未満」、かつ、同じスケジュールが登録されていて、復旧実施可能時間前に障害緊急度が100となる予想される場合
既にWebサーバ21にてメモリ枯渇の障害が発生しており、復旧実施スケジュール管理テーブル111には、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 18:00」)が登録されている。
この時、Webサーバ21にてメモリ枯渇の障害が悪化したため、障害自動復旧装置1は、障害情報(対象サーバ「Webサーバ21」、障害発生時間「11/28 12:00」、障害要因「メモリ枯渇」、障害状況「メモリ残量50MB」を受け取る(ステップ901)。
復旧方法決定手段13に復旧方法を問い合わせると、図5の1314の障害に該当するので、復旧方法(復旧方法詳細「OS再起動」、障害緊急度「95」、復旧影響度「−1」)を受け取る(ステップ902)。
障害緊急度が「100」ではなく、復旧影響度が「0未満」なので(ステップ903)、同じ障害復旧の作業があるか確認する(ステップ904)。
復旧実施スケジュール管理テーブル111を確認すると、既に対象サーバ、障害要因が同じ復旧実施スケジュールが登録されているので(ステップ905)、障害緊急度が100となる時間を予想すると、A1=12:00、B1=95、A2=10:00、B2=90であれば、C=(95−90)/(12:00−10:00)=5/2=2.5、D=100−95=5、E=12:00+5/2.5=14:00なので、予想時間は「11/28 14:00」であることが分かる(ステップ906)。
スケジュールに登録されている復旧実施予定時間は、「11/28 18:00」なので、復旧実施予定時間「11/28 18:00」前に障害緊急度が「100」となることが予想されるので(ステップ907)、アラーム通知手段18によりオペレータ50にアラーム通知する(ステップ908)。
次に、図10に示されるフローについて説明する。
(6)Webサーバ21〜2Nの全てが稼働中の場合
既にWebサーバ21にてメモリ枯渇の障害が発生しており、復旧実施スケジュール管理テーブル111には、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 18:00」)が登録されている。
「11/28 18:00」になると(ステップ1001)、情報制御手段1は、サービス要件確認手段16にサービス要件指数を問い合わせると、図8の1612に該当するので、サービス要件指数「N−1」を受け取る(ステップ1002)。
同様に、サービス状況確認手段17にサービス状況指数を問い合わせると、Webサーバ21〜2Nは、全て稼働中なのでサービス状況指数「N」を受け取る(ステップ1003)。
復旧実施可否を判定すると、N+(−1)−(N−1)=0となり(ステップ1004)、復旧実施可能と判定できるので(ステップ1005)、復旧実施手段15に復旧指示を行い、復旧実施する(ステップ1101〜1105)。
(7)Webサーバ21〜2(N−1)が稼働中(Webサーバ2Nは停止中)の場合で当日の復旧実施可能時間内に再スケジュールできる場合
既にWebサーバ21にてメモリ枯渇の障害が発生しており、復旧実施スケジュール管理テーブル111には、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 18:00」)が登録されている。
「11/28 18:00」になると(ステップ1001)、情報制御手段1は、サービス要件確認手段16にサービス要件指数を問い合わせると、図8の1612に該当するので、サービス要件指数「N−1」を受け取る(ステップ1002)。
同様に、サービス状況確認手段17にサービス状況指数を問い合わせると、Webサーバ2Nが停止中なのでサービス状況指数「N−1」を受け取る。
復旧実施可否を判定すると、(N−1)+(−1)−(N−1)=−1となり(ステップ1004)、復旧実施不可能と判定できるので(ステップ1005)、復旧実施時間管理手段14に再スケジュールフラグ「1」として復旧実施可能時間の問い合わせを行う(ステップ1006)。
復旧実施管理手段14は、処理制御手段1より復旧実施予定時間の問い合わせを受けると(ステップ701)、サーバ種別「Webサーバ」をキーにして復旧実施管理DB141に復旧実施可能時間を問い合わせると、実施可能時間「18:00〜21:30」、再スケジュール間隔「1時間」であることが分かる(ステップ702)。
ここで、再スケジュールフラグ「1」であるので(ステップ703)、現在時刻「11/28 18:00」に再スケジュール間隔「1時間」をプラスすると、プラスした時間は「11/28 19:00」になる(ステップ704)。
「19:00」は、復旧実施可能時間「18:00〜21:30」に含まれるので(ステップ705)、「11/28 19:00」を復旧実施可能時間として(ステップ706)、処理制御手段1に「11/28 19:00」を返す(ステップ709)。
処理制御手段11は、復旧実施管理手段14から復旧実施予定時間「11/28 19:00」を受け取ると、復旧実施スケジュール管理テーブルを更新して、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 19:00」)とし(ステップ1007)、復旧実施予定時間となるか、次の障害を検知するまで待機する(ステップ1008)。
(8)Webサーバ21〜2(N−1)が稼働中(Webサーバ2Nは停止中)の場合で当日の復旧実施可能時間内に再スケジュールできない場合
既にWebサーバ21にてメモリ枯渇の障害が発生しており、復旧実施スケジュール管理テーブル111には、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/28 21:00」)が登録されている。
「11/28 18:00」になると(ステップ1001)、情報制御手段1は、サービス要件確認手段16にサービス要件指数を問い合わせると、図8の1612に該当するので、サービス要件指数「N−1」を受け取る(ステップ1002)。
同様に、サービス状況確認手段17にサービス状況指数を問い合わせると、Webサーバ2Nが停止中なので、サービス状況指数「N−1」を受け取る。
復旧実施可否を判定すると、(N−1)+(−1)−(N−1)=−1となり(ステップ1004)、復旧実施不可能と判定できるので(ステップ1005)、復旧実施時間管理手段14に再スケジュールフラグ「1」として復旧実施可能時間の問い合わせを行う(ステップ1006)。
復旧実施管理手段14は、処理制御手段1より復旧実施予定時間の問い合わせを受けると(ステップ701)、サーバ種別「Webサーバ」をキーにして復旧実施管理DB141に復旧実施可能時間を問い合わせると、実施可能時間「18:00〜21:30」、再スケジュール間隔「1時間」であることが分かる(ステップ702)。
ここで、再スケジュールフラグ「1」であるので(ステップ703)、現在時刻「11/28 21:00」に再スケジュール間隔「1時間」をプラスすると、プラスした時間は「11/28 22:00」になる(ステップ704)。
「19:00」は、復旧実施可能時間「18:00〜21:30」に含まれないので(ステップ705)、翌日の復旧実施可能時間で最も早い時間「11/29 18:00」を復旧実施可能時間として(ステップ707)、処理制御手段1に「11/29 18:00」を返す(ステップ709)。
処理制御手段11は、復旧実施管理手段14から復旧実施予定時間「11/29 18:00」を受け取ると、復旧実施スケジュール管理テーブルを更新して、復旧実施スケジュール(対象サーバ「Webサーバ21」、障害発生時間「11/28 10:00」、障害要因「メモリ枯渇」、復旧方法詳細「OS再起動」、障害緊急度「90」、復旧影響度「−1」、復旧実施予定時間「11/29 18:00」)とし(ステップ1007)、復旧実施予定時間となるか次の障害を検知するまで待機する(ステップ1008)。
最後に、図11に示されているフローについて説明する。
(9)復旧作業と同じ内容のスケジュールが既に登録されていない場合
処理制御手段1は、復旧実施手段15に復旧指示を行い、復旧完了の通知を受け取ると(ステップ1101)、実施した復旧作業と同じ作業が既に登録されているか確認する(ステップ1102)。
同じ作業内容のスケジュールが存在していないので(ステップ1103)、復旧作業は、完了し、処理制御手段1は、このまま待機する(ステップ1105)。
(10)復旧作業と同じ内容のスケジュールが既に登録されている場合
処理制御手段1は、復旧実施手段15に復旧指示を行い、復旧完了の通知を受け取ると(ステップ1101)、実施した復旧作業と同じ作業が既に登録されているか確認する(ステップ1102)。
同じ作業内容のスケジュールが存在しているので(ステップ1103)、同じ復旧作業のスケジュールを削除して(ステップ1104)、復旧作業を完了し、処理制御手段1は、このまま待機する(ステップ1105)。
同じ作業内容であれば、復旧作業は実施したことになるので、スケジュールから削除することにより、余計な復旧作業を実施しないようにできる。
以上説明したように、本実施形態によれば、障害の緊急度、復旧作業の影響度、システムの運用要件によって自動復旧作業の実施時間をスケジューリングするため、障害の内容に応じて適切なタイミングで自動復旧を行うことができる。
また本実施形態によれば、サービス状況を確認してから自動復旧を行うため、復旧措置自体がもたらすサービス影響を防ぐことができる。
また本実施形態によれば、障害緊急度と発生時間から障害が致命的となる時間を予測し、オペレータ50に通知するため、障害が悪化して適切なタイミングに自動復旧できないが予想される場合でも、障害が致命的となる前にオペレータが対応を検討することができる。
本実施形態に係る障害自動復旧装置1の概略構成を示す図である。 サービス提供手段2の概略構成を示す図である。 障害情報3の構成を示す図である。 復旧方法4を説明するための図である。 障害復旧DB131を説明するための図である。 復旧実施可能時間DB141を説明するための図である。 復旧実施時間管理手段14の動作の一例を示す図である。 サービス要件DB161を説明するための図である。 障害検出してから復旧実施の時間を決定するまでのフローを示す図である。 復旧実施予定時間となってから復旧を行うまでのフローを示す図である。 実際に復旧を行った後のフローを示す図である。 復旧実施スケジュール管理テーブル111を説明するための図である。
符号の説明
1 障害自動復旧装置
11 処理制御手段
111 復旧実施スケジュール管理テーブル
12 障害検出手段
13 復旧方法決定手段
131 障害復旧DB
14 復旧実施時間管理手段
141 復旧実施可能時間DB
15 復旧実施手段
16 サービス要件確認手段
161 サービス要件DB
17 サービス状況確認手段
18 アラーム通知手段

Claims (5)

  1. 障害を自動的に復旧する障害自動復旧装置において、
    前記障害が発生した旨を示す障害情報を外部から受信する障害検出手段と、
    前記障害情報と前記障害を復旧する復旧方法とを対応づけて記憶る障害復旧記憶手段と、
    前記障害情報に基づいて、障害復旧記憶手段内に記憶されている前記復旧方法を決定する復旧方法決定手段と、
    前記決定された前記復旧方法に応じて、即時に前記障害の復旧を実施するか否かを判断する処理制御手段と、
    を備え、
    前記復旧方法には、予め設定された前記障害ごとの緊急度を示す障害緊急度情報と、予め設定された前記障害ごとの復旧の影響度を示す復旧影響度情報とが含まれており、
    前記処理制御手段による判断の結果、前記障害が前記障害緊急度情報により即時の復旧が必要とされている前記緊急度の障害である場合又は前記障害が、前記障害緊急度情報により即時の復旧が必要とされていない前記緊急度の障害ではあるが、前記復旧影響度情報により前記障害の復旧の影響度が全くないとされている前記影響度の障害である合、前記処理制御手段は、前記復旧方法に基づいて即時に前記障害の復旧を実施し、前記障害が前記障害緊急度情報により即時の復旧が必要とされていない前記緊急度の障害ではあり、且つ前記復旧営業度情報により記影響度が存在するとされている障害の場合は、所定のタイミングに前記障害の復旧を実施することを特徴とする障害自動復旧装置。
  2. 請求項1に記載の障害自動復旧装置において、
    運用ルールとして決められた復旧実施可能時間を含む運用要件が記憶されている復旧実施可能時間記憶手段と、
    前記障害情報と、前記復旧実施可能時間記憶手段内の前記復旧実施可能時間と、に基づいて復旧実施予定時間を決定する復旧実施時間管理手段と、
    前記復旧実施時間管理手段により前記復旧実施予定時間が決定された後に、前記復旧実施予定時間、前記障害情報、及び前記復旧方法を復旧実施スケジュール管理テーブルに登録する登録手段と、
    備え、
    前記処理制御手段は、前記復旧実施スケジュール管理テーブルに登録された前記復旧実施予定時間になると前記障害の復旧を実施することを特徴とする障害自動復旧装置。
  3. 請求項2に記載の障害自動復旧装置において、
    サービスの提供に最低限必要な外部の装置の稼動状況を示すサービス要件が記憶されているサービス要件記憶手段と、
    前記サービス要件記憶手段内の前記サービス要件を確認するサービス要件確認手段と、
    前記外部の装置のサービス状況を確認するサービス状況確認手段と、
    を備え、
    前記処理制御手段は、前記サービス要件、及び前記サービス状況に基づいて、前記復旧方法を実施した後の状態が前記サービス要件を満たしているか否かを判定し、
    前記判定の結果、前記サービス要件を満たしている場合は、前記復旧方法に基づいて前記障害の復旧を実施することを特徴とする障害自動復旧装置。
  4. 請求項3に記載の障害自動復旧装置において、
    前記判定の結果、前記サービス要件を満たさなくなる場合、前記復旧実施時間管理手段及び前記登録手段は、再度、新たな復旧実施予定時間を前記復旧実施スケジュール管理テーブルに登録し、前記処理制御手段は、新たに登録した復旧実施予定時間になれば前記サービス状況、及び前記サービス要件の確認と前記障害の復旧を実施することができるか否かの判定を行い、
    更に前記処理制御手段は、
    前記障害の復旧が実施することができると判定された場合には前記障害の復旧を実施し、
    前記障害の復旧が実施することができないと判定された場合には再スケジューリングを行うことを特徴とする障害自動復旧装置。
  5. 請求項4に記載の障害自動復旧装置において、
    当該障害自動復旧装置の使用者にこのままでは前記運用要件を満たす時間になる前に即時復旧可能な時間に障害が発生する旨のアラームを通知するアラーム通知手段を更に備え、
    前記復旧実施スケジュール管理テーブルに前記復旧実施予定時間を登録し、同じ障害要因の復旧実施予定が既に登録されている場合には、前記処理制御手段は、前記障害の緊急度の増加率と前記障害の発生時間との比較により、前記障害の緊急度が即時の復旧を必要とするようになる時間を予想し、当該予想した時間が前記復旧実施予定時間より遅い場合は何もせず待機し、前記予想した時間が前記復旧実施予定時間より早い場合は前記アラーム通知手段にアラーム通知の指示を出すことを特徴とする障害自動復旧装置。
JP2008056212A 2008-03-06 2008-03-06 障害自動復旧装置 Expired - Fee Related JP4893663B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008056212A JP4893663B2 (ja) 2008-03-06 2008-03-06 障害自動復旧装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008056212A JP4893663B2 (ja) 2008-03-06 2008-03-06 障害自動復旧装置

Publications (2)

Publication Number Publication Date
JP2009211618A JP2009211618A (ja) 2009-09-17
JP4893663B2 true JP4893663B2 (ja) 2012-03-07

Family

ID=41184669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008056212A Expired - Fee Related JP4893663B2 (ja) 2008-03-06 2008-03-06 障害自動復旧装置

Country Status (1)

Country Link
JP (1) JP4893663B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5370624B2 (ja) * 2011-09-08 2013-12-18 日本電気株式会社 クラウドサービス復旧時間予測システム、方法およびプログラム
JP2016127485A (ja) 2015-01-06 2016-07-11 富士通株式会社 無線装置
JP7320415B2 (ja) * 2019-09-13 2023-08-03 東芝テック株式会社 処理装置及び起動方法
CN113590370B (zh) * 2021-08-06 2022-06-21 北京百度网讯科技有限公司 一种故障处理方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962626A (ja) * 1995-08-21 1997-03-07 Hitachi Ltd 分散処理システムのオンラインテスト方法
JPH11232222A (ja) * 1998-02-19 1999-08-27 Fujitsu Ltd 保守運用端末装置
JP2003241999A (ja) * 2002-02-14 2003-08-29 Hitachi Ltd 保守管理システム
JP2004280171A (ja) * 2003-03-12 2004-10-07 Fujitsu Ltd 障害情報通知プログラム
JP2006277685A (ja) * 2005-03-30 2006-10-12 Fujitsu Ltd 障害発生通知プログラム、および通知装置。
WO2006117832A1 (ja) * 2005-04-25 2006-11-09 Fujitsu Limited 運用中システムチェック処理装置,方法およびそのプログラム
JP2006344061A (ja) * 2005-06-09 2006-12-21 Hitachi Ltd シナリオ適用支援方法、管理サーバおよび管理プログラム

Also Published As

Publication number Publication date
JP2009211618A (ja) 2009-09-17

Similar Documents

Publication Publication Date Title
US10223193B2 (en) Proactive failure handling in data processing systems
JP5088411B2 (ja) システム運用管理支援プログラム,方法及び装置
JP6387747B2 (ja) 情報処理装置、障害回避方法およびコンピュータプログラム
JP4893663B2 (ja) 障害自動復旧装置
JP5942509B2 (ja) バッチ処理システム
US8468386B2 (en) Detecting and recovering from process failures
JP5250955B2 (ja) データ処理システムのバックアップ制御装置及びシステム
JP2010176303A (ja) バッチ処理システムおよびこれに用いる情報端末装置、バッチ処理のリカバリ方法
JP5155699B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP4796086B2 (ja) クラスタシステム及び同システムにおいてマスタノードを選択する方法
JP2016076072A (ja) 障害通報装置、障害通報方法及び障害通報プログラム
JP2010157008A (ja) 回線障害処理システムおよびプログラム
JP2006277685A (ja) 障害発生通知プログラム、および通知装置。
JP2014021691A (ja) データバックアップ装置、データバックアップ方法、及びそのプログラム
JP4968568B2 (ja) 障害監視方法、障害監視システムおよびプログラム
CN112269693B (zh) 一种节点自协调方法、装置和计算机可读存储介质
JP2000322399A (ja) 保守スケジュール決定方式
JP4768574B2 (ja) 電源制御システム及び方法、電子装置、プログラム
JP2005209029A (ja) アプリケーション管理システム、アプリケーション管理方法およびその管理方法を実行させるためのプログラム
JP4362440B2 (ja) 通報装置及び方法
JP2009098715A (ja) 冗長システム装置並びに冗長システム装置におけるジョブの実行方法及び実行プログラム
JP2007272328A (ja) コンピュータ・システム
WO2011121681A1 (ja) ジョブスケジュールシステム、ジョブスケジュール管理方法及び記録媒体
JP5018140B2 (ja) マルチプロセッサシステム、タスクスケジューリング方法およびタスクスケジューリングプログラム
WO2008015730A1 (fr) Procédé et programme pour éviter un échec d'exécution d'une tâche dans un système de calcul de grille et système de calcul de grille

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111205

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees