JP2011039632A - Apparatus and method for recovering failure, and program - Google Patents
Apparatus and method for recovering failure, and program Download PDFInfo
- Publication number
- JP2011039632A JP2011039632A JP2009184215A JP2009184215A JP2011039632A JP 2011039632 A JP2011039632 A JP 2011039632A JP 2009184215 A JP2009184215 A JP 2009184215A JP 2009184215 A JP2009184215 A JP 2009184215A JP 2011039632 A JP2011039632 A JP 2011039632A
- Authority
- JP
- Japan
- Prior art keywords
- information
- collection
- failure
- time
- recovery
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、コンピュータシステムに障害が発生した場合にその復旧を行うための、障害復旧装置、障害復旧方法、及びプログラムに関する。 The present invention relates to a failure recovery apparatus, a failure recovery method, and a program for performing recovery when a failure occurs in a computer system.
近年、コンピュータシステムに障害が発生した場合において、速やかな復旧を図り、そして、利用者の負担の軽減するため、障害からの復旧を自動的に実行する仕組みが提案されている(例えば、特許文献1及び2参照。)。 In recent years, in the event of a failure in a computer system, a mechanism has been proposed in which recovery from a failure is automatically performed in order to quickly recover and reduce the burden on the user (for example, Patent Documents). 1 and 2).
具体的には、特許文献1は、コンピュータシステムで発生した障害を検知し自動で復旧するような仕組みとして、障害の要因に関する情報を蓄積したデータベースと、復旧方法に関する情報を蓄積したデータベースとを備えたシステム(障害自動復旧システム)を提案している。
Specifically,
特許文献1に開示のシステムでは、対象となるコンピュータシステムで障害が発生すると、障害検出手段によって障害が検出され、検出された障害に対応する復旧方法がデータベースに対して問い合わせされる。そして、適切な復旧方法が特定され、復旧実施手段によって障害復旧が行われる。
In the system disclosed in
但し、特許文献1に開示のシステムは、原則として、発生した障害を検知すると直ちに自動的に復旧処理を実行する。よって、このシステムでは、復旧後に、OSダンプ、メモリ情報、性能情報、及び復旧処理によりローテートされるログの情報、といった障害発生時にしか採取できない情報を採取することは困難である。このため、特許文献1に開示の障害自動復旧システムでは、障害解析に採取できる情報は限られており、復旧後に、真の障害原因を究明できず、障害に対して本格的な対処ができない恐れがある。
However, in principle, the system disclosed in
一方、特許文献2は、障害発生時に必要な情報を採取してから復旧を行うシステムを提案している。特許文献2に開示のシステムでは、対象となるコンピュータシステムで障害が発生すると、原因究明に必要な情報を採取してから、このコンピュータシステムの再起動が行われるようになっている。
On the other hand,
しかしながら、特許文献2に開示のシステムでは、特許文献1に開示のシステムの問題は解消できても、原因究明に必要な情報を採取するために要する時間が考慮されていないため、情報の採取に多大な時間がかかる場合がある。このため、特許文献2に開示のシステムを用いた場合は、コンピュータシステムの停止時間が非常に長くなってしまう可能性がある。
However, in the system disclosed in
本発明の目的は、上記問題を解消し、コンピュータシステムからの、障害発生時にしか採取できない情報の採取を実行しつつ、当該コンピュータシステムの復旧にかかる時間の長期化を抑制し得る、障害復旧装置、障害復旧方法、及びプログラムを提供することにある。 An object of the present invention is to solve the above-mentioned problems and execute a collection of information that can be collected only when a failure occurs from a computer system, while suppressing an increase in the time taken to restore the computer system. And providing a failure recovery method and program.
上記目的を達成するため、本発明における障害復旧装置は、対象となるコンピュータシステムに発生する障害を検知する、障害検出部と、
検知された前記障害に対応する復旧方法を決定する、復旧方法決定部と、
前記障害の解析のために採取が求められる1又は2以上の採取情報、各採取情報の採取に必要となる採取時間、及び各採取情報に付与された優先順位を特定する解析情報を取得する、解析情報取得部と、
前記採取情報の採取に使用可能な時間を特定し、そして、前記解析情報に含まれる前記採取時間に基づいて、前記優先順位の順に、特定した前記使用可能な時間内で採取可能な前記採取情報を決定する、採取情報決定部と、
前記採取情報決定部によって決定された前記採取情報の採取を実行する、情報採取部と、
前記情報採取部による採取の実行後に、前記復旧方法決定部によって決定された前記復旧方法に従って、前記コンピュータシステムを復旧させる、復旧実行部とを備えている、ことを特徴とする。
In order to achieve the above object, the failure recovery apparatus of the present invention detects a failure occurring in a target computer system, and a failure detection unit,
A recovery method determination unit for determining a recovery method corresponding to the detected failure;
Obtaining one or more collection information required to be collected for the analysis of the failure, collection time required for collecting each collection information, and analysis information specifying the priority given to each collection information; An analysis information acquisition unit;
The time that can be used for collecting the collection information is specified, and the collection information that can be collected within the specified usable time in order of priority based on the collection time included in the analysis information. A collection information determination unit for determining
An information collection unit that performs collection of the collection information determined by the collection information determination unit;
A recovery execution unit configured to recover the computer system in accordance with the recovery method determined by the recovery method determination unit after execution of the collection by the information collection unit;
また、上記目的を達成するため、本発明における障害復旧方法は、
(a)対象となるコンピュータシステムに発生する障害を検知する、ステップと、
(b)前記(a)のステップで検知された前記障害に対応する復旧方法を決定する、ステップと、
(c)前記障害の解析のために採取が求められる1又は2以上の採取情報、各採取情報の採取に必要となる採取時間、及び各採取情報に付与された優先順位を特定する解析情報を取得する、ステップと、
(d)前記採取情報の採取に使用可能な時間を特定し、そして、前記解析情報に含まれる前記採取時間に基づいて、前記優先順位の順に、特定した前記使用可能な時間内で採取可能な前記採取情報を決定する、ステップと、
(e)前記(d)のステップによって決定された前記採取情報の採取を実行する、ステップと、
(f)前記(e)のステップによる採取の実行後に、前記(b)のステップによって決定された前記復旧方法に従って、前記コンピュータシステムを復旧させる、ステップとを有する、ことを特徴とする。
In order to achieve the above object, the failure recovery method according to the present invention includes:
(A) detecting a failure occurring in the target computer system; and
(B) determining a recovery method corresponding to the failure detected in the step (a); and
(C) One or two or more pieces of collection information that are required to be collected for analysis of the failure, collection time required for collection of each piece of collection information, and analysis information that identifies the priority given to each piece of collection information Get, step, and
(D) A time that can be used for collecting the collection information is specified, and can be collected within the specified usable time in order of priority based on the collection time included in the analysis information. Determining the collection information; and
(E) performing the collection of the collection information determined by the step of (d); and
(F) After the collection in the step (e) is executed, the computer system is restored in accordance with the restoration method determined in the step (b).
更に、上記目的を達成するため、本発明におけるプログラムは、障害の発生したコンピュータシステムの復旧をコンピュータによって行うためのプログラムであって、
前記コンピュータに、
(a)前記コンピュータシステムに発生する障害を検知する、ステップと、
(b)前記(a)のステップで検知された前記障害に対応する復旧方法を決定する、ステップと、
(c)前記障害の解析のために採取が求められる1又は2以上の採取情報、各採取情報の採取に必要となる採取時間、及び各採取情報に付与された優先順位を特定する解析情報を取得する、ステップと、
(d)前記採取情報の採取に使用可能な時間を特定し、そして、前記解析情報に含まれる前記採取時間に基づいて、前記優先順位の順に、特定した前記使用可能な時間内で採取可能な前記採取情報を決定する、ステップと、
(e)前記(d)のステップによって決定された前記採取情報の採取を実行する、ステップと、
(f)前記(e)のステップによる採取の実行後に、前記(b)のステップによって決定された前記復旧方法に従って、前記コンピュータシステムを復旧させる、ステップとを実行させる、ことを特徴とする。
Furthermore, in order to achieve the above object, a program according to the present invention is a program for recovering a computer system in which a failure has occurred by a computer,
In the computer,
(A) detecting a failure occurring in the computer system; and
(B) determining a recovery method corresponding to the failure detected in the step (a); and
(C) One or two or more pieces of collection information that are required to be collected for analysis of the failure, collection time required for collection of each piece of collection information, and analysis information that identifies the priority given to each piece of collection information Get, step, and
(D) A time that can be used for collecting the collection information is specified, and can be collected within the specified usable time in order of priority based on the collection time included in the analysis information. Determining the collection information; and
(E) performing the collection of the collection information determined by the step of (d); and
(F) After the collection in the step (e) is executed, the computer system is restored according to the restoration method determined in the step (b).
以上の特徴により、本発明における障害復旧装置、障害復旧方法、及びプログラムによれば、コンピュータシステムからの、障害発生時にしか採取できない情報の採取を実行しつつ、当該コンピュータシステムの復旧にかかる時間の長期化を抑制することが可能となる。 With the above features, according to the failure recovery apparatus, the failure recovery method, and the program of the present invention, while collecting information that can only be collected from a computer system when a failure occurs, the time required for recovery of the computer system can be reduced. It becomes possible to suppress the prolongation.
(実施の形態1)
以下、本発明の実施の形態における障害復旧装置、障害復旧方法、及びプログラムについて、図1〜図13を参照しながら説明する。最初に、本実施の形態における障害復旧装置の構成について図1を用いて説明する。図1は、本発明の実施の形態における障害復旧装置の構成を示すブロック図である。
(Embodiment 1)
Hereinafter, a failure recovery apparatus, a failure recovery method, and a program according to an embodiment of the present invention will be described with reference to FIGS. First, the configuration of the failure recovery apparatus according to the present embodiment will be described with reference to FIG. FIG. 1 is a block diagram showing a configuration of a failure recovery apparatus according to an embodiment of the present invention.
図1に示す本実施の形態における障害復旧装置1は、コンピュータシステム20に障害が発生すると、コンピュータシステム20に対して、障害に対応した適切な復旧処理を実行する装置である。図1に示すように、障害復旧装置1は、障害検出部11と、復旧方法決定部12と、解析情報取得部13と、採取情報決定部14と、情報採取部15と、復旧実行部16とを備えている。
The
障害検出部11は、対象となるコンピュータシステム20に発生する障害を検知する。復旧方法決定部12は、検知された障害に対応する復旧方法を決定する。解析情報取得部13は、解析情報を取得する。解析情報は、障害の解析のために採取が求められる1又は2以上の採取情報、各採取情報の採取に必要となる採取時間、及び各採取情報に付与された優先順位を特定する。
The failure detection unit 11 detects a failure that occurs in the
また、採取情報決定部14は、採取情報の採取に使用可能な時間を特定し、そして、解析情報に含まれる採取時間に基づいて、優先順位の順に、特定した使用可能な時間内で採取可能な採取情報を決定する。そして、情報採取部15は、採取情報決定部14によって決定された採取情報の採取を実行する。また、復旧実行部16は、情報採取部15による採取の実行後に、復旧方法決定部12によって決定された復旧方法に従って、コンピュータシステム20を復旧させる。
In addition, the collection
このように、障害復旧装置1では、先ず、発生した障害の解析に必要な情報(採取情報)の中から、採取にかけることが認められている時間、各採取情報の採取時間、及び優先順位を考慮して、実際に採取できる採取情報が選出される。そして、選出された採取情報の採取が行われ、その後、障害の復旧処理が行われる。
As described above, in the
つまり、障害復旧装置1では、限られた時間内で、解析に有用な情報が優先順位の高い順に出来るだけ多く採取され、直ちに復旧処理が実行される。よって、障害復旧装置1によれば、コンピュータシステム20からの、障害発生時にしか採取できない情報の採取を実行しつつ、コンピュータシステム20の復旧にかかる時間の長期化を抑制することが可能となる。
That is, the
ここで、図1に加えて図2〜図5を用いて、障害復旧装置1の構成を更に具体的に説明する。本実施の形態では、図1に示すように、障害復旧装置1は、障害情報データベース111、復旧方法データベース122、解析情報データベース132、及び運用ポリシーデータベース142に接続されている。
Here, the configuration of the
障害検出部11は、本実施の形態では、コンピュータシステム20に発生した障害を検出すると、障害情報データベース111にアクセスし、発生した障害の識別子(障害情報ID)を特定する。
In this embodiment, when detecting a failure that has occurred in the
具体的には、障害情報データベース111は、図2に示す障害情報を格納している。図2は、図1に示す障害情報データベースに登録されている障害情報の一例を示す図である。図2に示すように、障害情報は、障害内容と、障害内容毎に付与された障害情報IDとを含んでいる。なお、図2の例では、障害情報IDとしては、具体的な障害の発生箇所が用いられているが、本実施の形態はこれに限定されるものではない。
Specifically, the
よって、障害検出部11は、検出した障害の内容を特定し、これと図2に示す障害情報とを照らし合わせ、該当する障害情報IDを特定する。また、障害検出部11は、特定した障害情報IDを、復旧方法決定部12と、解析情報取得部13とに送信する。 Therefore, the failure detection unit 11 specifies the content of the detected failure, compares this with the failure information shown in FIG. 2, and specifies the corresponding failure information ID. Further, the failure detection unit 11 transmits the specified failure information ID to the recovery method determination unit 12 and the analysis information acquisition unit 13.
また、本実施の形態では、復旧方法決定部12は、障害検出部11から障害情報IDを受信すると、復旧方法データベース122にアクセスする。そして、復旧方法決定部12は、障害検出部11から受信した障害情報IDをキーとして用いて、復旧方法を決定する。 In the present embodiment, the recovery method determination unit 12 accesses the recovery method database 122 when receiving the failure information ID from the failure detection unit 11. Then, the recovery method determination unit 12 determines a recovery method using the failure information ID received from the failure detection unit 11 as a key.
具体的には、復旧方法データベース122は、図3(a)に示す復旧方法情報を格納している。図3(a)は、図1に示す復旧方法データベースに登録されている復旧方法情報の一例を示す図である。図3(a)に示すように、復旧方法情報は、障害情報ID毎に予め設定された、具体的な復旧処理と、各復旧処理の実行に必要な時間(復旧時間)とを含んでいる。各復旧処理内容及び各復旧時間は、各障害に対応している。 Specifically, the recovery method database 122 stores the recovery method information shown in FIG. FIG. 3A is a diagram illustrating an example of the recovery method information registered in the recovery method database illustrated in FIG. As shown in FIG. 3A, the recovery method information includes a specific recovery process set in advance for each failure information ID and a time (recovery time) necessary for executing each recovery process. . Each restoration processing content and each restoration time correspond to each failure.
従って、復旧方法決定部12は、障害検出部11から障害情報IDを受信すると、これに対応する復旧処理内容及び復旧時間を特定し、これらを復旧方法として決定する。図3(b)は、決定された復旧方法の一例を示す図である。図3(b)の例では、発生した障害の障害情報IDが「メモリ1」である場合の復旧方法が示されている。また、復旧方法決定部12は、決定した復旧方法を特定する情報(決定復旧方法情報)121を、採取情報決定部14と、復旧実行部16とに送信する。
Therefore, when receiving the failure information ID from the failure detection unit 11, the recovery method determination unit 12 specifies the recovery processing content and the recovery time corresponding to the failure information ID, and determines these as recovery methods. FIG. 3B is a diagram illustrating an example of the determined recovery method. The example of FIG. 3B shows a recovery method when the failure information ID of the failure that has occurred is “
また、本実施の形態では、解析情報取得部13は、障害検出部11から障害情報IDを受信すると、解析情報データベース132にアクセスする。そして、解析情報取得部13は、障害検出部11から受信した障害情報IDをキーとして用いて、検出された障害に対応する解析情報を取得する。 In the present embodiment, the analysis information acquisition unit 13 accesses the analysis information database 132 when receiving the failure information ID from the failure detection unit 11. Then, the analysis information acquisition unit 13 acquires analysis information corresponding to the detected failure using the failure information ID received from the failure detection unit 11 as a key.
具体的には、解析情報データベース132は、図4(a)に示す解析情報を格納している。図4(a)は、図1に示す障害情報データベースに登録されている解析情報の一例を示す図である。図4(a)に示すように、解析情報は、障害情報ID毎に予め設定された、1又は2以上の採取情報、各採取情報の採取時間、及び優先順位を含んでいる。なお、優先順位は、対応する障害IDが同一の採取情報間で付与されている。 Specifically, the analysis information database 132 stores the analysis information shown in FIG. FIG. 4A is a diagram showing an example of analysis information registered in the failure information database shown in FIG. As shown in FIG. 4A, the analysis information includes one or more collection information set in advance for each failure information ID, a collection time of each collection information, and a priority order. Note that the priority is given to the collection information having the same failure ID.
従って、解析情報取得部13は、障害検出部11から障害情報IDを受信すると、これに対応する、1又は2以上の採取情報、各採取情報の採取時間、及び優先順位を特定し、これらを、検出された障害に対応する解析情報として取得する。図4(b)は、取得された解析情報の一例を示す図である。図4(b)の例では、発生した障害の障害情報IDが「メモリ1」である場合の解析情報が示されている。また、解析情報取得部13は、取得した解析情報(取得解析情報)を採取情報決定部14に送信する。
Accordingly, when the analysis information acquisition unit 13 receives the failure information ID from the failure detection unit 11, the analysis information acquisition unit 13 identifies one or more collection information corresponding to the failure information ID, the collection time of each collection information, and the priority order. And obtained as analysis information corresponding to the detected failure. FIG. 4B is a diagram illustrating an example of the acquired analysis information. In the example of FIG. 4B, analysis information when the failure information ID of the failure that has occurred is “
採取情報決定部14は、本実施の形態では、先ず、運用ポリシーデータベース142にアクセスする。運用ポリシーデータベースには、復旧処理の運用ポリシーが格納されている。また、運用ポリシーは、復旧処理に使用できる時間、即ち、障害が発生してから復旧が完了するまでに許容可能な時間(復旧許容時間)を規定している。よって、採取情報決定部14は、運用ポリシーデータベース142から、復旧許容時間を特定する。
In the present embodiment, the collection
そして、採取情報決定部14は、復旧許容時間を特定すると、これと、決定復旧方法情報121(図3(b)(参照))に含まれる復旧時間とを対比して、解析用の採取情報の採取に使用可能な時間(解析許容時間)を特定する。続いて、採取情報決定部14は、選択解析情報(図4(b)参照)に含まれている各採取情報の採取時間に基づき、各採取情報の優先順位の順に、解析許容時間内で採取できる採取情報を決定する。
Then, when the recovery
また、採取情報決定部14は、図5に示すように、決定した採取情報を特定するリスト(採取情報リスト)141を作成し、これを情報採取部15に送信する。図5は、図1に示す採取情報決定部が作成した採取情報リストの一例を示す図である。
Further, as shown in FIG. 5, the collection
情報採取部15は、本実施の形態では、採取情報決定部14から採取情報リスト141を受信すると、コンピュータシステム20にアクセスする。そして、情報採取部15は、コンピュータシステム20から、採取情報リスト141(図5参照)に含まれる採取情報を取得する。採取情報の取得が終了すると、情報採取部15は、そのことを復旧実行部16に通知する。
In this embodiment, the information collection unit 15 accesses the
復旧実行部16は、本実施の形態では、情報採取部15からの通知を受けると、復旧方法決定部12から受信した決定復旧方法情報121(図3(b)参照)から、復旧処理を特定し、特定した復旧処理を実行する。 In the present embodiment, when the recovery execution unit 16 receives a notification from the information collection unit 15, the recovery execution unit 16 specifies the recovery process from the determined recovery method information 121 (see FIG. 3B) received from the recovery method determination unit 12. Then, the specified recovery process is executed.
但し、本実施の形態では、採取情報決定部14は、解析許容時間内で採取可能な採取情報が存在しない場合(例えば、復旧許容時間が0(ゼロ)の場合等)は、採取情報の採取を実行しないことを情報採取部14に通知する。この場合、復旧実行部16は、直ちに、コンピュータシステム20の復旧処理を実行する。
However, in this embodiment, the collection
次に、本発明の実施の形態における障害復旧装置1の動作について図6〜図13を用いて説明する。先ず、障害復旧装置1の全体の動作を図6に基づいて説明する。図6は、本発明の実施の形態における障害復旧装置の動作を示すフロー図である。以下の説明においては、適宜図1を参酌する。また、本実施の形態では、障害復旧装置1を動作させることによって、本実施の形態における障害復旧方法が実施される。よって、本実施の形態における障害復旧方法の説明は、以下の障害復旧装置1の説明に代える。
Next, operation | movement of the
図6に示すように、最初に、障害検出部11によって、コンピュータシステム20に発生した障害の検出が行われる(ステップS1)。次に、復旧方法決定部12は、検出された障害に対応する復旧方法を決定する(ステップS2)。続いて、解析情報取得部13は、検出された障害に対応する解析情報を取得する(ステップS3)。 As shown in FIG. 6, first, the failure detection unit 11 detects a failure that has occurred in the computer system 20 (step S1). Next, the recovery method determination unit 12 determines a recovery method corresponding to the detected failure (step S2). Subsequently, the analysis information acquisition unit 13 acquires analysis information corresponding to the detected failure (step S3).
次に、採取情報決定部14によって、採取情報の採取に使用可能な時間(解析許容時間)が特定され、検出された障害の解析に必要な採取情報の中から、解析許容時間内に採取が行われる採取情報が決定される(ステップS4)。
Next, the collection
次に、情報採取部15によって、コンピュータシステム20から、ステップS4で決定された採取情報の採取が行われる(ステップS5)。その後、復旧実行部16によって、ステップS2で決定された復旧方法が実行され、コンピュータシステム20の復旧処理が行われる(ステップS6)。ステップS6の実行により、障害復旧装置1における処理は終了する。
Next, the information collection unit 15 collects the collection information determined in step S4 from the computer system 20 (step S5). Thereafter, the recovery execution unit 16 executes the recovery method determined in step S2, and the
ここで、図6に示したステップS1〜S6それぞれを図7〜図13を用いて更に具体的に説明する。先ず、図7を用いて、図6に示したステップS1(障害検出処理)について説明する。図7は、図6に示す障害検出処理を具体的に示すフロー図である。 Here, steps S1 to S6 shown in FIG. 6 will be described more specifically with reference to FIGS. First, step S1 (failure detection processing) shown in FIG. 6 will be described with reference to FIG. FIG. 7 is a flowchart specifically showing the failure detection process shown in FIG.
図7に示すように、先ず、障害検出部11は、コンピュータシステム20に発生した障害を検出する(ステップA1)。そして、障害検出部11は、障害情報データベース111に問い合わせを行い、検出した障害の障害情報ID(図2参照)を特定する(ステップA2)。例えば、検出された障害が、「メモリ不正アクセス」である場合は、障害検出部11は、障害情報データベース111に格納されている障害情報を参照し、該当する障害情報IDとして、「メモリ1」を特定する。
As shown in FIG. 7, first, the failure detection unit 11 detects a failure that has occurred in the computer system 20 (step A1). Then, the failure detection unit 11 makes an inquiry to the
次に、障害検出部11は、特定した障害情報ID、例えば「メモリ1」を、復旧方法決定部12に送信し(ステップA3)、更に、これを解析情報取得部13にも送信する(ステップA4)。ステップA4の実行により、図6に示したステップS1は終了する。なお、本実施の形態において、ステップA3とステップA4とは同時に実行されても良いし、ステップA4の実行後にステップA3が実行されても良い。
Next, the failure detection unit 11 transmits the specified failure information ID, for example, “
続いて、図8を用いて、図6に示したステップS2(復旧方法決定処理)について説明する。図8は、図6に示す復旧方法決定処理を具体的に示すフロー図である。 Next, step S2 (recovery method determination process) shown in FIG. 6 will be described with reference to FIG. FIG. 8 is a flowchart specifically showing the recovery method determination process shown in FIG.
図8に示すように、先ず、復旧方法決定部12は、障害検出部11から障害情報IDを受信する(ステップB1)。次に、復旧方法決定部12は、復旧方法データベース122に問い合わせを行い、受信した障害情報IDに対応する復旧方法(復旧処理、復旧時間)を決定する(ステップB2)。 As shown in FIG. 8, first, the recovery method determination unit 12 receives a failure information ID from the failure detection unit 11 (step B1). Next, the recovery method determination unit 12 makes an inquiry to the recovery method database 122 and determines a recovery method (recovery process, recovery time) corresponding to the received failure information ID (step B2).
例えば、ステップB1において、復旧方法決定部12が、障害情報IDとして「メモリ1」を受信していたとする。この場合、復旧方法決定部12は、「メモリ1」をキーとし、これを、復旧方法データベース122に格納されている復旧方法情報(図3(a)参照)に照らし合わせる。そして、復旧方法決定部12は、復旧方法情報の中から、「メモリ1」に対応する復旧処理「サーバ再起動」と、同じく「メモリ1」に対応する復旧時間「600」とを特定し、これらを決定復旧方法とする(図3(b)参照)。
For example, in step B1, it is assumed that the recovery method determination unit 12 has received “
次に、復旧方法決定部12は、ステップB2で得られた決定復旧方法を特定する情報(決定復旧方法情報)121を、採取情報決定部14に送信し(ステップB3)、更に、これを復旧実行部16にも送信する(ステップB4)。ステップB4の実行により、図6に示したステップS2は終了する。なお、本実施の形態において、ステップB3とステップB4とは同時に実行されても良いし、ステップB4の実行後にステップA3が実行されても良い。 Next, the recovery method determination unit 12 transmits information (decision recovery method information) 121 for specifying the determination recovery method obtained in step B2 to the collection information determination unit 14 (step B3), and further recovers this. It transmits also to the execution part 16 (step B4). By executing step B4, step S2 shown in FIG. 6 ends. In the present embodiment, step B3 and step B4 may be executed simultaneously, or step A3 may be executed after step B4.
続いて、図9を用いて、図6に示したステップS3(解析情報取得処理)について説明する。図9は、図6に示す解析情報取得処理を具体的に示すフロー図である。 Next, step S3 (analysis information acquisition process) shown in FIG. 6 will be described with reference to FIG. FIG. 9 is a flowchart specifically showing the analysis information acquisition process shown in FIG.
図9に示すように、先ず、解析情報取得部13は、障害検出部11から障害情報IDを受信する(ステップC1)。次に、解析情報取得部13は、解析情報データベース132に問い合わせを行い、受信した障害情報IDに対応する解析情報を取得する(ステップC2)。 As shown in FIG. 9, first, the analysis information acquisition unit 13 receives a failure information ID from the failure detection unit 11 (step C1). Next, the analysis information acquisition unit 13 makes an inquiry to the analysis information database 132 and acquires analysis information corresponding to the received failure information ID (step C2).
例えば、ステップC1において、解析情報取得部13が、障害情報IDとして「メモリ1」を受信していたとする。この場合、解析情報取得部13は、「メモリ1」に対応する採取情報、各採取情報に対応する採取時間及び優先度を特定する。具体的には、解析情報として、メモリダンプ(採取時間:120秒、優先度:1)、メモリ性能情報(採取時間:30秒、優先度:2)、OSダンプ(採取時間600秒、優先度:3)、プロセス起動ログ(採取時間:30秒、優先度:4)が取得される(図4(b)参照)。
For example, in step C1, the analysis information acquisition unit 13 receives “
次に、解析情報取得部13は、ステップC2で取得された解析情報(採取情報、採取時間、優先度)を、採取情報決定部14に送信する(ステップC3)。ステップC3の実行により、図6に示したステップS3は終了する。 Next, the analysis information acquisition unit 13 transmits the analysis information (collection information, collection time, priority) acquired in step C2 to the collection information determination unit 14 (step C3). Execution of step C3 completes step S3 shown in FIG.
続いて、図10を用いて、図6に示したステップS4(採取情報決定処理)について説明する。図10は、図6に示す採取情報決定処理を具体的に示すフロー図である。 Next, step S4 (collection information determination process) shown in FIG. 6 will be described with reference to FIG. FIG. 10 is a flowchart specifically showing the collection information determination process shown in FIG.
図10に示すように、先ず、採取情報決定部14は、復旧方法決定部12から決定復旧方法情報121(図3(b)参照)を受信し(ステップD1)、更に、解析情報取得部13から取得解析情報131(図4(b)参照)を受信する(ステップD2)。
As shown in FIG. 10, first, the collection
次に、採取情報決定部14は、運用ポリシーデータベース142に問い合わせを行い、運用ポリシーに規定されている復旧許容時間を特定する(ステップD3)。次に、採取情報決定部14は、復旧許容時間と、決定復旧方法情報121に含まれる復旧時間とを対比して、解析許容時間を特定する(ステップD4)。
Next, the collection
次に、採取情報決定部14は、ステップD4で特定された解析許容時間と、取得解析情報131に含まれる各採取情報の採取時間及び優先度とに基づいて、解析許容時間内で採取できる採取情報を決定し、採取情報リスト141(図5参照)を作成する(ステップD5)。
Next, the collection
その後、採取情報決定部14は、ステップD5で作成した採取情報リスト141を、情報採取部15に送信する(ステップD6)。ステップD6の実行により、図6に示したステップS4は終了する。
Thereafter, the collection
ここで、ステップD4及びD5について、図11を用いて更に具体的に説明する。図11は、図10に示すステップD4及びD5を更に具体的に示すフロー図である。図11に示すステップE1〜E8のうち、ステップE1がステップD4に相当し、ステップE2〜E8がステップD5に相当する。 Here, steps D4 and D5 will be described more specifically with reference to FIG. FIG. 11 is a flowchart more specifically showing steps D4 and D5 shown in FIG. Of steps E1 to E8 shown in FIG. 11, step E1 corresponds to step D4, and steps E2 to E8 correspond to step D5.
図11に示すように、採取情報決定部14は、解析許容時間を特定する(ステップE1)。具体的には、採取情報決定部14は、下記の数1を用い、運用ポリシーデータベース142に登録されている復旧許容時間から、決定復旧方法情報121に含まれる復旧時間(図3(a)及び(b)参照)を減算して、解析許容時間を算出する。
As illustrated in FIG. 11, the collection
(数1)
解析許容時間=復旧許容時間−復旧時間
(Equation 1)
Allowable analysis time = Allowable recovery time-Restore time
次に、採取情報決定部14は、算出した解析許容時間が0(ゼロ)より大きいかどうかを判定する(ステップE2)。ステップE2の判定の結果、解析許容時間が0(ゼロ)より大きくない場合、即ち、0(ゼロ)以下である場合は、採取情報決定部14は、ステップE8を実行する。ステップE8の内容については後述する。
Next, the collection
一方、ステップE2の判定の結果、解析許容時間が0(ゼロ)より大きい場合は、採取情報決定部14は、取得解析情報131(図4(b)参照)が空であるかどうかを判定する(ステップE3)。具体的には、取得解析情報131として、採取すべき1又は2以上の採取情報と、各採取情報に対応する採取時間及び優先度とで構成されたリストが存在しているかどうかを判定する。
On the other hand, if the analysis allowable time is greater than 0 (zero) as a result of the determination in step E2, the collection
ステップE3の判定の結果、取得解析情報131が空である場合は、即ち、採取すべき採取情報が存在しない場合は、採取情報決定部14は、ステップE8を実行する。一方、ステップE3の判定の結果、取得解析情報131が空でない場合は、採取情報決定部14は、ステップE4を実行する。
If the acquisition analysis information 131 is empty as a result of the determination in step E3, that is, if there is no collection information to be collected, the collection
ステップE4では、採取情報決定部14は、取得解析情報131の中から最も優先度が高い採取情報を選択し、下記の数2を用いて解析残時間を算出する。なお、以下の数2において、「該当採取時間」は、ステップE4で選択された採取情報についての採取時間を意味している(図4(a)及び(b)参照)。また、解析残時間は、一時的な数値であり、図11に示す処理だけで利用される値である。
In step E4, the collection
(数2)
解析残時間=解析許容時間−該当採取時間
(Equation 2)
Analysis remaining time = Analysis allowable time-Applicable sampling time
次に、ステップE4が終了すると、採取情報決定部14は、ステップE4における算出が終了した採取情報を、取得解析情報131中の採取情報のリストから削除する(ステップE5)。そして、採取情報決定部14は、ステップE4で算出した解析残時間が0(ゼロ)より大きいかどうかを判定する(ステップE6)。
Next, when step E4 ends, the collection
ステップE6の判定の結果、解析残時間が0(ゼロ)より大きくない場合は、ステップE4で選択された採取情報は解析許容時間との関係から適切でないため、採取情報決定部14は、再度、ステップE3以降を実行する。 As a result of the determination in step E6, if the remaining analysis time is not greater than 0 (zero), the collection information selected in step E4 is not appropriate because of the relationship with the analysis allowable time. Step E3 and subsequent steps are executed.
一方、ステップE6の判定の結果、解析残時間が0(ゼロ)より大きい場合は、採取情報決定部14は、ステップE4で選択された採取情報を採取情報リスト141に追加し、更に、解析残時間を解析許容時間(解析許容時間=解析残時間)に設定する(ステップE7)。
On the other hand, if the result of determination in step E6 is that the remaining analysis time is greater than 0 (zero), the collection
そして、ステップE7の実行後、採取情報決定部14は、再度ステップE2以降を実施する。ステップE2〜E7が実行されることにより、解析許容時間内で採取が可能な採取情報が優先順位の順に特定される。
And after execution of step E7, the collection
また、ステップE8において、採取情報決定部14は、採取情報リスト141を確定する。確定された採取情報リスト141は、情報採取部15に送信される。
In step E8, the collection
ここで、ステップE1〜E8について、具体例に基づいて説明する。先ず、復旧許容時間が「2000秒」、決定復旧方法情報121が図3(b)の例、取得解析情報131が図4(b)の例である場合について説明する。 Here, steps E1 to E8 will be described based on specific examples. First, a case where the allowable recovery time is “2000 seconds”, the decision recovery method information 121 is an example of FIG. 3B, and the acquisition analysis information 131 is an example of FIG. 4B will be described.
上記の場合、ステップE1において、解析許容時間の値は、復旧許容時間「2000」から復旧時間「600」(図3(b)参照)を減算して得られる値「1400」となる。次に、ステップE2で解析許容時間の値を判定すると、「1400>0」であるので、ステップE3が実行される。 In the above case, in step E1, the value of the analysis allowable time is a value “1400” obtained by subtracting the recovery time “600” (see FIG. 3B) from the recovery allowable time “2000”. Next, when the value of the analysis allowable time is determined in step E2, since “1400> 0”, step E3 is executed.
ステップE3では、採取情報決定部14は、取得解析情報131が「メモリダンプ」、「メモリ性能情報」、「OSダンプ」、及び「プロセス起動ログ」を含むため(図4(b)参照)、「空」でないと判断し、ステップE4を実行する。
In step E3, the collection
ステップE4では、採取情報決定部14は、最も優先度の高い(優先度=「1」)採取情報「メモリダンプ」を選択し、解析残時間を計算する。この場合、復旧許容時間は「1400」、「メモリダンプ」の採取時間は「120」であるので、解析残時間は「1280」となる。
In step E4, the collection
また、解析残時間の算出後、ステップE5では、採取情報決定部14は、取得解析情報131の中の採取情報のリストから「メモリダンプ」の行を削除する。その後、採取情報決定部14は、ステップE6において、解析残時間の値が0(ゼロ)より大きいかどうかを判定する。
After calculating the remaining analysis time, in step E5, the collection
解析残時間は「1280」であり、0(ゼロ)より大きいので、採取情報決定部14は、ステップE7において、採取情報リスト141(図5参照)に「メモリダンプ」を追加し、解析許容時間の値を、解析残時間の値、即ち「1280」に更新する。その後、採取情報決定部14は、更新された解析許容時間を用いて、再度、ステップE2以降を実行する。
Since the remaining analysis time is “1280” and is greater than 0 (zero), the collection
再度のステップE2以降の実行により、図4(b)に示された「メモリ性能情報」が採取情報リスト141に追加され、解析許容時間は「1250」に更新される。更に、「OSダンプ」が採取情報リスト141に追加され、解析許容時間は「650」に更新される。続いて、「プロセス起動ログ」も採取情報リスト141に追加され、最終的に解析許容時間は「620」となる。 By executing again after step E2, the “memory performance information” shown in FIG. 4B is added to the collection information list 141, and the analysis allowable time is updated to “1250”. Furthermore, “OS dump” is added to the collection information list 141, and the analysis allowable time is updated to “650”. Subsequently, the “process activation log” is also added to the collection information list 141, and finally the analysis allowable time becomes “620”.
また、プロセス起動ログの採取情報リスト141の追加により、取得解析情報131は「空」となるので、プロセス起動ログの追加後のステップE3では「Yes」と判断される。よって、ステップE8が実行されて、最終的な採取情報リスト141が確定する。この場合は、採取情報リスト141は、図5の例と異なり、「メモリダンプ」、「メモリ性能情報」、「OSダンプ」、及び「プロセス起動ログ」の全てを含んでいる。このように、運用ポリシーで設定されている復旧許容時間が十分にある場合は、解析に必要な全ての情報の採取が可能となる。 Further, since the acquisition analysis information 131 becomes “empty” due to the addition of the collection information list 141 of the process activation log, “Yes” is determined in step E3 after the addition of the process activation log. Therefore, step E8 is executed and the final collection information list 141 is confirmed. In this case, unlike the example of FIG. 5, the collection information list 141 includes all of “memory dump”, “memory performance information”, “OS dump”, and “process activation log”. As described above, when the recovery allowable time set in the operation policy is sufficient, it is possible to collect all information necessary for the analysis.
次に、復旧許容時間が「1000秒」、決定復旧方法情報121が図3(b)の例、取得解析情報131が図4(b)の例である場合について説明する。この場合では、メモリダンプ及びメモリ性能情報を選択した後、更新された解析許容時間の値は「250」となる。よって、ステップE4において「OSダンプ」を選択すると、「OSダンプ」の採取時間が「600」と長いため、解析残時間は「−350」となる。 Next, a case where the allowable recovery time is “1000 seconds”, the decision recovery method information 121 is an example of FIG. 3B, and the acquisition analysis information 131 is an example of FIG. 4B will be described. In this case, after the memory dump and the memory performance information are selected, the value of the updated analysis allowable time is “250”. Therefore, when “OS dump” is selected in step E4, the collection time of “OS dump” is as long as “600”, so the remaining analysis time is “−350”.
よって、ステップE6では、「−350<0」となって、「No」と判断され、ステップE3に戻ることになる。このため、「OSダンプ」は採取情報リスト141に追加されず、また、解析許容時間の値は更新されずに、「250」のままとなる。 Therefore, in step E6, “−350 <0” is established, “No” is determined, and the process returns to step E3. Therefore, the “OS dump” is not added to the collection information list 141, and the value of the analysis allowable time is not updated and remains “250”.
一方、優先順位がOSダンプの次に設定されている「プロセス起動ログ」の採取時間は「30」と短いため、ステップE4における解析残時間は「220」となる。よって、採取情報決定部14は、「プロセス起動ログ」を採取情報リスト141に追加する。本例では、最終的に、ステップE8において、採取情報リスト141は、「メモリダンプ」、「メモリ性能情報」、及び「プロセス起動ログ」のみを含むこととなる。
On the other hand, since the collection time of the “process activation log” whose priority is set next to the OS dump is as short as “30”, the analysis remaining time in step E4 is “220”. Therefore, the collection
このように、運用ポリシーで設定されている復旧許容時間が足りない場合は、復旧許容時間以上にシステムが停止されないようにするため、障害復旧装置1は、優先度が高い情報から順に、可能な限り多くの情報の採取が行われる。
As described above, when the allowable recovery time set in the operation policy is insufficient, the
次に、復旧許容時間が「0秒」、決定復旧方法情報121が図3(b)の例、取得解析情報131が図4(b)の例である場合について説明する。この場合では、ステップE1の実行により、解析許容時間は、復旧許容時間「0」から復旧時間「600」を引いた値、「−600」となる。 Next, the case where the allowable recovery time is “0 second”, the decision recovery method information 121 is an example of FIG. 3B, and the acquisition analysis information 131 is an example of FIG. 4B will be described. In this case, by the execution of step E1, the analysis allowable time becomes “−600”, which is a value obtained by subtracting the recovery time “600” from the recovery allowable time “0”.
よって、ステップE2では、「No」と判断されるので、その後、ステップE8が実行される。この場合、採取情報リスト141には採取情報は追加されておらず、採取情報リスト141は「空」の状態である。 Therefore, since it is determined as “No” in Step E2, Step E8 is executed thereafter. In this case, collection information is not added to the collection information list 141, and the collection information list 141 is in an “empty” state.
この結果、後処理において、情報採取部15は何ら情報の採取を実施せず、直ちに、復旧実行部16が復旧処理を実施することになる。このように、運用ポリシーで設定されている復旧許容時間が存在しない場合は、障害復旧装置1は、情報の採取よりも復旧を優先し、直ちに復旧を実施する。
As a result, in the post-processing, the information collection unit 15 does not collect any information, and the recovery execution unit 16 immediately performs the recovery process. As described above, when there is no allowable recovery time set in the operation policy, the
続いて、図12を用いて、図6に示したステップS5(採取処理)について説明する。図12は、図6に示す情報採取処理を具体的に示すフロー図である。 Next, step S5 (collection process) shown in FIG. 6 will be described with reference to FIG. FIG. 12 is a flowchart specifically showing the information collection process shown in FIG.
図12に示すように、先ず、情報採取部15は、採取情報決定部14から採取情報リスト141(図5参照)を受信する(ステップE1)。次に、情報採取部15は、採取情報リスト141に含まれる採取情報の採取を実施する(ステップE2)。例えば、採取情報リスト141が、図5に示すリストである場合は、情報採取部15は、コンピュータシステム20(図1参照)から、メモリダンプとメモリ性能情報とを採取する。その後、情報採取部15は、復旧実行部16に復旧の指示を行う(ステップE3)。 As shown in FIG. 12, first, the information collection unit 15 receives the collection information list 141 (see FIG. 5) from the collection information determination unit 14 (step E1). Next, the information collection unit 15 collects collection information included in the collection information list 141 (step E2). For example, when the collection information list 141 is the list shown in FIG. 5, the information collection unit 15 collects a memory dump and memory performance information from the computer system 20 (see FIG. 1). Thereafter, the information collection unit 15 instructs the recovery execution unit 16 to recover (step E3).
続いて、図13を用いて、図6に示したステップS5(復旧処理)について説明する。図13は、図6に示す復旧処理を具体的に示すフロー図である。 Next, step S5 (recovery processing) shown in FIG. 6 will be described with reference to FIG. FIG. 13 is a flowchart specifically showing the recovery process shown in FIG.
図13に示すように、先ず、復旧実行部16は、復旧方法決定部12から決定復旧方法情報121を受信し(ステップG1)、更に、情報採取部15から復旧を実行する旨の指示(復旧指示)を受け取る(ステップG2)。なお、ステップG1及びG2の順序は入れ替わっても良いし、両者は同時に実行されても良い。 As shown in FIG. 13, first, the recovery executing unit 16 receives the determined recovery method information 121 from the recovery method determining unit 12 (step G1), and further instructs the recovery (execution of recovery) from the information collecting unit 15 (Instruction) is received (step G2). Note that the order of steps G1 and G2 may be interchanged, or both may be executed simultaneously.
その後、復旧実行部16は、ステップG1で受け取った決定復旧方法情報121で規定されている復旧処理(図3(a)及び(b)参照)を実行する(ステップG3)。このように、本実施の形態では、採取情報の採取が終了した後に、復旧処理が実施される。なお、解析許容時間内に採取時間が収まる採取情報が存在しない場合は、復旧実行部16は、採取情報の採取を待つことなく、ステップG1〜G3を実行する。 Thereafter, the recovery execution unit 16 executes the recovery process (see FIGS. 3A and 3B) defined in the decision recovery method information 121 received in step G1 (step G3). As described above, in the present embodiment, the recovery process is performed after the collection of the collection information is completed. In addition, when there is no collection information within which the collection time is within the analysis allowable time, the recovery execution unit 16 executes Steps G1 to G3 without waiting for collection of the collection information.
以上のように、本実施の形態によれば、予め設定されている復旧許容時間の範囲内で、障害発生時にしか採取できない情報をできる限り多く採取することができる。また、採取される情報は、解析に有用かどうか等の点から予め設定された優先度に基づいて選択されており、解析に有効な情報である。また、本実施の形態によれば、システム停止時間を許容以上に延ばすこともなく、障害を自動的に復旧することもできる。 As described above, according to the present embodiment, it is possible to collect as much information as can be collected only when a failure occurs within a preset recovery allowable time range. The collected information is selected based on a preset priority from the viewpoint of whether it is useful for analysis or the like, and is information effective for analysis. Further, according to the present embodiment, it is possible to automatically recover from a failure without extending the system stop time more than allowable.
また、本発明の実施の形態におけるプログラムは、コンピュータに、図6に示すステップS1〜S6を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における障害復旧装置1と障害復旧方法とを実現することができる。この場合、コンピュータのCPU(Central Processing
Unit)は、障害検出部11、復旧方法決定部12、解析情報取得部13、採取情報決定部14、情報採取部15及び復旧実行部16として機能し、処理を行なう。
The program in the embodiment of the present invention may be a program that causes a computer to execute steps S1 to S6 shown in FIG. By installing and executing this program on a computer, the
Unit) functions as a failure detection unit 11, a recovery method determination unit 12, an analysis information acquisition unit 13, a collection
また、本実施の形態では、障害情報データベース111、復旧方法データベース122、解析情報データベース132、及び運用ポリシーデータベース142は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現できる。なお、記憶装置は、ネットワークを介してコンピュータに接続されていても良い。
In the present embodiment, the
なお、本実施の形態では、このプログラムがインストールされるコンピュータは、対象となるコンピュータシステム20(図1参照)を構成するコンピュータであっても良い。この場合は、障害復旧装置1は、コンピュータシステム20の内部に構築されている。
In the present embodiment, the computer on which this program is installed may be a computer constituting the target computer system 20 (see FIG. 1). In this case, the
以上のように、本発明によれば、対象システムからの、障害発生時にしか採取できない情報の採取を実行しつつ、対象システムの復旧にかかる時間の長期化を抑制することができる。よって、本発明は、コンピュータシステムにおける障害の復旧に有用である。 As described above, according to the present invention, it is possible to suppress the lengthening of the time required for recovery of the target system while collecting information from the target system that can be collected only when a failure occurs. Therefore, the present invention is useful for recovery from a failure in a computer system.
1 障害復旧装置
11 障害傑出部
12 復旧方法決定部
13 解析情報取得部
14 採取情報決定部
15 情報採取部
16 復旧実行部
20 コンピュータシステム
111 障害情報データベース
121 決定復旧方法情報
122 復旧方法データベース
131 取得解析情報
132 解析情報データベース
141 採取情報リスト
142 運用ポリシーデータベース
DESCRIPTION OF
Claims (12)
検知された前記障害に対応する復旧方法を決定する、復旧方法決定部と、
前記障害の解析のために採取が求められる1又は2以上の採取情報、各採取情報の採取に必要となる採取時間、及び各採取情報に付与された優先順位を特定する解析情報を取得する、解析情報取得部と、
前記採取情報の採取に使用可能な時間を特定し、そして、前記解析情報に含まれる前記採取時間に基づいて、前記優先順位の順に、特定した前記使用可能な時間内で採取可能な前記採取情報を決定する、採取情報決定部と、
前記採取情報決定部によって決定された前記採取情報の採取を実行する、情報採取部と、
前記情報採取部による採取の実行後に、前記復旧方法決定部によって決定された前記復旧方法に従って、前記コンピュータシステムを復旧させる、復旧実行部とを備えている、ことを特徴とする障害復旧装置。 A failure detection unit for detecting a failure that occurs in the target computer system;
A recovery method determination unit for determining a recovery method corresponding to the detected failure;
Obtaining one or more collection information required to be collected for the analysis of the failure, collection time required for collecting each collection information, and analysis information specifying the priority given to each collection information; An analysis information acquisition unit;
The time that can be used for collecting the collection information is specified, and the collection information that can be collected within the specified usable time in order of priority based on the collection time included in the analysis information. A collection information determination unit for determining
An information collection unit that performs collection of the collection information determined by the collection information determination unit;
A failure recovery apparatus comprising: a recovery execution unit that recovers the computer system in accordance with the recovery method determined by the recovery method determination unit after execution of the collection by the information collection unit.
前記採取情報決定部が、前記復旧処理に使用できる時間と、決定された前記復旧方法の実施に必要な時間とから、前記採取情報の採取に使用可能な時間を特定する、請求項1に記載の障害復旧装置。 The time that can be used for recovery processing is set in advance,
The said collection information determination part specifies the time which can be used for collection of the said collection information from the time which can be used for the said recovery process, and the time required for implementation of the determined said recovery method. Disaster recovery equipment.
前記復旧方法決定部が、予め設定されている前記復旧方法の中から、検知された前記障害に対応する復旧方法を決定する、請求項1または2に記載の障害復旧装置。 The recovery method is preset for each possible failure, together with the time required to implement the recovery method,
The failure recovery apparatus according to claim 1 or 2, wherein the recovery method determination unit determines a recovery method corresponding to the detected failure from among the recovery methods set in advance.
(b)前記(a)のステップで検知された前記障害に対応する復旧方法を決定する、ステップと、
(c)前記障害の解析のために採取が求められる1又は2以上の採取情報、各採取情報の採取に必要となる採取時間、及び各採取情報に付与された優先順位を特定する解析情報を取得する、ステップと、
(d)前記採取情報の採取に使用可能な時間を特定し、そして、前記解析情報に含まれる前記採取時間に基づいて、前記優先順位の順に、特定した前記使用可能な時間内で採取可能な前記採取情報を決定する、ステップと、
(e)前記(d)のステップによって決定された前記採取情報の採取を実行する、ステップと、
(f)前記(e)のステップによる採取の実行後に、前記(b)のステップによって決定された前記復旧方法に従って、前記コンピュータシステムを復旧させる、ステップとを有する、ことを特徴とする障害復旧方法。 (A) detecting a failure occurring in the target computer system; and
(B) determining a recovery method corresponding to the failure detected in the step (a); and
(C) One or two or more pieces of collection information that are required to be collected for analysis of the failure, collection time required for collection of each piece of collection information, and analysis information that identifies the priority given to each piece of collection information Get, step, and
(D) A time that can be used for collecting the collection information is specified, and can be collected within the specified usable time in order of priority based on the collection time included in the analysis information. Determining the collection information; and
(E) performing the collection of the collection information determined by the step of (d); and
(F) After executing the collection in the step (e), the step of restoring the computer system according to the restoration method determined in the step (b) is provided. .
前記(d)のステップにおいて、前記復旧処理に使用できる時間と、決定された前記復旧方法の実施に必要な時間とから、前記採取情報の採取に使用可能な時間を特定する、請求項5に記載の障害復旧方法。 The time that can be used for recovery processing is set in advance,
In the step (d), the time that can be used for collecting the collection information is identified from the time that can be used for the restoration process and the time that is necessary for the execution of the restoration method that has been determined. The described failure recovery method.
前記(b)のステップにおいて、予め設定されている前記復旧方法の中から、検知された前記障害に対応する復旧方法を決定する、請求項5または6に記載の障害復旧方法。 The recovery method is preset for each possible failure, together with the time required to implement the recovery method,
The failure recovery method according to claim 5 or 6, wherein in the step (b), a recovery method corresponding to the detected failure is determined from the recovery methods set in advance.
前記コンピュータに、
(a)前記コンピュータシステムに発生する障害を検知する、ステップと、
(b)前記(a)のステップで検知された前記障害に対応する復旧方法を決定する、ステップと、
(c)前記障害の解析のために採取が求められる1又は2以上の採取情報、各採取情報の採取に必要となる採取時間、及び各採取情報に付与された優先順位を特定する解析情報を取得する、ステップと、
(d)前記採取情報の採取に使用可能な時間を特定し、そして、前記解析情報に含まれる前記採取時間に基づいて、前記優先順位の順に、特定した前記使用可能な時間内で採取可能な前記採取情報を決定する、ステップと、
(e)前記(d)のステップによって決定された前記採取情報の採取を実行する、ステップと、
(f)前記(e)のステップによる採取の実行後に、前記(b)のステップによって決定された前記復旧方法に従って、前記コンピュータシステムを復旧させる、ステップとを実行させる、ことを特徴とするプログラム。 A program for recovering a failed computer system by a computer,
In the computer,
(A) detecting a failure occurring in the computer system; and
(B) determining a recovery method corresponding to the failure detected in the step (a); and
(C) One or two or more pieces of collection information that are required to be collected for analysis of the failure, collection time required for collection of each piece of collection information, and analysis information that identifies the priority given to each piece of collection information Get, step, and
(D) A time that can be used for collecting the collection information is specified, and can be collected within the specified usable time in order of priority based on the collection time included in the analysis information. Determining the collection information; and
(E) performing the collection of the collection information determined by the step of (d); and
(F) After executing the collection in the step (e), the program is executed to restore the computer system according to the restoration method determined in the step (b).
前記(d)のステップにおいて、前記復旧処理に使用できる時間と、決定された前記復旧方法の実施に必要な時間とから、前記採取情報の採取に使用可能な時間を特定する、請求項9に記載のプログラム。 The time that can be used for recovery processing is set in advance,
In the step (d), the time that can be used for collecting the collection information is identified from the time that can be used for the restoration process and the time that is necessary for the execution of the restoration method that has been determined. The listed program.
前記(b)のステップにおいて、予め設定されている前記復旧方法の中から、検知された前記障害に対応する復旧方法を決定する、請求項9または10に記載のプログラム。 The recovery method is preset for each possible failure, together with the time required to implement the recovery method,
The program according to claim 9 or 10, wherein in the step (b), a recovery method corresponding to the detected failure is determined from the recovery methods set in advance.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009184215A JP5459472B2 (en) | 2009-08-07 | 2009-08-07 | Failure recovery apparatus, failure recovery method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009184215A JP5459472B2 (en) | 2009-08-07 | 2009-08-07 | Failure recovery apparatus, failure recovery method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011039632A true JP2011039632A (en) | 2011-02-24 |
JP5459472B2 JP5459472B2 (en) | 2014-04-02 |
Family
ID=43767358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009184215A Expired - Fee Related JP5459472B2 (en) | 2009-08-07 | 2009-08-07 | Failure recovery apparatus, failure recovery method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5459472B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012181699A (en) * | 2011-03-01 | 2012-09-20 | Nec Corp | System for collecting failure investigation information material, administrative server, method for collecting failure investigation information material, and program therefor |
WO2012127588A1 (en) * | 2011-03-18 | 2012-09-27 | 富士通株式会社 | Incident response support program, incident response support device and incident response support method |
JP2015082279A (en) * | 2013-10-24 | 2015-04-27 | 富士通株式会社 | Information processing device, information collection method, and information collection program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000267899A (en) * | 1999-03-16 | 2000-09-29 | Hitachi Ltd | Information processor |
JP2008210148A (en) * | 2007-02-26 | 2008-09-11 | Hitachi Information Systems Ltd | Failure handling system and failure handling method |
-
2009
- 2009-08-07 JP JP2009184215A patent/JP5459472B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000267899A (en) * | 1999-03-16 | 2000-09-29 | Hitachi Ltd | Information processor |
JP2008210148A (en) * | 2007-02-26 | 2008-09-11 | Hitachi Information Systems Ltd | Failure handling system and failure handling method |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012181699A (en) * | 2011-03-01 | 2012-09-20 | Nec Corp | System for collecting failure investigation information material, administrative server, method for collecting failure investigation information material, and program therefor |
WO2012127588A1 (en) * | 2011-03-18 | 2012-09-27 | 富士通株式会社 | Incident response support program, incident response support device and incident response support method |
US20140019795A1 (en) * | 2011-03-18 | 2014-01-16 | Fujitsu Limited | Computer product, countermeasure support apparatus, and countermeasure support method |
JP5708789B2 (en) * | 2011-03-18 | 2015-04-30 | 富士通株式会社 | Handling support program, handling support apparatus, and handling support method |
JP2015082279A (en) * | 2013-10-24 | 2015-04-27 | 富士通株式会社 | Information processing device, information collection method, and information collection program |
US9710319B2 (en) | 2013-10-24 | 2017-07-18 | Fujitsu Limited | Information processing apparatus and information collection method |
Also Published As
Publication number | Publication date |
---|---|
JP5459472B2 (en) | 2014-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6048038B2 (en) | Information processing apparatus, program, and information processing method | |
CN102810073B (en) | Background real-time monitoring processing method for data | |
JP2006178934A (en) | Method and system for self-healing device | |
JP2005346331A (en) | Failure recovery apparatus, method for restoring fault, manager apparatus, and program | |
EP3226153B1 (en) | Impact analysis-based task redoing method, impact analysis calculation apparatus and one-click reset apparatus | |
CN112463437B (en) | Service recovery method, system and related components of storage cluster system offline node | |
JP5459472B2 (en) | Failure recovery apparatus, failure recovery method, and program | |
SG181959A1 (en) | System event logging system | |
CN106681863A (en) | Method for storing edited contents of electronic medical records and terminal equipment | |
KR20180045818A (en) | Program, system, and information processing method | |
JP2006318368A (en) | Data collection apparatus and program | |
JP2008033778A (en) | Computer system, database restoration method, and database restoration program | |
JP6269199B2 (en) | Management server, failure recovery method, and computer program | |
CN106815098A (en) | Setting backup and the method and system for recovering based on linux system | |
JP2009217580A (en) | Backup program | |
JP2005258686A (en) | Fault analyzing system and program | |
JP6497268B2 (en) | Management program, management apparatus and management method | |
JP2007025820A (en) | Risk diagnostic program for software | |
JP6504611B2 (en) | Monitoring device, information monitoring system, control method of monitoring device, and program | |
JP5365273B2 (en) | Information processing system, monitoring method, and monitoring program | |
CN107678878A (en) | A kind of processing method and processing device of abnormal process | |
KR102128047B1 (en) | Apparatus and method for generating process activity profile | |
JP6543990B2 (en) | Information processing device | |
JP5605370B2 (en) | System model management support system, system model management support method and program | |
JP6167625B2 (en) | Packet recording device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120705 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131002 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131114 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131231 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |