JP2006244404A - Trouble recovering system and its device, rule making method and trouble recovering program - Google Patents
Trouble recovering system and its device, rule making method and trouble recovering program Download PDFInfo
- Publication number
- JP2006244404A JP2006244404A JP2005062817A JP2005062817A JP2006244404A JP 2006244404 A JP2006244404 A JP 2006244404A JP 2005062817 A JP2005062817 A JP 2005062817A JP 2005062817 A JP2005062817 A JP 2005062817A JP 2006244404 A JP2006244404 A JP 2006244404A
- Authority
- JP
- Japan
- Prior art keywords
- rule
- user
- command
- conditional expression
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Test And Diagnosis Of Digital Computers (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、WEBサービスや業務サービスといった情報通信サービスを提供する情報処理装置等に障害が発生した場合に、その情報処理装置等を障害から復旧させるための障害復旧システム、障害復旧装置、およびその障害復旧システムに適用されるルール作成方法、障害復旧プログラムに関する。 The present invention relates to a failure recovery system, a failure recovery device for recovering an information processing device from a failure when a failure occurs in an information processing device that provides an information communication service such as a WEB service or a business service, and the The present invention relates to a rule creation method and a disaster recovery program applied to a disaster recovery system.
WEBサービスのような情報通信サービスの社会インフラストラクチャとしての重要性が高まるにつれて、そのサービスを提供する装置の安定稼動が重要となっている。従来、このような装置の運用管理は、管理者が手作業で行っていたが、装置が大規模化、複雑化するにつれて、知識および操作の面で管理者の負担が飛躍的に増大した。その結果、管理者の判断ミスや操作ミスによるサービス停止といった問題も発生している。 As the importance of an information communication service such as a WEB service as a social infrastructure increases, stable operation of a device that provides the service becomes important. Conventionally, the operation management of such an apparatus has been manually performed by an administrator. However, as the apparatus becomes larger and more complicated, the burden on the administrator is greatly increased in terms of knowledge and operation. As a result, problems such as a service stop due to an administrator's judgment error or an operation error have also occurred.
このようなミスの防止策として、障害の対処を自動化する技術が紹介されている(例えば、非特許文献1)。非特許文献1には、障害状態を検出し、自動的に障害に対する対処を行うという処理経過が記載されている。また、if−then形式の障害対処ルール群に従って、対処を決定することが記載されている。すなわち、障害状態を検出した場合、if−then形式の障害対処ルール群に従って、障害状態に応じた対処を決定し、その対処を実行することになる。また、システムが対処を実行する際に、管理者との対話を行いつつ対処を実行することも記載されている。非特許文献1に記載の技術によれば、障害発生時に、障害復旧システムが、その障害発生状態を条件として定めた障害対処ルールに基づいて対処手順を自動的に決定し、その手順を実行するので、障害発生時に迅速かつ確実に対処を行うことが可能となり、管理者によるミスを防止することが可能である。
As a measure for preventing such a mistake, a technique for automating the handling of a failure has been introduced (for example, Non-Patent Document 1).
非特許文献1に記載された技術によって障害復旧システムが適切な障害対処を行うためには、各障害対処ルールが矛盾なく正確に記述されている必要がある。しかし、管理者にとっては、矛盾なく正確に各障害対処ルールを記載することは大きな負担である。ここで、「矛盾」とは複数の障害対処ルールが同時に成立してしまう状態を意味する。
In order for the failure recovery system to appropriately handle a failure using the technique described in
以下に、管理者にかかる負担を具体的に説明する。図22は、管理者が障害対処ルールを追加する状況を示す説明図である。図22(a)に示すような障害対処ルールが、障害を復旧させるための障害復旧システムに元々記憶されていたとする。障害対処ルールは、障害が発生したと判定するための条件式と、その条件式を満足する状態を検出したときに、復旧させるべき装置(以下、復旧対象装置と記す。例えば、情報通信サービス提供装置等。)に対して実行する復旧処理コマンドの情報とを含む。条件式としては、障害が発生したとみなされる復旧対象装置の動作状態または障害発生の前兆とみなされる復旧対象装置の動作状態が記述される。復旧処理コマンドは、条件式が満たされる状態となったときに、障害からの復旧または障害の回避のための処理を制御するコマンドである。条件式を複数の状態のAND(論理積)によって表してもよい。以下の説明では、条件式に記載される“&”記号は、論理積を意味するものとする。すなわち、図22(a)に示す障害対処ルールでは、状態Aおよび状態Bが共に真ならば(換言すると、状態Aおよび状態Bが共に検出されているならば)、対処手順Aという復旧処理コマンドを実行することを表している。 Below, the burden placed on the administrator will be specifically described. FIG. 22 is an explanatory diagram illustrating a situation in which the administrator adds a failure handling rule. Assume that a failure handling rule as shown in FIG. 22A is originally stored in a failure recovery system for recovering from a failure. The failure handling rule describes a conditional expression for determining that a failure has occurred and a device to be restored when a state satisfying the conditional expression is detected (hereinafter referred to as a recovery target device. For example, provision of information communication service Information of a recovery process command to be executed for a device, etc.). As the conditional expression, the operation state of the recovery target apparatus that is considered to have failed or the operation state of the recovery target apparatus that is regarded as a precursor of the failure occurrence is described. The recovery processing command is a command for controlling processing for recovery from a failure or avoidance of a failure when a conditional expression is satisfied. The conditional expression may be expressed by AND (logical product) of a plurality of states. In the following description, the “&” symbol written in the conditional expression means a logical product. That is, in the failure handling rule shown in FIG. 22A, if both the state A and the state B are true (in other words, if both the state A and the state B are detected), a recovery process command called the handling procedure A Represents executing.
状態Aおよび状態Bが真であり(検出されており)、さらに特別な状態(ここでは状態Cとする。)も真であるときには、対処手順Aとは異なる対処手順Bを実行させることを意図して、管理者が、図22(b)に示す2番目の障害対処ルールを追加したとする。ここで、管理者は、状態Aおよび状態Bは真であるが、状態Cが生じていない場合には、対処手順Aを実行し、状態A,B,Cがいずれも真であるときには対処手順Bを実行することを意図している。ところが、図22(b)に示す2番目の障害対処ルールを追加した場合、障害復旧システムは、状態Aおよび状態Bを検出したときには、状態Cが発生しているか否かによらず対処手順Aを実行してしまうことになる。障害対処ルールを追加するときには、このような意図に反する対処手順が実行されてしまう場合があるということまで、管理者はなかなか気付きにくい。例えば、障害復旧システムが、状態Aおよび状態Bを検出したときに、対処手順Aを実行することの確認を管理者に求めたときに、状態Cが発生しているか否かの判定が完了していないことに管理者が気付き、そのときに初めて、元々存在していた障害対処ルール(図22(a)に示すルール)も変更しなければならないということに気付く。 When state A and state B are true (detected) and a special state (here, state C) is also true, the intention is to execute a coping procedure B different from coping procedure A Then, it is assumed that the administrator has added the second failure handling rule shown in FIG. Here, when the state A and the state B are true, but the state C has not occurred, the administrator executes the coping procedure A, and when all of the states A, B, and C are true, the coping procedure Intended to execute B. However, when the second failure handling rule shown in FIG. 22B is added, the failure recovery system detects the status A and the status B, regardless of whether the status C has occurred or not. Will be executed. When adding a failure handling rule, it is difficult for the administrator to notice that there may be a case where a handling procedure contrary to the intention is executed. For example, when the failure recovery system detects the state A and the state B, when the administrator is asked to confirm that the coping procedure A is executed, the determination as to whether or not the state C has occurred is completed. The administrator notices that the failure has not been made, and for the first time, the administrator recognizes that the failure handling rule that originally existed (the rule shown in FIG. 22A) must also be changed.
そして、元々存在していた障害対処ルールの変更の必要性に気付いた管理者は、その障害対処ルールを図23に示す1行目の障害対処ルールに変更する。図23に示す“NOT”は、「・・・でないこと」を意味し、「NOT状態C」は、状態Cではないことを意味する。この結果、障害復旧システムは、管理者の意図に従い、状態Aおよび状態Bは真であるが、状態Cが生じていない場合には、対処手順Aを実行し、状態A,B,Cがいずれも真であるときには対処手順Bを実行することになる。このように、管理者は、自身の意図を反映させるために、障害対処ルール追加時に既存の障害対処ルールを確認し、矛盾がなくなるように既存の障害対処ルールに対する変更も行わなければならず、管理者にとっての負担が大きい。また、管理者が、既存の障害対処ルールに対する変更の必要性に気付かなかった場合、複数の障害対処ルールの条件式がともに成立してしまい、自身の意図に反する対処手順が実行されてしまうおそれが生じる。 Then, the administrator who noticed the necessity of changing the failure handling rule that originally existed changes the failure handling rule to the failure handling rule on the first line shown in FIG. “NOT” shown in FIG. 23 means “not ...”, and “NOT state C” means not state C. As a result, according to the intention of the administrator, the fault recovery system executes the coping procedure A when the state A and the state B are true but the state C does not occur, and the state A, B, C If true is also true, coping procedure B is executed. In this way, the administrator must check the existing failure handling rules when adding the failure handling rules in order to reflect his intentions, and also make changes to the existing failure handling rules so that there is no contradiction, The burden on the administrator is large. Also, if the administrator is unaware of the need to change an existing fault handling rule, the conditional formulas for multiple fault handling rules may be satisfied, and the handling procedure may be executed against his own intention. Occurs.
また、追加した障害対処ルールと既存の障害対処ルールとの間に矛盾がなくなるように、管理者が既存の障害対処ルールを変更したとしても(例えば、図23に示すように変更したとしても)、別の問題が生じる。すなわち、対処手順の実行が遅れ、対処に失敗し、障害が波及してしまい復旧が困難になってしまう場合が生じ得るという問題が発生する。新たな障害対処ルールを追加する前(図22(a)参照。)であれば、障害復旧システムは、状態Aおよび状態Bを検出したときに直ちに対処手順Aを実行する。しかし、図23の1番目および2番目に示すような障害対処ルールのもとでは、障害復旧システムは、状態Cが発生しているか否かを判定するまでは、図23に示す対処手順A,Bのいずれも実行しない。そして、状態Cが発生しているか否かの判定が完了するまでの間に、障害が波及してしまうおそれが生じる。このように、新たな障害対処ルールを追加する前であれば、状態Aおよび状態Bの検出時に迅速に対処手順Aを実行していたが、管理者が新たな障害対処ルールを追加して図23に示すように障害対処ルールを変更したことにより、処理手順の実行タイミングが遅れて、対処に失敗してしまうことが生じ得る。このような場合、対処手順に、復旧や障害回避のための対処コマンドと、対処コマンド実行前に実行すべき準備コマンドとが含まれているならば、例えば、図24に示すように、対処手順Aに含まれている対処手順A2(対処コマンド)と対処手順A1(準備コマンド)とを分けて障害対処ルールを作成することが考えられる。すなわち、管理者は、状態Aおよび状態Bが検出されたときに対処手順A1が直ちに実行されるように、図24に示す3番目の障害対処ルールを作成する。また、管理者は、「状態Cが発生していないこと(NOT状態C)」が判定されたときに、対処手順A2が実行されるように、図23に示す1番目のルールを図24に示す1番目のルールのように変更する。 Further, even if the administrator changes the existing failure handling rule so that there is no contradiction between the added failure handling rule and the existing failure handling rule (for example, even if the administrator changes the failure handling rule as shown in FIG. 23). , Another problem arises. That is, there arises a problem that the execution of the handling procedure is delayed, the handling fails, the failure spreads and the recovery becomes difficult. If a new failure handling rule is not added (see FIG. 22A), the failure recovery system immediately executes the handling procedure A when the state A and the state B are detected. However, under the failure handling rules as shown in the first and second of FIG. 23, the failure recovery system does not determine whether or not the state C has occurred until the handling procedure A, FIG. Neither B is executed. Then, there is a possibility that a failure will spread before the determination as to whether or not the state C has occurred is completed. In this way, before the addition of a new failure handling rule, the handling procedure A was executed quickly when the state A and the state B were detected. Since the failure handling rule is changed as shown in FIG. 23, the execution timing of the processing procedure may be delayed and the handling may fail. In such a case, if the handling procedure includes a handling command for recovery or failure avoidance and a preparation command to be executed before executing the handling command, for example, as shown in FIG. It is conceivable to create a failure handling rule by dividing the handling procedure A2 (handling command) and the handling procedure A1 (preparation command) included in A. That is, the administrator creates the third failure handling rule shown in FIG. 24 so that the handling procedure A1 is immediately executed when the status A and the status B are detected. In addition, the administrator sets the first rule shown in FIG. 23 to FIG. 24 so that the coping procedure A2 is executed when it is determined that “state C has not occurred (NOT state C)”. Change to the first rule shown.
この結果、比較的実行時間のかかる準備コマンド(対処手順A1)が、状態Aおよび状態Bの検出時に実行開始される。対処手順A1の実行開始は、図22(a)に示す対処手順Aの実行タイミングと同じであり、実行タイミングの遅れを緩和することができる。ただし、この場合にも、管理者、新たな障害対処ルールを作成したり(図24の3番目参照。)、対処コマンドのみを含むように障害対処ルールを変更したり(図24の1番目参照。)しなければならない。そのため、管理者は、障害対処ルールの追加に伴い、障害対処ルールを新たに作成したり、障害対処ルールを変更したりしなければならず、管理者に負担がかかってしまう。また、管理者は、障害対処ルールの追加に伴い、新しい障害対処ルールを作成することによって、さらに不具合が発生するという悪循環を招くおそれもある。そのため、障害対処ルールの追加時には、管理者は、追加に伴い新たに作成する障害対処ルールの内容や、障害対処ルールの変更内容を十分に検証しなければならず、負担が大きくなってしまう。 As a result, a preparation command (corresponding procedure A1) that takes a relatively long execution time is started when the state A and the state B are detected. The execution start of the handling procedure A1 is the same as the execution timing of the handling procedure A shown in FIG. 22A, and the delay of the execution timing can be alleviated. In this case, however, the administrator creates a new failure handling rule (see the third in FIG. 24), or changes the failure handling rule to include only the handling command (see the first in FIG. 24). .)Must. Therefore, the administrator has to create a new failure handling rule or change the failure handling rule with the addition of the failure handling rule, which places a burden on the administrator. In addition, the administrator may create a new failure handling rule with the addition of the failure handling rule, which may cause a vicious circle in which a further failure occurs. For this reason, when adding a failure handling rule, the administrator must sufficiently verify the content of the newly created failure handling rule and the changed content of the failure handling rule, which increases the burden.
復旧対象装置が大規模であるために大量の障害対処ルールが存在する場合や、随時追加修正を繰り返したことにより複雑な相関関係を持つ障害対処ルールができてしまった場合等に、以上のような管理者の負担(障害対処ルールの検証、作成、変更等の負担)は、特に大きくなる。 This is the case when there are a large number of failure handling rules because the recovery target device is large, or when a failure handling rule with a complex correlation has been created by repeating additional corrections as needed. The burden on the administrator (burial for verification, creation, modification, etc. of failure handling rules) is particularly large.
また、管理者の負担が大きいだけでなく、障害対処ルールを追加していくことにより、障害復旧システムの処理負荷も大きくなってしまうという問題がある。障害対処ルールを追加して障害対処ルールの数を増加させていくと、各障害対処ルールの条件式に記述される状態の種類も増えていく。すると、障害復旧システムが、復旧対象装置から検出しなければならない状態の種類も増えていく。例えば、図22(a)に示す障害対処ルールに従って、復旧処理コマンドを決定する場合には、障害復旧システムは、状態Cの発生を検出する必要はなかった。しかし、状態Cを条件式に含む障害対処ルールが管理者によって追加されたことにより、障害復旧システムは、復旧対象装置に状態Cが発生しているか否かも検出しなければならなくなり、それだけ障害復旧システムの処理負荷が大きくなる。 Moreover, there is a problem that not only the burden on the administrator is large, but also the processing load of the failure recovery system becomes large by adding failure handling rules. As the number of failure handling rules is increased by adding failure handling rules, the types of states described in the conditional expressions of each failure handling rule also increase. Then, the types of states that the failure recovery system has to detect from the recovery target device increase. For example, when the recovery processing command is determined according to the failure handling rule shown in FIG. 22A, the failure recovery system does not need to detect the occurrence of the state C. However, since the failure handling rule including the state C in the conditional expression is added by the administrator, the failure recovery system has to detect whether or not the state C has occurred in the recovery target device. The processing load on the system increases.
また、障害復旧システムは、各障害対処ルールの条件式が満たされているか否かを判定して復旧処理コマンドを決定しているので、障害対処ルールが増加すれば、条件式が満たされているか否かの判定処理が増加する。その結果、障害復旧システムの処理負荷が大きくなる。 In addition, the failure recovery system determines whether or not the condition formulas for each failure handling rule are satisfied and determines the recovery processing command. The determination process of whether or not increases. As a result, the processing load of the failure recovery system increases.
そこで、本発明は、管理者のルール作成負担やルール作成時における既存のルールの検証負担を軽減させることを目的とする。また、障害復旧システムの処理負荷を軽減することを目的とする。 Therefore, an object of the present invention is to reduce the burden of creating rules for an administrator and the burden of verifying existing rules when creating rules. Another object of the invention is to reduce the processing load of the failure recovery system.
本発明による障害復旧システムは、情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドを実行する障害復旧システムであって、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段と、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成手段とを備えたことを特徴とする。 The failure recovery system according to the present invention is a failure recovery system that executes a recovery processing command defined by a rule that satisfies a conditional expression when the operating state of the information processing system satisfies a conditional expression of a rule that has been created in advance. A user who stores a user-specified rule, which is a rule having a recovery process command information, using a condition expression as an operation state of the information processing system regarded as a failure occurrence or a precursor of the failure, and having a recovery process command information A specified rule accumulating means, and a simultaneous failure rule creating means for creating a rule in which the conditional expression of the user-specified rule is changed so that the conditional expression of each user-specified rule having a common part in the conditional expression is not satisfied simultaneously. It is characterized by that.
そのような構成によれば、同時不成立ルール作成手段が、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、そのユーザ指定ルールの条件式を変更したルールを作成する。従って、管理者は、条件式が同時に満足されるか否かの検証を行わずにユーザ指定ルールを作成することができ、管理者のルール作成負担やルール検証負担が軽減される。 According to such a configuration, the simultaneous failure rule creation means creates a rule in which the conditional expression of the user-specified rule is changed so that the conditional expression of each user-specified rule having a common part in the conditional expression is not satisfied simultaneously. . Therefore, the administrator can create a user-specified rule without verifying whether the conditional expressions are satisfied at the same time, thereby reducing the administrator's rule creation burden and rule validation burden.
ユーザ指定ルール蓄積手段が、復旧処理コマンドの情報として、障害からの復旧または障害回避のための対処コマンドおよび前記対処コマンド実行の準備を行うための準備コマンドの情報を有するユーザ指定ルールを記憶し、ユーザ指定ルールの条件式を変更したルールとして同時不成立ルール作成手段に作成されたルールから準備コマンドの情報を削除するとともに、条件式に共通部分を有する各ユーザ指定ルールにおける前記共通部分を条件式とし、条件式を変更することによって作成されたルールの元となったユーザ指定ルールが有する準備コマンドの情報を有する準備ルールを作成する準備ルール作成手段を備えた構成であってもよい。 The user-specified rule storage means stores a user-specified rule having information on a recovery command or a recovery command for recovery from failure or avoiding a failure and information on a preparation command for preparing to execute the response command, The information of the preparation command is deleted from the rule created in the simultaneous failure rule creation means as a rule in which the conditional expression of the user-specified rule is changed, and the common part in each user-specified rule having a common part in the conditional expression is used as a conditional expression A configuration may be provided that includes a preparation rule creating means for creating a preparation rule having information on a preparation command included in a user-specified rule that is the basis of a rule created by changing a conditional expression.
そのような構成によれば、準備ルール作成手段が、条件式に共通部分を有する各ユーザ指定ルールにおけるその共通部分を条件式とし、条件式を変更することによって作成されたルールの元となったユーザ指定ルールが有する準備コマンドの情報を有する準備ルールを作成するので、管理者にルールの検証負担をかけることなく、共通部分が満たされたときに準備コマンドを実行させることができる。そして、先に準備コマンドを実行させることによって、対処コマンドの実行の遅れを緩和することができる。 According to such a configuration, the preparation rule creating means uses the common part in each user-specified rule having a common part in the conditional expression as the conditional expression, and is the basis of the rule created by changing the conditional expression Since the preparation rule having the information of the preparation command included in the user-specified rule is created, the preparation command can be executed when the common part is satisfied without imposing the burden of verifying the rule on the administrator. Then, by executing the preparation command first, it is possible to reduce the delay in the execution of the countermeasure command.
準備ルール作成手段が、同時不成立ルール作成手段が作成したルールに基づいて選択された対処コマンドの実行に失敗した場合に、ユーザ指定ルールの条件式を変更したルールとして同時不成立ルール作成手段に作成されたルールから準備コマンドの情報を削除するとともに、条件式に共通部分を有する各ユーザ指定ルールにおける前記共通部分を条件式とし、条件式を変更することによって作成されたルールの元となったユーザ指定ルールが有する準備コマンドの情報を有する準備ルールを作成する構成であってもよい。 When the preparation rule creation means fails to execute the countermeasure command selected based on the rule created by the simultaneous failure rule creation means, it is created in the simultaneous failure rule creation means as a rule in which the conditional expression of the user-specified rule is changed. User information specified in the rule created by changing the conditional expression with the common part of each user-specified rule having a common part in the conditional expression as a conditional expression. The configuration may be such that a preparation rule having information on a preparation command included in the rule is created.
そのような構成によれば、同時不成立ルール作成手段が作成したルールに基づいて選択された対処コマンドの実行に失敗するまでは、準備ルール作成手段は準備コマンドを作成しない。従って、対処コマンドの実行に失敗するまでは、準備コマンドが先に実行されることがなく、準備コマンド同士の競合を防止することができる。 According to such a configuration, the preparation rule creation unit does not create the preparation command until execution of the countermeasure command selected based on the rule created by the simultaneous failure rule creation unit fails. Therefore, until the execution of the countermeasure command fails, the preparation command is not executed first, and the preparation commands can be prevented from conflicting with each other.
準備コマンドおよび対処コマンドの情報を有する準備対処ルールと、準備コマンドの情報を有する準備ルールの条件式が同時に成立することがあり、準備コマンド同士が競合すると定められている場合に、前記準備対処ルールに、前記準備ルールの準備コマンドの実行取消を指示する取消コマンドの情報を付加する取消コマンド情報付加手段を備えた構成であってもよい。 The preparation coping rules when the preparatory coping rules having information on the preparatory commands and the coping commands and the conditional expressions of the preparatory rules having the information on the preparatory commands may be satisfied at the same time, and it is determined that the preparative commands compete with each other. Furthermore, a configuration may be provided that includes cancel command information adding means for adding information of a cancel command that instructs execution cancellation of the preparation command of the preparation rule.
そのような構成によれば、取消コマンド情報付加手段が、準備対処ルールに、競合する準備コマンドの実行取消を指示する取消コマンドの情報を付加するので、準備コマンド同士の競合を防止することができる。 According to such a configuration, the cancel command information adding unit adds the information of the cancel command instructing execution cancellation of the conflicting preparation command to the preparation handling rule, so that the conflict between the preparation commands can be prevented. .
条件式に共通部分を有する各ユーザ指定ルールにおける前記共通部分を条件式とし、前記各ユーザ指定ルールの条件式のうち前記共通部分以外に示される動作状態が発生しているか否かの検出を指示する検出コマンドの情報を有する検出ルールを作成する検出ルール作成手段を備えた構成であってもよい。 The common part in each user-specified rule having a common part in the conditional expression is used as a conditional expression, and it is instructed to detect whether or not an operation state other than the common part occurs in the conditional expression of each user-specified rule. It may be configured to include a detection rule creating means for creating a detection rule having information of a detection command to be performed.
一のユーザ指定ルールの条件式全体が、複数のユーザ指定ルールの条件式の共通部分となっている場合に、前記共通部分を条件式とし、前記複数のユーザ指定ルールの条件式のうち前記共通部分以外に示される動作状態が発生しているか否かの検出を指示する検出コマンドの情報と、前記一のユーザ指定ルールが有する準備コマンドの情報とを有する検出ルールを作成するとともに、前記一のユーザ指定ルールから準備コマンドの情報を削除したルールを作成する検出ルール作成手段を備えた構成であってもよい。 When the entire conditional expression of one user-specified rule is a common part of the conditional expressions of a plurality of user-specified rules, the common part is defined as a conditional expression, and the common expression among the conditional expressions of the plurality of user-specified rules A detection rule having detection command information for instructing detection of whether or not an operation state other than the part has occurred, and preparation command information included in the one user-specified rule; The configuration may include a detection rule creating means for creating a rule in which the information on the preparation command is deleted from the user-specified rule.
情報処理システムの動作状態を検出する動作状態検出手段と、前記動作状態検出手段によって検出された動作状態によって条件式が満足されるルールを特定し、前記ルールが有する復旧処理コマンドの情報を出力する対処方法検索手段と、前記対処方法検索手段が復旧処理コマンドの情報として検出コマンドの情報を出力した場合に、前記検出コマンドに応じた動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検出手段に指示する検出要素制御手段とを備えた構成であってもよい。 An operating state detecting unit for detecting an operating state of the information processing system, a rule that satisfies the conditional expression according to the operating state detected by the operating state detecting unit is specified, and information on a recovery process command included in the rule is output Detecting whether or not an operation state corresponding to the detection command has occurred in the information processing system when the response method search means and the response method search means output detection command information as recovery process command information And a detection element control means for instructing the operation state detection means.
そのような構成によれば、動作状態検出手段は、当初、共通部分に示された動作状態が発生しているか否かだけを検出していればよく、処方法検索手段が復旧処理コマンドの情報として検出コマンドの情報を出力した場合に、その検出コマンドに応じた動作状態が情報処理システムに発生しているか否かの検出を開始すればよい。従って、検出コマンドに応じた動作状態が情報処理システムに発生しているか否かの検出を最初から行う必要がなく、障害復旧システムの処理負荷を軽減することができる。 According to such a configuration, the operation state detection unit only needs to detect whether or not the operation state indicated in the common part has occurred at the beginning, and the processing method search unit detects the information of the recovery process command. When the information of the detection command is output, detection of whether or not an operation state corresponding to the detection command has occurred in the information processing system may be started. Therefore, it is not necessary to detect from the beginning whether or not an operation state corresponding to the detection command has occurred in the information processing system, and the processing load of the failure recovery system can be reduced.
情報処理システムの動作状態を検出する動作状態検出手段と、前記動作状態検出手段によって検出された動作状態によって条件式が満足されるルールを特定し、前記ルールが有する復旧処理コマンドの情報を出力する対処方法検索手段とを備え、前記対処方法検索手段は、検出ルールの条件式が満足されるまでは、前記検出ルールが有する検出コマンドの情報に対応する動作状態を条件式に含むルールを、条件式が満足されているか否かの判定対象から外すように構成されていてもよい。 An operating state detecting unit for detecting an operating state of the information processing system, a rule that satisfies the conditional expression according to the operating state detected by the operating state detecting unit is specified, and information on a recovery process command included in the rule is output Coping method search means, and the coping method search means includes a rule that includes an operation state corresponding to information of a detection command included in the detection rule in the conditional expression until the conditional expression of the detection rule is satisfied. You may comprise so that it may remove from the determination object of whether the type | formula is satisfied.
そのような構成によれば、動作状態検出手段は、当初、検出ルールが有する検出コマンドの情報に対応する動作状態を条件式に含むルールを、条件式が満足されているか否かの判定対象から外すので、全てのルールについて条件式が満足されているか否かの判定を行わなくてよい。よって、障害復旧システムの処理負荷を軽減することができる。 According to such a configuration, the operation state detection means initially includes a rule that includes the operation state corresponding to the information of the detection command included in the detection rule in the conditional expression from a determination target whether or not the conditional expression is satisfied. Therefore, it is not necessary to determine whether or not the conditional expressions are satisfied for all rules. Therefore, the processing load of the failure recovery system can be reduced.
また、本発明による障害復旧装置は、情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドの情報を出力する障害復旧装置であって、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段と、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成手段とを備えたことを特徴とする。 In addition, the failure recovery apparatus according to the present invention outputs a failure processing command information that is determined by a rule that satisfies the conditional expression when the operation state of the information processing system satisfies the conditional expression of the rule that is created in advance. A user-specified rule that is a recovery device that is a rule created by a user, which is a rule having information on a recovery processing command, with a conditional expression indicating an operation state of an information processing system regarded as a failure occurrence or a precursor of a failure. A user-specified rule storage means for storing a rule and a simultaneous failure rule creation means for creating a rule in which the conditional expression of the user-specified rule is changed so that the conditional expressions of the user-specified rules having a common part in the conditional expression are not satisfied simultaneously It is characterized by comprising.
また、本発明による障害復旧装置は、情報処理システムに対し復旧処理コマンドを実行することにより前記情報処理システムに障害からの復旧または障害の回避を行わせる障害復旧装置であって、前記情報処理システムの動作状態を検出する動作状態検出手段と、復旧処理コマンドの情報を受信し、前記情報が示す復旧処理コマンドを実行するコマンド実行手段と、コマンド実行手段が、復旧処理コマンドとして、所定の動作状態が発生しているか否かの検出を指示する検出コマンドを受信した場合に、前記動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検出手段に指示する検出要素制御手段とを備えたことを特徴とする。 The fault recovery apparatus according to the present invention is a fault recovery apparatus that causes the information processing system to recover from a fault or avoid a fault by executing a recovery processing command to the information processing system, wherein the information processing system An operation state detection unit that detects an operation state of the command, a command execution unit that receives information on a recovery process command and executes a recovery process command indicated by the information, and a command execution unit that has a predetermined operation state as a recovery process command Detection element control means for instructing the operation state detection means to detect whether or not the operation state has occurred in the information processing system when a detection command instructing detection of whether or not the operation state has occurred is received It is characterized by having.
そのような構成によれば、所定の動作状態が発生しているか否かの検出を指示する検出コマンドを受信するまでは、動作状態検出手段は、その動作状態が発生しているか否かの検出を行わなくてよい。よって、障害復旧装置の処理負荷を軽減することができる。 According to such a configuration, until receiving a detection command instructing detection of whether or not a predetermined operation state has occurred, the operation state detection means detects whether or not the operation state has occurred. It is not necessary to do. Therefore, the processing load of the failure recovery apparatus can be reduced.
また、本発明によるルール作成方法は、情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドを実行する障害復旧システムに適用されるルール作成方法であって、ユーザ指定ルール蓄積手段が、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶し、同時不成立ルール作成手段が、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成することを特徴とする。 Also, the rule creation method according to the present invention is a failure recovery system that executes a recovery processing command determined by a rule that satisfies a conditional expression when the operating state of the information processing system satisfies a conditional expression of the rule that has been created in advance. A rule creation method applied to the above, wherein the user-specified rule accumulating means is a rule having information on a recovery processing command, with a conditional expression representing an operation state of an information processing system regarded as a failure or a precursor of the failure. Storing the user-specified rule, which is a rule created by the user, so that the simultaneous failure rule creating means does not satisfy the conditional expression of each user-specified rule having a common part in the conditional expression at the same time. It is characterized by creating a rule with a changed expression.
また、本発明による障害復旧プログラムは、情報処理システムの動作状態が、予め作成されたルールの条件式を満足する場合に、条件式が満たされたルールが定める復旧処理コマンドの情報を出力するコンピュータであって、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段を備えたコンピュータに、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成処理を実行させることを特徴とする。 In addition, the failure recovery program according to the present invention is a computer that outputs information of a recovery process command defined by a rule that satisfies a conditional expression when the operating state of the information processing system satisfies a conditional expression of a rule that has been created in advance. In this case, a user-specified rule, which is a rule having a recovery process command information and a rule created by the user, is stored as a conditional expression based on the operation state of the information processing system regarded as a failure or a precursor to the failure. A simultaneous failure rule that creates a rule in which the conditional expression of the user-specified rule is changed so that the conditional expression of each user-specified rule having a common part in the conditional expression is not satisfied at the same time in a computer provided with user-specified rule storage means The creation process is executed.
また、本発明による障害復旧プログラムは、情報処理システムに対し復旧処理コマンドを実行することにより前記情報処理システムに障害からの復旧または障害の回避を行わせるコンピュータに、前記情報処理システムの動作状態を検出する動作状態検処理、復旧処理コマンドの情報を受信し、前記情報が示す復旧処理コマンドを実行するコマンド実行処理、および復旧処理コマンドとして、所定の動作状態が発生しているか否かの検出を指示する検出コマンドを受信した場合に、前記動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検処理で開始させる検出要素制御処理を実行させることを特徴とする。 In addition, the failure recovery program according to the present invention allows a computer that performs recovery from a failure or avoids a failure by executing a recovery processing command to the information processing system to change an operation state of the information processing system. Detecting whether or not a predetermined operation state has occurred as a command execution process and a recovery process command for receiving an operation status detection process and a recovery process command to be detected and executing the recovery process command indicated by the information When a detection command to be instructed is received, a detection element control process for starting detection by the operation state detection process whether or not the operation state has occurred in the information processing system is executed.
本発明によれば、管理者のルール作成負担やルール作成時における既存のルールの検証負担を軽減させることができる。また、障害復旧システムの処理負荷を軽減することができる。 According to the present invention, it is possible to reduce an administrator's rule creation burden and an existing rule verification burden at the time of rule creation. In addition, the processing load of the failure recovery system can be reduced.
以下、本発明を実施するための最良の形態を図面を参照して説明する。 The best mode for carrying out the present invention will be described below with reference to the drawings.
実施の形態1.
図1は、本発明の第1の実施の形態を示すブロック図である。第1の実施の形態における障害復旧システムは、エージェント装置20と、マネージャ装置30とを備える。エージェント装置20は、復旧対象装置(図1に示すサービス実行手段10)の動作状態を検出するとともに、マネージャ装置30が決定した復旧処理コマンドを復旧対象装置に対して実行する。マネージャ装置30は、エージェント装置20が検出した復旧対象装置の動作状態に基づいて復旧処理コマンドを決定する。マネージャ装置30とエージェント装置20は、通信ネットワーク(図示せず。)によって接続される。図1では、マネージャ装置30とエージェント装置20を1台ずつ図示しているが、マネージャ装置30に対して複数台のエージェント装置20が接続されていてもよい。
FIG. 1 is a block diagram showing a first embodiment of the present invention. The failure recovery system according to the first embodiment includes an
エージェント装置20は、動作状態検出手段1と、コマンド実行手段5とを備える。また、エージェント装置20は、サービス実行手段10に接続される。
The
サービス実行手段10は、Webサービスや業務サービスといった情報通信サービスを提供する情報処理システムである。サービス実行手段10は、1台の情報処理装置からなる構成であってもよいし、複数台の情報処理装置が接続されたネットワークシステムであってもよい。また、図1では、エージェント装置20がサービス実行手段10を含んでいるように図示しているが、エージェント装置20とサービス実行手段10とが通信ネットワークを介して接続される構成であってもよい。
The service execution means 10 is an information processing system that provides information communication services such as Web services and business services. The
動作状態検出手段1は、サービス実行手段10の動作状態を検出し、対処方法検索手段3に出力(送信)する。検出する動作状態には、サービス実行手段10の起動/停止状態、アプリケーションプログラムの起動/停止状態、アプリケーションプログラムのエラー状態、CPU状態、メモリ状態、ディスク状態など各種の状態がある。サービス実行手段10の動作状態を検出する方法としては、サービス実行手段10にSNMP(Simple Network Management Protocol )エージェントを常駐させ、動作状態検出手段1が定期的にSNMPリクエストをSNMPエージェントへ送信することによって検出する方法や、サービス実行手段10にSNMPトラップの設定を行い、SNMPトラップイベントが発生したときにそのイベント(動作状態)を受信する方法など、任意の方法を使用することができる。
The operation
コマンド実行手段5は、マネージャ装置30(具体的には、後述する対話制御手段4)から復旧処理コマンドの情報を受信し、サービス実行手段10上でその復旧処理コマンドを実行する。
The
マネージャ装置30は、ルール蓄積手段2と、対処方法検索手段3と、対話制御手段4と、ユーザ指定ルール蓄積手段6と、共通条件制御手段7とを備える。
The
ルール蓄積手段2は、障害対処ルールを蓄積する記憶装置である。既に説明したように、障害対処ルールは、障害が発生したと判定するための条件式と、その条件式を満足する状態を検出したときにサービス実行手段10に対して実行する復旧処理コマンドの情報とを含む。条件式としては、障害が発生したとみなされるサービス実行手段10の状態または障害発生の前兆とみなされるサービス実行手段10の状態が記述される。条件式として記述される状態の具体例として、例えば、サービス実行手段10として使用される情報処理装置の処理負荷、メモリ使用量、エラー発生状況等が挙げられる。以下の説明では、説明を簡単にするために、条件式に記述される状態を、「状態A」、「状態B」等のように記号で示して説明する。復旧処理コマンドは、条件式が満たされる状態となったときに、障害からの復旧または障害の回避のために使われるコマンドである。
The
本発明においても、既に説明した場合と同様に、条件式を複数の状態のAND(論理積)によって表してもよい。図22等に示す場合と同様に、ここでは、論理積を“&”記号によって表すこととする。すなわち、「状態A&状態B」という条件式は、「状態Aおよび状態Bが共に真である(状態Aおよび状態Bがともに検出されている)」ことを意味し、その条件式が満たされたときに、その条件式に対応する復旧処理コマンドを実行することを意味する。なお、複数の状態の論理和を用いて条件式を記述することも可能である。しかし、そのような条件式を含む障害対処ルールは、実質的に複数の障害対処ルールを含んでいるので、論理和を用いない複数の障害対処ルールに分けることができる。例えば、「状態Aまたは状態Bが発生しているならば対処手順Aを実行する。」という障害対処ルールは、「状態Aが発生しているならば対処手順Aを実行する。」、「状態Bが発生しているならば対処手順Aを実行する。」という論理和を用いない2つの障害対処ルールに分けられる。本発明では、ルール蓄積手段2は、論理和を用いずに条件式が記述された障害対処ルールを記憶しているものとする。また、本実施の形態では、ある状態が発生していないこと(ある状態の否定)を、図23等に示す場合と同様に“NOT”で示すことにする。
In the present invention, as in the case described above, the conditional expression may be expressed by AND (logical product) of a plurality of states. As in the case shown in FIG. 22 and the like, here, the logical product is represented by the “&” symbol. That is, the conditional expression “state A & state B” means that “state A and state B are both true (both state A and state B are detected)”, and the conditional expression is satisfied. Sometimes, this means executing a recovery processing command corresponding to the conditional expression. A conditional expression can be described using a logical sum of a plurality of states. However, since the failure handling rule including such a conditional expression substantially includes a plurality of failure handling rules, it can be divided into a plurality of failure handling rules that do not use a logical sum. For example, the failure handling rule “if the state A or the state B has occurred, execute the coping procedure A.” is, “if the state A has occurred, execute the coping procedure A.”, “the state It is divided into two failure handling rules that do not use the logical sum, "If B occurs, execute the handling procedure A." In the present invention, it is assumed that the
対処方法検索手段3は、動作状態検出手段1によって検出されたサービス実行手段10の動作状態の情報を動作状態検出手段1から受信する。そして、対処方法検索手段3は、条件式がその動作状態に合致している障害対処ルールをルール蓄積手段2から検索し、その障害対処ルール中の復旧処理コマンドの情報を対話制御手段4に出力する。
The coping
対話制御手段4は、例えば、ディスプレイ装置や入力デバイス(例えば、キーボード等)を備え、対処方法検索手段3の出力情報が示す復旧処理コマンドを実行するか否かを、ユーザ(例えば、サービス実行手段10および障害復旧システムの管理者)との対話により決定する。すなわち、対話制御手段4は、その復旧処理コマンドを実行するか否かの決定を促すGUIをディスプレイ装置(図示せず。)に表示し、実行する旨の指示が入力された場合、復旧処理コマンドを実行することを決定し、その復旧処理コマンドを示す情報をコマンド実行手段5に出力(送信)する。
The
また、対話制御手段4は、ユーザが作成したルールを入力し、ユーザ指定ルール蓄積手段6に記憶させる。ユーザが作成するルールも、障害対処ルールと同様の形式で記述され、条件式および復旧処理コマンドの情報を対応付けた形式になっている。ユーザが作成したルールは、ユーザ指定ルール蓄積手段6に記憶され、そのルールに基づいて、ルール蓄積手段2に記憶される障害対策ルールが生成される。従って、ルール蓄積手段2が記憶する障害対処ルールは、ユーザが作成したルールそのものではない。そこで、ユーザが作成したルールを、ユーザ指定ルールと記し、ルール蓄積手段2が記憶する障害対処ルールと区別する。対話制御手段4は、ユーザの操作に応じて、ユーザ指定ルール蓄積手段6に新たなユーザ指定ルールを追加記憶させたり、既にユーザ指定ルール蓄積手段6が記憶しているユーザ指定ルールを編集したりする。また、対話制御手段4は、ユーザの操作に応じて、ユーザ指定ルール蓄積手段6が記憶しているユーザ指定ルールの削除も行う。
In addition, the
ユーザ指定ルール蓄積手段6は、ユーザ指定ルールを記憶する。ユーザ指定ルールは、ユーザが作成したルールそのものである。従って、図22(b)で説明したような、実際にはユーザの意図に反する復旧処理コマンドの情報を導出してしまうようなルールになっている可能性が高い。 The user-specified rule storage unit 6 stores user-specified rules. The user designation rule is a rule itself created by the user. Therefore, there is a high possibility that the rule as described in FIG. 22B actually derives information on a recovery process command that is contrary to the user's intention.
共通条件制御手段7は、ユーザ指定ルール蓄積手段6に新たなユーザ指定ルールが記憶された場合(新たにユーザ指定ルールが追加された場合や、ユーザ指定ルールの編集が行われた場合)、ルール蓄積手段2が記憶している障害対処ルール全体を消去する。そして、共通条件制御手段7は、ユーザ指定ルール蓄積手段6に記憶されているユーザ指定ルールに基づいて、矛盾のない障害対処ルールの集合を作成し、その障害対処ルールの集合をルール蓄積手段2に記憶させる。ユーザ指定ルールに基づいて障害対処ルールを作成する処理については後述する。なお、ここで「矛盾のない」とは、複数の障害対処ルールの条件式が同時に成立してしまうことがないことを意味する。
The common condition control means 7 is a rule when a new user designation rule is stored in the user designation rule storage means 6 (when a new user designation rule is added or when a user designation rule is edited). The entire failure handling rule stored in the storage means 2 is deleted. Then, the common
動作状態検出手段1およびコマンド実行手段5は、例えば、コンピュータと障害復旧プログラムによって実現することができる。この障害復旧プログラムは、コンピュータ(エージェント装置20)の立ち上げ時等にコンピュータに読み取られ、コンピュータが障害復旧プログラムに従って動作することにより、コンピュータが動作状態検出手段1およびコマンド実行手段5として機能する。障害復旧プログラムは、エージェント装置20が備える磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に予め記録される。
The operating
対処方法検索手段3、対話制御手段4、および共通条件制御手段7も、例えば、コンピュータと障害復旧プログラムによって実現することができる。この障害復旧プログラムは、コンピュータ(マネージャ装置30)の立ち上げ時等にコンピュータに読み取られ、コンピュータが障害復旧プログラムに従って動作することにより、コンピュータが対処方法検索手段3、対話制御手段4、および共通条件制御手段7として機能する。障害復旧プログラムは、マネージャ装置30が備える磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に予め記録される。また、ルール蓄積手段2およびユーザ指定ルール蓄積手段6は、例えば、マネージャ装置30が備える記憶装置によって実現される。
The coping method search means 3, the dialog control means 4, and the common condition control means 7 can also be realized by a computer and a failure recovery program, for example. The failure recovery program is read by the computer when the computer (manager device 30) is started up, and the computer operates according to the failure recovery program, so that the computer can cope with the response method search means 3, the dialog control means 4, and the common conditions. It functions as the control means 7. The failure recovery program is recorded in advance on a computer-readable recording medium such as a magnetic disk or a semiconductor memory included in the
また、動作状態検出手段1、コマンド実行手段5、対処方法検索手段3、対話制御手段4、および共通条件制御手段7をそれぞれハードウェア装置として実現してもよい。
Further, the operation
次に、動作について説明する。
図2は、ユーザ指定ルールが修正されたときにおけるマネージャ装置30(主に共通条件制御手段7)による処理経過の例を示すフローチャートである。また、図3は、ユーザ指定ルールに基づく矛盾解消の具体例を示す説明図である。本例では、ユーザ指定ルール蓄積手段6には、初期状態として、図3に示すユーザ指定ルール501が記憶されているものとする。
Next, the operation will be described.
FIG. 2 is a flowchart showing an example of the progress of processing by the manager device 30 (mainly the common condition control means 7) when the user designation rule is modified. FIG. 3 is an explanatory diagram showing a specific example of conflict resolution based on the user-specified rule. In this example, it is assumed that the user designation rule storage unit 6 stores a user designation rule 501 shown in FIG. 3 as an initial state.
まず、対話制御手段4は、ユーザの操作に応じて、ユーザ指定ルール蓄積手段6内のユーザ指定ルールに対して追加や変更等を行う(ステップS211)。ここでは、対話制御手段4は、ユーザの操作に応じて、図3に示すユーザ指定ルール502をユーザ指定ルール蓄積手段6に追加記憶させる。この結果、ユーザ指定ルール蓄積手段6は、ユーザ指定ルール501,502を記憶する。
First, the dialogue control means 4 adds or changes the user-specified rules in the user-specified rule storage means 6 according to user operations (step S211). Here, the dialogue control means 4 additionally stores the
ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールが変更されると、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールの有無を判定する(ステップS212)。ステップS212において、条件式に共通部分を有するユーザ指定ルールがないと判定した場合(ステップS212におけるNo)、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶しているユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させる(ステップS214)。このとき、共通条件制御手段7は、ステップS212においてNoと判定した後、ルール蓄積手段2の記憶内容(障害対処ルール)を全て削除してからステップS214の処理を実行する。
When the user designation rule stored in the user designation rule storage unit 6 is changed, the common
一方、ステップS212において、条件式に共通部分を有するユーザ指定ルールがあると判定した場合(ステップS212におけるYes)、共通条件制御手段7は、そのユーザ指定ルールを収集して、そのユーザ指定ルール間に矛盾がなくなるように、収集したユーザ指定ルールの条件式を変更する(ステップS213)。そして、共通条件制御手段7は、条件式を変更したユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させる(ステップS214)。なお、このとき、条件式に他のユーザ指定ルールとの共通部分がないユーザ指定ルールが存在していた場合、共通条件制御手段7は、そのユーザ指定ルールについては、そのまま障害対処ルールとしてルール蓄積手段2に記憶させる。
On the other hand, when it is determined in step S212 that there is a user-specified rule having a common part in the conditional expression (Yes in step S212), the common
図4は、ステップS213の処理(ユーザ指定ルール間に矛盾がなくなるように、ユーザ指定ルールの条件式を変更することによって障害対処ルールを作成する処理)の処理経過の一例を示すフローチャートである。共通条件制御手段7は、まず、ルール蓄積手段2に記憶された障害対処ルールを全て削除する(ステップS301)。次に、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールを収集する(ステップS302)。
FIG. 4 is a flowchart showing an example of the processing progress of the process of step S213 (a process for creating a failure handling rule by changing a conditional expression of a user-specified rule so that there is no contradiction between user-specified rules). First, the common
共通条件制御手段7は、ステップS302で収集したユーザ指定ルールから、条件式の変更検証対象ルールを1つずつ選択する。以下、条件式の変更検証対象となるルールを第1ルールと記す。また、共通条件制御手段7は、第1ルールの条件式を変更するか否かを、他のユーザ指定ルールの条件式と比較しながら決定していく。この他のユーザ指定ルールを第2ルールと記す。第2ルールも1つずつ順次選択される。 The common condition control means 7 selects one rule-by-rule verification rule for the conditional expression from the user-specified rules collected in step S302. Hereinafter, a rule that is subject to change verification of a conditional expression is referred to as a first rule. Further, the common condition control means 7 determines whether or not to change the conditional expression of the first rule while comparing with the conditional expressions of other user-specified rules. This other user-specified rule is referred to as a second rule. The second rule is also sequentially selected one by one.
共通条件制御手段7は、ステップS302の後、収集したユーザ指定ルールのうち、第1ルール(条件式の変更検証対象となるルール)として選択されていないユーザ指定ルールがあるか否かを判定する(ステップS303)。第1ルールとして選択されていないユーザ指定ルールがなければ(ステップS303におけるNo)、ステップS213(図2参照。)の処理を終了する。収集したユーザ指定ルール中に未だ第1ルールとして選択されていないユーザ指定ルールがあれば、そのユーザ指定ルールの中から1つを選択して第1ルールとする(ステップS304)。ステップS302で収集されたユーザ指定ルールのうち、ステップS304で選択された第1ルール以外の全ユーザ指定ルールが順次第2ルールとして選択される。
After step S302, the common
共通条件制御手段7は、ステップS304の後、ステップS302で収集されたユーザ指定ルールであって、ステップS304で選択された第1ルール以外のユーザ指定ルールの中に、第2ルールとして選択されていないユーザ指定ルールがあるか否かを判定する(ステップS305)。第2ルールとして選択されていないユーザ指定ルールがなければ(ステップS305におけるNo)、ステップS303に移行し、ステップS303以降の処理を繰り返す。第2ルールとして選択されていないユーザ指定ルールがあれば(ステップS305におけるYes)、そのユーザ指定ルールの中から1つを選択して第2ルールとする(ステップS306)。 The common condition control means 7 is the user-specified rule collected in step S302 after step S304, and is selected as the second rule among the user-specified rules other than the first rule selected in step S304. It is determined whether there is any user-specified rule (step S305). If there is no user designation rule that is not selected as the second rule (No in step S305), the process proceeds to step S303, and the processes in and after step S303 are repeated. If there is a user-specified rule that is not selected as the second rule (Yes in step S305), one of the user-specified rules is selected as a second rule (step S306).
共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得るか否かを判定する(ステップS307)。ステップS307では、任意の状態Pについて、第1ルールと第2ルールのいずれかの条件式に「状態Pになっていること」が条件として記述され、他方の条件式に「状態Pになっていないこと」が条件として記述されているならば、第1ルールと第2ルールとが同時に成立し得ないと判定すればよい。また、そうでなければ、第1ルールと第2ルールとが同時に成立し得ると判定すればよい。例えば、一方の条件式に「・・・&状態P&・・・」と記述され、他方の条件式に「・・・&(NOT状態P)&・・・」と記述されていれば、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得ないと判定する。第1ルールと第2ルールとが同時に成立し得ないと判定した場合(ステップS307におけるNo)、ステップS305に移行し、ステップS305以降の処理を繰り返す。
The common
また、第1ルールと第2ルールとが同時に成立し得ると判定した場合(ステップS307におけるYes)、共通条件制御手段7は、第2ルールの条件式内の共通部分以外の条件を抽出し、その否定を第1ルールの条件式に追加する(ステップS308)。このとき、共通条件制御手段7は、第1ルールの条件式に記述されていた条件式と、第2ルールから抽出した条件の否定とを“&”で結べばよい。すなわち、第1ルールの条件式に記述されていた条件式と、第2ルールから抽出した条件の否定との論理積を、第1ルールの新たな条件式とすればよい。 If it is determined that the first rule and the second rule can be established simultaneously (Yes in step S307), the common condition control means 7 extracts a condition other than the common part in the conditional expression of the second rule, The negative is added to the conditional expression of the first rule (step S308). At this time, the common condition control means 7 may connect the conditional expression described in the conditional expression of the first rule and the negation of the condition extracted from the second rule with “&”. That is, a logical product of the conditional expression described in the conditional expression of the first rule and the negation of the condition extracted from the second rule may be used as a new conditional expression of the first rule.
共通条件制御手段7が、第2ルールの条件式内の共通部分以外の条件を抽出し、その否定を第1ルールの条件式に追加する(ステップS308)ことによって、第1ルールと第2ルールとは同時に成立し得ない(第1ルールの条件式と第2ルールの条件式とが同時に満たされ得ない)ことになる。このように複数のルールが同時に成立しないことを、各ルールが「一意に識別される」と表現することがある。 The common condition control means 7 extracts conditions other than the common part in the conditional expression of the second rule, and adds the negation to the conditional expression of the first rule (step S308), whereby the first rule and the second rule Cannot be satisfied at the same time (the conditional expression of the first rule and the conditional expression of the second rule cannot be satisfied simultaneously). In this manner, the fact that a plurality of rules are not simultaneously established may be expressed as “uniquely identified”.
共通部分を有するユーザ指定ルールのグループが複数存在した場合、それらの各グループについて、図4に示すステップS301以降の処理を行えばよい。そして、各グループについて、ステップS301以降の処理が終了した後、ステップS214に移行すればよい。 When there are a plurality of groups of user-specified rules having a common part, the processing after step S301 shown in FIG. 4 may be performed for each group. Then, for each group, after the processing from step S301 is completed, the process may move to step S214.
なお、図2および図4の処理を行ったとしても、共通条件制御手段7は、ユーザ指定ルール蓄積手段6に記憶されているユーザ指定ルール自体については書き換えない。共通条件制御手段7は、ステップS302で収集したユーザ指定ルールをバッファ等(図示せず。)に記憶させ、そのバッファ等において条件式の変更などを行う。従って、ステップS211以降、ユーザ指定ルール蓄積手段6に記憶されているユーザ指定ルールの内容は変わらない。ただし、ユーザの操作に応じて、再度ステップS211の処理が行われれば、当然に、ユーザ指定ルール蓄積手段6に記憶されているユーザ指定ルールの内容は変更される。
2 and 4, the common
図3に示すユーザ指定ルールを用いて、以上の処理を説明する。ユーザ指定ルール502が追加された(ステップS211)後、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールの有無を判定する(ステップS212)。図3に示すユーザ指定ルール501,502を参照すると、条件式において“状態A & 状態B”の部分が共通する(ステップS212におけるYes)。
The above process will be described using the user designation rule shown in FIG. After the
その結果、共通条件制御手段7は、ステップS213の処理を開始する。具体的には、まず、ルール蓄積手段2の記憶内容を削除する(ステップS301)。そして、共通条件制御手段7は、ユーザ指定ルール蓄積手段6から、条件式に共通部分(本例では、“状態A & 状態B”)を有するユーザ指定ルール501,502を収集する。この時点で、ユーザ指定ルール501,502は、いずれも第1ルールとして選択されていない。よって、ステップS303の判定後、ステップS304に移行する。ステップS304では、共通条件制御手段7は、第1ルールとして未だ選択されていないユーザ指定ルール501,502の中から1つを選択する(ここでは、ユーザ指定ルール501を選択するものとする。)。この時点で、ユーザ指定ルール502は第2ルールとして選択されていない。よって、ステップS305の判定後、ステップS306に移行する。ステップS306では、共通条件制御手段7は、ユーザ指定ルール502を第2ルールとして選択する。
As a result, the common condition control means 7 starts the process of step S213. Specifically, first, the stored contents of the
次に、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得るか否かを判定する(ステップS307)。第1ルール(ここでは、ユーザ指定ルール501)および第2ルール(ここでは、ユーザ指定ルール502)との間には、いずれかの条件式に「状態Pになっていること」が条件として記述され、他方の条件式に「状態Pになっていないこと」が条件として記述されているという関係は成立していない(状態Pは、任意の障害発生状態)。そのため、第1ルールと第2ルールとが同時に成立し得ると判定し、ステップS308に移行する。ステップS308では、共通条件制御手段7は、第2ルールの条件式内の共通部分以外の条件を抽出する。共通部分は“状態A & 状態B”であるので、それ以外の条件である“状態C”を第2ルールから抽出する。そして、共通条件制御手段7は、その否定である“(NOT状態C)”と、第1ルールの条件式に記述されていた条件式“状態A & 状態B”とを“&”で結び、第1ルールの条件式を“状態A & 状態B & (NOT状態C)”とする。この変更後のユーザ指定ルールを、図3では、ユーザ指定ルール501aとして示している。これまでユーザ指定ルールとして501と記していたユーザ指定ルールを、以降、ユーザ指定ルール501aと記す。
Next, the common condition control means 7 determines whether or not the first rule and the second rule can be satisfied at the same time (step S307). Between the first rule (here, the user designation rule 501) and the second rule (here, the user designation rule 502), “condition P” is described as a condition in one of the conditional expressions. Therefore, the relationship that “not in state P” is described as a condition in the other conditional expression does not hold (state P is an arbitrary failure occurrence state). Therefore, it is determined that the first rule and the second rule can be established at the same time, and the process proceeds to step S308. In step S308, the common condition control means 7 extracts conditions other than the common part in the conditional expression of the second rule. Since the common part is “state A & state B”, “state C”, which is another condition, is extracted from the second rule. Then, the common condition control means 7 connects the negative “(NOT state C)” with the conditional expression “state A & state B” described in the conditional expression of the first rule with “&”, The conditional expression of the first rule is “state A & state B & (NOT state C)”. This changed user designation rule is shown as a
続いて、ステップS305に移行したときには、第2ルールとして選択されていないユーザ指定ルールは存在していない(なお、第1ルールとして選択されているユーザ指定ルールは、第2ルールとして選択されない。)。よって、ステップS303に移行する。このとき、図3に示すユーザ指定ルール502は、未だ第1ルールとして選択されていない。よって、ステップS303からステップS304に移行し、共通条件制御手段7は、ユーザ指定ルール502を第1ルールとして選択する。この時点で、ユーザ指定ルール501aは第2ルールとして選択されていない。よって、ステップS305の判定後、ステップS306に移行する。ステップS306では、共通条件制御手段7は、ユーザ指定ルール501a(図3参照。)を第2ルールとして選択する。
Subsequently, when the process proceeds to step S305, there is no user-specified rule not selected as the second rule (note that the user-specified rule selected as the first rule is not selected as the second rule). . Therefore, the process proceeds to step S303. At this time, the user-specified
次に、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得るか否かを判定する(ステップS307)。第1ルール(ここでは、ユーザ指定ルール502)および第2ルール(ここでは、ユーザ指定ルール501a)を参照すると、一方の条件式には、“状態C”が記述され、他方の条件式には“(NOT状態C)”が記述されている。よって、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得ないと判定し(ステップS307におけるNo)、ステップS305に移行する。
Next, the common condition control means 7 determines whether or not the first rule and the second rule can be satisfied at the same time (step S307). Referring to the first rule (here, the user designation rule 502) and the second rule (here, the
続いて、ステップS305に移行したときには、第2ルールとして選択されていないユーザ指定ルールは存在していない。よって、ステップS303に移行する。この時点で、第1ルールとして選択されていないユーザ指定ルールは存在しないので(ステップS303におけるNo)、処理(図2に示すステップS213の処理)を終了する。この結果、本例では、ユーザ指定ルール502は変更されない。ステップS213に続く、ステップS214(図2参照。)では、共通条件制御手段7は、図3に示すユーザ指定ルール501a,502を、障害対処ルールとしてルール蓄積手段2に記憶させる。
Subsequently, when the process proceeds to step S305, there is no user-specified rule that is not selected as the second rule. Therefore, the process proceeds to step S303. At this point, since there is no user-specified rule that is not selected as the first rule (No in step S303), the process (the process in step S213 shown in FIG. 2) is terminated. As a result, in this example, the
ユーザが作成したユーザ指定ルール501,502は、矛盾する状態(条件式が同時に成立してしまうことがある状態)であったが、図2および図4に示す処理を実行することにより、ユーザ指定ルール501,502という集合は、ユーザ指定ルール501a,502(図3参照。)という集合に修正され、ユーザ指定ルール501a,502が障害対処ルールとしてルール蓄積手段2に記憶される。よって、ユーザが、自身の作成したユーザ指定ルールに対する検証を行わなくても、矛盾のない障害対処ルールを作成することができ、ユーザの負担を軽減することができる。
The user-specified
図3では、条件式に共通部分を有するユーザ指定ルールが2つある場合を示したが、そのようなユーザルールが3つ以上ある場合でも、図2および図4に示す処理により、矛盾のない障害対処ルールを作成することができる。図5は、条件式に共通部分を有するユーザ指定ルールが3つある場合における矛盾解消の具体例を示す説明図である。ステップS301までの処理は、既に説明した場合と同様である。ステップS302では、共通条件制御手段7は、図5に示すユーザ指定ルール501〜503を収集する。
Although FIG. 3 shows a case where there are two user-specified rules having a common part in the conditional expression, even if there are three or more such user rules, there is no contradiction by the processing shown in FIGS. Fault handling rules can be created. FIG. 5 is an explanatory diagram showing a specific example of conflict resolution when there are three user-specified rules having a common part in the conditional expression. The processing up to step S301 is the same as that already described. In step S302, the common
続く処理(ステップS304)で、ユーザ指定ルール501を第1ルールとして選択したとする。また、ステップS306で、ユーザ指定ルール502を第2ルールとして選択したとする。ステップS307では、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得るか否かを判定する。このとき、第1ルール(ここでは、ユーザ指定ルール501)および第2ルール(ここでは、ユーザ指定ルール502)との間には、いずれかの条件式に「状態Pになっていること」が条件として記述され、他方の条件式に「状態Pになっていないこと」が条件として記述されているという関係は成立していない。よって、第1ルールと第2ルールとが同時に成立し得ると判定し、ステップS308に移行する。ステップS308では、共通条件制御手段7は、第2ルールの条件式内の共通部分以外の条件を抽出する。共通部分は“状態A & 状態B”であるので、それ以外の条件である“状態C”を第2ルールから抽出する。そして、共通条件制御手段7は、その否定である“(NOT状態C)”と、第1ルールの条件式に記述されていた条件式“状態A & 状態B”とを“&”で結び、第1ルールの条件式を“状態A & 状態B & (NOT状態C)”とする。その後のステップS306で、ユーザ指定ルール503を第2ルールとして選択したとする。この場合も、ステップS307において、共通条件制御手段7は、第1ルールの条件式“状態A & 状態B & (NOT状態C)”と、第2ルールの条件式“状態A & 状態B & 状態D”とを参照し、第1ルールと第2ルールとが同時に成立し得ると判定する。そして、ステップS308では、共通条件制御手段7は、第2ルールの条件式内の共通部分以外の条件を抽出する。共通部分は“状態A & 状態B”であるので、それ以外の条件である“状態D”を第2ルールから抽出する。そして、共通条件制御手段7は、その否定である“(NOT状態D)”と、第1ルールの条件式に記述されていた条件式“状態A & 状態B & (NOT状態C)”とを“&”で結び、第1ルールの条件式を“状態A & 状態B & (NOT状態C) & (NOT状態D)”とする。この変更後のユーザ指定ルールを、図5では、ユーザ指定ルール501bとして示している。これまでユーザ指定ルールとして501と記していたユーザ指定ルールを、以降、ユーザ指定ルール501bと記す。
Assume that the user-specified rule 501 is selected as the first rule in the subsequent process (step S304). In step S306, it is assumed that the user-specified
次に、ユーザ指定ルール502を第1ルールとして選択したとする。また、ステップS306で、ユーザ指定ルール501bを第2ルールとして選択したとする。すると、第1ルールの条件式の中には“状態C”が記述され、第2ルールの条件式には“(NOT状態C)”が記述されている。よって、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得ないと判定し、ステップS305に移行する。次に、共通条件制御手段7は、ユーザ指定ルール503を第2ルールとして選択する。このとき、第1ルール(ここでは、ユーザ指定ルール502)および第2ルール(ここでは、ユーザ指定ルール503)との間には、いずれかの条件式に「状態Pになっていること」が条件として記述され、他方の条件式に「状態Pになっていないこと」が条件として記述されているという関係は成立していない(状態Pは、任意の障害発生状態)。よって、第1ルールと第2ルールとが同時に成立し得ると判定し、ステップS308に移行する。ステップS308では、共通条件制御手段7は、第2ルールの条件式内の共通部分以外の条件を抽出する。共通部分は“状態A & 状態B”であるので、それ以外の条件である“状態D”を第2ルールから抽出する。そして、共通条件制御手段7は、その否定である“(NOT状態D)”と、第1ルールの条件式に記述されていた条件式“状態A & 状態B & 状態C”とを“&”で結び、第1ルールの条件式を“状態A & 状態B & 状態C & (NOT状態D)”とする。この変更後のユーザ指定ルールを、図5では、ユーザ指定ルール502bとして示している。これまでユーザ指定ルールとして502と記していたユーザ指定ルールを、以降、ユーザ指定ルール502bと記す。
Next, it is assumed that the user-specified
次に、ユーザ指定ルール503を第1ルールとして選択したとする。また、ステップS306で、ユーザ指定ルール501bを第2ルールとして選択したとする。すると、第1ルールの条件式の中には“状態D”が記述され、第2ルールの条件式には“(NOT状態D)”が記述されている。よって、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得ないと判定し、ステップS305に移行する。次に、共通条件制御手段7は、ユーザ指定ルール502bを第2ルールとして選択したとする。この場合も、第1ルールの条件式の中には“状態D”が記述され、第2ルールの条件式には“(NOT状態D)”が記述されている。よって、共通条件制御手段7は、第1ルールと第2ルールとが同時に成立し得ないと判定し、ステップS305に移行する。従って、ユーザ指定ルール503の条件式は変更されない。共通条件制御手段7は、収集した3つのユーザ指定ルールをそれぞれ第1ルールとして選択したので、次にステップS303に移行したときにはNoと判定し、ステップS213(図2参照。)の処理を終了する。そして、ステップ214において、図5に示すユーザ指定ルール501b,502b,503を障害対処ルールとしてルール蓄積手段2に記憶させる。
Next, it is assumed that the user-specified
障害復旧システムは、サービス実行手段10の状態を検出し、その状態と、以上のようにルール蓄積手段2に記憶された障害対処ルールとに基づいて復旧処理コマンドを決定し、サービス実行手段10に対し、その復旧処理コマンドを実行する。図6は、サービス実行手段10の状態検出から、復旧処理コマンド実行までの処理経過を示すフローチャートである。
The failure recovery system detects the state of the
動作状態検出手段1は、サービス実行手段10の動作状態を検出し、通信ネットワークを介して対処方法検索手段3に動作状態の情報を送信する(ステップS201)。対処方法検索手段3は、動作状態検出手段1から現在の動作状態の情報を受信し、ルール蓄積手段2に蓄積されている各障害対処ルールの中に、条件式が満たされている障害対処ルールがあるか否かを判定する(ステップS202)。サービス実行手段10の動作状態によっていずれの障害対処ルールの条件式も満たされていない場合(ステップS202におけるNo)、障害が発生していないものとしてステップS201に移行し、ステップS201移行の処理を繰り返す。
The operation
サービス実行手段10の動作状態によって条件式が満たされる障害対処ルールが存在する場合には(ステップS202におけるYes)、対処方法検索手段3は、障害発生とみなして、その障害対処ルールに含まれる復旧処理コマンドの情報を抽出し、その情報を対話制御手段4に出力する。対話制御手段4は、GUIによって、その復旧処理コマンドの情報を出力し、その復旧処理コマンドを実行するか否かの決定をユーザ(管理者)に促す(ステップS203)。復旧処理コマンドを実行しない旨が管理者によって入力された場合、ステップS201に移行し、ステップS201以降の処理を繰り返す。なお、ユーザに適切な判断を行わせるために、GUIと併せて、サービス実行手段10の動作状態や、その動作状態によって満たされた条件式の情報等を表示出力してもよい。また、特定の復旧処理コマンドについては、管理者に問い合わせることなく自動的に実行してよいという設定を対話制御手段4に対して施しておいてもよい。この場合、対話制御手段4は、その特定の復旧処理コマンドの情報が入力されると、その復旧処理コマンドを実行するか否かの決定を促すGUIを表示することなく、その特定の復旧処理コマンドの情報をコマンド実行手段5に送信する。
When there is a failure handling rule that satisfies the conditional expression depending on the operation state of the service execution unit 10 (Yes in step S202), the handling
復旧処理コマンドを実行する旨が管理者によって入力された場合(ステップS203におけるYes)、対話制御手段4は、その復旧処理コマンドの情報をコマンド実行手段5に送信し、コマンド実行手段5はサービス実行手段10上でその復旧処理コマンドを実行する(ステップS204)。
When the administrator inputs that the recovery process command is to be executed (Yes in step S203), the
例えば、図3に示すルール501a,502が障害対処ルールとしてルール蓄積手段2に記憶されているとする。この場合、動作状態検出手段1によって、状態A,B,Cのいずれもが発生している場合、障害対処ルール502の条件式が満たされる。従って、対処方法検索手段3は、障害対処ルール502における復旧処理コマンドの情報である「対処手順B」を対話制御手段4に出力する。対話制御手段4は、GUIによって「対処手順B」の実行可否の決定を管理者に促し、実行する旨の指示が入力されると、「対処手順B」という情報をコマンド実行手段5に送信する。そして、コマンド実行手段5は、対処手順Bを実行する。その結果、状態A,B,Cがいずれも発生してしまっているという障害が復旧または回避されることになる。
For example, it is assumed that the
本実施の形態によれば、ユーザ指定ルールの修正(追加や変更等)の結果、条件式に共通部分を有するユーザ指定ルールが存在した場合、共通条件制御手段7が、ステップS301以降の処理を行い、矛盾がなくなるようにユーザ指定ルールの条件式を修正する。そして、共通条件制御手段7が、修正後のユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させる。従って、ユーザ(管理者)にとって、自らが作成したユーザ指定ルールに対する無矛盾性検証、ユーザ指定ルールの変更等の負担が大幅に軽減される。
According to the present embodiment, when there is a user-specified rule having a common part in the conditional expression as a result of the modification (addition or change) of the user-specified rule, the common condition control means 7 performs the processing after step S301. And correct the conditional expression of the user-specified rule so that there is no contradiction. Then, the common
また、管理者は自らが意図したユーザ指定ルールを作成すれば、そのユーザ指定ルールに基づく矛盾のない障害対処ルールが作成される。そして、障害復旧システムが図6に示す処理を実行する際には、障害対処ルールが作成されていればよく、管理者が障害対処ルールの全てを理解している必要はない。よって、管理者の負担が軽減される。障害対処ルールは、ステップS308で条件が新たに追加されている場合があるので、必ずしも管理者にとって理解しやすい記述とはなっていない。例えば、図5に示す例では、条件式に“(NOT状態C) & (NOT状態D)”が追加されているが、この追加条件は、管理者自身が記述したものではない。このような条件追加が多く行われた障害対処ルールを管理者が参照しても、本来何を目的としたルールであったのかを理解することが困難となる。しかし、上記のように、管理者はそのような障害対処ルールを理解する必要がないので、負担が軽減される。 Further, if the administrator creates a user-specified rule intended by the administrator, a failure handling rule without contradiction based on the user-specified rule is created. When the failure recovery system executes the processing shown in FIG. 6, it is sufficient that a failure handling rule is created, and the administrator does not need to understand all the failure handling rules. Therefore, the burden on the administrator is reduced. The failure handling rule is not necessarily a description that is easy for an administrator to understand because a condition may be newly added in step S308. For example, in the example shown in FIG. 5, “(NOT state C) & (NOT state D)” is added to the conditional expression, but this additional condition is not described by the administrator himself. Even if the administrator refers to a failure handling rule in which many conditions are added, it is difficult to understand what the rule was originally intended for. However, as described above, since the administrator does not need to understand such a failure handling rule, the burden is reduced.
また、共通条件制御手段7は、ステップS302で収集したユーザ指定ルールをバッファ等(図示せず。)に記憶させ、そのバッファ等においてユーザ指定ルールを行う。よって、ユーザ指定ルール蓄積手段6には、管理者によって入力されたユーザ指定ルールが変更されることなく記憶されている。対話制御手段4は、ユーザ指定ルール蓄積手段6に記憶されたユーザ指定ルールを管理者に提示する。この結果、管理者に、管理者自身が入力した理解容易なユーザ指定ルールを提示することになる。従って、管理者は、そのような理解容易なユーザ指定ルールを参照して、新たなユーザ指定ルールの追加やユーザ指定ルールの変更を効率よく行える。 The common condition control means 7 stores the user designation rules collected in step S302 in a buffer or the like (not shown), and executes the user designation rules in the buffer or the like. Therefore, the user-specified rule storage means 6 stores the user-specified rule input by the administrator without being changed. The dialogue control means 4 presents the user designation rules stored in the user designation rule storage means 6 to the administrator. As a result, easy-to-understand user-specified rules entered by the administrator himself / herself are presented to the administrator. Therefore, the administrator can efficiently add a new user-specified rule or change the user-specified rule with reference to such an easy-to-understand user-specified rule.
また、本発明では、条件式が満たされた障害対処ルールが存在した場合、対処方法検索手段3が、その条件式に対応する復旧処理コマンドの情報を出力し、その情報は対話制御手段4を介して、コマンド実行手段5に送信される。コマンド実行手段5は、受信した情報が示す復旧処理コマンドをサービス実行手段10に対して実行する。従って、サービス実行手段10における障害復旧や障害回避を迅速に行うことができる。
Further, in the present invention, when there is a failure handling rule that satisfies the conditional expression, the troubleshooting method search means 3 outputs information of the recovery processing command corresponding to the conditional expression, and the information is sent to the dialog control means 4. Via the command execution means 5. The
実施の形態2.
本発明の第2の実施の形態における障害復旧システムの構成は、図1に例示する構成と同様であり、図1を用いて第2の実施の形態について説明する。ただし、第2の実施の形態では、共通条件制御手段7は、第1の実施の形態における動作に加え、さらに他の動作も行う。
The configuration of the failure recovery system in the second exemplary embodiment of the present invention is the same as the configuration illustrated in FIG. 1, and the second exemplary embodiment will be described with reference to FIG. However, in the second embodiment, the common condition control means 7 performs other operations in addition to the operations in the first embodiment.
サービス実行手段10の状態検出から、復旧処理コマンド実行までの処理経過は、第1の実施の形態(図6参照。)と同様である。 The progress of the process from the state detection of the service execution means 10 to the execution of the recovery process command is the same as that in the first embodiment (see FIG. 6).
また、第2の実施の形態では、ユーザ指定ルールにおける復旧処理コマンドには、対処コマンドおよび準備コマンドが含まれているものとする。すなわち、対話制御手段4が、ユーザ(管理者)の操作に応じてユーザ指定ルールを入力する場合、その個々のユーザ指定ルールには、復旧処理コマンドの情報として対処コマンドおよび準備コマンドの情報がそれぞれ含まれているものとする。対処コマンドは、サービス実行手段10を障害から復旧させたり、障害発生を回避させたりするためのコマンドである。準備コマンドは、対処コマンド実行の準備を行うためのコマンドである。 In the second embodiment, it is assumed that the recovery processing command in the user-specified rule includes a countermeasure command and a preparation command. That is, when the dialogue control means 4 inputs a user designation rule in accordance with a user (administrator) operation, each of the user designation rules includes information on a handling command and a preparation command as information on a recovery process command. It shall be included. The coping command is a command for recovering the service execution means 10 from a failure or avoiding the occurrence of a failure. The preparation command is a command for preparing to execute a countermeasure command.
準備コマンドによる事前準備の例として、データのバックアップ、コマンドのダウンロード、切替用情報処理装置に対する準備等が挙げられる。切替用情報処理装置に対する準備の例として、例えば、サービス実行手段10が、障害発生時に用いられる切替用情報処理装置を含む複数の情報処理装置によって構成されるシステムである場合おける、切替用情報処理装置に対するソフトウェアインストール等が挙げられる。対処コマンドによる対処の例としては、サービス実行手段10の設定変更や、切替用情報処理装置への切り替え等が挙げられる。切替用情報処理装置への切り替えとは、障害が発生した情報処理装置ではなく切替用情報処理装置にデータが流れるようにサービス実行手段10内のデータ転送経路を切り替えることである。
Examples of advance preparation using a preparation command include data backup, command download, and preparation for a switching information processing apparatus. As an example of preparation for the switching information processing apparatus, for example, the switching information processing in the case where the service execution means 10 is a system configured by a plurality of information processing apparatuses including the switching information processing apparatus used when a failure occurs. For example, software installation for the apparatus. Examples of handling by the handling command include changing the setting of the
準備コマンドの特徴として、実行時間が比較的長いことが挙げられる。また、サービス実行手段10に対して準備コマンドを実行したとしても、サービス実行手段10を準備コマンド実行前の状態に戻すことができるという特徴がある。一方、対処コマンドの特徴として、対処コマンド実行後にサービス実行手段10が情報通信サービスを提供した場合、サービス実行手段10を対処コマンド実行前の状態に戻すことができないということが挙げられる。例えば、対処コマンドを実行したことにより、サービス実行手段10の設定が変更され、その後、サービス実行手段10が情報通信サービスを提供したとする。すると、情報通信サービスを提供に伴い、変更後の設定に基づいた新たなデータが生成されることになる。このとき、サービス実行手段10の設定自体は元の設定に戻すことができるが、その状態では、新たに生成されたデータに対する処理を行うことができない。このように設定を戻したとしても、設定変更後に生成されたデータが既に発生した状態になっているため、サービス実行手段10を対処コマンド実行前の状態に戻すことができない。よって、対処コマンドは、サービス実行手段10に対して不可逆な変更を加えるコマンドであると言える。
A characteristic of the preparation command is that the execution time is relatively long. Further, even if a preparation command is executed for the service execution means 10, the service execution means 10 can be returned to the state before execution of the preparation command. On the other hand, as a feature of the countermeasure command, when the service execution means 10 provides the information communication service after executing the countermeasure command, the service execution means 10 cannot be returned to the state before executing the countermeasure command. For example, it is assumed that the setting of the
ユーザ自身が作成したユーザ指定ルールにおける復旧処理コマンドの情報には、対処コマンドおよび準備コマンドの両方の情報が含まれているが、ルール蓄積手段2が記憶する復旧処理コマンドでは、対処コマンドと準備コマンドのうちのいずれか一方のみの情報が含まれていてもよい。また、復旧処理コマンドでは、対処コマンドと準備コマンドの両方の情報が含まれていてもよい。
The information of the recovery process command in the user-specified rule created by the user himself includes both information of the response command and the preparation command. However, in the recovery process command stored by the
共通条件制御手段7は、第1の実施の形態と同様に、ユーザ指定ルールの矛盾を解消して、ユーザ指定ルールが一意に識別されるようにする処理(図4に示すステップS301〜S308の処理)を実行する。本実施の形態では、共通条件制御手段7は、さらに以下の処理を行う。すなわち、一意に識別できるように条件式が変更されたユーザ指定ルールと、変更前のユーザ指定ルールとを比較し、変更されているユーザ指定ルールを特定する。そして、共通条件制御手段7は、その変更されたユーザ指定ルールの変更前の条件式を条件式とし、変更前の復旧処理コマンドに含まれる準備コマンドのみを復旧処理コマンドとする新たな障害対処ルールを作成する。また、共通条件制御手段7は、変更されたユーザ指定ルールにおいて復旧処理コマンドとして含まれている準備コマンドの情報を削除し、対処コマンドが残るように、さらにユーザ指定コマンドを変更する。共通条件制御手段7は、以上の処理を行ったユーザ指定コマンドおよび新たに作成した障害対処ルールを、障害対処ルールとしてルール蓄積手段2に記憶させる。
Similar to the first embodiment, the common
以下、第2の実施の形態の動作について説明する。図7は、ユーザ指定ルールが修正されたときにおけるマネージャ装置30(主に共通条件制御手段7)による処理経過の例を示すフローチャートである。また、図8は、ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。 The operation of the second embodiment will be described below. FIG. 7 is a flowchart showing an example of the progress of processing by the manager device 30 (mainly the common condition control means 7) when the user designation rule is modified. FIG. 8 is an explanatory diagram showing a specific example of a failure handling rule generation process based on user-specified rules.
まず、対話制御手段4は、ユーザの操作に応じて、ユーザ指定ルール蓄積手段6内のユーザ指定ルールに対して追加や変更等を行う(ステップS221)。ここでは、元々図8(a)に示すユーザ指定ルール601が記憶されていて、ステップS221において、対話制御手段4がユーザの操作に応じてユーザ指定ルール602を追加したものとする。ステップS221の結果、ユーザ指定ルール蓄積手段6には、ユーザ指定ルール601,602が記憶されている。本実施の形態では、ユーザ指定ルールにおける復旧処理コマンドの情報には、対処コマンドおよび準備コマンドの両方の情報が含まれる。図8(a)に示す例では、ユーザ指定ルール601は、「準備A(準備コマンド)」および「対処A(対処コマンド)」の情報を含んでいる。同様に、ユーザ指定ルール602は、「準備B(準備コマンド)」および「対処B(対処コマンド)」の情報を含んでいる
First, the
ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールが変更されると、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールの有無を判定する(ステップS222)。この処理は、第1の実施の形態におけるステップS212の処理と同様である。また、ステップS222において、条件式に共通部分を有するユーザ指定ルールがないと判定した場合(ステップS222におけるNo)、共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶しているユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させる(ステップS225)。ステップS222においてNoと判定し、ステップS225に移行する際の共通条件制御手段7の動作は、第1の実施の形態で、ステップS212の次にステップS214に移行する動作と同様である。
When the user designation rule stored in the user designation rule storage unit 6 is changed, the common
一方、ステップS222において、条件式に共通部分を有するユーザ指定ルールがあると判定した場合(ステップS222におけるYes)、共通条件制御手段7は、そのユーザ指定ルールを収集して、そのユーザ指定ルール間に矛盾がなくなるように、収集したユーザ指定ルールの条件式を変更する(ステップS223)。ステップS223の処理は、第1の実施の形態におけるステップS213の処理と同様である。より詳細には、ステップS223の処理として、第1の実施の形態で示したステップS301〜S308(図4参照。)と同様の処理を実行すればよい。ステップS223の結果、図8(a)に示すユーザ指定ルール601,602から、図8(b)に示すユーザ指定ルール601a,602aが生成される。
On the other hand, when it is determined in step S222 that there is a user-specified rule having a common part in the conditional expression (Yes in step S222), the common
ステップS223の後、共通条件制御手段7は、復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成や、対処コマンドのみを含むようにユーザ指定ルールを変更する処理を実行する(ステップS224)。そして、共通条件制御手段7は、ステップS224の結果得られた各ルール(ユーザ指定ルールや新たに作成した障害対処ルール)を、障害対処ルールとしてルール蓄積手段2に記憶させる(ステップS225)。なお、このとき、条件式に他のユーザ指定ルールとの共通部分がないユーザ指定ルールが存在していた場合、共通条件制御手段7は、そのユーザ指定ルールについては、そのまま障害対処ルールとしてルール蓄積手段2に記憶させる。
After step S223, the common condition control means 7 executes a process for creating a failure handling rule including only a preparation command as information of a recovery process command and changing a user-specified rule so as to include only a handling command (step S224). ). Then, the common
図9は、ステップS224の処理(復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成や、対処コマンドのみを含むようにユーザ指定ルールを変更する処理)の処理経過の一例を示す説明図である。ステップS223の処理により、図8(b)に例示するような一意に識別されるユーザ指定ルールを導出した後、共通条件制御手段7は、ステップS223の矛盾解消処理において条件式が変更されたユーザ指定ルールから準備コマンドの情報を削除する(ステップS321)。
FIG. 9 is a diagram illustrating an example of processing progress of the processing of step S224 (processing for creating a failure handling rule including only a preparation command as information of a recovery processing command, or changing a user-specified rule so as to include only a handling command). FIG. After deriving a user-specified rule that is uniquely identified as illustrated in FIG. 8B by the process of step S223, the common
ステップS321の後、共通条件制御手段7は、ステップS223の処理において条件式が変更されたユーザ指定ルールにおける元の(変更前の)ユーザ指定ルールを抽出する(ステップS322)。ユーザ指定ルール蓄積手段6には、ユーザによって作成されたユーザ指定ルールがそのまま記憶されているので、共通条件制御手段7は、ユーザ指定ルール蓄積手段6から変更前のユーザ指定ルールを読み込めばよい。
After step S321, the common condition control means 7 extracts the original (pre-change) user-specified rule in the user-specified rule whose conditional expression has been changed in the process of step S223 (step S322). Since the user-specified rule created by the user is stored as it is in the user-specified rule storage unit 6, the common
ステップS322の後、共通条件制御手段7は、ステップS322で抽出したユーザ指定ルール(条件式が変更されたユーザ指定ルールにおける元のユーザ指定ルール)の条件式と同一の条件式を有し、復旧処理コマンドの情報として、ステップS322で抽出したユーザ指定ルールに含まれる準備コマンドの情報を有する障害対処ルールを作成する(ステップS323)。 After step S322, the common condition control means 7 has the same conditional expression as the conditional expression of the user designation rule extracted in step S322 (the original user designation rule in the user designation rule in which the conditional expression is changed), and is restored. As the processing command information, a failure handling rule having preparation command information included in the user-specified rule extracted in step S322 is created (step S323).
共通部分を有するユーザ指定ルールのグループが複数存在した場合、それらの各グループについて、図9に示すステップS321以降の処理を行えばよい。そして、各グループについて、ステップS321以降の処理が終了した後、ステップS225に移行すればよい。 If there are a plurality of groups of user-specified rules having a common part, the processes in and after step S321 shown in FIG. 9 may be performed for each of these groups. Then, for each group, after the processing from step S321 is completed, the process may proceed to step S225.
図8を用いて、以上の処理を説明する。共通条件制御手段7は、ユーザ自身が作成したユーザ指定ルール601,602に基づいて、ステップS223の処理(より具体的には図4に示すステップS301〜S308の処理)を実行することにより、ユーザ指定ルール601a,602a(図8(b)参照。)を作成する。この作成過程は、第1の実施の形態において図3を用いて説明した場合と同様である。なお、図8(c)は、図9に示すステップS321〜S323の処理の後における各ルールを示す。 The above process will be described with reference to FIG. The common condition control means 7 executes the process of step S223 (more specifically, the processes of steps S301 to S308 shown in FIG. 4) based on the user designation rules 601 and 602 created by the user himself, thereby Designation rules 601a and 602a (see FIG. 8B) are created. This creation process is the same as that described with reference to FIG. 3 in the first embodiment. FIG. 8C shows each rule after the processing of steps S321 to S323 shown in FIG.
ユーザ指定ルール601a,602a作成後、共通条件制御手段7は、ステップS223の処理において条件式が変更されたユーザ指定ルールから準備コマンドの情報を削除する(ステップS321)。図8(b)に示すユーザ指定ルール601aは、図8(a)に示す条件式を変更し、“(NOT状態C)”をいう条件を追加して作成されている。従って、共通条件制御手段7は、ユーザ指定ルール601aから準備コマンドである「準備A」の情報を削除する。この結果を、図8(c)においてユーザ指定ルール601bとして示している。また、図8(b)に示すユーザ指定ルール602aは、元のユーザ指定ルール602と同一であり、変更されていない。従って、共通条件制御手段7は、ユーザ指定ルール602aからは準備コマンドの情報を削除しない。よって、図8(c)にユーザ指定ルール601bとして示しているように、復旧処理コマンドの情報として「準備B」が残される。
After creating the user designation rules 601a and 602a, the common
続く、ステップS322において、共通条件制御手段7は、ステップS223の処理において条件式が変更されたユーザ指定ルールにおける元の(変更前の)ユーザ指定ルールを抽出する。本例では、条件式が変更されたユーザ指定ルール601aの元のユーザ指定ルール601をユーザ指定ルール蓄積手段6から抽出すればよい。ユーザ指定ルール602aに関しては条件式が変更されていないので、その元のユーザ指定ルール602を抽出する必要はない。
Subsequently, in step S322, the common
次のステップS323では、共通条件制御手段7は、抽出したユーザ指定ルール601の条件式と同一の条件式“状態A & 状態B”を有し、復旧処理コマンドの情報として、抽出したユーザ指定ルール601に含まれる準備コマンドの情報(「準備A」)を有する障害対処ルールを作成する。図8(c)では、この障害対処ルールを、障害対処ルール603bとして示している。
In the next step S323, the common condition control means 7 has the same conditional expression “state A & state B” as the extracted conditional expression of the
以上の処理の結果、図8(c)に示すルール601b、602b、603bが生成される。共通条件制御手段7は、これらのルール601b、602b、603bを障害対処ルールとしてルール蓄積手段2に記憶させる(図7に示すステップS225)。
As a result of the above processing,
図8(b)に示すユーザ指定ルール601a,602aを障害対処ルールとした場合、「対処B」の実行タイミングは、「状態Aかつ状態Bかつ状態C」が検出された時点である。これは、ユーザ自身が作成したユーザ指定ルール602において規定されている「対処B」の実行タイミングと同一である。一方、「対処A」の実行タイミングは、「状態Aおよび状態Bであることが検出され、かつ状態Cでないこと」が検出された時点である。このタイミングは、ユーザ自身が作成したユーザ指定ルール601において規定されている「対処A」の実行タイミングよりも遅れる。状態Cが発生していないことを判定する分だけ条件式の判定時間がかかるためのである。
When the user-specified rules 601a and 602a shown in FIG. 8B are failure handling rules, the execution timing of “handling B” is the point in time when “state A and state B and state C” is detected. This is the same as the execution timing of “Countermeasure B” defined in the user designation rule 602 created by the user himself / herself. On the other hand, the execution timing of “Countermeasure A” is a point in time when “state A and state B are detected and not state C” is detected. This timing is later than the execution timing of “Countermeasure A” defined in the
第2の実施の形態によれば、図8(a),(b)に示すユーザ指定ルールを用いてステップS224(より具体的には図9に示すステップS321〜S323)を行い、図8(c)に例示するルール601b,602b,603cを生成する。そして、このルール群を障害対処ルールとする。この場合、「状態Aかつ状態B」が検出された時点で、「準備A」が実行される。その後、状態Cが発生しているか否かが判定された時に、「準備B、対処B」または「対処A」が選択的に実行される。「準備A」の実行タイミングは、ユーザ自身が作成したユーザ指定ルール601において規定されている「準備A、対処A」の実行タイミングと同一である。従って、第2の実施の形態によれば、比較的実行時間のかかる「準備A」の実行タイミングを、ユーザ自身が作成したユーザ指定ルールにおいて規定されている実行タイミングにあわせることができ、対処の実行の遅れを緩和することができる。
According to the second embodiment, steps S224 (more specifically, steps S321 to S323 shown in FIG. 9) are performed using the user designation rules shown in FIGS. 8A and 8B, and FIG.
図8では、ステップS221(図7参照。)後において、条件式に共通部分を有するユーザ指定ルールが2つある場合を示したが、そのようなユーザルールが3つ以上ある場合でも、同様に処理を行う。以下、ステップS221(図7参照。)後において、条件式に共通部分を有するユーザ指定ルールが3つである場合を例に説明する。図10は、ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。図10(a)は、ステップS221後におけるユーザ指定ルールを表し、図10(b)は、ステップS223の矛盾解消処理後のユーザ指定ルールを表す。図10(a)に示すユーザ指定ルール611〜613に基づいて、図10(b)に示すユーザ指定ルール611a〜613aを導出する処理は、図5を用いて説明した場合と同様である。
FIG. 8 shows a case where there are two user-specified rules having a common part in the conditional expression after step S221 (see FIG. 7), but even when there are three or more such user rules, the same applies. Process. Hereinafter, an example will be described in which, after step S221 (see FIG. 7), there are three user-specified rules having a common part in the conditional expression. FIG. 10 is an explanatory diagram illustrating a specific example of a failure handling rule generation process based on a user-specified rule. FIG. 10A represents the user designation rule after step S221, and FIG. 10B represents the user designation rule after the contradiction resolution processing in step S223. The process of deriving the
図10(b)に示すユーザ指定ルール611a〜613aの作成後、共通条件制御手段7は、ステップS223で条件式が変更されたユーザ指定ルールから準備コマンドの情報を削除する(ステップS321)。図10(b)に示すユーザ指定ルール611aは、図10(a)に示す条件式を変更し、“(NOT状態C) & (NOT状態D)”という条件を追加して作成されている。従って、共通条件制御手段7は、ユーザ指定ルール611aから「準備A」の情報を削除する。この結果を図10(c)においてユーザ指定ルール611bとして示している。同様に、共通条件制御手段7は、ユーザ指定ルール612aから「準備B」の情報を削除する。この結果を図10(c)においてユーザ指定ルール612bとして示している。また、図10(b)に示すユーザ指定ルール613aは、元のユーザ指定ルール613と同一であり、変更されていない。従って、共通条件制御手段7は、ユーザ指定ルール613aからは準備コマンドの情報を削除しない。よって、図10(c)にユーザ指定ルール613bとして示しているように、復旧処理コマンドの情報として「準備C」が残される。
After creating the
続く、ステップS322において、共通条件制御手段7は、ステップS223の処理で条件式が変更されたユーザ指定ルールにおける元の(変更前の)ユーザ指定ルールを抽出する。本例では、条件式が変更されたユーザ指定ルール611a,612aの元のユーザ指定ルール611,612をユーザ指定ルール蓄積手段6から抽出すればよい。ユーザ指定ルール613aに関しては条件式が変更されていないので、その元のユーザ指定ルール613を抽出する必要はない。
Subsequently, in step S322, the common condition control means 7 extracts the original (pre-change) user-specified rule in the user-specified rule whose conditional expression has been changed in the process of step S223. In this example, the original user designation rules 611 and 612 of the
次のステップS323では、共通条件制御手段7は、抽出したユーザ指定ルール611の条件式と同一の条件式“状態A & 状態B”を有し、復旧処理コマンドの情報として、抽出したユーザ指定ルール611に含まれる準備コマンドの情報(「準備A」)を有する障害対処ルールを作成する。図10(c)では、この障害対処ルールを、障害対処ルール614bとして示している。同様に、共通条件制御手段7は、抽出したユーザ指定ルール612の条件式と同一の条件式“状態A & 状態B & 状態C”を有し、復旧処理コマンドの情報として、抽出したユーザ指定ルール612に含まれる準備コマンドの情報(「準備B」)を有する障害対処ルールを作成する。図10(c)では、この障害対処ルールを、障害対処ルール615bとして示している。
In the next step S323, the common condition control means 7 has the same conditional expression “state A & state B” as the extracted conditional expression of the
以上の処理の後、共通条件制御手段7は、図10(c)に示す各ルールを障害対処ルールとしてルール蓄積手段2に記憶させる。
After the above processing, the common
第2の実施の形態によれば、共通条件制御手段7が、ユーザ指定ルールの矛盾を解消した後、ステップS224(より具体的には図9に示すステップS321〜S323)の処理を行う。従って、ユーザが作成したユーザ指定ルールが規定するタイミングで準備コマンドを実行して対処コマンドの実行の遅れを緩和することができる。
According to the second embodiment, the common
次に、第2の実施の形態の変形例について説明する。図8(c)に示すような障害対処ルールを作成した場合、状態A,B,Cを全て検知した場合には、「準備A」を実行し、「準備B、対処B」も実行することになる。この場合、「準備A」と「準備B」の実行が何らかの競合を引き起こし、サービス実行手段10に好ましくない動作を行わせる場合が発生する場合もある。また、図8(b)に例示するユーザ指定ルール(ステップS223後のユーザ指定ルール)を障害対処ルールとして使用した場合であっても、「対処A」の遅れが問題にならない場合もある。そこで、まず、ステップS223の矛盾解消処理の結果得られるユーザ指定ルールを障害対処ルールとしてルール蓄積手段2に記憶させてもよい。そして、ステップS223の矛盾解消処理において条件式に変更を加えたルールにおける対処コマンドの実行に失敗したときに、復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成等(図7に示すステップS224に相当する処理)を実行してもよい。
Next, a modification of the second embodiment will be described. When a failure handling rule as shown in FIG. 8C is created, if all the states A, B, and C are detected, “preparation A” is executed, and “preparation B, handling B” is also executed. become. In this case, execution of “preparation A” and “preparation B” may cause some kind of conflict, and may cause the
図11は、上記の変形例におけるマネージャ装置30(主に共通条件制御手段7)による処理経過の例を示すフローチャートである。図7に示す処理と同様の処理に関しては、図7と同様の符号を付して、詳細な説明を省略する。本変形例では、図11に示すように、矛盾解消処理(ステップS223)の結果得られるユーザ指定ルールを障害対処ルールとして記憶する(ステップS225)。すなわち、ステップS225では、図8(b)や図10(b)に例示するルールを障害対処ルールとしてルール蓄積手段に蓄積する。 FIG. 11 is a flowchart showing an example of processing progress by the manager device 30 (mainly the common condition control means 7) in the above modification. 7 are denoted by the same reference numerals as those in FIG. 7, and detailed description thereof is omitted. In this modified example, as shown in FIG. 11, the user-specified rule obtained as a result of the contradiction resolution process (step S223) is stored as a failure handling rule (step S225). That is, in step S225, the rules illustrated in FIG. 8B and FIG. 10B are stored in the rule storage unit as failure handling rules.
その後、矛盾解消処理(ステップS223)において条件式が変更されたルールにおける準備コマンドおよび対処コマンドを、対処方法検索手段3が検索し、対話制御手段4がその準備コマンドおよび対処コマンドの情報をコマンド実行手段5に送信して、その準備コマンドおよび対処コマンドが実行されたとする。動作状態検出手段1は、対処コマンド実行後の動作状態を検出して、その動作状態の情報を対処方法検索手段3に送信する。対処方法検索手段3は、その動作状態の情報と、各障害対処ルールの条件式とを照合して、障害が発生している状態か否かを判定する。障害が発生している状態であれば、対処コマンドの実行が遅れ、対処コマンドの実行に失敗したことになる。障害が発生していなければ、対処コマンドの実行タイミングが、ユーザ自身が作成したユーザ指定ルールにおいて規定されているタイミングより遅れても、対処コマンドの実行に成功したことになる。対処方法検索手段3は、このように、対処コマンドの実行に成功したか否かを判定する(ステップS226)。ステップS226で、対処コマンドの実行に成功したと判定した場合には、ステップS221に移行し、ステップS221以降の処理を繰り返せばよい。
Thereafter, the coping
一方、ステップS226で、対処コマンドの実行に失敗したとする(ステップS226におけるNo)。この場合、共通条件制御手段7は、ステップS227の処理として以下の処理を実行する。共通条件制御手段7は、ルール蓄積手段2に記憶させた障害対処ルールのうち、ステップS223の矛盾解消処理において条件式に変更が加えられていたルールから、準備コマンドの情報を削除する。例えば、ステップS223,S225の処理の結果、図8(b)に示す各ルール601a,602aが障害対処ルールとしてルール蓄積手段2に記憶されていたとする。この例では、ステップS223の矛盾解消処理において条件式に変更が加えられていたルールは、ルール601aである。従って、共通条件制御手段7は、障害対処ルールとしてルール蓄積手段2に記憶されたルール601から準備コマンドの情報である「準備A」を削除し、図8(c)に示すルール601bになるように障害対処ルールを書き換える。
On the other hand, it is assumed that execution of the countermeasure command has failed in step S226 (No in step S226). In this case, the common condition control means 7 performs the following process as the process of step S227. The common
また、復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールを作成し、その障害対処ルールをルール蓄積手段2に追加記憶させる。この障害対処ルール作成処理は、図9に示すステップS322,323と同様に行えばよい。すなわち、共通条件制御手段7は、ステップS223の処理において条件式が変更されたユーザ指定ルールにおける元の(変更前の)ユーザ指定ルールを抽出する。そして、共通条件制御手段7は、その抽出したユーザ指定ルールの条件式と同一の条件式を有し、復旧処理コマンドの情報として、抽出したユーザ指定ルールに含まれる準備コマンドの情報を有する障害対処ルールを作成すればよい。以上の処理を、ステップS227の処理として行い、その後ステップS221に移行する。
In addition, a failure handling rule including only the preparation command as information of the recovery processing command is created, and the failure handling rule is additionally stored in the
以上のような変形例によれば、準備コマンド同士の競合により、サービス実行手段10に好ましくない動作を行わせることを防止できる。
According to the modified example as described above, it is possible to prevent the
また、第2の実施の形態の他の変形例は、図9に示す処理において、ステップS323の後、競合する準備コマンドが同時に実行されることがある場合に、準備コマンドの前に、競合する準備コマンドの実行を取り消す取消コマンドの情報を付加する形態である。なお、準備コマンドの実行を取り消すとは、その準備コマンド実行前の状態に戻すことである。 Further, in another modification of the second embodiment, in the process shown in FIG. 9, if a conflicting preparation command may be executed at the same time after step S 323, a conflict occurs before the preparation command. In this form, information on a cancel command for canceling execution of the preparation command is added. Note that canceling the execution of the preparation command means returning to the state before the execution of the preparation command.
図12は、本変形例におけるステップS224の処理(復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成や、対処コマンドのみを含むようにユーザ指定ルールを変更する処理)の処理経過の一例を示す説明図である。図9に示す処理と同様の処理については、図9と同一の符号を付して説明を省略する。 FIG. 12 shows the progress of the processing of step S224 in this modification (processing for creating a failure handling rule that includes only a preparation command as information of a recovery processing command, or changing a user-specified rule to include only a handling command). It is explanatory drawing which shows an example. The same processes as those shown in FIG. 9 are denoted by the same reference numerals as those in FIG.
ステップS323の後、共通条件制御手段7は、ステップS323によって得られた各ルールのうち、準備コマンドが競合するルールが存在するか否かを判定する(ステップS324)。ステップS324において、共通条件制御手段7は、まず、準備コマンドの情報を含むルールであって、同時に成立し得るルールを選択する。ここで同時に成立し得ることは、あるルールの条件式では「状態Pになっていること」が条件として記述され、他のルールの条件式では「状態Pになっていないこと」が条件として記述されていることに基づいて判定すればよい(状態Pは、任意の障害発生状態)。そして、共通条件制御手段7は、選択した各ルールの準備コマンドが競合するか否かを判定すればよい。なお、競合する準備コマンドの情報は、例えば、マネージャ装置が備える記憶装置(図示せず。)に予め記憶させておけばよい。
After step S323, the common
準備コマンドの情報を含むルールであって、同時に成立し得るルールを選択し、そのルールの準備コマンドが競合するものでなければ(ステップS324におけるNo)、処理を終了する。 A rule including information on a preparation command that can be established at the same time is selected, and if the preparation command for the rule does not conflict (No in step S324), the process ends.
準備コマンドが競合する場合(ステップS324におけるYes)、共通条件制御手段7は、準備コマンドが競合するルールに、準備コマンドの実行を取り消す取消コマンドの情報を追加する(ステップS325)。具体的には、共通条件制御手段7は、対処コマンドの情報を含むルールの準備コマンドの情報の前に、その準備コマンドと競合する準備コマンドの取消コマンドの情報を追加する。その後、共通条件制御手段7は、以上の処理の結果得られるルールを障害対処ルールとしてルール蓄積手段2に記憶させる(図7に示すステップS225)。なお、共通部分を有するユーザ指定ルールのグループが複数存在した場合、それらの各グループについて、図12に示すステップS321以降の処理を行えばよい。そして、各グループについて、ステップS321以降の処理が終了した後、ステップS225に移行すればよい。
When the preparation command conflicts (Yes in step S324), the common
例えば、ステップS323の結果、図8(c)に示すルール601b,602b,603bが生成されていたとする。ステップS323の後、共通条件制御手段7は、準備コマンドの情報を含むルールであって、同時に成立し得るルールを選択する。本例では、共通条件制御手段7は、図8(c)に示すルール602b,603bを選択する。そして、共通条件制御手段7は、選択したルールの準備コマンドが競合するか否かを判定する(ステップS324)。ここでは、ルール602bにおける「準備B」とルール603bにおける「準備A」とが競合するか否かを判定する。
For example, it is assumed that the
「準備B」と「準備A」とが競合しなければ、処理を終了する。「準備B」と「準備A」とが競合する場合には、共通条件制御手段7は、対処コマンドの情報を含むルール602bの準備コマンド「準備B」の情報の前に、その準備コマンドと競合する準備コマンド「準備A」の取消コマンド「取消A」の情報を追加する。この結果得られるルール群の例を図13に示す。対処コマンドの情報を含むルール602bの準備コマンドの前に取消コマンド「取消A」を追加したルールを、図13では、ルール602cとして示している。
If “Preparation B” and “Preparation A” do not conflict, the process ends. When “preparation B” and “preparation A” conflict, the common
なお、図11に示すステップS227において、図12に示すステップS321〜S325の処理を実行してもよい。 In addition, in step S227 shown in FIG. 11, you may perform the process of step S321-S325 shown in FIG.
また、図7に示すフローチャートでは、ステップS222においてYesと判定した場合、矛盾解消処理(ステップS223)を実行する。第2の実施の形態の他の変形例として、共通条件制御手段7が、ステップS222においてYesと判定した場合、条件式に共通部分を有する各ユーザ指定ルールを、準備コマンドの情報を有するユーザ指定ルールと、対処コマンドの情報を有するユーザ指定ルールに分離し、その後、ステップS223の処理を実行し、ステップS225に移行してもよい。
In the flowchart shown in FIG. 7, when it is determined Yes in step S222, a contradiction resolution process (step S223) is executed. As another modified example of the second embodiment, when the common
本変形例では、ステップS222においてYesと判定した場合、共通条件制御手段7は、例えば、図8(a)に例示するユーザ指定ルール601を、条件式が“状態A & 状態B”であり、「準備A」の情報を含むルールと、条件式が“状態A & 状態B”であり、「準備B」の情報を含むルールとに分離する。同様に、図8(a)に例示するユーザ指定ルール602についても分離する。そして、ステップS223の処理を実行し、ステップS225に移行する。
In this modification, when it is determined Yes in step S222, the common
実施の形態3.
図14は、本発明の第3の実施の形態を示すブロック図である。第1の実施の形態や第2の実施の形態と同様の構成部については、図1と同一の符号を付し、説明を省略する。ただし、第2の実施の形態では、共通条件制御手段7は、第2の実施の形態における動作に加え、さらに他の動作も行う。また、本実施の形態では、エージェント装置20は、検出要素制御手段8を備える。
FIG. 14 is a block diagram showing a third embodiment of the present invention. Components similar to those in the first embodiment and the second embodiment are denoted by the same reference numerals as those in FIG. However, in the second embodiment, the common condition control means 7 performs other operations in addition to the operations in the second embodiment. In the present embodiment, the
本実施の形態では、第2の実施の形態と同様に、ユーザ自身が作成したユーザ指定ルールにおける復旧処理コマンドの情報には、対処コマンドおよび準備コマンドの両方の情報が含まれる。また、ユーザ指定ルールに基づいて作成される復旧処理コマンドには、準備コマンドや対処コマンドの他に、検出コマンドが含まれる場合がある。検出コマンドは、サービス実行手段10の動作状態の検出を動作状態検出手段1に変更させるためのコマンドである。例えば、動作状態検出手段1が、サービス実行手段10に「状態C」が発生しているか否かを検出していないとする。この場合、検出要素制御手段8が、検出コマンド(ここでは「検出C」とする。)を受け取ると、検出要素制御手段8が動作状態検出手段1に対し「状態C」が発生しているか否かの検出を指示する。動作状態検出手段1は、この指示に応じて「状態C」が発生しているか否かの検出を開始し、その検出結果を対処方法検索手段3に出力する。
In the present embodiment, as in the second embodiment, the information of the recovery process command in the user designation rule created by the user himself includes information on both the handling command and the preparation command. In addition, the recovery processing command created based on the user-specified rule may include a detection command in addition to the preparation command and the handling command. The detection command is a command for causing the operation
共通条件制御手段7は、複数のユーザ指定ルールの条件式の共通部分を条件式とし、その複数のユーザ指定ルールの共通部分以外に記述された状態が発生しているか否かを検出するための検出コマンドの情報を含む障害対処ルールを作成する。 The common condition control means 7 uses a common part of conditional expressions of a plurality of user-specified rules as a conditional expression, and detects whether a state described in a part other than the common part of the plurality of user-specified rules has occurred. Create a failure handling rule that includes information about detection commands.
また、共通条件制御手段7は、第1の実施の形態や第2の実施の形態と同様に、ユーザ指定ルールの矛盾を解消して、ユーザ指定ルールが一意に識別されるようにする処理(図4に示すステップS301〜S308の処理)を実行する。ただし、共通条件制御手段7は、対処コマンドの情報を含むユーザ指定ルールを対象として、上記の矛盾解消処理を行う。従って、検出コマンドの情報を含んでいるが対処コマンドの情報を含んでいないルール等は、矛盾解消処理の対象外となる。 Further, the common condition control means 7 is a process for resolving the contradiction of the user-specified rule and uniquely identifying the user-specified rule (similar to the first and second embodiments). Steps S301 to S308 shown in FIG. 4 are executed. However, the common condition control means 7 performs the above-described contradiction resolution process for a user-specified rule including information on the handling command. Accordingly, a rule that includes information on a detected command but does not include information on a handling command is not subject to conflict resolution processing.
また、共通条件制御手段7は、第2の実施の形態におけるステップS224(より具体的には図9に示すステップS321〜S323)と同様の処理を行い、ユーザ指定ルールから準備コマンドを削除したり、準備コマンドを含む新たな障害対処ルールを作成したりする。 Further, the common condition control means 7 performs the same processing as step S224 (more specifically, steps S321 to S323 shown in FIG. 9) in the second embodiment, and deletes the preparation command from the user-specified rule. Or create a new failure handling rule that includes a prepare command.
また、共通条件制御手段7は、導出した各ルールを障害対処ルールとしてルール蓄積手段2に記憶させる前に、条件式が同一であるルールを1つにまとめる処理を行う。
Further, the common
対処方法検索手段3が、検出コマンドの情報を対話制御手段4に出力し、対話制御手段4もその検出コマンドの情報をコマンド実行手段5に出力したとする。コマンド実行手段5は、検出コマンドの情報を受信した場合には、その情報が示す検出コマンドを検出要素制御手段8に出力する。検出要素制御手段8は、コマンド実行手段5から検出コマンドを受け取ると、その検出コマンドに応じて、動作状態検出手段1に検出する動作を変更させる。例えば、動作状態検出手段1に新たな動作状態の検出を行わせる。
It is assumed that the handling
検出要素制御手段8は、例えば、動作状態検出手段1等と同様に、コンピュータと障害復旧プログラムによって実現することができる。また、検出要素制御手段8をハードウェア装置によって実現してもよい。 The detection element control means 8 can be realized by a computer and a failure recovery program, for example, like the operation state detection means 1 and the like. Further, the detection element control means 8 may be realized by a hardware device.
以下、第3の実施の形態の動作について説明する。図15は、ユーザ指定ルールが修正されたときにおけるマネージャ装置30(主に共通条件制御手段7)による処理経過の例を示すフローチャートである。図7に示す処理と同様の処理については、図7と同様の符号を付して説明を省略する。 The operation of the third embodiment will be described below. FIG. 15 is a flowchart showing an example of the progress of processing by the manager device 30 (mainly the common condition control means 7) when the user-specified rule is modified. The same processes as those shown in FIG. 7 are denoted by the same reference numerals as those in FIG.
ステップS222において、条件式に共通部分を有するユーザ指定ルールがあると判定した場合(ステップS222におけるYes)、共通条件制御手段7は、共通部分を条件式とし、検出コマンドを含む障害対処ルールを作成する(ステップS222a)。図16は、この検出コマンドを含む障害対処ルール作成処理(ステップS222a)の処理経過の例を示すフローチャートである。共通条件制御手段7は、検出コマンドを含む障害対処ルールを作成する際、まず、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールを収集する(ステップS341)。次に、共通条件制御手段7は、収集したユーザ指定ルールの条件式の共通部分を条件式とし、その各ユーザ指定ルールの条件式の共通部分以外に記述された状態が発生しているか否かを検出するための検出コマンドの情報を含む障害対処ルールを作成する(ステップS342)。以上の処理によって、ステップS222aの処理を終了する。なお、共通部分を有するユーザ指定ルールのグループが複数存在した場合、それらの各グループについて、ステップS342の処理を実行すればよい。
If it is determined in step S222 that there is a user-specified rule having a common part in the conditional expression (Yes in step S222), the common condition control means 7 creates a fault handling rule including the detection command using the common part as a conditional expression. (Step S222a). FIG. 16 is a flowchart showing an example of processing progress of the failure handling rule creation processing (step S222a) including this detection command. When creating the failure handling rule including the detection command, the common
ステップS222aの後、共通条件制御手段7は、各ユーザ指定ルール間に矛盾がなくなるように、収集したユーザ指定ルールの条件式を変更する(ステップS223)。この処理は、第2の実施の形態におけるステップS223(図7参照。)と同様である。すなわち、図4に示すステップS301〜S308と同様の処理を実行すればよい。ただし、ユーザ指定ルールの収集処理(図4に示すステップS302)に相当する処理は、図16に示すステップS341で実行しているので、ステップS302の処理は省略してよい。また、本実施の形態では、共通条件制御手段7は、条件式に共通部分を有するユーザ指定ルールであって、対処コマンドの情報を含むユーザ指定ルールを対象として、ステップS223の矛盾解消処理を行う。上記のステップS222aで作成されたルールには、対処コマンドの情報は含まれないので、ステップS222aで作成されたルールの条件式が、ステップS223で変更されることはない。
After step S222a, the common
ステップS223の後、共通条件制御手段7は、復旧処理コマンドの情報として準備コマンドのみを含む障害対処ルールの作成や、対処コマンドのみを含むようにユーザ指定ルールを変更する処理を実行する(ステップS224)。この処理は、第2の実施の形態におけるステップS224(図7参照。)と同様である。すなわち、図9に示すステップS321〜S323と同様の処理を実行すればよい。ただし、共通条件制御手段7は、ステップS222aで作成した検出コマンドの情報を含む障害対処ルールに対しては、何ら処理を行わない。従って、ステップS222aで作成されたルールの条件式が、ステップS224で変更されることはない。
After step S223, the common condition control means 7 executes a process for creating a failure handling rule including only a preparation command as information of a recovery process command and changing a user-specified rule so as to include only a handling command (step S224). ). This process is the same as step S224 (see FIG. 7) in the second embodiment. That is, the same processing as steps S321 to S323 shown in FIG. However, the common
続いて、共通条件制御手段7は、ステップS224の結果得られた各ルールと、ステップS222aで作成した障害対処ルールのうち、条件式が同一のものがあれば、そのルールを1つのルールにまとめる(ステップS224a)。例えば、条件式が“状態A & 状態B”であり、「検出C」という検出コマンドの情報を含むルールと、条件式が“状態A & 状態B”であり、「準備A」という準備コマンドの情報を含むルールとが存在したとする。この場合、共通条件制御手段7は、この2つのルールをまとめて、条件式が“状態A & 状態B”であり、「検出C、準備A」を含むルールを作成する。
Subsequently, the common
ステップS224aにおいてまとめられるルールをまとめた後、各ルールを、障害対処ルールとしてルール蓄積手段2に記憶させる(ステップS225)。なお、このとき、条件式に他のユーザ指定ルールとの共通部分がないユーザ指定ルールが存在していた場合、共通条件制御手段7は、そのユーザ指定ルールについては、そのまま障害対処ルールとしてルール蓄積手段2に記憶させる。
After the rules to be collected in step S224a are collected, each rule is stored in the
図17および図18を用いて、以上の処理を説明する。図17および図18は、ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。ユーザ指定ルール蓄積手段6は、初期状態において、図17(a)に示すユーザ指定ルールを記憶しているとする。そして、ステップS221において、対話制御手段4が、ユーザの操作に応じて、図17(b)に示すユーザ指定ルール702を追加したとする。すると、ステップS222aにおいて、共通条件制御手段7は、ユーザ指定ルール701,702を収集する。そして、共通条件制御手段7は、その2つのユーザ指定ルール701,702の条件式の共通部分である“状態A & 状態B”を条件式とし、ユーザ指定ルール701,702の条件式の共通部分以外に記述された状態(本例では状態C)が発生しているか否かを検出するための検出コマンド(「検出C」とする。)の情報を含む障害対処ルールを作成する。図17(c)では、このルールを障害対処ルール751として示している。
The above process will be described with reference to FIGS. 17 and 18. 17 and 18 are explanatory diagrams illustrating a specific example of the failure handling rule generation process based on the user-specified rule. Assume that the user designation rule storage means 6 stores the user designation rules shown in FIG. 17A in the initial state. In step S221, it is assumed that the
次のステップS223では、共通条件制御手段7は、図17(c)に示すユーザ指定ルール701,702に基づいて、図18(a)に示すユーザ指定ルール701a,702aを導出する。この導出過程は、図8(a)に示すユーザ指定ルールから図8(b)に示すユーザ指定ルールを導出する過程と同様である。なお、障害対処ルール751には対処コマンドの情報が含まれないので、ステップS223の処理対象とされない。 In the next step S223, the common condition control means 7 derives user designation rules 701a and 702a shown in FIG. 18A based on the user designation rules 701 and 702 shown in FIG. This derivation process is the same as the process of deriving the user designation rule shown in FIG. 8B from the user designation rule shown in FIG. Note that since the failure handling rule 751 does not include information on the handling command, the failure handling rule 751 is not a processing target in step S223.
次のステップS224では、共通条件制御手段7は、図18(a)に示すユーザ指定ルール701a,702aに基づいて、図18(b)に示すルール701b,702b,703bを導出する。この導出過程は、図8(b)に示すユーザ指定ルールから、図8(c)に示す各ルールを導出する過程と同様である。なお、ステップS224において、共通条件制御手段7は、検出コマンドの情報を含む障害対処ルール751に対しては、何ら処理を行わない。
In the next step S224, the common condition control means 7 derives
次の、ステップS224aでは、共通条件制御手段7は、ステップS224で得られた各ルール701b,702b,703bと、ステップS222aで作成した障害対処ルール751のうち、条件式が同一のものがあれば、そのルールを1つにまとめる。本例では、図18(b)に示す障害対処ルール751,703bの条件式が同一であるので、この2つのルールをまとめ、図18(c)に示す障害対処ルール752を生成する。その後、共通条件制御手段7は、図18(c)に示す各ルールを障害対処ルールとして、ルール蓄積手段2に記憶させる。
In the next step S224a, the common condition control means 7 determines that if the
他の具体例について説明する。図19および図20も、ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。ステップS221の後、ユーザ指定ルール蓄積手段6に、図19(a)に示すユーザ指定ルール801,802が記憶されているとする。すると、ステップS222aにおいて、共通条件制御手段7は、ユーザ指定ルール801,802を収集する。そして、共通条件制御手段7は、その2つのユーザ指定ルール801,802の条件式の共通部分である“状態A & 状態B”を条件式とし、ユーザ指定ルール801,802の条件式の共通部分以外に記述された状態(本例では状態C、状態D)が発生しているか否かを検出するための各検出コマンドの情報を含む障害対処ルールを作成する。ここでは、状態Cが発生しているか否かを検出するための検出コマンドを「検出C」、状態Dが発生しているか否かを検出するための検出コマンドを「検出D」とする。図19(b)では、このルールを障害対処ルール851として示している。
Another specific example will be described. 19 and 20 are also explanatory diagrams illustrating a specific example of the failure handling rule generation process based on the user-specified rule. After step S221, it is assumed that user designation rules 801 and 802 shown in FIG. Then, in step S222a, the common
次のステップS223では、共通条件制御手段7は、図19(b)に示すユーザ指定ルール801,802に基づいて、図20(a)に示すユーザ指定ルール801a,802aを導出する。なお、障害対処ルール851には対処コマンドの情報が含まれないので、ステップS223の処理対象とされない。
In the next step S223, the common condition control means 7 derives
次のステップS224では、共通条件制御手段7は、図20(a)に示すユーザ指定ルール801a,802aに基づいて、図20(b)に示すルール801b,802b,803bを導出する。なお、ステップS224において、共通条件制御手段7は、検出コマンドの情報を含む障害対処ルール751に対しては、何ら処理を行わない。
In the next step S224, the common condition control means 7 derives
ステップS224aでは、共通条件制御手段7は、ステップS224で得られた各ルール801b,802b,803bと、ステップS222aで作成した障害対処ルール851のうち、条件式が同一のものがあれば、そのルールを1つにまとめる。本例では、条件式が同一となるものがないので、ルールをまとめることはない。続いて、共通条件制御手段7は、図20(b)に示す各ルールを障害対処ルールとして、ルール蓄積手段2に記憶させる。
In step S224a, if the common condition control means 7 has the same conditional expression among the
なお、図17に示す具体例では、初期状態として“状態A & 状態B”を条件式とするユーザ指定ルール701が記憶され、続いて、その条件式“状態A & 状態B”を包含する条件式“状態A & 状態B & 状態C”を有するユーザ指定ルール702が追加された場合を示している。一方、図19(a)に示すユーザ指定ルール801,802では、一方の条件式が他方の条件式を包含しているわけではない。
In the specific example shown in FIG. 17, a user-specified rule 701 having “state A & state B” as a conditional expression is stored as an initial state, and then a condition including the conditional expression “state A & state B” is stored. A case where a user-specified rule 702 having the expression “state A & state B & state C” is added is shown. On the other hand, in the user-specified
既に記憶されているユーザ指定ルールの条件式を包含する条件式を有するユーザ指定ルールを追加した場合、元々記憶されていたユーザ指定ルールの条件式全体が、条件式の共通部分となる。例えば、図17に示す例では、元々記憶されていたユーザ指定ルール701の条件式全体(“状態A & 状態B”)が、追加されたユーザ指定ルール702の条件式との共通部分になっている。 When a user-specified rule having a conditional expression including a conditional expression of a user-specified rule that has already been stored is added, the entire conditional expression of the user-specified rule that has been stored originally becomes a common part of the conditional expression. For example, in the example shown in FIG. 17, the entire conditional expression (“state A & state B”) of the user-specified rule 701 originally stored is a common part with the added conditional expression of the user-specified rule 702. Yes.
ユーザ(管理者)が、新たにユーザ指定ルールを追加する場合、既にユーザ指定ルール蓄積手段6に記憶されているユーザ指定ルールの条件式を包含する条件式を有するユーザ指定ルールを追加することが多いと考えられる。従って、元々記憶されていたユーザ指定ルールの条件式全体が、条件式の共通部分となることが多いと考えられる。 When a user (administrator) newly adds a user-specified rule, a user-specified rule having a conditional expression including a conditional expression of the user-specified rule already stored in the user-specified rule accumulating unit 6 may be added. It is thought that there are many. Therefore, it is considered that the entire conditional expression of the user-specified rule that was originally stored often becomes a common part of the conditional expression.
あるユーザ指定ルールの条件式全体が、複数のユーザ指定ルールの条件式の共通部分となる場合、図15に示すステップS222aにおいて、以下のような処理を行ってもよい。共通条件制御手段7は、ユーザ指定ルール蓄積手段6が記憶するユーザ指定ルールのうち、条件式に共通部分を有するユーザ指定ルールを収集する。このユーザ指定ルールの中には、条件式全体が、各ユーザ指定ルールの条件式の共通部分となっているユーザ指定ルールが存在する。このユーザ指定ルールをKとし、ユーザ指定ルールKの条件式をJとする。Jは、条件式の共通部分でもある。共通条件制御手段7は、Jを条件式とし、各ユーザ指定ルールの条件式のうちJ以外の部分に記述された状態が発生しているか否かを検出するための検出コマンドの情報を含む障害対処ルールを作成する。さらに、共通条件制御手段7は、作成した障害対処ルールに対し、ユーザ指定ルールKに含まれる準備コマンドの情報も付加する。この結果、検出コマンドおよび準備コマンドの情報を有する障害対処ルールが作成される。また、共通条件制御手段7は、ユーザ指定ルールKから準備コマンドの情報を削除する。共通条件制御手段7は、以上の処理をステップS222aとして行う。 When the entire conditional expression of a certain user-specified rule is a common part of the conditional expressions of a plurality of user-specified rules, the following processing may be performed in step S222a shown in FIG. The common condition control means 7 collects user designation rules having a common part in the conditional expression among the user designation rules stored by the user designation rule storage means 6. Among these user-specified rules, there is a user-specified rule in which the entire conditional expression is a common part of the conditional expressions of each user-specified rule. This user designation rule is K, and the conditional expression of the user designation rule K is J. J is also a common part of the conditional expression. The common condition control means 7 uses J as a conditional expression, and a failure including information on a detection command for detecting whether or not a state described in a part other than J is generated in the conditional expression of each user-specified rule Create action rules. Furthermore, the common condition control means 7 also adds information on the preparation command included in the user-specified rule K to the created failure handling rule. As a result, a failure handling rule having information on the detection command and the preparation command is created. Further, the common condition control means 7 deletes the preparation command information from the user-specified rule K. The common condition control means 7 performs the above process as step S222a.
この後、ステップS223に移行するが、ステップS223終了後は、ステップS224,S224aの処理を行わずに、ステップS225に移行する。 Thereafter, the process proceeds to step S223, but after step S223 ends, the process proceeds to step S225 without performing the processes in steps S224 and S224a.
図21を用いて、以上の処理の具体例を説明する。図21は、ユーザ指定ルールに基づく障害対処ルール生成過程の具体例を示す説明図である。ユーザ指定ルール蓄積手段6は、初期状態において、図21(a)に示すユーザ指定ルール901を記憶していて、その後、図21(a)に示すユーザ指定ルール902が追加記憶されたとする。本例では、ユーザ指定ルール901の条件式全体が、複数のユーザ指定ルール901,902の条件式の共通部分となる。従って、ユーザ指定ルール901が、上記の説明におけるユーザ指定ルールKとなり、その条件式“状態A & 状態B”が上記の説明におけるJに相当する。 A specific example of the above processing will be described with reference to FIG. FIG. 21 is an explanatory diagram illustrating a specific example of a failure handling rule generation process based on a user-specified rule. Assume that the user designation rule storage means 6 stores the user designation rule 901 shown in FIG. 21A in the initial state, and then the user designation rule 902 shown in FIG. 21A is additionally stored. In this example, the entire conditional expression of the user specification rule 901 becomes a common part of the conditional expressions of the plurality of user specification rules 901 and 902. Therefore, the user designation rule 901 becomes the user designation rule K in the above description, and the conditional expression “state A & state B” corresponds to J in the above description.
共通条件制御手段7は、ステップS222aにおいて、図21(a)に示すユーザ指定ルール901,902を収集する。そして、共通条件制御手段7は、ユーザ指定ルール901の条件式J(すなわち、“状態A & 状態B”)を条件式とし、各各ユーザ指定ルールの条件式のうちJ以外の部分に記述された状態(本例では状態C)が発生しているか否かを検出するための検出コマンド(「検出C」とする。)の情報を含む障害対処ルールを作成する。さらに、共通条件制御手段7は、ユーザ指定ルール901に含まれる準備コマンドの情報(準備A)を、その障害対処ルールに付加する。この結果得られるルールを、図21(b)において障害対処ルール951として示している。
In step S222a, the common
また、共通条件制御手段7は、ユーザ指定ルール901(ユーザ指定ルールK)から準備コマンドの情報を削除する。この結果得られるルールを、図21(b)において障害対処ルール901aとして示している。図21(b)は、ステップS222a終了後の各ルールの状態を示している。なお、図21(b)に示すユーザ指定ルール902aは、図21(a)に示すユーザ指定ルール901と同一である。
Further, the common condition control means 7 deletes the information on the preparation command from the user designation rule 901 (user designation rule K). The rule obtained as a result is shown as a
次のステップS223では、共通条件制御手段7は、図21(b)に示すユーザ指定ルール901a,902aに基づいて、図21(c)に示すユーザ指定ルール901b,902bを導出する。なお、障害対処ルール951には対処コマンドの情報が含まれないので、ステップS223の処理対象とされない。
In the next step S223, the common condition control means 7 derives user designation rules 901b and 902b shown in FIG. 21 (c) based on the
本例では、ステップS224,S224aの処理を行わない。よって、ステップS223の結果得られた各ルール(図21(c)参照。)を障害対処ルールとしてルール蓄積手段2に記憶させる。
In this example, steps S224 and S224a are not performed. Therefore, each rule (see FIG. 21C) obtained as a result of step S223 is stored in the
次に、本実施の形態における障害復旧動作の例について説明する。本実施の形態における障害復旧動作は、図6に示す動作と同様である。ただし、ステップS203において、復旧処理コマンドを実行する旨が入力され、対話制御手段4は、その復旧処理コマンドの情報をコマンド実行手段5に送信するときに、復旧処理コマンドの情報として検出コマンドの情報が含まれていたとする。この場合、対話制御手段4は、検出コマンドを含む復旧処理コマンドの情報を送信し、コマンド実行手段5は、その情報を受信する。コマンド実行手段5は、受信した情報が示す復旧処理コマンドのうち、準備コマンド、対処コマンドについては、第1の実施の形態と同様に、サービス実行手段10上でそれらのコマンドを実行する(ステップS204)。ただし、コマンド実行手段5は、検出コマンドについては、ステップS204で検出要素制御手段8に出力する。
Next, an example of the failure recovery operation in this embodiment will be described. The failure recovery operation in the present embodiment is the same as the operation shown in FIG. However, in step S203, the execution of the recovery process command is input, and when the
検出要素制御手段8は、コマンド実行手段5が出力する検出コマンドに応じて、動作状態検出手段1に動作状態検出手段1に検出する動作状態を変更させる。すると、動作状態検出手段1は、新たにサービス実行手段10の動作状態を検出し、その動作状態の情報を対処方法検索手段3に送信する(ステップS201)。以降、同様の動作を繰り返す。
The detection element control unit 8 causes the operation
以下に、具体例を示す。図21(c)に示すルール901b,902b,951が障害対処ルールとして、ルール蓄積手段2に記憶されているものとする。
A specific example is shown below. It is assumed that the
動作状態検出手段1は、サービス実行手段10の動作状態として「状態Aかつ状態B」を検出すると、その動作状態の情報を対処方法検索手段3に送信する(ステップS201)。対処方法検索手段3は、その動作状態の情報を受信し、ルール蓄積手段2に蓄積されている各障害対処ルールの中に、条件式が満たされている障害対処ルールがあるか否かを判定する(ステップS202)。本例では、図21(c)に示す障害対処ルール951の条件式が満たされる(ステップS202におけるYes)。そこで、対処方法検索手段3は、障害対処ルール951に含まれる「検出C、準備A」という復旧処理コマンドの情報を、対話制御手段4に出力する。対話制御手段4は、「検出C、準備A」を実行する旨の指示をユーザから受けると(ステップS203におけるYes)、「検出C、準備A」という情報をコマンド実行手段5に送信する。コマンド実行手段5は、サービス実行手段10上で「準備A」を実行するとともに、検出コマンドである「検出C」を検出要素制御手段8に出力する(ステップ204)。
When the operation
検出要素制御手段8は、この検出コマンド「検出C」を受け取り、動作状態検出手段1に状態検出方法の変更を指示する。本例では、「検出C」を受け取った場合は、動作状態検出手段1に対して、新たに「状態C」が発生しているか否かを検出するようにに指示するものとする。動作状態検出手段1は、この指示に応じて「状態C」が生じているか否かの検出を開始し、その検出結果を対処方法検索手段3に送信する(ステップ201)。このとき、対処方法検索手段3は、既に「状態Aかつ状態B」が生じていることを認識している。従って、「状態C」の真偽によって、対処方法検索手段3は、図21(c)に示す障害対処ルール901b,902bのいずれの条件式が満たされているかを判定する(ステップS202)。そして、条件式が満たされている方の障害対処ルールに含まれる復旧処理コマンドの情報(「対処A」または「準備B、対処B」)を出力する。対話制御手段4は、その復旧処理コマンドを実行するか否かの決定をユーザに促し、復旧処理コマンドを実行する旨の指示を受けたならば(ステップS203におけるYes)、復旧処理コマンドの情報をコマンド実行手段5に送信する。コマンド実行手段5は、受信した情報が示す復旧処理コマンド(ここでは「対処A」または「準備B、対処B」)をサービス実行手段10上で実行する(ステップS204)。
The detection element control means 8 receives this detection command “detection C” and instructs the operation state detection means 1 to change the state detection method. In this example, when “detection C” is received, the operation
このように本実施の形態によれば、第1、第2の実施の形態で説明した条件式の修正に加えて、動作状態検出手段1が検出対象とする動作状態を変更することができる。例えば、図21に示すユーザ指定ルール902が追加される前では、動作状態検出手段1は、「状態A」が生じているか否かおよび「状態B」が生じているか否かを検出していればよかった。新たに図21に示すユーザ指定ルール902の追加に伴い、仮に障害対処ルール901b,902bだけがルール蓄積手段2に追加されると、「状態C」が発生しているか否かについても検出しなければならないため、エージェント装置20の処理負荷が大きくなる。このように、障害対処ルールの数が増加すると、検出すべき要素の種類も増加し、障害復旧システムの処理負荷が大きくなり、その結果、サービス実行手段10の効率低下を引き起こす場合がある。本実施の形態では、共通条件制御手段7が、ユーザ指定ルールの条件式の共通部分を条件式とし、その各ユーザ指定ルールの条件式の共通部分以外に記述された状態が発生しているか否かを検出するための検出コマンドの情報を含む障害対処ルールを作成する。従って、常時監視する動作状態は、条件式の共通部分に記述された動作状態のみとすることができる。そして、各条件式の共通部分に相当する条件が満たされたときに、対処方法検索手段3が、各条件式の共通部分を条件式とする障害対処ルールに含まれる検出コマンドの情報を出力し、その検出コマンドに応じた動作状態の検出が開始される。このように、常時監視する動作状態を、条件式の共通部分に記述された動作状態のみとすることができるので、障害復旧システム(特にエージェント装置20)の監視負荷を大幅に低減することができる。
As described above, according to the present embodiment, in addition to the modification of the conditional expressions described in the first and second embodiments, the operation state to be detected by the operation
また、上記の第3の実施の形態の説明では、ステップS202(図6参照。)において、対処方法検索手段3が、ルール蓄積手段2に蓄積されている各障害対処ルールの中に、条件式が満たされている障害対処ルールがあるか否かを判定するものとして説明した。対処方法検索手段3は、条件式が満たされているか否かを判定する際、ルール蓄積手段2に記憶されている障害対処ルールの一部を判定の対象外とし、条件式が満たされた障害対処ルールが生じたときに、条件式が満たされているか否かの判定対象となる障害対処ルールを増加していってもよい。具体的には、対処方法検索手段3は、検出コマンドの情報が復旧処理コマンドの情報として含まれている障害対処ルールが存在する場合、その検出コマンドによって検出が開始される動作状態を条件式に含む障害対処ルールを、条件式が満たされているか否かの判定対象から外していてもよい。そして、検出コマンドの情報が復旧処理コマンドの情報として含まれている障害対処ルールの条件式が満たされた後、その検出コマンドによって検出が開始される動作状態を条件式に含む障害対処ルールを、条件式が満たされているか否かの判定対象に含めてもよい。
In the description of the third embodiment, in step S202 (see FIG. 6), the handling
例えば、図21(c)に示す3つの障害対処ルール901b,902b,951が、ルール蓄積手段2に記憶されているとする。この場合、検出コマンドの情報「検出C」が含まれている障害対処ルール951が存在する。従って、対処方法検索手段3は、当初、「検出C」によって検出が開始される動作状態(本例では、“状態C”、“NOT状態C”)を条件式に含む障害対処ルール901b,902bを、条件式が満たされているか否かの判定対象から外していてもよい。このとき、対処方法検索手段3は、図21(c)に示す全ての障害対処ルールについて、条件式が満たされているか否かを判定する必要がないので、対処方法検索手段3の処理負荷は軽減される。
For example, it is assumed that the three failure handling rules 901b, 902b, and 951 shown in FIG. In this case, there is a
その後、「検出C」という情報を含む障害対処ルール951の条件式が満たされた後、対処方法検索手段3は、その検出コマンドによって検出が開始される動作状態(“状態C”、“NOT状態C”)を条件式に含む障害対処ルール901b,902bを、条件式が満たされているか否かの判定対象に含める。
Thereafter, after the conditional expression of the
このように、条件式が満たされているか否かの判定対象外となる障害対処ルールを定めておき、条件式が満たされた障害対処ルールが生じたときに、条件式が満たされているか否かの判定対象となる障害対処ルールを増加させることにより、当初は、条件式が満たされているか否かの判定対象となる障害対処ルールの数を抑えることができ、対処方法検索手段3の処理負荷を抑えることができる。 In this way, a failure handling rule that is not subject to determination as to whether or not the conditional expression is satisfied is determined, and when a failure handling rule that satisfies the conditional expression occurs, whether or not the conditional expression is satisfied By increasing the number of failure handling rules that are subject to determination, the number of failure handling rules that are subject to determination as to whether or not the conditional expression is satisfied can be initially reduced. The load can be suppressed.
また、上記の説明では、コマンド実行手段5が検出コマンドの情報を受信して検出要素制御手段8に対して検出コマンドを出力することにより、検出要素制御手段8が、動作状態検出手段1に、検出コマンドに応じた動作状態が発生しているか否かの検出開始を指示する場合を示した。すなわち、検出コマンドが、その検出コマンドに応じた動作状態の検出開始のトリガとなるものとして説明した。検出コマンドの情報を含む障害対処ルールの条件式が満たされている間は、対処方法検索手段1から、対処制御手段4、コマンド実行手段5、検出要素制御手段8を介して、動作状態検出手段1に検出クエリを出力し続けてもよい。そして、動作状態検出手段1は、検出クエリが出力され続けている間、その検出クエリに応じた動作状態が発生しているか否かを検出する構成であってもよい。ただし、対話制御手段4が、検出クエリを出力しない旨の指示を受けた場合には、対話制御手段4は、検出クエリの出力を停止する。
In the above description, when the
また、検出コマンドの情報の含む障害対処ルールの条件式が満たされなくなった時には、対処方法検索手段3は、その検出コマンドに応じて開始された動作状態の検出を中止させる中止コマンドの情報を出力してもよい。対話制御手段4は、他のコマンドの情報と同様に、中止コマンドの情報をコマンド実行手段に送信する。コマンド実行手段5は、中止コマンドの情報を受信した場合、その中止コマンドを検出要素制御手段8に出力する。検出要素制御手段8は、中止コマンドを受けると、その中止コマンドに対応する動作状態の検出中止を動作状態検出手段1に指示する。動作状態検出手段1は、この指示に応じて、動作状態が発生しているか否かの検出を中止する。
In addition, when the condition formula of the failure handling rule included in the detection command information is not satisfied, the handling
例えば、状態Aおよび状態Bが真となり、図21(c)に示す障害対処ルール951に基づいて、対処方法検索手段3が、「検出C、準備A」という情報を出力したとする。その結果、動作状態検出手段1は、「状態C」が発生しているか否かの検出を開始する。その後、状態Aおよび状態Bのいずれかが偽(発生していない状態)となり、障害対処ルール951の条件式が満たされなくなったとする。このとき、対処方法検索手段3は、「状態C」が発生しているか否かの検出を中止させる中止コマンドの情報を対話制御手段4に出力する。対話制御手段4は、他のコマンドの情報と同様に、この中止コマンドの情報をコマンド実行手段5に送信する。コマンド実行手段5は、この情報を受信すると、「状態C」が発生しているか否かの検出を中止させる中止コマンドを検出要素制御手段8に出力する。すると、検出要素制御手段8は、「状態C」が発生しているか否かの検出の中止を動作状態検出手段1に出力し、動作状態検出手段1は、「状態C」が発生しているか否かの検出を中止する。
For example, it is assumed that the state A and the state B are true, and the coping
検出クエリを出力したり、中止コマンドを出力したりする場合であっても、第3の実施の形態と同様の効果を得ることができる。 Even when a detection query is output or a stop command is output, the same effect as in the third embodiment can be obtained.
なお、上記の各実施の形態では、マネージャ装置30とエージェント装置20とを備える構成として説明したが、マネージャ装置30とエージェント装置20とを一体化した装置として、障害復旧システムを実現してもよい。
In each of the above embodiments, the configuration including the
1 動作状態検出手段
2 ルール蓄積手段
3 対処方法検索手段
4 対話制御手段
5 コマンド実行手段
6 ユーザ指定ルール蓄積手段
7 共通条件制御手段
8 検出要素制御手段
10 サービス実行手段
20 エージェント装置
30 マネージャ装置
DESCRIPTION OF
Claims (13)
障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段と、
条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成手段とを備えた
ことを特徴とする障害復旧システム。 When the operation state of the information processing system satisfies a conditional expression of a rule created in advance, a failure recovery system that executes a recovery processing command defined by a rule that satisfies the conditional expression,
A user-specified rule that stores a user-specified rule that is a rule created by the user, which is a rule having information on a recovery processing command, with the condition of the operation state of the information processing system regarded as a failure occurrence or a precursor of the failure as a conditional expression Storage means;
A simultaneous failure rule creating means for creating a rule in which the conditional expression of the user-specified rule is changed so that the conditional expression of each user-specified rule having a common part in the conditional expression is not satisfied at the same time Recovery system.
ユーザ指定ルールの条件式を変更したルールとして同時不成立ルール作成手段に作成されたルールから準備コマンドの情報を削除するとともに、条件式に共通部分を有する各ユーザ指定ルールにおける前記共通部分を条件式とし、条件式を変更することによって作成されたルールの元となったユーザ指定ルールが有する準備コマンドの情報を有する準備ルールを作成する準備ルール作成手段を備えた
請求項1に記載の障害復旧システム。 The user-specified rule storage means stores a user-specified rule having information on a recovery command or a recovery command for recovering from a failure or avoiding a failure and information on a preparation command for preparing to execute the response command,
The information of the preparation command is deleted from the rule created in the simultaneous failure rule creation means as a rule in which the conditional expression of the user-specified rule is changed, and the common part in each user-specified rule having a common part in the conditional expression is used as a conditional expression. The failure recovery system according to claim 1, further comprising preparation rule creation means for creating a preparation rule having information on a preparation command included in a user-specified rule that is a basis of a rule created by changing a conditional expression.
請求項2に記載の障害復旧システム。 The preparation rule creation means is created in the simultaneous failure rule creation means as a rule in which the conditional expression of the user-specified rule is changed when execution of the countermeasure command selected based on the rule created by the simultaneous failure rule creation means fails. User information specified in the rule created by changing the conditional expression with the common part of each user-specified rule having a common part in the conditional expression as a conditional expression. The failure recovery system according to claim 2, wherein a preparation rule having information on a preparation command included in the rule is created.
請求項2または請求項3に記載の障害復旧システム。 The preparation coping rules when the preparatory coping rules having the preparatory command and coping command information and the conditional expressions of the preparatory rules having the preparatory command information may be satisfied at the same time, and it is determined that the preparative commands compete with each other. The failure recovery system according to claim 2, further comprising cancellation command information adding means for adding cancellation command information for instructing execution cancellation of the preparation command of the preparation rule.
請求項2に記載の障害復旧システム。 The common part in each user-specified rule having a common part in the conditional expression is used as a conditional expression, and it is instructed to detect whether or not an operation state other than the common part occurs in the conditional expression of each user-specified rule. The failure recovery system according to claim 2, further comprising detection rule creation means for creating a detection rule having information on a detection command to be performed.
請求項1に記載の障害復旧システム。 When the entire conditional expression of one user-specified rule is a common part of the conditional expressions of a plurality of user-specified rules, the common part is defined as a conditional expression, and the common expression among the conditional expressions of the plurality of user-specified rules A detection rule having detection command information for instructing detection of whether or not an operation state other than the part has occurred, and information on a preparation command included in the one user-specified rule; The failure recovery system according to claim 1, further comprising a detection rule creating unit that creates a rule in which information on a preparation command is deleted from a user-specified rule.
前記動作状態検出手段によって検出された動作状態によって条件式が満足されるルールを特定し、前記ルールが有する復旧処理コマンドの情報を出力する対処方法検索手段と、
前記対処方法検索手段が復旧処理コマンドの情報として検出コマンドの情報を出力した場合に、前記検出コマンドに応じた動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検出手段に指示する検出要素制御手段とを備えた
請求項5または請求項6に記載の障害復旧システム。 An operation state detection means for detecting an operation state of the information processing system;
A coping method search unit that specifies a rule that satisfies a conditional expression according to the operation state detected by the operation state detection unit, and outputs information of a recovery process command included in the rule;
When the coping method retrieval unit outputs detection command information as recovery process command information, the operation state detection unit detects whether an operation state corresponding to the detection command has occurred in the information processing system. The failure recovery system according to claim 5, further comprising: a detection element control unit that instructs
前記動作状態検出手段によって検出された動作状態によって条件式が満足されるルールを特定し、前記ルールが有する復旧処理コマンドの情報を出力する対処方法検索手段とを備え、
前記対処方法検索手段は、検出ルールの条件式が満足されるまでは、前記検出ルールが有する検出コマンドの情報に対応する動作状態を条件式に含むルールを、条件式が満足されているか否かの判定対象から外す
請求項5から請求項7のうちのいずれか1項に記載の障害復旧システム。 An operation state detection means for detecting an operation state of the information processing system;
A coping method search unit that specifies a rule that satisfies a conditional expression according to the operation state detected by the operation state detection unit, and outputs information of a recovery process command included in the rule,
The coping method search means determines whether or not the conditional expression satisfies a rule including an operation state corresponding to information of a detection command included in the detection rule in the conditional expression until the conditional expression of the detection rule is satisfied. The failure recovery system according to any one of claims 5 to 7.
障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶するユーザ指定ルール蓄積手段と、
条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成手段とを備えた
ことを特徴とする障害復旧装置。 When the operation state of the information processing system satisfies a conditional expression of a rule created in advance, a failure recovery apparatus that outputs information of a recovery processing command defined by a rule that satisfies the conditional expression,
A user-specified rule that stores a user-specified rule that is a rule created by the user, which is a rule having information on a recovery processing command, with the condition of the operation state of the information processing system regarded as a failure occurrence or a precursor of the failure as a conditional expression Storage means;
A simultaneous failure rule creating means for creating a rule in which the conditional expression of the user-specified rule is changed so that the conditional expression of each user-specified rule having a common part in the conditional expression is not satisfied at the same time Recovery device.
前記情報処理システムの動作状態を検出する動作状態検出手段と、
復旧処理コマンドの情報を受信し、前記情報が示す復旧処理コマンドを実行するコマンド実行手段と、
コマンド実行手段が、復旧処理コマンドとして、所定の動作状態が発生しているか否かの検出を指示する検出コマンドを受信した場合に、前記動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検出手段に指示する検出要素制御手段とを備えた
ことを特徴とする障害復旧装置。 A failure recovery device that causes the information processing system to recover from a failure or avoid a failure by executing a recovery processing command to the information processing system,
Operating state detecting means for detecting an operating state of the information processing system;
Command execution means for receiving the information of the recovery process command and executing the recovery process command indicated by the information;
Whether or not the operation state has occurred in the information processing system when the command execution means receives a detection command instructing detection of whether or not a predetermined operation state has occurred as a recovery process command A failure recovery apparatus comprising: a detection element control unit that instructs the operation state detection unit to detect.
ユーザ指定ルール蓄積手段が、障害発生または障害発生の前兆と見なされる情報処理システムの動作状態を条件式とし、復旧処理コマンドの情報を有するルールであって、ユーザによって作成されたルールであるユーザ指定ルールを記憶し、
同時不成立ルール作成手段が、条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する
ことを特徴とするルール作成方法。 A rule creation method that is applied to a failure recovery system that executes a recovery processing command defined by a rule that satisfies a conditional expression when an operation state of the information processing system satisfies a conditional expression of a rule that is created in advance. ,
User-specified rule storage means is a rule that contains information on recovery processing commands, with the condition of the operation status of the information processing system regarded as a failure occurrence or a precursor to the failure as a conditional expression, and a user-specified rule that is a rule created by the user Remember the rules,
The rule creation method characterized in that the simultaneous failure rule creation means creates a rule in which the conditional expression of the user-specified rule is changed so that the conditional expression of each user-specified rule having a common part in the conditional expression is not satisfied at the same time .
条件式に共通部分を有する各ユーザ指定ルールの条件式が同時に満足されないように、前記ユーザ指定ルールの条件式を変更したルールを作成する同時不成立ルール作成処理
を実行させるための障害復旧プログラム。 A computer that outputs information of a recovery process command determined by a rule that satisfies a conditional expression when the operating state of the information processing system satisfies a conditional expression of a rule that is created in advance. A computer provided with user-specified rule storage means for storing a user-specified rule that is a rule having information on a recovery processing command, which is based on the operating state of the information processing system regarded as a precursor, and having a recovery process command information In addition,
A failure recovery program for executing a simultaneous failure rule creation process for creating a rule in which a conditional expression of a user-specified rule is changed so that a conditional expression of each user-specified rule having a common part in the conditional expression is not satisfied simultaneously.
前記情報処理システムの動作状態を検出する動作状態検処理、
復旧処理コマンドの情報を受信し、前記情報が示す復旧処理コマンドを実行するコマンド実行処理、および
復旧処理コマンドとして、所定の動作状態が発生しているか否かの検出を指示する検出コマンドを受信した場合に、前記動作状態が前記情報処理システムに発生しているか否かの検出を前記動作状態検処理で開始させる検出要素制御処理
を実行させるための障害復旧プログラム。 A computer that causes the information processing system to recover from a failure or avoid a failure by executing a recovery processing command to the information processing system,
An operation state detection process for detecting an operation state of the information processing system;
Receiving the information of the recovery process command, the command execution process for executing the recovery process command indicated by the information, and the detection command for instructing the detection of whether or not a predetermined operation state has occurred as the recovery process command A failure recovery program for executing detection element control processing for starting detection of whether or not the operation state has occurred in the information processing system by the operation state detection processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005062817A JP4239989B2 (en) | 2005-03-07 | 2005-03-07 | Fault recovery system, fault recovery device, rule creation method, and fault recovery program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005062817A JP4239989B2 (en) | 2005-03-07 | 2005-03-07 | Fault recovery system, fault recovery device, rule creation method, and fault recovery program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006244404A true JP2006244404A (en) | 2006-09-14 |
JP4239989B2 JP4239989B2 (en) | 2009-03-18 |
Family
ID=37050735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005062817A Expired - Fee Related JP4239989B2 (en) | 2005-03-07 | 2005-03-07 | Fault recovery system, fault recovery device, rule creation method, and fault recovery program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4239989B2 (en) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008111428A1 (en) * | 2007-03-14 | 2008-09-18 | Nec Corporation | Operation management device, operation management method, and operation management program |
JP2009032052A (en) * | 2007-07-27 | 2009-02-12 | Ns Solutions Corp | Information processor, information processing method and program |
JP2009048403A (en) * | 2007-08-20 | 2009-03-05 | Hitachi Information Systems Ltd | System failure recovery device, command generation method therefor, and program thereof |
JP2010072834A (en) * | 2008-09-17 | 2010-04-02 | Fujitsu Ltd | Trouble handling program and device |
JP2011076293A (en) * | 2009-09-30 | 2011-04-14 | Hitachi Ltd | Method, device and system of displaying root cause analysis result of obstacle |
JP2012008775A (en) * | 2010-06-24 | 2012-01-12 | Fuji Xerox Co Ltd | Information processing device and program |
CN102346756A (en) * | 2010-12-24 | 2012-02-08 | 镇江诺尼基智能技术有限公司 | Device failure solution knowledge management and search system and method |
JP2012124803A (en) * | 2010-12-10 | 2012-06-28 | Alaxala Networks Corp | Network repeater and network repeater control method |
WO2014171047A1 (en) * | 2013-04-17 | 2014-10-23 | 日本電気株式会社 | Fault recovery routine generating device, fault recovery routine generating method, and fault recovery routine generating program |
JP2017097879A (en) * | 2015-11-24 | 2017-06-01 | 株式会社日立製作所 | Method and system for verifying rule of failure cause analysis system in cloud environment |
-
2005
- 2005-03-07 JP JP2005062817A patent/JP4239989B2/en not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8332344B2 (en) | 2007-03-14 | 2012-12-11 | Nec Corporation | Operation management apparatus, operation management method, and operation management program |
WO2008111428A1 (en) * | 2007-03-14 | 2008-09-18 | Nec Corporation | Operation management device, operation management method, and operation management program |
JP5126698B2 (en) * | 2007-03-14 | 2013-01-23 | 日本電気株式会社 | Operation management apparatus, operation management method, and operation management program |
JP2009032052A (en) * | 2007-07-27 | 2009-02-12 | Ns Solutions Corp | Information processor, information processing method and program |
JP2009048403A (en) * | 2007-08-20 | 2009-03-05 | Hitachi Information Systems Ltd | System failure recovery device, command generation method therefor, and program thereof |
JP2010072834A (en) * | 2008-09-17 | 2010-04-02 | Fujitsu Ltd | Trouble handling program and device |
JP2011076293A (en) * | 2009-09-30 | 2011-04-14 | Hitachi Ltd | Method, device and system of displaying root cause analysis result of obstacle |
JP2012008775A (en) * | 2010-06-24 | 2012-01-12 | Fuji Xerox Co Ltd | Information processing device and program |
JP2012124803A (en) * | 2010-12-10 | 2012-06-28 | Alaxala Networks Corp | Network repeater and network repeater control method |
CN102346756A (en) * | 2010-12-24 | 2012-02-08 | 镇江诺尼基智能技术有限公司 | Device failure solution knowledge management and search system and method |
CN102346756B (en) * | 2010-12-24 | 2013-04-03 | 镇江诺尼基智能技术有限公司 | Device failure solution knowledge management and search system and method |
WO2014171047A1 (en) * | 2013-04-17 | 2014-10-23 | 日本電気株式会社 | Fault recovery routine generating device, fault recovery routine generating method, and fault recovery routine generating program |
JPWO2014171047A1 (en) * | 2013-04-17 | 2017-02-16 | 日本電気株式会社 | Fault recovery procedure generation device, fault recovery procedure generation method, and fault recovery procedure generation program |
JP2017097879A (en) * | 2015-11-24 | 2017-06-01 | 株式会社日立製作所 | Method and system for verifying rule of failure cause analysis system in cloud environment |
Also Published As
Publication number | Publication date |
---|---|
JP4239989B2 (en) | 2009-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4239989B2 (en) | Fault recovery system, fault recovery device, rule creation method, and fault recovery program | |
JP3826940B2 (en) | Failure recovery device, failure recovery method, manager device, and program | |
US8332344B2 (en) | Operation management apparatus, operation management method, and operation management program | |
US11526342B2 (en) | Cancel and rollback update stack requests | |
US7958210B2 (en) | Update management method and update management unit | |
CN110928772B (en) | Test method and device | |
TWI740901B (en) | Method and device for performing data recovery operation | |
JP5091894B2 (en) | Stream recovery method, stream recovery program, and failure recovery apparatus | |
JP4701148B2 (en) | Failure recovery system and server | |
JP5075736B2 (en) | System failure recovery method and system for virtual server | |
US8516499B2 (en) | Assistance in performing action responsive to detected event | |
US20140297354A1 (en) | Workflow control apparatus and method therefor | |
US20110231532A1 (en) | Network management apparatus, network management method and network management program | |
JP2009522627A5 (en) | ||
US20140067360A1 (en) | System And Method For On-Demand Simulation Based Learning For Automation Framework | |
US8874772B2 (en) | Using a knowledge network for file transfer protocol | |
JP4863125B2 (en) | Operation management system and method, and program | |
US9380001B2 (en) | Deploying and modifying a service-oriented architecture deployment environment model | |
WO2009118900A1 (en) | System administration management apparatus, system administration management method, and system administration management program | |
US20130263143A1 (en) | Information processing method and system | |
KR102194974B1 (en) | System for monitoring and controling electric power system for process verification | |
JP2006053728A (en) | Failure handling rule propagation method, failure restoration device and program | |
JP2012003647A (en) | Method and apparatus for cause analysis configuration change | |
JP6263487B2 (en) | Process extraction apparatus, process extraction method, and program | |
CN111338609B (en) | Information acquisition method, device, storage medium and terminal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061013 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081215 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120109 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4239989 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |