JP2006053728A - Failure handling rule propagation method, failure restoration device and program - Google Patents

Failure handling rule propagation method, failure restoration device and program Download PDF

Info

Publication number
JP2006053728A
JP2006053728A JP2004234371A JP2004234371A JP2006053728A JP 2006053728 A JP2006053728 A JP 2006053728A JP 2004234371 A JP2004234371 A JP 2004234371A JP 2004234371 A JP2004234371 A JP 2004234371A JP 2006053728 A JP2006053728 A JP 2006053728A
Authority
JP
Japan
Prior art keywords
failure
rule
handling
environment information
failure recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004234371A
Other languages
Japanese (ja)
Inventor
Masahiro Ono
允裕 大野
Kiyoshi Kato
清志 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004234371A priority Critical patent/JP2006053728A/en
Publication of JP2006053728A publication Critical patent/JP2006053728A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a failure restoration device for sorting out an effective rule while suppressing the management cost of a plurality of failure restoration devices. <P>SOLUTION: In this failure restoration device, an operation means 1115 compares, upon receiving a failure responding rule and environmental information related thereto from another failure restoration device 102, the received environmental information with environmental information for an information processor 310 stored in an environmental information storage means 111 to calculate an application evaluation value of the failure responding rule, and compares the calculated application evaluation value with an application reference value of the own failure restoration device. The failure responding rule is stored in a response storage means 1013 when the application evaluation value is larger than the application reference value, and disposed when the evaluation value is smaller than the reference value. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明はルール伝播機能を有する障害復旧装置および障害対処ルール伝播方法に関し、特に異なる装置環境に応じたルール適用機能を有する障害復旧装置および障害対処ルール伝播方法に関する。   The present invention relates to a failure recovery device and a failure handling rule propagation method having a rule propagation function, and more particularly to a failure recovery device and a failure handling rule propagation method having a rule application function according to different device environments.

通信網を介した情報提供や商品販売といった情報通信サービスは、時間や距離の制約をあまり受けずに業務効率化やきめ細かいユーザサービスを提供できることから、急速に利用範囲が拡大している。このような利用範囲の拡大に伴い、これらのサービスを提供するコンピュータが障害に陥った場合の影響も大きくなり、その耐障害性が大きな課題となっている。   Information communication services such as information provision and product sales via a communication network are rapidly expanding their use because they can provide business efficiency and detailed user services without much time and distance restrictions. As the range of use expands, the impact when a computer that provides these services falls into a fault has increased, and its fault tolerance has become a major issue.

障害復旧装置の第1の従来技術が特許文献1に記載されている。この第1の従来技術では、幾つかの種類の障害毎に障害対処ルールをルール蓄積手段に蓄積しておき、対象装置に障害が発生した場合、その発生した障害の種類に対応する障害対処ルール中の対処コマンドをルール蓄積手段から取り出し、自動的に実行する。   Japanese Patent Application Laid-Open No. 2004-151561 describes a first conventional technique for a failure recovery apparatus. In this first prior art, failure handling rules are stored in the rule storage means for each of several types of failures, and when a failure occurs in the target device, a failure handling rule corresponding to the type of failure that has occurred. The countermeasure command is taken out from the rule storage means and automatically executed.

第1の従来技術に類似する第2の従来技術が特許文献2に記載されている。但し、この第2の従来技術は、最適な対処方法をインタフェース画面を通じて作業者に提示するもので、実際の対処は作業者自身の手作業で進められる。また、第2の従来技術は、作業者自身の判断で実行し復旧に結びついた対処方法を今回の障害の種類に対する有効な対処方法として新たにルール蓄積手段に追加できるようにしている。
特公平7−54474号公報 特開平8−221295号公報
A second prior art similar to the first prior art is described in Patent Document 2. However, this second prior art presents an optimum coping method to the worker through the interface screen, and the actual coping is advanced by the operator's own manual work. Further, the second prior art makes it possible to newly add a coping method executed at the operator's own judgment and linked to recovery to the rule accumulating unit as an effective coping method for the current type of failure.
Japanese Patent Publication No. 7-54474 Japanese Patent Laid-Open No. 8-222295

上述した第1の従来技術に見られるように、障害対処ルールを用いて障害の復旧を図るタイプの障害復旧装置では、障害対処ルールに記述された障害に関しては有効に機能するが、そうでない場合には機能しない。このため障害対処ルールを如何に拡充するかが、耐障害性を高める上で特に重要である。   As can be seen from the first prior art described above, a failure recovery apparatus of a type that uses a failure handling rule to recover from a failure functions effectively with respect to the failure described in the failure handling rule. Does not work. For this reason, how to expand the failure handling rules is particularly important for improving the fault tolerance.

障害復旧装置の障害対処ルールを拡充する典型的な方法は、その障害復旧装置の管理者自身が新たな障害対処ルールを作成し、その障害復旧装置に登録することである。第2の従来技術においても、作業者自身の判断で実行し復旧に結びついた対処方法を今回の障害に対する有効な対処方法として新たにルール蓄積手段に追加し、障害対処ルールを拡充することが示されている。   A typical method for expanding the failure handling rules of the failure recovery apparatus is that the administrator of the failure recovery apparatus creates a new failure handling rule and registers it in the failure recovery apparatus. In the second prior art, it is shown that a countermeasure method executed at the operator's own discretion and linked to recovery is newly added to the rule storage means as an effective countermeasure method for the current fault, and the fault handling rules are expanded. Has been.

しかし、管理者自身が障害対処ルールを新規に作成するためには、豊富な知識と経験が必要であり、また管理者の負担が大きくなる。特に、対象となる障害復旧装置が複数存在する場合には、管理者の負担が著しく大きくなる。具体的には、自動的な障害の対処においては、障害状態を規定する条件式や障害時に行う対処コマンドといった要素で構成される障害対処ルールを管理者が作成する必要があり、構成の異なる情報処理装置を対象とする障害復旧装置の場合、情報処理装置ごとの構成を管理者が把握したうえで、それぞれの構成で有効となる障害対処ルールを完成させ、かつ個別に設定する必要がある。そのため、新たな障害対処ルールの追加や既存の障害対処ルールの修正を行う場合において、情報処理装置が大規模化すると、各々の装置の特性とそれらが組み合わされた場合の特性のすべてを管理者が把握する必要があり、障害対処ルールの設定や修正などの管理者負担が飛躍的に増大することになる。   However, in order for the administrator himself to create a new failure handling rule, a wealth of knowledge and experience is required, and the burden on the administrator increases. In particular, when there are a plurality of target failure recovery apparatuses, the burden on the administrator is significantly increased. Specifically, in the case of automatic failure handling, the administrator needs to create a failure handling rule that consists of elements such as a conditional expression that defines the failure state and a response command that is executed when a failure occurs. In the case of a failure recovery device targeted for a processing device, it is necessary for an administrator to grasp the configuration of each information processing device, complete fault handling rules that are effective in each configuration, and set them individually. Therefore, when adding a new failure handling rule or modifying an existing failure handling rule, if the information processing device becomes large-scale, all the characteristics of each device and their combined characteristics will be managed by the administrator. Therefore, the burden on the administrator, such as the setting and correction of failure handling rules, will increase dramatically.

本発明はこのような事情に鑑みて提案されたものであり、その目的は、障害復旧装置に対するルール設定に要する管理者の負担を軽減することにある。   The present invention has been proposed in view of such circumstances, and an object thereof is to reduce a burden on an administrator required for setting a rule for a failure recovery apparatus.

本発明の第1の障害対処ルール伝播方法は、a)障害復旧装置の適用手段が、他の障害復旧装置から障害対処ルールと、前記他の障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報のうち前記障害対処ルールに関連する環境情報とを受信し、該受信した前記環境情報と、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報とを比較して、前記他の障害復旧装置から受信した前記障害対処ルールが自障害復旧装置の管理対象とする前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出するステップ、b)障害復旧装置の制御手段が、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納するステップ、を含むことを特徴とする。   According to the first failure handling rule propagation method of the present invention, the application means of the failure recovery device includes a failure handling rule from another failure recovery device, and hardware of the information processing device to be managed by the other failure recovery device. Receiving the environment information related to the failure handling rule among the environment information indicating the hardware configuration and the software configuration, and the received hardware information and the hardware configuration of the information processing apparatus to be managed by the own fault recovery apparatus; Compared with the environment information stored in the environment information storage means for storing environment information indicating the software configuration, the failure handling rule received from the other failure recovery device is the management target of the own failure recovery device A step of calculating an application evaluation value that evaluates the possibility of being applied as a failure handling rule for an information processing device; b) the control means of the failure recovery device includes: Storing the issued applicability evaluation value is applied a reference value or more when the received troubleshooting rule Action storage means of its own fault recovery apparatus, characterized in that it comprises a.

この第1の障害対処ルール伝播方法にあっては、或る障害復旧装置に対して他の障害復旧装置から障害対処ルールとそれに関連する環境情報とを伝播させると、伝播先の障害復旧装置における適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In the first failure handling rule propagation method, when a failure handling rule and environment information related to the failure handling rule are propagated from another failure recovery device to a certain failure recovery device, When the application means determines the applicability of the failure handling rule according to the similarity of the environment information and an application evaluation value equal to or higher than a certain application reference value is obtained, the failure handling rule is added to the handling storage means. The Thereby, it is possible to reduce the burden on the administrator required for setting the rules for the failure recovery apparatus.

本発明の第2の障害対処ルール伝播方法は、a)第1の障害復旧装置の伝播手段が、自障害復旧装置の対処記憶手段に記憶された障害対処ルールと、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報のうち前記障害対処ルールに関連する環境情報とを、1以上の第2の障害復旧装置に送信するステップ、b)前記第2の障害復旧装置の適用手段が、前記第1の障害復旧装置から受信した前記環境情報と、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報とを比較して、前記第1の障害復旧装置から受信した前記障害対処ルールが自障害復旧装置の管理対象とする前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出するステップ、c)前記第2の障害復旧装置の制御手段が、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納するステップ、を含むことを特徴とする。   In the second failure handling rule propagation method of the present invention, a) the propagation means of the first failure recovery device is the failure handling rule stored in the handling storage means of the own failure recovery device, and the management target of the own failure recovery device Among the environmental information stored in the environmental information storage means for storing the environmental information indicating the hardware configuration and software configuration of the information processing apparatus, the environmental information related to the failure handling rule is one or more second A step of transmitting to the failure recovery device; b) the environment information received from the first failure recovery device by the application means of the second failure recovery device and the information processing device to be managed by the own failure recovery device; The failure received from the first failure recovery device by comparing with the environment information stored in the environment information storage means for storing environment information indicating the hardware configuration and software configuration Calculating an application evaluation value that evaluates the possibility that the processing rule can be applied as a failure handling rule for the information processing apparatus to be managed by the own fault recovery apparatus; c) control means for the second fault recovery apparatus Storing the received failure handling rule in the handling storage means of the own failure recovery device when the calculated application evaluation value is equal to or greater than the application reference value.

この第2の障害対処ルール伝播方法にあっては、或る障害復旧装置に対して他の障害復旧装置の対処記憶手段に新規登録などされた障害対処ルールとそれに関連する環境情報とを伝播させると、伝播先の障害復旧装置における適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、複数の障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In the second failure handling rule propagation method, a failure handling rule newly registered in the handling storage means of another failure recovery device and environment information related thereto are propagated to a certain failure recovery device. If the applicability of the fault handling rule is determined according to the similarity of the environment information in the application means in the fault recovery apparatus at the propagation destination and an application evaluation value greater than a certain application reference value is obtained, the fault A handling rule is added to the handling storage means. Thereby, it is possible to reduce the burden on the administrator required for rule setting for a plurality of failure recovery apparatuses.

本発明の第3の障害対処ルール伝播方法は、a)第1の障害復旧装置の伝播手段が、自障害復旧装置の対処記憶手段に記憶された障害対処ルールと、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報のうち前記障害対処ルールに関連する環境情報とを、自障害復旧装置の伝播経路選択手段に送信するステップ、b)第1の障害復旧装置の前記伝播経路選択手段が、受信した前記障害対処ルールとそれに関連する環境情報とを、実績値記憶手段に記憶されている実績値が基準値以上の第2の障害復旧装置に送信するステップ、c)前記第2の障害復旧装置の適用手段が、前記第1の障害復旧装置から受信した前記環境情報と、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報とを比較して、前記第1の障害復旧装置から受信した前記障害対処ルールが自障害復旧装置の管理対象とする前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出するステップ、d)前記第2の障害復旧装置の制御手段が、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納するステップ、e)前記第2の障害復旧装置の伝播経路選択手段が、自障害復旧装置の対処記憶手段に記憶された前記第1の障害復旧装置から受信した障害対処ルールを自障害復旧装置の管理対象となる情報処理装置に適用した結果を、前記第1の障害復旧装置へ送信するステップ、f)前記第1の障害復旧装置の伝播経路選択手段が、前記第2の障害復旧装置から受信した前記障害対処ルールの適用結果に応じて前記実績値記憶手段を更新するステップ、を含むことを特徴とする。   In the third failure handling rule propagation method of the present invention, a) the propagation means of the first failure recovery device is the failure handling rule stored in the handling storage means of the own failure recovery device, and the management target of the own failure recovery device The environment information related to the failure handling rule among the environment information stored in the environment information storage means for storing the environment information indicating the hardware configuration and software configuration of the information processing apparatus is propagated by the own fault recovery apparatus. A step of transmitting to the route selection means; b) an actual value stored in the actual value storage means by the propagation route selection means of the first failure recovery apparatus, the received fault handling rule and the related environment information Transmitting to a second failure recovery device having a reference value equal to or greater than a reference value; c) the environment information received from the first failure recovery device by the application means of the second failure recovery device; Compared with the environment information stored in the environment information storage means for storing the environment information indicating the hardware configuration and software configuration of the information processing device to be managed by the recovery device, and received from the first failure recovery device Calculating an application evaluation value that evaluates the possibility that the failure handling rule that can be applied as a failure handling rule for the information processing apparatus to be managed by the own failure recovery apparatus; d) the second failure recovery apparatus A step of storing the received failure handling rule in a handling storage unit of the own failure recovery device when the calculated application evaluation value is equal to or greater than an application reference value; e) the second failure recovery device; Propagation path selection means manages the failure handling rule received from the first failure recovery apparatus stored in the action storage means of the own fault recovery apparatus A step of transmitting the result applied to the information processing apparatus to the first failure recovery apparatus; f) the failure received by the propagation path selection unit of the first failure recovery apparatus from the second failure recovery apparatus; Updating the result value storage means in accordance with the application result of the handling rule.

この第3の障害対処ルール伝播方法にあっては、或る障害復旧装置に対して他の障害復旧装置の対処記憶手段に新規登録などされた障害対処ルールとそれに関連する環境情報とを伝播させると、伝播先の障害復旧装置における適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、複数の障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。また、伝播経路選択手段によって、障害対処ルールを伝播させる障害復旧装置を過去の実績に基づいて選択するため、無駄な伝播を防止することができる。   In this third failure handling rule propagation method, a failure handling rule newly registered in the handling storage means of another failure recovery device and environment information related thereto are propagated to a certain failure recovery device. If the applicability of the fault handling rule is determined according to the similarity of the environment information in the application means in the fault recovery apparatus at the propagation destination and an application evaluation value greater than a certain application reference value is obtained, the fault A handling rule is added to the handling storage means. Thereby, it is possible to reduce the burden on the administrator required for rule setting for a plurality of failure recovery apparatuses. Further, since the failure recovery device for propagating the failure handling rule is selected by the propagation path selection means based on the past results, useless propagation can be prevented.

本発明の第4の障害対処ルール伝播方法は、a)第1の障害復旧装置の補完手段が、利用者管理装置から入力された未完成な障害対処ルールと、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報のうち前記障害対処ルールに関連する環境情報とを含む未完成ルール補完要求を、第2の障害復旧装置へ送信するステップ、b)前記第2の障害復旧装置の補完手段が、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報と自障害復旧装置の対処記憶手段に記憶された障害対処ルールとの対応を示す対応表と、前記環境情報記憶手段と、前記対処記憶手段とを参照して、前記対処記憶手段に記憶されている障害対処ルールのうち、前記未完成ルール補完要求に含まれる環境情報と同じ環境情報に関連する障害対処ルールを抽出するステップ、c)前記第2の障害復旧装置の補完手段が、前記抽出した障害対処ルールの内から、前記未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを選択し、前記対応表と前記環境情報記憶手段を参照して前記選択した障害対処ルールに関連する環境情報を取得し、該取得した環境情報と前記選択した障害対処ルールとを含む補完応答を前記第1の障害復旧装置に送信するステップ、d)前記第1の障害復旧装置の適用手段が、前記第2の障害復旧装置から受信した補完応答に含まれる前記環境情報と、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶されている前記環境情報とを比較して、前記第2の障害復旧装置から受信した補完応答に含まれる前記障害対処ルールが自障害復旧装置の管理対象とする前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出するステップ、e)前記第1の障害復旧装置の制御手段が、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納するステップ、を含むことを特徴とする。   According to the fourth failure handling rule propagation method of the present invention, a) the complementary means of the first failure recovery device is the incomplete failure handling rule input from the user management device, the management target of the own failure recovery device, An incomplete rule supplement request that includes environmental information related to the failure handling rule among the environmental information stored in the environmental information storage unit that stores environmental information indicating the hardware configuration and software configuration of the information processing apparatus. A step of transmitting to the second failure recovery apparatus; b) the complementary means of the second failure recovery apparatus stores environment information indicating the hardware configuration and software configuration of the information processing apparatus to be managed by the own failure recovery apparatus A correspondence table showing a correspondence between the environment information stored in the environment information storage means and the failure handling rules stored in the handling storage means of the self-failure recovery device, and the environment information A failure handling rule related to the same environment information as the environment information included in the uncompleted rule complement request among the failure handling rules stored in the handling storage unit with reference to the storage unit and the handling storage unit And c) content of the completed part in the incomplete fault handling rule included in the incomplete rule complementing request among the extracted fault handling rules by the complementing means of the second fault recovery device. Are selected, the environment information related to the selected failure handling rule is acquired with reference to the correspondence table and the environment information storage means, and the acquired environment information and the selected failure handling rule are A step of transmitting a complementary response to the first failure recovery device; d) before the first failure recovery device application means is included in the complementary response received from the second failure recovery device The environmental information is compared with the environmental information stored in the environmental information storage means for storing the environmental information indicating the hardware configuration and software configuration of the information processing device to be managed by the self-failure recovery device. 2. Calculate an application evaluation value that evaluates the possibility that the failure handling rule included in the complementary response received from the second failure recovery device can be applied as a failure handling rule for the information processing device to be managed by the own failure recovery device E) The control means of the first failure recovery apparatus stores the received failure handling rule in the action storage means of the own failure recovery apparatus when the calculated application evaluation value is greater than or equal to an application reference value. A step.

この第4の障害対処ルール伝播方法にあっては、或る障害復旧装置に未完成な障害対処ルールとそれに関連する環境情報を含む未完成ルール補完要求が入力されると、その要求が他の障害復旧装置に送られ、環境情報の類似性およびルールの完成部分の類似性に基づいて未完成な障害対処ルールの未完成部分が他の障害復旧装置の完全な障害対処ルールによって補完されて関連する環境情報を添えて元の障害復旧装置に戻され、その後、第1の障害対処ルール伝播方法と同様に、適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In the fourth fault handling rule propagation method, when an incomplete fault handling rule and an environment information related to the incomplete fault handling rule are input to a fault recovery apparatus, the request is transferred to another Sent to the disaster recovery device, based on the similarity of the environmental information and the similarity of the completed part of the rule, the incomplete part of the incomplete fault handling rule is complemented by the complete fault handling rule of the other fault recovery unit Is returned to the original failure recovery apparatus, and then the applicability unit determines the applicability of the failure handling rule according to the similarity of the environment information, as in the first failure handling rule propagation method. When an application evaluation value greater than a certain application reference value is obtained, the failure handling rule is added to the handling storage means. Thereby, it is possible to reduce the burden on the administrator required for setting the rules for the failure recovery apparatus.

本発明の第5の障害対処ルール伝播方法は、a)第1の障害復旧装置の補完手段が、利用者管理装置から入力された未完成な障害対処ルールを含む未完成ルール補完要求を、第2の障害復旧装置へ送信するステップ、b)前記第2の障害復旧装置の補完手段が、自障害復旧装置の対処記憶手段に記憶された障害対処ルールのうちから、前記未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを選択し、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報と自障害復旧装置の前記対処記憶手段に記憶された障害対処ルールとの対応を示す対応表と、前記環境情報記憶手段とを参照して前記選択した障害対処ルールに関連する環境情報を取得し、該取得した環境情報と前記選択した障害対処ルールとを含む補完応答を前記第1の障害復旧装置に送信するステップ、c)前記第1の障害復旧装置の適用手段が、前記第2の障害復旧装置から受信した補完応答に含まれる前記環境情報と、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶されている前記環境情報とを比較して、前記第2の障害復旧装置から受信した補完応答に含まれる前記障害対処ルールが自障害復旧装置の管理対象とする前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出するステップ、d)前記第1の障害復旧装置の制御手段が、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納するステップ、を含むことを特徴とする。   According to the fifth failure handling rule propagation method of the present invention, a) the complementing means of the first failure recovery device issues an incomplete rule supplement request including an incomplete failure handling rule input from the user management device. A step of transmitting to the second failure recovery device; b) the second failure recovery device complementing means responds to the incomplete rule complement request from the failure handling rules stored in the failure storage device of the own failure recovery device; Environment information that stores the environment information indicating the hardware configuration and software configuration of the information processing apparatus to be managed by the self-failure recovery apparatus by selecting the contents of the completed part in the included incomplete fault handling rules Refer to the correspondence table showing the correspondence between the environment information stored in the storage means and the failure handling rules stored in the handling storage means of the self-failure recovery device, and the selection with reference to the environment information storage means. Acquiring environmental information related to the fault handling rule and transmitting a complementary response including the acquired environmental information and the selected fault handling rule to the first fault recovery device; c) the first fault The environment information indicating the hardware configuration and software configuration of the information processing apparatus to be managed by the own fault recovery apparatus, and the environment information included in the complementary response received by the recovery apparatus from the second fault recovery apparatus Is compared with the environment information stored in the environment information storage means, and the failure handling rule included in the complementary response received from the second failure recovery device is the management target of the own failure recovery device A step of calculating an application evaluation value that evaluates the possibility of application as a failure handling rule for the information processing apparatus; d) a control means of the first failure recovery apparatus; Characterized in that it comprises the step of storing a troubleshooting rule applicable evaluation value the calculated is the received time of the above application the reference value in addressing the storage means of its own failure recovery device.

この第5の障害対処ルール伝播方法にあっては、或る障害復旧装置に未完成な障害対処ルールを含む未完成ルール補完要求が入力されると、その要求が他の障害復旧装置に送られ、ルールの完成部分の類似性に基づいて未完成な障害対処ルールの未完成部分が他の障害復旧装置の完全な障害対処ルールによって補完されて関連する環境情報を添えて元の障害復旧装置に戻され、その後、第1の障害対処ルール伝播方法と同様に、適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In the fifth failure handling rule propagation method, when an incomplete rule supplement request including an incomplete failure handling rule is input to a certain failure recovery device, the request is sent to another failure recovery device. Based on the similarity of the completed part of the rule, the incomplete part of the incomplete fault handling rule is complemented by the complete fault handling rule of the other fault recovery apparatus and the related fault information is added to the original fault recovery apparatus. After that, similar to the first failure handling rule propagation method, the applicability of the failure handling rule is determined according to the similarity of the environment information in the application unit, and an application evaluation value equal to or higher than a certain application reference value is determined. If obtained, the failure handling rule is added to the handling storage means. Thereby, it is possible to reduce the burden on the administrator required for setting the rules for the failure recovery apparatus.

本発明の第6の障害対処ルール伝播方法は、第1ないし第5の何れかの障害対処ルール伝播方法において、前記制御手段は、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納する処理を行う代わりに、前記算出された適用評価値と評価の対象となった障害対処ルールおよびそれに関連する環境情報を利用者管理装置に表示し、利用者管理装置から格納指示があった場合に前記障害対処ルールを自障害復旧装置の対処記憶手段に格納する処理を行うことを特徴とする。   According to a sixth failure handling rule propagation method of the present invention, in any one of the first to fifth failure handling rule propagation methods, the control unit receives the reception when the calculated application evaluation value is equal to or more than an application reference value. Instead of performing the process of storing the determined failure handling rule in the handling storage means of the own failure recovery apparatus, the user management is performed on the calculated application evaluation value, the failure handling rule that is the target of the evaluation, and the environment information related thereto. When the storage instruction is displayed on the device and the storage instruction is received from the user management device, the failure handling rule is stored in the handling storage means of the own failure recovery device.

この第6の障害対処ルール伝播方法にあっては、他の障害復旧装置から伝播してきた障害対処ルール、その適用評価値および関連する環境情報を確認した管理者が格納指示を入力すれば、伝播してきた障害対処ルールを対処記憶手段に格納できるため、障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In the sixth failure handling rule propagation method, if the administrator who has confirmed the failure handling rule propagated from another failure recovery device, its application evaluation value, and related environment information inputs a storage instruction, Since the failure handling rules that have been stored can be stored in the handling storage means, it is possible to reduce the burden on the administrator for setting the rules for the failure recovery apparatus.

本発明の第7の障害対処ルール伝播方法は、第1ないし第6の何れかの障害対処ルール伝播方法において、前記適用手段は、一致する環境情報の種類のパターンに応じた適用評価値を定義した適用評価値表を参照して前記適用評価値を決定することを特徴とする。   According to a seventh failure handling rule propagation method of the present invention, in any one of the first to sixth failure handling rule propagation methods, the application means defines an application evaluation value corresponding to a pattern of the type of matching environment information. The application evaluation value is determined with reference to the application evaluation value table.

この第7の障害対処ルール伝播方法にあっては、適用評価値をきめ細かく導出することができる。   In the seventh failure handling rule propagation method, the application evaluation value can be derived in detail.

本発明の第1の障害復旧装置は、条件式と対処コマンドとを含む障害対処ルールを記憶する対処記憶手段と、管理対象となる情報処理装置の状態を検出する状態検出手段と、前記検出された状態に合致する条件式を持つ障害対処ルールを前記対処記憶手段から選択する対処候補検索手段と、前記選択された障害対処ルールの対処コマンドを前記情報処理装置上で実行する対処実行手段と、前記情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段と、他の障害復旧装置から送信されてきた障害対処ルールおよび該障害対処ルールに関連する環境情報を受け取り、該受け取った環境情報と前記環境情報記憶手段に記憶された環境情報とを比較して前記伝播された障害対処ルールが前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出する適用手段と、前記算出された適用評価値が適用基準値以上のとき前記伝播された障害対処ルールを前記対処記憶手段に格納する制御手段とを備えることを特徴とする。   A first failure recovery apparatus according to the present invention includes a handling storage unit that stores a failure handling rule including a conditional expression and a handling command, a state detection unit that detects a state of an information processing device to be managed, and the detected A handling candidate search unit that selects from the handling storage unit a fault handling rule having a conditional expression that matches the status, a handling execution unit that executes a handling command of the selected fault handling rule on the information processing device, Receiving environmental information storage means for storing environmental information indicating the hardware configuration and software configuration of the information processing apparatus; a fault handling rule transmitted from another fault recovery apparatus; and environment information related to the fault handling rule; Comparing the received environment information with the environment information stored in the environment information storage means, the propagated fault handling rule is Applying means for calculating an application evaluation value that evaluates the possibility of being applied as a failure handling rule for the computer, and when the calculated application evaluation value is equal to or greater than an application reference value, the propagated failure handling rule is stored in the handling storage means. And a control means for storing in the storage.

この第1の障害復旧装置にあっては、他の障害復旧装置から障害対処ルールとそれに関連する環境情報とを当該障害復旧装置に伝播させると、適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In this first failure recovery device, when a failure handling rule and its related environment information are propagated from the other failure recovery device to the failure recovery device, the application means determines the failure according to the similarity of the environment information. When the applicability of the handling rule is determined and an application evaluation value greater than a certain application reference value is obtained, the fault handling rule is added to the handling storage means. Thereby, it is possible to reduce the burden on the administrator required for setting the rules for the failure recovery apparatus.

本発明の第2の障害復旧装置は、第1の障害復旧装置において、前記対処記憶手段に記憶された障害対処ルールと前記環境情報記憶手段に記憶された環境情報との対応を保持する対応表と、前記対処記憶手段に記憶された障害対処ルールのうち他の障害復旧装置に伝播させる障害対処ルールに関連する環境情報を前記対応表を参照して前記環境情報記憶手段から取得し、伝播させる障害対処ルールと共に他の障害復旧装置に送信する伝播手段とを備えることを特徴とする。   The second failure recovery apparatus according to the present invention is a correspondence table that holds correspondence between the failure handling rules stored in the handling storage means and the environment information stored in the environment information storage means in the first failure recovery apparatus. The environment information related to the failure handling rule to be propagated to other failure recovery devices among the failure handling rules stored in the handling storage means is acquired from the environment information storage means with reference to the correspondence table and propagated Propagation means for transmitting to a fault recovery device together with a fault handling rule.

この第2の障害復旧装置にあっては、管理者が対処記憶手段に記憶した障害対処ルールとそれに関連する環境情報が伝播手段によって他の障害復旧装置に伝播され、伝播先の障害復旧装置においては、第1の障害復旧装置と同様に、適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、複数の障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In this second failure recovery device, the failure handling rule stored by the administrator in the response storage means and the environment information related thereto are propagated to other failure recovery devices by the propagation means, and the propagation destination failure recovery device As with the first failure recovery apparatus, when the applicability of the failure handling rule is determined according to the degree of similarity of the environment information in the application means, and an application evaluation value greater than a certain application reference value is obtained. The failure handling rule is added to the handling storage means. Thereby, it is possible to reduce the burden on the administrator required for rule setting for a plurality of failure recovery apparatuses.

本発明の第3の障害復旧装置は、第1の障害復旧装置において、前記対処記憶手段に記憶された障害対処ルールと前記環境情報記憶手段に記憶された環境情報との対応を保持する対応表と、前記対処記憶手段に記憶された障害対処ルールのうち他の障害復旧装置に伝播させる障害対処ルールに関連する環境情報を前記対応表を参照して前記環境情報記憶手段から取得し、伝播させる障害対処ルールと共に送信する伝播手段と、他の障害復旧装置毎の実績値を保持する実績値記憶手段と、前記伝播手段から受信した障害対処ルールとそれに関連する環境情報を前記実績値記憶手段に記憶されている実績値が基準値以上の他の障害復旧装置に送信し、該送信先の前記他の障害復旧装置から受信した前記障害対処ルールの適用結果に応じて前記実績値記憶手段を更新する伝播経路選択手段とを備えることを特徴とする。   The third failure recovery apparatus of the present invention is a correspondence table that holds correspondence between the failure handling rules stored in the handling storage means and the environment information stored in the environment information storage means in the first failure recovery apparatus. The environment information related to the failure handling rule to be propagated to other failure recovery devices among the failure handling rules stored in the handling storage means is acquired from the environment information storage means with reference to the correspondence table and propagated Propagation means to be transmitted together with the failure handling rule, actual value storage means for holding the actual value for each other fault recovery device, failure handling rule received from the propagation means and environment information related thereto are stored in the actual value storage means. The actual value stored is transmitted to another failure recovery device that is equal to or greater than a reference value, and the actual value is determined according to the application result of the failure handling rule received from the other failure recovery device of the transmission destination. Characterized in that it comprises a propagation path selection means for updating the storing means.

この第3の障害復旧装置にあっては、管理者が対処記憶手段に記憶した障害対処ルールとそれに関連する環境情報が伝播手段によって他の障害復旧装置に伝播され、伝播先の障害復旧装置においては、第1の障害復旧装置と同様に、適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、複数の障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。また、伝播経路選択手段によって、障害対処ルールを伝播させる障害復旧装置を過去の実績に基づいて選択するため、無駄な伝播を防止することができる。   In this third failure recovery device, the failure handling rule and the environment information related to it stored in the response storage means by the administrator are propagated to other failure recovery devices by the propagation means. As with the first failure recovery apparatus, when the applicability of the failure handling rule is determined according to the degree of similarity of the environment information in the application means, and an application evaluation value greater than a certain application reference value is obtained. The failure handling rule is added to the handling storage means. Thereby, it is possible to reduce the burden on the administrator required for rule setting for a plurality of failure recovery apparatuses. Further, since the failure recovery device for propagating the failure handling rule is selected by the propagation path selection means based on the past results, useless propagation can be prevented.

本発明の第4の障害復旧装置は、第1の障害復旧装置において、利用者管理装置から入力された未完成な障害対処ルールとそれに関連する環境情報とを含む未完成ルール補完要求を受け取って他の障害復旧装置へ送信し、前記他の障害復旧装置から前記未完成ルール補完要求に対する応答として、完成された障害対処ルールとそれに関連する環境情報を含む補完応答を受信したとき、前記補完応答に含まれる障害対処ルールとそれに関連する環境情報を前記適用手段へ送信する補完手段を備えることを特徴とする。   According to a fourth failure recovery apparatus of the present invention, the first failure recovery apparatus receives an incomplete rule supplement request including an incomplete failure handling rule input from the user management apparatus and environment information related thereto. When a complementary response including a completed fault handling rule and environment information related thereto is received as a response to the incomplete rule supplement request from the other fault recovery device. And a supplementary means for transmitting to the applying means the failure handling rule and environmental information related thereto.

この第4の障害復旧装置にあっては、管理者が未完成な障害対処ルールとそれに関連する環境情報を含む未完成ルール補完要求を入力すると、その要求が他の障害復旧装置に送られ、応答として完全な形式に補完された障害対処ルールとそれに関連する環境情報とを含む補完応答を受信すると、第1の障害復旧装置と同様に、適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In the fourth failure recovery device, when the administrator inputs an incomplete rule supplement request including an incomplete failure handling rule and environmental information related to the incomplete failure handling rule, the request is sent to another failure recovery device, When a complementary response including a failure handling rule complemented in a complete format as a response and its related environment information is received, the failure handling is performed according to the degree of similarity of the environment information in the application means, as in the first failure recovery device. When the applicability of the rule is determined and an application evaluation value equal to or higher than a certain application reference value is obtained, the failure handling rule is added to the handling storage unit. Thereby, it is possible to reduce the burden on the administrator required for setting the rules for the failure recovery apparatus.

本発明の第5の障害復旧装置は、第4の障害復旧装置において、前記補完手段は、他の障害復旧装置から未完成ルール補完要求を受信したとき、前記環境情報記憶手段に記憶された前記環境情報と前記対処記憶手段に記憶された障害対処ルールとの対応を示す対応表と、前記環境情報記憶手段と、前記対処記憶手段とを参照して、前記対処記憶手段に記憶されている障害対処ルールのうち、前記未完成ルール補完要求に含まれる環境情報と同じ環境情報に関連する障害対処ルールを抽出し、かつ、該抽出した障害対処ルールの内から、前記未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを選択し、更に、前記対応表と前記環境情報記憶手段を参照して前記選択した障害対処ルールに関連する環境情報を取得し、該取得した環境情報と前記選択した障害対処ルールとを含む補完応答を未完成ルール補完要求元の障害復旧装置に送信するものであることを特徴とする。   According to a fifth failure recovery apparatus of the present invention, in the fourth failure recovery apparatus, when the complement means receives an incomplete rule complement request from another fault recovery apparatus, the environment information storage means stores the Referring to the correspondence table showing the correspondence between the environment information and the failure handling rule stored in the handling storage unit, the failure stored in the handling storage unit with reference to the environment information storage unit and the handling storage unit Out of the handling rules, a fault handling rule related to the same environmental information as the environmental information included in the incomplete rule supplement request is extracted, and included in the incomplete rule supplement request from the extracted fault handling rules An environment related to the selected failure handling rule is selected by referring to the correspondence table and the environment information storage unit. Gets the broadcast, and characterized in that to transmit to the disaster recovery system of unfinished rules complement requesting completion response including a troubleshooting rule that the selection and the acquired environmental information.

この第5の障害復旧装置にあっては、管理者が未完成な障害対処ルールとそれに関連する環境情報を含む未完成ルール補完要求を入力すると、その要求が他の障害復旧装置に送られ、環境情報の類似性およびルールの完成部分の類似性に基づいて未完成な障害対処ルールの未完成部分が他の障害復旧装置の完全な障害対処ルールによって補完されて関連する環境情報を添えて元の障害復旧装置に戻され、その後、第1の障害復旧装置の場合と同様に、適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In the fifth failure recovery device, when the administrator inputs an incomplete rule supplement request including an incomplete failure handling rule and environmental information related to the incomplete failure handling rule, the request is sent to another failure recovery device, Based on the similarity of the environmental information and the similarity of the completed part of the rule, the incomplete part of the incomplete fault handling rule is complemented by the complete fault handling rules of other fault recovery devices, and the relevant environmental information is added Then, as in the case of the first failure recovery apparatus, the applicability unit determines the applicability of the failure handling rule according to the similarity of the environmental information, and exceeds a certain application reference value. Is obtained, the failure handling rule is added to the handling storage means. Thereby, it is possible to reduce the burden on the administrator required for setting the rules for the failure recovery apparatus.

本発明の第6の障害復旧装置は、第4の障害復旧装置において、前記補完手段は、他の障害復旧装置から未完成ルール補完要求を受信したとき、前記対処記憶手段に記憶された障害対処ルールのうちから、前記未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを選択し、前記環境情報記憶手段に記憶された前記環境情報と前記対処記憶手段に記憶された障害対処ルールとの対応を示す対応表と、前記環境情報記憶手段とを参照して前記選択した障害対処ルールに関連する環境情報を取得し、該取得した環境情報と前記選択した障害対処ルールとを含む補完応答を未完成ルール補完要求元の障害復旧装置に送信するものであることを特徴とする。   According to a sixth failure recovery apparatus of the present invention, in the fourth failure recovery apparatus, when the complement means receives an incomplete rule complement request from another fault recovery apparatus, the fault handling stored in the handling storage means From the rules, the one that matches the contents of the completed part in the incomplete fault handling rule included in the incomplete rule supplement request is selected, and the environment information stored in the environment information storage means and the handling storage The environment information related to the selected failure handling rule is acquired with reference to the correspondence table showing the correspondence with the failure handling rule stored in the means and the environment information storage means, and the acquired environment information and the selection A complementary response including the failure handling rule that has been completed is transmitted to the failure recovery device that is the incomplete rule complement request source.

この第6の障害復旧装置にあっては、管理者が未完成な障害対処ルールを含む未完成ルール補完要求を入力すると、その要求が他の障害復旧装置に送られ、ルールの完成部分の類似性に基づいて未完成な障害対処ルールの未完成部分が他の障害復旧装置の完全な障害対処ルールによって補完されて関連する環境情報を添えて元の障害復旧装置に戻され、その後、第1の障害復旧装置の場合と同様に、適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合に、その障害対処ルールが対処記憶手段に追加される。これにより、障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In the sixth failure recovery apparatus, when the administrator inputs an incomplete rule supplement request including an incomplete failure handling rule, the request is sent to another failure recovery apparatus, and the similarity of the completed part of the rule The incomplete portion of the failure handling rule that has not been completed based on the nature is complemented by the complete failure handling rule of another failure recovery device and returned to the original failure recovery device with the related environment information, and then the first As in the case of the failure recovery apparatus, the applicability means determines the applicability of the failure handling rule according to the similarity of the environment information, and if an application evaluation value greater than a certain application reference value is obtained, A failure handling rule is added to the handling storage means. Thereby, it is possible to reduce the burden on the administrator required for setting the rules for the failure recovery apparatus.

本発明の第7の障害復旧装置は、第1ないし第6の何れかの障害復旧装置において、前記制御手段は、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを前記対処記憶手段に格納する処理を行う代わりに、前記算出された適用評価値と評価の対象となった障害対処ルールおよびそれに関連する環境情報を利用者管理装置に表示し、利用者管理装置から格納指示があった場合に前記障害対処ルールを前記対処記憶手段に格納する処理を行うことを特徴とする。   According to a seventh failure recovery apparatus of the present invention, in any one of the first to sixth failure recovery apparatuses, the control means is configured to cope with the received failure when the calculated application evaluation value is equal to or more than an application reference value. Instead of performing the process of storing the rule in the handling storage means, the calculated application evaluation value, the fault handling rule subjected to the evaluation, and the related environment information are displayed on the user management device, and user management is performed. When a storage instruction is issued from a device, the failure handling rule is stored in the handling storage means.

この第7の障害復旧装置にあっては、他の障害復旧装置から伝播してきた障害対処ルール、その適用評価値および関連する環境情報を確認した管理者が格納指示を入力すれば、伝播してきた障害対処ルールを対処記憶手段に格納できるため、障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。   In the seventh failure recovery device, if the administrator who confirmed the failure handling rule, its application evaluation value, and related environment information propagated from another failure recovery device inputs a storage instruction, it propagates Since the failure handling rules can be stored in the handling storage means, it is possible to reduce the burden on the administrator required for setting the rules for the failure recovery apparatus.

本発明の第8の障害復旧装置は、第1ないし第7の何れかの障害復旧装置において、前記適用手段は、一致する環境情報の種類のパターンに応じた適用評価値を定義した適用評価値表を参照して前記適用評価値を決定することを特徴とする。   In an eighth failure recovery apparatus of the present invention, in any one of the first to seventh failure recovery apparatuses, the application means defines an application evaluation value that defines an application evaluation value according to a pattern of the type of matching environmental information. The application evaluation value is determined with reference to a table.

この第8の障害復旧装置にあっては、適用評価値をきめ細かく導出することができる。   In the eighth failure recovery apparatus, the application evaluation value can be derived in detail.

本発明によれば、障害復旧装置に対するルール設定に要する管理者の負担を軽減することができる。その理由は、障害復旧装置に対して他の障害復旧装置から障害対処ルールとそれに関連する環境情報とを伝播させると、伝播先の障害復旧装置における適用手段において環境情報の類似度に応じて障害対処ルールの適用可能性が判定され、或る適用基準値以上の適用評価値が得られた場合あるいは管理者の承認が得られた場合に、その障害対処ルールが対処記憶手段に追加されるためである。   ADVANTAGE OF THE INVENTION According to this invention, the burden of the administrator required for the rule setting with respect to a failure recovery apparatus can be reduced. The reason for this is that when a failure recovery rule and its related environment information are propagated from another failure recovery device to the failure recovery device, the failure is determined according to the similarity of the environment information in the application means of the destination failure recovery device. When the applicability of the countermeasure rule is determined and an application evaluation value equal to or higher than a certain application reference value is obtained or when the administrator's approval is obtained, the failure countermeasure rule is added to the countermeasure storage means It is.

本発明の実施の形態を説明する前に、図1、図2、図3を用いて本発明の前提となる障害復旧装置について説明する。   Before describing the embodiment of the present invention, a failure recovery apparatus as a premise of the present invention will be described with reference to FIG. 1, FIG. 2, and FIG.

図1を参照すると、本発明の前提となる障害復旧装置101は、状態検出手段1011、対処候補検索手段1012、対処記憶手段1013、制御手段1014および対処実行手段1015を含んで構成され、障害の検知と復旧を行う対象である情報処理装置301に接続されている。また、障害復旧装置101に対して、指示やデータを入力したり処理結果を出力するための利用者管理装置201が接続されている。これらの障害復旧装置101、102、情報処理装置301および利用者管理装置201は、一般的な計算機のハードウェアで構成されており、装置全体の制御を行うCPU(Central Processing Unit)、CPUに接続されたメモリ、2次記憶装置としてのハードディスク等を有し、ユーザとの対話のための表示装置やキーボード等の入力装置を有する。また、CPUに実行させるプログラムは、メモリやハードディスクに格納させ、通信手段によってネットワークを介した情報の送受信を行うこともできる。また一般的には、情報処理装置301、状態検出手段1011および対処実行手段1015でエージェント装置が構成され、対処候補検索手段1012、対処記憶手段1013および制御手段1014でマネージャ装置が構成されるマネージャ・エージェント型の構成が用いられる。なお、図1に示される他の障害復旧装置102も図1の障害復旧装置101と同様の構成を備えている。   Referring to FIG. 1, a failure recovery apparatus 101 as a premise of the present invention includes a state detection unit 1011, a countermeasure candidate search unit 1012, a countermeasure storage unit 1013, a control unit 1014, and a countermeasure execution unit 1015. It is connected to an information processing apparatus 301 that is a target for detection and recovery. In addition, a user management apparatus 201 for inputting instructions and data and outputting processing results is connected to the failure recovery apparatus 101. The failure recovery apparatuses 101 and 102, the information processing apparatus 301, and the user management apparatus 201 are composed of general computer hardware, and are connected to a CPU (Central Processing Unit) that controls the entire apparatus and the CPU. And an input device such as a display device and a keyboard for dialog with the user. A program to be executed by the CPU can be stored in a memory or a hard disk, and information can be transmitted / received via a network by a communication unit. In general, the information processing device 301, the state detection unit 1011 and the countermeasure execution unit 1015 constitute an agent device, and the countermeasure candidate search unit 1012, the countermeasure storage unit 1013 and the control unit 1014 constitute a manager device. An agent type configuration is used. The other failure recovery apparatus 102 shown in FIG. 1 also has the same configuration as the failure recovery apparatus 101 of FIG.

情報処理装置301は、障害復旧装置101の管理対象となるWebサービスや業務サービスといった情報通信サービスを提供する装置である。具体的には、Webサーバやアプリケーションサーバ、データベースサーバ、メールサーバなどの通信回線を利用したアプリケーションプログラムを実行する装置、または、ルータやファイヤーウォール、負荷分散などの通信回線と接続されてSNMPプロトコルなどによってプログラムを制御できる装置である。図1は、情報処理装置301が1つの例であるが、2つ以上の複数であってもよい。   The information processing apparatus 301 is an apparatus that provides an information communication service such as a Web service or a business service that is managed by the failure recovery apparatus 101. Specifically, a device that executes an application program using a communication line such as a Web server, an application server, a database server, or a mail server, or an SNMP protocol that is connected to a communication line such as a router, a firewall, or load distribution. It is a device that can control the program. FIG. 1 shows an example of the information processing apparatus 301, but it may be two or more.

状態検出手段1011は、情報処理装置301で障害が発生した場合の動作状態または障害の前兆と推測される動作状態を情報処理装置301から取得または受信し、対処候補検索手段1011と制御手段1014へ送信する。情報処理装置301で障害が発生した場合の動作状態または障害の前兆と推測される動作状態を取得または受信する方法の一例として、情報処理装置301にSNMPエージェントを常駐させ、定期的にSNMPリクエストをSNMPエージェントへ送信することによって取得する方法、または情報処理装置301にSNMPトラップの設定を行い、SNMPトラップイベントが発生したときに受信する方法が挙げられる。   The state detection unit 1011 obtains or receives from the information processing apparatus 301 an operation state when a failure occurs in the information processing apparatus 301 or an operation state presumed to be a sign of the failure, to the handling candidate search unit 1011 and the control unit 1014. Send. As an example of a method for acquiring or receiving an operation state when a failure occurs in the information processing device 301 or an operation state presumed to be a precursor of the failure, an SNMP agent is made resident in the information processing device 301 and an SNMP request is periodically sent. There are a method of acquiring by transmitting to the SNMP agent, or a method of receiving an SNMP trap event when an SNMP trap is set in the information processing apparatus 301.

対処記憶手段1013は、情報処理装置301で障害が発生した場合の動作状態を示す条件式とその動作状態における障害を復旧または回避するための対処コマンドを含む複数の障害対処ルールと、障害の前兆と推測される動作状態を判定するための条件式とその動作状態になった場合に障害を復旧または回避するための対処コマンドを含む複数の障害対処ルールを記憶する。   The handling storage unit 1013 includes a plurality of fault handling rules including a conditional expression indicating an operation state when a failure occurs in the information processing apparatus 301, a handling command for recovering or avoiding the failure in the operation state, and a failure sign A plurality of failure handling rules including a conditional expression for determining the estimated operating state and a handling command for recovering or avoiding the failure when the operating state is reached are stored.

ここで、動作状態や条件式、対処コマンドについて補足すると、情報処理装置301で障害が発生した場合の動作状態には、情報処理装置301の起動/停止状態、情報処理装置301上のアプリケーションプログラムの起動/停止状態、情報処理装置301上のアプリケーションプログラムのエラーログ、CPU情報、メモリ情報、ハードディスク情報、またはそれらの組み合わせなどが挙げられる。障害の前兆と推測される動作状態には、情報処理装置301で障害が発生した場合の動作状態に加えて、現在の同時コネクション数、現在のスループット、現在の入出力トラフィック量、またはそれらの組み合わせなどが挙げられる。   Here, supplementing the operation state, the conditional expression, and the countermeasure command, the operation state when a failure occurs in the information processing apparatus 301 includes the start / stop state of the information processing apparatus 301 and the application program on the information processing apparatus 301. Examples include a start / stop state, an error log of an application program on the information processing apparatus 301, CPU information, memory information, hard disk information, or a combination thereof. The operation state presumed to be a sign of failure includes the current number of concurrent connections, the current throughput, the current input / output traffic amount, or a combination thereof, in addition to the operation state when a failure occurs in the information processing apparatus 301 Etc.

障害の前兆と推測される動作状態を判定するための条件式には、前記障害の前兆と推測される動作状態が閾値を超えたかどうかを判定する評価式や、障害が発生した動作状態に一致する動作状態かどうかを判定する評価式などが挙げられる。   The conditional expression for determining the operating state that is presumed to be a sign of failure matches the evaluation formula that determines whether or not the operating state that is presumed to be a sign of failure has exceeded a threshold, and the operating state in which the failure has occurred And an evaluation formula for determining whether or not the operating state is to be performed.

情報処理装置301で障害が発生した場合の動作状態における障害を復旧または回避するための対処コマンド、および、障害の前兆と推測される動作状態になった場合に障害を復旧または回避するための対処コマンドには、情報処理装置301の起動/停止コマンド、情報処理装置301上のプログラムの起動/停止コマンド、ハードディスクに格納されているデータを他の情報処理装置301へ移動または複写させるコマンドや削除するコマンド、情報処理装置301上で動作するプログラムを他の情報処理装置へ移動または複写させるコマンド、またはそれらの組み合わせなどが挙げられる。   A command for recovering or avoiding a failure in the operating state when a failure occurs in the information processing apparatus 301, and a countermeasure for recovering or avoiding the failure when the operating state is assumed to be a precursor of the failure The command includes a start / stop command for the information processing apparatus 301, a command start / stop command for the information processing apparatus 301, a command for moving or copying data stored in the hard disk to another information processing apparatus 301, and a deletion. A command, a command for moving or copying a program operating on the information processing apparatus 301 to another information processing apparatus, or a combination thereof.

図2は、このような条件式と対処コマンドを含む障害対処ルールの一例を示す。図2のルール番号1の障害対処ルールは、情報処理装置301のアプリケーションが無応答である場合を表す条件式と、その条件を満たしたときにアプリケーションを再起動させる対処コマンドとから構成されている。同様に、図2のルール番号2の障害対処ルールは、情報処理装置301のメモリ使用率が90%以上となった状態を障害とみなすための条件式と、その条件を満たしたときにオペレーティングシステムを再起動させる対処コマンドとから構成されている。さらに、図2のルール番号3の障害対処ルールは、情報処理装置301のメモリ使用率が80%以上の場合を表す条件式と、アプリケーションを再起動する対処コマンドとから構成されている。   FIG. 2 shows an example of a failure handling rule including such a conditional expression and a handling command. The failure handling rule of rule number 1 in FIG. 2 is composed of a conditional expression that represents a case where the application of the information processing apparatus 301 is not responding, and a handling command that restarts the application when the condition is satisfied. . Similarly, the failure handling rule of rule number 2 in FIG. 2 is a conditional expression for considering a state where the memory usage rate of the information processing apparatus 301 is 90% or more as a failure, and an operating system when the condition is satisfied. It consists of a countermeasure command to restart. Further, the failure handling rule of rule number 3 in FIG. 2 is composed of a conditional expression representing a case where the memory usage rate of the information processing apparatus 301 is 80% or more and a handling command for restarting the application.

対処候補検索手段1012は、状態検出手段1011で検出された動作状態に合致する条件式をもつ障害対処ルールを対処記憶手段1013から取り出し、その取り出した障害対処ルールに含まれる対処コマンドを対処実行手段1015へと送信する。   The handling candidate search unit 1012 takes out a fault handling rule having a conditional expression that matches the operation state detected by the status detection unit 1011 from the handling storage unit 1013, and takes a handling command included in the extracted fault handling rule. To 1015.

対処実行手段1015は、対処候補検索手段1012から受信した障害対処ルールの対処コマンドを解釈し、この解釈した対処コマンドを情報処理装置301上で実行する。また、対処コマンドを情報処理装置301上で実行した結果を情報処理装置301から取得し、この取得した実行結果を制御手段1014へ送信する。   The handling execution unit 1015 interprets the handling command of the fault handling rule received from the handling candidate search unit 1012 and executes the interpreted handling command on the information processing apparatus 301. In addition, a result of executing the handling command on the information processing apparatus 301 is acquired from the information processing apparatus 301, and the acquired execution result is transmitted to the control unit 1014.

制御手段1014は、状態検出手段1011が取得または受信した情報処理装置301における障害が発生した場合の動作状態または障害の前兆と推測される動作状態、対処記憶手段1013に格納されている障害対処ルールを利用者管理装置201へ送信する。また制御手段1014は、情報処理装置301上で実行された対処コマンドの実行結果を対処実行手段1015から取得し、利用者管理装置201へ送信する。また、制御手段1014は、新たな障害対処ルールあるいは編集した障害対処ルールを対処記憶手段1013へ格納する要求をその格納対象となる障害対処ルールと共に利用者管理装置201から受信し、その障害対処ルールを対処記憶手段1013へ格納する。さらに、制御手段1014は、対処記憶手段1013に格納される障害対処ルールの削除要求を利用者管理装置201から受信し、対処記憶手段1013に格納されている前記障害対処ルールを削除する処理も行う。   The control unit 1014 includes an operation state when a failure occurs in the information processing apparatus 301 acquired or received by the state detection unit 1011 or an operation state presumed to be a precursor to the failure, and a failure handling rule stored in the handling storage unit 1013 Is transmitted to the user management apparatus 201. Further, the control unit 1014 acquires the execution result of the countermeasure command executed on the information processing apparatus 301 from the countermeasure execution unit 1015 and transmits the result to the user management apparatus 201. Further, the control unit 1014 receives a request for storing a new failure handling rule or an edited failure handling rule in the handling storage unit 1013 from the user management apparatus 201 together with the failure handling rule to be stored, and the failure handling rule. Is stored in the countermeasure storage means 1013. Further, the control unit 1014 receives a request for deleting the failure handling rule stored in the handling storage unit 1013 from the user management apparatus 201, and also performs a process of deleting the failure handling rule stored in the handling storage unit 1013. .

利用者管理装置201は、状態検出手段1011が取得または受信した情報処理装置301における障害が発生した場合の動作状態または障害の前兆と推測される動作状態、対処記憶手段1013に格納されている障害対処ルール、情報処理装置301上で実行された障害対処コマンドの実行結果を制御手段1014から受信し、表示装置などの出力装置を通じて管理者へ表示する。また、利用者管理装置201は、ユーザからの指示に従って、新たな障害対処ルールあるいは編集した障害対処ルールを対処記憶手段1013へ格納する要求をその障害対処ルールと共に制御手段1014へ送る。さらに、利用者管理装置201は、ユーザからの指示に従って、対処記憶手段1013に格納される障害対処ルールの削除要求を制御手段1014へ送る。   The user management apparatus 201 includes an operation state in the case where a failure occurs in the information processing apparatus 301 acquired or received by the state detection unit 1011 or an operation state that is presumed to be a precursor of the failure, and a failure stored in the countermeasure storage unit 1013. The handling rule and the execution result of the fault handling command executed on the information processing apparatus 301 are received from the control means 1014 and displayed to the administrator through an output device such as a display device. Further, the user management apparatus 201 sends a request for storing a new failure handling rule or an edited failure handling rule in the handling storage unit 1013 to the control unit 1014 together with the failure handling rule in accordance with an instruction from the user. Furthermore, the user management apparatus 201 sends a request for deleting the failure handling rule stored in the handling storage unit 1013 to the control unit 1014 in accordance with an instruction from the user.

次に、図3のフローチャートを参照して、本発明の前提となる障害復旧装置の全体の動作について説明する。   Next, the overall operation of the failure recovery apparatus as a premise of the present invention will be described with reference to the flowchart of FIG.

状態検出手段1011は、情報処理装置301の動作状態を検出する(図3のS101)。動作状態は、障害対処ルールの条件式に沿った形で検出される。図2の例では、AP応答の正常/無応答やメモリ使用率等が検出される。対処候補検索手段1012では、状態検出手段1011から現在の動作状態を受け取り、対処記憶手段1013に格納されている障害対処ルールの条件式に合致するものがあるかどうかを探索する(S102)。合致する条件式がない場合は、障害が発生していないものとして、S101へ戻る。合致する条件式があった場合には、障害発生とみなして対応する対処コマンドを探索する。例えば、検出された状態のうち、メモリ使用率が80%以上であった場合には図2の番号3の条件式に合致するため、対処コマンドとしてAP再起動を候補として出力する。この対処コマンドを対処実行手段1015が受け取り、情報処理装置301に対処コマンドの実行を指示することで、情報処理装置301上のアプリケーションが再起動される(S103)。   The state detection unit 1011 detects the operation state of the information processing apparatus 301 (S101 in FIG. 3). The operation state is detected in a form according to the conditional expression of the failure handling rule. In the example of FIG. 2, the normal / no response of the AP response, the memory usage rate, and the like are detected. The handling candidate search unit 1012 receives the current operation state from the state detection unit 1011 and searches for a match with the condition formula of the fault handling rule stored in the handling storage unit 1013 (S102). If there is no matching conditional expression, it is determined that no failure has occurred and the process returns to S101. If there is a matching conditional expression, it is assumed that a failure has occurred and a corresponding countermeasure command is searched. For example, in the detected state, when the memory usage rate is 80% or more, it matches the conditional expression of No. 3 in FIG. 2, and thus AP restart is output as a candidate as a countermeasure command. The countermeasure execution unit 1015 receives this countermeasure command and instructs the information processing apparatus 301 to execute the countermeasure command, whereby the application on the information processing apparatus 301 is restarted (S103).

このように対処記憶手段1013中の障害対処ルールに記述された障害に関しては、情報処理装置301の障害を自動的に復旧または回避することができる。このため、対処記憶手段1013に記憶される障害対処ルールを拡充することが、耐障害性を向上させる上で重要になる。このため、図1に示す障害復旧装置101では、利用者管理装置201からのユーザ操作により、ユーザが新規に作成した障害対処ルールを対処記憶手段1013へ登録したり、また既に登録されている障害対処ルールを編集できるようにしている。しかし、複数の障害復旧装置間で互いの障害対処ルールを活用する仕組みがないため、障害対処ルールの設定作業に関して管理者への負担が大きいという問題があった。   As described above, regarding the failure described in the failure handling rule in the handling storage unit 1013, the failure of the information processing apparatus 301 can be automatically recovered or avoided. For this reason, expanding the failure handling rules stored in the handling storage means 1013 is important for improving fault tolerance. For this reason, in the failure recovery apparatus 101 shown in FIG. 1, a failure handling rule newly created by the user is registered in the handling storage means 1013 by a user operation from the user management apparatus 201, or a failure that has already been registered. The coping rules can be edited. However, since there is no mechanism for utilizing each other's failure handling rules among a plurality of failure recovery devices, there has been a problem that the burden on the administrator is heavy regarding the task of setting the failure handling rules.

次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。   Next, the best mode for carrying out the present invention will be described in detail with reference to the drawings.

(第1の実施の形態)
本発明の第1の実施の形態について、図4、図5、図6、図7、図8、図9を参照して説明する。
(First embodiment)
A first embodiment of the present invention will be described with reference to FIGS. 4, 5, 6, 7, 8, and 9.

図4を参照すると、本発明の第1の実施の形態にかかる障害復旧装置101は、図1の前提となる障害復旧装置と比較して、情報処理装置301の環境情報を格納する環境情報記憶手段1111と、環境情報記憶手段1111に格納される環境情報と対処記憶手段1013に格納される障害対処ルールとの対応関係を格納する対応表1112と、障害対処ルールをそのルールに関連する環境情報を付加して他の障害復旧装置102へ送信する伝播手段1113と、他の障害復旧装置102から受け取った障害対処ルールに付加された環境情報と環境情報記憶手段1111に格納された環境情報とを比較して、他の障害復旧装置120から受信した障害対処ルールが情報処理装置301のための障害対処ルールとして適用できる可能性を数値で評価した適用評価値を算出する適用手段1115と、適用手段1115が適用評価値を算出するために参照する適用評価値表1114とを備える点で相違する。また、他の障害復旧装置102も図4の障害復旧装置101と同様の構成を備えている。なお、他の障害復旧装置102が管理する情報処理装置および他の障害復旧装置102とユーザとの間でデータや指示のやりとりを行う利用者管理装置は図示を省略している。   Referring to FIG. 4, the failure recovery apparatus 101 according to the first exemplary embodiment of the present invention is an environment information storage that stores environment information of the information processing apparatus 301 compared to the failure recovery apparatus that is the premise of FIG. 1. Means 1111; correspondence table 1112 for storing correspondence between environment information stored in environment information storage means 1111 and failure handling rules stored in handling storage means 1013; and environment information related to failure handling rules for the rules Is transmitted to the other failure recovery apparatus 102, the environment information added to the failure handling rule received from the other failure recovery apparatus 102, and the environment information stored in the environment information storage means 1111 In comparison, the possibility that the failure handling rule received from the other failure recovery device 120 can be applied as a failure handling rule for the information processing device 301 is expressed numerically. And application means 1115 for calculating the value was applied evaluation value is different in including a application evaluation value table 1114 that refers to the application unit 1115 calculates the applied evaluation value. Further, the other failure recovery apparatus 102 has the same configuration as the failure recovery apparatus 101 of FIG. Note that an information processing apparatus managed by another failure recovery apparatus 102 and a user management apparatus that exchanges data and instructions between the other failure recovery apparatus 102 and the user are not shown.

環境情報記憶手段1111は、管理対象となる情報処理装置301を構成するハードウェアおよびソフトウェアの構成情報を環境情報として記憶している。具体的には、環境情報記憶手段1111は、カテゴリ、ハードウェアあるいはソフトウェアの名称、ハードウェアあるいはソフトウェアのバージョン情報、ハードウェアあるいはソフトウェアの設定状態、ハードウェアあるいはソフトウェアの稼動状態、ハードウェアあるいはソフトウェアの性能情報を、情報処理装置301の環境情報として格納する。この環境情報について補足すると、カテゴリは、例えば、アプリケーションまたはオペレーティングシステムまたはネットワークまたはハードウェアを表す。ハードウェアあるいはソフトウェアの設定状態は、例えば、ハードウェアあるいはソフトウェアの初期設定ファイルに記載された情報を表す。ハードウェアあるいはソフトウェアの稼動状態は、例えば、ハードウェアあるいはソフトウェアが稼動しているかどうかを表現する情報を表す。ハードウェアあるいはソフトウェアの性能情報は、例えば、ハードウェアあるいはソフトウェアの負荷情報、ハードウェアあるいはソフトウェアの利用状態を表す。   The environment information storage unit 1111 stores hardware and software configuration information constituting the information processing apparatus 301 to be managed as environment information. Specifically, the environment information storage unit 1111 includes a category, hardware or software name, hardware or software version information, hardware or software setting status, hardware or software operating status, hardware or software status. The performance information is stored as environment information of the information processing apparatus 301. To supplement this environmental information, the category represents, for example, an application or an operating system or a network or hardware. The setting state of hardware or software represents information described in an initial setting file of hardware or software, for example. The operating state of hardware or software represents information representing whether the hardware or software is operating, for example. The hardware or software performance information represents, for example, hardware or software load information, and hardware or software usage status.

図5に環境情報記憶手段1111に記憶された環境情報の一例を示す。環境情報記憶手段1111では、1つの環境情報は、環境情報番号とインデックスと内容との組で定義される。例えば、環境情報番号1の環境情報は、カテゴリがAPに属することを定義している。また、環境情報番号2の環境情報は、カテゴリがOSに属することを、環境情報番号3の環境情報は、APカテゴリがWebサーバであることを、環境情報番号4の環境情報は、APカテゴリがSMTPサーバであることを、環境情報番号5の環境情報は、Webサーババージョンが1.3.28であることを、環境情報番号6の環境情報は、OSバージョンが9.0であることを、環境情報番号7の環境情報は、OSカテゴリが基幹OSであることを、それぞれ定義している。ここで、障害復旧装置101および障害復旧装置102を含め、全ての障害復旧装置における環境情報のインデックスは統一されている。つまり、例えばOSのバージョンを定義する環境情報は、全ての障害復旧装置でインデックスとして「OSバージョン」が使用される。他のインデックスについても同様である。   FIG. 5 shows an example of environment information stored in the environment information storage unit 1111. In the environment information storage unit 1111, one piece of environment information is defined by a set of an environment information number, an index, and contents. For example, the environment information of environment information number 1 defines that the category belongs to AP. The environment information of environment information number 2 indicates that the category belongs to the OS, the environment information of environment information number 3 indicates that the AP category is a Web server, and the environment information of environment information number 4 indicates that the AP category has an AP category. The environment information of environment information number 5 indicates that the server is an SMTP server, the Web server version is 1.3.28, the environment information of environment information number 6 indicates that the OS version is 9.0, The environment information of environment information number 7 defines that the OS category is a core OS. Here, the environment information indexes in all the failure recovery apparatuses including the failure recovery apparatus 101 and the failure recovery apparatus 102 are unified. In other words, for example, the environment information defining the OS version uses “OS version” as an index in all failure recovery apparatuses. The same applies to other indexes.

対応表1112は、環境情報記憶手段1111に格納された環境情報と対処記憶手段1013に格納された障害対処ルールとの対応関係を記憶している。図6、図7に対応表1112の一例を示す。図6は、対処記憶手段1013に格納された各障害対処ルール毎に、そのルール番号とその障害対処ルールに関連する障害情報の番号の組を対応付けており、図7は、環境情報記憶手段1111に格納された各環境情報毎に、その環境情報番号とその環境情報に関連する障害対処ルールの番号の組を対応付けたものである。   The correspondence table 1112 stores a correspondence relationship between the environment information stored in the environment information storage unit 1111 and the failure handling rule stored in the handling storage unit 1013. An example of the correspondence table 1112 is shown in FIGS. 6 associates a set of rule numbers and failure information numbers related to the failure handling rules for each failure handling rule stored in the handling storage unit 1013. FIG. For each piece of environment information stored in 1111, a set of the environment information number and a failure handling rule number related to the environment information is associated.

図6を参照すると、ルール番号1には、図5の環境情報番号1、2、3、4、5、7が対応付けられている。これは、ルール番号1の障害対処ルールが、APの1つであるバージョン1.3.28のWebサーバ、SMTPサーバおよび基幹OSの稼働する情報処理装置301に有効なルールであることを意味する。同様に、ルール番号2には環境情報番号1、4、7が、ルール番号3には環境情報番号1、3が、ルール番号4には環境情報番号1、2、3が、ルール番号5には環境情報番号2、7が、ルール番号6には環境情報番号1、3、5が、ルール番号7には環境情報番号1、2、4、6、7が、それぞれ対応付けられている。   Referring to FIG. 6, rule number 1 is associated with environment information numbers 1, 2, 3, 4, 5, and 7 in FIG. 5. This means that the failure handling rule with the rule number 1 is a rule that is effective for the information processing apparatus 301 on which the version 1.3.28 Web server, the SMTP server, and the backbone OS that are one of the APs are operating. . Similarly, environment information numbers 1, 4, and 7 are assigned to rule number 2, environment information numbers 1 and 3 are assigned to rule number 3, environment information numbers 1, 2, and 3 are assigned to rule number 4, and rule number 5 is assigned. Are associated with environmental information numbers 2, 7, rule information 6 is associated with environmental information numbers 1, 3, 5 and rule number 7 is associated with environmental information numbers 1, 2, 4, 6, 7.

図7を参照すると、環境情報番号1には、ルール番号1、2、3、4、6、7が対応付けられている。これは、図5の環境情報番号1のAPというカテゴリに関連する障害対処ルールとしては、ルール1、2、3、4、6、7のルールがあることを意味する。同様に、環境情報番号2にはルール番号1、4、5、7が、環境情報番号3にはルール番号1、3、4、6が、環境情報番号4にはルール番号1、2、7が、環境情報番号5にはルール番号1、6が、環境情報番号6にはルール番号7が、環境情報番号7にはルール番号1、2、5、7が、それぞれ対応付けられている。   Referring to FIG. 7, rule numbers 1, 2, 3, 4, 6, and 7 are associated with environment information number 1. This means that there are rules 1, 2, 3, 4, 6, and 7 as failure handling rules related to the category AP of environment information number 1 in FIG. Similarly, environment information number 2 has rule numbers 1, 4, 5, and 7, environment information number 3 has rule numbers 1, 3, 4, and 6, and environment information number 4 has rule numbers 1, 2, and 7. However, the environment information number 5 is associated with rule numbers 1 and 6, the environment information number 6 is associated with rule number 7, and the environment information number 7 is associated with rule numbers 1, 2, 5, and 7, respectively.

本実施の形態では、対処記憶手段1013に格納された各障害対処ルール毎に、そのルール番号とその障害対処ルールに関連する障害情報の番号の組を対応付けた図6の表と、環境情報記憶手段1111に格納された各環境情報毎に、その環境情報番号とその環境情報に関連する障害対処ルールの番号の組を対応付けた図7の表とで対応表1112が構成されるものとしたが、例えば、障害情報番号と障害対処ルール番号とをそれぞれ行と列のインデックスとする2次元マトリクスにおいて、互いに関連のある障害情報の行と障害対処ルールの列の交点にマークを付した構成の1つの対応表を用いることも可能である。   In the present embodiment, for each failure handling rule stored in the handling storage means 1013, the table of FIG. 6 in which the rule number and a pair of failure information numbers related to the failure handling rule are associated with each other, the environment information For each environment information stored in the storage unit 1111, the correspondence table 1112 is configured by the table of FIG. 7 in which the environment information number and the pair of the failure handling rule number related to the environment information are associated with each other. However, for example, in a two-dimensional matrix in which a failure information number and a failure handling rule number are respectively indexed by rows and columns, a configuration in which a mark is given to the intersection of a row of failure information and a column of failure handling rules that are related to each other It is also possible to use one correspondence table.

伝播手段1113は、対処記憶手段1013に登録された新たな障害対処ルールあるいは編集された障害対処ルールを制御手段1014から受信し、対応表1112を参照して、この新たな障害対処ルールあるいは編集された障害対処ルールに関連する環境情報を環境情報記憶手段1111から取得し、新たな障害対処ルールあるいは編集された障害対処ルールにそれに関連する環境情報を付加して他の障害復旧装置201へ送信する。障害対処ルールに対応する環境情報は、その障害対処ルールのルール番号に対応する環境情報番号を対応表1112から取得し、この取得した環境情報番号と一致する環境情報を環境記憶手段1111から取得することによって得られる。   The propagation unit 1113 receives the new failure handling rule registered in the handling storage unit 1013 or the edited failure handling rule from the control unit 1014, and refers to the correspondence table 1112 to edit or edit the new failure handling rule. The environment information related to the failure handling rule is acquired from the environment information storage unit 1111, the environment information related to the new failure handling rule or the edited failure handling rule is added, and transmitted to the other failure recovery apparatus 201. . For the environment information corresponding to the failure handling rule, the environment information number corresponding to the rule number of the failure handling rule is acquired from the correspondence table 1112, and the environment information matching the acquired environment information number is acquired from the environment storage unit 1111. Can be obtained.

適用手段1115は、障害対処ルールとこの障害対処ルールに関連する環境情報を他の障害復旧装置102から受信し、受信した環境情報と環境情報記憶手段1111に格納されている情報処理装置301の環境情報とを比較して、受信した障害対処ルールが情報処理装置301のための障害対処ルールとして適用できる可能性を数値で評価した適用評価値を算出し、受信した障害対処ルール及びそれに関連する環境情報と前記適用評価値とを制御手段1014へ送信する。適用評価値の算出は、例えば、他の障害復旧装置102から障害対処ルールと共に送られてきた各環境情報毎に、その環境情報と同じ環境情報が環境情報記憶手段1111に記憶されているかどうかを調べ、その結果から計算式を用いて適用評価値を計算することができる。例えば、受信した環境情報が3つあり、その全てが環境情報記憶手段1111に記憶されていれば、適用評価値100パーセント、何れか2つだけが記憶されていれば、66パーセント、何れか1つだけが記憶されていれば33パーセント、1つも同じ環境情報が環境情報記憶手段1111になければ、0パーセントとすることができる。また、各環境情報毎に重みを付けて評価値を算出してもよい。しかし、本実施の形態における適用手段1115は、適用評価値表1114を参照して適用評価値を算出するようにしている。   The application unit 1115 receives the failure handling rule and the environment information related to the failure handling rule from the other failure recovery apparatus 102, and receives the received environment information and the environment of the information processing apparatus 301 stored in the environment information storage unit 1111. Compared with information, calculates an application evaluation value that evaluates numerically the possibility that the received failure handling rule can be applied as a failure handling rule for the information processing apparatus 301, and receives the received failure handling rule and its related environment Information and the application evaluation value are transmitted to the control means 1014. For example, the application evaluation value is calculated by checking whether the same environment information as the environment information is stored in the environment information storage unit 1111 for each environment information sent from the other failure recovery apparatus 102 together with the failure handling rule. The application evaluation value can be calculated from the result using the calculation formula. For example, if there are three pieces of received environment information and all of them are stored in the environment information storage unit 1111, the application evaluation value is 100%, and if only two of them are stored, 66%, either one If only one is stored, 33%, and if no environment information storage means 1111 has the same environment information, it can be set to 0%. Further, the evaluation value may be calculated by assigning a weight to each environment information. However, the application unit 1115 in the present embodiment calculates the application evaluation value with reference to the application evaluation value table 1114.

適用評価値表1114は、一致する環境情報の種類のパターンに応じた適用評価値を事前に定義した表であり、その一例を図8に示す。この例の適用評価値表1114は、他の障害復旧装置102から障害対処ルールと共に受信した環境情報が、それぞれ「カテゴリ」、「APカテゴリ」、「Webサーババージョン」のインデックスを持つ3つの環境情報である場合、それら全ての環境情報と同じ内容の環境情報が環境情報記憶手段1111に記憶されていた場合には、適用基準値100パーセント、「Webサーババージョン」以外の2つの環境情報が環境情報記憶手段1111に記憶されていた場合には、適用基準値80パーセント、「APカテゴリ」以外の2つの環境情報が環境情報記憶手段1111に記憶されていた場合には、適用基準値30パーセントとするものである。なお、その他の組合せについての適用基準値は図示を省略している。このように、障害対処ルールに関連する環境情報と環境情報記憶手段1111に格納された環境情報との一致するパターンに応じた適用評価値を事前に登録した適用評価値表1114を用いることにより、適用評価値をきめ細かく導出することができる。   The application evaluation value table 1114 is a table in which application evaluation values corresponding to patterns of types of matching environmental information are defined in advance, and an example thereof is shown in FIG. The application evaluation value table 1114 of this example includes three pieces of environment information in which the environment information received together with the failure handling rules from other failure recovery apparatuses 102 has indexes of “category”, “AP category”, and “Web server version”, respectively. If the environment information having the same contents as all the environment information is stored in the environment information storage unit 1111, two environment information other than the application standard value 100% and “Web server version” are included in the environment information. When stored in the storage unit 1111, the application reference value is 80%, and when two pieces of environmental information other than “AP category” are stored in the environment information storage unit 1111, the application reference value is 30%. Is. Note that the application standard values for other combinations are not shown. In this way, by using the application evaluation value table 1114 in which application evaluation values corresponding to the matching pattern between the environment information related to the failure handling rule and the environment information stored in the environment information storage unit 1111 are registered in advance, The application evaluation value can be derived in detail.

制御手段1014は、前提となる図1の障害復旧装置における制御手段の有する機能に加えて、新たな障害対処ルールあるいは編集された障害対処ルールを他の障害復旧装置へ伝播する要求と障害対処ルールを利用者管理装置201から受信し、この障害対処ルールを伝播手段1113へ送信する機能を有する。また、制御手段1014は、他の障害復旧装置102から受信した障害対処ルールについて、自動的に判断して適用するか、管理者へ確認を求めるかを示す適用モードを、利用者管理装置201から受信して記憶し、また、他の障害復旧装置102から受信した障害対処ルールを、自動的に対処記憶手段1013へ格納する判断基準である適用基準値を記憶する。   The control means 1014 includes a request and a trouble handling rule for propagating a new fault handling rule or an edited fault handling rule to another fault restoring apparatus, in addition to the functions of the control means in the fault restoration apparatus of FIG. Is received from the user management apparatus 201, and this failure handling rule is transmitted to the propagation means 1113. In addition, the control unit 1014 sets an application mode indicating whether to automatically determine and apply a failure handling rule received from another failure recovery apparatus 102 or to request confirmation from the administrator from the user management apparatus 201. An application standard value, which is a determination criterion for automatically storing the fault handling rule received from the other fault recovery apparatus 102 in the handling storage unit 1013, is stored.

さらに、制御手段1014は、自動的に判断して適用することを示す適用モードを記憶している場合、障害対処ルールとこの障害対処ルールに関連する環境情報と適用評価値とを適用手段1115から受信したとき、その適用評価値が適用基準値よりも大きい値ならば、その障害対処ルールを対処記憶手段1013へ格納するとともに、その障害対処ルールとそれに関連する環境情報と適用評価値と自動的に適用したことを示す結果とを利用者管理装置201へ送信する。反対に、適用評価値が適用基準値よりも小さい値ならば、障害対処ルールとそれに関連する環境情報と適用評価値と自動的に適用できないことを示す結果とを利用者管理装置201へ送信する。   Further, when storing the application mode indicating that it is automatically determined and applied, the control unit 1014 receives the failure handling rule, the environment information related to the failure handling rule, and the application evaluation value from the application unit 1115. When the application evaluation value is larger than the application reference value when received, the failure handling rule is stored in the handling storage means 1013, and the failure handling rule, its associated environmental information, the application evaluation value, and the automatic And a result indicating that it is applied to the user management apparatus 201. On the other hand, if the application evaluation value is smaller than the application reference value, the failure handling rule, the environment information related to it, the application evaluation value, and a result indicating that the application evaluation value cannot be automatically applied are transmitted to the user management apparatus 201. .

また、制御手段1014は、管理者へ確認を求めることを示す適用モードを記憶している場合、障害対処ルールとこの障害対処ルールに関連する環境情報と適用評価値とを適用手段1115から受信したとき、それらと共に障害対処ルールの適用確認要求を利用者管理装置201へ送信する。そして、障害対処ルールの適用要求を利用者管理装置201から受信したならば、障害対処ルールを対処記憶手段1013へ格納する。   In addition, the control unit 1014 receives the failure handling rule, the environment information related to the failure handling rule, and the application evaluation value from the applying unit 1115 when the application mode indicating that confirmation is requested from the administrator is stored. At the same time, a failure confirmation rule application confirmation request is transmitted to the user management apparatus 201 together with them. If a failure handling rule application request is received from the user management apparatus 201, the failure handling rule is stored in the handling storage unit 1013.

利用者管理装置201は、前提となる図1の利用者管理装置の有する機能に加えて、ユーザからの指示に従って、新たな障害対処ルールあるいは編集された障害対処ルールを他の障害復旧装置102へ伝播する要求と前記障害対処ルールを利用者管理装置201へ送信する機能を有する。また、利用者管理装置201は、ユーザからの指示に従って、他の障害復旧装置102から受信した障害対処ルールを、自動的に判断して適用するか、管理者へ確認を求めるかを示す適用モードを制御手段1014へ送信する。   The user management apparatus 201 adds a new failure handling rule or an edited failure handling rule to another fault recovery apparatus 102 in accordance with an instruction from the user, in addition to the functions of the user management apparatus of FIG. A function of transmitting the request to propagate and the failure handling rule to the user management apparatus 201; The user management apparatus 201 also applies an application mode indicating whether to automatically determine and apply a failure handling rule received from another failure recovery apparatus 102 or to ask the administrator for confirmation in accordance with an instruction from the user. Is transmitted to the control means 1014.

また、利用者管理装置201は、障害対処ルールとこの障害対処ルールに関連する環境情報と適用評価値と自動的に適用したことを示す結果とを制御手段1014から受信したとき、それらを管理者へ表示するとともに、ログとして記録する。さらに、障害対処ルールとこの障害対処ルールに関連する環境情報と適用評価値と自動的に適用できないことを示す結果とを制御手段1014から受信したとき、それらを管理者へ表示するとともに、ログとして記録する。   When the user management apparatus 201 receives from the control means 1014 the failure handling rule, the environment information related to the failure handling rule, the application evaluation value, and the result indicating that it has been automatically applied, the user management device 201 And display as a log. Further, when the failure handling rule, the environment information related to the failure handling rule, the application evaluation value, and the result indicating that the failure handling rule cannot be automatically applied are received from the control means 1014, they are displayed to the administrator and are displayed as a log. Record.

さらにまた、利用者管理装置201は、障害対処ルールとこの障害対処ルールに対応する環境情報と適用評価値と障害対処ルールの適用確認要求とを制御手段1014から受信したとき、それらを管理者へ表示するともに、ログとして記録する。そして、管理者が障害対処ルールを適用すると判断し、その旨の指示が入力されたならば、障害対処ルールの適用要求を制御手段1014へ送信する。   Furthermore, when the user management apparatus 201 receives from the control means 1014 a failure handling rule, environmental information corresponding to the failure handling rule, an application evaluation value, and an application confirmation request for the failure handling rule, these are sent to the administrator. Both are displayed and recorded as a log. When the administrator determines that the failure handling rule is to be applied and an instruction to that effect is input, a request to apply the failure handling rule is transmitted to the control means 1014.

次に、本実施の形態の動作について説明する。   Next, the operation of the present embodiment will be described.

あらかじめ、障害復旧装置101において、対処記憶手段1013に障害対処ルール、制御手段1014に適用モードと適用基準値、環境情報記憶手段1111に情報処理装置301の環境情報、適用評価値表1114に障害対処ルールに対応する環境情報の比較評価情報、対応表1112に障害対処ルールと環境情報との対応情報が、それぞれ格納されている。他の障害復旧装置102においても同様である。   In the failure recovery apparatus 101, the failure storage rule is stored in the response storage unit 1013, the application mode and application reference value is stored in the control unit 1014, the environment information of the information processing device 301 is stored in the environment information storage unit 1111, and the failure response is stored in the application evaluation value table 1114. The comparison evaluation information of the environmental information corresponding to the rule, and the correspondence table 1112 store the correspondence information between the failure handling rule and the environmental information. The same applies to other failure recovery apparatuses 102.

管理者が、利用者管理装置201を通じて新たな障害対処ルールあるいは編集した障害対処ルールを自己の障害復旧装置101の対処記憶手段1013に追加した場合、この障害対処ルールを他の障害復旧装置102へ伝播させることを希望する場合には、その障害対処ルールを他の障害復旧装置102へ伝播させる要求を利用者管理装置201から障害復旧装置101の制御手段1014へ送信する。この伝播要求には、伝播させたい障害対処ルールのルール番号が含まれる。以降、図9に示されるような一連の処理が障害復旧装置101および他の障害復旧装置102で開始される。   When the administrator adds a new failure handling rule or an edited failure handling rule to the handling storage unit 1013 of the own failure recovery device 101 through the user management device 201, the failure handling rule is transferred to another failure recovery device 102. When it is desired to propagate, a request for propagating the failure handling rule to another failure recovery device 102 is transmitted from the user management device 201 to the control means 1014 of the failure recovery device 101. This propagation request includes the rule number of the failure handling rule to be propagated. Thereafter, a series of processes as shown in FIG. 9 is started in the failure recovery apparatus 101 and other failure recovery apparatuses 102.

まず、障害対処ルールを他の障害復旧装置102へ伝播する要求を受信した障害復旧装置101の制御手段1014は、伝播要求に含まれるルール番号を持つ障害対処ルールを対処記憶手段1013から読み出し、そのルール番号と共に自装置102の伝播手段1113へ送信する(S201)。   First, the control unit 1014 of the failure recovery apparatus 101 that has received a request for propagating the failure handling rule to another failure recovery apparatus 102 reads the failure handling rule having the rule number included in the propagation request from the handling storage unit 1013, and It transmits to the propagation means 1113 of the own apparatus 102 with a rule number (S201).

障害対処ルールを受信した障害復旧装置101の伝播手段1113は、ルール番号をキーに対応表1112を検索して伝播対象の障害対処ルールに関連する環境情報番号を取得し、さらにその環境情報番号をキーに環境情報記憶手段1111を検索して環境情報(インデックスと内容)を取得し、伝播対象の障害対処ルールと前記取得した環境情報とを他の障害復旧装置102へ送信する(S202)。   The propagation unit 1113 of the failure recovery apparatus 101 that has received the failure handling rule retrieves the correspondence table 1112 by using the rule number as a key, acquires an environment information number related to the failure handling rule to be propagated, and further acquires the environment information number. The environment information storage unit 1111 is searched for the key to acquire the environment information (index and content), and the failure handling rule to be propagated and the acquired environment information are transmitted to the other failure recovery apparatus 102 (S202).

障害対処ルールとそれに関連する環境情報とを受信した障害復旧装置102の適用手段1115は、受信した障害対処ルールが自障害復旧装置102が管理する情報処理装置のための障害対処ルールとして適用できる可能性を数値で評価した適用評価値を算出し、この算出した適用評価値を障害対処ルール及びそれに関連する環境情報とともに自装置102の制御手段1014へ送信する(S203)。適用評価値の算出は、受信した各環境情報毎に、同じ環境情報が環境情報記憶手段1111に記憶されているかどうかを調べ、その結果に対応する適用評価値を適用評価値表1114から取得する。例えば、受信した環境情報が、「カテゴリ」、「APカテゴリ」、「Webサーババージョン」のインデックスを持つ3つの環境情報である場合、各環境情報と同じ環境情報が環境情報記憶手段1111に記憶されているかどうかを調べ、例えば、「カテゴリ」の環境情報と「APカテゴリ」の環境情報の2つについては同じ環境情報が環境情報記憶手段1111に記憶されているが、「Webサーババージョン」の環境情報は同じものがなかった場合、図8に例示した適用評価値表1114の2行目のパターンに合致するので、適用評価値として80パーセントを算出する。   The application unit 1115 of the failure recovery apparatus 102 that has received the failure handling rule and the environment information related thereto can be applied as the failure handling rule for the information processing apparatus managed by the own failure recovery apparatus 102. An application evaluation value obtained by numerically evaluating the property is calculated, and the calculated application evaluation value is transmitted to the control unit 1014 of the own apparatus 102 together with the failure handling rule and the environment information related thereto (S203). The application evaluation value is calculated by checking whether or not the same environment information is stored in the environment information storage unit 1111 for each received environment information, and obtaining an application evaluation value corresponding to the result from the application evaluation value table 1114. . For example, when the received environment information is three environment information having indexes of “category”, “AP category”, and “Web server version”, the same environment information as each environment information is stored in the environment information storage unit 1111. For example, the same environment information is stored in the environment information storage unit 1111 for the environment information of “category” and the environment information of “AP category”, but the environment of “Web server version” If the information is not the same, it matches the pattern in the second row of the application evaluation value table 1114 illustrated in FIG. 8, so that 80% is calculated as the application evaluation value.

伝播された障害対処ルールとそれに関連する環境情報および適用評価値を受信した障害復旧装置102の制御手段1014は、自装置102に設定された適用モードが、障害対処ルールを自動的に判断して適用するモード、管理者へ確認を求めるモードの何れに設定されているかを判断し(S204)、各々のモードに応じて処理を切り分ける。   The control unit 1014 of the failure recovery apparatus 102 that has received the propagated failure handling rule and the related environment information and application evaluation value automatically determines the failure handling rule based on the application mode set in the own device 102. It is determined whether the mode to be applied or the mode for requesting confirmation from the administrator is set (S204), and the process is divided according to each mode.

(1)障害対処ルールを自動的に判断して適用するモードの場合
まず、障害復旧装置102の制御手段1014は、自装置102の適用手段1115から受信した適用評価値と自装置102の適用基準値とを比較する(S205)。適用評価値が適用基準値以上の場合、制御手段1014は、伝播された障害対処ルールと同じ障害対処ルールが自装置102の対処記憶手段1013に存在しなければ、対処記憶手段1013において一意になるルール番号を付与して対処記憶手段1013へ格納し、さらに、その障害対処ルールとそれに関連する環境情報と適用評価値とを含み、自動適用した旨を示す処理結果を利用者管理装置201へ送信する(S206)。利用者管理装置201は、受信した情報を表示装置を通じて管理者に表示するとともにログとして記録する。また、制御手段1014は、適用手段1115から障害対処ルールと共に渡された環境情報のうち環境情報記憶手段1111に同じものが記憶されている環境情報の番号と前記格納した障害対処ルールのルール番号との対応情報を対応表1112に登録する。
(1) In a mode in which failure handling rules are automatically determined and applied First, the control means 1014 of the failure recovery apparatus 102 first applies the application evaluation value received from the application means 1115 of the own apparatus 102 and the application criteria of the own apparatus 102. The values are compared (S205). When the application evaluation value is equal to or greater than the application reference value, the control unit 1014 is unique in the handling storage unit 1013 unless the same fault handling rule as the propagated fault handling rule exists in the handling storage unit 1013 of the own device 102. A rule number is assigned and stored in the countermeasure storage means 1013, and further, a processing result indicating that it has been automatically applied is transmitted to the user management apparatus 201, including the failure countermeasure rule, environment information related thereto, and application evaluation value. (S206). The user management device 201 displays the received information to the administrator through the display device and records it as a log. Further, the control means 1014 includes the number of the environment information stored in the environment information storage means 1111 among the environment information passed from the application means 1115 together with the trouble handling rule, and the rule number of the stored trouble handling rule. Is registered in the correspondence table 1112.

他方、適用評価値が適用基準値より小さい場合、制御手段1014は、伝播してきた障害対処ルールとそれに関連する環境情報と適用評価値とを含み、自動適用されなかった旨を示す処理結果を利用者管理装置201へ送信する(S207)。利用者管理装置201は、受信した情報を表示装置を通じて管理者に表示するとともにログとして記録する。   On the other hand, when the application evaluation value is smaller than the application reference value, the control means 1014 uses the processing result indicating that it has not been automatically applied, including the propagated failure handling rule, the related environment information, and the application evaluation value. (S207). The user management device 201 displays the received information to the administrator through the display device and records it as a log.

(2)管理者の確認をとるモードの場合
障害復旧装置102の制御手段1014は、自装置102の適用手段1115から受信した障害対処ルールとそれに関連する環境情報および適用評価値を含む適用確認要求を利用者管理装置201へ送信する(S208)。利用者管理装置201では、制御手段1014から受信した情報を表示装置を通じて管理者に表示するとともに、ログとして記録する。管理者は、表示装置に表示された障害対処ルール、それに関連する環境情報および適用評価値を確認し、この障害対処ルールを障害復旧装置102に適用するのであれば、その格納要求を利用者管理装置201から制御手段1014へ送信する。
(2) In the case of the mode for confirming the administrator The control means 1014 of the failure recovery apparatus 102 applies an application confirmation request including the failure handling rule received from the application means 1115 of the own apparatus 102, environmental information related thereto, and application evaluation value. Is transmitted to the user management apparatus 201 (S208). The user management apparatus 201 displays information received from the control unit 1014 to the administrator through a display device and records it as a log. The administrator confirms the failure handling rule displayed on the display device, the related environment information and the application evaluation value, and if this failure handling rule is applied to the failure recovery device 102, the storage request is stored in the user management. It is transmitted from the apparatus 201 to the control means 1014.

障害復旧装置102の制御手段1014は、適用確認要求に対して利用者管理装置201を通じて管理者から障害対処ルールの格納要求を受信したかどうかを判断し(S209)、格納要求を受信したならば、格納要求のあった障害対処ルールに対処記憶手段1013において一意になるルール番号を付与して、自装置102の対処記憶手段1013へ格納する(S210)。このとき、制御手段1014は、適用手段1115から障害対処ルールと共に渡された環境情報のうち環境情報記憶手段1111に同じものが記憶されている環境情報の番号と前記格納した障害対処ルールのルール番号との対応情報を対応表1112に登録する。   In response to the application confirmation request, the control unit 1014 of the failure recovery apparatus 102 determines whether a failure handling rule storage request is received from the administrator through the user management device 201 (S209). Then, a rule number that is unique in the handling storage unit 1013 is assigned to the failure handling rule that has been requested to be stored, and stored in the handling storage unit 1013 of the device 102 (S210). At this time, the control unit 1014 includes the number of the environment information stored in the environment information storage unit 1111 among the environment information passed from the application unit 1115 together with the failure handling rule, and the rule number of the stored failure handling rule. Is registered in the correspondence table 1112.

以上のようにして、障害復旧装置101の対処記憶手段1013に新たに格納された障害対処ルールがその他の障害復旧装置102に伝播し、その他の障害復旧装置102の対処記憶手段1013に格納されると、その格納された障害対処ルールは、図1の前提となる障害復旧装置で説明した場合と同様に、障害復旧装置102の管理対象とする情報処理装置で発生した障害またはその前兆を復旧ないし回復するための障害対処ルールとして利用されることになる。そのときの動作は前提となる障害復旧装置と同じなので、説明は省略する。   As described above, the failure handling rule newly stored in the handling storage unit 1013 of the fault recovery apparatus 101 is propagated to the other fault recovery apparatus 102 and stored in the handling storage unit 1013 of the other fault recovery apparatus 102. In the same manner as the case of the failure recovery apparatus that is the premise of FIG. 1, the stored failure handling rule recovers a failure that occurred in the information processing apparatus to be managed by the failure recovery apparatus 102 or its precursor. It will be used as a failure handling rule for recovery. Since the operation at that time is the same as that of the presumed failure recovery apparatus, description thereof is omitted.

このように本実施の形態によれば、障害復旧装置101の対処記憶手段1013に新たに格納された障害対処ルールをその他の障害復旧装置102に伝播させる仕組みを構築したことにより、従来、管理者が行っていた異なる障害復旧装置ごとの障害対処ルールの追加または編集作業を軽減することができる。   As described above, according to the present embodiment, by constructing a mechanism for propagating the failure handling rule newly stored in the handling storage unit 1013 of the failure recovery apparatus 101 to the other failure recovery apparatus 102, a conventional administrator It is possible to reduce the task of adding or editing a failure handling rule for each different failure recovery apparatus.

例えば、複数の情報サーバ(Webサーバ)とメールサーバ(SMTPサーバ)を管理する場合を考えると、従来の障害復旧装置では、管理者は、図2に示すような障害対処ルールを、それぞれのサーバの構成に応じて設定する必要があった。これに対して、本実施の形態の障害復旧装置では、図6および図7に示す対応表を用いた場合、ルール番号1の障害対処ルールは、図5に示す環境情報番号3と4の環境情報に共通であることがわかり、WebサーバまたはSMTPサーバのいずれかに図2の番号1の障害対処ルールが設定されていれば、それぞれのサーバ(情報処理装置)を管理する障害復旧装置がその障害対処ルールを伝播し、他方でも同じ障害対処ルールが適用される。この結果、異なるサービスを提供するサーバであっても、「そのAP(WebまたはSMTP)が無応答になった場合にはAPを再起動する」という共通の障害対処が可能であり、管理者が個別に設定する作業が大幅に低減される。さらに、伝播可能な範囲にあるサーバで障害対処ルールの設定漏れがあった場合にも、同様の手順により管理者に設定可能な障害対処ルールが提示されることになり、これまで管理者が個別にチェックしていた作業が軽減されるとともに、管理者のミスによる設定不良を防止するという顕著な効果を得ることができる。   For example, in the case of managing a plurality of information servers (Web servers) and mail servers (SMTP servers), in a conventional failure recovery apparatus, an administrator sets a failure handling rule as shown in FIG. It was necessary to set according to the configuration. In contrast, in the failure recovery apparatus according to the present embodiment, when the correspondence tables shown in FIGS. 6 and 7 are used, the failure handling rule of rule number 1 is the environment information numbers 3 and 4 shown in FIG. If it is understood that the information is common, and the failure handling rule of number 1 in FIG. 2 is set in either the Web server or the SMTP server, the failure recovery device that manages each server (information processing device) The failure handling rule is propagated, and the same failure handling rule is applied to the other side. As a result, even a server that provides a different service can cope with a common failure of “restarting an AP when the AP (Web or SMTP) becomes unresponsive”. The individual setting work is greatly reduced. In addition, even if there is a failure in setting a fault handling rule on a server that can be propagated, a fault handling rule that can be set up will be presented to the administrator using the same procedure. This reduces the work that has been checked, and can achieve a remarkable effect of preventing a setting failure due to an administrator's mistake.

(第2の実施の形態)
次に、本発明の第2の実施の形態について図10、図11、図12を参照して詳細に説明する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described in detail with reference to FIG. 10, FIG. 11, and FIG.

図10を参照すると、本発明の第2の実施の形態にかかる障害復旧装置101は、図4の第1の実施の形態にかかる障害復旧装置101と比較して、補完手段1116を備える点で相違する。また、他の障害復旧装置102も図10の障害復旧装置101と同様の構成を備えている。   Referring to FIG. 10, the failure recovery apparatus 101 according to the second embodiment of the present invention is provided with a complementing unit 1116 as compared with the failure recovery apparatus 101 according to the first embodiment of FIG. Is different. Further, the other failure recovery apparatus 102 has the same configuration as the failure recovery apparatus 101 of FIG.

補完手段1116は、自障害復旧装置101の制御手段1014を通じて利用者管理装置201から、未完成な障害対処ルールとそれに関連する環境情報とを含む未完成ルール補完要求を受信すると、その未完成ルール補完要求を他の障害復旧装置102へ送信し、この未完成ルール補完要求に対して、完成された障害対処ルールとそれに関連する環境情報とを含む補完応答を受信すると、補完応答に含まれる障害対処ルールとそれに関連する環境情報とを自障害復旧装置101の適用手段1115に送信する機能を有する。適用手段1115は、この送信されてきた障害対処ルールとそれに関連する環境情報を、第1の実施の形態において他の障害復旧装置102から伝播されてきた障害対処ルールとそれに関連する環境情報と同じように処理する。   When the complement unit 1116 receives an incomplete rule complement request including an incomplete fault handling rule and related environment information from the user management apparatus 201 through the control unit 1014 of the own fault recovery apparatus 101, the complement unit 1116 receives the incomplete rule. When a completion request is transmitted to another failure recovery apparatus 102 and a completion response including a completed failure handling rule and environment information related thereto is received in response to this incomplete rule completion request, the failure included in the completion response It has a function of transmitting the handling rule and the related environment information to the applying unit 1115 of the own failure recovery apparatus 101. The application unit 1115 uses the same failure handling rule and the related environment information transmitted thereto as the failure handling rule and the related environment information transmitted from the other failure recovery apparatus 102 in the first embodiment. Process as follows.

また、補完手段1116は、他の障害復旧装置102から未完成な障害対処ルールとそれに関連する環境情報とを含む未完成ルール補完要求を受信すると、自障害復旧装置101の対処記憶手段1013に記憶されている障害対処ルール、対応表1112および環境情報記憶手段1111を参照して、未完成ルールを完成させ、完成させた障害対処ルールとそれに関連する環境情報とを含む補完応答を、未完成ルール補完要求元の他の障害復旧装置102に送信する機能を有する。未完成ルールを完成させる具体的な方法は、次の通りである。   Further, when the complementing unit 1116 receives an incomplete rule complementing request including an incomplete fault handling rule and related environment information from another fault recovery device 102, the complementing unit 1116 stores it in the handling storage unit 1013 of the own fault recovery device 101. The failure handling rule, correspondence table 1112 and environment information storage unit 1111 are referred to complete the incomplete rule, and the completed response including the completed failure handling rule and the related environment information is received as the incomplete rule. It has a function to transmit to the other failure recovery apparatus 102 of the complement request source. A specific method for completing an incomplete rule is as follows.

まず、補完手段1116は、対処記憶手段1013に記憶されている障害対処ルールのうち、未完成ルール補完要求に含まれる環境情報と同じ環境情報に関連する障害対処ルールをすべて抽出する。これは、未完成ルール補完要求に含まれる環境情報の番号をキーに図7の対応表1112を検索して、その環境情報番号に対応するルール番号を取得し、次に、この取得したルール番号をキーに対処記憶手段1013を検索することで行われる。次いで、補完手段1116は、抽出した障害対処ルールの内から、未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを、補完後のルール、つまり完成された障害対処ルールとする。   First, the complementing unit 1116 extracts all failure handling rules related to the same environment information as the environment information included in the incomplete rule complementing request from the failure handling rules stored in the handling storage unit 1013. This is done by searching the correspondence table 1112 in FIG. 7 using the environment information number included in the incomplete rule complement request as a key to obtain the rule number corresponding to the environment information number, and then obtaining the rule number. This is done by searching the countermeasure storage means 1013 using as a key. Next, the complement means 1116 completes the complemented rule, that is, the completed rule in the incomplete fault handling rule included in the incomplete rule complementing request among the extracted fault handling rules. Trouble handling rules.

ここで、未完成な障害対処ルールとは、障害対処ルールの少なくとも1つの要素が設定されていない障害対処ルールを意味する。条件式の全部あるいはその一部、または対処コマンドの全部あるいはその一部、または条件式および対処コマンドの全部、または条件式の一部と対処コマンドの全部、または条件式の全部と対処コマンドの一部、または条件式の一部と対処コマンドの一部が、それぞれ設定されていない障害対処ルールは、未完成な障害対処ルールである。   Here, the incomplete failure handling rule means a failure handling rule in which at least one element of the failure handling rule is not set. All or part of the conditional expression, or all or part of the handling command, or all of the conditional expression and handling command, or part of the conditional expression and handling command, or all of the conditional expression and handling command A fault handling rule in which a part or part of a conditional expression and a part of a handling command are not set is an incomplete fault handling rule.

図11に未完成部分を含む障害対処ルールの一例を示す。ルール番号1は、未完成部分のない障害対処ルールである。ルール番号2は、CPU使用率が90%以上のときという条件式は設定されているが、対処コマンドが設定されていない未完成な障害対処ルールである。ルール番号3は、対処コマンドとしてAP再起動が設定されているが、条件式のAP出力の障害動作が未設定になっている未完成な障害対処ルールである。ルール番号4は、OS出力の障害動作が未設定で、対処コマンドも未設定である未完成な障害対処ルールである。ルール番号5は、条件式と対処コマンドがともに未設定になっている未完成な障害対処ルールである。   FIG. 11 shows an example of a failure handling rule including an incomplete part. Rule number 1 is a failure handling rule with no unfinished part. Rule No. 2 is an incomplete failure handling rule in which a conditional expression for when the CPU usage rate is 90% or more is set, but no handling command is set. Rule number 3 is an incomplete fault handling rule in which AP restart is set as a handling command, but the fault operation of the AP output in the conditional expression is not set. Rule number 4 is an incomplete failure handling rule in which the OS output failure operation is not set and the response command is not set. Rule number 5 is an incomplete failure handling rule in which both the conditional expression and the handling command are not set.

利用者管理装置201は、第1の実施の形態における利用者管理装置201の機能に加えて、未完成な障害対処ルールとそれに関連する環境情報とを含む未完成ルール補完要求を管理者から受け付けて制御手段1014へ送信する機能を有する。   In addition to the functions of the user management apparatus 201 in the first embodiment, the user management apparatus 201 accepts an incomplete rule supplement request including an incomplete failure handling rule and related environment information from the administrator. And transmitting to the control means 1014.

制御手段1014は、第1の実施の形態における制御手段1014の機能に加えて、未完成な障害対処ルールとそれに関連する環境情報とを含む未完成ルール補完要求を利用者管理装置201から受信し、補完手段1116へ送信する機能を有する。   In addition to the function of the control unit 1014 in the first embodiment, the control unit 1014 receives, from the user management apparatus 201, an incomplete rule complement request including an incomplete fault handling rule and related environment information. , And a function of transmitting to the complementing means 1116.

次に本実施の形態の動作を説明する。   Next, the operation of the present embodiment will be described.

第1の実施の形態と同様にあらかじめ、障害復旧装置101において、対処記憶手段1013に障害対処ルール、制御手段1014に適用モードと適用基準値、環境情報記憶手段1111に情報処理装置301の環境情報、適用評価値表1114に障害対処ルールに対応する環境情報の比較評価情報、対応表1112に障害対処ルールと環境情報との対応情報が、それぞれ格納されている。他の障害復旧装置102においても同様である。   Similarly to the first embodiment, in the failure recovery apparatus 101, the failure storage unit 1013 previously has a failure handling rule, the control unit 1014 has an application mode and application reference value, and the environment information storage unit 1111 has environment information of the information processing device 301. The application evaluation value table 1114 stores comparison evaluation information of environment information corresponding to the failure handling rule, and the correspondence table 1112 stores correspondence information between the failure handling rule and the environment information. The same applies to other failure recovery apparatuses 102.

管理者が、利用者管理装置201を通じて、未完成でない新たな障害対処ルールあるいは編集した障害対処ルールを自己の障害復旧装置101の対処記憶手段1013に追加した場合、この障害対処ルールを他の障害復旧装置102へ伝播させることを希望する場合には、その障害対処ルールを他の障害復旧装置102へ伝播させる要求を利用者管理装置201から障害復旧装置101の制御手段1014へ送信すれば、障害対処ルールを他の障害復旧装置102にも必要に応じて適用することが可能である。このときの動作は、第1の実施の形態における場合と同じなので、その説明は省略する。   When the administrator adds a new failure handling rule that has not been completed or an edited failure handling rule to the handling storage unit 1013 of the own failure recovery device 101 through the user management device 201, the failure handling rule is added to another failure handling rule. If it is desired to propagate to the recovery device 102, a request to propagate the failure handling rule to another failure recovery device 102 is transmitted from the user management device 201 to the control means 1014 of the failure recovery device 101. The handling rule can be applied to other failure recovery apparatuses 102 as necessary. Since the operation at this time is the same as that in the first embodiment, the description thereof is omitted.

次に、管理者が、未完成な障害対処ルールとそれに関連する環境情報とを含む未完成ルール補完要求を利用者管理装置201から入力した場合の動作を説明する。   Next, an operation when an administrator inputs an incomplete rule supplement request including an incomplete failure handling rule and environmental information related thereto from the user management apparatus 201 will be described.

利用者管理装置201は、未完成な障害対処ルールとそれに関連する環境情報とを含む未完成ルール補完要求が管理者から入力されると、その未完成ルール補完要求を障害復旧装置101の制御手段1014へ送信する。ここで、管理者は、未完成な障害対処ルールの完成部分の内容やそのルールの使用目的、作成意図などから、その障害対処ルールに関連する環境情報を自ら判断し、その環境情報の番号を環境情報記憶手段1111から参照して、未完成ルール補完要求に含める。   When an incomplete rule complement request including an incomplete fault handling rule and related environment information is input from the administrator, the user management apparatus 201 outputs the incomplete rule complement request to the control unit of the fault recovery apparatus 101. To 1014. Here, the administrator himself determines the environmental information related to the fault handling rule from the contents of the completed part of the incomplete fault handling rule, the purpose of use of the rule, and the intention to create the rule, and sets the number of the environmental information. Referring to the environment information storage unit 1111, it is included in the incomplete rule supplement request.

例えば、新種のWebサーバを情報処理装置301に導入したとき、CPU使用率が90%以上であれば障害になることは確実であるため、CPU使用率>90%という条件式を持つ障害対処ルールを用意したいが、適切な対処方法がわからないために、対処コマンドを未設定とした図11の番号2の障害対処ルールを作成したとする。この場合、その障害対処ルールに関連する環境情報としては、図5の番号1、3、5の環境情報が考えられる。   For example, when a new type of Web server is introduced into the information processing apparatus 301, it is certain that a failure will occur if the CPU usage rate is 90% or higher. However, since an appropriate countermeasure method is not known, it is assumed that a failure handling rule number 2 in FIG. In this case, environmental information of numbers 1, 3, and 5 in FIG. 5 can be considered as environmental information related to the failure handling rule.

また、新規にSMTPサーバを情報処理装置301に追加したため、それが障害になったときの復旧用に障害対処ルールを用意したいが、どのような障害に対しどのように対処すれば良いか皆目検討がつかないため、条件式および対処コマンドの双方を未設定とした図11の番号5の障害対処ルールを作成したとする。この場合、その障害対処ルールに関連する環境情報としては、図5の番号1、4の環境情報が考えられる。   Also, since a new SMTP server has been added to the information processing apparatus 301, we want to prepare a failure handling rule for recovery when it becomes a failure. Suppose that a failure handling rule of number 5 in FIG. 11 is created in which both the conditional expression and the handling command are not set. In this case, environmental information of numbers 1 and 4 in FIG. 5 can be considered as environmental information related to the failure handling rule.

未完成な障害対処ルールとそれに関連する環境情報とを含む未完成ルール補完要求が利用者管理装置201から障害復旧装置101の制御手段1014へ送信されると、以降、図12に示されるような一連の処理が障害復旧装置101および他の障害復旧装置102で開始される。   When an incomplete rule supplement request including an incomplete fault handling rule and environmental information related thereto is transmitted from the user management apparatus 201 to the control means 1014 of the fault recovery apparatus 101, the following is shown in FIG. A series of processing is started in the failure recovery apparatus 101 and another failure recovery apparatus 102.

まず、未完成ルール補完要求を受信した障害復旧装置101の制御手段1014は、その要求を自装置101の補完手段1116に送信する(S301)。補完手段1116は、制御手段1014から受信した未完成ルール補完要求を他の障害復旧装置102へ送信し(S302)、この未完成ルール補完要求に対して、完成された障害対処ルールとそれに関連する環境情報を含む補完応答が送られてくるのを待つ。   First, the control means 1014 of the failure recovery apparatus 101 that has received the incomplete rule complement request transmits the request to the complement means 1116 of the own apparatus 101 (S301). The complementing unit 1116 transmits the incomplete rule complementing request received from the control unit 1014 to the other fault recovery apparatus 102 (S302). In response to this incomplete rule complementing request, the completed fault handling rule and the related rule Wait for a supplemental response containing environmental information.

他の障害復旧装置102の補完手段1116は、障害復旧装置101から送信された未完成ルール補完要求を受信すると(S303)、まず、対処記憶手段1013に記憶されている障害対処ルールのうち、未完成ルール補完要求に含まれる環境情報と同じ環境情報に関連する障害対処ルールを抽出する(S304)。例えば、未完成ルール補完要求に含まれる環境情報の番号が1、3、5であり、他の障害復旧装置102の環境情報記憶手段1111および対応表1112の内容が図5および図7に示すものである場合、ルール番号1、2、3、4、6、7の障害対処ルールが対処記憶手段1013から抽出される。ここでは、未完成ルール補完要求に含まれる少なくとも1つの環境情報に関連する障害対処ルールを抽出したが、未完成ルール補完要求に含まれる全てあるいは複数の環境情報に関連する障害対処ルールを抽出するようにしてもよい。例えば前記の例において、未完成ルール補完要求に含まれる環境情報番号1、3、5の全てに関連する障害対処ルールを抽出すると、ルール番号1、6の障害対処ルールとなる。   When the complementing means 1116 of the other fault recovery apparatus 102 receives the incomplete rule supplement request transmitted from the fault recovery apparatus 101 (S303), first, of the fault handling rules stored in the handling storage means 1013, A failure handling rule related to the same environmental information as the environmental information included in the completion rule supplement request is extracted (S304). For example, the environmental information numbers included in the incomplete rule complement request are 1, 3, and 5, and the contents of the environmental information storage unit 1111 and the correspondence table 1112 of the other failure recovery apparatuses 102 are shown in FIGS. In this case, the failure handling rules with the rule numbers 1, 2, 3, 4, 6, 7 are extracted from the handling storage unit 1013. Here, the failure handling rules related to at least one environment information included in the incomplete rule complementation request are extracted, but the failure handling rules related to all or a plurality of environment information included in the incomplete rule complementing request are extracted. You may do it. For example, in the above example, when the failure handling rules related to all of the environment information numbers 1, 3, and 5 included in the incomplete rule supplement request are extracted, the failure handling rules of rule numbers 1 and 6 are obtained.

次に障害復旧装置102の補完手段1116は、抽出した障害対処ルールの内から、未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致する障害対処ルールを選択する(S305)。例えば、未完成な障害対処ルール中の完成部分の内容が、条件式「メモリ使用率>90%」であり、ステップS304で抽出された障害対処ルールが2つあり、一方の条件式は「メモリ使用率>90%」、他方の条件式が「メモリ使用率>80%」である場合、条件式が一致する前者の障害対処ルールを選択する。なお、図11に示した番号5の未完成な障害対処ルールの場合、完成部分が存在しないため、このステップS305においては、ステップS304で抽出された障害対処ルールの全てが選択される。   Next, the complementing unit 1116 of the fault recovery apparatus 102 selects a fault handling rule that matches the content of the completed part in the incomplete fault handling rule included in the incomplete rule complementing request from the extracted fault handling rules. (S305). For example, the content of the completed part in the incomplete fault handling rule is the conditional expression “memory usage rate> 90%”, and there are two fault handling rules extracted in step S304. When the usage rate> 90% ”and the other conditional expression is“ memory usage rate> 80% ”, the former failure handling rule that matches the conditional expression is selected. In the case of the incomplete failure handling rule of number 5 shown in FIG. 11, since there is no completed part, all the failure handling rules extracted in step S304 are selected in this step S305.

次に障害復旧装置102の補完手段1116は、ステップS305で選択した各障害対処ルール毎に、対応表1112を参照して関連する環境情報の番号を取得し、この取得した環境情報番号をキーに環境情報記憶手段1111から環境情報を検索する(S306)。そして、補完手段102は、障害対処ルールとそれに関連する環境情報とを含む補完応答を、未完成ルール補完要求を送信してきた障害復旧装置101に送信する(S307)。   Next, the complementing unit 1116 of the failure recovery apparatus 102 acquires the number of the related environment information with reference to the correspondence table 1112 for each failure handling rule selected in step S305, and uses the acquired environment information number as a key. Environment information is retrieved from the environment information storage unit 1111 (S306). Then, the complementing unit 102 transmits a complementary response including the failure handling rule and the environment information related to the failure handling rule to the failure recovery apparatus 101 that has transmitted the incomplete rule complementing request (S307).

障害復旧装置101の補完手段1116は、未完成ルール補完要求を送信した他の障害復旧装置102から補完応答を受信すると(S308)、受信した補完応答に含まれる障害対処ルールとそれに関連する環境情報を自装置101の適用手段1115へ送信する(S309)。以降、第1の実施の形態における図9のステップS203〜S210と同様な処理である適用判定処理S310が、障害復旧装置101における適用手段1115、制御手段1014および利用者管理装置201において実行される。これにより、他の障害復旧装置102から補完応答で返されてきた障害対処ルールが情報処理装置301のための障害対処ルールとして適用できる可能性が評価され、評価結果がよければ自動的あるいは管理者の確認の下に自己の対処記憶手段1013へ登録されることになる。   When the complementary unit 1116 of the failure recovery apparatus 101 receives a complementary response from another failure recovery apparatus 102 that has transmitted the incomplete rule complementary request (S308), the failure handling rule included in the received complementary response and environment information related thereto Is transmitted to the application means 1115 of the own apparatus 101 (S309). Thereafter, application determination processing S310, which is the same processing as steps S203 to S210 in FIG. 9 in the first embodiment, is executed in the application unit 1115, the control unit 1014, and the user management apparatus 201 in the failure recovery apparatus 101. . As a result, the possibility that the failure handling rule returned from the other failure recovery device 102 as a complementary response can be applied as the failure handling rule for the information processing device 301 is evaluated. Will be registered in its own action storage means 1013 under the confirmation.

以上のようにして、管理者が入力した未完成な障害対処ルールが他の障害復旧装置102において完成されて自障害復旧装置101に戻され、自装置101の対処記憶手段1013に新たに格納されると、その格納された障害対処ルールは、図1の前提となる障害復旧装置で説明した場合と同様に、障害復旧装置101の管理対象とする情報処理装置301で発生した障害またはその前兆を復旧ないし回復するための障害対処ルールとして利用されることになる。そのときの動作は前提となる障害復旧装置と同じなので、説明は省略する。   As described above, the incomplete failure handling rule input by the administrator is completed in the other failure recovery device 102, returned to the own failure recovery device 101, and newly stored in the response storage means 1013 of the own device 101. Then, the stored failure handling rule indicates the failure that occurred in the information processing device 301 to be managed by the failure recovery device 101 or its precursor as in the case of the failure recovery device that is the premise of FIG. It will be used as a failure handling rule for recovery or recovery. Since the operation at that time is the same as that of the presumed failure recovery apparatus, description thereof is omitted.

このように本実施の形態によれば、障害復旧装置101に対して管理者が作成した未完成な障害対処ルールを他の障害復旧装置102に存在する障害対処ルールによって完成させた後、元の障害復旧装置101に伝播させる仕組みを構築したことにより、従来、管理者が行っていた障害対処ルールの作成作業とその追加作業を軽減することができる。   As described above, according to the present embodiment, the incomplete failure handling rule created by the administrator for the failure recovery apparatus 101 is completed by the failure handling rule existing in the other failure recovery apparatus 102, and then the original By constructing a mechanism for propagating to the failure recovery apparatus 101, it is possible to reduce the work for creating the failure handling rule and the additional work that have been performed by the administrator.

例えば、一般の携帯電話への情報提供といった情報通信サービスを考えると、サービスの提供者は、サービス利用者の数の変化や用いられる端末の性能といった点を考慮して、サービスを継続しながらサーバ(情報処理装置)の追加や新機種への変更といったシステムの拡張を行うことになるが、従来の障害復旧装置では、このような構成変更や機能変更が発生する毎に、障害対処ルールの修正を管理者が行う必要があった。この場合、障害の検知条件や対処コマンドを完全な形で記載するためには、その変更内容や、既存の機能との整合性といった詳細な特性を全て管理者が把握する必要があり、また、新たな障害対処ルールに関連する障害が発生した場合に対処が正しく実行されるかどうかを厳密にテストしておかなければならず、サービスを実行する情報処理装置の規模が大きくなるにつれ、管理者の負担が飛躍的に増大し、管理不良による2次障害を引き起こす場合もあった。   For example, when considering an information communication service such as providing information to a general mobile phone, the service provider considers the change in the number of service users and the performance of the terminal to be used while continuing the service. The system will be expanded by adding (information processing equipment) or changing to a new model, but with the conventional fault recovery equipment, every time such a configuration change or function change occurs, the fault handling rule is corrected. Had to be done by the administrator. In this case, in order to describe failure detection conditions and response commands in a complete form, the administrator needs to grasp all the detailed characteristics such as the contents of the change and consistency with existing functions. If a failure related to a new failure handling rule occurs, it must be strictly tested whether the response is executed correctly. As the scale of the information processing device that executes the service increases, the administrator In some cases, the burden on the company has increased dramatically, causing secondary failures due to poor management.

これに対して、本実施の形態の障害復旧装置では、例えば、図11の番号2ないし番号5に示す障害対処ルールのように、管理者が未完成の障害対処ルールを設定することで、一致する設定要素を持ち、かつ、構成が類似した他の障害復旧装置から完成した障害対処ルールを受け取ることができる。この結果、管理者が設定しなかった未完成の要素が、他の障害復旧装置で実際に設定されている内容を元に補完されることになり、管理者の設定および検証の作業が大幅に軽減されることになる。   On the other hand, in the failure recovery apparatus according to the present embodiment, for example, the administrator sets uncompleted failure handling rules like the failure handling rules indicated by numbers 2 to 5 in FIG. It is possible to receive completed fault handling rules from other fault recovery apparatuses having similar setting elements and similar configurations. As a result, incomplete elements that were not set by the administrator will be complemented based on the contents that are actually set in other failure recovery devices, greatly increasing the administrator's setting and verification work. Will be reduced.

具体的には、図11の番号2の障害対処ルールでは、「CPU使用率が90%以上であれば障害になることは確実だが、適切な対処は何かが決定できない」といった場合であり、新種のサーバを導入したため適切な対処コマンドの知識が管理者に無いような状況が考えられる。同様に、番号3の障害対処ルールは、「新たに導入したプログラム(AP)がどのようなエラーを出力するかわからないが、エラー時には再起動したい」という例であり、番号4は、「新たなオペレーティングシステム(OS)の異常に対する設定がされていないが、何を設定したら良いかわからない」という場合、番号5は、「新規にサーバを追加したが、どのような障害に対処するように設定すればよいかわからない」という場合である。これらは、現実の運用管理の場面で度々起こる状況であり、その都度管理者に大きな負担がかかるものであった。これに対して、本実施の形態の障害復旧装置では、例えば、番号2の障害対処ルールが設定されると、構成の類似度からこの新しいサーバに有効な障害対処ルールを選択し、未設定の対処コマンドが補完されるが、この対処コマンドは、実際に運用されている他の障害復旧装置でその挙動がテストされたものとなる。このように、本実施の形態の障害復旧装置では、管理者の構成把握やテストの作業を低減しつつ、有効な障害対処ルールの設定を支援することができるという顕著な効果が得られる。   Specifically, the failure handling rule of No. 2 in FIG. 11 is a case such as “If the CPU usage rate is 90% or more, it is certain that a failure will occur, but what an appropriate countermeasure cannot be determined”. Since a new type of server has been introduced, there may be situations where the administrator has no knowledge of appropriate handling commands. Similarly, the failure handling rule of No. 3 is an example of “I do not know what kind of error the newly installed program (AP) outputs, but I want to restart when there is an error”. If the operating system (OS) abnormality is not set, but you do not know what to set ", the number 5 is" A new server has been added, but what kind of trouble should be set to deal with it? " I don't know what to do ". These are situations that often occur in actual operational management situations, and each time a heavy burden is placed on the administrator. On the other hand, in the failure recovery apparatus according to the present embodiment, for example, when the failure handling rule of number 2 is set, a failure handling rule effective for this new server is selected from the configuration similarity, The coping command is complemented, but this coping command has been tested for its behavior on other fault recovery devices that are actually in operation. As described above, the failure recovery apparatus according to the present embodiment provides a remarkable effect that it is possible to support the setting of an effective failure handling rule while reducing the administrator's configuration grasping and testing work.

本実施の形態では、未完成ルール補完要求は未完成な障害対処ルールに加えてそれに関連する環境情報を含むものとしたが、関連する環境情報を省略した実施の形態も考えられる。この場合、図12のステップS304は省略され、ステップS305において補完手段1116は、未完成ルール補完要求に含まれる未完成な障害対処ルールの完成部分が一致する障害対処ルールを対処記憶手段1013から選択する。この結果、先の実施の形態のように環境情報の類似性によって障害対処ルールを絞り込むことができず、補完応答に含められて返される障害対処ルールの数が増える傾向があるが、評価段階で絞り込まれるため、先の実施の形態と同等の効果を得ることができる。   In the present embodiment, the incomplete rule supplement request includes the environmental information related to the incomplete fault handling rule in addition to the incomplete fault handling rule, but an embodiment in which the related environmental information is omitted is also conceivable. In this case, step S304 in FIG. 12 is omitted, and in step S305, the complementing unit 1116 selects from the handling storage unit 1013 a fault handling rule that matches the completed part of the incomplete fault handling rule included in the incomplete rule complementing request. To do. As a result, the failure handling rules cannot be narrowed down by the similarity of the environment information as in the previous embodiment, and there is a tendency that the number of failure handling rules returned by being included in the complementary response tends to increase. Since it is narrowed down, the same effect as the previous embodiment can be obtained.

(第3の実施の形態)
次に、本発明の第3の実施の形態について図13、図14を参照して詳細に説明する。
(Third embodiment)
Next, a third embodiment of the present invention will be described in detail with reference to FIGS.

図13を参照すると、本発明の第3の実施の形態にかかる障害復旧装置101は、図4の第1の実施の形態にかかる障害復旧装置101と比較して、伝播経路選択手段1117、伝播情報記憶手段1118および実績値記憶手段1119を備える点で相違する。また、他の障害復旧装置102も図13の障害復旧装置101と同様の構成を備えている。   Referring to FIG. 13, the failure recovery apparatus 101 according to the third exemplary embodiment of the present invention has a propagation path selection unit 1117, a propagation, compared to the failure recovery apparatus 101 according to the first exemplary embodiment of FIG. The difference is that an information storage unit 1118 and a performance value storage unit 1119 are provided. Further, the other failure recovery apparatus 102 has the same configuration as the failure recovery apparatus 101 of FIG.

伝播情報記憶手段1118は、他の障害復旧装置102から伝播し自装置101の対処記憶手段1013に格納した障害対処ルールについて、そのルール番号とその障害対処ルールを送信してきた他の障害復旧装置102の情報との組を記憶しておく手段である。   The propagation information storage unit 1118 transmits the rule number and the other fault recovery device 102 that has transmitted the fault handling rule with respect to the fault handling rule propagated from the other fault recovery device 102 and stored in the handling storage unit 1013 of the own device 101. This is a means for storing a set of information.

制御手段1014は、他の障害復旧装置102から伝播してきた障害対処ルールを対処記憶手段1013に格納した際、そのルール番号と伝播元の障害復旧装置102の情報を伝播情報記憶手段1118に記録する。また、対処実行手段1015は、対処候補検索手段1012で選択された障害対処ルールの対処コマンドを情報処理装置301上で実行した際、その実行結果を当該障害対処ルールのルール番号と共に制御手段1014に報告するように構成されている。制御手段1014はこの報告を受けると、そのルール番号で伝播情報記憶手段1118を検索し、同じルール番号が記憶されていれば、それに対応して記憶されている伝播元の障害復旧装置102の情報を伝播情報記憶手段1118から取得して、伝播経路選択手段1117に対し、対処実行手段1015から報告された障害対処ルールの実行結果を伝播元の障害復旧装置102に送信するよう依頼する。   When storing the failure handling rule propagated from another failure recovery apparatus 102 in the action storage means 1013, the control means 1014 records the rule number and information of the failure recovery apparatus 102 of the propagation source in the propagation information storage means 1118. . Further, when the countermeasure execution unit 1015 executes the countermeasure command of the failure handling rule selected by the handling candidate search unit 1012 on the information processing apparatus 301, the execution result is sent to the control unit 1014 together with the rule number of the failure handling rule. It is configured to report. Upon receipt of this report, the control means 1014 searches the propagation information storage means 1118 with the rule number, and if the same rule number is stored, the information of the failure recovery apparatus 102 of the propagation source stored corresponding thereto is stored. Is transmitted from the propagation information storage unit 1118 and the propagation path selection unit 1117 is requested to transmit the execution result of the failure handling rule reported from the handling execution unit 1015 to the failure recovery apparatus 102 of the propagation source.

実績値記憶手段1119は、他の障害復旧装置102毎に、自装置101からその他の障害復旧装置102に伝播した障害対処ルールの適用結果に応じた実績値を記憶する手段である。実績値は、過去に伝播した障害対処ルールが実際に適用され障害の復旧や回避に成功したケースが多いほど、予め定められた伝播基準値より大きな値をとり、逆に、障害の復旧や回避に失敗したケースが多いほど伝播基準値より小さな値をとるように更新される。   The actual value storage unit 1119 is a unit that stores, for each other fault recovery apparatus 102, an actual value corresponding to the application result of the fault handling rule propagated from the own apparatus 101 to the other fault recovery apparatus 102. The actual value takes a larger value than the preset propagation standard value as the failure recovery rules propagated in the past are actually applied and the failure recovery and avoidance are more successful. As the number of cases that have failed, the value is updated to take a value smaller than the propagation reference value.

伝播経路選択手段1117は、自装置101の伝播手段1113から、他の障害復旧装置102に伝播させる障害対処ルールとそれに関連する環境情報とを受信し、実績値記憶手段1119に記憶された他の障害復旧装置102毎の実績値を参照して、障害対処ルールを伝播させる他の障害復旧装置102を選択する機能を有する。また、伝播経路選択手段1117は、障害対処ルールを伝播した先の他の障害復旧装置102から、伝播した障害対処ルールの実行結果を受信し、実績値記憶手段1119の当該他の障害復旧装置102の実績値を更新する機能を有する。   The propagation path selection unit 1117 receives from the propagation unit 1113 of the own apparatus 101 the failure handling rule to be propagated to the other failure recovery apparatus 102 and the environment information related thereto, and the other stored in the actual value storage unit 1119 It has a function of referring to the actual value for each failure recovery device 102 and selecting another failure recovery device 102 that propagates the failure handling rule. Further, the propagation path selection unit 1117 receives the execution result of the propagated failure handling rule from the other failure recovery device 102 to which the failure handling rule has been propagated, and the other failure recovery device 102 in the actual value storage unit 1119. Has a function of updating the actual value.

さらに伝播経路選択手段1117は、制御手段1014からの前記依頼に基づき、他の障害復旧装置102から伝播した障害対処ルールの実行結果を他の障害復旧装置102に送信する機能を有する。   Further, the propagation path selection unit 1117 has a function of transmitting the execution result of the failure handling rule propagated from the other failure recovery device 102 to the other failure recovery device 102 based on the request from the control unit 1014.

次に本実施の形態の動作を説明する。   Next, the operation of the present embodiment will be described.

第1の実施の形態と同様にあらかじめ、障害復旧装置101において、対処記憶手段1013に障害対処ルール、制御手段1014に適用モードと適用基準値、環境情報記憶手段1111に情報処理装置301の環境情報、適用評価値表1114に障害対処ルールに対応する環境情報の比較評価情報、対応表1112に障害対処ルールと環境情報との対応情報が、それぞれ格納されている。また、伝播経路選択手段1117に伝播基準値が格納されている。他の障害復旧装置102においても同様である。   Similarly to the first embodiment, in the failure recovery apparatus 101, the failure storage unit 1013 previously has a failure handling rule, the control unit 1014 has an application mode and application reference value, and the environment information storage unit 1111 has environment information of the information processing device 301. The application evaluation value table 1114 stores comparison evaluation information of environment information corresponding to the failure handling rule, and the correspondence table 1112 stores correspondence information between the failure handling rule and the environment information. Further, the propagation reference value is stored in the propagation path selection means 1117. The same applies to other failure recovery apparatuses 102.

管理者が、利用者管理装置201を通じて新たな障害対処ルールあるいは編集した障害対処ルールを自己の障害復旧装置101の対処記憶手段1013に追加した場合、この障害対処ルールを他の障害復旧装置102へ伝播させることを希望する場合には、その障害対処ルールを他の障害復旧装置102へ伝播させる要求を利用者管理装置201から障害復旧装置101の制御手段1014へ送信する。この伝播要求には、伝播させたい障害対処ルールのルール番号が含まれる。以降、図14に示されるような一連の処理が障害復旧装置101および他の障害復旧装置102で開始される。   When the administrator adds a new failure handling rule or an edited failure handling rule to the handling storage unit 1013 of the own failure recovery device 101 through the user management device 201, the failure handling rule is transferred to another failure recovery device 102. When it is desired to propagate, a request for propagating the failure handling rule to another failure recovery device 102 is transmitted from the user management device 201 to the control means 1014 of the failure recovery device 101. This propagation request includes the rule number of the failure handling rule to be propagated. Thereafter, a series of processes as shown in FIG. 14 is started in the failure recovery apparatus 101 and other failure recovery apparatuses 102.

まず、制御手段1014は、伝播要求に含まれるルール番号を持つ障害対処ルールを対処記憶手段1013から読み出し、そのルール番号と共に自装置102の伝播手段1113へ送信する(S401)。また、伝播手段1113は、ルール番号をキーに対応表1112を検索して伝播対象の障害対処ルールに関連する環境情報番号を取得し、さらにその環境情報番号をキーに環境情報記憶手段1111を検索して環境情報(インデックスと内容)を取得し、伝播対象の障害対処ルールと前記取得した環境情報とを伝播経路選択手段1117へ送信する(S402)。   First, the control unit 1014 reads out the failure handling rule having the rule number included in the propagation request from the handling storage unit 1013, and transmits it to the propagation unit 1113 of the own device 102 together with the rule number (S401). Further, the propagation unit 1113 searches the correspondence table 1112 using the rule number as a key to obtain an environment information number related to the failure handling rule to be propagated, and further searches the environment information storage unit 1111 using the environment information number as a key. Then, the environment information (index and contents) is acquired, and the failure handling rule to be propagated and the acquired environment information are transmitted to the propagation path selection means 1117 (S402).

伝播経路選択手段1117は、実績値記憶手段1119に記憶された他の障害復旧装置102毎の実績値と伝播基準値とを比較し、伝播基準値より実績値の方が大きい他の障害復旧装置102を伝播先に選択する(S403)。そして、伝播先に選択した他の障害復旧装置102に対して、伝播対象となる障害対処ルールとそれに関連する環境情報とを送信する(S404)。また、実績値が伝播基準値以下のため伝播先に選択されなかった他の障害復旧装置102について、障害対処ルールを伝播させなかった旨を制御手段1014に通知し、制御手段1014はその旨を利用者管理装置201を通じて管理者に通知する(S405)。   The propagation path selection unit 1117 compares the actual value for each of the other fault recovery devices 102 stored in the actual value storage unit 1119 with the propagation reference value, and the other fault recovery device whose actual value is larger than the propagation reference value. 102 is selected as a transmission destination (S403). Then, the failure handling rule to be propagated and the environment information related thereto are transmitted to the other failure recovery apparatus 102 selected as the propagation destination (S404). In addition, for other failure recovery apparatuses 102 that have not been selected as the propagation destination because the actual value is less than the propagation reference value, the control unit 1014 is notified that the failure handling rule has not been propagated, and the control unit 1014 notifies the fact. The administrator is notified through the user management apparatus 201 (S405).

他方、障害対処ルールとそれに関連する環境情報とを受信した他の障害復旧装置102においては、第1の実施の形態における図9のステップS203〜S210とほぼ同様な処理である適用判定処理S406が、障害復旧装置102における適用手段1115、制御手段1014および利用者管理装置201において実行される。これにより、障害復旧装置101から伝播した障害対処ルールが障害復旧装置102の管理する情報処理装置のための障害対処ルールとして適用できる可能性が評価され、評価結果がよければ自動的あるいは管理者の確認の下に障害復旧装置102の対処記憶手段1013へ登録されることになる。なお、制御手段1014は、ステップS206、S210に相当する処理において、伝播してきた障害対処ルールを対処記憶手段1013に格納した際、そのルール番号と伝播元の障害復旧装置102の情報を伝播情報記憶手段1118に記録する。   On the other hand, in the other fault recovery apparatus 102 that has received the fault handling rule and the environment information related thereto, an application determination process S406, which is substantially the same process as steps S203 to S210 of FIG. 9 in the first embodiment, is performed. This is executed in the application unit 1115, the control unit 1014, and the user management apparatus 201 in the failure recovery apparatus 102. As a result, the possibility that the failure handling rule propagated from the failure recovery device 101 can be applied as a failure handling rule for the information processing device managed by the failure recovery device 102 is evaluated. Under the confirmation, it is registered in the countermeasure storage unit 1013 of the failure recovery apparatus 102. The control means 1014 stores the propagated failure handling rule in the processing corresponding to steps S206 and S210 in the handling storage means 1013, and stores the rule number and the information of the propagation source failure recovery apparatus 102 in the propagation information storage. Record in means 1118.

以上のようにして、障害復旧装置101から伝播した障害対処ルールが他の障害復旧装置102の対処記憶手段1013に新たに格納されると、その格納された障害対処ルールは、図1の前提となる障害復旧装置で説明した場合と同様に、障害復旧装置102の管理対象とする情報処理装置で発生した障害またはその前兆を復旧ないし回復するための障害対処ルールとして利用されることになる。そのときの動作を以下説明する。   As described above, when the failure handling rule propagated from the failure recovery apparatus 101 is newly stored in the handling storage means 1013 of the other failure recovery apparatus 102, the stored failure handling rule is assumed to be the premise of FIG. In the same way as described in the case of the failure recovery apparatus, it is used as a failure handling rule for recovering or recovering from a failure that occurred in the information processing apparatus to be managed by the failure recovery apparatus 102 or its precursor. The operation at that time will be described below.

障害復旧装置102の状態検出手段1011で検出された情報処理装置の動作状態が、対処記憶手段1013に格納されている或る障害対処ルールの条件式に合致する場合、対処候補検索手段1012は、障害発生とみなして対応する対処コマンドを探索し、検索した対処コマンドとその対処コマンドを含む障害対処ルールのルール番号を対処実行手段1015へ出力する。   When the operation state of the information processing apparatus detected by the state detection unit 1011 of the failure recovery apparatus 102 matches the conditional expression of a certain failure handling rule stored in the handling storage unit 1013, the handling candidate search unit 1012 A response command corresponding to the occurrence of the failure is searched for, and the searched response command and the rule number of the failure response rule including the response command are output to the response execution unit 1015.

対処実行手段1015は、対処候補検索手段1012から出力された対処コマンドを情報処理装置301上で実行し、その実行結果を障害対処ルールのルール番号と共に制御手段1014に通知する。制御手段1014は、通知されたルール番号が伝播情報記憶手段1118に記憶されているかどうかを調べ、記憶されていれば、そのルール番号と共に伝播情報記憶手段1118に記録されている伝播元の障害復旧装置の情報を読み出し、対処実行手段1015から通知された実行結果をその伝播元の障害復旧装置へ送信する依頼を伝播経路選択手段1117へ送信する。伝播経路選択手段1117は、制御手段1014からの依頼に基づき、障害対処ルールの実行結果をそのルールの伝播元の障害復旧装置101に送信する。   The handling execution unit 1015 executes the handling command output from the handling candidate search unit 1012 on the information processing apparatus 301 and notifies the control unit 1014 of the execution result together with the rule number of the fault handling rule. The control unit 1014 checks whether or not the notified rule number is stored in the propagation information storage unit 1118. If it is stored, the failure recovery of the propagation source recorded in the propagation information storage unit 1118 together with the rule number is stored. The device information is read, and a request for transmitting the execution result notified from the countermeasure execution unit 1015 to the failure recovery apparatus of the propagation source is transmitted to the propagation path selection unit 1117. Based on the request from the control unit 1014, the propagation path selection unit 1117 transmits the execution result of the failure handling rule to the failure recovery apparatus 101 that is the propagation source of the rule.

ルール伝播元の障害復旧装置101における伝播経路選択手段1117は、障害対処ルールを伝播した他の障害復旧装置102から、伝播した障害対処ルールの実行結果を受信すると、実績値記憶手段1119の当該他の障害復旧装置102の実績値を更新する。   When the propagation path selection unit 1117 in the failure recovery apparatus 101 of the rule propagation source receives the execution result of the propagated failure handling rule from the other failure recovery apparatus 102 that has propagated the failure handling rule, the propagation value selection unit 1117 The actual value of the failure recovery apparatus 102 is updated.

本実施の形態によれば、障害対処ルールを伝播する障害復旧装置を過去の実績に基づいて選択する伝播経路選択手段1117を備えているため、幾つかの障害対処ルールを過去に伝播させたが全く役立っていない他の障害復旧装置に対してなおも継続して障害対処ルールを伝播してしまうことがなくなり、伝播効率や探索効率が低下するのを防ぐことができる。   According to the present embodiment, since the failure recovery device for propagating the failure handling rule is provided with the propagation path selection means 1117 for selecting based on the past results, some failure handling rules have been propagated in the past. It is possible to prevent the failure handling rule from being continuously propagated to other failure recovery apparatuses that are not useful at all, and to prevent the propagation efficiency and search efficiency from being lowered.

以上本発明の実施の形態について説明したが、本発明は以上の実施の形態にのみ限定されず、その他各種の付加変更が可能である。また、本発明の障害復旧装置は、その有する機能をハードウェア的に実現することは勿論、コンピュータと障害復旧プログラムとで実現することができる。障害復旧プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態における障害復旧装置の状態検出手段、対処候補検索手段、対処実行手段、制御手段、伝播手段、適用手段、補完手段、伝播経路選択手段として機能させる。   Although the embodiment of the present invention has been described above, the present invention is not limited to the above embodiment, and various other additions and modifications can be made. Moreover, the failure recovery apparatus of the present invention can be realized by a computer and a failure recovery program as well as by realizing the functions of the failure recovery device in hardware. The failure recovery program is provided by being recorded on a computer-readable recording medium such as a magnetic disk or a semiconductor memory, read by the computer when the computer is started up, etc., and controlling the operation of the computer. In each embodiment, the failure recovery apparatus functions as state detection means, countermeasure candidate search means, countermeasure execution means, control means, propagation means, application means, complement means, and propagation path selection means.

本発明の前提となる障害復旧装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the failure recovery apparatus used as the premise of this invention. 対処記憶手段に格納される障害対処ルールの一例を示す図である。It is a figure which shows an example of the failure handling rule stored in a handling memory | storage means. 本発明の前提となる障害復旧装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the failure recovery apparatus used as the premise of this invention. 本発明の第1の実施の形態の構成例を示すプロック図である。1 is a block diagram illustrating a configuration example of a first exemplary embodiment of the present invention. 環境情報記憶手段に格納される環境情報の一例を示す図である。It is a figure which shows an example of the environmental information stored in an environmental information storage means. 環境情報記憶手段に格納する環境情報と対処記憶手段に格納する障害対処ルールとの対応関係を示す対応表の一例を示す図である。It is a figure which shows an example of the corresponding | compatible table which shows the correspondence of the environmental information stored in an environmental information storage means, and the failure handling rule stored in a countermeasure storage means. 環境情報記憶手段に格納する環境情報と対処記憶手段に格納する障害対処ルールとの対応関係を示す対応表の一例を示す図である。It is a figure which shows an example of the corresponding | compatible table which shows the correspondence of the environmental information stored in an environmental information storage means, and the failure handling rule stored in a countermeasure storage means. 適用評価値表の一例を示す図である。It is a figure which shows an example of an application evaluation value table. 本発明の第1の実施の形態における障害対処ルールを伝播する場合の動作を示すフローチャートである。It is a flowchart which shows the operation | movement in the case of propagating the failure handling rule in the 1st Embodiment of this invention. 本発明の第2の実施の形態の構成例を示すプロック図である。It is a block diagram which shows the structural example of the 2nd Embodiment of this invention. 本発明の第2の実施の形態の未完成部分を含む障害対処ルールの一例を示す図である。It is a figure which shows an example of the failure handling rule containing the incomplete part of the 2nd Embodiment of this invention. 本発明の第2の実施の形態において未完成部分を含む障害対処ルールを補完する場合の動作を示すフローチャートである。It is a flowchart which shows the operation | movement in the case of complementing the failure handling rule containing an incomplete part in the 2nd Embodiment of this invention. 本発明の第3の実施の形態の構成例を示すプロック図である。It is a block diagram which shows the structural example of the 3rd Embodiment of this invention. 本発明の第3の実施の形態において障害対処ルールを伝播する場合の動作を示すフローチャートである。It is a flowchart which shows operation | movement in the case of propagating a failure handling rule in the 3rd Embodiment of this invention.

符号の説明Explanation of symbols

101、102…障害復旧装置
201…利用者管理装置
301…情報処理装置
1011…状態検出手段
1012…対処候補検索手段
1013…対処記憶手段
1014…制御手段
1015…対処実行手段
1111…環境情報記憶手段
1112…対応表
1113…伝播手段
1114…適用評価値表
1115…適用手段
1116…補完手段
1117…伝播経路選択手段
1118…伝播情報記憶手段
1119…実績値記憶手段
101, 102 ... Failure recovery device 201 ... User management device 301 ... Information processing device 1011 ... Status detection means 1012 ... Action candidate search means 1013 ... Action storage means 1014 ... Control means 1015 ... Action execution means 1111 ... Environment information storage means 1112 ... correspondence table 1113 ... propagation means 1114 ... application evaluation value table 1115 ... application means 1116 ... complement means 1117 ... propagation path selection means 1118 ... propagation information storage means 1119 ... performance value storage means

Claims (23)

a)障害復旧装置の適用手段が、他の障害復旧装置から障害対処ルールと、前記他の障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報のうち前記障害対処ルールに関連する環境情報とを受信し、該受信した前記環境情報と、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報とを比較して、前記他の障害復旧装置から受信した前記障害対処ルールが自障害復旧装置の管理対象とする前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出するステップ、
b)障害復旧装置の制御手段が、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納するステップ、
を含むことを特徴とする障害対処ルール伝播方法。
a) The failure recovery device applying means includes a failure handling rule from another failure recovery device, and the failure of the environment information indicating the hardware configuration and software configuration of the information processing device to be managed by the other failure recovery device Environment information storage means for receiving environment information related to a handling rule, and storing the received environment information and environment information indicating a hardware configuration and a software configuration of an information processing apparatus to be managed by the own failure recovery apparatus The failure handling rule received from the other failure recovery device can be applied as a failure handling rule for the information processing device to be managed by the own failure recovery device. Calculating an application evaluation value that evaluates the sex;
b) a step in which the control means of the failure recovery apparatus stores the received failure handling rule in the handling storage means of the own failure recovery apparatus when the calculated application evaluation value is equal to or greater than an application reference value;
A fault handling rule propagation method characterized by comprising:
a)第1の障害復旧装置の伝播手段が、自障害復旧装置の対処記憶手段に記憶された障害対処ルールと、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報のうち前記障害対処ルールに関連する環境情報とを、1以上の第2の障害復旧装置に送信するステップ、
b)前記第2の障害復旧装置の適用手段が、前記第1の障害復旧装置から受信した前記環境情報と、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報とを比較して、前記第1の障害復旧装置から受信した前記障害対処ルールが自障害復旧装置の管理対象とする前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出するステップ、
c)前記第2の障害復旧装置の制御手段が、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納するステップ、
を含むことを特徴とする障害対処ルール伝播方法。
a) The propagation means of the first failure recovery apparatus is configured to determine the failure handling rules stored in the action storage means of the own failure recovery apparatus, and the hardware configuration and software configuration of the information processing apparatus to be managed by the own failure recovery apparatus. Transmitting environmental information related to the failure handling rule among the environmental information stored in the environmental information storage means for storing the environmental information to be indicated to one or more second failure recovery devices;
b) The application unit of the second failure recovery device indicates the environment information received from the first failure recovery device, and the hardware configuration and software configuration of the information processing device to be managed by the own failure recovery device The information processing apparatus which is compared with the environment information stored in the environment information storage means for storing environment information, and the failure handling rule received from the first failure recovery apparatus is a management target of the own failure recovery apparatus Calculating an application evaluation value that evaluates the possibility of being applied as a failure handling rule for
c) the control means of the second failure recovery apparatus storing the received failure handling rule in the action storage means of the own failure recovery apparatus when the calculated application evaluation value is equal to or greater than an application reference value;
A fault handling rule propagation method characterized by comprising:
a)第1の障害復旧装置の伝播手段が、自障害復旧装置の対処記憶手段に記憶された障害対処ルールと、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報のうち前記障害対処ルールに関連する環境情報とを、自障害復旧装置の伝播経路選択手段に送信するステップ、
b)第1の障害復旧装置の前記伝播経路選択手段が、受信した前記障害対処ルールとそれに関連する環境情報とを、実績値記憶手段に記憶されている実績値が基準値以上の第2の障害復旧装置に送信するステップ、
c)前記第2の障害復旧装置の適用手段が、前記第1の障害復旧装置から受信した前記環境情報と、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報とを比較して、前記第1の障害復旧装置から受信した前記障害対処ルールが自障害復旧装置の管理対象とする前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出するステップ、
d)前記第2の障害復旧装置の制御手段が、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納するステップ、
e)前記第2の障害復旧装置の伝播経路選択手段が、自障害復旧装置の対処記憶手段に記憶された前記第1の障害復旧装置から受信した障害対処ルールを自障害復旧装置の管理対象となる情報処理装置に適用した結果を、前記第1の障害復旧装置へ送信するステップ、
f)前記第1の障害復旧装置の伝播経路選択手段が、前記第2の障害復旧装置から受信した前記障害対処ルールの適用結果に応じて前記実績値記憶手段を更新するステップ、
を含むことを特徴とする障害対処ルール伝播方法。
a) The propagation means of the first failure recovery apparatus is configured to determine the failure handling rules stored in the action storage means of the own failure recovery apparatus, and the hardware configuration and software configuration of the information processing apparatus to be managed by the own failure recovery apparatus. Transmitting the environmental information related to the failure handling rule among the environmental information stored in the environmental information storage means for storing the environmental information to be shown to the propagation path selection means of the own fault recovery device;
b) The propagation path selection means of the first failure recovery apparatus receives the failure handling rule and the environment information related to the received failure handling rule and the second value of which the actual value stored in the actual value storage means is greater than or equal to a reference value. Sending to the disaster recovery device;
c) The application unit of the second failure recovery apparatus shows the environment information received from the first failure recovery apparatus, and the hardware configuration and software configuration of the information processing apparatus to be managed by the own failure recovery apparatus The information processing apparatus which is compared with the environment information stored in the environment information storage means for storing environment information, and the failure handling rule received from the first failure recovery apparatus is a management target of the own failure recovery apparatus Calculating an application evaluation value that evaluates the possibility of being applied as a failure handling rule for
d) a step in which the control means of the second failure recovery apparatus stores the received failure handling rule in the action storage means of the own failure recovery apparatus when the calculated application evaluation value is greater than or equal to an application reference value;
e) The propagation path selection means of the second failure recovery apparatus uses the failure handling rule received from the first failure recovery apparatus stored in the action storage means of the own failure recovery apparatus as the management target of the own failure recovery apparatus. Transmitting the result applied to the information processing apparatus to the first failure recovery apparatus;
f) The propagation path selection means of the first failure recovery device updates the actual value storage means according to the application result of the failure handling rule received from the second failure recovery device;
A fault handling rule propagation method characterized by comprising:
a)第1の障害復旧装置の補完手段が、利用者管理装置から入力された未完成な障害対処ルールと、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報のうち前記障害対処ルールに関連する環境情報とを含む未完成ルール補完要求を、第2の障害復旧装置へ送信するステップ、
b)前記第2の障害復旧装置の補完手段が、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報と自障害復旧装置の対処記憶手段に記憶された障害対処ルールとの対応を示す対応表と、前記環境情報記憶手段と、前記対処記憶手段とを参照して、前記対処記憶手段に記憶されている障害対処ルールのうち、前記未完成ルール補完要求に含まれる環境情報と同じ環境情報に関連する障害対処ルールを抽出するステップ、
c)前記第2の障害復旧装置の補完手段が、前記抽出した障害対処ルールの内から、前記未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを選択し、前記対応表と前記環境情報記憶手段を参照して前記選択した障害対処ルールに関連する環境情報を取得し、該取得した環境情報と前記選択した障害対処ルールとを含む補完応答を前記第1の障害復旧装置に送信するステップ、
d)前記第1の障害復旧装置の適用手段が、前記第2の障害復旧装置から受信した補完応答に含まれる前記環境情報と、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶されている前記環境情報とを比較して、前記第2の障害復旧装置から受信した補完応答に含まれる前記障害対処ルールが自障害復旧装置の管理対象とする前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出するステップ、
e)前記第1の障害復旧装置の制御手段が、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納するステップ、
を含むことを特徴とする障害対処ルール伝播方法。
a) The complementary means of the first failure recovery device shows the incomplete failure handling rule input from the user management device and the hardware configuration and software configuration of the information processing device to be managed by the own failure recovery device A step of transmitting an incomplete rule supplement request including environmental information related to the failure handling rule out of the environmental information stored in the environmental information storage means for storing environmental information to the second fault recovery device;
b) The environment stored in the environment information storage means for storing the environment information indicating the hardware configuration and software configuration of the information processing apparatus to be managed by the own fault recovery apparatus as the complement means of the second fault recovery apparatus With reference to the correspondence table showing the correspondence between the information and the failure handling rules stored in the handling storage unit of the own failure recovery apparatus, the environment information storage unit, and the handling storage unit, the information is stored in the handling storage unit Extracting a fault handling rule related to the same environmental information as the environmental information included in the incomplete rule supplement request among the fault handling rules being
c) The complementing means of the second fault recovery device matches the contents of the completed part in the incomplete fault handling rule included in the incomplete rule complementing request among the extracted fault handling rules. Selecting the environment information related to the selected failure handling rule with reference to the correspondence table and the environment information storage means, and providing a complementary response including the acquired environment information and the selected failure handling rule Transmitting to the first failure recovery device;
d) The hardware configuration of the information processing apparatus to be managed by the environmental information included in the complementary response received from the second fault recovery apparatus by the application means of the first fault recovery apparatus and the own fault recovery apparatus And the environmental information stored in the environmental information storage means for storing the environmental information indicating the software configuration, and the failure handling rule included in the complementary response received from the second failure recovery device Calculating an application evaluation value that evaluates the possibility of being applied as a failure handling rule for the information processing device to be managed by the recovery device;
e) the control means of the first failure recovery apparatus storing the received failure handling rule in the action storage means of the own failure recovery apparatus when the calculated application evaluation value is greater than or equal to an application reference value;
A fault handling rule propagation method characterized by comprising:
a)第1の障害復旧装置の補完手段が、利用者管理装置から入力された未完成な障害対処ルールを含む未完成ルール補完要求を、第2の障害復旧装置へ送信するステップ、
b)前記第2の障害復旧装置の補完手段が、自障害復旧装置の対処記憶手段に記憶された障害対処ルールのうちから、前記未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを選択し、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶された前記環境情報と自障害復旧装置の前記対処記憶手段に記憶された障害対処ルールとの対応を示す対応表と、前記環境情報記憶手段とを参照して前記選択した障害対処ルールに関連する環境情報を取得し、該取得した環境情報と前記選択した障害対処ルールとを含む補完応答を前記第1の障害復旧装置に送信するステップ、
c)前記第1の障害復旧装置の適用手段が、前記第2の障害復旧装置から受信した補完応答に含まれる前記環境情報と、自障害復旧装置の管理対象とする情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段に記憶されている前記環境情報とを比較して、前記第2の障害復旧装置から受信した補完応答に含まれる前記障害対処ルールが自障害復旧装置の管理対象とする前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出するステップ、
d)前記第1の障害復旧装置の制御手段が、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納するステップ、
を含むことを特徴とする障害対処ルール伝播方法。
a) a step of transmitting an incomplete rule complement request including an incomplete fault handling rule input from a user management device to a second fault recovery device by a complement means of the first fault recovery device;
b) The complement means of the second fault recovery device is one of the incomplete fault handling rules included in the incomplete rule complement request among the fault handling rules stored in the handling storage means of the own fault recovery device. The environmental information stored in the environmental information storage means for selecting environmental information that indicates the hardware configuration and software configuration of the information processing apparatus to be managed by the self-failure recovery apparatus, and selects the one with the same content of the completed part Refer to the correspondence table showing the correspondence with the failure handling rules stored in the handling storage means of the own failure recovery device, and obtain the environment information related to the selected failure handling rules with reference to the environment information storage means, Transmitting a complementary response including the acquired environmental information and the selected failure handling rule to the first failure recovery device;
c) The hardware configuration of the environment information included in the complementary response received from the second failure recovery device by the application unit of the first failure recovery device and the information processing device to be managed by the own failure recovery device And the environmental information stored in the environmental information storage means for storing the environmental information indicating the software configuration, and the failure handling rule included in the complementary response received from the second failure recovery device Calculating an application evaluation value that evaluates the possibility of being applied as a failure handling rule for the information processing device to be managed by the recovery device;
d) a step in which the control means of the first failure recovery apparatus stores the received failure handling rule in the action storage means of the own failure recovery apparatus when the calculated application evaluation value is greater than or equal to an application reference value;
A fault handling rule propagation method characterized by comprising:
前記制御手段は、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを自障害復旧装置の対処記憶手段に格納する処理を行う代わりに、前記算出された適用評価値と評価の対象となった障害対処ルールおよびそれに関連する環境情報を利用者管理装置に表示し、利用者管理装置から格納指示があった場合に前記障害対処ルールを自障害復旧装置の対処記憶手段に格納する処理を行うことを特徴とする請求項1ないし5の何れか1項に記載の障害対処ルール伝播方法。   When the calculated application evaluation value is greater than or equal to an application reference value, the control unit performs the process of storing the received failure handling rule in the handling storage unit of the own failure recovery apparatus, instead of performing the process of calculating the calculated application evaluation value. Value and evaluation target failure handling rule and related environment information are displayed on the user management device, and when there is a storage instruction from the user management device, the failure handling rule is stored in the handling memory of the own failure recovery device 6. The fault handling rule propagation method according to any one of claims 1 to 5, wherein a process of storing in the means is performed. 前記適用手段は、一致する環境情報の種類のパターンに応じた適用評価値を定義した適用評価値表を参照して前記適用評価値を決定することを特徴とする請求項1ないし6の何れか1項に記載の障害対処ルール伝播方法。   The application means determines the application evaluation value with reference to an application evaluation value table that defines application evaluation values corresponding to patterns of types of matching environmental information. The fault handling rule propagation method according to item 1. 条件式と対処コマンドとを含む障害対処ルールを記憶する対処記憶手段と、管理対象となる情報処理装置の状態を検出する状態検出手段と、前記検出された状態に合致する条件式を持つ障害対処ルールを前記対処記憶手段から選択する対処候補検索手段と、前記選択された障害対処ルールの対処コマンドを前記情報処理装置上で実行する対処実行手段と、前記情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段と、他の障害復旧装置から送信されてきた障害対処ルールおよび該障害対処ルールに関連する環境情報を受け取り、該受け取った環境情報と前記環境情報記憶手段に記憶された環境情報とを比較して前記伝播された障害対処ルールが前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出する適用手段と、前記算出された適用評価値が適用基準値以上のとき前記伝播された障害対処ルールを前記対処記憶手段に格納する制御手段とを備えることを特徴とする障害復旧装置。   Handling storage means for storing a troubleshooting rule including a conditional expression and a handling command, a status detecting means for detecting the status of the information processing apparatus to be managed, and a fault handling having a conditional expression that matches the detected status Handling candidate search means for selecting a rule from the handling storage means, handling execution means for executing a handling command for the selected failure handling rule on the information processing apparatus, and hardware configuration and software configuration of the information processing apparatus Environment information storage means for storing environment information indicating the failure, the failure handling rule transmitted from another failure recovery apparatus and the environment information related to the failure handling rule, the received environment information and the environment information storage means And the propagated failure handling rule as a failure handling rule for the information processing device An application unit that calculates an application evaluation value that evaluates the possibility of use, and a control unit that stores the propagated failure handling rule in the handling storage unit when the calculated application evaluation value is equal to or greater than an application reference value. A failure recovery apparatus comprising: 前記対処記憶手段に記憶された障害対処ルールと前記環境情報記憶手段に記憶された環境情報との対応を保持する対応表と、前記対処記憶手段に記憶された障害対処ルールのうち他の障害復旧装置に伝播させる障害対処ルールに関連する環境情報を前記対応表を参照して前記環境情報記憶手段から取得し、伝播させる障害対処ルールと共に他の障害復旧装置に送信する伝播手段とを備えることを特徴とする請求項8記載の障害復旧装置。   Correspondence table holding correspondence between the failure handling rules stored in the handling storage means and the environment information stored in the environment information storage means, and other fault recovery among the failure handling rules stored in the handling storage means Propagation means for acquiring environment information related to a failure handling rule to be propagated to a device from the environment information storage means with reference to the correspondence table, and transmitting to the other failure recovery device together with the failure handling rule to be propagated The failure recovery apparatus according to claim 8, wherein: 前記対処記憶手段に記憶された障害対処ルールと前記環境情報記憶手段に記憶された環境情報との対応を保持する対応表と、前記対処記憶手段に記憶された障害対処ルールのうち他の障害復旧装置に伝播させる障害対処ルールに関連する環境情報を前記対応表を参照して前記環境情報記憶手段から取得し、伝播させる障害対処ルールと共に送信する伝播手段と、他の障害復旧装置毎の実績値を保持する実績値記憶手段と、前記伝播手段から受信した障害対処ルールとそれに関連する環境情報を前記実績値記憶手段に記憶されている実績値が基準値以上の他の障害復旧装置に送信し、該送信先の前記他の障害復旧装置から受信した前記障害対処ルールの適用結果に応じて前記実績値記憶手段を更新する伝播経路選択手段とを備えることを特徴とする請求項8記載の障害復旧装置。   Correspondence table holding correspondence between the failure handling rules stored in the handling storage means and the environment information stored in the environment information storage means, and other fault recovery among the failure handling rules stored in the handling storage means Environment information related to failure handling rules to be propagated to the device is acquired from the environment information storage means with reference to the correspondence table and transmitted together with the failure handling rules to be propagated, and actual values for each other failure recovery device The actual value storage means for holding the failure handling rule received from the propagation means and the environment information related thereto are transmitted to other failure recovery devices whose actual value stored in the actual value storage means is a reference value or more. And a propagation path selection means for updating the actual value storage means according to the application result of the failure handling rule received from the other failure recovery apparatus at the transmission destination. Failure recovery device according to claim 8, wherein that. 利用者管理装置から入力された未完成な障害対処ルールとそれに関連する環境情報とを含む未完成ルール補完要求を受け取って他の障害復旧装置へ送信し、前記他の障害復旧装置から前記未完成ルール補完要求に対する応答として、完成された障害対処ルールとそれに関連する環境情報を含む補完応答を受信したとき、前記補完応答に含まれる障害対処ルールとそれに関連する環境情報を前記適用手段へ送信する補完手段を備えることを特徴とする請求項8記載の障害復旧装置。   Receives an incomplete rule supplement request including an incomplete failure handling rule input from the user management device and environmental information related to it and transmits it to another failure recovery device, and the incompleteness from the other failure recovery device When a completed response including a completed failure handling rule and related environment information is received as a response to the rule complement request, the failure handling rule included in the complement response and the associated environment information are transmitted to the application unit. The failure recovery apparatus according to claim 8, further comprising a complementing unit. 前記補完手段は、他の障害復旧装置から未完成ルール補完要求を受信したとき、前記環境情報記憶手段に記憶された前記環境情報と前記対処記憶手段に記憶された障害対処ルールとの対応を示す対応表と、前記環境情報記憶手段と、前記対処記憶手段とを参照して、前記対処記憶手段に記憶されている障害対処ルールのうち、前記未完成ルール補完要求に含まれる環境情報と同じ環境情報に関連する障害対処ルールを抽出し、かつ、該抽出した障害対処ルールの内から、前記未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを選択し、更に、前記対応表と前記環境情報記憶手段を参照して前記選択した障害対処ルールに関連する環境情報を取得し、該取得した環境情報と前記選択した障害対処ルールとを含む補完応答を未完成ルール補完要求元の障害復旧装置に送信するものであることを特徴とする請求項11記載の障害復旧装置。   The complement means indicates correspondence between the environment information stored in the environment information storage means and the fault handling rules stored in the handling storage means when receiving an incomplete rule complement request from another fault recovery device Referring to the correspondence table, the environment information storage means, and the countermeasure storage means, the same environment as the environment information included in the incomplete rule complement request among the fault handling rules stored in the countermeasure storage means Extract failure handling rules related to information, and select from the extracted failure handling rules that match the contents of the completed part in the incomplete failure handling rules included in the incomplete rule supplement request In addition, referring to the correspondence table and the environment information storage unit, environment information related to the selected failure handling rule is acquired, and the acquired environment information and the selected failure handling route are acquired. DOO failure recovery system of claim 11, wherein the complementary response is to send the unfinished rules complement requesting disaster recovery system including. 前記補完手段は、他の障害復旧装置から未完成ルール補完要求を受信したとき、前記対処記憶手段に記憶された障害対処ルールのうちから、前記未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを選択し、前記環境情報記憶手段に記憶された前記環境情報と前記対処記憶手段に記憶された障害対処ルールとの対応を示す対応表と、前記環境情報記憶手段とを参照して前記選択した障害対処ルールに関連する環境情報を取得し、該取得した環境情報と前記選択した障害対処ルールとを含む補完応答を未完成ルール補完要求元の障害復旧装置に送信するものであることを特徴とする請求項11記載の障害復旧装置。   When the complement means receives an incomplete rule complement request from another fault recovery device, the incomplete fault handling included in the incomplete rule complement request is selected from the fault handling rules stored in the handling storage means. A correspondence table indicating correspondence between the environment information stored in the environment information storage unit and the failure handling rule stored in the handling storage unit; The environment information related to the selected failure handling rule is acquired with reference to the information storage means, and a complementary response including the acquired environment information and the selected failure handling rule is used as the failure recovery of the incomplete rule complement request source The failure recovery apparatus according to claim 11, wherein the failure recovery apparatus transmits to the apparatus. 前記制御手段は、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを前記対処記憶手段に格納する処理を行う代わりに、前記算出された適用評価値と評価の対象となった障害対処ルールおよびそれに関連する環境情報を利用者管理装置に表示し、利用者管理装置から格納指示があった場合に前記障害対処ルールを前記対処記憶手段に格納する処理を行うことを特徴とする請求項8ないし13の何れか1項に記載の障害復旧装置。   When the calculated application evaluation value is greater than or equal to an application reference value, the control unit performs the process of storing the received failure handling rule in the handling storage unit, instead of performing the process of storing the calculated application evaluation value and the evaluation value. The target failure handling rule and the environment information related to it are displayed on the user management device, and when there is a storage instruction from the user management device, the failure handling rule is stored in the handling storage means The failure recovery apparatus according to any one of claims 8 to 13. 前記適用手段は、一致する環境情報の種類のパターンに応じた適用評価値を定義した適用評価値表を参照して前記適用評価値を決定することを特徴とする請求項8ないし14の何れか1項に記載の障害復旧装置。   The application means determines the application evaluation value with reference to an application evaluation value table that defines application evaluation values corresponding to patterns of types of matching environmental information. The failure recovery apparatus according to item 1. 条件式と対処コマンドとを含む障害対処ルールを記憶する対処記憶手段と、管理対象となる情報処理装置のハードウェア構成およびソフトウェア構成を示す環境情報を記憶する環境情報記憶手段とを有する障害復旧装置を構成するコンピュータを、管理対象となる情報処理装置の状態を検出する状態検出手段、前記検出された状態に合致する条件式を持つ障害対処ルールを前記対処記憶手段から選択する対処候補検索手段、前記選択された障害対処ルールの対処コマンドを前記情報処理装置上で実行する対処実行手段、他の障害復旧装置から送信されてきた障害対処ルールおよび該障害対処ルールに関連する環境情報を受け取り、該受け取った環境情報と前記環境情報記憶手段に記憶された環境情報とを比較して前記伝播された障害対処ルールが前記情報処理装置のための障害対処ルールとして適用できる可能性を評価した適用評価値を算出する適用手段、前記算出された適用評価値が適用基準値以上のとき前記伝播された障害対処ルールを前記対処記憶手段に格納する制御手段、として機能させることを特徴とするプログラム。   A failure recovery apparatus having a handling storage means for storing a handling rule including a conditional expression and a handling command, and an environment information storage means for storing environment information indicating a hardware configuration and a software configuration of an information processing apparatus to be managed A state detection unit that detects a state of an information processing apparatus to be managed, a countermeasure candidate search unit that selects a failure handling rule having a conditional expression that matches the detected state from the handling storage unit, Receiving a countermeasure execution means for executing a countermeasure command of the selected failure countermeasure rule on the information processing device, a failure countermeasure rule transmitted from another failure recovery device, and environment information related to the failure countermeasure rule; Comparing the received environmental information with the environmental information stored in the environmental information storage means, Applying means for calculating an application evaluation value that evaluates the possibility of being applied as a failure handling rule for the information processing apparatus, and the propagated failure handling rule when the calculated application evaluation value is greater than or equal to an application reference value. A program that functions as a control unit that is stored in the countermeasure storage unit. 前記コンピュータをさらに、前記対処記憶手段に記憶された障害対処ルールのうち他の障害復旧装置に伝播させる障害対処ルールに関連する環境情報を、前記対処記憶手段に記憶された障害対処ルールと前記環境情報記憶手段に記憶された環境情報との対応を保持する対応表を参照して前記環境情報記憶手段から取得し、伝播させる障害対処ルールと共に他の障害復旧装置に送信する伝播手段、として機能させることを特徴とする請求項16記載のプログラム。   Environment information related to a failure handling rule for causing the computer to propagate to another failure recovery device among failure handling rules stored in the handling storage unit, and a failure handling rule stored in the handling storage unit and the environment Refers to the correspondence table holding correspondence with the environment information stored in the information storage means, acquires from the environment information storage means, and functions as a propagation means for transmitting to other failure recovery devices together with the failure handling rule to be propagated The program according to claim 16. 前記コンピュータをさらに、前記対処記憶手段に記憶された障害対処ルールのうち他の障害復旧装置に伝播させる障害対処ルールに関連する環境情報を、前記対処記憶手段に記憶された障害対処ルールと前記環境情報記憶手段に記憶された環境情報との対応を保持する対応表を参照して前記環境情報記憶手段から取得し、伝播させる障害対処ルールと共に送信する伝播手段、前記伝播手段から受信した障害対処ルールとそれに関連する環境情報を、他の障害復旧装置毎の実績値を保持する実績値記憶手段に記憶されている実績値が基準値以上の他の障害復旧装置に送信し、該送信先の前記他の障害復旧装置から受信した前記障害対処ルールの適用結果に応じて前記実績値記憶手段を更新する伝播経路選択手段、として機能させることを特徴とする請求項16記載のプログラム。   Environment information related to a failure handling rule for causing the computer to propagate to another failure recovery device among failure handling rules stored in the handling storage unit, and a failure handling rule stored in the handling storage unit and the environment Propagation means for acquiring from the environment information storage means with reference to a correspondence table holding correspondence with the environment information stored in the information storage means and transmitting together with the failure handling rules to be propagated, and the failure handling rules received from the propagation means And the environmental information related thereto are transmitted to other failure recovery devices whose actual value stored in the actual value storage means for holding the actual value for each other failure recovery device is greater than or equal to the reference value, And functioning as a propagation path selection unit that updates the actual value storage unit according to the application result of the failure handling rule received from another failure recovery device, According to claim 16 of the program that. 前記コンピュータをさらに、利用者管理装置から入力された未完成な障害対処ルールとそれに関連する環境情報とを含む未完成ルール補完要求を受け取って他の障害復旧装置へ送信し、前記他の障害復旧装置から前記未完成ルール補完要求に対する応答として、完成された障害対処ルールとそれに関連する環境情報を含む補完応答を受信したとき、前記補完応答に含まれる障害対処ルールとそれに関連する環境情報を前記適用手段へ送信する補完手段、として機能させることを特徴とする請求項16記載のプログラム。   The computer further receives an incomplete rule supplement request including an incomplete fault handling rule input from the user management apparatus and environmental information related to the received incomplete fault rule, and transmits the request to another fault recovery apparatus. When a complementary response including a completed fault handling rule and its related environment information is received as a response to the incomplete rule complement request from the device, the fault handling rule and its related environment information included in the complementary response are 17. The program according to claim 16, wherein the program is made to function as a complement means for transmitting to the application means. 前記補完手段は、他の障害復旧装置から未完成ルール補完要求を受信したとき、前記環境情報記憶手段に記憶された前記環境情報と前記対処記憶手段に記憶された障害対処ルールとの対応を示す対応表と、前記環境情報記憶手段と、前記対処記憶手段とを参照して、前記対処記憶手段に記憶されている障害対処ルールのうち、前記未完成ルール補完要求に含まれる環境情報と同じ環境情報に関連する障害対処ルールを抽出し、かつ、該抽出した障害対処ルールの内から、前記未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを選択し、更に、前記対応表と前記環境情報記憶手段を参照して前記選択した障害対処ルールに関連する環境情報を取得し、該取得した環境情報と前記選択した障害対処ルールとを含む補完応答を未完成ルール補完要求元の障害復旧装置に送信するものであることを特徴とする請求項19記載のプログラム。   The complement means indicates correspondence between the environment information stored in the environment information storage means and the fault handling rules stored in the handling storage means when receiving an incomplete rule complement request from another fault recovery device Referring to the correspondence table, the environment information storage means, and the countermeasure storage means, the same environment as the environment information included in the incomplete rule complement request among the fault handling rules stored in the countermeasure storage means Extract failure handling rules related to information, and select from the extracted failure handling rules that match the contents of the completed part in the incomplete failure handling rules included in the incomplete rule supplement request In addition, referring to the correspondence table and the environment information storage unit, environment information related to the selected failure handling rule is acquired, and the acquired environment information and the selected failure handling route are acquired. Claim 19 of the program, characterized in that for transmitting bets as incomplete rule complement requesting disaster recovery apparatus complementary response including. 前記補完手段は、他の障害復旧装置から未完成ルール補完要求を受信したとき、前記対処記憶手段に記憶された障害対処ルールのうちから、前記未完成ルール補完要求に含まれる未完成な障害対処ルール中の完成部分の内容が一致するものを選択し、前記環境情報記憶手段に記憶された前記環境情報と前記対処記憶手段に記憶された障害対処ルールとの対応を示す対応表と、前記環境情報記憶手段とを参照して前記選択した障害対処ルールに関連する環境情報を取得し、該取得した環境情報と前記選択した障害対処ルールとを含む補完応答を未完成ルール補完要求元の障害復旧装置に送信するものであることを特徴とする請求項19記載のプログラム。   When the complement means receives an incomplete rule complement request from another fault recovery device, the incomplete fault handling included in the incomplete rule complement request is selected from the fault handling rules stored in the handling storage means. A correspondence table indicating correspondence between the environment information stored in the environment information storage unit and the failure handling rule stored in the handling storage unit; The environment information related to the selected failure handling rule is acquired with reference to the information storage means, and a complementary response including the acquired environment information and the selected failure handling rule is used as the failure recovery of the incomplete rule complement request source The program according to claim 19, wherein the program is transmitted to a device. 前記制御手段は、前記算出された適用評価値が適用基準値以上のとき前記受信された障害対処ルールを前記対処記憶手段に格納する処理を行う代わりに、前記算出された適用評価値と評価の対象となった障害対処ルールおよびそれに関連する環境情報を利用者管理装置に表示し、利用者管理装置から格納指示があった場合に前記障害対処ルールを前記対処記憶手段に格納する処理を行うことを特徴とする請求項16ないし21の何れか1項に記載のプログラム。   When the calculated application evaluation value is greater than or equal to an application reference value, the control unit performs the process of storing the received failure handling rule in the handling storage unit, instead of performing the process of storing the calculated application evaluation value and the evaluation value. The target failure handling rule and the environment information related to it are displayed on the user management device, and when there is a storage instruction from the user management device, the failure handling rule is stored in the handling storage means The program according to any one of claims 16 to 21, wherein: 前記適用手段は、一致する環境情報の種類のパターンに応じた適用評価値を定義した適用評価値表を参照して前記適用評価値を決定することを特徴とする請求項16ないし22の何れか1項に記載のプログラム。   The application means determines the application evaluation value with reference to an application evaluation value table that defines application evaluation values corresponding to patterns of the types of matching environmental information. The program according to item 1.
JP2004234371A 2004-08-11 2004-08-11 Failure handling rule propagation method, failure restoration device and program Withdrawn JP2006053728A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004234371A JP2006053728A (en) 2004-08-11 2004-08-11 Failure handling rule propagation method, failure restoration device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004234371A JP2006053728A (en) 2004-08-11 2004-08-11 Failure handling rule propagation method, failure restoration device and program

Publications (1)

Publication Number Publication Date
JP2006053728A true JP2006053728A (en) 2006-02-23

Family

ID=36031178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004234371A Withdrawn JP2006053728A (en) 2004-08-11 2004-08-11 Failure handling rule propagation method, failure restoration device and program

Country Status (1)

Country Link
JP (1) JP2006053728A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015568A (en) * 2006-06-30 2008-01-24 Toshiba Corp Maintenance system, control method for maintenance system, host server, and computer readable storage medium storing program of host server
JP2009245154A (en) * 2008-03-31 2009-10-22 Internatl Business Mach Corp <Ibm> Computer system, method, and computer program for evaluating symptom
WO2012067031A1 (en) * 2010-11-17 2012-05-24 日本電気株式会社 System for assisting setting of breach-predicting conditions, method for assisting setting of breach-predicting conditions, and program for assisting setting of breach-predicting conditions
JP5141762B2 (en) * 2008-03-31 2013-02-13 富士通株式会社 Troubleshooting system, method and program therefor
JP2013257764A (en) * 2012-06-13 2013-12-26 Nec Corp Failure analysis system, failure analysis device, server device, and failure analysis method and program
JP2014032598A (en) * 2012-08-06 2014-02-20 Hitachi Systems Ltd Incident management system and method therefor
WO2014103071A1 (en) * 2012-12-28 2014-07-03 富士通株式会社 Response method creation program, response method creation method, and information processing device
US9740550B2 (en) 2014-06-13 2017-08-22 Fujitsu Limited Evaluation method and evaluation apparatus
JP2018081428A (en) * 2016-11-15 2018-05-24 沖電気工業株式会社 Monitoring apparatus, monitoring program, and monitoring method
JP2021015321A (en) * 2019-07-10 2021-02-12 三菱電機株式会社 Procedure identification device, calculation model generation device, procedure identification method, procedure identification program, calculation model generation method, calculation model generation program, learning data generation device and calculation program
CN116436162A (en) * 2023-04-21 2023-07-14 国网安徽省电力有限公司蚌埠供电公司 Supervision analysis system for distribution network feeder line fault self-healing processing

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008015568A (en) * 2006-06-30 2008-01-24 Toshiba Corp Maintenance system, control method for maintenance system, host server, and computer readable storage medium storing program of host server
JP2009245154A (en) * 2008-03-31 2009-10-22 Internatl Business Mach Corp <Ibm> Computer system, method, and computer program for evaluating symptom
JP5141762B2 (en) * 2008-03-31 2013-02-13 富士通株式会社 Troubleshooting system, method and program therefor
JPWO2012067031A1 (en) * 2010-11-17 2014-05-12 日本電気株式会社 Violation sign condition setting support system, violation sign condition setting support method, and violation sign condition setting support program
WO2012067031A1 (en) * 2010-11-17 2012-05-24 日本電気株式会社 System for assisting setting of breach-predicting conditions, method for assisting setting of breach-predicting conditions, and program for assisting setting of breach-predicting conditions
US9331912B2 (en) 2010-11-17 2016-05-03 Nec Corporation Violation sign condition setting supporting system, violation sign condition setting supporting method, and violation sign condition setting supporting program
JP2013257764A (en) * 2012-06-13 2013-12-26 Nec Corp Failure analysis system, failure analysis device, server device, and failure analysis method and program
JP2014032598A (en) * 2012-08-06 2014-02-20 Hitachi Systems Ltd Incident management system and method therefor
WO2014103071A1 (en) * 2012-12-28 2014-07-03 富士通株式会社 Response method creation program, response method creation method, and information processing device
JPWO2014103071A1 (en) * 2012-12-28 2017-01-12 富士通株式会社 Coping method creation program, coping method creation method, and information processing apparatus
US9866440B2 (en) 2012-12-28 2018-01-09 Fujitsu Limited Recording medium, handling method generation method, and information processing apparatus
US9740550B2 (en) 2014-06-13 2017-08-22 Fujitsu Limited Evaluation method and evaluation apparatus
JP2018081428A (en) * 2016-11-15 2018-05-24 沖電気工業株式会社 Monitoring apparatus, monitoring program, and monitoring method
JP2021015321A (en) * 2019-07-10 2021-02-12 三菱電機株式会社 Procedure identification device, calculation model generation device, procedure identification method, procedure identification program, calculation model generation method, calculation model generation program, learning data generation device and calculation program
CN116436162A (en) * 2023-04-21 2023-07-14 国网安徽省电力有限公司蚌埠供电公司 Supervision analysis system for distribution network feeder line fault self-healing processing
CN116436162B (en) * 2023-04-21 2023-12-22 国网安徽省电力有限公司蚌埠供电公司 Supervision analysis system for distribution network feeder line fault self-healing processing

Similar Documents

Publication Publication Date Title
JP3826940B2 (en) Failure recovery device, failure recovery method, manager device, and program
JP5119935B2 (en) Management program, management apparatus, and management method
JP4701148B2 (en) Failure recovery system and server
JP5018774B2 (en) Monitoring device, monitoring system, monitoring method and program
JP5684946B2 (en) Method and system for supporting analysis of root cause of event
JP2005234705A (en) System layout designing program for realizing automatic configuration of system, system layout designing device and system layout designing method
JP2002108728A (en) Method for inserting fault information and provider facility
JP4239989B2 (en) Fault recovery system, fault recovery device, rule creation method, and fault recovery program
JP2006053728A (en) Failure handling rule propagation method, failure restoration device and program
JP2017069895A (en) Fault separation method and administrative server for performing fault separation
JP4500318B2 (en) Distributed transaction processing method, apparatus, and program
JP4607981B2 (en) Copy control apparatus, copy control method, and copy control program
JP5949785B2 (en) Information processing method, apparatus and program
CN104182296A (en) Data processing system, data processing apparatus, and storage medium
JP2005258501A (en) Obstacle influence extent analyzing system, obstacle influence extent analyzing method and program
US6966014B2 (en) Method for system obstacle correspondence support
JP2016134721A (en) Information processing system, control method of information processing system and control program of management device
US9465687B2 (en) Information processing apparatus and information processing method
JP2007233918A (en) Log information collection system, information processor, log information collection method and program
JP6070040B2 (en) Database system, database device, database failure recovery method and program
JP2019159981A (en) Information processing device, work instruction evaluation method, and program
JP2007295279A (en) Trouble management device, trouble management method, and program
JP2007141007A (en) Support systemization for failure in system operation monitoring
US20140297636A1 (en) Information processing technique for configuration management database
JP3449425B2 (en) Computer network monitoring support system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070710

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090610

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090610

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100402