JP4887238B2 - System failure recovery apparatus, command generation method thereof, and program thereof - Google Patents

System failure recovery apparatus, command generation method thereof, and program thereof Download PDF

Info

Publication number
JP4887238B2
JP4887238B2 JP2007213650A JP2007213650A JP4887238B2 JP 4887238 B2 JP4887238 B2 JP 4887238B2 JP 2007213650 A JP2007213650 A JP 2007213650A JP 2007213650 A JP2007213650 A JP 2007213650A JP 4887238 B2 JP4887238 B2 JP 4887238B2
Authority
JP
Japan
Prior art keywords
information
command
procedure
recovery
work
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007213650A
Other languages
Japanese (ja)
Other versions
JP2009048403A (en
Inventor
秀高 江尻
有里佳 板子
大助 平岡
Original Assignee
株式会社日立情報システムズ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立情報システムズ filed Critical 株式会社日立情報システムズ
Priority to JP2007213650A priority Critical patent/JP4887238B2/en
Publication of JP2009048403A publication Critical patent/JP2009048403A/en
Application granted granted Critical
Publication of JP4887238B2 publication Critical patent/JP4887238B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、情報処理システムの障害管理運用業務において、複数の顧客に各種業務運用処理サービスを提供するサーバシステムを運用・管理するデータセンタ等の障害復旧作業で、完全自動化できない復旧作業のミスを削減するためのシステム障害復旧装置およびそのコマンドの自動生成方法、ならびにそのプログラムに関する。   The present invention eliminates errors in recovery operations that cannot be fully automated in failure recovery operations of a data center or the like that operates and manages a server system that provides various business operation processing services to a plurality of customers. The present invention relates to a system failure recovery apparatus for reducing the number, a method for automatically generating commands thereof, and a program thereof.

情報処理システムの障害復旧作業においては、障害復旧操作の熟練度の少ない作業者は障害復旧に対応できないか、あるいは障害復旧に多くの時間がかかることになる。また、誤った作業により、二次災害を引き起こす可能性がある。これを防ぐため、発生した障害情報から、実行すべき障害復旧コマンドを自動的に選択し、これを実行するシステムを用いる。これにより、情報処理システムの回復を助け、人手の介入を極力減らすことが可能になる。   In the failure recovery work of the information processing system, an operator with a low skill level of the failure recovery operation cannot cope with the failure recovery, or it takes a long time for the failure recovery. In addition, it is possible to cause a secondary disaster due to incorrect work. In order to prevent this, a system for automatically selecting a failure recovery command to be executed from the generated failure information and executing the command is used. As a result, the information processing system can be recovered and human intervention can be reduced as much as possible.

その実現方法として、例えば、特願2006−244404号公報に記載の『障害復旧システム、障害復旧装置、ルール作成方法および障害復旧プログラム』では、情報処理システムの動作状態をユーザが定義したルールに照合し、実行すべき障害復旧コマンドを判定し、これを実行している。具体的には、対話制御手段が条件式と復旧処理コマンドとを対応付けたユーザ指定ルールを入力し、これを保存した後、条件式に共通部分を有するルールがある場合には、ユーザ同士で条件式が同時に満たされることがないように、条件式を書き換えて保存する。次に、対処方法検索手段がサービス実行手段の動作状態に関する情報を受け取り、その情報に基づいてどの条件式が満足されているかを判断して、その条件式に対応する復旧処理コマンドの情報を出力している。
しかし、この方法では、障害判定基準および復旧コマンドが100%確立できており、コマンドのみで復旧可能な障害にしか適用できないため、汎用性が乏しく、限定的な範囲でしか利用できない。
As an implementation method thereof, for example, in “Disaster Recovery System, Fault Recovery Device, Rule Creation Method, and Fault Recovery Program” described in Japanese Patent Application No. 2006-244404, the operation state of the information processing system is collated with rules defined by the user. The fault recovery command to be executed is determined and executed. Specifically, when the dialog control means inputs a user-specified rule in which a conditional expression and a recovery processing command are associated with each other and saves the rule, if there is a rule having a common part in the conditional expression, The conditional expression is rewritten and stored so that the conditional expression is not satisfied at the same time. Next, the coping method retrieval unit receives information on the operation state of the service execution unit, determines which conditional expression is satisfied based on the information, and outputs information on the recovery processing command corresponding to the conditional expression is doing.
However, in this method, failure determination criteria and a recovery command can be established 100%, and can be applied only to a failure that can be recovered only by a command. Therefore, the versatility is poor and can be used only within a limited range.

その他にも、特開2005−275438号公報に記載の『自動化機器障害復旧システム』や特開2003−140918号公報に記載の『コンピュータの障害復旧支援装置及び方法、並びにコンピュータの障害復旧支援プログラム』等では、障害が通知されたならば、自動化機器の復旧処理を行うためのコマンドを自動生成し、このコマンドを端末に発行するか、プロシジャを読み込み、予め設定された実行条件に適合したタスクを順次実行させることで、復旧させている。   In addition, “Automated Equipment Failure Recovery System” described in Japanese Patent Laid-Open No. 2005-275438 and “Computer Fault Recovery Support Device and Method, and Computer Fault Recovery Support Program” described in Japanese Patent Laid-Open No. 2003-140918 are disclosed. If a failure is notified, a command for performing recovery processing of the automated device is automatically generated, and this command is issued to the terminal, or the procedure is read and a task that conforms to the preset execution condition is It is restored by executing it sequentially.

特願2006−244404号公報Japanese Patent Application No. 2006-244404 特開2005−275438号公報JP 2005-275438 A 特開2003−140918号公報JP 2003-140918 A

前述のように、人手の介入を最低限に止め、障害を復旧する方法として、発生した障害に応じて、復旧のコマンドを自動的に生成し、これを実行する方法があり、これにより、復旧作業による人為的ミスの削減や作業時間の短縮を図ることが可能である。
しかし、これらの方法では、人手の介入を必要とする復旧作業や、作業結果に応じて、次の作業内容を動的に変える必要がある作業には対応できない、という問題がある。
As mentioned above, there is a method to automatically generate a recovery command and execute it according to the failure that has occurred as a method of recovering from the failure by minimizing human intervention. It is possible to reduce human error due to work and shorten work time.
However, these methods have a problem that they cannot cope with a recovery work that requires manual intervention or a work that needs to dynamically change the next work content according to the work result.

(目的)
そこで、本発明の目的は、復旧作業において、コマンドで処理可能な作業を生成コマンドで実施し、人手を必要とする作業のみ、操作手順に沿った作業を促すことにより、復旧作業のミスの削減を図ることが可能なシステム障害復旧装置およびそのコマンド生成方法、ならびにそのプログラムを提供することにある。
(the purpose)
Therefore, the object of the present invention is to reduce errors in recovery work by performing work that can be processed with commands in the recovery work with the generation command, and encouraging work according to the operation procedure only for work that requires manpower. The present invention provides a system failure recovery apparatus, a command generation method thereof, and a program thereof.

上記目的を達成するために、本発明のシステム障害復旧装置は、複数の顧客に各種業務の運用処理サービスを提供するサーバシステムを運用・管理するデータセンタ等の障害復旧作業において、取得した障害情報から適用する処理手順を決定し、処理手順内で利用する障害情報発生元数用のコマンドを自動生成し、操作手順とコマンドを合わせて出力する。
すなわち、完全自動化できない復旧作業に対して、復旧作業のコマンド実行可能な部分は、生成したコマンドの実行で処理し、人手を必要とする部分のみ、操作手順に沿った作業を促すことにより、復旧作業のミスを削減する。
In order to achieve the above object, the system failure recovery apparatus according to the present invention acquires failure information obtained in failure recovery work of a data center or the like that operates and manages a server system that provides operation processing services for various businesses to a plurality of customers. The processing procedure to be applied is determined, a command for the number of failure information sources used in the processing procedure is automatically generated, and the operation procedure and the command are output together.
In other words, for recovery operations that cannot be fully automated, the portion of the recovery operation that can be executed by the command is processed by executing the generated command, and only the portion that requires human intervention is restored by encouraging the operation according to the operation procedure. Reduce work mistakes.

具体的には、運用端末に障害復旧に用いる手順、コマンドのテンプレート、復旧作業に適用すべき手順を抽出する判定ルールを管理する適用手順判定プログラム格納部(30)と、情報処理システムから収集した障害情報を判定ルールに照合し、合致する手順を取得し、取得した手順を構成する作業項目にコマンドの実施を含む場合、作業項目に紐付けて保存したコマンドテンプレート内の変数を障害情報および復旧対象情報処理システム固有の値に置換し、復旧作業対象に適用可能なコマンドを、全実行対象ホスト分生成し、取得した手順の作業項目を実施順で画面表示する復旧手順表示プログラム格納部(40)と、ルールID、判定ルールおよび手順IDを含む適用手順判定情報格納部(50)と、手順ID、手順、コマンドテンプレートを含む復旧手順情報格納部(60)とを備える。
なお、上記コマンドテンプレートは、障害情報の内容および適用対象により、異なる値を設定する箇所を変数で記述している。
Specifically, collected from the information processing system and the application procedure determination program storage unit (30) that manages the determination rule for extracting the procedure to be used for failure recovery in the operation terminal, the command template, and the procedure to be applied to the recovery work If the failure information is checked against the judgment rule, the matching procedure is acquired, and the execution of the command is included in the work items that make up the acquired procedure, the variables in the command template stored in association with the work item are stored in the failure information and the recovery. A recovery procedure display program storage unit (40) that substitutes values specific to the target information processing system, generates commands applicable to the recovery target for all execution target hosts, and displays the work items of the acquired procedures in the order of execution. ), An applied procedure determination information storage unit (50) including a rule ID, a determination rule, and a procedure ID, a procedure ID, a procedure, and a command template Comprising recovery procedure information storage unit which includes a preparative and (60).
In the above command template, a location where a different value is set is described as a variable depending on the content of failure information and the application target.

これにより、障害対策実施者は、表示された作業項目を実施順で実行する。各作業項目は人手もしくはコマンドの実行で処理する。人手で処理した場合、作業結果を画面入力し、コマンド実行した場合には、戻り値を取得することにより、システムは処理結果を取得する。システムは処理結果に基づいて、次に実施すべき作業項目を利用者に明示する。障害対策実施者は、システムが示した作業項目を順次処理することにより、障害復旧作業を可能とする。   As a result, the trouble countermeasure implementer executes the displayed work items in the order of execution. Each work item is processed manually or by executing a command. When processing is performed manually, the work result is input on the screen, and when the command is executed, the system acquires the processing result by acquiring the return value. Based on the processing result, the system clearly indicates the work item to be executed next to the user. The failure countermeasure implementer enables failure recovery work by sequentially processing the work items indicated by the system.

本発明によれば、複数の顧客に各種業務運用処理サービスを提供するサーバシステムを運用・管理するデータセンタ等の障害復旧作業において、完全自動化できない復旧作業に対して、復旧作業のコマンド実行可能な部分は、生成したコマンドの実行で処理し、人手を必要とする部分のみ、操作手順に沿った作業を促す方法を用いているので、復旧作業のミスを削減することができる。その結果、復旧作業の効率および品質の向上を図ることができる。   According to the present invention, a recovery operation command can be executed for a recovery operation that cannot be fully automated in a failure recovery operation of a data center or the like that operates and manages a server system that provides various business operation processing services to a plurality of customers. The part is processed by executing the generated command, and only the part that requires manual work is used to urge the work according to the operation procedure, so that errors in the recovery work can be reduced. As a result, the efficiency and quality of recovery work can be improved.

以下、本発明の実施の形態を、図面を用いて詳細に説明する。
図1は、本発明のシステム障害復旧装置の一実施例に係る構成図である。
運用端末1は、情報処理システム2の障害情報20を取り込み、障害復旧処理を施す。
障害対策実施者に対して、障害復旧の操作手順およびコマンドを提供するための表示装置10と、情報処理システム2の障害情報20から、適用すべき復旧手順を判定する適用手順判定プログラム格納部30と、復旧手順に紐付くコマンドテンプレートから、復旧作業で実行するコマンドを生成し、操作手順と合わせて提供する復旧手順表示プログラム格納部40と、適用手順の判定ルールと適用すべき手順の組合せを定義した適用手順判定情報格納部50と、障害復旧に用いる操作手順およびコマンドのテンプレートを定義した復旧手順情報格納部60とを有している。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a configuration diagram according to an embodiment of the system failure recovery apparatus of the present invention.
The operation terminal 1 takes in the failure information 20 of the information processing system 2 and performs failure recovery processing.
An application procedure determination program storage unit 30 for determining a recovery procedure to be applied from the display device 10 for providing a failure recovery operation procedure and commands to the failure countermeasure implementer and the failure information 20 of the information processing system 2 A command to be executed in the recovery work is generated from the command template associated with the recovery procedure, and the recovery procedure display program storage unit 40 provided together with the operation procedure is provided, and the combination of the determination rule of the application procedure and the procedure to be applied It has a defined application procedure determination information storage unit 50 and a recovery procedure information storage unit 60 that defines operation procedures and command templates used for failure recovery.

適用手順判定プログラム格納部30は、プログラムが2つに分けられており、その1つは情報処理システム2から障害情報20を取り込み、これを適用手順判定情報格納部50に蓄積する障害情報入力部31であり、他の1つは適用手順判定情報格納部50の判定ルールと照合して復旧手順を決定する適用手順判定部32である。また、復旧手順表示プログラム格納部40も、プログラムが2つに分けられており、その1つはコマンドを生成するコマンド生成部41であり、他の1つは表示装置10に操作手順等を表示する復旧手順表示部42である。また、適用手順判定情報格納部50は、格納する情報が3つに分けられ、ルールIDと手順IDと判定ルールの各情報である。さらに、復旧手順情報格納部60は、格納する情報が3つに分けられ、手順IDと手順とコマンドテンプレートの各情報である。   The application procedure determination program storage unit 30 is divided into two programs, one of which is a failure information input unit that takes in the failure information 20 from the information processing system 2 and stores it in the application procedure determination information storage unit 50. The other is an application procedure determination unit 32 that determines a recovery procedure by collating with the determination rule of the application procedure determination information storage unit 50. The recovery procedure display program storage unit 40 is also divided into two programs, one of which is a command generation unit 41 that generates commands, and the other is a display device 10 that displays operation procedures and the like. It is the recovery procedure display part 42 to be. In addition, the application procedure determination information storage unit 50 is divided into three pieces of information, and each of the rule ID, procedure ID, and determination rule information. Further, the recovery procedure information storage unit 60 is divided into three pieces of information to be stored, which are information on a procedure ID, a procedure, and a command template.

適用手順判定プログラム格納部30は、情報処理システム2の障害情報20を障害情報入力部31より取得し、適用手順判定部32で判定ルールと照合し、適用する復旧手順を決定する。次に、適用手順判定プログラム格納部30は、障害情報20と決定した手順を復旧手順表示プログラム格納部40に渡す。復旧手順表示プログラム格納部40は、コマンド生成部41において、復旧手順に紐付くコマンドテンプレートの変数部分を障害情報より確定し、復旧作業で実行するコマンドを生成する。判定の結果、得られた手順および生成したコマンドを復旧手順表示部42が表示装置10に表示する。   The application procedure determination program storage unit 30 acquires the failure information 20 of the information processing system 2 from the failure information input unit 31, and the application procedure determination unit 32 checks the determination rule to determine a recovery procedure to be applied. Next, the application procedure determination program storage unit 30 passes the procedure determined as the failure information 20 to the recovery procedure display program storage unit 40. The recovery procedure display program storage unit 40 uses the command generation unit 41 to determine the variable portion of the command template associated with the recovery procedure from the failure information, and generates a command to be executed in the recovery operation. As a result of the determination, the recovery procedure display unit 42 displays the obtained procedure and the generated command on the display device 10.

図2は、本発明において定義する適用手順判定情報と復旧手順情報の一登録例を示す図である。
適用手順判定情報では、障害の復旧作業で用いる復旧手順を障害情報から決定する判定ルールと、用いる復旧手順を表わす一意IDの組合せを定義する。この定義は、手順名と実施する作業項目を実施の順に定義する。作業項目は、作業内容、作業項目の実施は必須か任意かの指定、作業項目で実施するコマンドのテンプレート、コマンドの発行先およびコマンドの発行元に関する情報を保持する。
作業内容には、実施結果から次に実行すべき作業項目を決定する情報を含む。また、コマンドテンプレート内の記述には、障害情報の内容に置換可能な変数を指定可能とする。
FIG. 2 is a diagram showing an example of registration of application procedure determination information and recovery procedure information defined in the present invention.
In the applied procedure determination information, a combination of a determination rule for determining a recovery procedure used in failure recovery work from the failure information and a unique ID representing the recovery procedure to be used is defined. This definition defines procedure names and work items to be performed in the order of execution. The work item holds information regarding the work content, whether the execution of the work item is indispensable, a template of a command executed on the work item, a command issue destination, and a command issue source.
The work content includes information for determining a work item to be executed next from the execution result. In the description in the command template, a variable that can be replaced with the contents of the failure information can be specified.

図3は、本発明の復旧手順およびコマンドを表示する画面例を示す図である。
復旧手順およびコマンドは、復旧手順の作業内容を表す作業内容行(破線太枠)と、作業項目内で実施するコマンドの詳細と結果を表す実施コマンド詳細および結果行(点線太枠)の一覧として表示する。
表示画面中、実施手順名Aは、実施する手順の名称を表示する。また、実施内容Bは、復旧手順内の作業内容を実施する順番で表示する(1,2,3,4・・)。実施コマンドCは、システムが自動生成した障害復旧コマンドの内容を表示する。コマンド発行対象Dは、コマンドの発行対象ホストを表示する。コマンド発行元Eは、コマンドを実行するホストを表示する。実施必須作業Fは、当該作業内容の実施が必須であるか否かを表示する。作業結果表示・入力欄Gは、作業の結果を表示する、もしくは入力する。作業をコマンドで実施した場合には、コマンドの戻り値から、結果を判定し、その成否を表示する。作業を人手で実施した場合には、作業結果を入力する。現在の作業Hは、現在実施しなければならない作業内容を反転表示する。現在の作業の結果が確定すると、次に実施すべき作業を判定し、現在の作業として、反転表示する。コマンドの実行ボタンIは、現在の作業のコマンドを実行する。この際、発行元ホストから発行対象ホストに対して実行する。結果登録ボタンJは、人手で実施した作業の結果を、作業結果入力欄Gに指定し、確定する際に押下する。これにより、作業の結果を示す入力欄Gが登録される。
FIG. 3 is a diagram showing an example of a screen displaying the recovery procedure and command of the present invention.
The recovery procedures and commands are a list of work content lines (dashed thick frame) representing the work contents of the recovery procedure, execution command details and result lines (dashed thick frame) representing details and results of commands executed in the work items. indicate.
In the display screen, the execution procedure name A displays the name of the procedure to be executed. Further, the execution content B is displayed in the order of execution of the work content in the recovery procedure (1, 2, 3, 4,...). The execution command C displays the contents of the failure recovery command automatically generated by the system. The command issue target D displays a command issue target host. The command issuer E displays the host that executes the command. The implementation-required work F displays whether or not the implementation of the work content is essential. The work result display / input field G displays or inputs the work result. When the work is executed with a command, the result is judged from the return value of the command, and the success or failure is displayed. When the work is performed manually, the work result is input. The current work H highlights the work contents that must be carried out now. When the result of the current work is confirmed, the work to be performed next is determined, and the current work is highlighted. The command execution button I executes a command of the current work. At this time, the process is executed from the issue source host to the issue target host. The result registration button J is pressed when the result of the work performed manually is designated in the work result input field G and confirmed. Thereby, the input column G indicating the result of the work is registered.

図4は、障害情報入力から結果の一覧表示までの処理フローチャートである。
情報処理システムから障害情報を取得することにより、本処理は開始される。
最初に、発生した障害情報を読み込む(ステップ401)。適用手順判定情報が存在するか否かを判断し(ステップ402)、存在しない場合には、適用すべき手順が存在しない旨を画面表示し(ステップ403)、処理を終了する。手順が存在する場合には、適用手順判定情報の1つを取得し(ステップ404)、取得した障害情報が判定ルールに合致するか否かをチェックする(ステップ405)。
FIG. 4 is a processing flowchart from failure information input to result list display.
This process is started by acquiring failure information from the information processing system.
First, failure information that has occurred is read (step 401). It is determined whether or not the application procedure determination information exists (step 402). If the application procedure determination information does not exist, a message indicating that there is no procedure to be applied is displayed (step 403), and the process ends. If the procedure exists, one of the application procedure determination information is acquired (step 404), and it is checked whether or not the acquired failure information matches the determination rule (step 405).

合致しない場合には、ステップ402に戻り、次の適用手順判定情報に照合する。合致する場合には、合致した適用手順判定情報に設定されている復旧手順IDを取得する(ステップ406)。取得した復旧手順情報IDに紐付く、復旧手順情報を取得する(ステップ407)。復旧手順情報内の実行手順1の作業項目情報(必須/任意、作業内容、コマンドテンプレート、コマンド発行対象およびコマンド発行元)を取得する(ステップ408)。画面上で1作業内容情報行を格納する作業内容レコードを生成し、取得した作業項目情報の作業内容を格納する(ステップ409)。   If they do not match, the process returns to step 402 and collates with the next application procedure determination information. If they match, the recovery procedure ID set in the matched application procedure determination information is acquired (step 406). Recovery procedure information associated with the acquired recovery procedure information ID is acquired (step 407). The work item information (required / optional, work content, command template, command issue target and command issue source) of the execution procedure 1 in the recovery procedure information is acquired (step 408). A work content record for storing one work content information line is generated on the screen, and the work content of the acquired work item information is stored (step 409).

実施コマンドおよび結果格納レコードを一つ生成する(ステップ410)。取得した作業項目情報内にコマンドテンプレートが含まれているか否かを確認する(ステップ411)。含まれていないようであれば、実施コマンドおよび結果格納レコードを作業内容レコードに追加する(ステップ412)。含まれているようであれば、コマンドテンプレート、コマンド発行対象およびコマンド発行元情報を取得する(ステップ413)。取得した障害情報から第一の障害情報を取得する(ステップ414)。コマンドテンプレートの内容を実施コマンドおよび結果格納レコードに格納する。この際に、コマンドテンプレートに%HOST%が含まれていれば、障害情報発生成ホスト名に置換する(ステップ415)。そして、コマンド発行対象を実施コマンドおよび結果格納レコードに格納する。この際に、『障害情報発生元』と指定されていれば、障害情報の発生元ホスト名を格納する(ステップ416)。   One execution command and one result storage record are generated (step 410). It is confirmed whether or not a command template is included in the acquired work item information (step 411). If not included, the execution command and the result storage record are added to the work content record (step 412). If it is included, the command template, command issue target, and command issuer information are acquired (step 413). First failure information is acquired from the acquired failure information (step 414). Stores the contents of the command template in the execution command and result storage record. At this time, if% HOST% is included in the command template, it is replaced with the failure information generation host name (step 415). Then, the command issue target is stored in the execution command and result storage record. At this time, if “failure information generation source” is designated, the host name of the failure information generation source is stored (step 416).

コマンド発行元を実施コマンドおよび結果格納レコードに格納する。この際に、『管理PC』と指定されていれば、ローカルホスト名を格納する(ステップ417)。実施コマンドおよび結果格納レコードを作業内容レコードに追加する(ステップ418)。障害情報発生元および管理PC以外の、特定ホスト上でのコマンド発行の場合(ステップ419)、後述するステップ423から処理を始める。
一方、特定ホスト上でのコマンド発行でない場合には、次の障害情報に基づくコマンドと結果を格納する、実施コマンドおよび結果格納レコードを生成する(ステップ420)。
判定ルールに合致した、後続の障害情報を取得し(ステップ421)、障害情報が存在すれば(ステップ422)、対象の障害情報に対して、前述のステップ415からの処理を実施する。
Store the command issuer in the execution command and result storage record. At this time, if “management PC” is designated, the local host name is stored (step 417). The execution command and the result storage record are added to the work content record (step 418). When issuing a command on a specific host other than the failure information generation source and the management PC (step 419), the processing is started from step 423 described later.
On the other hand, if the command is not issued on the specific host, an execution command and result storage record for storing a command and a result based on the next failure information are generated (step 420).
Subsequent failure information that matches the determination rule is acquired (step 421). If failure information exists (step 422), the processing from step 415 described above is performed on the target failure information.

障害情報が存在しなければ、作業内容レコード配列に、作業内容レコードを追加する(ステップ423)。復旧手順の後続の作業項目情報を取得し(ステップ424)、後続の作業項目情報が存在すれば(ステップ425)、前述のステップ409からの処理を実施する。存在しなければ、作業内容レコード配列と実施コマンドおよび結果格納レコードの配列の内容を画面表示する(ステップ426)。以上で処理は終了する。
なお、この処理の表示イメードは、図3に示されている。
If there is no failure information, the work content record is added to the work content record array (step 423). The subsequent work item information of the recovery procedure is acquired (step 424), and if the subsequent work item information exists (step 425), the processing from step 409 described above is performed. If not, the contents of the work content record array, the execution command and the result storage record array are displayed on the screen (step 426). The process ends here.
The display image of this process is shown in FIG.

本発明は、各種業務運用処理サービスを提供するサーバシステムを運用・管理する障害復旧作業に利用することが可能である。   The present invention can be used for failure recovery work for operating and managing a server system that provides various business operation processing services.

本発明の実施例に係るシステム障害復旧装置の構成図である。It is a block diagram of the system failure recovery apparatus which concerns on the Example of this invention. 本発明における適用手順判定情報および復旧手順情報を示す図である。It is a figure which shows the application procedure determination information and recovery procedure information in this invention. 本発明における手順およびコマンドの画面表示例を示す図である。It is a figure which shows the example of a screen display of the procedure and command in this invention. 本発明の実施例に係る障害情報入力から画面表示までの処理フローチャートである。It is a process flowchart from the failure information input based on the Example of this invention to a screen display.

符号の説明Explanation of symbols

1 運用端末
2 情報処理システム
10 表示装置
20 障害情報
30 適用手順判定プログラム格納部
40 復旧手順表示プログラム格納部
50 適用手順判定情報格納部
60 復旧手順情報格納部
A 実施手順名
B 作業内容
C 実施コマンド
D コマンド発行対象
E コマンド発行元
F 実施必須作業
G 作業結果表示・入力欄
H 現在の作業
I 結果登録ボタン
J コマンド実行ボタン
DESCRIPTION OF SYMBOLS 1 Operation terminal 2 Information processing system 10 Display apparatus 20 Fault information 30 Application procedure determination program storage part 40 Recovery procedure display program storage part 50 Application procedure determination information storage part 60 Recovery procedure information storage part A Implementation procedure name B Work content C Execution command D Command issue target E Command issuer F Required work G Work result display / input field H Current work I Result registration button J Command execution button

Claims (3)

復旧手順情報を蓄積し、障害に適用すべき復旧手順情報の適用手順判定情報を定義することで、障害の復旧に用いる手順と復旧作業で実行するコマンドをコンピュータ制御により生成して、出力する障害復旧手順およびコマンドを生成する障害復旧コマンド生成方法において、
プログラムされたコンピュータ処理を実行する手段として、適用手順判定手段と復旧手順表示手段を有し、
前記適用手順判定手段は、情報処理システムより取得した障害情報を適用手順判定情報に照合し、適用すべき復旧手順情報を判定し、
前記復旧手順表示手段は、前記適用手順判定情報の照合と、復旧手順情報の判定の結果、復旧作業に適用すべき手順を決定して、障害情報発生元数分のコマンドを生成し、手順とコマンドを合わせて出力することで、完全自動化できない復旧作業に対して、復旧作業のコマンド実行可能な部分は、生成したコマンドの実行で処理し、人手を必要とする部分のみ、手順に沿った作業を促し、
さらに、
前記適用手順判定手段は、発生した障害情報を読み込み、適用手順判定情報が存在するか否かを判断し、存在しない場合には、適用すべき手順が存在しない旨を画面表示し、存在する場合には、適用手順判定情報の1つを取得し、取得した障害情報が判定ルールに合致するか否かをチェックして、合致しない場合には、次の適用手順判定情報に照合し、合致する場合には、合致した適用手順判定情報に設定されている復旧手順IDを取得し、取得した復旧手順IDに紐付く、復旧手順情報を取得し、復旧手順情報内の実行手順1の作業内容、コマンドテンプレート、コマンド発行対象およびコマンド発行元を含む作業項目情報を取得し、画面上で1作業内容情報行を格納する作業内容レコードを生成し、取得した作業項目情報の作業内容を格納し、
前記復旧手順表示手段は、
前記適用手順判定情報の照合と、復旧手順情報の判定の結果、実施コマンドおよび結果格納レコードを一つ生成し、取得した作業項目情報内にコマンドテンプレートが含まれているか否かを確認し、含まれていないならば、実施コマンドおよび結果格納レコードを作業内容レコードに追加し、含まれているならば、コマンドテンプレート、コマンド発行対象およびコマンド発行元情報を取得し、取得した障害情報から第一の障害情報を取得し、コマンドテンプレートの内容を実施コマンドおよび結果格納レコードに格納すると共に、
前記コマンドテンプレートの内容を実施コマンドおよび結果格納レコードに格納する際に、コマンドテンプレートに%HOST%等の記号が含まれていれば、障害情報発生元ホスト名に置換した後、コマンド発行対象を実施コマンドおよび結果格納レコードに格納し、その際に『障害情報発生元』と指定されていれば、障害情報の発生元ホスト名を格納し、コマンド発行元を実施コマンドおよび結果格納レコードに格納し、その際に『管理PC』と指定されていれば、ローカルホスト名を格納し、実施コマンドおよび結果格納レコードを作業内容レコードに追加し、実施コマンドおよび結果格納レコードを生成することを特徴とする障害復旧コマンド生成方法。
Failures that are generated by computer control and output commands that are used for recovery from failures and recovery operations by defining recovery procedure information that should be applied to failures and defining recovery procedure information application procedure judgment information In the disaster recovery command generation method for generating recovery procedures and commands,
As means for executing programmed computer processing, it has application procedure determination means and recovery procedure display means,
The application procedure determination means collates failure information acquired from the information processing system with application procedure determination information, determines recovery procedure information to be applied,
The recovery procedure display means determines the procedure to be applied to the recovery work as a result of the verification of the application procedure determination information and the determination of the recovery procedure information, generates commands for the number of failure information occurrence sources, For the recovery work that cannot be fully automated by outputting the command together, the command execution part of the recovery work is processed by the execution of the generated command, and only the part that requires manpower is in accordance with the procedure Prompt
further,
The application procedure determination means reads the failure information that has occurred, determines whether or not the application procedure determination information exists, and if it does not exist, displays on the screen that there is no procedure to be applied and if it exists If one of the application procedure determination information is acquired, and whether the acquired failure information matches the determination rule is checked, if it does not match, the next application procedure determination information is checked and matched. In the case, the recovery procedure ID set in the matched application procedure determination information is acquired, the recovery procedure information associated with the acquired recovery procedure ID is acquired, and the work content of the execution procedure 1 in the recovery procedure information, Acquires work item information including the command template, command issue target and command issuer, generates a work content record that stores one work content information line on the screen, and stores the work content of the acquired work item information. And,
The recovery procedure display means includes
As a result of the verification of the applied procedure determination information and the determination of the recovery procedure information, one execution command and a result storage record are generated, and it is confirmed whether or not a command template is included in the acquired work item information. If not, the execution command and result storage record are added to the work content record, and if included, the command template, command issue target and command issuer information are obtained, and the first failure is obtained from the obtained failure information. Acquire fault information, store the contents of the command template in the execution command and result storage record,
When the contents of the command template are stored in the execution command and result storage record, if a symbol such as% HOST% is included in the command template, the command issue target is executed after replacing with the host name of the failure information occurrence source. If it is stored in the command and result storage record, and "Fault information source" is specified at that time, the host name of the fault information source is stored, the command issuer is stored in the execution command and result storage record, If "Management PC" is specified at that time, the local host name is stored, the execution command and result storage record are added to the work content record, and the execution command and result storage record are generated. Recovery command generation method.
復旧手順情報を蓄積し、障害に適用すべき復旧手順情報の適用手順判定情報を定義することで、障害の復旧に用いる手順と復旧作業で実行するコマンドをコンピュータ制御により生成して、出力するシステム障害復旧装置であって、
プログラムされたコンピュータ処理を実行する手段として、適用手順判定手段と復旧手順表示手段を有し、
前記適用手順判定手段は、情報処理システムより取得した障害情報を適用手順判定情報に照合し、適用すべき復旧手順情報を判定し、
前記復旧手順表示手段は、前記適用手順判定情報の照合と、復旧手順情報の判定の結果、復旧作業に適用すべき手順を決定して、障害情報発生元数分のコマンドを生成し、手順とコマンドを合わせて出力することで、完全自動化できない復旧作業に対して、復旧作業のコマンド実行可能な部分は、生成したコマンドの実行で処理し、人手を必要とする部分のみ、手順に沿った作業を促し、
前記適用手順判定手段は、
発生した障害情報を読み込み、適用手順判定情報が存在するか否かを判断し、存在しない場合には、適用すべき手順が存在しない旨を画面表示し、存在する場合には、適用手順判定情報の1つを取得し、取得した障害情報が判定ルールに合致するか否かをチェックして、合致しない場合には、次の適用手順判定情報に照合し、合致する場合には、合致した適用手順判定情報に設定されている復旧手順IDを取得し、取得した復旧手順IDに紐付く、復旧手順情報を取得し、復旧手順情報内の実行手順1の作業内容、コマンドテンプレート、コマンド発行対象およびコマンド発行元を含む作業項目情報を取得し、画面上で1作業内容情報行を格納する作業内容レコードを生成し、取得した作業項目情報の作業内容を格納し、
前記復旧手順表示手段は、
前記適用手順判定情報の照合と、復旧手順情報の判定の結果、実施コマンドおよび結果格納レコードを一つ生成し、取得した作業項目情報内にコマンドテンプレートが含まれているか否かを確認し、含まれていないならば、実施コマンドおよび結果格納レコードを作業内容レコードに追加し、含まれているならば、コマンドテンプレート、コマンド発行対象およびコマンド発行元情報を取得し、取得した障害情報から第一の障害情報を取得し、コマンドテンプレートの内容を実施コマンドおよび結果格納レコードに格納すると共に、
前記コマンドテンプレートの内容を実施コマンドおよび結果格納レコードに格納する際に、コマンドテンプレートに%HOST%等の記号が含まれていれば、障害情報発生元ホスト名に置換した後、コマンド発行対象を実施コマンドおよび結果格納レコードに格納し、その際に『障害情報発生元』と指定されていれば、障害情報の発生元ホスト名を格納し、コマンド発行元を実施コマンドおよび結果格納レコードに格納し、その際に『管理PC』と指定されていれば、ローカルホスト名を格納し、実施コマンドおよび結果格納レコードを作業内容レコードに追加し、実施コマンドおよび結果格納レコードを生成することを特徴とするシステム障害復旧装置。
A system that stores and restores recovery procedure information, and defines the application procedure determination information for recovery procedure information that should be applied to failures, and generates and outputs procedures used for failure recovery and commands to be executed in recovery operations by computer control A disaster recovery device,
As means for executing programmed computer processing, it has application procedure determination means and recovery procedure display means,
The application procedure determination means collates failure information acquired from the information processing system with application procedure determination information, determines recovery procedure information to be applied ,
The recovery procedure display means determines the procedure to be applied to the recovery work as a result of the verification of the application procedure determination information and the determination of the recovery procedure information, generates commands for the number of failure information occurrence sources, For the recovery work that cannot be fully automated by outputting the command together, the command execution part of the recovery work is processed by the execution of the generated command, and only the part that requires manpower is in accordance with the procedure It was prompting,
The application procedure determining means includes
Read the fault information that occurred, determine whether there is application procedure determination information, if not, display on the screen that there is no procedure to be applied, if there is, apply procedure determination information One of the above is acquired, and it is checked whether or not the acquired fault information matches the judgment rule. If it does not match, it is checked against the next application procedure judgment information. The recovery procedure ID set in the procedure determination information is acquired, the recovery procedure information associated with the acquired recovery procedure ID is acquired, the work contents of the execution procedure 1 in the recovery procedure information, the command template, the command issue target, and Acquires work item information including the command issuer, generates a work content record that stores one work content information line on the screen, stores the work content of the acquired work item information,
The recovery procedure display means includes
As a result of the verification of the applied procedure determination information and the determination of the recovery procedure information, one execution command and a result storage record are generated, and it is confirmed whether or not a command template is included in the acquired work item information. If not, the execution command and result storage record are added to the work content record, and if included, the command template, command issue target and command issuer information are obtained, and the first failure is obtained from the obtained failure information. Acquire fault information, store the contents of the command template in the execution command and result storage record,
When the contents of the command template are stored in the execution command and result storage record, if a symbol such as% HOST% is included in the command template, the command issue target is executed after replacing with the host name of the failure information occurrence source. If it is stored in the command and result storage record, and "Fault information source" is specified at that time, the host name of the fault information source is stored, the command issuer is stored in the execution command and result storage record, In this case, if “Management PC” is specified, the local host name is stored, the execution command and the result storage record are added to the work content record, and the execution command and the result storage record are generated. Disaster recovery device.
コンピュータを、請求項2に記載のシステム障害復旧装置における各手段として機能させるためのプログラム。   The program for functioning a computer as each means in the system failure recovery apparatus of Claim 2.
JP2007213650A 2007-08-20 2007-08-20 System failure recovery apparatus, command generation method thereof, and program thereof Expired - Fee Related JP4887238B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007213650A JP4887238B2 (en) 2007-08-20 2007-08-20 System failure recovery apparatus, command generation method thereof, and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007213650A JP4887238B2 (en) 2007-08-20 2007-08-20 System failure recovery apparatus, command generation method thereof, and program thereof

Publications (2)

Publication Number Publication Date
JP2009048403A JP2009048403A (en) 2009-03-05
JP4887238B2 true JP4887238B2 (en) 2012-02-29

Family

ID=40500556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007213650A Expired - Fee Related JP4887238B2 (en) 2007-08-20 2007-08-20 System failure recovery apparatus, command generation method thereof, and program thereof

Country Status (1)

Country Link
JP (1) JP4887238B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6865042B2 (en) * 2017-01-11 2021-04-28 株式会社野村総合研究所 Knowledge management equipment, knowledge management methods and computer programs
WO2019026171A1 (en) * 2017-08-01 2019-02-07 株式会社日立製作所 Storage system management system

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2804125B2 (en) * 1989-11-08 1998-09-24 株式会社日立製作所 Fault monitoring device and control method for information processing system
JPH08123711A (en) * 1994-10-28 1996-05-17 Pfu Ltd Information processor with maintenance guidance function
JP3109572B2 (en) * 1996-09-17 2000-11-20 日本電気株式会社 Failure recovery device, failure recovery method, and storage medium storing failure recovery program
JPH10312321A (en) * 1997-05-12 1998-11-24 Hitachi Ltd On-line system fault analyzing method
JP2001034509A (en) * 1999-07-16 2001-02-09 Hitachi Ltd Fault recovering method of information processor
JP2003140918A (en) * 2001-10-29 2003-05-16 Fujitsu Ltd Device and method for supporting fault recovery of computer, and fault recovery supporting program of computer
JP2005128714A (en) * 2003-10-22 2005-05-19 Toshiba Corp Failure handling support system and method, and service center system
JP2005275438A (en) * 2004-03-22 2005-10-06 Nec Software Chubu Ltd Automated equipment failure recovery system
JP4239989B2 (en) * 2005-03-07 2009-03-18 日本電気株式会社 Fault recovery system, fault recovery device, rule creation method, and fault recovery program
JP2006344061A (en) * 2005-06-09 2006-12-21 Hitachi Ltd Scenario application support method, management server and management program
JP2007172131A (en) * 2005-12-20 2007-07-05 Nec Fielding Ltd Failure prediction system, failure prediction method and failure prediction program

Also Published As

Publication number Publication date
JP2009048403A (en) 2009-03-05

Similar Documents

Publication Publication Date Title
US8448139B2 (en) Automatic correction of application based on runtime behavior
US9886372B2 (en) Automatic correction of application based on runtime behavior
JP4513806B2 (en) Peripheral device of programmable logic controller and method for creating program
JP6268029B2 (en) Test case generation apparatus and test case generation method
JP2009104229A (en) Input check device and input check method
JP2009265810A (en) Status transition test support device, status transition test support program and status transition test support method
JP2007304660A (en) Command execution result recording system and command execution result recording method
JP4887238B2 (en) System failure recovery apparatus, command generation method thereof, and program thereof
JP3182111B2 (en) Program test support device
US11650217B2 (en) Data processing system for analytical instrument, and data processing program for analytical instrument
JP5149525B2 (en) Project management support apparatus and method
JP6547649B2 (en) INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM
JP4592022B2 (en) Automatic execution command generation system, method and program
US20070162259A1 (en) Method for converting a log of user manipulations of a computer program into task documentation
JP2019144660A (en) Information transmission program, information transmission method, and information transmission device
JP6551082B2 (en) Test support apparatus, test support method, and test support program
JP4683535B2 (en) Job net management system
JP2012098870A (en) Test result collation system, method and program
JP5605370B2 (en) System model management support system, system model management support method and program
JP2009199172A (en) Information processing system, method for specifying similar parts inside program, and program
JP5479389B2 (en) Information processing system, program modification device, program modification method, and program
CN113220596B (en) Application testing method, device, equipment, storage medium and program product
JP2008009966A (en) Device and method for setting business process
JP2005084944A (en) Business process management method and system
JP2007034805A (en) Information processor and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110310

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111212

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4887238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees