JP2012079212A - Information processor and failure recovery method - Google Patents

Information processor and failure recovery method Download PDF

Info

Publication number
JP2012079212A
JP2012079212A JP2010225653A JP2010225653A JP2012079212A JP 2012079212 A JP2012079212 A JP 2012079212A JP 2010225653 A JP2010225653 A JP 2010225653A JP 2010225653 A JP2010225653 A JP 2010225653A JP 2012079212 A JP2012079212 A JP 2012079212A
Authority
JP
Japan
Prior art keywords
information
information processing
monitored
failure
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010225653A
Other languages
Japanese (ja)
Other versions
JP5588295B2 (en
Inventor
Daisuke Fujii
大介 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2010225653A priority Critical patent/JP5588295B2/en
Publication of JP2012079212A publication Critical patent/JP2012079212A/en
Application granted granted Critical
Publication of JP5588295B2 publication Critical patent/JP5588295B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information processor and a failure recovery method capable of automatically performing failure recovery according to an occurrence situation.SOLUTION: An information processor for making an information processor to be monitored recover from a failure occurring therein includes: a storage unit for storing, as a history, error information indicating a failure that occurred in the information processor to be monitored in the past in association with a failure recovery procedure; an operation check unit for obtaining operation information on the information processor to be monitored from the information processor to be monitored, and performing an operation check for determining whether the obtained operation information satisfies a predetermined condition; and a recovery unit for, when the operation check unit determines that the operation information does not satisfy the predetermined condition, specifying a recovery procedure corresponding to the operation information among the recovery procedures stored in the storage unit on the basis of the operation information and the error information stored in the storage unit, and making the information processor to be monitored recover from the failure according to the specified recovery procedure.

Description

本発明は、ハードウェア、OS(Operating System)、アプリケーション、システムなどの稼動状況を監視し、障害発生時に自動で復旧を行う情報処理装置、および障害復旧方法に関するものである。   The present invention relates to an information processing apparatus that monitors the operating status of hardware, an OS (Operating System), an application, a system, and the like and automatically recovers when a failure occurs, and a failure recovery method.

従来、ハードウェア、OS、アプリケーション、システム等に障害が生じた場合、その障害を復旧するために、障害を監視する端末等の監視装置が、監視対象機器に対して一定時間の間隔で障害の状況を監視し、障害の復旧のためのコマンドを実行する。または、監視装置が、異常を検知した場合に監視対象機器から出力されるログ上のエラーコードを参照し、そのエラーコードに対応する復旧方法をとることによって、障害を復旧させている。   Conventionally, when a failure occurs in a hardware, OS, application, system, etc., a monitoring device such as a terminal that monitors the failure has detected a failure at a certain time interval with respect to the monitoring target device in order to recover the failure. Monitor the situation and execute a command to recover from the failure. Alternatively, when the monitoring apparatus detects an abnormality, the error is recovered by referring to the error code on the log output from the monitored device and taking a recovery method corresponding to the error code.

例えば、障害監視を開始する場合、監視装置にインストールされたスケジューラソフト等の障害監視ツールが所定の間隔で監視対象機器の稼働状況をチェックし、監視対象機器から出力されるログファイルの監視や監視対象機器から発行されるメッセージを受信する(例えば、特許文献1)。   For example, when starting fault monitoring, a fault monitoring tool such as scheduler software installed on the monitoring device checks the operating status of the monitored device at a predetermined interval, and monitors and monitors the log file output from the monitored device A message issued from the target device is received (for example, Patent Document 1).

特開2003−150407号公報JP 2003-150407 A

しかしながら、上述したような監視対象機器のチェックを行うか否か、あるいはメッセージの受信可否の判断は、サーバの稼働状況によって変動させることが難しいという課題がある。また、障害復旧では、想定されるエラーに対して、予め事前に定義された復旧手順を実行するということが一般的であるが、この場合、人手を介す場合と異なってフレキシブルな対応が難しいという課題がある。   However, there is a problem that it is difficult to change whether or not the monitoring target device as described above is to be checked or whether the message can be received or not depending on the operating status of the server. In disaster recovery, it is common to execute a pre-defined recovery procedure for an expected error, but in this case, it is difficult to respond flexibly unlike the case of manual intervention. There is a problem.

例えば、上述した特許文献1に開示された技術では、システム等の通常運用時はスケジューラソフト等を使用して障害監視を実行できたとしても、システム等の障害発生時や異常時の際において、その状況が短時間で変化するような場合には、固定的にその障害の復旧することは困難であり、人手によって障害を復旧せざるを得ないという問題があった。すなわち、発生状況に応じて、自動的に障害を復旧させることができないという問題があった。   For example, in the technique disclosed in Patent Document 1 described above, even if the failure monitoring can be executed using the scheduler software or the like during normal operation of the system or the like, When the situation changes in a short time, it is difficult to recover the failure in a fixed manner, and there is a problem that the failure must be recovered manually. That is, there is a problem that the failure cannot be automatically recovered according to the occurrence state.

本発明は、上記に鑑みてなされたものであって、発生状況に応じて自動的に障害を復旧させることが可能な情報処理装置、および障害復旧方法を提供することを目的とする。   The present invention has been made in view of the above, and an object thereof is to provide an information processing apparatus and a failure recovery method capable of automatically recovering from a failure according to the state of occurrence.

上述した課題を解決し、目的を達成するために、本発明にかかる情報処理装置は、監視対象となる情報処理装置に生じた障害を復旧させる情報処理装置であって、前記監視対象となる情報処理装置に生じた過去の障害を示すエラー情報と前記障害に対する復旧手順とを対応付けて履歴で記憶する記憶部と、前記監視対象となる情報処理装置から、前記監視対象となる情報処理装置の稼働情報を取得し、取得した前記稼動情報が所定の条件を満たすか否かを判定する動作チェックを行う動作チェック部と、前記動作チェック部が、前記稼動情報が所定の条件を満たさないと判定したことを受けて、前記稼動情報と、前記記憶部に記憶された前記エラー情報とに基づいて、前記稼動情報に応じた復旧手順を前記記憶部に記憶された前記復旧手順の中から特定し、特定した前記復旧手順にしたがって前記監視対象となる情報処理装置に生じた障害を復旧させるリカバリ部と、を備えたことを特徴とする。   In order to solve the above-described problems and achieve the object, an information processing apparatus according to the present invention is an information processing apparatus that recovers a failure that has occurred in an information processing apparatus to be monitored, and the information to be monitored A storage unit that stores error information indicating a past failure that has occurred in the processing device and a recovery procedure for the failure in association with each other and a history of the information processing device to be monitored from the information processing device to be monitored An operation check unit that acquires operation information and performs an operation check to determine whether the acquired operation information satisfies a predetermined condition, and the operation check unit determines that the operation information does not satisfy a predetermined condition Accordingly, based on the operation information and the error information stored in the storage unit, a recovery procedure corresponding to the operation information is stored in the storage procedure stored in the storage unit. Identified from, characterized in that and a recovery unit to recover the failure that occurred in the be monitored information processing apparatus according to the specified the recovery procedure.

また、本発明は、上記情報処理装置で行われる障害復旧方法である。   The present invention is also a failure recovery method performed by the information processing apparatus.

本発明によれば、発生状況に応じて自動的に障害を復旧させることが可能な情報処理装置、および障害復旧方法を提供することができる。   According to the present invention, it is possible to provide an information processing apparatus and a failure recovery method capable of automatically recovering from a failure according to an occurrence state.

本発明の実施の形態にかかる障害モニタリング・自動復旧システムの構成を示すブロック図である。It is a block diagram which shows the structure of the failure monitoring and automatic recovery system concerning embodiment of this invention. 実行制御DBが記憶するコマンドや処理結果の例を示す図である。It is a figure which shows the example of the command and process result which execution control DB memorize | stores. 結果判定テーブルが記憶する実行条件や判定条件の例を示す図である。It is a figure which shows the example of the execution condition and determination condition which a result determination table memorize | stores. コマンドテーブルが記憶するコマンドの具体的な内容や判断方法の例を示す図である。It is a figure which shows the example of the concrete content and the judgment method of the command which a command table memorize | stores. キーワードテーブルが記憶するキーワードの具体的な内容の例を示す図である。It is a figure which shows the example of the specific content of the keyword which a keyword table memorize | stores. サーバ情報テーブルが記憶する設定情報の例を示す図である。It is a figure which shows the example of the setting information which a server information table memorize | stores. 通知先テーブルが記憶する通知先に関する情報の例を示す図である。It is a figure which shows the example of the information regarding the notification destination which a notification destination table memorize | stores. スケジュールテーブルが記憶するコマンドの実行タイミングに関する情報の例を示す図である。It is a figure which shows the example of the information regarding the execution timing of the command which a schedule table memorize | stores. パフォーマンスデータDBが記憶するパフォーマンスに関する情報の例を示す図である。It is a figure which shows the example of the information regarding the performance which performance data DB memorize | stores. 結果抽出テーブルが記憶する抽出条件の例を示す図である。It is a figure which shows the example of the extraction conditions which a result extraction table memorize | stores. エラー管理DBがリカバリに関する情報を記憶する例を示す図である。It is a figure which shows the example which error management DB memorize | stores the information regarding recovery. 障害管理テーブルが記憶するリカバリ結果に関する情報の例を示す図である。It is a figure which shows the example of the information regarding the recovery result which a failure management table memorize | stores. 動作チェック処理部が行う動作チェック処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the operation check process which an operation check process part performs. パフォーマンスデータ収集部が行うパフォーマンスデータ収集処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the performance data collection process which a performance data collection part performs. リカバリ部が行うリカバリ処理の処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the recovery process which a recovery part performs.

以下に添付図面を参照して、本発明にかかる情報処理装置、および障害復旧方法の実施の形態を詳細に説明する。   Exemplary embodiments of an information processing apparatus and a failure recovery method according to the present invention will be explained below in detail with reference to the accompanying drawings.

図1は、本発明の実施の形態にかかる障害モニタリング・自動復旧システム1000の構成を示すブロック図である。図1に示すように、障害モニタリング・自動復旧システム1000は、Windows(登録商標)サーバ101と、Unix(登録商標)サーバ102と、DB(DataBase)サーバ103と、アプリケーションサーバ104と、共通監視端末251と、ネットワークNとを含んで構成される。なお、ネットワークNは、LAN(Local Area Network)やWAN(Wide Area Network)等の一般的な通信回線網である。また、以下では、障害モニタリング・自動復旧システム1000は上述した各種のサーバを監視対象としているが、これらのOSやデータベースを備えた装置に限定されるものではない。   FIG. 1 is a block diagram showing a configuration of a failure monitoring / automatic recovery system 1000 according to an embodiment of the present invention. As shown in FIG. 1, a failure monitoring / automatic recovery system 1000 includes a Windows (registered trademark) server 101, a Unix (registered trademark) server 102, a DB (DataBase) server 103, an application server 104, and a common monitoring terminal. 251 and a network N. The network N is a general communication network such as a LAN (Local Area Network) or a WAN (Wide Area Network). In the following, the failure monitoring / automatic recovery system 1000 targets the above-described various servers, but is not limited to the devices including these OSs and databases.

Windowsサーバ101およびUnixサーバ102は、障害モニタリング・自動復旧システム1000の監視対象となるサーバ(以下、単に監視対象サーバと呼ぶ。)であって、例えば、アプリケーションサーバ104に登録されている種々のアプリケーションを実行するものである。DBサーバ103は、例えば、外部のアプリケーションで生成されたデータを記憶するものである。また、アプリケーションサーバ104は、例えば、上述したWindowsサーバ101およびUnixサーバ102において実行される種々のアプリケーションを記憶するものである。   The Windows server 101 and the Unix server 102 are servers to be monitored by the failure monitoring / automatic recovery system 1000 (hereinafter simply referred to as monitoring target servers). For example, various applications registered in the application server 104 Is to execute. The DB server 103 stores, for example, data generated by an external application. In addition, the application server 104 stores various applications executed in the above-described Windows server 101 and Unix server 102, for example.

共通監視端末251は、上述した各監視対象サーバを監視し、各監視対象サーバに障害が生じた場合に、その障害を自動的に復旧させるPC(Personal Computer)等の端末である。図1に示すように、共通監視端末251は、制御部201と、記憶部350とを含んで構成されている。制御部201は、CPU(Central Processing Unit)等の演算装置から構成され、動作チェック部301と、パフォーマンスデータ収集部302と、リカバリ部303と、通信部304とを含んで構成されている。なお、制御部201は、現在の日時(時刻)を計時するタイマ(不図示)を有しているものとする。また、通信部304は、例えば、NIC(Network Interface Card)等の通信装置である。   The common monitoring terminal 251 is a terminal such as a PC (Personal Computer) that monitors each of the monitoring target servers described above and automatically recovers from the failure when a failure occurs in each monitoring target server. As shown in FIG. 1, the common monitoring terminal 251 includes a control unit 201 and a storage unit 350. The control unit 201 includes an arithmetic device such as a CPU (Central Processing Unit), and includes an operation check unit 301, a performance data collection unit 302, a recovery unit 303, and a communication unit 304. Note that the control unit 201 has a timer (not shown) that counts the current date and time (time). The communication unit 304 is a communication device such as a NIC (Network Interface Card).

また、記憶部350は、HDD(Hard Disk Drive)等の記憶媒体から構成され、実行制御DB351と、結果判定テーブル352と、コマンドテーブル353と、キーワードテーブル354と、サーバ情報テーブル355と、通知先テーブル356と、スケジュールテーブル357と、パフォーマンスDB358と、結果抽出テーブル359と、エラー管理DB360と、障害管理テーブル361とを記憶している。   The storage unit 350 includes a storage medium such as an HDD (Hard Disk Drive), an execution control DB 351, a result determination table 352, a command table 353, a keyword table 354, a server information table 355, and a notification destination. A table 356, a schedule table 357, a performance DB 358, a result extraction table 359, an error management DB 360, and a failure management table 361 are stored.

実行制御DB351は、図1に示した監視対象サーバに対して実行させるコマンドや、コマンドによって実行された動作チェック処理、パフォーマンスデータ収集処理、リカバリ処理(いずれも後述)の処理結果を記憶するものである。   The execution control DB 351 stores a command to be executed on the monitoring target server shown in FIG. 1 and processing results of an operation check process, a performance data collection process, and a recovery process (all described later) executed by the command. is there.

図2は、実行制御DB351が記憶するコマンドや処理結果の例を示す図である。図2に示すように、実行制御DB351は、監視対象サーバを一意に識別するための対象サーバと、監視対象サーバに対して実行させるためのコマンドと、監視対象サーバのOS(Operating System)の種別を示すサーバタイプと、コマンドが実行された日時を示す実行日時と、実行されたコマンドによって取得された実行結果を示す取得値と、コマンドが実行された際の監視対象サーバの状態の種類を示すステータスと、監視対象サーバの状態に応じてコマンドの実行間隔を変更するか否かを示す時間変動フラグと、コマンドが実行されてから次に実行されるまでの間隔を示す次回実行間隔とが対応付けて記憶されている。   FIG. 2 is a diagram illustrating an example of commands and processing results stored in the execution control DB 351. As illustrated in FIG. 2, the execution control DB 351 includes a target server for uniquely identifying a monitoring target server, a command for causing the monitoring target server to execute, and an OS (Operating System) type of the monitoring target server. Indicates the server type indicating the date and time when the command was executed, the acquired value indicating the execution result acquired by the executed command, and the type of status of the monitored server when the command was executed Corresponds to the status, the time variation flag that indicates whether the command execution interval is changed according to the status of the monitored server, and the next execution interval that indicates the interval from the command execution to the next execution It is remembered.

図2では、例えば、サーバタイプ「OS1」である対象サーバ「開発サーバ1」に対して、ステータス「A」の状態(後述するが、監視対象サーバが安定稼動している状態)で、コマンド「UBDF01」が実行日時「2009/4/10 22:00:00」に実行され、その際に取得値「80」(%)が取得されたことを示している。また、次回実行されるまでの間隔は「10分後」であり、状況に応じて実行間隔は変更されない(No)ことを示している。さらに、同じ対象サーバ「開発サーバ1」に対して、コマンド「USYL01」が設定され、以下同様に、上述した各項目が設定されていることを示している。   In FIG. 2, for example, for the target server “development server 1” of the server type “OS1”, in the status “A” (described later, the monitored server is operating stably), the command “ UBDF01 ”is executed at the execution date“ 2009/4/10 22:00: 00 ”, and the acquired value“ 80 ”(%) is acquired at that time. Further, the interval until the next execution is “10 minutes later”, indicating that the execution interval is not changed according to the situation (No). Further, it is shown that the command “USYL01” is set for the same target server “development server 1”, and the above-described items are set similarly.

なお、図2に示した例では、実行制御DB351は、実行日時、取得値、ステータスを、コマンドが実行される都度その結果や値を格納できるように、これらを(1)〜(15)まで保持しているが、特にこの数に限定されることはない。また、上述した実行日時、取得値、ステータス以外の各項目は、例えば、障害モニタリング・自動復旧システム1000の管理者等によってあらかじめ設定されるものとする。続いて、図1に戻り、結果判定テーブル352について説明する。   In the example shown in FIG. 2, the execution control DB 351 stores the execution date and time, the acquired value, and the status from (1) to (15) so that the result and value can be stored each time the command is executed. However, the number is not particularly limited. In addition, each item other than the above-described execution date / time, acquired value, and status is set in advance by, for example, the administrator of the failure monitoring / automatic recovery system 1000 or the like. Next, returning to FIG. 1, the result determination table 352 will be described.

結果判定テーブル352は、監視対象サーバに対して実行されるコマンドの実行条件や、監視対象サーバの状態を判定するための判定条件を記憶するものである。   The result determination table 352 stores execution conditions for commands executed on the monitoring target server and determination conditions for determining the status of the monitoring target server.

図3は、結果判定テーブル352が記憶する実行条件や判定条件の例を示す図である。図3に示すように、結果判定テーブル352は、実行されるコマンドを一意に特定するための実行コマンドと、コマンドを実行させる監視対象サーバのOSの種別を示す対象サーバタイプと、監視対象サーバが正常な状態(例えば、OSのエラーがない状態)であって、安定稼動している場合におけるコマンドの実行間隔を示すステータスAと、監視対象サーバが正常である場合におけるコマンドの実行間隔を示すステータスBと、監視対象サーバが正常ではない(警戒時)場合におけるコマンドの実行間隔を示すステータスCと、監視対象サーバが初期状態にある場合におけるコマンドの実行間隔を示す初期値と、後述する動作チェック処理やパフォーマンスデータ収集処理において、監視対象サーバが安定していると判断すべき稼動状態である(ステータスAの状態である)と判定するためのしきい値(A)と、監視対象サーバが注意を要すると判断すべき稼動状態である(ステータスBの状態である)と判定するためのしきい値(B)と、監視対象サーバがエラーと判断すべき稼動状態である(ステータスCの状態である)と判定するためのしきい値(C)と、ステータスA〜Cにおけるコマンドの実行間隔を見直す回数を示すステータス見直し回数とが対応付けて記憶されている。   FIG. 3 is a diagram illustrating an example of execution conditions and determination conditions stored in the result determination table 352. As shown in FIG. 3, the result determination table 352 includes an execution command for uniquely specifying a command to be executed, a target server type indicating the type of OS of the monitoring target server that executes the command, and a monitoring target server. Status A indicating the command execution interval in a normal state (for example, no OS error) and stable operation, and status indicating the command execution interval when the monitored server is normal B, status C indicating the command execution interval when the monitored server is not normal (at the time of warning), initial value indicating the command execution interval when the monitored server is in the initial state, and an operation check described later Process and performance data collection process should be determined that the monitored server is stable A threshold (A) for determining that there is a status (status A), and an operating status for determining that the monitored server needs attention (status B) Threshold value (B), threshold value (C) for determining that the monitored server is in an operating state (status C) that should be determined as an error, and execution of commands in statuses A to C The number of status reviews indicating the number of times to review the interval is stored in association with each other.

図3では、例えば、対象サーバタイプ「OS1」の監視対象サーバに対して実行される実行コマンド「UBDF01」は、監視対象サーバが正常な状態であって、安定稼動している場合には「12時間毎」に実行され、監視対象サーバが正常である場合には「6時間毎」に実行され、監視対象サーバが正常ではない(警戒時)場合には「2時間毎」に実行されることを示している。また、実行コマンド「UBDF01」が当初実行される間隔は「3時間毎」であることを示している。さらに、後述する動作チェック処理、パフォーマンスデータ収集処理、リカバリ処理において取得された取得値が、しきい値(A)「80」(%)以上の値であれば、監視対象サーバが正常な状態であって、安定稼動している状態(ステータスAの状態)であり、その取得値がしきい値(B)「90」(%)以上の値であれば、監視対象サーバに注意が必要な状態(ステータスBの状態)であり、その取得値が「98」(%)以上の値であれば、監視対象サーバがエラーとなった状態(ステータスCの状態)であることを示し、コマンドが「10回」実行された場合にステータスA〜Cで示されたコマンドの実行間隔が見直されることを示している。なお、上述した結果判定テーブル352の各項目は、例えば、障害モニタリング・自動復旧システム1000の管理者等によってあらかじめ設定されるものとする。続いて、図1に戻り、コマンドテーブル353について説明する。   In FIG. 3, for example, the execution command “UBDF01” executed for the monitoring target server of the target server type “OS1” is “12” when the monitoring target server is in a normal state and operates stably. Executed every "hour", executed every "6 hours" when the monitored server is normal, and "every 2 hours" when the monitored server is not normal (at the time of warning) Is shown. In addition, the interval at which the execution command “UBDF01” is initially executed is “every 3 hours”. Furthermore, if the acquired value acquired in the operation check process, performance data collection process, and recovery process, which will be described later, is a value equal to or greater than the threshold value (A) “80” (%), the monitored server is in a normal state. If the acquired value is equal to or greater than the threshold value (B) “90” (%), the monitored server needs to be noted. (Status B status) and the acquired value is “98” (%) or more, this indicates that the monitored server is in an error status (status C status), and the command is “ This indicates that the execution intervals of the commands indicated by the statuses A to C are reviewed when the command is executed “10 times”. Each item of the result determination table 352 described above is set in advance by, for example, an administrator of the failure monitoring / automatic recovery system 1000 or the like. Next, returning to FIG. 1, the command table 353 will be described.

コマンドテーブル353は、実行するコマンドの具体的な内容や、コマンドを実行した際に監視対象サーバの状態を判断するための判断方法を記憶するものである。   The command table 353 stores specific contents of the command to be executed and a determination method for determining the state of the monitoring target server when the command is executed.

図4は、コマンドテーブル353が記憶するコマンドの具体的な内容や判断方法の例を示す図である。図4に示すように、コマンドテーブル353は、実行するコマンドを一意に識別するためのコマンドIDと、コマンドが実行された際に監視対象サーバの状態を判断するための判断方法を示す判断種別と、上述した対象サーバタイプと、実際に実行されるコマンドと、そのコマンドを実行する際のオプション情報(引数等)とが対応付けて記憶されている。   FIG. 4 is a diagram illustrating an example of specific contents and determination methods of commands stored in the command table 353. As shown in FIG. 4, the command table 353 includes a command ID for uniquely identifying a command to be executed, a determination type indicating a determination method for determining the state of the monitored server when the command is executed, and The target server type described above, the command actually executed, and option information (such as an argument) when executing the command are stored in association with each other.

図4では、例えば、対象サーバタイプ「OS1」の監視対象サーバに対して実行される実行コマンド「UBDF01」は、監視対象サーバの状態を判断するための判断方法として「しきい値」によって判断し、実際に実行されるコマンドは「dbf」であり、引数は指定されていないことを示している。また、各監視対象サーバ共通に実行される実行コマンド「CDBC01」は、判断方法としてコマンド実行時に出力されるログを確認すること(「ログ確認」)によって判断し、実際に実行されるコマンドは「brconnect」であり、引数「−u/−c−f check」が指定されることを示している。なお、上述したコマンドテーブル353の各項目は、結果判定テーブル352等と同様、障害モニタリング・自動復旧システム1000の管理者等によってあらかじめ設定されるものとする。続いて、図1に戻り、キーワードテーブル354について説明する。   In FIG. 4, for example, the execution command “UBDF01” executed for the monitoring target server of the target server type “OS1” is determined by “threshold” as a determination method for determining the state of the monitoring target server. The actually executed command is “dbf”, indicating that no argument is specified. Further, the execution command “CDBC01” executed in common to each monitored server is determined by checking the log output at the time of command execution (“log check”) as a determination method, and the actually executed command is “ "brconnect", indicating that an argument "-u / -cf check" is specified. It should be noted that each item of the command table 353 described above is set in advance by the administrator of the failure monitoring / automatic recovery system 1000 or the like, like the result determination table 352 and the like. Next, returning to FIG. 1, the keyword table 354 will be described.

キーワードテーブル354は、コマンドが実行された際に出力されるログに含まれる数値や文字列、符号等の種々の情報(キーワード)をアラームとして記憶するものである。   The keyword table 354 stores various information (keywords) such as numerical values, character strings, codes, and the like included in a log output when a command is executed as an alarm.

図5は、キーワードテーブル354が記憶するキーワードの具体的な内容の例を示す図である。図5に示すように、キーワードテーブル354は、上述した実行コマンドと、ログに含まれるキーワードのうち、エラーとすべきキーワードを示すエラーキーワードと、ログに含まれるキーワードのうち、注意するレベルで足り、エラーとするレベルではないキーワードを示す無視キーワードとが対応付けて記憶されている。   FIG. 5 is a diagram showing an example of specific contents of keywords stored in the keyword table 354. As shown in FIG. 5, the keyword table 354 is sufficient for the above-mentioned execution command, an error keyword indicating a keyword that should be an error among the keywords included in the log, and a level to be noted among the keywords included in the log. In addition, an ignoring keyword indicating a keyword that is not at an error level is stored in association with each other.

図5では、例えば、実行コマンド「CDBC01」が実行され、出力されたログにエラーキーワード「ORA−01555」、「ORA−00060」、「ORA−01631」が含まれている場合にはエラーとなる一方、出力されたログに無視キーワード「ORA−23701」、「ORA−03106」、「ORA−01428」が含まれている場合にはエラーとはならずにそのまま処理が続行されることを示している。なお、上述したキーワードテーブル354の各項目は、結果判定テーブル352等と同様、障害モニタリング・自動復旧システム1000の管理者等によってあらかじめ設定されるものとする。続いて、図1に戻り、サーバ情報テーブル355について説明する。   In FIG. 5, for example, an execution command “CDBC01” is executed, and an error occurs when the output log includes the error keywords “ORA-01555”, “ORA-0660”, and “ORA-16631”. On the other hand, if the output log includes the ignored keywords “ORA-23701”, “ORA-03106”, and “ORA-01428”, it indicates that the processing is continued without causing an error. Yes. It should be noted that each item of the keyword table 354 described above is set in advance by the administrator of the failure monitoring / automatic recovery system 1000 or the like, like the result determination table 352 and the like. Next, returning to FIG. 1, the server information table 355 will be described.

サーバ情報テーブル355は、監視対象サーバに関する種々の設定情報を記憶するものである。   The server information table 355 stores various setting information related to the monitoring target server.

図6は、サーバ情報テーブル355が記憶する設定情報の例を示す図である。図6に示すように、サーバ情報テーブル355は、監視対象サーバのホスト名と、監視対象サーバのIPアドレスと、監視対象サーバのOS種別と、監視対象サーバの用途を示す用途タイプと、監視対象サーバの用途タイプが「DB」である場合のインスタンス名と、管理対象サーバにアクセス可能な管理者のアカウント(管理ユーザアカウント)およびパスワード(管理ユーザパスワード)と、DBにアクセス可能なユーザのアカウント(DBユーザアカウント)およびパスワード(DBユーザパスワード)とが対応付けて記憶されている。   FIG. 6 is a diagram illustrating an example of setting information stored in the server information table 355. As shown in FIG. 6, the server information table 355 includes a host name of the monitoring target server, an IP address of the monitoring target server, an OS type of the monitoring target server, a usage type indicating the usage of the monitoring target server, and a monitoring target. Instance name when the usage type of the server is “DB”, administrator account (management user account) and password (management user password) that can access the managed server, and user account that can access the DB ( DB user account) and password (DB user password) are stored in association with each other.

図6では、例えば、ホスト名「開発サーバ1」、OS種別「OS1」である監視対象サーバのIPアドレスは「AAA.AAA.AAA.AAA」であり、インスタンス名「BSC」のDBサーバとして設定されていることを示している。また、このサーバの管理ユーザアカウントおよび管理ユーザパスワードは、それぞれ「root」「AAAAAAA」であり、DBユーザアカウントおよびDBユーザパスワードは、それぞれ「bscadm」「AAAAAAA」であることを示している。上述したサーバ情報テーブル355の各項目は、結果判定テーブル352等と同様、障害モニタリング・自動復旧システム1000の管理者等によってあらかじめ設定されるものとする。続いて、図1に戻り、通知先テーブル356について説明する。   In FIG. 6, for example, the IP address of the monitoring target server having the host name “development server 1” and the OS type “OS1” is “AAA.AAA.AAA.AAA”, and is set as the DB server of the instance name “BSC”. It has been shown. In addition, the management user account and the management user password of this server are “root” and “AAAAAAA”, respectively, and the DB user account and the DB user password are “bscadm” and “AAAAAAA”, respectively. Each item of the server information table 355 described above is set in advance by the administrator of the failure monitoring / automatic recovery system 1000 or the like, like the result determination table 352 and the like. Next, returning to FIG. 1, the notification destination table 356 will be described.

通知先テーブル356は、監視対象サーバがエラーや障害となった場合に、その旨を通知する通知先に関する情報を記憶するものである。   The notification destination table 356 stores information related to a notification destination that notifies that when a monitoring target server has an error or failure.

図7は、通知先テーブル356が記憶する通知先に関する情報の例を示す図である。図7に示すように、通知先テーブル356は、通知先にエラーや障害となった旨を通知する対象サーバと、エラーコードと、通知する方法を示す連絡先手段と、エラーや障害となった旨を通知する連絡先宛先と、その宛先の氏名・名称を示す連絡先登録者名とが対応付けて記憶されている。   FIG. 7 is a diagram illustrating an example of information regarding the notification destination stored in the notification destination table 356. As shown in FIG. 7, the notification destination table 356 has a target server that notifies the notification destination that an error or failure has occurred, an error code, a contact means that indicates the notification method, and an error or failure. A contact address for notification to the effect and a contact registrant name indicating the name and name of the address are stored in association with each other.

図7では、例えば、対象サーバ「開発サーバ1」にエラーコード「ORA−1555」のエラーが生じた場合、登録者「AAAA」に対して電話で「029−XXX−XXXX」まで通知することを示している。なお、図7では、通知先の登録者が不在等の理由で連絡が付かない場合に備え、予備の連絡先(連絡先5まで)を記憶している。ここに示した各項目は、結果判定テーブル352等と同様、障害モニタリング・自動復旧システム1000の管理者等によってあらかじめ設定されるものとする。続いて、図1に戻り、スケジュールテーブル357について説明する。   In FIG. 7, for example, when an error with the error code “ORA-1555” occurs in the target server “development server 1”, the registrant “AAAA” is notified to “029-XXX-XXXX” by telephone. Show. In FIG. 7, a spare contact address (up to contact address 5) is stored in preparation for a case where the contactee registrant cannot be contacted for reasons such as absence. Each item shown here is assumed to be set in advance by the administrator of the failure monitoring / automatic recovery system 1000 or the like, like the result determination table 352 and the like. Next, returning to FIG. 1, the schedule table 357 will be described.

スケジュールテーブル357は、コマンドを実行するタイミングに関する情報を記憶するものである。   The schedule table 357 stores information related to the timing for executing the command.

図8は、スケジュールテーブル357が記憶するコマンドの実行タイミングに関する情報の例を示す図である。図8に示すように、スケジュールテーブル357は、コマンドの実行日と、コマンドの実行時刻と、コマンドを実行する監視対象サーバを示す対象サーバと、実行コマンドとが対応付けて記憶されている。   FIG. 8 is a diagram illustrating an example of information related to the execution timing of the command stored in the schedule table 357. As shown in FIG. 8, the schedule table 357 stores a command execution date, a command execution time, a target server indicating a monitoring target server that executes the command, and an execution command in association with each other.

図8では、例えば、実行コマンド「UBDF01」を実行するタイミングは、「2009/01/01」の「00時00分」であり、「開発サーバ1」を対象サーバとして実行することを示している。ここに示した各項目は、結果判定テーブル352等と同様、障害モニタリング・自動復旧システム1000の管理者等によってあらかじめ設定されるものとする。続いて、図1に戻り、パフォーマンスデータDB358について説明する。   In FIG. 8, for example, the execution command “UBDF01” is executed at “00:00” of “2009/01/01”, indicating that “development server 1” is executed as the target server. . Each item shown here is assumed to be set in advance by the administrator of the failure monitoring / automatic recovery system 1000 or the like, like the result determination table 352 and the like. Next, returning to FIG. 1, the performance data DB 358 will be described.

パフォーマンスデータDB358は、監視対象サーバの稼働状況(パフォーマンス)に関する情報を記憶するものである。   The performance data DB 358 stores information related to the operating status (performance) of the monitoring target server.

図9は、パフォーマンスデータDB358が記憶するパフォーマンスに関する情報の例を示す図である。図9に示すように、パフォーマンスデータDB358は、監視対象サーバのパフォーマンスをチェックする種類(どのようなチェックを行うか)を一意に特定するための識別IDと、識別IDで識別されるチェックのチェック内容と、上述した対象サーバおよび実行コマンドと、コマンドの実行間隔およびその実行結果とが対応付けて記憶されている。なお、図9で示した例では、実行間隔および実行結果は1〜10まで登録されているが、この数に限定されるものではない。   FIG. 9 is a diagram illustrating an example of information related to performance stored in the performance data DB 358. As shown in FIG. 9, the performance data DB 358 includes an identification ID for uniquely identifying the type (what kind of check is performed) for checking the performance of the monitored server, and a check for the check identified by the identification ID. The contents, the above-described target server and execution command, and the command execution interval and the execution result are stored in association with each other. In the example shown in FIG. 9, the execution interval and the execution result are registered from 1 to 10, but the number is not limited to this number.

図9では、例えば、識別ID「HW001」で識別される実行コマンド「UBDF01」が、サーバ「開発サーバ1」を対象として、メモリ使用率を1分ごとに実行されることを示している。そして、その実行結果として、35(%)あるいは50(%)等の値が格納されていることを示している。なお、実行結果については、後述するパフォーマンスデータ収集処理において設定され、これら以外の各項目は、結果判定テーブル352等と同様、障害モニタリング・自動復旧システム1000の管理者等によってあらかじめ設定されるものとする。このように、実行結果を定期的に繰り返し登録しておくことによって、例えば、管理者はメモリ使用率の推移を容易に把握することができる。続いて、図1に戻り、結果抽出テーブル359について説明する。   FIG. 9 shows that, for example, the execution command “UBDF01” identified by the identification ID “HW001” is executed for the server “development server 1” at the memory usage rate every minute. As an execution result, a value such as 35 (%) or 50 (%) is stored. The execution results are set in the performance data collection process described later, and the other items are set in advance by the administrator of the failure monitoring / automatic recovery system 1000 as in the result determination table 352 and the like. To do. In this way, by registering the execution results periodically and repeatedly, for example, the administrator can easily grasp the transition of the memory usage rate. Next, returning to FIG. 1, the result extraction table 359 will be described.

結果抽出テーブル359は、後述する動作チェック処理、パフォーマンスデータ収集処理が実行され、その結果として出力されたログ等に含まれる種々の情報のうち、障害モニタリング・自動復旧システム1000が必要とする情報のみを抽出するため抽出条件を記憶するものである。   The result extraction table 359 performs operation check processing and performance data collection processing, which will be described later, and only information necessary for the failure monitoring / automatic recovery system 1000 out of various information included in the log output as a result thereof. The extraction condition is stored for extracting the.

図10は、結果抽出テーブル359が記憶する抽出条件の例を示す図である。図10に示すように、結果抽出テーブル359は、実行コマンドと、ログ等に含まれる種々の情報の中から必要な情報のみ解析して抽出するための抽出キーワードと、抽出キーワードによって抽出された情報を集計する場合の集計条件とが対応付けて記憶されている。   FIG. 10 is a diagram illustrating an example of extraction conditions stored in the result extraction table 359. As shown in FIG. 10, the result extraction table 359 includes an execution command, an extraction keyword for analyzing and extracting only necessary information from various information included in the log, and information extracted by the extraction keyword. Are stored in association with the totaling conditions for the totalization.

図10では、例えば、実行コマンド「UBDF01」が実行された際に出力されるログ等の情報の中から、「cpu」および「us」の2つの文字列を含む文字列(あるいは、その文字列を含む段落等のかたまり)が抽出されることを示している。なお、図10に示した例では、抽出キーワードとして5つのキーワードが設定されている。これらの各項目は、結果判定テーブル352等と同様、障害モニタリング・自動復旧システム1000の管理者等によってあらかじめ設定されるものとする。続いて、図1に戻り、エラー管理DB360について説明する。   In FIG. 10, for example, a character string (or its character string) including two character strings “cpu” and “us” from information such as a log output when the execution command “UBDF01” is executed. (A group of paragraphs including) is extracted. In the example shown in FIG. 10, five keywords are set as extraction keywords. Each of these items is set in advance by the administrator of the failure monitoring / automatic recovery system 1000 or the like, as in the result determination table 352 and the like. Next, returning to FIG. 1, the error management DB 360 will be described.

エラー管理DB360は、後述するリカバリ処理において、エラーに応じたリカバリを行うためのリカバリに関する情報を記憶するものである。このエラー管理DB360は、自動的に登録されるものではなく、過去に同様のリカバリ手順が存在しない場合に備えて管理者等によってあらかじめ登録されているものである。   The error management DB 360 stores information related to recovery for performing recovery according to an error in a recovery process described later. The error management DB 360 is not automatically registered, but is registered in advance by an administrator or the like in case a similar recovery procedure does not exist in the past.

図11は、エラー管理DB360がリカバリに関する情報を記憶する例を示す図である。図11に示すように、エラー管理DB360は、監視対象サーバから出力されるログ等に含まれるエラーの内容を示すエラーコードと、上述した対象サーバと、リカバリ処理を実行させる優先順位を示す対応順序と、通知先テーブル356に登録された宛先に通知するメッセージを示す通知内容と、動作チェック処理において実行されたコマンドを示すチェック時実行コマンドと、エラーをリカバリする手順を含むコマンドを示すリカバリ手順とが対応付けて記憶されている。   FIG. 11 is a diagram illustrating an example in which the error management DB 360 stores information related to recovery. As shown in FIG. 11, the error management DB 360 has an error code indicating the content of an error included in a log or the like output from the monitoring target server, the above-described target server, and a correspondence order indicating the priority order for executing the recovery process. A notification content indicating a message notified to a destination registered in the notification destination table 356, a check execution command indicating a command executed in the operation check process, and a recovery procedure indicating a command including a procedure for recovering an error; Are stored in association with each other.

図11では、「OS1」の対象サーバに対して動作チェック処理時の実行コマンド「UBDF01」が実行され、そのログ等にエラーコード「ORA−01631」が含まれている場合、管理者等に対しては「テーブル・索引がMaxExtent(***)に到達」した旨が通知されるとともに、リカバリ手順としてコマンド「R33TCDB13」が実行されることを示している。また、同じ「OS1」の対象サーバに対して動作チェック処理時の実行コマンド「UPSC01」が実行され、そのログ等にエラーコード「ORA−01631」が含まれている場合、管理者等に対しては「テーブル・索引がMaxExtent(***)に到達」した旨が通知されるとともに、リカバリ手順としてコマンド「ORAEXTCH01」が実行されることを示している。そして、この2つのエラーが同じタイミングで発生した場合には、対応順序が「1」であるコマンド「R33TCDB13」が実行され、その後、対応順序が「2」であるコマンド「ORAEXTCH01」が実行されることを示している。これらの各項目は、結果判定テーブル352等と同様、障害モニタリング・自動復旧システム1000の管理者等によってあらかじめ設定されるものとする。続いて、図1に戻り、障害管理テーブル361について説明する。   In FIG. 11, when the execution command “UBDF01” at the time of the operation check process is executed for the target server of “OS1” and the error code “ORA-16631” is included in the log or the like, This indicates that “the table / index has reached MaxExtent (***)” and that the command “R33TCDB13” is executed as a recovery procedure. In addition, when the execution command “UPSC01” at the time of the operation check process is executed for the target server of the same “OS1” and the error code “ORA-01631” is included in the log or the like, the administrator etc. Indicates that “the table / index has reached MaxExtent (***)” and that the command “ORAEXTCH01” is executed as a recovery procedure. When these two errors occur at the same timing, the command “R33TCDB13” whose correspondence order is “1” is executed, and thereafter the command “ORAEXTCH01” whose correspondence order is “2” is executed. It is shown that. Each of these items is set in advance by the administrator of the failure monitoring / automatic recovery system 1000 or the like, as in the result determination table 352 and the like. Next, returning to FIG. 1, the failure management table 361 will be described.

障害管理テーブル361は、リカバリ処理で実行されたリカバリ結果に関する情報を記憶するものである。   The failure management table 361 stores information related to the recovery result executed in the recovery process.

図12は、障害管理テーブル361が記憶するリカバリ結果に関する情報の例を示す図である。図12に示すように、障害管理テーブル361は、上述したエラーコードと、リカバリ処理が行われた監視対象サーバを示す実施サーバと、リカバリ処理が開始された日時を示す実施日時と、リカバリ処理で行われた手順を示すリカバリ手順と、リカバリ処理が完了した際のチェック手順を示す確認手順と、リカバリ処理が完了した日時を示す完了日時とが対応付けて記憶されている。   FIG. 12 is a diagram illustrating an example of information related to the recovery result stored in the failure management table 361. As shown in FIG. 12, the failure management table 361 includes the error code, the execution server indicating the monitoring target server on which the recovery process is performed, the execution date and time indicating the date and time when the recovery process is started, and the recovery process. A recovery procedure indicating the performed procedure, a confirmation procedure indicating a check procedure when the recovery process is completed, and a completion date and time indicating the date and time when the recovery process is completed are stored in association with each other.

図12では、例えば、監視対象サーバ「開発サーバ5」に、エラーコード「ORA−01631」のエラーが生じた場合のリカバリ処理として、実施日時「2008/12/31 18時30分」から完了日時「2008/12/31 21時30分」まで「Extent拡張」が行われたことを示している。また、リカバリ処理の結果を「DBCheck」で確認する手順となっていることを示している。なお、リカバリ手順および確認手順は、実際には「ABCD」「1234」等のコードとして障害管理テーブル361に記憶されている。これらの各項目は、リカバリ処理実行時に設定されるものとする。続いて、図1に戻り、動作チェック部301について説明する。   In FIG. 12, for example, as a recovery process when an error code “ORA-1631” occurs in the monitoring target server “development server 5”, the completion date and time from “2008/12/31 18:30” This indicates that “Extent extension” has been performed until “2008/12/31 21:30”. Further, it is indicated that the procedure is to confirm the result of the recovery process by “DBCheck”. The recovery procedure and the confirmation procedure are actually stored in the failure management table 361 as codes such as “ABCD” and “1234”. These items are set when the recovery process is executed. Subsequently, returning to FIG. 1, the operation check unit 301 will be described.

動作チェック部301は、監視対象となる各サーバの稼動状態をチェックするためのヘルスチェックを行うと共に、各サーバから出力される各種ログ情報から動作状況を確認するものである。動作チェック部301は、上述した実行制御DB351、結果判定テーブル352、コマンドテーブル353、キーワードテーブル354、サーバ情報テーブル355、通知先テーブル356、スケジュールテーブル357等の各種のテーブルを参照して後述する種々の処理を行う。なお、各種ログ情報とは、例えば、上述した各サーバに記憶されるイベントログ、アクセスログ、システムログ、エラーログ)、DBアラートログ、サーバ稼働情報ログ、アプリケーションログ、ジョブログ等がある。   The operation check unit 301 performs a health check for checking the operation state of each server to be monitored and confirms the operation status from various log information output from each server. The operation check unit 301 refers to various tables such as the execution control DB 351, the result determination table 352, the command table 353, the keyword table 354, the server information table 355, the notification destination table 356, and the schedule table 357 described later. Perform the process. The various log information includes, for example, an event log, an access log, a system log, and an error log stored in each server described above, a DB alert log, a server operation information log, an application log, and a job log.

パフォーマンスデータ収集部302は、監視対象となる各サーバが備えているリソースの使用状況や、各サーバの稼働情報を収集し、収集した各サーバの稼働状況をモニタリングするものである。パフォーマンスデータ収集部302は、結果判定テーブル352、コマンドテーブル353、サーバ情報テーブル355、スケジュールテーブル357、パフォーマンスDB358、結果抽出テーブル359等の各種のテーブルを参照して、後述する種々の処理を行う。   The performance data collection unit 302 collects the usage status of resources included in each server to be monitored and the operation information of each server, and monitors the collected operation status of each server. The performance data collection unit 302 refers to various tables such as a result determination table 352, a command table 353, a server information table 355, a schedule table 357, a performance DB 358, a result extraction table 359, and performs various processes described later.

リカバリ部303は、動作チェック部301やパフォーマンスデータ収集部302が監視対象となる各サーバの異常を検知した際に、その異常の状況を解析し、その状況に応じた対応を実行するものである。リカバリ部301は、コマンドテーブル353と、通知先テーブル356と、エラー管理DB360と、障害管理テーブル361等の各種のテーブルを参照して、後述する種々の処理を行う。また、リカバリ部303は、各サーバの異常を検知した際には、あらかじめ登録されている障害モニタリング・自動復旧システム1000のサーバ管理者401や保守業者402宛に電話やメール等で異常が生じた旨の通知を行う。   When the operation check unit 301 or the performance data collection unit 302 detects an abnormality of each server to be monitored, the recovery unit 303 analyzes the abnormality state and executes a response corresponding to the abnormality state. . The recovery unit 301 performs various processes described later with reference to various tables such as the command table 353, the notification destination table 356, the error management DB 360, and the failure management table 361. In addition, when the recovery unit 303 detects an abnormality in each server, an abnormality has occurred in a telephone or e-mail addressed to the server administrator 401 or maintenance contractor 402 of the failure monitoring / automatic recovery system 1000 registered in advance. Notification to that effect.

続いて、障害モニタリング・自動復旧システム1000で行われる処理について説明する。まず、動作チェック部が301行う動作チェック処理について説明する。
図13は、動作チェック処理部301が行う動作チェック処理の処理手順を示すフローチャートである。なお、以下では、監視対象となる各サーバ等の装置はあらかじめ定められ、また、障害モニタリング・自動復旧システム1000が所定のタイミングで起動されているものとする。
Next, processing performed in the failure monitoring / automatic recovery system 1000 will be described. First, the operation check process performed by the operation check unit 301 will be described.
FIG. 13 is a flowchart illustrating the processing procedure of the operation check process performed by the operation check processing unit 301. In the following description, it is assumed that devices such as servers to be monitored are determined in advance, and the failure monitoring / automatic recovery system 1000 is activated at a predetermined timing.

図13に示すように、動作チェック処理部301は、まず、スケジュールテーブル357を参照し(ステップS1151)、現在時刻と、実行日および時刻とを比較して、対象サーバが実行コマンドを実行すべきタイミングであるか否かを判定する(ステップS1152)。   As shown in FIG. 13, the operation check processing unit 301 first refers to the schedule table 357 (step S1151), compares the current time with the execution date and time, and the target server should execute the execution command. It is determined whether it is timing (step S1152).

そして、動作チェック部301は、実行コマンドを実行すべき実行タイミングであると判定した場合(ステップS1151;Yes)、サーバ情報テーブル1102を参照し、スケジュールテーブル357の対象サーバのホスト名を特定し、特定したホスト名と同じレコードの情報(IPアドレス、ホスト名、各種のアカウントやパスワード等)のログイン情報を含む対象サーバ情報を読み込む(ステップS1154)。   If the operation check unit 301 determines that it is the execution timing at which the execution command should be executed (step S1151; Yes), it refers to the server information table 1102, identifies the host name of the target server in the schedule table 357, Target server information including login information of information (IP address, host name, various accounts, passwords, etc.) of the same record as the identified host name is read (step S1154).

一方、動作チェック部301は、実行コマンドを実行すべき実行タイミングではないと判定した場合(ステップS1151;No)、実行タイミングとなるまで待機する。なお、後述するように、この時点でリカバリ部303がリカバリ処理を実行していた場合(ステップS1153)、ステップS1151〜S1152を行わず(実行タイミングの判定を行わず)に、即時にステップS1154以降の処理を行う。   On the other hand, when the operation check unit 301 determines that it is not the execution timing for executing the execution command (step S1151; No), the operation check unit 301 waits until the execution timing is reached. As will be described later, if the recovery unit 303 is executing recovery processing at this point (step S1153), steps S1151 to S1152 are not performed (determination of execution timing is not performed), and immediately after step S1154. Perform the process.

続いて、動作チェック部301は、スケジュールテーブル357の実行コマンドとサーバ情報テーブル355のOS種別とをキーとしてコマンドテーブル353を参照し、その実行コマンドとOS種別に一致するレコードに含まれるコマンドおよびオプション(すなわち、実際に実行されるコマンドやオプション。以下、コマンド詳細情報と呼ぶ。)を取得する(ステップS1155)。   Subsequently, the operation check unit 301 refers to the command table 353 using the execution command of the schedule table 357 and the OS type of the server information table 355 as keys, and the commands and options included in the record that matches the execution command and the OS type. (That is, a command or option that is actually executed. Hereinafter, it is referred to as command detailed information.) (Step S1155).

そして、動作チェック部301は、取得したコマンド詳細情報を、ステップS1154で取得した対象サーバ情報に示されたサーバに送信し、サーバに送信したコマンドを実行させ(ステップS1158)、そのコマンドの実行結果を取得する(ステップS1159)。   Then, the operation check unit 301 transmits the acquired command detailed information to the server indicated in the target server information acquired in step S1154, and executes the command transmitted to the server (step S1158), and the execution result of the command Is acquired (step S1159).

ここで、実行結果は単純にコマンドを実行した結果であるため、サーバの動作チェックには不要な情報も含まれている。したがって、動作チェック部301は、実行したコマンドをキーとして結果抽出テーブル359を参照し、実行したコマンドに一致する実行コマンドを含むレコードを特定し、特定したレコードに含まれる抽出キーワードに関する情報のみを抽出して加工する(ステップS1160)。   Here, since the execution result is simply the result of executing the command, unnecessary information is also included in the operation check of the server. Therefore, the operation check unit 301 refers to the result extraction table 359 using the executed command as a key, specifies a record including an execution command that matches the executed command, and extracts only information related to the extracted keyword included in the specified record. To process (step S1160).

各種ログ情報に含まれている正常終了・異常終了・単純な操作等を示す情報が含まれているため、このように、動作チェック部301が、上述した抽出キーワードに関する情報のみを抽出した上で動作チェックを行うことによって、より精度の高い結果を得ることができる。   Since information indicating normal termination / abnormal termination / simple operation included in various log information is included, the operation check unit 301 extracts only the information related to the extracted keyword as described above. By performing the operation check, a more accurate result can be obtained.

ステップS1160の処理が終了すると、動作チェック部301は、実行したコマンドをキーとしてコマンドテーブル353を参照し、そのコマンドに一致するコマンドIDを含むレコードを特定し、特定したレコードに含まれる判断種別がしきい値であるか否か(すなわち、実行結果をしきい値によって確認するか否か)を判定する(ステップS1161)。   When the processing in step S1160 ends, the operation check unit 301 refers to the command table 353 using the executed command as a key, identifies a record including a command ID that matches the command, and determines the determination type included in the identified record. It is determined whether or not it is a threshold value (that is, whether or not the execution result is confirmed by the threshold value) (step S1161).

動作チェック部301は、実行結果をしきい値によって確認すると判定した場合(ステップS1161;Yes)、結果判定テーブル352のしきい値(A)〜(C)を読み取り(ステップS1163)、実行結果が、読み取ったしきい値(A)〜(C)のうちのいずれの範囲に該当するか否かを判定したのち、しきい値(C)の値を超えた範囲にあるか否かを判定する(ステップS1164)。   When it is determined that the execution result is confirmed by the threshold value (step S1161; Yes), the operation check unit 301 reads the threshold values (A) to (C) of the result determination table 352 (step S1163), and the execution result is After determining whether the read threshold value (A) to (C) falls within the range, it is determined whether the threshold value (C) is exceeded. (Step S1164).

そして、動作チェック部301は、実行結果が、しきい値(C)の値を超えた範囲にあると判定した場合(ステップS1164;Yes)、そのサーバの稼動状態が異常であると判定し、ステップS1171に進む。なお、後述するパフォーマンスデータ収集処理で異常と検知した場合も、ステップS1164と同様に、ステップS1171に進む(ステップS1162)。   When the operation check unit 301 determines that the execution result is within the range exceeding the threshold value (C) (step S1164; Yes), the operation check unit 301 determines that the operating state of the server is abnormal, The process proceeds to step S1171. Note that if an abnormality is detected in the performance data collection process described later, the process proceeds to step S1171 as in step S1164 (step S1162).

一方、動作チェック部301は、実行結果が、しきい値(C)の値を超えた範囲にないと判定した場合(ステップS1164;No)、そのサーバは異常な稼動状態ではないと判定(サーバの動作確認が正常に終了したと判定)し、実行結果を実行制御DB351の取得値およびステータスに格納する(ステップS1165)。   On the other hand, when the operation check unit 301 determines that the execution result is not within the range exceeding the threshold value (C) (step S1164; No), the operation check unit 301 determines that the server is not in an abnormal operating state (server And the execution result is stored in the acquired value and status of the execution control DB 351 (step S1165).

その後、動作チェック部301は、動作チェックの次回実行時間を設定するため、実行制御DB351と結果判定テーブル352とを参照し、そのコマンドを次回実行させるタイミングを決定し、その結果をスケジュールテーブル357および実行制御DB351に格納する(ステップS1166)。   After that, the operation check unit 301 refers to the execution control DB 351 and the result determination table 352 to set the next execution time of the operation check, determines the timing for executing the command next time, and sets the result in the schedule table 357 and The data is stored in the execution control DB 351 (step S1166).

例えば、ステップS1164において、実行コマンド「UBDF01」の実行結果が「80%」であった場合、そのサーバのステータスは「A」であるため、図3に示す結果判定テーブル352のステータスAを参照し、コマンド「UBDF01」を「12時間毎」に実行させるように、そのタイミングを設定する。   For example, if the execution result of the execution command “UBDF01” is “80%” in step S1164, the status of the server is “A”, so refer to the status A of the result determination table 352 shown in FIG. The timing is set so that the command “UBDF01” is executed “every 12 hours”.

これと同様に、実行コマンド「UBDF01」の実行結果が「90%」であった場合には、そのサーバのステータスは「B」であるため、結果判定テーブル352のステータスBを参照し、コマンド「UBDF01」を「6時間毎」に実行させるように、そのタイミングを設定し、実行コマンド「UBDF01」の実行結果が「98%」であった場合には、そのサーバのステータスは「C」であるため、結果判定テーブル352のステータスCを参照し、コマンド「UBDF01」を「3時間毎」に実行させるように、そのタイミングを設定する。このように、サーバの稼動状態が異常な状態(危険な状態)に近づくにつれて、コマンドを実行させる間隔を短くし、サーバの稼動状態を迅速に把握することができるようになっている。   Similarly, when the execution result of the execution command “UBDF01” is “90%”, the status of the server is “B”, so the status “B” in the result determination table 352 is referred to, and the command “ When the timing is set so that “UBDF01” is executed “every 6 hours” and the execution result of the execution command “UBDF01” is “98%”, the status of the server is “C”. Therefore, the status C of the result determination table 352 is referred to, and the timing is set so that the command “UBDF01” is executed “every 3 hours”. As described above, as the server operating state approaches an abnormal state (dangerous state), the interval at which the command is executed can be shortened to quickly grasp the server operating state.

その後、動作チェック部301は、リカバリ処理が起動して実行された状態で、動作チェック処理を行っているか否か(すなわち、動作チェックが単体で実行されたものであるか、リカバリ処理の一環として実行されたものであるか)を判定し(ステップS1167)、動作チェックがリカバリ処理の一環として実行されていないと判定した場合(ステップS1167;No)、処理を終了させる。   Thereafter, the operation check unit 301 determines whether or not the operation check process is performed in a state where the recovery process is activated and executed (that is, whether the operation check is executed alone or as part of the recovery process). (Step S1167). If it is determined that the operation check has not been executed as part of the recovery process (Step S1167; No), the process is terminated.

一方、動作チェック部301は、動作チェックがリカバリ処理の一環として実行されていると判定した場合(ステップS1167;Yes)、図15に示すリカバリ処理に進む(ステップS1168)。   On the other hand, when the operation check unit 301 determines that the operation check is being executed as part of the recovery process (step S1167; Yes), the operation check unit 301 proceeds to the recovery process illustrated in FIG. 15 (step S1168).

動作チェック部301は、ステップS1161において、実行結果をしきい値によって確認しないと判定した(すなわち実行結果を各種ログ情報によって確認すると判定した)場合(ステップS1161;No)、キーワードテーブル1112を参照し、各種ログ情報の中からステップS1157において実行されたコマンドに一致する実行コマンドを読み込んで特定し(ステップS1169)、そのコマンドの実行結果にエラーがあり、そのエラーがキーワードテーブル354のエラーキーワードとして登録されているものであるか否か(すなわち、実行結果にエラーが存在し、そのエラーが無視できないものであるか否か)を判定する(ステップS1170)。   The operation check unit 301 refers to the keyword table 1112 when it is determined in step S1161 that the execution result is not confirmed by the threshold (that is, it is determined that the execution result is confirmed by various log information) (step S1161; No). The execution command that matches the command executed in step S1157 is read from the various log information and specified (step S1169), and there is an error in the execution result of the command, and the error is registered as an error keyword in the keyword table 354. It is determined whether or not (i.e., whether an error exists in the execution result and the error cannot be ignored) (step S1170).

そして、動作チェック部301は、実行結果にエラーが存在せず、もしくはそのエラーが無視できないものではない(例えば、実行結果にエラーが存在しても、そのエラーが無視キーワードである場合等)と判定した場合(ステップS1170;No)、上述したステップS1165に進む。   Then, the operation check unit 301 does not have an error in the execution result, or the error cannot be ignored (for example, even if an error exists in the execution result, the error is an ignorable keyword). When it determines (step S1170; No), it progresses to step S1165 mentioned above.

一方、動作チェック部301は、実行結果にエラーが存在し、もしくはそのエラーが無視できないものである(例えば、実行結果にエラーが存在し、そのエラーがエラーキーワードである場合等)と判定した場合(ステップS1170;Yes)、通知先テーブル356を参照し、ステップS1154で取得した対象サーバ情報に含まれるホスト名に一致する対象サーバを特定し(ステップS1171)、特定した対象サーバの連絡先として登録された宛先に通報する(ステップS1172)。   On the other hand, when the operation check unit 301 determines that an error exists in the execution result or the error cannot be ignored (for example, an error exists in the execution result and the error is an error keyword). (Step S1170; Yes), with reference to the notification destination table 356, the target server that matches the host name included in the target server information acquired in Step S1154 is specified (Step S1171), and registered as the contact information of the specified target server The notified destination is notified (step S1172).

その後、動作チェック部301は、ステップS1165、S1166の場合と同様に、実行結果を実行制御DB351に格納し(ステップS1173)、そのコマンドを次回実行させるタイミングを決定し、その結果をスケジュールテーブル357および実行制御DB351に格納する(ステップS1174)。このステップS1174の処理、またはステップS1167の処理が終了すると、図13に示す動作チェック処理の全ての処理が終了する。続いて、パフォーマンスデータ収集部302が行うパフォーマンスデータ収集処理について説明する。   Thereafter, as in the case of steps S1165 and S1166, the operation check unit 301 stores the execution result in the execution control DB 351 (step S1173), determines the timing for executing the command next time, and stores the result in the schedule table 357 and Stored in the execution control DB 351 (step S1174). When the process of step S1174 or the process of step S1167 ends, all the process of the operation check process shown in FIG. 13 ends. Next, performance data collection processing performed by the performance data collection unit 302 will be described.

図14は、パフォーマンスデータ収集部302が行うパフォーマンスデータ収集処理の処理手順を示すフローチャートである。   FIG. 14 is a flowchart illustrating a processing procedure of performance data collection processing performed by the performance data collection unit 302.

図14に示すように、パフォーマンスデータ収集部302は、スケジュールテーブル357を読み込み(ステップS1251)、スケジュールテーブル357の実行日と、現在時刻とを比較し、パフォーマンスデータ収集処理の実行タイミングであるか否かを判定する(ステップS1252)。   As shown in FIG. 14, the performance data collection unit 302 reads the schedule table 357 (step S1251), compares the execution date of the schedule table 357 with the current time, and determines whether it is the execution timing of the performance data collection process. Is determined (step S1252).

そして、パフォーマンスデータ収集部302は、パフォーマンスデータ収集処理の実行タイミングであると判定した場合(ステップS1252;Yes)、さらに、サーバ情報テーブル355を読み込んで、スケジュールテーブル357の対象サーバと同じホスト名とOS種別と含む対象サーバ情報を取得する(ステップS1253)。   If the performance data collection unit 302 determines that it is the execution timing of the performance data collection process (step S1252; Yes), it further reads the server information table 355 and sets the same host name as the target server of the schedule table 357. The target server information including the OS type is acquired (step S1253).

その後、パフォーマンスデータ収集部302は、コマンドテーブル353を参照し、ステップS1251で読み込んだスケジュールテーブル357に含まれる実行コマンドと、ステップS1253で取得したOS種別に一致するレコードに含まれるコマンドを特定し(ステップS1254)、そのコマンドを実行するための実行ファイル(実行コマンド)を生成する(ステップS1255)。   Thereafter, the performance data collection unit 302 refers to the command table 353, and identifies the execution command included in the schedule table 357 read in step S1251 and the command included in the record that matches the OS type acquired in step S1253 ( In step S1254, an execution file (execution command) for executing the command is generated (step S1255).

具体的には、パフォーマンスデータ収集部302は、ステップS1251においてスケジュールテーブル357の対象サーバ(例えば、開発サーバ1)、実行コマンド(例えば、UBDF01)を読み込み、読み込んだ対象サーバをキーとして、さらに、ステップS1253において、サーバ情報テーブル355のOS種別(例えば、OS1)を読み込む。その後、パフォーマンスデータ収集部302は、ステップS1254において、実行コマンドとOS種別とをキーとして、さらに、コマンドテーブル353のコマンド(例えば、dbf)を取得し、取得したコマンドを実行させるためのファイルを生成する。   Specifically, the performance data collection unit 302 reads the target server (for example, the development server 1) and the execution command (for example, UBDF01) of the schedule table 357 in step S1251, and further uses the read target server as a key. In S1253, the OS type (for example, OS1) in the server information table 355 is read. Thereafter, in step S1254, the performance data collection unit 302 further acquires a command (for example, dbf) in the command table 353 using the execution command and the OS type as a key, and generates a file for executing the acquired command. To do.

パフォーマンスデータ収集部302は、ステップS1255で生成したファイルを対象となるサーバに送信して処理を実行させ(ステップS1256、S1257)、その実行結果を取得し、対象サーバおよび実行コマンド(例えば、開発サーバ1、UBDF01)をキーとして、その実行結果(例えば、35(%))をパフォーマンスデータDB358に登録する(ステップS1258)。   The performance data collection unit 302 transmits the file generated in step S1255 to the target server to execute the process (steps S1256 and S1257), acquires the execution result, and executes the target server and the execution command (for example, the development server). 1 (UBDF01) as a key, the execution result (for example, 35 (%)) is registered in the performance data DB 358 (step S1258).

ここで、実行結果は単純にコマンドを実行した結果であるため、サーバのパフォーマンスデータの収集には不要な情報も含まれている。したがって、パフォーマンスデータ収集部302は、実行したコマンドをキーとして結果抽出テーブル359を参照し、図13に示したステップS1160の場合と同様に、実行したコマンドに一致する実行コマンドを含むレコードを特定し、特定したレコードに含まれる抽出キーワードに関する情報のみを抽出して加工する(ステップS1259)。   Here, since the execution result is simply the result of executing the command, information unnecessary for collecting server performance data is also included. Therefore, the performance data collection unit 302 refers to the result extraction table 359 using the executed command as a key, and specifies a record including an executed command that matches the executed command, as in step S1160 shown in FIG. Only the information related to the extracted keyword included in the specified record is extracted and processed (step S1259).

さらに、パフォーマンスデータ収集部302は、取得した実行結果が異常である場合も存在するため、実行コマンド(例えば、UBDF01)およびOS種別(例えば、OS1)をキーとして結果判定テーブル352を読み込んで、その実行コマンドおよびOS種別に一致する実行コマンドおよび対象サーバタイプを含むレコードを特定し、そのレコードのしきい値(例えば、80(%以上)、90(%以上)、98(%以上))を取得するとともに(ステップS1260)、ステップS1258で取得した実行結果を、対象サーバ、コマンド、対象サーバタイプ(例えば、開発サーバ1、UBDF01、OS1)をキーとして実行制御DB351に登録する(ステップS1261)。   Furthermore, the performance data collection unit 302 reads the result determination table 352 using the execution command (for example, UBDF01) and the OS type (for example, OS1) as keys because the acquired execution result may be abnormal. The record including the execution command and the target server type that matches the execution command and the OS type is specified, and the threshold value of the record (for example, 80 (% or more), 90 (% or more), 98 (% or more)) is acquired. In step S1260, the execution result acquired in step S1258 is registered in the execution control DB 351 using the target server, command, and target server type (for example, development server 1, UBDF01, OS1) as keys (step S1261).

その後、パフォーマンスデータ収集部302は、ステップS1258で取得した実行結果が、ステップS1260で取得したしきい値を満たしているか否か(しきい値を超えているか否か)を判定し(ステップS1262)、実行結果がしきい値を超えていないと判定した場合(ステップS1262;No)、実行結果がいずれのしきい値を満たすものであるかを判定し、その結果(取得値、ステータス)を実行制御DB351に登録する(ステップS1265)。   Thereafter, the performance data collection unit 302 determines whether or not the execution result acquired in step S1258 satisfies the threshold acquired in step S1260 (whether or not the threshold is exceeded) (step S1262). When it is determined that the execution result does not exceed the threshold value (step S1262; No), it is determined which threshold value the execution result satisfies, and the result (acquired value, status) is executed. Register in the control DB 351 (step S1265).

一方、パフォーマンスデータ収集部302は、実行結果がしきい値を超えていると判定した場合(ステップS1262;Yes)、サーバの稼働状況が異常であると判定し、その結果(取得値、ステータス)を実行制御DB351に登録し(ステップS1263)、サーバの動作をチェックするために、図13に示した動作チェック処理に進む(ステップS1264)。このステップS1264またはステップS1265の処理が終了すると、図14に示したパフォーマンスデータ収集処理の全ての処理が終了する。続いて、リカバリ部303が行うリカバリ処理について説明する。   On the other hand, if the performance data collection unit 302 determines that the execution result exceeds the threshold (step S1262; Yes), the performance data collection unit 302 determines that the server operating status is abnormal, and the result (acquired value, status). Is registered in the execution control DB 351 (step S1263), and the operation check process shown in FIG. 13 is performed to check the operation of the server (step S1264). When the processing of step S1264 or step S1265 is completed, all the performance data collection processing shown in FIG. 14 is completed. Next, the recovery process performed by the recovery unit 303 will be described.

図15は、リカバリ部303が行うリカバリ処理の処理手順を示すフローチャートである。なお、以下に示すリカバリ処理は、それ自体が単独で起動することはなく、図13に示した動作チェック処理において実行結果に無視できないエラーが存在し、その異常が連絡先として登録された宛先に通報された場合(図13に示したステップS1171〜1174までの処理が実行された場合)に、自動的に起動するものとする。   FIG. 15 is a flowchart showing a processing procedure of recovery processing performed by the recovery unit 303. Note that the recovery process shown below does not start on its own, there is an error that cannot be ignored in the execution result in the operation check process shown in FIG. 13, and the abnormality is registered in the destination registered as a contact. When notified (when the processing from step S1171 to 1174 shown in FIG. 13 is executed), it is automatically started.

図15に示すように、リカバリ部303は、動作チェック処理からリカバリ処理に処理が遷移したタイミングで、通知先テーブル356の情報を読み込み(ステップS1351)、ステップS1171において参照した通知先テーブル356の連絡先として登録された宛先に、リカバリ処理を開始する旨を通報する(ステップS1352)。   As illustrated in FIG. 15, the recovery unit 303 reads information in the notification destination table 356 at the timing when the process transitions from the operation check process to the recovery process (step S1351), and contacts the notification destination table 356 referred to in step S1171. The destination registered as the destination is notified that the recovery process is to be started (step S1352).

そして、リカバリ部303は、図13に示した動作チェック処理のステップS1154で取得した対象サーバ情報に含まれるホスト名に一致する対象サーバを取得する(ステップS1353)。その後、リカバリ部303は、取得した対象サーバと障害管理テーブル361の実施サーバが一致するレコードを読み込み(ステップS1354)、読み込んだレコードに含まれるエラーコードをキーとして、障害管理テーブル361の中に過去に同じコマンドでエラーが発生しているか確認し(ステップS1355)、障害管理テーブル361に同一の障害履歴が記憶されているか否かを判定する(ステップS1356)。   Then, the recovery unit 303 acquires a target server that matches the host name included in the target server information acquired in step S1154 of the operation check process illustrated in FIG. 13 (step S1353). Thereafter, the recovery unit 303 reads a record in which the acquired target server and the execution server of the failure management table 361 match (step S1354), and stores the past in the failure management table 361 using the error code included in the read record as a key. It is checked whether an error has occurred with the same command (step S1355), and it is determined whether the same failure history is stored in the failure management table 361 (step S1356).

リカバリ部303は、障害管理テーブル361に同一の障害履歴が記憶されていると判定した場合(ステップS1356;Yes)、記憶されているその障害履歴(エラーコード)に対応するリカバリ手順を選択し、過去の手順を採用する(ステップS1357)。   When it is determined that the same failure history is stored in the failure management table 361 (step S1356; Yes), the recovery unit 303 selects a recovery procedure corresponding to the stored failure history (error code), The past procedure is adopted (step S1357).

例えば、図13に示した動作チェック処理のステップS1154で取得した対象サーバ情報が「開発サーバ5」である場合、リカバリ部303は、その対象サーバに一致する障害管理テーブル361の実施サーバ「開発サーバ5」を含むレコードを読み込む。そして、リカバリ部303は、そのレコードに含まれるエラーコード「ORA−01631」を参照し、リカバリ手順として「Extent拡張(ABCD)」を採用する。   For example, when the target server information acquired in step S1154 of the operation check process illustrated in FIG. 13 is “development server 5”, the recovery unit 303 performs the implementation server “development server” of the failure management table 361 that matches the target server. A record including “5” is read. Then, the recovery unit 303 refers to the error code “ORA-16311” included in the record, and adopts “Extent extension (ABCD)” as the recovery procedure.

一方、リカバリ部303は、障害管理テーブル361に同一の障害履歴が記憶されていないと判定した場合(ステップS1356;No)、サーバ情報テーブル355を参照し、他のサーバの中で同じOS種別のサーバのホスト名と同じ名称を、障害管理テーブル361の中から特定し、特定した他のサーバ(実施サーバ)のリカバリ手順を確認する(ステップS1366)。   On the other hand, when the recovery unit 303 determines that the same failure history is not stored in the failure management table 361 (step S1356; No), the recovery unit 303 refers to the server information table 355 and has the same OS type among other servers. The same name as the host name of the server is identified from the failure management table 361, and the recovery procedure of the identified other server (implementing server) is confirmed (step S1366).

そして、リカバリ部303は、他のサーバのリカバリ手順があると判定した場合(ステップS1366;Yes)、ステップS1357に進み、過去のリカバリ手順を採用した場合と同様に、他のサーバのリカバリ手順を採用する。   If the recovery unit 303 determines that there is a recovery procedure for another server (step S1366; Yes), the process proceeds to step S1357, and the recovery procedure for the other server is performed in the same manner as when the past recovery procedure is adopted. adopt.

一方、リカバリ部303は、他のサーバのリカバリ手順がないと判定した場合(ステップS1366;No)、エラー管理DB360のエラーコードを参照し(ステップS1367)、エラー管理DB360に同一の障害履歴が記憶されているか否かを判定する(ステップS1368)。   On the other hand, if the recovery unit 303 determines that there is no recovery procedure for another server (step S1366; No), the recovery unit 303 refers to the error code in the error management DB 360 (step S1367) and stores the same failure history in the error management DB 360. It is determined whether it has been performed (step S1368).

そして、リカバリ部303は、エラー管理DB360に同一の障害履歴が記憶されていると判定した場合(ステップS1368;Yes)、エラー管理DB360に記憶されているリカバリ手順を採用し(ステップS1369)、ステップS1358に進む。   When the recovery unit 303 determines that the same failure history is stored in the error management DB 360 (step S1368; Yes), the recovery unit 303 adopts the recovery procedure stored in the error management DB 360 (step S1369). The process proceeds to S1358.

一方、リカバリ部303は、エラー管理DB360に同一の障害履歴が記憶されていないと判定した場合(ステップS1368;No)、自動的なリカバリ処理は困難であるため、図13に示したステップS1172の場合と同様に関係者に再度通報を行い(ステップS1370)、管理者による対応を行う(ステップS1371)。   On the other hand, if the recovery unit 303 determines that the same failure history is not stored in the error management DB 360 (step S1368; No), the automatic recovery process is difficult, and thus the recovery process of step S1172 shown in FIG. As in the case, the relevant person is notified again (step S1370), and the administrator takes action (step S1371).

ステップS1357またはステップS1369が終了すると、ステップS1357またはステップS1369で採用したリカバリ手順のコマンド(例えば、障害管理テーブル361のリカバリ手順「Extent拡張」を実施した際のコマンド、あるいはエラー管理DB360のリカバリ手順のファイルである「R3RTCDB13」およびエラーコード「ORA−01631」に対応するコマンド「UBDF01」)をコマンドテーブル353から取得し(ステップS1358)、図14に示したステップS1255の場合と同様に、取得したコマンドを実行させるためのファイルを生成する(ステップS1359)。   When step S1357 or step S1369 ends, the recovery procedure command adopted in step S1357 or step S1369 (for example, the command when the recovery procedure “Extent extension” in the failure management table 361 is executed, or the recovery procedure of the error management DB 360) The command “UBDF01” corresponding to the file “R3RTCDB13” and the error code “ORA-1631” is acquired from the command table 353 (step S1358), and the acquired command is the same as in step S1255 shown in FIG. A file for executing is generated (step S1359).

そして、リカバリ部303は、ステップS1359で生成したファイルを対象となるサーバに送信してリカバリ処理を実行させ(ステップS1360、S1361)、その実行結果(例えば、そのサーバの各種ログ情報)を取得する(ステップS1362)。   Then, the recovery unit 303 transmits the file generated in step S1359 to the target server to execute the recovery process (steps S1360 and S1361), and acquires the execution result (for example, various log information of the server). (Step S1362).

ステップS1362の処理が終了すると、そのリカバリ手順の有効性を確認するために、動作チェック部301は、図13に示したステップS1153(A)〜S1168(D)までの動作チェック処理を実行する。そして、これらの動作チェック処理が終了すると、リカバリ部303は、その動作チェック処理によって、エラーが解消されたか否か(例えば、しきい値(C)の値を超えた範囲にないか)を判定する(ステップS1365)。   When the process of step S1362 ends, the operation check unit 301 executes the operation check process from steps S1153 (A) to S1168 (D) shown in FIG. 13 in order to confirm the validity of the recovery procedure. When these operation check processes are completed, the recovery unit 303 determines whether or not the error has been resolved by the operation check process (for example, it is not in a range exceeding the threshold value (C)). (Step S1365).

そして、リカバリ部303は、その動作チェック処理によって、エラーが解消されていないと判定した場合(ステップS1365;No)、ステップS1369に戻って、エラー管理DB360に記憶されているリカバリ手順を採用し(ステップS1369)、ステップS1358に進む。   When the recovery unit 303 determines that the error has not been eliminated by the operation check process (step S1365; No), the recovery unit 303 returns to step S1369 and adopts the recovery procedure stored in the error management DB 360 ( The process proceeds to step S1369) and step S1358.

一方、リカバリ部303は、その動作チェック処理によって、エラーが解消されたと判定した場合(ステップS1365;Yes)、そのリカバリ手順を障害管理テーブル361に登録し(ステップS1372)、エラーコードをキーとして、そのエラーコードが生じた際のリカバリ手順を優先的に実行させるために、エラー管理DB360の対応順序を変更する(ステップS1373)。   On the other hand, when the recovery unit 303 determines that the error has been eliminated by the operation check process (step S1365; Yes), the recovery procedure is registered in the failure management table 361 (step S1372), and the error code is used as a key. In order to preferentially execute the recovery procedure when the error code is generated, the correspondence order of the error management DB 360 is changed (step S1373).

具体的には、図11に示す例では、対象サーバ「OS1」のサーバに、エラーコード「ORA−01631」が生じた場合、リカバリ手順としては、まず、「R3RTCDB13」のファイルを実行し、次に「ORAEXTCH01」のファイルを実行する手順となっているが、例えば、「ORAEXTCH01」のファイルを実行した方が、より多くの容量を確保できた場合、短い処理時間でリカバリ処理が実行できた等のように、実行されたリカバリ処理が有効なものである場合には、リカバリ手順の対応順序を入れ替えて、今後障害が生じた場合に「ORAEXTCH01」のファイルを実行する手順が先に実行されるように、優先順位を高く設定する。   Specifically, in the example illustrated in FIG. 11, when the error code “ORA-01631” occurs in the server of the target server “OS1”, as a recovery procedure, first, the file “R3RTCDB13” is executed. However, for example, when the “ORAEXTCH01” file is executed, the recovery process can be executed in a short processing time when a larger capacity can be secured. If the executed recovery process is valid as shown above, the order of executing the “ORAEXTCH01” file is executed first when a failure occurs in the future by switching the correspondence order of the recovery procedures. As such, the priority is set high.

そして、リカバリ部303は、ステップS1373までの処理が終了すると、実行制御DB351の各項目をクリアすることによってリセットし(ステップS1374)、リカバリ処理が完了した旨の連絡を、図13に示したステップS1172の場合と同様に関係者に通知する(ステップS1375、S1376)。このステップS1376又はステップS1371の処理が終了すると、図15に示したリカバリ処理の全ての処理が終了する。   Then, when the processing up to step S1373 is completed, the recovery unit 303 resets the items by clearing each item of the execution control DB 351 (step S1374), and notifies that the recovery processing is completed, as shown in FIG. The related parties are notified in the same manner as in S1172 (steps S1375 and S1376). When the process of step S1376 or step S1371 is finished, all the recovery processes shown in FIG. 15 are finished.

このように、監視対象となるサーバに生じた障害を復旧させる共通監視端末251において、記憶部350が、監視対象となるサーバに生じた過去の障害を示すエラーコードと障害に対するリカバリ手順とを対応付けて履歴で記憶し、動作チェック部301が、監視対象となるサーバから、監視対象となるサーバの稼働情報を取得し、取得した稼動情報が所定の条件(しきい値、キーワード)を満たすか否かを判定する動作チェックを行い、リカバリ部303が、動作チェック部301が、稼動情報が所定の条件(しきい値、キーワード)を満たさないと判定したことを受けて、稼動情報と、記憶部350に記憶されたエラーコードとに基づいて、稼動情報に応じたリカバリ手順を記憶部350に記憶されたリカバリ手順の中から特定し、特定したリカバリ手順にしたがって監視対象となるサーバに生じた障害を復旧させるので、発生状況に応じて自動的に障害を復旧させることが可能となる。   As described above, in the common monitoring terminal 251 that recovers a failure that has occurred in the server to be monitored, the storage unit 350 corresponds to an error code indicating a past failure that has occurred in the server to be monitored and a recovery procedure for the failure. The operation check unit 301 acquires the operation information of the monitoring target server from the monitoring target server, and whether the acquired operation information satisfies a predetermined condition (threshold value, keyword) In response to the operation check for determining whether or not the operation check unit 301 determines that the operation information does not satisfy the predetermined condition (threshold value, keyword), the operation information and the storage are stored. Based on the error code stored in the unit 350, a recovery procedure corresponding to the operation information is identified from the recovery procedures stored in the storage unit 350, and Since to recover the failure that occurred in the server to be monitored according to the recovery procedure, it is possible to automatically recover the fault in accordance with the occurrence.

例えば、サーバの稼働状況によって、サーバの動作をチェックする条件を自動的に変更し、サーバに障害が発生した場合にも、単にあらかじめ定義したシナリオだけでなく、過去の実績のあるリカバリ手順にしたがって自動的に復旧させることが可能となる。
また、サーバが平常運用されている場合においては、その動作チェック、あるいはリソースの使用状況やパフォーマンスを自動的に実行させ、その際に異常を検知した場合、自動的に管理者への通報から異常の原因となった障害の復旧までの一連の流れの作業を行うので、サーバやシステムの運用保守を自動で行われることとなり、運用担当者や管理者の負担を軽減することが可能となる、
さらに、障害の復旧までの一連の流れの作業を自動的に行うので、迅速に障害が復旧でき、その結果、システムのダウンタイムを抑制することができるため、ユーザに安定したサービスを提供することができる。
For example, the conditions for checking server operation are automatically changed according to the operating status of the server, and when a failure occurs in the server, not only a predefined scenario but also a recovery procedure with a past record It is possible to recover automatically.
Also, when the server is operating normally, its operation check or resource usage status and performance are automatically executed, and if an abnormality is detected at that time, an error is automatically detected from the report to the administrator. Since a series of work up to the recovery of the failure that caused the problem is performed, the operation and maintenance of the server and system will be performed automatically, and it will be possible to reduce the burden on the operations staff and administrator.
Furthermore, since a series of operations up to the recovery of the failure is automatically performed, the failure can be recovered quickly, and as a result, the system downtime can be suppressed, so that a stable service can be provided to the user. Can do.

なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。   It should be noted that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.

1000 障害モニタリング・自動復旧システム、
101 Windowsサーバ
102 Unixサーバ
103 DB(DataBase)サーバ
104 アプリケーションサーバ
251 共通監視端末
201 制御部
301 動作チェック部
302 パフォーマンスデータ収集部
303 リカバリ部
304 通信部
350 記憶部
351 実行制御DB
352 結果判定テーブル
353 コマンドテーブル
354 キーワードテーブル
355 サーバ情報テーブル
356 通知先テーブル
357 スケジュールテーブル
358 パフォーマンスDB
359 結果抽出テーブル
360 エラー管理DB
361 障害管理テーブル
N ネットワーク。
1000 Fault monitoring / automatic recovery system,
101 Windows server 102 Unix server 103 DB (DataBase) server 104 Application server 251 Common monitoring terminal 201 Control unit 301 Operation check unit 302 Performance data collection unit 303 Recovery unit 304 Communication unit 350 Storage unit 351 Execution control DB
352 Result determination table 353 Command table 354 Keyword table 355 Server information table 356 Notification destination table 357 Schedule table 358 Performance DB
359 Result extraction table 360 Error management DB
361 Fault management table N Network.

Claims (9)

監視対象となる情報処理装置に生じた障害を復旧させる情報処理装置であって、
前記監視対象となる情報処理装置に生じた過去の障害を示すエラー情報と前記障害に対する復旧手順とを対応付けて履歴で記憶する記憶部と、
前記監視対象となる情報処理装置から、前記監視対象となる情報処理装置の稼働情報を取得し、取得した前記稼動情報が所定の条件を満たすか否かを判定する動作チェックを行う動作チェック部と、
前記動作チェック部が、前記稼動情報が所定の条件を満たさないと判定したことを受けて、前記稼動情報と、前記記憶部に記憶された前記エラー情報とに基づいて、前記稼動情報に応じた復旧手順を前記記憶部に記憶された前記復旧手順の中から特定し、特定した前記復旧手順にしたがって前記監視対象となる情報処理装置に生じた障害を復旧させるリカバリ部と、
を備えたことを特徴とする情報処理装置。
An information processing apparatus that recovers a failure that occurred in an information processing apparatus to be monitored,
A storage unit that stores, in a history, error information indicating a past failure that has occurred in the information processing apparatus to be monitored and a recovery procedure for the failure;
An operation check unit that acquires operation information of the information processing apparatus to be monitored from the information processing apparatus to be monitored and performs an operation check to determine whether the acquired operation information satisfies a predetermined condition; ,
In response to determining that the operation information does not satisfy a predetermined condition, the operation check unit responds to the operation information based on the operation information and the error information stored in the storage unit. A recovery unit that identifies a recovery procedure from the recovery procedure stored in the storage unit, and recovers a failure that has occurred in the information processing apparatus to be monitored according to the specified recovery procedure;
An information processing apparatus comprising:
前記動作チェック部は、前記稼動情報が所定の条件を満たさないと判定した場合に、前記監視対象となる情報処理装置に障害が生じた旨をあらかじめ定められた管理者に知らせ、
前記リカバリ部は、前記動作チェック部が、前記監視対象となる情報処理装置に障害が生じた旨をあらかじめ定められた管理者に知らせたことを受けて、前記監視対象となる情報処理装置に生じた障害を復旧させる、
ことを特徴とする請求項1に記載の情報処理装置。
When the operation check unit determines that the operation information does not satisfy a predetermined condition, the operation check unit notifies a predetermined administrator that a failure has occurred in the information processing apparatus to be monitored,
The recovery unit is generated in the information processing device to be monitored in response to the operation check unit informing a predetermined administrator that a failure has occurred in the information processing device to be monitored. To recover from a failure
The information processing apparatus according to claim 1.
前記動作チェック部は、前記稼動情報が所定のしきい値の範囲内にあるか否か、または前記稼動情報が所定のキーワードを含むか否かを判定することによって、前記稼動情報が所定の条件を満たすか否かを判定する、
ことを特徴とする請求項1または2に記載の情報処理装置。
The operation check unit determines whether the operation information is within a predetermined condition by determining whether the operation information is within a predetermined threshold range or whether the operation information includes a predetermined keyword. To determine whether or not
The information processing apparatus according to claim 1, wherein the information processing apparatus is an information processing apparatus.
前記情報処理装置は、複数の前記監視対象となる情報処理装置の稼働状況を監視し、
前記記憶部は、前記監視対象となる情報処理装置を識別するための装置識別情報と前記エラー情報と前記復旧手順とを対応付けて履歴で記憶し、
前記動作チェック部は、複数の前記監視対象となる情報処理装置から稼働情報および前記装置識別情報を取得し、取得した前記稼動情報が所定の条件を満たすか否かを判定し、
前記リカバリ部は、前記動作チェック部が、前記稼動情報が所定の条件を満たさないと判定したことを受けて、前記装置識別情報をキーとして、前記稼動情報と、前記記憶部に記憶された前記エラー情報とに基づいて、前記装置識別情報と同じ装置識別情報に対応する前記復旧手順にしたがって前記監視対象となる情報処理装置に生じた障害を復旧させる、
ことを特徴とする請求項1〜3のいずれか1項に記載の情報処理装置。
The information processing apparatus monitors the operating status of a plurality of information processing apparatuses to be monitored,
The storage unit associates and stores device identification information for identifying the information processing device to be monitored, the error information, and the recovery procedure in a history,
The operation check unit acquires operation information and the device identification information from a plurality of information processing devices to be monitored, determines whether the acquired operation information satisfies a predetermined condition,
The recovery unit, when the operation check unit determines that the operation information does not satisfy a predetermined condition, with the device identification information as a key, the operation information and the storage unit stored in the storage unit Based on the error information, recovering a failure that occurred in the information processing apparatus to be monitored according to the recovery procedure corresponding to the same apparatus identification information as the apparatus identification information,
The information processing apparatus according to any one of claims 1 to 3.
前記リカバリ部は、前記装置識別情報と同じ装置識別情報に対応する前記復旧手順が存在しない場合、他の前記装置識別情報に対応する前記復旧手順にしたがって、前記監視対象となる情報処理装置に生じた障害を復旧させる、
ことを特徴とする請求項4に記載の情報処理装置。
When the recovery procedure corresponding to the same device identification information as the device identification information does not exist, the recovery unit occurs in the information processing apparatus to be monitored according to the recovery procedure corresponding to the other device identification information. To recover from a failure
The information processing apparatus according to claim 4.
前記動作チェック部は、前記リカバリ部が前記監視対象となる情報処理装置に生じた障害を復旧させた状態で、前記監視対象となる情報処理装置から稼働情報を取得し、取得した前記稼動情報が所定の条件を満たすか否かを判定し、
前記リカバリ部は、前記障害を復旧させた状態で、前記動作チェック部が、前記稼動情報が所定の条件を満たすと判定した場合、前記復旧手順の優先順位を上げる、
ことを特徴とする請求項1〜5のいずれか1項に記載の情報処理装置。
The operation check unit acquires operation information from the information processing device to be monitored in a state where the recovery unit has recovered a failure that has occurred in the information processing device to be monitored, and the acquired operation information Determine whether a given condition is met,
The recovery unit raises the priority of the recovery procedure when the operation check unit determines that the operation information satisfies a predetermined condition in a state where the failure is recovered,
The information processing apparatus according to claim 1, wherein the information processing apparatus is an information processing apparatus.
前記動作チェック部は、前記稼動情報が所定の条件を満たすと判定した場合において、前記稼動情報が所定の条件を満たさない状態に近いほど、前記動作チェックを短い間隔で行う、
ことを特徴とする請求項1〜6のいずれか1項に記載の情報処理装置。
When the operation check unit determines that the operation information satisfies a predetermined condition, the operation check unit performs the operation check at a shorter interval as the operation information approaches a state that does not satisfy the predetermined condition.
The information processing apparatus according to any one of claims 1 to 6.
前記監視対象となる情報処理装置の稼働状況を所定の間隔で監視し、前記稼働情報が所定の条件を満たすか否かを判定するパフォーマンス部をさらに備え、
前記動作チェック部は、前記パフォーマンス部が、前記稼働情報が所定の条件を満たさないと判定した場合に、前記監視対象となる情報処理装置に障害が生じた旨をあらかじめ定められた管理者に知らせ、
前記リカバリ部は、前記動作チェック部が、前記監視対象となる情報処理装置に障害が生じた旨をあらかじめ定められた管理者に知らせたことを受けて、前記監視対象となる情報処理装置に生じた障害を復旧させる、
ことを特徴とする請求項1〜7のいずれか1項に記載の情報処理装置。
Further comprising a performance unit that monitors an operation status of the information processing apparatus to be monitored at predetermined intervals and determines whether the operation information satisfies a predetermined condition;
When the performance unit determines that the operation information does not satisfy a predetermined condition, the operation check unit notifies a predetermined administrator that a failure has occurred in the information processing apparatus to be monitored. ,
The recovery unit is generated in the information processing device to be monitored in response to the operation check unit informing a predetermined administrator that a failure has occurred in the information processing device to be monitored. To recover from a failure
The information processing apparatus according to any one of claims 1 to 7.
監視対象となる情報処理装置に生じた障害を復旧させる情報処理装置で行われる障害モニタリング・自動復旧方法であって、
前記監視対象となる情報処理装置から、前記監視対象となる情報処理装置の稼働情報を取得し、取得した前記稼動情報が所定の条件を満たすか否かを判定する動作チェックを行う動作チェックステップと、
前記動作チェックステップにおいて、前記稼動情報が所定の条件を満たさないと判定したことを受けて、前記稼動情報と、記憶部に前記障害に対する復旧手順に対応付けて履歴で記憶された前記監視対象となる情報処理装置に生じた過去の障害を示すエラー情報とに基づいて、前記稼動情報に応じた復旧手順を前記記憶部に記憶された前記復旧手順の中から特定し、特定した前記復旧手順にしたがって前記監視対象となる情報処理装置に生じた障害を復旧させるリカバリステップと、
を含むことを特徴とする障害復旧方法。
A fault monitoring / automatic recovery method performed by an information processing apparatus that recovers a fault that occurred in an information processing apparatus to be monitored,
An operation check step of obtaining operation information of the information processing apparatus to be monitored from the information processing apparatus to be monitored and performing an operation check for determining whether or not the acquired operation information satisfies a predetermined condition; ,
In the operation check step, in response to determining that the operation information does not satisfy a predetermined condition, the operation information and the monitoring target stored in the history in association with the recovery procedure for the failure in the storage unit A recovery procedure corresponding to the operation information is identified from the recovery procedures stored in the storage unit based on error information indicating a past failure that has occurred in the information processing apparatus, and the identified recovery procedure Therefore, a recovery step for recovering a failure that has occurred in the information processing apparatus to be monitored;
A failure recovery method comprising:
JP2010225653A 2010-10-05 2010-10-05 Information processing apparatus and failure recovery method Expired - Fee Related JP5588295B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010225653A JP5588295B2 (en) 2010-10-05 2010-10-05 Information processing apparatus and failure recovery method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010225653A JP5588295B2 (en) 2010-10-05 2010-10-05 Information processing apparatus and failure recovery method

Publications (2)

Publication Number Publication Date
JP2012079212A true JP2012079212A (en) 2012-04-19
JP5588295B2 JP5588295B2 (en) 2014-09-10

Family

ID=46239345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010225653A Expired - Fee Related JP5588295B2 (en) 2010-10-05 2010-10-05 Information processing apparatus and failure recovery method

Country Status (1)

Country Link
JP (1) JP5588295B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5506906B1 (en) * 2012-12-28 2014-05-28 株式会社日立システムズ Event response support apparatus, event response support method, and program
JP2014203294A (en) * 2013-04-05 2014-10-27 株式会社日立製作所 Failure handling system and failure handling method
JP2016218844A (en) * 2015-05-22 2016-12-22 日本電気株式会社 Monitoring device
JP2020160817A (en) * 2019-03-27 2020-10-01 みずほ情報総研株式会社 Recovery support system, recovery support method and recovery support program
JP2021043592A (en) * 2019-09-09 2021-03-18 富士ゼロックス株式会社 Information processing system
CN114896102A (en) * 2022-05-23 2022-08-12 北京智博万维科技有限公司 Data protection time point recovery method and system
WO2024084776A1 (en) * 2022-10-21 2024-04-25 株式会社日立産機システム Monitoring device, management device, communication system, and recovery method

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091475A (en) * 1996-09-17 1998-04-10 Nec Corp Fault restoration device, fault restoration method and program medium for fault restoration
JP2003256367A (en) * 2002-03-06 2003-09-12 Seiko Epson Corp Information providing system concerning electronic equipment error and server for managing past error results of electric equipment
JP2004178296A (en) * 2002-11-27 2004-06-24 Nec Corp Knowledge based operation management system, method and program
JP2005004336A (en) * 2003-06-10 2005-01-06 Hitachi Ltd Resource monitoring method and device, and resource monitoring program
JP2005038223A (en) * 2003-07-16 2005-02-10 Nec Corp Failure restoration device, failure restoration method, and program
JP2005158617A (en) * 2003-11-27 2005-06-16 Toshiba Matsushita Display Technology Co Ltd Display device
JP2005202446A (en) * 2004-01-13 2005-07-28 Hitachi Ltd Failure monitor/restoration supporting device
JP2007072851A (en) * 2005-09-08 2007-03-22 Nec Fielding Ltd System and method for supporting failure recovery of computer device
JP2009259161A (en) * 2008-04-21 2009-11-05 Nec Corp Knowledge-based failure recovery support system, user terminal, relay server and knowledge supply server, and data relay method
JP2009289151A (en) * 2008-05-30 2009-12-10 Fujitsu Ltd New obstacle coping procedure knowledge creation program, new obstacle coping procedure knowledge creation device and new obstacle coping procedure knowledge creation method
JP2010176365A (en) * 2009-01-29 2010-08-12 Canon Inc Failure solution support system

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091475A (en) * 1996-09-17 1998-04-10 Nec Corp Fault restoration device, fault restoration method and program medium for fault restoration
JP2003256367A (en) * 2002-03-06 2003-09-12 Seiko Epson Corp Information providing system concerning electronic equipment error and server for managing past error results of electric equipment
JP2004178296A (en) * 2002-11-27 2004-06-24 Nec Corp Knowledge based operation management system, method and program
JP2005004336A (en) * 2003-06-10 2005-01-06 Hitachi Ltd Resource monitoring method and device, and resource monitoring program
JP2005038223A (en) * 2003-07-16 2005-02-10 Nec Corp Failure restoration device, failure restoration method, and program
JP2005158617A (en) * 2003-11-27 2005-06-16 Toshiba Matsushita Display Technology Co Ltd Display device
JP2005202446A (en) * 2004-01-13 2005-07-28 Hitachi Ltd Failure monitor/restoration supporting device
JP2007072851A (en) * 2005-09-08 2007-03-22 Nec Fielding Ltd System and method for supporting failure recovery of computer device
JP2009259161A (en) * 2008-04-21 2009-11-05 Nec Corp Knowledge-based failure recovery support system, user terminal, relay server and knowledge supply server, and data relay method
JP2009289151A (en) * 2008-05-30 2009-12-10 Fujitsu Ltd New obstacle coping procedure knowledge creation program, new obstacle coping procedure knowledge creation device and new obstacle coping procedure knowledge creation method
JP2010176365A (en) * 2009-01-29 2010-08-12 Canon Inc Failure solution support system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5506906B1 (en) * 2012-12-28 2014-05-28 株式会社日立システムズ Event response support apparatus, event response support method, and program
JP2014203294A (en) * 2013-04-05 2014-10-27 株式会社日立製作所 Failure handling system and failure handling method
JP2016218844A (en) * 2015-05-22 2016-12-22 日本電気株式会社 Monitoring device
JP2020160817A (en) * 2019-03-27 2020-10-01 みずほ情報総研株式会社 Recovery support system, recovery support method and recovery support program
JP2021043592A (en) * 2019-09-09 2021-03-18 富士ゼロックス株式会社 Information processing system
JP7423942B2 (en) 2019-09-09 2024-01-30 富士フイルムビジネスイノベーション株式会社 information processing system
CN114896102A (en) * 2022-05-23 2022-08-12 北京智博万维科技有限公司 Data protection time point recovery method and system
WO2024084776A1 (en) * 2022-10-21 2024-04-25 株式会社日立産機システム Monitoring device, management device, communication system, and recovery method

Also Published As

Publication number Publication date
JP5588295B2 (en) 2014-09-10

Similar Documents

Publication Publication Date Title
JP5588295B2 (en) Information processing apparatus and failure recovery method
WO2020029407A1 (en) Alarm data management method and apparatus, and computer device and storage medium
US8601319B2 (en) Method and apparatus for cause analysis involving configuration changes
US20190332453A1 (en) Fault processing method, related apparatus, and computer
US9674031B2 (en) Automated management of a distributed computing system
JP4506520B2 (en) Management server, message extraction method, and program
WO2015009405A1 (en) Systems and methods for filtering low utility value messages from system logs
CN111796959B (en) Self-healing method, device and system for host container
TWI518680B (en) Method for maintaining file system of computer system
JP5417264B2 (en) Method of providing analysis information
JP6317074B2 (en) Failure notification device, failure notification program, and failure notification method
WO2011051999A1 (en) Information processing device and method for controlling information processing device
JP6269199B2 (en) Management server, failure recovery method, and computer program
JP2010244137A (en) Failure information collection device
CN115102838B (en) Emergency processing method and device for server downtime risk and electronic equipment
JP6216621B2 (en) Plant monitoring and control system
JP5435225B2 (en) Operation management apparatus, operation management method, and program
KR101783201B1 (en) System and method for managing servers totally
CN114356699A (en) Embedded equipment alarm method, device, equipment and storage medium
US11734086B2 (en) Operation-based event suppression
JP2011028490A (en) System monitoring device, system monitoring method, and program
JP2018142092A (en) Operation checking device, operation checking program, operation checking method, and operation checking system
CN111181759B (en) Method, device, equipment and storage medium for identifying abnormality of network equipment
JP2003186702A (en) Terminal operation monitoring system and terminal operation monitoring method
JP2011159234A (en) Fault handling system and fault handling method

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20120117

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130701

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131003

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140623

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140715

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140725

R150 Certificate of patent or registration of utility model

Ref document number: 5588295

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees