JP2006190153A - Method and program for failure restoration - Google Patents
Method and program for failure restoration Download PDFInfo
- Publication number
- JP2006190153A JP2006190153A JP2005002442A JP2005002442A JP2006190153A JP 2006190153 A JP2006190153 A JP 2006190153A JP 2005002442 A JP2005002442 A JP 2005002442A JP 2005002442 A JP2005002442 A JP 2005002442A JP 2006190153 A JP2006190153 A JP 2006190153A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- recovery
- computer
- extracted
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Retry When Errors Occur (AREA)
Abstract
Description
本発明は、障害回復方法及び障害回復プログラムに関し、更に詳しくは、コンピュータの障害状況に応じて障害個所の復旧を行うことが可能な障害回復方法及び障害回復プログラムに関する。 The present invention relates to a failure recovery method and a failure recovery program, and more particularly, to a failure recovery method and a failure recovery program capable of recovering a failure location according to a failure state of a computer.
従来より、コンピュータシステムによるアプリケーションソフトの障害に対して自動で復旧することが行われている。例えば、監視ソフトウエアを使用して、動作中のアプリケーションソフトの状態を監視し、異常が生じた場合はアプリケーションソフトを再起動させたり、所定回数再起動させても復旧しない場合はOSの再起動やコンピュータのリブートを実行したりすることでシステム全体を復旧させることが行われていた(特許文献1等参照)。 Conventionally, automatic recovery from a failure of application software by a computer system has been performed. For example, using the monitoring software, monitor the status of the running application software. If an error occurs, restart the application software, or restart the OS if it does not recover after a predetermined number of restarts. In other words, the entire system is recovered by executing a reboot of the computer (see Patent Document 1).
しかしながら、上記のような先行技術の構成では、コンピュータの障害復旧に対して、より迅速で、且つ、確実な障害の復旧を行うためには未だ改善すべき点がある。 However, in the above prior art configuration, there is still a point to be improved in order to perform quicker and more reliable failure recovery with respect to computer failure recovery.
つまり、コンピュータに障害が発生した場合には、アプリケーションの再起動、OS再起動やハードウェアリセットだけでは解決できずに、バックアップデータによるリストアが必要な場合があるため、バックアップデータからリストア処理を障害個所に適用させることが望ましい。 In other words, if a failure occurs in the computer, it cannot be solved by restarting the application, restarting the OS, or resetting the hardware. Restoration using backup data may be necessary. It is desirable to apply to the place.
又、障害により処理が遅延してしまうことがあるため、正常なコンピュータへの処理経路変更による障害復旧を図る必要が生じることがある。 In addition, since processing may be delayed due to a failure, it may be necessary to recover the failure by changing the processing path to a normal computer.
更に、「障害個所へのデータ復旧」と「処理経路の変更による復旧」には、それぞれの正常処理になるまでの復旧時間を勘案する必要があるが、これに関してはコンピュータの管理者が状況に応じて復旧の方法を適宜選択しているのが実情であった。 Furthermore, it is necessary to consider the recovery time until normal processing is performed for “data recovery to the fault location” and “recovery by changing the processing path”. The actual situation was that the recovery method was selected accordingly.
従って、障害の復旧は管理者の経験に依存されることがあり、確実且つ短時間に障害が解決されるとは限らないという問題があった。 Therefore, there is a problem that the recovery of the failure may depend on the experience of the administrator, and the failure is not always solved in a short time.
本発明は、上記したような課題に鑑みてなされたものであって、コンピュータの障害復旧に対して、より迅速で確実な障害の復旧を行うことを目的とする。 The present invention has been made in view of the above-described problems, and an object of the present invention is to perform quicker and more reliable recovery from a failure in a computer.
又、本発明は、常にコンピュータを稼動監視することによって、コンピュータの障害状況に基づいた最適な障害復旧方法を抽出できることを目的とする。 It is another object of the present invention to extract an optimal failure recovery method based on the failure status of a computer by constantly monitoring the operation of the computer.
又、抽出された方法ごとに該障害を解消するために必要な時間を比較して時間の短い復旧方法を抽出することも目的とする。 Another object of the present invention is to extract a recovery method with a short time by comparing the time required for eliminating the failure for each extracted method.
更に、本発明の障害復旧方法は、コンピュータに障害が発生して、アプリケーションの再起動、OS再起動やハードウェアリセットに加えて、それでも解決できない場合に、バックアップデータによるリストア処理を障害個所に適用させることを目的とする。 Furthermore, the failure recovery method of the present invention applies backup processing to a failure location when a failure occurs in the computer and in addition to restarting the application, restarting the OS, or resetting the hardware, but still cannot be resolved. The purpose is to let you.
又、障害により処理が遅延してしまう場合には、正常なコンピュータへの処理経路変更による障害復旧を図ることを可能にすることも目的とする。 Another object of the present invention is to enable recovery from a failure by changing a processing route to a normal computer when processing is delayed due to a failure.
上記課題を解決する本発明の障害復旧方法は、障害発生時に障害状況を確認すること、確認された該障害状況に基づいて該障害を解消するための障害解消方法を抽出すること、該抽出された障害解消方法ごとに該障害を解消するために必要な処理時間を抽出すること、該抽出された処理時間を比較して該障害解消方法を決定することを有することを特徴とする。 The failure recovery method of the present invention that solves the above problems is to check a failure status when a failure occurs, extract a failure elimination method for solving the failure based on the confirmed failure status, Extracting a processing time necessary for solving the failure for each failure solving method, and determining the failure solving method by comparing the extracted processing times.
尚、本発明の障害復旧方法は、障害解消方法の決定を、抽出された方法ごとに該抽出された処理時間の短いものが選択されるようにするようにして良く、障害解消方法は、コンピュータ内のアプリケーションの再起動、コンピュータのリブート、バックアップデータによるコンピュータ内データの修復及び処理経路変更から成る群から選択される少なくとも1つを含むようにして良い。 In the failure recovery method of the present invention, the failure resolution method may be determined so that the extracted processing time with a short processing time is selected for each extracted method. It is possible to include at least one selected from the group consisting of restarting an application in the computer, rebooting the computer, restoring data in the computer with backup data, and changing a processing path.
又、上記課題を解決する本発明の障害復旧プログラムは、コンピュータに、障害発生時に障害状況を確認する機能と、該障害状況に基づいて該障害を解消するための障害解消方法を抽出する機能と、該抽出された方法ごとに該障害を解消するために必要な処理時間を抽出する機能と、該抽出された処理時間を比較して該障害解消方法を決定する機能とを実現させるプログラムである。 In addition, the failure recovery program of the present invention that solves the above-mentioned problems is a function for checking a failure status in a computer when a failure occurs, and a function for extracting a failure resolution method for solving the failure based on the failure status. And a program that realizes a function of extracting a processing time necessary for solving the failure for each extracted method and a function of determining the failure solving method by comparing the extracted processing times. .
尚、本プログラムにおいて、障害解消方法の決定が、該抽出された処理時間の短いものが選択されるように設定可能とされ、障害解消方法は、コンピュータ内のアプリケーションの再起動、コンピュータのリブート、バックアップデータによるコンピュータ内データの修復及び処理経路変更から成る群から選択可能とされているようにして良い。 In this program, the determination of the failure solving method can be set so that the extracted processing time with a short time is selected, and the failure solving method includes restarting the application in the computer, rebooting the computer, It may be possible to select from the group consisting of restoration of in-computer data by backup data and change of processing path.
本発明によれば、以下の効果を奏することができる。 According to the present invention, the following effects can be obtained.
コンピュータの障害に対して、より迅速で、且つ、確実な障害の復旧が可能となる。 It is possible to recover from a failure of the computer more quickly and reliably.
コンピュータに障害が発生した場合には、アプリケーションの再起動、OS再起動やハードウェアリセットの他に、バックアップデータからリストア処理を障害個所に適用させることが可能となる。 When a failure occurs in the computer, in addition to restarting the application, restarting the OS, and resetting the hardware, it is possible to apply the restore processing from the backup data to the failure location.
又、障害により処理が遅延してしまうことがあるため、正常なコンピュータへの処理経路変更による障害復旧を図ることで、より確実な復旧が可能となる。 In addition, since the processing may be delayed due to a failure, a more reliable recovery is possible by attempting to recover the failure by changing the processing path to a normal computer.
更に、「障害個所へのデータ復旧」と「処理経路の変更による復旧」について、それぞれの正常処理になるまでの復旧時間が短い復旧方法を適宜選択するため、より迅速な復旧をスムーズに適用することができる。 In addition, for “data recovery to the fault location” and “recovery by changing the processing path”, a recovery method with a short recovery time until normal processing is appropriately selected, so that quicker recovery is applied smoothly. be able to.
以下に本発明の実施の形態を添付図面に基づいて詳述する。尚、本発明は以下に説明する実施形態に限定されるものではなく、本発明の主旨の範囲において適宜変形、組み合わせを可能とする。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. The present invention is not limited to the embodiments described below, and can be appropriately modified and combined within the scope of the gist of the present invention.
図1は本発明の障害回復方法及び障害回復プログラムを適用した場合のコンピュータシステムの公的な一例を説明するための概略的構成図である。 FIG. 1 is a schematic configuration diagram for explaining a public example of a computer system when a failure recovery method and a failure recovery program of the present invention are applied.
図1において、1は稼動監視機能を備えたバックアップシステム、5は仮想監視プログラム、6はバックアッププログラム、7は障害復旧プラン作成プログラム、8は情報管理デーブル、9はバックアップデータ、30はインターネットやイントラネット等のネットワーク、52はコンピュータ、60は業務システム、61はアプリケーション、62はデータである。 In FIG. 1, 1 is a backup system having an operation monitoring function, 5 is a virtual monitoring program, 6 is a backup program, 7 is a failure recovery plan creation program, 8 is an information management table, 9 is backup data, 30 is the Internet or an intranet. , 52 is a computer, 60 is a business system, 61 is an application, and 62 is data.
業務システム60は図示されるように、通常、複数のコンピュータ52で構成され、稼動監視機能を備えたバックアップシステム1は、仮想監視プログラム5、バックアッププログラム6、障害復旧プラン作成プログラム7、PC管理情報、処理管理情報、バックアップ情報、障害情報、影響範囲情報等を必要に応じて含む情報管理テーブル8及びバックアップデータ9とを有する。
As shown in the figure, the
稼動監視プログラム5は、情報通信回線としてのインターネットやイントラネットを含むネットワーク30を通じて接続されているコンピュータ52の稼動状態と、アプリケーション61の稼動状態及び業務システム60の稼動状態を監視する。本実施の形態では、稼動監視プログラム5は監視情報を情報管理テーブル8の障害情報と比較する機能を備える。
The
バックアッププログラム6は、前記コンピュータ52とアプリケーション61とデータ62のバックアップデータを定期的に取得し、バックアップデータ9として格納し、バックアップ情報を情報管理テーブル8に格納してリストア機能を有する。稼動監視の結果とバックアップ結果は、同じ情報管理テーブルを利用することで、それぞれ重複する管理の手間を省くことができる。又、稼動監視の結果で異常が検知された場合に、バックアップデータをリストアして復旧することで、障害復旧に必要な人手を省くことができる。
The
図2は情報管理テーブルに格納されているテーブルの好適な一例が示してある。 FIG. 2 shows a preferred example of a table stored in the information management table.
処理管理マスターテーブル150は、業務処理内容に必要なアプリケーションの名称との関連を明確にするために使用される。例えば、処理No.S−001はAAA−APP1、BBB−APP1、処理No.S−002はAAA−APP1 、AAA−APP2のように格納されている。尚、図示されるように、各処理の項目に記載されたアプリケーション名の最初にコンピュータ名を付与しておくことで、どのコンピュータのどのアプリケーションがどの業務処理に必要かが対応付けられるため、障害時のみならず日々の管理においても都合が良い。 The process management master table 150 is used to clarify the relationship with the name of the application necessary for the business process contents. For example, Process No. S-001 is AAA-APP1, BBB-APP1, Process No. S-002 is stored as AAA-APP1 and AAA-APP2. As shown in the figure, by assigning the computer name to the beginning of the application name described in each processing item, it is possible to associate which application of which computer is required for which business processing. Convenient not only in time but also in daily management.
バックアップ管理マスターテーブル200には、定期的にバックアップされた前記コンピュータ名称(図ではPCの欄でAAA又はBBBと記載されている)とコンピュータ上のOS(オペレーションシステム)情報(図ではOSの欄でAAA−OS、BBB−OSと記載されている)、アプリケーション情報(図ではアプリケーションの欄でAAA−APP1、APP2、BBB−APP1、APP2と記載されている)、データ情報(図ではデータの欄でAAA−DATA1、BBB−DATA1と記載されている)が格納されている。 In the backup management master table 200, the names of the computers that have been backed up regularly (in the figure, indicated as AAA or BBB in the PC column) and OS (operation system) information on the computer (in the OS column in the figure). AAA-OS, BBB-OS), application information (in the figure, AAA-APP1, APP2, BBB-APP1, APP2 in the application column), data information (in the figure, in the data column) AAA-DATA1 and BBB-DATA1) are stored.
これらのデータは、障害発生時にバックアップデータのリストアとして利用される。 These data are used as restoration of backup data when a failure occurs.
又、バックアップ管理マスターテーブル200はどのデータとどのPC、アプリケーションとが対応しているかを管理するために使用でき、障害発生時はこの情報を基に必要な処理が施される。 The backup management master table 200 can be used to manage which data corresponds to which PC and application. When a failure occurs, necessary processing is performed based on this information.
障害情報テーブル250には、前記コンピュータ上で発生の可能性がある障害内容に対して、障害となったアプリケーションの名称(図ではAAA−APP1 、AAA−APP2と記載されている)とデータの名称270(図ではAAA−DATA1と記載されている)、復旧手順(図ではRD−001又はRD−002と記載されている)と障害復旧時間であるデータリストアによる復旧時間260(図では60分又は5分と記載)が格納されている。 In the failure information table 250, the name of the application (indicated as AAA-APP1 and AAA-APP2 in the figure) and the name of the data with respect to the failure content that may occur on the computer. 270 (denoted as AAA-DATA1 in the figure), recovery procedure (denoted as RD-001 or RD-002 in the figure), and restoration time 260 (60 minutes or 5 minutes) is stored.
稼動監視の結果、障害情報テーブルの「PC」251、又は「障害1」252、又は「障害2」253のそれぞれに記載されている情報に一致した場合は、障害と判定され障害情報が特定される。障害情報テーブル250から、障害が検知されて影響するアプリケーションと復旧方法、復旧時間が特定される。
As a result of the operation monitoring, if the information matches the information described in “PC” 251, “
影響範囲情報テーブル300には、前記障害情報(D−001、D−002)に対して他の正常なコンピュータ処理が停止してしまう影響範囲を示すために設けられる。ここでは、障害情報によって影響される前記処理管理マスターテーブル150の前記処理内容と、復旧手順と処理経路変更による復旧時間310が格納されている。
The influence range information table 300 is provided to indicate an influence range in which other normal computer processing stops for the failure information (D-001, D-002). Here, the processing contents of the processing management master table 150 affected by the failure information, the recovery procedure, and the
つまり、障害情報D−001と判定されると影響範囲は影響範囲E−001であることが分かり、業務処理は処理No.S−001、S−002に影響が及び事が影響範囲情報テーブル300から分かる。又、影響範囲情報テーブル300からは影響される業務処理を処理経路変更により復旧させるための手順が復旧手順RD−001であり、その場合の復旧時間時間が5分であることが分かる。 In other words, if the failure information D-001 is determined, the influence range is found to be the influence range E-001. It can be seen from the influence range information table 300 that S-001 and S-002 are affected. Further, it can be seen from the influence range information table 300 that the procedure for recovering the affected business process by changing the processing path is the recovery procedure RD-001, and the recovery time in that case is 5 minutes.
このように、稼動監視の結果から障害情報が特定されることで、影響範囲テーブルの影響範囲が特定されて、障害個所により停止してしまう処理が特定される。 As described above, the failure information is specified from the result of the operation monitoring, whereby the influence range of the influence range table is specified, and the process that stops at the failure point is specified.
復旧プランテーブル400には、復旧プラン(Y−001、Y−002)に対応して、障害情報(D−001、D−002)と影響範囲(E−001、E−002)が対応づけられて格納されている。 In the recovery plan table 400, the failure information (D-001, D-002) and the affected range (E-001, E-002) are associated with the recovery plan (Y-001, Y-002). Stored.
これによって、障害情報デーブル250に格納されている障害個所へのデータリストアによる復旧時間と影響範囲情報テーブルに格納されている処理経路変更による復旧時間とを障害情報をトリガーとして比較することを可能にしている。 This makes it possible to compare the recovery time by data restoration to the fault location stored in the fault information table 250 and the recovery time by change of the processing path stored in the affected range information table using the fault information as a trigger. ing.
図3は稼動監視機能を備えたバックアップシステム1から業務システム60のコンピュータ52、前記コンピュータ上で稼動するアプリケーション61の稼動監視が行われてから異常を検知して、障害個所と影響範囲の特定と障害復旧までのおおまかな処理のフローチャートを示している。図3のフローチャートについて次に説明する。
FIG. 3 shows an abnormality detected after the operation monitoring of the
複数のコンピュータで構成される業務システムに対して、稼動監視プログラムによる稼動監視を行い、障害情報テーブルから障害情報を検索する(ステップ500)。ここで稼動情報が障害情報テーブルにある「PC」や「障害1」又は「障害2」と一致しなければ正常稼動と見なし、異常なしと判定する。又、障害情報が一致した場合は異常検知とする。「障害1」や「障害2」は、PCに起因する障害の種類を記載しており、どちらか一方であっても障害情報が一致した場合は、異常検知とする。
Operation monitoring by an operation monitoring program is performed on a business system composed of a plurality of computers, and failure information is searched from the failure information table (step 500). Here, if the operation information does not match “PC”, “
稼動監視プログラムが、障害情報テーブル内を検索して、稼動監視結果が「PC」や「障害1」又は「障害2」と一致した場合は、障害情報テーブルから障害対象のアプリケーションと復旧データの検索をして障害情報と復旧手順を特定する(ステップ510)。
When the operation monitoring program searches the failure information table and the operation monitoring result matches “PC”, “
次に、影響範囲情報テーブルから影響範囲を検索して、障害情報を元に影響範囲情報テーブルから影響範囲と特定する(ステップ520) 。 Next, the influence range is searched from the influence range information table, and the influence range is specified from the influence range information table based on the failure information (step 520).
次に、障害情報テーブルから得られたリストアによる復旧時間と影響範囲テーブルから得られた処理経路変更による復旧時間を比較して、「リストアによる復旧時間」が「処理経路変更による復旧時間」と比べて短い場合はYesに、長い場合はNoと判断する。つまり、ここでは、復旧時間が短い復旧方法として、「障害個所へバックアップデータのリストア処理」、又は「障害個所以外への処理経路変更」を適用するかを特定する(ステップ520)。従って、大小の比較は逆としても良く、その場合はYes、Noが入れ替わる。 Next, compare the recovery time from the restoration obtained from the failure information table with the recovery time from the processing range change obtained from the affected range table, and compare the "recovery time by restoration" with the "recovery time by change of the processing route". If it is short, the answer is Yes. That is, here, it is specified whether “restoring the backup data to the failure location” or “changing the processing path to a location other than the failure location” is applied as the recovery method with a short recovery time (step 520). Therefore, the comparison between large and small may be reversed, in which case Yes and No are interchanged.
つまり、この工程では何れか処理時間の短いものが選択、判断されれば良い。尚、処理時間が等しいときは、関連する業務処理の求める性格や状況によって決定されれば良い。例えば、データ整合性を優先する処理の障害については、バックアップデータのリストア処理による復旧。次の処理への連携速度を優先する処理の障害については、障害個所以外への処理経路変更による復旧といった判断の仕方が考えられる。 That is, in this process, it is only necessary to select and determine one with a short processing time. When the processing time is the same, it may be determined according to the character and situation required for the related business process. For example, for failures in processing that prioritize data consistency, recovery is performed by restoring backup data. As for the failure of the processing giving priority to the linkage speed to the next processing, a method of determination such as recovery by changing the processing path to a location other than the failure location can be considered.
復旧時間の比較により処理方法が決まれば、障害個所へバックアップデータのリストア処理を行う(ステップ540)か障害個所以外への処理経路変更処理(ステップ550)が行われる。 If the processing method is determined by comparing the recovery times, the backup data is restored to the failed location (step 540) or the processing path change processing to a location other than the failed location (step 550) is performed.
図4は稼動監視プログラムがコンピュータの稼動結果をログ(LOG)情報として生成し、障害情報内から検索するまでのおおまかな処理のフローチャートを示している。 FIG. 4 shows a flowchart of a rough process until the operation monitoring program generates a computer operation result as log (LOG) information and searches from the failure information.
図4のフローチャートについて次に説明する。 Next, the flowchart of FIG. 4 will be described.
監視プログラムに監視対象コンピュータを登録する(ステップ600)と、監視対象コンピュータにポーリングを実施し(ステップ610)、その監視結果としてLOG情報となるテキストデータを生成する(ステップ620)。 When the monitoring target computer is registered in the monitoring program (step 600), the monitoring target computer is polled (step 610), and text data to be LOG information is generated as the monitoring result (step 620).
ポーリングした結果返答がない場合はこの時点で異常と判断する。 If there is no response as a result of polling, it is determined that there is an abnormality at this point.
次に、コンピュータの監視結果である生成されたテキストデータで障害情報テーブルの障害情報内を検索し、「PC」や「障害1」又は「障害2」を対照して(ステップ630)、一致した場合に障害の検知とする。異常と検知された場合は復旧処置に移行する。
Next, the failure information in the failure information table is searched with the generated text data that is the monitoring result of the computer, and “PC”, “
従って、障害情報内の項目と一致しなければ以上なしと判断してステップ610に戻る。 Therefore, if it does not match the item in the failure information, it is determined that there is no more and the process returns to step 610.
図5は障害検知からバックアップデータのリストアによる復旧までのおおまかな手順を示している。図5のフローチャートについて次に説明する。 FIG. 5 shows a rough procedure from failure detection to restoration by restoration of backup data. Next, the flowchart of FIG. 5 will be described.
図4のフローチャートにおいて説明されたように、障害回復プログラムにより、監視結果であるテキストデータで障害情報テーブルの障害情報を検索し、障害が検知されると(図4の*1と図5の*1が対応)、検索結果からバックアップデータの指定を行うために、障害情報テーブル内の復旧手順に従い、バックアップ管理マスターテーブルのバックアップデータを特定する(ステップ710)。 As described in the flowchart of FIG. 4, the failure recovery program searches for failure information in the failure information table using text data as a monitoring result and detects a failure (* 1 in FIG. 4 and * in FIG. 5). 1), in order to specify the backup data from the search result, the backup data of the backup management master table is specified in accordance with the recovery procedure in the failure information table (step 710).
次に、検索結果から障害対象の指定を行うために、障害情報テーブルより、障害対象が特定される(ステップ720)。 Next, in order to designate the failure target from the search result, the failure target is specified from the failure information table (step 720).
このフローチャートでは障害回復プログラムに復旧手順からリストアの指示を行うため、障害情報テーブルの復旧手順のリストアを指示する(ステップ730)。 In this flowchart, in order to instruct the failure recovery program to restore from the restoration procedure, the restoration procedure of the failure information table is instructed to be restored (step 730).
障害回復プログラムは、バックアップデータを障害対象にリストア処理する(ステップ740)。 The failure recovery program restores the backup data to the failure target (step 740).
又、「障害個所以外への処理経路変更」が選択された場合には、影響範囲情報テーブル300にある復旧手順に従い、障害個所以外への処理経路変更により、障害個所に影響されること無く処理が流れる。 In addition, when “change processing route to other than faulty location” is selected, processing without affecting the faulty location is performed by changing the processing route to other than the faulty location according to the recovery procedure in the influence range information table 300. Flows.
これの場合のフローチャートを図6に示す。ここで、図5と同じステップ番号のものは図5で説明したものと同じ公邸内用なので詳細は説明しない。処理経路変更の手順部分のみ説明する。図6は障害検知から処理の経路変更による復旧までのおおまかな手順を示している。図6のフローチャートについて次に説明する。 A flowchart in this case is shown in FIG. Here, the same step number as in FIG. 5 is for the same residence as that described in FIG. Only the procedure part for changing the processing path will be described. FIG. 6 shows a rough procedure from failure detection to recovery by changing the processing path. Next, the flowchart of FIG. 6 will be described.
図4のフローチャートにおいて説明されたように、障害回復プログラムにより、ポーリング監視結果であるテキストデータで障害情報テーブルの障害情報を検索し、障害が検知される(図4の*2と図6の*2が対応)。次に、検索結果から障害対象サーバの指定を行うために、障害情報テーブルより、障害対象サーバが特定される(ステップ820)。このフローチャートでは障害回復プログラムにより、障害対象サーバへの停止と復旧手順から処理経路変を指示する(ステップ830)。 As described in the flowchart of FIG. 4, the failure recovery program searches for failure information in the failure information table using text data that is a polling monitoring result, and a failure is detected (* 2 in FIG. 4 and * in FIG. 6). 2 corresponds). Next, in order to specify the failure target server from the search result, the failure target server is identified from the failure information table (step 820). In this flowchart, the failure recovery program instructs the processing path change from the stop and recovery procedure to the failure target server (step 830).
障害回復プログラムは、処理を障害個所以外への経路変更する(ステップ840)。 The failure recovery program changes the route to other than the failure location (step 840).
本発明の処理経路変更とリストアによる障害復旧は、図4の監視対象コンピュータへのポーリングや監視結果LOGといったコンピュータへの監視結果から、障害情報や影響範囲を特定して、最適な復旧手段を抽出している。又、本発明は、処理経路変更とリストアの何れか一方を選択するのではなく、障害情報の設定の仕方によって処理経路変更とリストア処理が組み合わされて障害回復処理が行われても良い。 Fault recovery by processing path change and restoration according to the present invention is performed by specifying fault information and an affected range from computer monitoring results such as polling to the monitoring target computer and monitoring result LOG in FIG. is doing. Further, according to the present invention, the failure recovery processing may be performed by combining the processing route change and the restore processing depending on how the failure information is set, instead of selecting either the processing route change or restoration.
尚、上記実施形態では、障害回復の判定のための復旧時間の比較が1つの障害についてのみ行っているが、複数の障害が発生した場合にはそれら障害の合計値によってどのような障害回復処理をするかを判定するようにして良いのは言うまでもない。 In the above embodiment, the comparison of the recovery time for determining the failure recovery is performed only for one failure. However, when a plurality of failures occur, what kind of failure recovery processing is performed depending on the total value of the failures. It goes without saying that it is possible to determine whether to do.
1 稼動監視機能を備えたバックアップシステム
5 稼動監視プログラム
6 バックアッププログラム
7 障害復旧プラン作成プログラム
8 情報管理テーブル
9 バックアップデータ
30 インターネット/イントラネット
52 監視対象コンピュータ
60 業務システム
61 アプリケーション
62 データ
150 処理管理マスターテーブル
200 バックアップ管理マスターテーブル
250 障害情報テーブル
251 PC
252 障害1
253 障害2
300 影響範囲情報テーブル
500 稼動監視
510 障害情報テーブルから障害対象と復旧データの検索
520 影響範囲情報テーブルから影響範囲の検索
530 復旧時間の比較
540 障害個所へのバックアップデータのリストア
550 障害個所以外への処理経路変更
600 監視プログラムに監視対象コンピュータを登録
610 監視対象コンピュータへポーリングを実施
620 監視結果としてLOG情報となるテキストデータの生成
630 テキストデータによる障害情報の検索
710 バックアップデータの指定
720 障害対象の指定
730 復旧手順からリストアの指示
740 バックアップデータを障害対照へリストア
810 テキストでーたによる障害情報の検索
820 障害対象サーバの指定
830 障害回復プログラムにより処理経路変更処理の指示
840 処理を障害個所以外へ経路変更
DESCRIPTION OF
252
253
300 Influence range information table 500
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005002442A JP2006190153A (en) | 2005-01-07 | 2005-01-07 | Method and program for failure restoration |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005002442A JP2006190153A (en) | 2005-01-07 | 2005-01-07 | Method and program for failure restoration |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006190153A true JP2006190153A (en) | 2006-07-20 |
Family
ID=36797290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005002442A Withdrawn JP2006190153A (en) | 2005-01-07 | 2005-01-07 | Method and program for failure restoration |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006190153A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012208923A (en) * | 2011-03-29 | 2012-10-25 | Denso Corp | Method and system for executing application |
-
2005
- 2005-01-07 JP JP2005002442A patent/JP2006190153A/en not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012208923A (en) * | 2011-03-29 | 2012-10-25 | Denso Corp | Method and system for executing application |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2751551C1 (en) | Method and apparatus for restoring disrupted operating ability of a unit, electronic apparatus and data storage medium | |
US8984330B2 (en) | Fault-tolerant replication architecture | |
US9582373B2 (en) | Methods and systems to hot-swap a virtual machine | |
US8688642B2 (en) | Systems and methods for managing application availability | |
US8407189B2 (en) | Finding and fixing stability problems in personal computer systems | |
US8359493B2 (en) | Mechanism to provide assured recovery for distributed application | |
US8127174B1 (en) | Method and apparatus for performing transparent in-memory checkpointing | |
JP5075736B2 (en) | System failure recovery method and system for virtual server | |
US7624309B2 (en) | Automated client recovery and service ticketing | |
KR20120079847A (en) | Method and system for minimizing loss in a computer application | |
WO2014076838A1 (en) | Virtual machine synchronization system | |
JP6447258B2 (en) | Management program, management method, and management apparatus | |
US7603442B2 (en) | Method and system for maintaining service dependency relationships in a computer system | |
CN112506702A (en) | Data center disaster tolerance method, device, equipment and storage medium | |
CN108737153B (en) | Block chain disaster recovery system, method, server and computer-readable storage medium | |
CN106911508B (en) | DNS configuration recovery method and device | |
JP2006185108A (en) | Management computer for managing data of storage system, and data management method | |
JP2005258501A (en) | Obstacle influence extent analyzing system, obstacle influence extent analyzing method and program | |
CN1700181A (en) | Method for safeguarding the continuous safety operation of computers | |
KR101731422B1 (en) | Restoration apparatus and method for fault over the virtual environment | |
JP2006190153A (en) | Method and program for failure restoration | |
US10255138B2 (en) | Disaster recovery tool | |
WO2021100140A1 (en) | Network monitoring device, method, and program | |
CN112231063A (en) | Fault processing method and device | |
WO2020119138A1 (en) | Method for verifying credibility of bios restored file and relevant device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080401 |