JP2015064806A - Fault recovery support system - Google Patents

Fault recovery support system Download PDF

Info

Publication number
JP2015064806A
JP2015064806A JP2013199164A JP2013199164A JP2015064806A JP 2015064806 A JP2015064806 A JP 2015064806A JP 2013199164 A JP2013199164 A JP 2013199164A JP 2013199164 A JP2013199164 A JP 2013199164A JP 2015064806 A JP2015064806 A JP 2015064806A
Authority
JP
Japan
Prior art keywords
agent
job
execution
manager
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013199164A
Other languages
Japanese (ja)
Inventor
恒彦 和田
Tsunehiko Wada
恒彦 和田
安規 林田
Yasunori Hayashida
安規 林田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2013199164A priority Critical patent/JP2015064806A/en
Publication of JP2015064806A publication Critical patent/JP2015064806A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

PROBLEM TO BE SOLVED: To lessen operator's work burden and shorten operation system recovery time if a work system stops and an operator switches operation to an alternative server.SOLUTION: A work-continuation-status confirmation unit 211 confirms whether it is possible to continue work executed by each agent operating before occurrence of a fault, before the occurrence of the fault when the fault occurs, and generates work continuation information indicating whether each agent can continue the work. A recovery support unit 212 displays the generated work continuation information and information indicating an agent allocated as an alternative server of each agent for each agent operating before the occurrence of the fault, receives selection of an agent as a re-execution target and an agent as an execution stop target input by an operator, re-executes the agent selected as the re-execution target, and stops executing the agent selected as the execution stop target.

Description

本発明は、災害等によって障害が発生し、特定のサーバーで運用中のジョブ管理システムが予期せず停止した場合、ディザスター・リカバリーシステムによって、遠隔地に設置された別のサーバーにデータコピーしておいた運用データを元に、運用を継続もしくは再開するシステムにおいて、オペレーターによる運用切り替え操作を支援する障害復旧支援システムに関する。   In the present invention, when a failure occurs due to a disaster or the like, and a job management system operating on a specific server stops unexpectedly, the disaster recovery system copies data to another server installed at a remote location. The present invention relates to a failure recovery support system for supporting an operation switching operation by an operator in a system for continuing or resuming operation based on the operation data stored.

ディザスター・リカバリーシステムは、ソフトウェアおよびハードウェアによるレプリケーションやミラーリングシステムを利用し、運用中のジョブ管理システムのデータを遠隔地にコピーすることで保護する。これにより、ディザスター・リカバリーシステムは、災害発生等によって運用中のジョブ管理システムが予期せず停止した場合、コピーしておいたデータを元に、オペレーターが運用切り替え元(以下、メインサイトという。)から運用切り替え先(以下、リモートサイトという。)に切り替え操作を行うことで、一度停止したジョブ管理システムの運用を継続もしくは再開することを可能としている。   The disaster recovery system uses software and hardware replication and mirroring systems to protect the job management system data in operation by copying it to a remote location. As a result, in the case of a disaster recovery system, if the job management system in operation stops unexpectedly due to a disaster or the like, the operator switches from the operation switching source (hereinafter referred to as the main site) based on the copied data. The operation of the job management system once stopped can be continued or resumed by performing a switching operation from to the operation switching destination (hereinafter referred to as a remote site).

一方、ジョブ管理マネージャーサーバー(以下、マネージャーという。)と、その配下に接続された複数台のジョブ実行エージェントサーバー(以下、エージェントという。)とで構成されるジョブ管理システムでは、エージェントは、マネージャーからのジョブ実行要求に応じてジョブを実行し、実行した結果をジョブ管理マネージャーに報告することで、状態管理されて業務を遂行する。ジョブ管理システムにおいて、ディザスター・リカバリーシステムを使用して運用継続することは、一般的となっている。   On the other hand, in a job management system comprising a job management manager server (hereinafter referred to as a manager) and a plurality of job execution agent servers (hereinafter referred to as agents) connected to the job management agent server, the agent is sent from the manager. The job is executed in response to the job execution request, and the execution result is reported to the job management manager, whereby the status is managed and the job is performed. In a job management system, it is common to continue operation using a disaster recovery system.

マネージャーとその配下のエージェントが接続された業務システムの復旧支援方法として、例えば、特許文献1に記載のものが知られている。特許文献1に記載された技術は、運用中の各サーバーに遠隔地にある代替運用のための別システムのサーバーを予め割り当てておき、自動的な運用継続を可能とし、容易に業務再開することを目的としたものである。   As a restoration support method for a business system in which a manager and its subordinate agents are connected, for example, a method described in Patent Document 1 is known. The technology described in Patent Document 1 assigns a server of a separate system for alternative operation at a remote location to each operating server in advance, enables automatic operation continuation, and easily resumes operations. It is aimed at.

特開2007−265333号公報JP 2007-265333 A

災害による障害発生時に業務システムが停止した場合、オペレーターが運用切り替え操作を行うことでシステムを復旧して運用継続をさせる際には、情報収集を行うと共に面倒な手順を伴う。オペレーターは運用切り替え後に、ジョブの実行を抑止した状態で運用を再開し、メインサイトでのシステム停止時のジョブの状態を確認した後、リモートサイトに反映されていないジョブの状態を変更し、再実行または実行中止する必要がある。   When a business system stops when a failure occurs due to a disaster, when an operator performs an operation switching operation to restore the system and continue the operation, information is collected and a troublesome procedure is involved. After switching the operation, the operator resumes operation with job execution suppressed, checks the job status when the system stops at the main site, changes the job status not reflected on the remote site, and re-executes Or it is necessary to cancel the execution.

また、ジョブ管理システムにおいて、マネージャーが都道府県毎にあり、エージェントが市町村毎の営業店に散在しているなど、広域に分散している場合、エージェントを切り替えるための災害対策用サーバーの設備費用を抑えるため、エージェントの全てに災害対策用サーバーを準備せず、主要なエージェントに対してだけ災害対策用サーバーを準備することがある。このような形態でディザスター・リカバリーシステムを使用して運用継続させる場合、各エージェントの被災状況によって運用継続方法を判断する必要がある。エージェントが数台であれば、1台ずつ確認することも可能だが、数十台、数百台規模のエージェントが存在する場合は、1台ずつ確認するには多くの時間を要し、復旧が遅れる要因となる。   In addition, in the job management system, if there are managers in each prefecture and agents are scattered in sales offices in each municipality, the equipment costs of disaster recovery servers for switching agents can be reduced. In order to suppress this, a disaster recovery server may not be prepared for all agents, but a disaster recovery server may be prepared only for the main agent. When operation is continued using the disaster recovery system in such a form, it is necessary to determine the operation continuation method according to the disaster situation of each agent. If there are several agents, it is possible to check one by one. However, if there are tens or hundreds of agents, it takes a lot of time to check one agent at a time. It becomes a factor to be late.

本発明の目的は、業務システムが停止し、オペレーターが代替サーバーへの運用切り替え操作を行う際、オペレーターの作業負担を減らすと共に、業務システムの復旧時間を短縮することができる障害復旧支援システムを提供することである。   An object of the present invention is to provide a failure recovery support system capable of reducing the work load on an operator and shortening the recovery time of the business system when the business system is stopped and the operator performs an operation switching operation to an alternative server. It is to be.

上記目的を達成するために、本発明の障害復旧支援システムは、
メインサイトに配置されたマネージャーおよび複数のエージェントと、当該メインサイトのマネージャーおよび各エージェントの代替サーバーとしてリモートサイトに配置されたマネージャーおよび複数のエージェントと、前記メインサイトおよび前記リモートサイト以外のエリアに配置された複数のエージェントとを備え、前記メインサイトのマネージャーの運用中に、当該マネージャーによって管理されている前記メインサイトの各エージェントと前記メインサイトおよび前記リモートサイト以外の各エージェントとで実行中の各ジョブについての実行ジョブ情報のうち、障害時の業務引き継ぎに必要な情報を前記メインサイトのマネージャーから前記リモートサイトのマネージャーにコピーする実行ジョブ情報コピー手段を有する業務システムにおいて、前記リモートサイトのマネージャーで動作する障害復旧支援システムであって、
前記メインサイトの各エージェントの代替サーバーとして割り当てられた前記リモートサイトの各エージェントを示す情報を含むエージェント運用情報を記憶するエージェント運用情報記憶手段と、
障害発生時に、前記メインサイトのマネージャーによって管理されていた各エージェントが、障害発生前に実行していた業務を継続することが可能か否かを確認し、当該各エージェントの業務継続可否を示す業務継続可否情報を作成する業務継続状況確認手段と、
障害発生時に、前記メインサイトのマネージャーによって管理されていた各エージェントについて、前記業務継続可否情報と前記エージェント運用情報記憶手段によって記憶されているエージェント運用情報とを表示し、オペレーターによって入力される再実行対象および実行中止対象のエージェントの選択を受け付けて、再実行対象に選択されたエージェントを再実行させ、実行中止対象に選択されたエージェントの実行を中止させるエージェント復旧支援手段と、
を備えることを特徴とする。
In order to achieve the above object, the failure recovery support system of the present invention provides:
A manager and a plurality of agents arranged at the main site, a manager and a plurality of agents arranged at a remote site as an alternative server for the manager and each agent of the main site, and a plurality arranged at an area other than the main site and the remote site Execution job information on each job being executed by each agent of the main site managed by the manager and each of the agents other than the main site and the remote site during operation of the manager of the main site Among these, a job having an execution job information copy means for copying information necessary for taking over the job at the time of failure from the manager at the main site to the manager at the remote site In the stem, a failure recovery support system that operates the manager of the remote site,
Agent operation information storage means for storing agent operation information including information indicating each agent at the remote site assigned as an alternative server for each agent at the main site;
When a failure occurs, each agent managed by the manager at the main site checks whether it is possible to continue the work that was being executed before the failure, and indicates whether the agent can continue the work. Business continuity confirmation means for creating availability information;
For each agent managed by the manager of the main site at the time of failure, the operation continuity information and the agent operation information stored in the agent operation information storage means are displayed, and the re-execution target input by the operator And agent recovery support means for accepting the selection of the agent to be canceled and re-executing the agent selected as the target for re-execution and canceling the execution of the agent selected as the target for execution cancellation.
It is characterized by providing.

好ましくは、本発明の障害復旧支援システムは、 前記実行ジョブ情報が、前記メインサイトのマネージャーによって管理されている各エージェントで実行中のジョブ毎に、当該各ジョブが実行されているエージェントと当該各ジョブの実行状態とを示すジョブ状態情報を含み、
障害発生時に、前記メインサイトのマネージャーによって管理された各エージェントで実行されていた各ジョブについて、当該各ジョブを実行していたエージェントの前記業務継続可否情報と前記実行ジョブ情報コピー手段によってコピーされた各ジョブのジョブ状態情報とを表示し、オペレーターによって入力される再実行対象および実行中止対象のジョブの選択を受け付けて、再実行対象に選択されたジョブを再実行させ、実行中止対象に選択されたジョブの実行を中止させるジョブ復旧支援手段と、
を備えることを特徴とする。
Preferably, in the failure recovery support system of the present invention, for each job being executed by each agent managed by the manager of the main site, the execution job information and the agent executing the job and the job Job status information indicating the execution status of
For each job executed by each agent managed by the manager of the main site at the time of failure, the business continuity information of the agent executing the job and each copy copied by the execution job information copying means The job status information of the job is displayed, the selection of the job to be re-executed and the target of execution cancellation input by the operator is accepted, the job selected for re-execution is re-executed, and the job is selected for execution cancellation Job recovery support means for canceling job execution,
It is characterized by providing.

本発明によれば、業務システムが停止し、オペレーターが代替サーバーへの運用切り替え操作を行う際、オペレーターの作業負担を減らすと共に、業務システムの復旧時間を短縮することができる。   ADVANTAGE OF THE INVENTION According to this invention, when a business system stops and an operator performs operation switching operation to an alternative server, while reducing an operator's work burden, the recovery time of a business system can be shortened.

本発明の実施形態に係る障害復旧支援システムが動作する業務システム全体の構成の一例を示す図である。It is a figure which shows an example of a structure of the whole business system in which the failure recovery assistance system which concerns on embodiment of this invention operate | moves. メインサイトとリモートサイト間の、代替サーバーとしての割り当ての一例を示す図である。It is a figure which shows an example of the allocation as an alternative server between a main site and a remote site. リモートサイトのマネージャーの構成の一例を示す図である。It is a figure which shows an example of a structure of the manager of a remote site. エージェント運用情報管理テーブルの構成の一例を示す図である。It is a figure which shows an example of a structure of an agent operation information management table. 継続状況管理テーブルの構成の一例を示す図である。It is a figure which shows an example of a structure of a continuation status management table. ジョブ状態情報管理テーブルの構成の一例を示す図である。It is a figure which shows an example of a structure of a job status information management table. 業務継続状況確認処理の流れの一例を示す図である。It is a figure which shows an example of the flow of a business continuation status confirmation process. 復旧支援処理の流れの一例を示す図である。It is a figure which shows an example of the flow of a recovery assistance process. ステップS201で表示される操作対象一覧選択ウィンドウの一例を示す図である。It is a figure which shows an example of the operation target list selection window displayed by step S201. ステップS203で表示されるエージェント一覧ウィンドウの一例を示す図である。It is a figure which shows an example of the agent list window displayed by step S203. ステップS208で表示されるジョブ一覧ウィンドウの一例を示す図である。It is a figure which shows an example of the job list window displayed by step S208. ステップS205およびステップS210で表示される復旧処理確認メッセージボックスの一例を示す図である。It is a figure which shows an example of the recovery process confirmation message box displayed by step S205 and step S210.

以下、本発明の実施形態に係る障害復旧支援システムについて図面を参照しながら説明する。なお、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。   Hereinafter, a failure recovery support system according to an embodiment of the present invention will be described with reference to the drawings. In all the drawings for explaining the embodiments, common constituent elements are denoted by the same reference numerals, and repeated explanation is omitted.

図1は、本発明の実施形態に係る障害復旧支援システムが動作する業務システム100全体の構成の一例を示す。
業務システム100は、メインサイト101と、エージェントが散在した広域エリア121と、リモートサイト111とを有しており、ディザスター・リカバリーシステムとして構成されている。
業務システム100は、ジョブの実行を管理するジョブ管理システムと、業務を実行するためのジョブとを含む。なお、ジョブ管理システムは,業務を構成する作業(プログラム、バッチ処理など)を切り出し,作業の実行順序を定義し,業務フローを決定する。この業務処理の最小単位となる作業をジョブという。
FIG. 1 shows an example of the configuration of the entire business system 100 in which the failure recovery support system according to the embodiment of the present invention operates.
The business system 100 includes a main site 101, a wide area 121 in which agents are scattered, and a remote site 111, and is configured as a disaster recovery system.
The business system 100 includes a job management system that manages job execution and a job for executing business. Note that the job management system cuts out the work (program, batch processing, etc.) constituting the work, defines the execution order of the work, and determines the work flow. The work that is the smallest unit of business processing is called a job.

メインサイト101は、ジョブを管理するマネージャー102と、ジョブ管理情報を保存するジョブ管理DB(Data Base)103と、マネージャー102からの要求に応じてジョブを実行するエージェント104およびエージェント105とを有する。
広域エリア121は、マネージャー102からの要求に応じてジョブを実行するエージェント122およびエージェント123を有する。
リモートサイト111は、メインサイト101のマネージャー102に障害が発生した場合に業務を引き継いでジョブを管理するマネージャー112と、ジョブ管理情報を保存するジョブ管理DB113と、メインサイト101のエージェント104およびエージェント105に障害が発生した場合に、業務を引き継いでジョブを実行するエージェント114およびエージェント115と、状況や状態を表示するとともに運用切り替え操作を受け付けるGUI(Graphical User Interface)を備えたオペレーター端末116を有する。オペレーター端末116は、後述するエージェント一覧ウィンドウ800等を表示する。
メインサイト101のマネージャー102と、メインサイト101のエージェント104、105と、リモートサイト111のマネージャー112と、リモートサイト111のエージェント114、115と、広域エリア121のエージェント122、123とはネットワークに接続されており、相互に通信することができる。
The main site 101 includes a manager 102 that manages jobs, a job management DB (Data Base) 103 that stores job management information, and an agent 104 and an agent 105 that execute jobs in response to requests from the manager 102.
The wide area 121 includes an agent 122 and an agent 123 that execute a job in response to a request from the manager 102.
The remote site 111 has a fault in the manager 112 that takes over the business and manages the job when the manager 102 in the main site 101 fails, the job management DB 113 that stores job management information, and the agent 104 and the agent 105 in the main site 101. When an error occurs, an agent 114 and an agent 115 that take over a job and execute a job, and an operator terminal 116 that includes a GUI (Graphical User Interface) that displays a status and a status and accepts an operation switching operation. The operator terminal 116 displays an agent list window 800 described later.
The manager 102 of the main site 101, the agents 104 and 105 of the main site 101, the manager 112 of the remote site 111, the agents 114 and 115 of the remote site 111, and the agents 122 and 123 of the wide area 121 are connected to the network. , Can communicate with each other.

図2は、メインサイト101とリモートサイト111間の、代替サーバーとしての割り当ての一例を示す。
メインサイト101のマネージャー102の代替サーバーとして、リモートサイト111のマネージャー112が割り当てられている。障害が発生してマネージャー102が停止した場合、マネージャー112がその業務を引き継いで継続する。同様に、エージェント104とエージェント105の代替サーバーとしてそれぞれエージェント114とエージェント115が割り当てられている。広域エリア121のエージェント122およびエージェント123の代替サーバーは存在しない。
なお、メインサイト101のマネージャー102と各エージェント104、105とは遠隔地に配置されていてもよく、リモートサイト111のマネージャー112と各エージェント114、115とも遠隔地に配置されていてもよい。また、広域エリア121の各エージェント122、123は、メインサイト101のマネージャー102やリモートサイト111のマネージャー112の近くに配置されていてもよい。
FIG. 2 shows an example of assignment as an alternative server between the main site 101 and the remote site 111.
A manager 112 of the remote site 111 is assigned as an alternative server for the manager 102 of the main site 101. When a failure occurs and the manager 102 stops, the manager 112 takes over the business and continues. Similarly, an agent 114 and an agent 115 are assigned as substitute servers for the agent 104 and the agent 105, respectively. There is no substitute server for the agent 122 and agent 123 in the wide area 121.
Note that the manager 102 and the agents 104 and 105 of the main site 101 may be located at remote locations, and the manager 112 and the agents 114 and 115 of the remote site 111 may be located at remote locations. The agents 122 and 123 in the wide area 121 may be arranged near the manager 102 of the main site 101 and the manager 112 of the remote site 111.

マネージャー102、112およびエージェント104、105、114、115、122、123は、全てコンピュータであって、CPU(Central Processing Unit)と、RAM(Random Access Memory)等で構成される主メモリと、ハードディスク等で構成される記憶装置とを有する。
リモートサイト111のマネージャー112が、その記憶装置に格納されている所定のプログラムを主メモリに読み込んで実行することにより、図3に示すように、ジョブ管理部200と、業務継続状況確認部211および復旧支援部212を有する障害復旧支援システム210との各機能が実現される。
なお、1台のコンピュータ上でマネージャーとエージェントの両方の機能を実現することもできる。また、メインサイト101のジョブ管理DB103は、そのデータがマネージャー102の記憶装置に格納されており、マネージャー102のCPUがデータベース管理プログラムを実行する構成でもよく、リモートサイト111のジョブ管理DB113も、そのデータがマネージャー112の記憶装置に格納されており、マネージャー112のCPUがデータベース管理プログラムを実行する構成でもよい。
The managers 102 and 112 and the agents 104, 105, 114, 115, 122, and 123 are all computers, and a main memory including a CPU (Central Processing Unit), a RAM (Random Access Memory), a hard disk, and the like And a storage device.
When the manager 112 of the remote site 111 reads a predetermined program stored in the storage device into the main memory and executes it, as shown in FIG. 3, the job management unit 200, the business continuity confirmation unit 211, and Each function with the failure recovery support system 210 having the recovery support unit 212 is realized.
Note that both the manager and agent functions can be realized on a single computer. The job management DB 103 of the main site 101 may have a configuration in which the data is stored in the storage device of the manager 102, and the CPU of the manager 102 executes the database management program. The job management DB 113 of the remote site 111 also has the data May be stored in the storage device of the manager 112, and the CPU of the manager 112 may execute a database management program.

メインサイト101のマネージャー102は、エージェント104、105、122、123を管理し、所定の業務を遂行する。業務システム100はディザスター・リカバリーシステムである。メインサイト101のマネージャー102のデータは、その運用中にリモートサイト111のマネージャー112にコピーされる(複製される)ことで保護されている。なお、マネージャー102は、その運用中にエージェント104、105で実行されるジョブのスケジューリングやエージェント104、105における実行結果のようなエージェント104、105に関するデータをマネージャー102自身の記憶装置に保存している。リモートサイト111のマネージャー112にコピーされることで保護されるデータには、このようなエージェント104、105に関するデータも含まれる。
障害復旧支援システム210は、リモートサイト111のマネージャー112で動作する。障害復旧支援システム210は、メインサイト101のマネージャー102に障害が発生した場合に、リモートサイト111のマネージャー112によるジョブ管理システムの復旧を支援する。
メインサイト101がダウンし、ジョブ管理システムに障害が発生したとき、業務システム100のオペレーターは、障害復旧支援システム210を用い、ジョブ管理システムを復旧させ、マネージャー112のジョブ管理部200を動作させる。ジョブ管理部200は、エージェント104、105またはエージェント114、115、およびエージェント122、123を管理し、業務を再開する。
このとき、障害復旧支援システム210の業務継続状況確認部211は、障害発生時に、障害発生前に運用されていたメインサイト101および広域エリア121内の各エージェントが、障害発生前に実行していた業務を継続することが可能か否かを確認し、各エージェントの業務継続可否を示す業務継続可否情報を作成する。
復旧支援部212は、後述する図10のエージェント一覧ウィンドウ700または図11のジョブ一覧ウィンドウ800をオペレーター端末116に表示し、オペレーターによって入力される再実行対象および実行中止対象のエージェントまたはジョブの選択を受け付け、再実行対象に選択されたエージェントまたはジョブを再実行させ、実行中止対象に選択されたエージェントまたはジョブの実行を中止させる。
なお、業務継続状況確認部211は業務継続状況確認手段の一例であり、復旧支援部212は本発明のエージェント復旧支援手段およびジョブ復旧支援手段の一例である。
The manager 102 of the main site 101 manages the agents 104, 105, 122, and 123 and performs predetermined tasks. The business system 100 is a disaster recovery system. Data of the manager 102 of the main site 101 is protected by being copied (replicated) to the manager 112 of the remote site 111 during its operation. The manager 102 stores data related to the agents 104 and 105 such as scheduling of jobs executed by the agents 104 and 105 during the operation and execution results of the agents 104 and 105 in the storage device of the manager 102 itself. . Data that is protected by being copied to the manager 112 of the remote site 111 also includes data regarding such agents 104 and 105.
The failure recovery support system 210 operates with the manager 112 of the remote site 111. The failure recovery support system 210 supports recovery of the job management system by the manager 112 of the remote site 111 when a failure occurs in the manager 102 of the main site 101.
When the main site 101 goes down and a failure occurs in the job management system, the operator of the business system 100 uses the failure recovery support system 210 to restore the job management system and operate the job management unit 200 of the manager 112. The job management unit 200 manages the agents 104 and 105 or the agents 114 and 115 and the agents 122 and 123, and resumes the job.
At this time, the business continuation status check unit 211 of the failure recovery support system 210 performs the business that each agent in the main site 101 and the wide area 121 that was operating before the failure was executed before the failure occurred. To confirm whether or not it is possible to continue, and create business continuity information indicating whether or not each agent can continue business.
The recovery support unit 212 displays an agent list window 700 in FIG. 10 or a job list window 800 in FIG. 11 to be described later on the operator terminal 116, and selects an agent or job to be reexecuted and to be canceled by the operator. Accept and re-execute the agent or job selected for re-execution, and cancel the execution of the agent or job selected for re-execution.
The business continuity confirmation unit 211 is an example of a business continuation status confirmation unit, and the recovery support unit 212 is an example of an agent recovery support unit and job recovery support unit of the present invention.

また、リモートサイト111のマネージャー112の記憶装置には、図4のエージェント運用情報管理テーブル300と、図5の継続状況管理テーブル400と、図6のジョブ状態情報管理テーブル500とが格納されている。
図4のエージェント運用情報管理テーブル300は、運用中のエージェント毎に、エージェント運用情報を格納する。エージェント運用情報は、エージェントホスト名301と、エージェントIP(Internet Protocol)アドレス302と、代替サーバーホスト名303と、代替サーバーIPアドレス304と、業務実行時間帯305と、復旧優先度306とを含む。
エージェントホスト名301とエージェントIPアドレス302とは、メインサイト101および広域エリア121のエージェントのホスト名とIPアドレスとを示す。
代替サーバーホスト名303と代替サーバーIPアドレス304とは、メインサイト101のエージェントの代替サーバーとして割り当てられているリモートサイト111のエージェントのホスト名とIPアドレスとを示す。
業務実行時間帯305は、エージェントが業務を実行する時間帯を示す。なお、図4の例では、0が夜間、1がそれ以外を示す。
復旧優先度306は、復旧の優先度を示し、例えば、数値が低いほど復旧優先度が高いことを示す。
エージェント運用情報管理テーブル300は、予めジョブ管理システム100のオペレーターによって作成され、リモートサイト111のマネージャー112に登録される。ジョブ管理システム100のオペレーターは、エージェント運用情報管理テーブル300を任意のタイミングで更新することができる。
なお、エージェント運用情報管理テーブル300は本発明のエージェント運用情報記憶手段の一例である。
The storage device of the manager 112 at the remote site 111 stores the agent operation information management table 300 in FIG. 4, the continuation status management table 400 in FIG. 5, and the job status information management table 500 in FIG. .
The agent operation information management table 300 in FIG. 4 stores agent operation information for each agent in operation. The agent operation information includes an agent host name 301, an agent IP (Internet Protocol) address 302, an alternative server host name 303, an alternative server IP address 304, a business execution time zone 305, and a recovery priority 306.
The agent host name 301 and the agent IP address 302 indicate the host names and IP addresses of the agents in the main site 101 and the wide area 121.
The substitute server host name 303 and the substitute server IP address 304 indicate the host name and IP address of the agent of the remote site 111 assigned as the substitute server of the agent of the main site 101.
The business execution time zone 305 indicates a time zone during which the agent executes business. In the example of FIG. 4, 0 indicates night and 1 indicates other than that.
The restoration priority 306 indicates the restoration priority. For example, the lower the numerical value, the higher the restoration priority.
The agent operation information management table 300 is created in advance by an operator of the job management system 100 and registered in the manager 112 of the remote site 111. An operator of the job management system 100 can update the agent operation information management table 300 at an arbitrary timing.
The agent operation information management table 300 is an example of the agent operation information storage unit of the present invention.

図5の継続状況管理テーブル400は、業務継続可否情報を格納する。業務継続可否情報は、ホスト名401と、業務継続可否402とを含む。
ホスト名401は、メインサイト101および広域エリア121のエージェントのホスト名を示す。
業務継続可否402は、メインサイト101で災害等が発生し、障害により業務システムが停止した場合に、メインサイト101および広域エリア121内の各エージェントが実行していた業務を継続することが可能か否かを示す。ここで、継続可能には、代替サーバーに切り替えて継続可能な場合も含む。業務継続可否402は、後述するように、業務継続状況確認部211によって設定される。
継続状況管理テーブル400は、災害発生時等に,メインサイト101および広域エリア121内のどのエージェントが実行していた業務を継続することが可能かを管理する。なお、代替サーバーが用意されている各エージェントについて、リモートサイト111のマネージャー112に切り替わった後、メインサイト101のエージェントと代替サーバーのどちらがジョブを継続して実行するのかという情報(ジョブ実行ホスト名)は、ジョブ管理システムが管理する。
The continuation status management table 400 in FIG. 5 stores business continuation permission / inhibition information. The business continuation permission / inhibition information includes a host name 401 and a business continuation permission / inhibition 402.
The host name 401 indicates the host names of agents in the main site 101 and the wide area 121.
The business continuation permission / inhibition 402 indicates whether or not it is possible to continue the business performed by each agent in the main site 101 and the wide area 121 when a disaster or the like occurs in the main site 101 and the business system is stopped due to a failure. Indicates. Here, “continuable” includes a case where switching to an alternative server can be continued. The business continuation permission / inhibition 402 is set by the business continuation status confirmation unit 211 as described later.
The continuation status management table 400 manages which agents in the main site 101 and the wide area 121 can continue the work that is being executed when a disaster occurs. For each agent for which an alternative server is prepared, after switching to the manager 112 at the remote site 111, information (job execution host name) indicating whether the agent at the main site 101 or the alternative server will continue to execute the job is provided. Managed by a job management system.

図6のジョブ状態情報管理テーブル500は、ジョブ状態情報を格納する。ジョブ状態情報は、ジョブID501と、業務ID502と、ジョブ名称503と、実行ホスト名504と、状態505とを含む。
ジョブID501は、全てのジョブを一意に識別するジョブ識別情報である。
業務ID502は、業務ごとに設定され、全ての業務を一意に識別する業務識別情報である。
ジョブ名称503は、各ジョブの名前を示す。
実行ホスト名504は、各ジョブを実行するエージェントのホスト名を示す。なお、ジョブID501=「1000」、ジョブ名称503=「業務グループ1」は、ジョブA〜Dをまとめて作業の順序を定義したジョブネットであるため、実行ホスト名504が空白である。
状態505は、各ジョブの実行状態を示す。なお、実行状態には、正常終了、異常終了、および未実行等がある。
ジョブ状態情報管理テーブル500は、ジョブ管理システムによって管理される。ディザスター・リカバリーシステムが適用されたジョブ管理システムは、メインサイト101のマネージャー102の運用中に、マネージャー102によって管理されている各エージェントで実行中の各ジョブについての実行ジョブ情報のうち、障害時の業務引き継ぎに必要な情報をメインサイト101のマネージャー102からリモートサイト111のマネージャー112にコピーする(複製する)。実行ジョブ情報には、ジョブ状態情報が含まれる。すなわち、ディザスター・リカバリーシステムを適用したジョブ管理システムは、ジョブ状態情報を含めて障害時の業務引き継ぎに必要な情報を、メインサイト101のマネージャー102からリモートサイト111のマネージャー112に送信し、リモートサイト111のマネージャー112の記憶装置等に受信した情報を記憶させる。
なお、ジョブ管理システムは本発明の実行ジョブ情報コピー手段の一例である。
The job status information management table 500 in FIG. 6 stores job status information. The job status information includes a job ID 501, a job ID 502, a job name 503, an execution host name 504, and a status 505.
The job ID 501 is job identification information that uniquely identifies all jobs.
The business ID 502 is business identification information that is set for each business and uniquely identifies all businesses.
A job name 503 indicates the name of each job.
The execution host name 504 indicates the host name of the agent that executes each job. Note that job ID 501 = “1000” and job name 503 = “business group 1” are job nets in which jobs A to D are collectively defined and the order of operations is defined, so the execution host name 504 is blank.
A status 505 indicates the execution status of each job. The execution state includes normal end, abnormal end, and non-execution.
The job status information management table 500 is managed by a job management system. The job management system to which the disaster recovery system is applied is a part of the execution job information for each job being executed by each agent managed by the manager 102 during operation of the manager 102 of the main site 101. Information necessary for business handover is copied (duplicated) from the manager 102 of the main site 101 to the manager 112 of the remote site 111. The execution job information includes job status information. In other words, the job management system to which the disaster recovery system is applied transmits information necessary for taking over the job at the time of failure, including job status information, from the manager 102 of the main site 101 to the manager 112 of the remote site 111. The received information is stored in the storage device of the manager 112 of 111.
The job management system is an example of an execution job information copy unit according to the present invention.

図7は、業務継続状況確認部211における業務継続状況確認処理の流れの一例を示す。
業務継続状況確認処理は、メインサイト101で災害等が発生し、障害により業務システム100が停止した場合に、リモートサイト101のマネージャー102において起動される。
障害復旧支援システム210は、エージェントやジョブ毎の状況や状態を確認しながら復旧する必要があるため、ジョブが勝手に実行されないようにジョブ実行抑止状態でリモートサイト111のマネージャー112を起動する(S101)。そして、業務継続状況確認部211は、以降のエージェント継続可否を対象のエージェント毎に判断する(S102)。
業務継続状況確認部211は、エージェントへ接続を試み(S103)、接続可否を判断する(S104)。接続可能であった場合(S104:Yes)、業務継続状況確認部211は、このエージェントは継続可として図5の継続状況管理テーブル400を更新する(S107)。一方、接続不可能であった場合(S104:No)、業務継続状況確認部211は、このエージェントの代替サーバーの有無で判断する(S105)。代替サーバーが存在する場合(S105:Yes)、業務継続状況確認部211は、このエージェントは継続可として継続状況管理テーブル400を更新する(S107)。代替サーバーが存在しない場合(S105:No)、業務継続状況確認部211は、このエージェントは継続不可として継続状況管理テーブル400を更新する(S106)。業務継続状況確認部211が対象のエージェントすべてに対して業務継続状況確認処理を完了した後、復旧支援部212がオペレーター端末116にGUI画面を表示する(S108)。
FIG. 7 shows an example of the flow of business continuity status confirmation processing in the business continuity status confirmation unit 211.
The business continuation status confirmation process is started in the manager 102 of the remote site 101 when a disaster or the like occurs in the main site 101 and the business system 100 is stopped due to a failure.
The failure recovery support system 210 needs to recover while checking the status and status of each agent and job, so the manager 112 of the remote site 111 is activated in a job execution inhibited state so that the job is not executed arbitrarily (S101). ). Then, the business continuity confirmation unit 211 determines whether or not the agent can continue thereafter for each target agent (S102).
The business continuity confirmation unit 211 attempts to connect to the agent (S103) and determines whether or not connection is possible (S104). If the connection is possible (S104: Yes), the business continuity status checking unit 211 updates the continuation status management table 400 in FIG. On the other hand, when the connection is impossible (S104: No), the business continuity confirmation unit 211 determines whether there is an alternative server for this agent (S105). When there is an alternative server (S105: Yes), the business continuation status confirmation unit 211 updates the continuation status management table 400 with this agent being allowed to continue (S107). When the alternative server does not exist (S105: No), the business continuity status confirmation unit 211 updates the continuation status management table 400, assuming that this agent cannot be continued (S106). After the business continuity confirmation unit 211 completes the business continuity confirmation process for all the target agents, the recovery support unit 212 displays a GUI screen on the operator terminal 116 (S108).

図8は、復旧支援部212における復旧支援処理の流れの一例を示す。
復旧支援部212は、後述する図9の操作対象一覧選択ウィンドウ601をオペレーター端末116に表示し(S201)、後述する図10のエージェント一覧ウィンドウ700と図11のジョブ一覧ウィンドウ800のどちらのGUI画面で操作するかをオペレーターに判断させる(S202)。
オペレーターがエージェント一覧ウィンドウ700を選択する(S202:Yes)と、復旧支援部212は、図10のエージェント一覧ウィンドウ700をオペレーター端末116に表示する(S203)。オペレーターは、各エージェントの業務継続可否707や復旧優先度706などの情報を確認しながら、処理項目(再実行処理選択701、実行中止処理選択702)を選択し、確定ボタン708を押下する(S204)。個別で処理させることも可能だが、同様の対処をさせたいエージェントを複数選択し、一括で処理させることもできる。確定ボタン708が押下されると、復旧支援部212は、後述する図12の復旧処理確認メッセージボックス901をオペレーター端末116に表示し(S205)、復旧処理の実行許可をオペレーターに判断させる(S206)。復旧処理の実行が許可されなかった場合(S206:No)、復旧支援部212はステップS204に戻る。復旧処理の実行が許可された場合(S207:Yes)、復旧支援部212は、このエージェントで実行される全ジョブに対し、選択された処理を実行し(S207)、その結果でジョブの状態を更新する(S213)。
FIG. 8 shows an example of the flow of recovery support processing in the recovery support unit 212.
The restoration support unit 212 displays an operation target list selection window 601 shown in FIG. 9 to be described later on the operator terminal 116 (S201), and the GUI screen of either the agent list window 700 in FIG. 10 to be described later or the job list window 800 in FIG. The operator is made to determine whether to operate with (S202).
When the operator selects the agent list window 700 (S202: Yes), the recovery support unit 212 displays the agent list window 700 of FIG. 10 on the operator terminal 116 (S203). The operator selects processing items (re-execution processing selection 701 and execution cancellation processing selection 702) while confirming information such as the business continuation permission 707 and the restoration priority 706 of each agent, and presses the confirm button 708 (S204). ). It is possible to process them individually, but you can select multiple agents that you want to handle in the same way and process them in a batch. When the confirmation button 708 is pressed, the recovery support unit 212 displays a recovery process confirmation message box 901 shown in FIG. 12 to be described later on the operator terminal 116 (S205), and allows the operator to determine whether to execute the recovery process (S206). . When the execution of the recovery process is not permitted (S206: No), the recovery support unit 212 returns to step S204. When the execution of the recovery process is permitted (S207: Yes), the recovery support unit 212 executes the selected process for all jobs executed by this agent (S207), and the job status is determined as a result. Update (S213).

ステップS202でオペレーターがジョブ一覧を選択する(S202:No)と、復旧支援部212は、図11のジョブ一覧ウィンドウ800をオペレーター端末116に表示する(S208)。オペレーターは、各ジョブの状態806などの情報を確認しながら、処理項目(再実行処理選択801、実行中止処理選択802)を選択し、確定ボタン807を押下する(S209)。個別で処理させることも可能だが、同様の対処をさせたいジョブを複数選択し、一括で処理させることもできる。確定ボタン807が押下されると、復旧支援部212は、図12の復旧処理確認メッセージボックス901をオペレーター端末116に表示し(S210)、復旧処理の実行許可をオペレーターに判断させる(S211)。復旧処理の実行が許可されなかった場合(S211:No)、復旧支援部212はステップS209に戻る。復旧処理の実行が許可された場合(S211:Yes)、復旧支援部212は、このジョブに対し、選択された処理を実行し(S212)、その結果で該ジョブの状態を更新する(S213)。   When the operator selects a job list in step S202 (S202: No), the recovery support unit 212 displays the job list window 800 of FIG. 11 on the operator terminal 116 (S208). While confirming information such as the status 806 of each job, the operator selects a processing item (re-execution process selection 801, execution cancellation process selection 802), and presses the confirm button 807 (S209). Although it is possible to process individually, it is also possible to select a plurality of jobs to be dealt with in the same way and process them in a batch. When the confirm button 807 is pressed, the recovery support unit 212 displays the recovery process confirmation message box 901 of FIG. 12 on the operator terminal 116 (S210), and causes the operator to determine whether to execute the recovery process (S211). When the execution of the recovery process is not permitted (S211: No), the recovery support unit 212 returns to step S209. When execution of the recovery process is permitted (S211: Yes), the recovery support unit 212 executes the selected process for this job (S212), and updates the status of the job with the result (S213). .

図9は、ステップS201で表示される操作対象一覧選択ウィンドウ601の一例を示す。操作対象一覧選択ウィンドウ601により、オペレーターが復旧処理を行う対象として、エージェント一覧またはジョブ一覧を選択することができる。オペレーターはステップS203でエージェント一覧ウィンドウ700を表示させる場合はエージェント一覧ボタン602を、ステップS208でジョブ一覧ウィンドウ800を表示させる場合はジョブ一覧ボタン603をそれぞれ押下する。   FIG. 9 shows an example of the operation target list selection window 601 displayed in step S201. The operation target list selection window 601 allows the operator to select an agent list or a job list as a target to be restored. The operator presses the agent list button 602 when displaying the agent list window 700 in step S203, and presses the job list button 603 when displaying the job list window 800 in step S208.

図10は、ステップS203で表示されるエージェント一覧ウィンドウ700の一例を示す。
復旧支援部212は、図4のエージェント運用管理テーブル300に格納されているエージェント運用情報と図5の継続状況管理テーブル400に格納されている業務継続可否情報とに基づいてエージェント一覧ウィンドウ700を作成する。
エージェント一覧ウィンドウ700は、処理項目(再実行処理選択701、実行中止処理選択702)の選択欄、エージェントホスト名703と代替サーバーホスト名704と業務実行時間帯705と復旧優先度706と業務継続可否707の表示欄、および確定ボタン708を含む。
再実行処理選択701は、エージェントを実行先としている全ジョブに対して再実行させる場合にそのエージェントを選択するための欄である。オペレーターが再実行処理選択701を選択すると、レ点が表示される。
実行中止処理選択702は、エージェントを実行先としている全ジョブに対して実行を中止させる場合にそのエージェントを選択するための欄である。オペレーターが実行中止処理選択702を選択すると、レ点が表示される。
エージェントホスト名703は、ジョブを実行するエージェントのホスト名を示す。
代替サーバーホスト名704は、代替サーバーとして割り当てられているリモートサイト111のエージェントのホスト名を示す。
業務実行時間帯705は、エージェントが業務を実行する時間帯を示す。なお、図10の例では、0が夜間、1がそれ以外を示す。
復旧優先度706は、復旧優先度を示し、例えば、数値が低いほど復旧優先度が高いことを示す。
業務継続可否707は、メインサイト101および広域エリア121内の各エージェントが実行していた業務を継続することが可能か否かを示す。ここで、継続可能には、代替サーバーに切り替えて継続可能な場合も含む。
確定ボタン708は、オペレーターが処理項目(再実行処理選択701、実行中止処理選択702)の選択を終えたときに押下する。
エージェント一覧ウィンドウ700は、復旧支援のための作業をガイドする。オペレーターは、エージェント一覧ウィンドウ700により、エージェント毎に運用継続方法の判断材料となる情報をGUIで確認しながら、各エージェントが実行先となっているジョブに対して、個別あるいは一括の運用切り替え操作を行うことが可能となる。
FIG. 10 shows an example of the agent list window 700 displayed in step S203.
The recovery support unit 212 creates an agent list window 700 based on the agent operation information stored in the agent operation management table 300 in FIG. 4 and the business continuity information stored in the continuation status management table 400 in FIG. To do.
The agent list window 700 is a selection column for processing items (re-execution processing selection 701, execution cancellation processing selection 702), agent host name 703, alternative server host name 704, business execution time zone 705, recovery priority 706, and business continuity availability. A display field 707 and a confirmation button 708 are included.
The re-execution process selection 701 is a column for selecting an agent when the job is re-executed for all jobs having the execution destination. When the operator selects the re-execution process selection 701, a check mark is displayed.
The execution cancellation process selection 702 is a column for selecting an agent when the execution is canceled for all jobs having the agent as an execution destination. When the operator selects the execution cancellation process selection 702, a check mark is displayed.
The agent host name 703 indicates the host name of the agent that executes the job.
The substitute server host name 704 indicates the host name of the agent of the remote site 111 assigned as the substitute server.
The business execution time zone 705 indicates a time zone during which the agent executes business. In the example of FIG. 10, 0 indicates nighttime and 1 indicates the other.
The recovery priority 706 indicates the recovery priority. For example, the lower the numerical value, the higher the recovery priority.
The business continuation permission / inhibition 707 indicates whether or not the business performed by the agents in the main site 101 and the wide area 121 can be continued. Here, “continuable” includes a case where switching to an alternative server can be continued.
The confirm button 708 is pressed when the operator finishes selecting the processing items (re-execution process selection 701 and execution cancellation process selection 702).
The agent list window 700 guides work for recovery support. The operator can perform individual or collective operation switching operations for jobs that are executed by each agent while confirming information for determining the operation continuation method for each agent using the GUI in the agent list window 700. Can be done.

図11は、ステップS208で表示されるジョブ一覧ウィンドウ800の一例を示す。
復旧支援部212は、図5の継続状況管理テーブル400に格納されている業務継続可否情報と図6のジョブ状態情報管理テーブル500に格納されているジョブ状態情報とに基づいてジョブ一覧ウィンドウ800を作成する。
ジョブ一覧ウィンドウ800は、処理項目(再実行処理選択801、実行中止処理選択802)の選択欄、ジョブ名称803とエージェントホスト名804と業務継続可否805と状態806の表示欄、および確定ボタン807を含む。
再実行処理選択801は、指定したジョブに対して再実行させる場合にそのジョブを選択するための欄である。オペレーターが再実行処理選択801を選択すると、レ点が表示される。
実行中止処理選択802は、指定したジョブに対して実行を中止させる場合にそのジョブを選択するための欄である。オペレーターが実行中止処理選択802を選択すると、レ点が表示される。
ジョブ名称803は、ジョブの名前を示す。
エージェントホスト名804は、ジョブを実行するエージェントのホスト名を示す。
業務継続可否805は、ジョブを実行していたメインサイト101および広域エリア121内の各エージェントが実行していた業務を継続することが可能か否かを示す。ここで、継続可能には、代替サーバーに切り替えて継続可能な場合も含む。
状態806は、障害発生時のジョブの実行状態を示す。
確定ボタン807は、オペレーターが処理項目(再実行処理選択801、実行中止処理選択802)の選択を終えたときに押下する。
ジョブ一覧ウィンドウ800は、復旧支援のための作業をガイドする。オペレーターはジョブ毎にGUIでその状態を確認しながら、個別あるいは一括の運用切り替え操作を行うことが可能となる。
FIG. 11 shows an example of the job list window 800 displayed in step S208.
The recovery support unit 212 displays the job list window 800 based on the job continuation permission information stored in the continuation status management table 400 in FIG. 5 and the job status information stored in the job status information management table 500 in FIG. create.
The job list window 800 includes a selection column for processing items (re-execution processing selection 801 and execution cancellation processing selection 802), a job name 803, an agent host name 804, a business continuation propriety 805, a status 806 display column, and a confirmation button 807. Including.
The re-execution process selection 801 is a column for selecting a job when the specified job is re-executed. When the operator selects the re-execution process selection 801, a check mark is displayed.
The execution cancellation process selection 802 is a column for selecting a job when the execution of the designated job is to be canceled. When the operator selects the execution cancellation process selection 802, a check mark is displayed.
A job name 803 indicates the name of the job.
The agent host name 804 indicates the host name of the agent that executes the job.
The business continuation permission / inhibition 805 indicates whether or not the business performed by each agent in the main site 101 and the wide area 121 that has executed the job can be continued. Here, “continuable” includes a case where switching to an alternative server can be continued.
A status 806 indicates the job execution status when a failure occurs.
The confirm button 807 is pressed when the operator finishes selecting the processing items (re-execution process selection 801 and execution cancellation process selection 802).
The job list window 800 guides work for recovery support. The operator can perform an operation switching operation individually or collectively while checking the status of each job using the GUI.

図12は、ステップS205およびステップS210で表示される復旧処理確認メッセージボックス901の一例を示す。オペレーターは、ステップS205およびステップS210で復旧処理の実行を許可する場合はYESボタン902を、復旧処理の実行を許可しない場合はNOボタン903をそれぞれ押下する。   FIG. 12 shows an example of the recovery process confirmation message box 901 displayed in steps S205 and S210. The operator presses the YES button 902 when the execution of the recovery process is permitted in step S205 and step S210, and the NO button 903 when the execution of the recovery process is not permitted.

以上説明したように、本発明によれば、オペレーターが運用切り替え操作を行う際、ジョブ管理システムでの運用引き継ぎに必要な情報をGUIで一覧表示したり、一括操作したりすることにより、復旧作業をガイドすることができる。このため、業務システムが停止し、オペレーターが運用切り替え操作を行う際、オペレーターの作業負担を減らすと共に、業務システムの復旧時間を短縮することができる。   As described above, according to the present invention, when an operator performs an operation switching operation, the restoration work can be performed by displaying a list of information necessary for taking over the operation in the job management system in a GUI or performing a batch operation. Can be guided. For this reason, when the business system is stopped and the operator performs the operation switching operation, it is possible to reduce the work load on the operator and shorten the recovery time of the business system.

100…業務システム、101…メインサイト、102…メインサイトのマネージャー、103…メインサイトのジョブ管理DB、104、105…メインサイトのエージェント、111…リモートサイト、112…リモートサイトのマネージャー、113…リモートサイトのジョブ管理DB、114、115…リモートサイトのエージェント、116…オペレーター端末、121…広域エリア、122、123…広域エリアのエージェント、200…ジョブ管理部、210…障害復旧支援システム、211…業務継続状況確認部、212…復旧支援部、300…エージェント運用情報管理テーブル、400…継続状況管理テーブル、500…ジョブ状態情報管理テーブル、601…操作対象一覧選択ウィンドウ、700…エージェント一覧ウィンドウ、800…ジョブ一覧ウィンドウ、901…復旧処理確認メッセージボックス DESCRIPTION OF SYMBOLS 100 ... Business system, 101 ... Main site, 102 ... Main site manager, 103 ... Main site job management DB, 104, 105 ... Main site agent, 111 ... Remote site, 112 ... Remote site manager, 113 ... Remote site job management DB, 114, 115 ... Remote site agent, 116 ... Operator terminal, 121 ... Wide area, 122, 123 ... Wide area agent, 200 ... Job management unit, 210 ... Failure recovery support system, 211 ... Business continuity confirmation unit 212 ... Recovery support unit, 300 ... Agent operation information management table, 400 ... Continuation status management table, 500 ... Job status information management table, 601 ... Operation target list selection window, 700 ... Agent list Indou, 800 ... job list window, 901 ... recovery process confirmation message box

Claims (2)

メインサイトに配置されたマネージャーおよび複数のエージェントと、当該メインサイトのマネージャーおよび各エージェントの代替サーバーとしてリモートサイトに配置されたマネージャーおよび複数のエージェントと、前記メインサイトおよび前記リモートサイト以外のエリアに配置された複数のエージェントとを備え、前記メインサイトのマネージャーの運用中に、当該マネージャーによって管理されている前記メインサイトの各エージェントと前記メインサイトおよび前記リモートサイト以外の各エージェントとで実行中の各ジョブについての実行ジョブ情報のうち、障害時の業務引き継ぎに必要な情報を前記メインサイトのマネージャーから前記リモートサイトのマネージャーにコピーする実行ジョブ情報コピー手段を有する業務システムにおいて、前記リモートサイトのマネージャーで動作する障害復旧支援システムであって、
前記メインサイトの各エージェントの代替サーバーとして割り当てられた前記リモートサイトの各エージェントを示す情報を含むエージェント運用情報を記憶するエージェント運用情報記憶手段と、
障害発生時に、前記メインサイトのマネージャーによって管理されていた各エージェントが、障害発生前に実行していた業務を継続することが可能か否かを確認し、当該各エージェントの業務継続可否を示す業務継続可否情報を作成する業務継続状況確認手段と、
障害発生時に、前記メインサイトのマネージャーによって管理されていた各エージェントについて、前記業務継続可否情報と前記エージェント運用情報記憶手段によって記憶されているエージェント運用情報とを表示し、オペレーターによって入力される再実行対象および実行中止対象のエージェントの選択を受け付けて、再実行対象に選択されたエージェントを再実行させ、実行中止対象に選択されたエージェントの実行を中止させるエージェント復旧支援手段と、
を備えることを特徴とする障害復旧支援システム。
A manager and a plurality of agents arranged at the main site, a manager and a plurality of agents arranged at a remote site as an alternative server for the manager and each agent of the main site, and a plurality arranged at an area other than the main site and the remote site Execution job information on each job being executed by each agent of the main site managed by the manager and each of the agents other than the main site and the remote site during operation of the manager of the main site Among these, a job having an execution job information copy means for copying information necessary for taking over the job at the time of failure from the manager at the main site to the manager at the remote site In the stem, a failure recovery support system that operates the manager of the remote site,
Agent operation information storage means for storing agent operation information including information indicating each agent at the remote site assigned as an alternative server for each agent at the main site;
When a failure occurs, each agent managed by the manager at the main site checks whether it is possible to continue the work that was being executed before the failure, and indicates whether the agent can continue the work. Business continuity confirmation means for creating availability information;
For each agent managed by the manager of the main site at the time of failure, the operation continuity information and the agent operation information stored in the agent operation information storage means are displayed, and the re-execution target input by the operator And agent recovery support means for accepting the selection of the agent to be canceled and re-executing the agent selected as the target for re-execution and canceling the execution of the agent selected as the target for execution cancellation.
A failure recovery support system comprising:
前記実行ジョブ情報が、前記メインサイトのマネージャーによって管理されている各エージェントで実行中のジョブ毎に、当該各ジョブが実行されているエージェントと当該各ジョブの実行状態とを示すジョブ状態情報を含み、
障害発生時に、前記メインサイトのマネージャーによって管理された各エージェントで実行されていた各ジョブについて、当該各ジョブを実行していたエージェントの前記業務継続可否情報と前記実行ジョブ情報コピー手段によってコピーされた各ジョブのジョブ状態情報とを表示し、オペレーターによって入力される再実行対象および実行中止対象のジョブの選択を受け付けて、再実行対象に選択されたジョブを再実行させ、実行中止対象に選択されたジョブの実行を中止させるジョブ復旧支援手段と、
を備えることを特徴とする請求項1に記載の障害復旧支援システム。
The execution job information includes, for each job being executed by each agent managed by the manager of the main site, job status information indicating the agent executing the job and the execution status of each job,
For each job executed by each agent managed by the manager of the main site at the time of failure, the business continuity information of the agent executing the job and each copy copied by the execution job information copying means The job status information of the job is displayed, the selection of the job to be re-executed and the target of execution cancellation input by the operator is accepted, the job selected for re-execution is re-executed, and the job is selected for execution cancellation Job recovery support means for canceling job execution,
The failure recovery support system according to claim 1, further comprising:
JP2013199164A 2013-09-26 2013-09-26 Fault recovery support system Pending JP2015064806A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013199164A JP2015064806A (en) 2013-09-26 2013-09-26 Fault recovery support system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013199164A JP2015064806A (en) 2013-09-26 2013-09-26 Fault recovery support system

Publications (1)

Publication Number Publication Date
JP2015064806A true JP2015064806A (en) 2015-04-09

Family

ID=52832613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013199164A Pending JP2015064806A (en) 2013-09-26 2013-09-26 Fault recovery support system

Country Status (1)

Country Link
JP (1) JP2015064806A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017123048A (en) * 2016-01-07 2017-07-13 富士通株式会社 Parallel processor, job monitoring method, and job monitoring program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017123048A (en) * 2016-01-07 2017-07-13 富士通株式会社 Parallel processor, job monitoring method, and job monitoring program

Similar Documents

Publication Publication Date Title
EP2864885B1 (en) System and method for datacenters disaster recovery
US8024536B2 (en) Method of constructing replication environment and storage system
US7747898B1 (en) High-availability data center
US20080276239A1 (en) Recovery and restart of a batch application
JP2007206759A (en) Storage system
JP2009032014A (en) Storage system and method for managing the same
JP2007156679A (en) Failure recovery method for server, and database system
JP5512442B2 (en) Management device, method and program for disaster recovery system
JP2013171301A (en) Device, method, and program for job continuation management
US11640340B2 (en) System and method for backing up highly available source databases in a hyperconverged system
US8112598B2 (en) Apparatus and method for controlling copying
JP2010231502A (en) Job processing method, computer-readable recording medium having stored job processing program, and job processing system
EP2645635A1 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
JP7096494B2 (en) Reservation management system, reservation management method, and reservation management program
US8103905B2 (en) Detecting and recovering from process failures
EP3961420A1 (en) Multi-cluster database management services
JP2010176303A (en) Batch processing system, information terminal apparatus for use in the same, and method for recovering batch processing
JP2007328711A (en) Method of changing configuration of unshared database system, management server and unshared database system
JP4572581B2 (en) Database processing method and system, and processing program therefor
JP2015064806A (en) Fault recovery support system
US10452321B2 (en) Storage system and control method therefor
JP2009223519A (en) Cluster system and method for selecting master node in system
JP2017004502A (en) Information system and update method
JP2006031350A (en) Computer system, management device, and its program
JP6319214B2 (en) Remote maintenance system and remote maintenance method

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150401

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150413

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150617

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150623