JP2015064806A - Fault recovery support system - Google Patents
Fault recovery support system Download PDFInfo
- Publication number
- JP2015064806A JP2015064806A JP2013199164A JP2013199164A JP2015064806A JP 2015064806 A JP2015064806 A JP 2015064806A JP 2013199164 A JP2013199164 A JP 2013199164A JP 2013199164 A JP2013199164 A JP 2013199164A JP 2015064806 A JP2015064806 A JP 2015064806A
- Authority
- JP
- Japan
- Prior art keywords
- agent
- job
- execution
- manager
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
Description
本発明は、災害等によって障害が発生し、特定のサーバーで運用中のジョブ管理システムが予期せず停止した場合、ディザスター・リカバリーシステムによって、遠隔地に設置された別のサーバーにデータコピーしておいた運用データを元に、運用を継続もしくは再開するシステムにおいて、オペレーターによる運用切り替え操作を支援する障害復旧支援システムに関する。 In the present invention, when a failure occurs due to a disaster or the like, and a job management system operating on a specific server stops unexpectedly, the disaster recovery system copies data to another server installed at a remote location. The present invention relates to a failure recovery support system for supporting an operation switching operation by an operator in a system for continuing or resuming operation based on the operation data stored.
ディザスター・リカバリーシステムは、ソフトウェアおよびハードウェアによるレプリケーションやミラーリングシステムを利用し、運用中のジョブ管理システムのデータを遠隔地にコピーすることで保護する。これにより、ディザスター・リカバリーシステムは、災害発生等によって運用中のジョブ管理システムが予期せず停止した場合、コピーしておいたデータを元に、オペレーターが運用切り替え元(以下、メインサイトという。)から運用切り替え先(以下、リモートサイトという。)に切り替え操作を行うことで、一度停止したジョブ管理システムの運用を継続もしくは再開することを可能としている。 The disaster recovery system uses software and hardware replication and mirroring systems to protect the job management system data in operation by copying it to a remote location. As a result, in the case of a disaster recovery system, if the job management system in operation stops unexpectedly due to a disaster or the like, the operator switches from the operation switching source (hereinafter referred to as the main site) based on the copied data. The operation of the job management system once stopped can be continued or resumed by performing a switching operation from to the operation switching destination (hereinafter referred to as a remote site).
一方、ジョブ管理マネージャーサーバー(以下、マネージャーという。)と、その配下に接続された複数台のジョブ実行エージェントサーバー(以下、エージェントという。)とで構成されるジョブ管理システムでは、エージェントは、マネージャーからのジョブ実行要求に応じてジョブを実行し、実行した結果をジョブ管理マネージャーに報告することで、状態管理されて業務を遂行する。ジョブ管理システムにおいて、ディザスター・リカバリーシステムを使用して運用継続することは、一般的となっている。 On the other hand, in a job management system comprising a job management manager server (hereinafter referred to as a manager) and a plurality of job execution agent servers (hereinafter referred to as agents) connected to the job management agent server, the agent is sent from the manager. The job is executed in response to the job execution request, and the execution result is reported to the job management manager, whereby the status is managed and the job is performed. In a job management system, it is common to continue operation using a disaster recovery system.
マネージャーとその配下のエージェントが接続された業務システムの復旧支援方法として、例えば、特許文献1に記載のものが知られている。特許文献1に記載された技術は、運用中の各サーバーに遠隔地にある代替運用のための別システムのサーバーを予め割り当てておき、自動的な運用継続を可能とし、容易に業務再開することを目的としたものである。
As a restoration support method for a business system in which a manager and its subordinate agents are connected, for example, a method described in
災害による障害発生時に業務システムが停止した場合、オペレーターが運用切り替え操作を行うことでシステムを復旧して運用継続をさせる際には、情報収集を行うと共に面倒な手順を伴う。オペレーターは運用切り替え後に、ジョブの実行を抑止した状態で運用を再開し、メインサイトでのシステム停止時のジョブの状態を確認した後、リモートサイトに反映されていないジョブの状態を変更し、再実行または実行中止する必要がある。 When a business system stops when a failure occurs due to a disaster, when an operator performs an operation switching operation to restore the system and continue the operation, information is collected and a troublesome procedure is involved. After switching the operation, the operator resumes operation with job execution suppressed, checks the job status when the system stops at the main site, changes the job status not reflected on the remote site, and re-executes Or it is necessary to cancel the execution.
また、ジョブ管理システムにおいて、マネージャーが都道府県毎にあり、エージェントが市町村毎の営業店に散在しているなど、広域に分散している場合、エージェントを切り替えるための災害対策用サーバーの設備費用を抑えるため、エージェントの全てに災害対策用サーバーを準備せず、主要なエージェントに対してだけ災害対策用サーバーを準備することがある。このような形態でディザスター・リカバリーシステムを使用して運用継続させる場合、各エージェントの被災状況によって運用継続方法を判断する必要がある。エージェントが数台であれば、1台ずつ確認することも可能だが、数十台、数百台規模のエージェントが存在する場合は、1台ずつ確認するには多くの時間を要し、復旧が遅れる要因となる。 In addition, in the job management system, if there are managers in each prefecture and agents are scattered in sales offices in each municipality, the equipment costs of disaster recovery servers for switching agents can be reduced. In order to suppress this, a disaster recovery server may not be prepared for all agents, but a disaster recovery server may be prepared only for the main agent. When operation is continued using the disaster recovery system in such a form, it is necessary to determine the operation continuation method according to the disaster situation of each agent. If there are several agents, it is possible to check one by one. However, if there are tens or hundreds of agents, it takes a lot of time to check one agent at a time. It becomes a factor to be late.
本発明の目的は、業務システムが停止し、オペレーターが代替サーバーへの運用切り替え操作を行う際、オペレーターの作業負担を減らすと共に、業務システムの復旧時間を短縮することができる障害復旧支援システムを提供することである。 An object of the present invention is to provide a failure recovery support system capable of reducing the work load on an operator and shortening the recovery time of the business system when the business system is stopped and the operator performs an operation switching operation to an alternative server. It is to be.
上記目的を達成するために、本発明の障害復旧支援システムは、
メインサイトに配置されたマネージャーおよび複数のエージェントと、当該メインサイトのマネージャーおよび各エージェントの代替サーバーとしてリモートサイトに配置されたマネージャーおよび複数のエージェントと、前記メインサイトおよび前記リモートサイト以外のエリアに配置された複数のエージェントとを備え、前記メインサイトのマネージャーの運用中に、当該マネージャーによって管理されている前記メインサイトの各エージェントと前記メインサイトおよび前記リモートサイト以外の各エージェントとで実行中の各ジョブについての実行ジョブ情報のうち、障害時の業務引き継ぎに必要な情報を前記メインサイトのマネージャーから前記リモートサイトのマネージャーにコピーする実行ジョブ情報コピー手段を有する業務システムにおいて、前記リモートサイトのマネージャーで動作する障害復旧支援システムであって、
前記メインサイトの各エージェントの代替サーバーとして割り当てられた前記リモートサイトの各エージェントを示す情報を含むエージェント運用情報を記憶するエージェント運用情報記憶手段と、
障害発生時に、前記メインサイトのマネージャーによって管理されていた各エージェントが、障害発生前に実行していた業務を継続することが可能か否かを確認し、当該各エージェントの業務継続可否を示す業務継続可否情報を作成する業務継続状況確認手段と、
障害発生時に、前記メインサイトのマネージャーによって管理されていた各エージェントについて、前記業務継続可否情報と前記エージェント運用情報記憶手段によって記憶されているエージェント運用情報とを表示し、オペレーターによって入力される再実行対象および実行中止対象のエージェントの選択を受け付けて、再実行対象に選択されたエージェントを再実行させ、実行中止対象に選択されたエージェントの実行を中止させるエージェント復旧支援手段と、
を備えることを特徴とする。
In order to achieve the above object, the failure recovery support system of the present invention provides:
A manager and a plurality of agents arranged at the main site, a manager and a plurality of agents arranged at a remote site as an alternative server for the manager and each agent of the main site, and a plurality arranged at an area other than the main site and the remote site Execution job information on each job being executed by each agent of the main site managed by the manager and each of the agents other than the main site and the remote site during operation of the manager of the main site Among these, a job having an execution job information copy means for copying information necessary for taking over the job at the time of failure from the manager at the main site to the manager at the remote site In the stem, a failure recovery support system that operates the manager of the remote site,
Agent operation information storage means for storing agent operation information including information indicating each agent at the remote site assigned as an alternative server for each agent at the main site;
When a failure occurs, each agent managed by the manager at the main site checks whether it is possible to continue the work that was being executed before the failure, and indicates whether the agent can continue the work. Business continuity confirmation means for creating availability information;
For each agent managed by the manager of the main site at the time of failure, the operation continuity information and the agent operation information stored in the agent operation information storage means are displayed, and the re-execution target input by the operator And agent recovery support means for accepting the selection of the agent to be canceled and re-executing the agent selected as the target for re-execution and canceling the execution of the agent selected as the target for execution cancellation.
It is characterized by providing.
好ましくは、本発明の障害復旧支援システムは、 前記実行ジョブ情報が、前記メインサイトのマネージャーによって管理されている各エージェントで実行中のジョブ毎に、当該各ジョブが実行されているエージェントと当該各ジョブの実行状態とを示すジョブ状態情報を含み、
障害発生時に、前記メインサイトのマネージャーによって管理された各エージェントで実行されていた各ジョブについて、当該各ジョブを実行していたエージェントの前記業務継続可否情報と前記実行ジョブ情報コピー手段によってコピーされた各ジョブのジョブ状態情報とを表示し、オペレーターによって入力される再実行対象および実行中止対象のジョブの選択を受け付けて、再実行対象に選択されたジョブを再実行させ、実行中止対象に選択されたジョブの実行を中止させるジョブ復旧支援手段と、
を備えることを特徴とする。
Preferably, in the failure recovery support system of the present invention, for each job being executed by each agent managed by the manager of the main site, the execution job information and the agent executing the job and the job Job status information indicating the execution status of
For each job executed by each agent managed by the manager of the main site at the time of failure, the business continuity information of the agent executing the job and each copy copied by the execution job information copying means The job status information of the job is displayed, the selection of the job to be re-executed and the target of execution cancellation input by the operator is accepted, the job selected for re-execution is re-executed, and the job is selected for execution cancellation Job recovery support means for canceling job execution,
It is characterized by providing.
本発明によれば、業務システムが停止し、オペレーターが代替サーバーへの運用切り替え操作を行う際、オペレーターの作業負担を減らすと共に、業務システムの復旧時間を短縮することができる。 ADVANTAGE OF THE INVENTION According to this invention, when a business system stops and an operator performs operation switching operation to an alternative server, while reducing an operator's work burden, the recovery time of a business system can be shortened.
以下、本発明の実施形態に係る障害復旧支援システムについて図面を参照しながら説明する。なお、実施形態を説明する全図において、共通の構成要素には同一の符号を付し、繰り返しの説明を省略する。 Hereinafter, a failure recovery support system according to an embodiment of the present invention will be described with reference to the drawings. In all the drawings for explaining the embodiments, common constituent elements are denoted by the same reference numerals, and repeated explanation is omitted.
図1は、本発明の実施形態に係る障害復旧支援システムが動作する業務システム100全体の構成の一例を示す。
業務システム100は、メインサイト101と、エージェントが散在した広域エリア121と、リモートサイト111とを有しており、ディザスター・リカバリーシステムとして構成されている。
業務システム100は、ジョブの実行を管理するジョブ管理システムと、業務を実行するためのジョブとを含む。なお、ジョブ管理システムは,業務を構成する作業(プログラム、バッチ処理など)を切り出し,作業の実行順序を定義し,業務フローを決定する。この業務処理の最小単位となる作業をジョブという。
FIG. 1 shows an example of the configuration of the
The
The
メインサイト101は、ジョブを管理するマネージャー102と、ジョブ管理情報を保存するジョブ管理DB(Data Base)103と、マネージャー102からの要求に応じてジョブを実行するエージェント104およびエージェント105とを有する。
広域エリア121は、マネージャー102からの要求に応じてジョブを実行するエージェント122およびエージェント123を有する。
リモートサイト111は、メインサイト101のマネージャー102に障害が発生した場合に業務を引き継いでジョブを管理するマネージャー112と、ジョブ管理情報を保存するジョブ管理DB113と、メインサイト101のエージェント104およびエージェント105に障害が発生した場合に、業務を引き継いでジョブを実行するエージェント114およびエージェント115と、状況や状態を表示するとともに運用切り替え操作を受け付けるGUI(Graphical User Interface)を備えたオペレーター端末116を有する。オペレーター端末116は、後述するエージェント一覧ウィンドウ800等を表示する。
メインサイト101のマネージャー102と、メインサイト101のエージェント104、105と、リモートサイト111のマネージャー112と、リモートサイト111のエージェント114、115と、広域エリア121のエージェント122、123とはネットワークに接続されており、相互に通信することができる。
The
The
The
The
図2は、メインサイト101とリモートサイト111間の、代替サーバーとしての割り当ての一例を示す。
メインサイト101のマネージャー102の代替サーバーとして、リモートサイト111のマネージャー112が割り当てられている。障害が発生してマネージャー102が停止した場合、マネージャー112がその業務を引き継いで継続する。同様に、エージェント104とエージェント105の代替サーバーとしてそれぞれエージェント114とエージェント115が割り当てられている。広域エリア121のエージェント122およびエージェント123の代替サーバーは存在しない。
なお、メインサイト101のマネージャー102と各エージェント104、105とは遠隔地に配置されていてもよく、リモートサイト111のマネージャー112と各エージェント114、115とも遠隔地に配置されていてもよい。また、広域エリア121の各エージェント122、123は、メインサイト101のマネージャー102やリモートサイト111のマネージャー112の近くに配置されていてもよい。
FIG. 2 shows an example of assignment as an alternative server between the
A
Note that the
マネージャー102、112およびエージェント104、105、114、115、122、123は、全てコンピュータであって、CPU(Central Processing Unit)と、RAM(Random Access Memory)等で構成される主メモリと、ハードディスク等で構成される記憶装置とを有する。
リモートサイト111のマネージャー112が、その記憶装置に格納されている所定のプログラムを主メモリに読み込んで実行することにより、図3に示すように、ジョブ管理部200と、業務継続状況確認部211および復旧支援部212を有する障害復旧支援システム210との各機能が実現される。
なお、1台のコンピュータ上でマネージャーとエージェントの両方の機能を実現することもできる。また、メインサイト101のジョブ管理DB103は、そのデータがマネージャー102の記憶装置に格納されており、マネージャー102のCPUがデータベース管理プログラムを実行する構成でもよく、リモートサイト111のジョブ管理DB113も、そのデータがマネージャー112の記憶装置に格納されており、マネージャー112のCPUがデータベース管理プログラムを実行する構成でもよい。
The
When the
Note that both the manager and agent functions can be realized on a single computer. The
メインサイト101のマネージャー102は、エージェント104、105、122、123を管理し、所定の業務を遂行する。業務システム100はディザスター・リカバリーシステムである。メインサイト101のマネージャー102のデータは、その運用中にリモートサイト111のマネージャー112にコピーされる(複製される)ことで保護されている。なお、マネージャー102は、その運用中にエージェント104、105で実行されるジョブのスケジューリングやエージェント104、105における実行結果のようなエージェント104、105に関するデータをマネージャー102自身の記憶装置に保存している。リモートサイト111のマネージャー112にコピーされることで保護されるデータには、このようなエージェント104、105に関するデータも含まれる。
障害復旧支援システム210は、リモートサイト111のマネージャー112で動作する。障害復旧支援システム210は、メインサイト101のマネージャー102に障害が発生した場合に、リモートサイト111のマネージャー112によるジョブ管理システムの復旧を支援する。
メインサイト101がダウンし、ジョブ管理システムに障害が発生したとき、業務システム100のオペレーターは、障害復旧支援システム210を用い、ジョブ管理システムを復旧させ、マネージャー112のジョブ管理部200を動作させる。ジョブ管理部200は、エージェント104、105またはエージェント114、115、およびエージェント122、123を管理し、業務を再開する。
このとき、障害復旧支援システム210の業務継続状況確認部211は、障害発生時に、障害発生前に運用されていたメインサイト101および広域エリア121内の各エージェントが、障害発生前に実行していた業務を継続することが可能か否かを確認し、各エージェントの業務継続可否を示す業務継続可否情報を作成する。
復旧支援部212は、後述する図10のエージェント一覧ウィンドウ700または図11のジョブ一覧ウィンドウ800をオペレーター端末116に表示し、オペレーターによって入力される再実行対象および実行中止対象のエージェントまたはジョブの選択を受け付け、再実行対象に選択されたエージェントまたはジョブを再実行させ、実行中止対象に選択されたエージェントまたはジョブの実行を中止させる。
なお、業務継続状況確認部211は業務継続状況確認手段の一例であり、復旧支援部212は本発明のエージェント復旧支援手段およびジョブ復旧支援手段の一例である。
The
The failure
When the
At this time, the business continuation
The
The business
また、リモートサイト111のマネージャー112の記憶装置には、図4のエージェント運用情報管理テーブル300と、図5の継続状況管理テーブル400と、図6のジョブ状態情報管理テーブル500とが格納されている。
図4のエージェント運用情報管理テーブル300は、運用中のエージェント毎に、エージェント運用情報を格納する。エージェント運用情報は、エージェントホスト名301と、エージェントIP(Internet Protocol)アドレス302と、代替サーバーホスト名303と、代替サーバーIPアドレス304と、業務実行時間帯305と、復旧優先度306とを含む。
エージェントホスト名301とエージェントIPアドレス302とは、メインサイト101および広域エリア121のエージェントのホスト名とIPアドレスとを示す。
代替サーバーホスト名303と代替サーバーIPアドレス304とは、メインサイト101のエージェントの代替サーバーとして割り当てられているリモートサイト111のエージェントのホスト名とIPアドレスとを示す。
業務実行時間帯305は、エージェントが業務を実行する時間帯を示す。なお、図4の例では、0が夜間、1がそれ以外を示す。
復旧優先度306は、復旧の優先度を示し、例えば、数値が低いほど復旧優先度が高いことを示す。
エージェント運用情報管理テーブル300は、予めジョブ管理システム100のオペレーターによって作成され、リモートサイト111のマネージャー112に登録される。ジョブ管理システム100のオペレーターは、エージェント運用情報管理テーブル300を任意のタイミングで更新することができる。
なお、エージェント運用情報管理テーブル300は本発明のエージェント運用情報記憶手段の一例である。
The storage device of the
The agent operation information management table 300 in FIG. 4 stores agent operation information for each agent in operation. The agent operation information includes an
The
The substitute
The business
The
The agent operation information management table 300 is created in advance by an operator of the
The agent operation information management table 300 is an example of the agent operation information storage unit of the present invention.
図5の継続状況管理テーブル400は、業務継続可否情報を格納する。業務継続可否情報は、ホスト名401と、業務継続可否402とを含む。
ホスト名401は、メインサイト101および広域エリア121のエージェントのホスト名を示す。
業務継続可否402は、メインサイト101で災害等が発生し、障害により業務システムが停止した場合に、メインサイト101および広域エリア121内の各エージェントが実行していた業務を継続することが可能か否かを示す。ここで、継続可能には、代替サーバーに切り替えて継続可能な場合も含む。業務継続可否402は、後述するように、業務継続状況確認部211によって設定される。
継続状況管理テーブル400は、災害発生時等に,メインサイト101および広域エリア121内のどのエージェントが実行していた業務を継続することが可能かを管理する。なお、代替サーバーが用意されている各エージェントについて、リモートサイト111のマネージャー112に切り替わった後、メインサイト101のエージェントと代替サーバーのどちらがジョブを継続して実行するのかという情報(ジョブ実行ホスト名)は、ジョブ管理システムが管理する。
The continuation status management table 400 in FIG. 5 stores business continuation permission / inhibition information. The business continuation permission / inhibition information includes a
The
The business continuation permission /
The continuation status management table 400 manages which agents in the
図6のジョブ状態情報管理テーブル500は、ジョブ状態情報を格納する。ジョブ状態情報は、ジョブID501と、業務ID502と、ジョブ名称503と、実行ホスト名504と、状態505とを含む。
ジョブID501は、全てのジョブを一意に識別するジョブ識別情報である。
業務ID502は、業務ごとに設定され、全ての業務を一意に識別する業務識別情報である。
ジョブ名称503は、各ジョブの名前を示す。
実行ホスト名504は、各ジョブを実行するエージェントのホスト名を示す。なお、ジョブID501=「1000」、ジョブ名称503=「業務グループ1」は、ジョブA〜Dをまとめて作業の順序を定義したジョブネットであるため、実行ホスト名504が空白である。
状態505は、各ジョブの実行状態を示す。なお、実行状態には、正常終了、異常終了、および未実行等がある。
ジョブ状態情報管理テーブル500は、ジョブ管理システムによって管理される。ディザスター・リカバリーシステムが適用されたジョブ管理システムは、メインサイト101のマネージャー102の運用中に、マネージャー102によって管理されている各エージェントで実行中の各ジョブについての実行ジョブ情報のうち、障害時の業務引き継ぎに必要な情報をメインサイト101のマネージャー102からリモートサイト111のマネージャー112にコピーする(複製する)。実行ジョブ情報には、ジョブ状態情報が含まれる。すなわち、ディザスター・リカバリーシステムを適用したジョブ管理システムは、ジョブ状態情報を含めて障害時の業務引き継ぎに必要な情報を、メインサイト101のマネージャー102からリモートサイト111のマネージャー112に送信し、リモートサイト111のマネージャー112の記憶装置等に受信した情報を記憶させる。
なお、ジョブ管理システムは本発明の実行ジョブ情報コピー手段の一例である。
The job status information management table 500 in FIG. 6 stores job status information. The job status information includes a
The
The
A
The
A
The job status information management table 500 is managed by a job management system. The job management system to which the disaster recovery system is applied is a part of the execution job information for each job being executed by each agent managed by the
The job management system is an example of an execution job information copy unit according to the present invention.
図7は、業務継続状況確認部211における業務継続状況確認処理の流れの一例を示す。
業務継続状況確認処理は、メインサイト101で災害等が発生し、障害により業務システム100が停止した場合に、リモートサイト101のマネージャー102において起動される。
障害復旧支援システム210は、エージェントやジョブ毎の状況や状態を確認しながら復旧する必要があるため、ジョブが勝手に実行されないようにジョブ実行抑止状態でリモートサイト111のマネージャー112を起動する(S101)。そして、業務継続状況確認部211は、以降のエージェント継続可否を対象のエージェント毎に判断する(S102)。
業務継続状況確認部211は、エージェントへ接続を試み(S103)、接続可否を判断する(S104)。接続可能であった場合(S104:Yes)、業務継続状況確認部211は、このエージェントは継続可として図5の継続状況管理テーブル400を更新する(S107)。一方、接続不可能であった場合(S104:No)、業務継続状況確認部211は、このエージェントの代替サーバーの有無で判断する(S105)。代替サーバーが存在する場合(S105:Yes)、業務継続状況確認部211は、このエージェントは継続可として継続状況管理テーブル400を更新する(S107)。代替サーバーが存在しない場合(S105:No)、業務継続状況確認部211は、このエージェントは継続不可として継続状況管理テーブル400を更新する(S106)。業務継続状況確認部211が対象のエージェントすべてに対して業務継続状況確認処理を完了した後、復旧支援部212がオペレーター端末116にGUI画面を表示する(S108)。
FIG. 7 shows an example of the flow of business continuity status confirmation processing in the business continuity
The business continuation status confirmation process is started in the
The failure
The business
図8は、復旧支援部212における復旧支援処理の流れの一例を示す。
復旧支援部212は、後述する図9の操作対象一覧選択ウィンドウ601をオペレーター端末116に表示し(S201)、後述する図10のエージェント一覧ウィンドウ700と図11のジョブ一覧ウィンドウ800のどちらのGUI画面で操作するかをオペレーターに判断させる(S202)。
オペレーターがエージェント一覧ウィンドウ700を選択する(S202:Yes)と、復旧支援部212は、図10のエージェント一覧ウィンドウ700をオペレーター端末116に表示する(S203)。オペレーターは、各エージェントの業務継続可否707や復旧優先度706などの情報を確認しながら、処理項目(再実行処理選択701、実行中止処理選択702)を選択し、確定ボタン708を押下する(S204)。個別で処理させることも可能だが、同様の対処をさせたいエージェントを複数選択し、一括で処理させることもできる。確定ボタン708が押下されると、復旧支援部212は、後述する図12の復旧処理確認メッセージボックス901をオペレーター端末116に表示し(S205)、復旧処理の実行許可をオペレーターに判断させる(S206)。復旧処理の実行が許可されなかった場合(S206:No)、復旧支援部212はステップS204に戻る。復旧処理の実行が許可された場合(S207:Yes)、復旧支援部212は、このエージェントで実行される全ジョブに対し、選択された処理を実行し(S207)、その結果でジョブの状態を更新する(S213)。
FIG. 8 shows an example of the flow of recovery support processing in the
The
When the operator selects the agent list window 700 (S202: Yes), the
ステップS202でオペレーターがジョブ一覧を選択する(S202:No)と、復旧支援部212は、図11のジョブ一覧ウィンドウ800をオペレーター端末116に表示する(S208)。オペレーターは、各ジョブの状態806などの情報を確認しながら、処理項目(再実行処理選択801、実行中止処理選択802)を選択し、確定ボタン807を押下する(S209)。個別で処理させることも可能だが、同様の対処をさせたいジョブを複数選択し、一括で処理させることもできる。確定ボタン807が押下されると、復旧支援部212は、図12の復旧処理確認メッセージボックス901をオペレーター端末116に表示し(S210)、復旧処理の実行許可をオペレーターに判断させる(S211)。復旧処理の実行が許可されなかった場合(S211:No)、復旧支援部212はステップS209に戻る。復旧処理の実行が許可された場合(S211:Yes)、復旧支援部212は、このジョブに対し、選択された処理を実行し(S212)、その結果で該ジョブの状態を更新する(S213)。
When the operator selects a job list in step S202 (S202: No), the
図9は、ステップS201で表示される操作対象一覧選択ウィンドウ601の一例を示す。操作対象一覧選択ウィンドウ601により、オペレーターが復旧処理を行う対象として、エージェント一覧またはジョブ一覧を選択することができる。オペレーターはステップS203でエージェント一覧ウィンドウ700を表示させる場合はエージェント一覧ボタン602を、ステップS208でジョブ一覧ウィンドウ800を表示させる場合はジョブ一覧ボタン603をそれぞれ押下する。
FIG. 9 shows an example of the operation target
図10は、ステップS203で表示されるエージェント一覧ウィンドウ700の一例を示す。
復旧支援部212は、図4のエージェント運用管理テーブル300に格納されているエージェント運用情報と図5の継続状況管理テーブル400に格納されている業務継続可否情報とに基づいてエージェント一覧ウィンドウ700を作成する。
エージェント一覧ウィンドウ700は、処理項目(再実行処理選択701、実行中止処理選択702)の選択欄、エージェントホスト名703と代替サーバーホスト名704と業務実行時間帯705と復旧優先度706と業務継続可否707の表示欄、および確定ボタン708を含む。
再実行処理選択701は、エージェントを実行先としている全ジョブに対して再実行させる場合にそのエージェントを選択するための欄である。オペレーターが再実行処理選択701を選択すると、レ点が表示される。
実行中止処理選択702は、エージェントを実行先としている全ジョブに対して実行を中止させる場合にそのエージェントを選択するための欄である。オペレーターが実行中止処理選択702を選択すると、レ点が表示される。
エージェントホスト名703は、ジョブを実行するエージェントのホスト名を示す。
代替サーバーホスト名704は、代替サーバーとして割り当てられているリモートサイト111のエージェントのホスト名を示す。
業務実行時間帯705は、エージェントが業務を実行する時間帯を示す。なお、図10の例では、0が夜間、1がそれ以外を示す。
復旧優先度706は、復旧優先度を示し、例えば、数値が低いほど復旧優先度が高いことを示す。
業務継続可否707は、メインサイト101および広域エリア121内の各エージェントが実行していた業務を継続することが可能か否かを示す。ここで、継続可能には、代替サーバーに切り替えて継続可能な場合も含む。
確定ボタン708は、オペレーターが処理項目(再実行処理選択701、実行中止処理選択702)の選択を終えたときに押下する。
エージェント一覧ウィンドウ700は、復旧支援のための作業をガイドする。オペレーターは、エージェント一覧ウィンドウ700により、エージェント毎に運用継続方法の判断材料となる情報をGUIで確認しながら、各エージェントが実行先となっているジョブに対して、個別あるいは一括の運用切り替え操作を行うことが可能となる。
FIG. 10 shows an example of the
The
The
The
The execution
The
The substitute
The business
The
The business continuation permission /
The
The
図11は、ステップS208で表示されるジョブ一覧ウィンドウ800の一例を示す。
復旧支援部212は、図5の継続状況管理テーブル400に格納されている業務継続可否情報と図6のジョブ状態情報管理テーブル500に格納されているジョブ状態情報とに基づいてジョブ一覧ウィンドウ800を作成する。
ジョブ一覧ウィンドウ800は、処理項目(再実行処理選択801、実行中止処理選択802)の選択欄、ジョブ名称803とエージェントホスト名804と業務継続可否805と状態806の表示欄、および確定ボタン807を含む。
再実行処理選択801は、指定したジョブに対して再実行させる場合にそのジョブを選択するための欄である。オペレーターが再実行処理選択801を選択すると、レ点が表示される。
実行中止処理選択802は、指定したジョブに対して実行を中止させる場合にそのジョブを選択するための欄である。オペレーターが実行中止処理選択802を選択すると、レ点が表示される。
ジョブ名称803は、ジョブの名前を示す。
エージェントホスト名804は、ジョブを実行するエージェントのホスト名を示す。
業務継続可否805は、ジョブを実行していたメインサイト101および広域エリア121内の各エージェントが実行していた業務を継続することが可能か否かを示す。ここで、継続可能には、代替サーバーに切り替えて継続可能な場合も含む。
状態806は、障害発生時のジョブの実行状態を示す。
確定ボタン807は、オペレーターが処理項目(再実行処理選択801、実行中止処理選択802)の選択を終えたときに押下する。
ジョブ一覧ウィンドウ800は、復旧支援のための作業をガイドする。オペレーターはジョブ毎にGUIでその状態を確認しながら、個別あるいは一括の運用切り替え操作を行うことが可能となる。
FIG. 11 shows an example of the
The
The
The
The execution
A
The
The business continuation permission /
A
The
The
図12は、ステップS205およびステップS210で表示される復旧処理確認メッセージボックス901の一例を示す。オペレーターは、ステップS205およびステップS210で復旧処理の実行を許可する場合はYESボタン902を、復旧処理の実行を許可しない場合はNOボタン903をそれぞれ押下する。
FIG. 12 shows an example of the recovery process
以上説明したように、本発明によれば、オペレーターが運用切り替え操作を行う際、ジョブ管理システムでの運用引き継ぎに必要な情報をGUIで一覧表示したり、一括操作したりすることにより、復旧作業をガイドすることができる。このため、業務システムが停止し、オペレーターが運用切り替え操作を行う際、オペレーターの作業負担を減らすと共に、業務システムの復旧時間を短縮することができる。 As described above, according to the present invention, when an operator performs an operation switching operation, the restoration work can be performed by displaying a list of information necessary for taking over the operation in the job management system in a GUI or performing a batch operation. Can be guided. For this reason, when the business system is stopped and the operator performs the operation switching operation, it is possible to reduce the work load on the operator and shorten the recovery time of the business system.
100…業務システム、101…メインサイト、102…メインサイトのマネージャー、103…メインサイトのジョブ管理DB、104、105…メインサイトのエージェント、111…リモートサイト、112…リモートサイトのマネージャー、113…リモートサイトのジョブ管理DB、114、115…リモートサイトのエージェント、116…オペレーター端末、121…広域エリア、122、123…広域エリアのエージェント、200…ジョブ管理部、210…障害復旧支援システム、211…業務継続状況確認部、212…復旧支援部、300…エージェント運用情報管理テーブル、400…継続状況管理テーブル、500…ジョブ状態情報管理テーブル、601…操作対象一覧選択ウィンドウ、700…エージェント一覧ウィンドウ、800…ジョブ一覧ウィンドウ、901…復旧処理確認メッセージボックス
DESCRIPTION OF
Claims (2)
前記メインサイトの各エージェントの代替サーバーとして割り当てられた前記リモートサイトの各エージェントを示す情報を含むエージェント運用情報を記憶するエージェント運用情報記憶手段と、
障害発生時に、前記メインサイトのマネージャーによって管理されていた各エージェントが、障害発生前に実行していた業務を継続することが可能か否かを確認し、当該各エージェントの業務継続可否を示す業務継続可否情報を作成する業務継続状況確認手段と、
障害発生時に、前記メインサイトのマネージャーによって管理されていた各エージェントについて、前記業務継続可否情報と前記エージェント運用情報記憶手段によって記憶されているエージェント運用情報とを表示し、オペレーターによって入力される再実行対象および実行中止対象のエージェントの選択を受け付けて、再実行対象に選択されたエージェントを再実行させ、実行中止対象に選択されたエージェントの実行を中止させるエージェント復旧支援手段と、
を備えることを特徴とする障害復旧支援システム。 A manager and a plurality of agents arranged at the main site, a manager and a plurality of agents arranged at a remote site as an alternative server for the manager and each agent of the main site, and a plurality arranged at an area other than the main site and the remote site Execution job information on each job being executed by each agent of the main site managed by the manager and each of the agents other than the main site and the remote site during operation of the manager of the main site Among these, a job having an execution job information copy means for copying information necessary for taking over the job at the time of failure from the manager at the main site to the manager at the remote site In the stem, a failure recovery support system that operates the manager of the remote site,
Agent operation information storage means for storing agent operation information including information indicating each agent at the remote site assigned as an alternative server for each agent at the main site;
When a failure occurs, each agent managed by the manager at the main site checks whether it is possible to continue the work that was being executed before the failure, and indicates whether the agent can continue the work. Business continuity confirmation means for creating availability information;
For each agent managed by the manager of the main site at the time of failure, the operation continuity information and the agent operation information stored in the agent operation information storage means are displayed, and the re-execution target input by the operator And agent recovery support means for accepting the selection of the agent to be canceled and re-executing the agent selected as the target for re-execution and canceling the execution of the agent selected as the target for execution cancellation.
A failure recovery support system comprising:
障害発生時に、前記メインサイトのマネージャーによって管理された各エージェントで実行されていた各ジョブについて、当該各ジョブを実行していたエージェントの前記業務継続可否情報と前記実行ジョブ情報コピー手段によってコピーされた各ジョブのジョブ状態情報とを表示し、オペレーターによって入力される再実行対象および実行中止対象のジョブの選択を受け付けて、再実行対象に選択されたジョブを再実行させ、実行中止対象に選択されたジョブの実行を中止させるジョブ復旧支援手段と、
を備えることを特徴とする請求項1に記載の障害復旧支援システム。 The execution job information includes, for each job being executed by each agent managed by the manager of the main site, job status information indicating the agent executing the job and the execution status of each job,
For each job executed by each agent managed by the manager of the main site at the time of failure, the business continuity information of the agent executing the job and each copy copied by the execution job information copying means The job status information of the job is displayed, the selection of the job to be re-executed and the target of execution cancellation input by the operator is accepted, the job selected for re-execution is re-executed, and the job is selected for execution cancellation Job recovery support means for canceling job execution,
The failure recovery support system according to claim 1, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013199164A JP2015064806A (en) | 2013-09-26 | 2013-09-26 | Fault recovery support system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013199164A JP2015064806A (en) | 2013-09-26 | 2013-09-26 | Fault recovery support system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015064806A true JP2015064806A (en) | 2015-04-09 |
Family
ID=52832613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013199164A Pending JP2015064806A (en) | 2013-09-26 | 2013-09-26 | Fault recovery support system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015064806A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017123048A (en) * | 2016-01-07 | 2017-07-13 | 富士通株式会社 | Parallel processor, job monitoring method, and job monitoring program |
-
2013
- 2013-09-26 JP JP2013199164A patent/JP2015064806A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017123048A (en) * | 2016-01-07 | 2017-07-13 | 富士通株式会社 | Parallel processor, job monitoring method, and job monitoring program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2864885B1 (en) | System and method for datacenters disaster recovery | |
US8024536B2 (en) | Method of constructing replication environment and storage system | |
US7747898B1 (en) | High-availability data center | |
US20080276239A1 (en) | Recovery and restart of a batch application | |
JP2007206759A (en) | Storage system | |
JP2009032014A (en) | Storage system and method for managing the same | |
JP2007156679A (en) | Failure recovery method for server, and database system | |
JP5512442B2 (en) | Management device, method and program for disaster recovery system | |
JP2013171301A (en) | Device, method, and program for job continuation management | |
US11640340B2 (en) | System and method for backing up highly available source databases in a hyperconverged system | |
US8112598B2 (en) | Apparatus and method for controlling copying | |
JP2010231502A (en) | Job processing method, computer-readable recording medium having stored job processing program, and job processing system | |
EP2645635A1 (en) | Cluster monitor, method for monitoring a cluster, and computer-readable recording medium | |
JP7096494B2 (en) | Reservation management system, reservation management method, and reservation management program | |
US8103905B2 (en) | Detecting and recovering from process failures | |
EP3961420A1 (en) | Multi-cluster database management services | |
JP2010176303A (en) | Batch processing system, information terminal apparatus for use in the same, and method for recovering batch processing | |
JP2007328711A (en) | Method of changing configuration of unshared database system, management server and unshared database system | |
JP4572581B2 (en) | Database processing method and system, and processing program therefor | |
JP2015064806A (en) | Fault recovery support system | |
US10452321B2 (en) | Storage system and control method therefor | |
JP2009223519A (en) | Cluster system and method for selecting master node in system | |
JP2017004502A (en) | Information system and update method | |
JP2006031350A (en) | Computer system, management device, and its program | |
JP6319214B2 (en) | Remote maintenance system and remote maintenance method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150401 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150413 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150617 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150623 |