JP5625243B2 - 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム - Google Patents

情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム Download PDF

Info

Publication number
JP5625243B2
JP5625243B2 JP2009043442A JP2009043442A JP5625243B2 JP 5625243 B2 JP5625243 B2 JP 5625243B2 JP 2009043442 A JP2009043442 A JP 2009043442A JP 2009043442 A JP2009043442 A JP 2009043442A JP 5625243 B2 JP5625243 B2 JP 5625243B2
Authority
JP
Japan
Prior art keywords
master
base
job
site
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009043442A
Other languages
English (en)
Other versions
JP2010198404A (ja
Inventor
義郎 内藤
義郎 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009043442A priority Critical patent/JP5625243B2/ja
Publication of JP2010198404A publication Critical patent/JP2010198404A/ja
Application granted granted Critical
Publication of JP5625243B2 publication Critical patent/JP5625243B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

本発明は、情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラムに関し、特にジョブ実行環境におけるディザスタリカバリ技術に関する。
近年、ビジネス継続性の観点から自然災害などで被害を受けたシステムを復旧・修復するディザスタリカバリの重要性が高まっている。また、遠隔地の複数の拠点同士がIP(Internet Protocol)網で常時接続される環境も珍しくなくなり、ディザスタリカバリを実現するための技術的土壌も整ってきたといえる。このような環境を背景に業務の基幹システムとして運用されることが多いジョブ実行、管理機能に適した、高度で柔軟なディザスタリカバリ機能を提案することが求められている。
ここで、特許文献1には、ネットワークを介して複数のノードを接続したクラスタシステム中に、ある特定業務を運用する唯一のサーバの存在を決定するノード決定方法が開示されている。当該ノード決定方法では、主サーバ候補ノード群に属するサーバの各々は、立上げ時に、主サーバの選出判断に必要な自己の広報情報を他の全てのノードに提示して立候補する。そして、主サーバ候補ノード群に属するサーバの各々は、自己の広報情報と立候補した他のノードの広報情報とを比較し、自己が適切でないと判断した場合に自己の広報情報の提示を停止して立候補を取下げ、主サーバ候補ノード群の中に他のサーバにより承認された唯一の主サーバを存在させている。
また、特許文献2には、適切なジョブの割当処理を行う通信ネットワークシステムにつちて開示されている。当該システムでは、性能テーブル等の情報を基に複数ドメインジョブを割り当てる計算機を決定している。また、当該システムでは、最適な計算機を決定して、障害ジョブに関する情報を送信し、障害ジョブの実行を依頼している。
再公表特許WO01/057685号公報 特開2002−108839号公報
ジョブ実行環境の可用性を高めるために、クラスタソフトを利用して二重化構成を採用することが一般的である。しかしながら、この手法は同一システム内の冗長化であり、災害時にシステム全体が不全に陥ったときには役に立たないという問題がある。災害対策として、ディスク全体を遠隔地にミラーリングしておく手法も提案されているが、複数の遠隔地の拠点にミラーリングされている場合、どの拠点がジョブの引継ぎを行うかという問題がある。また、ジョブの実行環境という観点では、拠点間でジョブの実行環境や条件が異なる場合が考えられ、その場合ジョブの引継ぎをどの拠点が行うのが適切なのかを判断する手法がなかった。
本発明はかかる問題を解決するためになされたものであり、障害が発生した場合に、ジョブの引継を適切に行うことができる情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラムを提供することを目的とする。
本発明にかかる情報処理システムは、相互にネットワークを介して接続された複数の拠点システムを備えた情報処理システムであって、前記拠点システムのそれぞれは、ジョブを実行するジョブ実行システムと、障害管理を実行する障害管理部を備え、当該障害管理部は、自拠点及び他拠点の障害を検出し、障害拠点情報を記憶手段に格納する障害検出復旧手段と、自拠点システムがマスタの場合には、前記記憶手段に格納された障害拠点情報により特定される障害拠点のジョブが引き継ぎ可能かを他の拠点システムに対して問い合わせ、自拠点システムがマスタでない場合には、ジョブの引継が可能かの問い合せに対して記憶手段に格納された当該障害拠点のジョブの実行環境定義書に基づいて当該ジョブの引継の可否について決定してマスタである拠点システムに対して回答するジョブ実行引継手段とを備えたものである。
本発明にかかるディザスタリカバリ方法は、マスタである拠点システムから、障害拠点情報により特定される障害拠点のジョブが引き継ぎ可能かを他の拠点システムに対して問い合わせるステップと、問い合わせを受けた拠点システムは、ジョブの引継が可能かの問い合せに対して、前記障害拠点のジョブの実行環境定義書に基づいて当該ジョブの引継の可否について決定し、マスタである拠点システムに対して回答するステップとを備えたものである。
本発明にかかるディザスタリカバリプログラムは、自拠点及び他拠点の障害を検出し、障害拠点情報を記憶手段に格納するステップと、自拠点システムがマスタの場合には、前記記憶手段に格納された障害拠点情報により特定される障害拠点のジョブが引き継ぎ可能かを他の拠点システムに対して問い合わせるステップと、自拠点システムがマスタでない場合には、ジョブの引継が可能かの問い合せに対して記憶手段に格納された当該障害拠点のジョブの実行環境定義書に基づいて当該ジョブの引継の可否について決定してマスタである拠点システムに対して回答するステップとをコンピュータに対して実行させるものである。
本発明によれば、障害が発生した場合に、ジョブの引継を適切に行うことができる情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラムを提供することができる。
発明の実施の形態1にかかる情報処理システムの構成を示す構成図である。 発明の実施の形態1におけるマスタの選出方法を説明するための説明図である。 発明の実施の形態1におけるマスタの選出方法を説明するための説明図である。 発明の実施の形態1におけるマスタの選出方法を説明するための説明図である。 発明の実施の形態1におけるマスタの選出方法を説明するための説明図である。 発明の実施の形態1にかかる情報処理システムのメタデータ収集配布手段の動作を説明するための説明図である。 発明の実施の形態1にかかる情報処理システムのジョブ実行引継手段の動作を説明するための説明図である。 発明の実施の形態1にかかる情報処理システムにおけるジョブの実行環境定義書の例を示す図である。 発明の実施の形態2にかかる情報処理システムの構成を示す構成図である。
発明の実施の形態1.
本実施の形態1にかかる情報処理システムでは、ジョブに対してジョブの実行における実行環境の条件を定義する、実行環境定義書を用いている。また、当該情報処理システムでは、災害時に複数拠点が処理不能になった場合に、処理不能拠点のジョブの実行環境定義書に一番適合している拠点を探して、ジョブの引継ぎを行う機能を備えている。
また、当該情報処理システムでは、正常時には複数の拠点に分散するジョブ実行環境が、ひとつのマスタジョブ実行環境を中心としたひとつのマスタクラスタを構成し、マスタは全ての環境にジョブ定義、スケジュール、実行ログといった重要なメタデータをリアルタイムで収集、配布を実行している。ここで、実行環境定義書は、ジョブまたは複数のジョブの単位で定義することができる。実行環境定義書には、ジョブ実行における必須条件と付加条件、拠点間の優先度が定義されている。必須または付加条件には、ジョブ実行の前提となる環境の条件(アプリケーションやデータの存在有無)を記述する。これらの条件の確認のための情報は、本実施の形態1にかかる情報処理システム以外の外部システムから入手できる。
当該情報処理システムは、災害等でいくつかのジョブ実行環境が処理不能になったとき、各拠点が定期的なヘルスチェックで処理不能拠点を検知し、過半数以上が通信可能なとき、業務が継続可能と判断して、多数決でマスタを選出する。また、マスタは処理不能拠点のジョブについて、引継ぎ実行権を設定し、正常拠点に引き継ぎが可能かどうか問い合わせる。各拠点は当該ジョブの実行環境定義書を確認し必須条件と付加条件を満たしているか否かをマスタに伝える。マスタは各拠点の回答が揃ったところで、必須条件を満たしている拠点にジョブ引継ぎ実行権を委譲する。複数の拠点が必須条件を満たしているときは付加条件を確認する。付加条件の満たし具合も同じであれば、実行環境定義書の優先度を確認し、優先度の高い拠点にジョブの引継ぎ実行権を委譲する。
図1は、本実施の形態1にかかる情報処理システムの全体構成を示す図である。図に示されるように、当該情報処理システムは、ネットワークで相互接続された拠点A(拠点システム100)、拠点B(拠点システム200)、拠点C(拠点システム300)を備えている。図1においては、拠点Aについてのみ、その内部を詳細に示している。
拠点Aにおける拠点システム100は、ジョブ実行システム1と、当該ジョブ実行システム11と連携して動作する障害管理部2を備えている。ジョブ実行システム1は、従来よりある一般的な構成を有する。ジョブ実行システム1は、マネージャ11とジョブ実行サーバ12を備えている。障害管理部2は、本発明の特徴的な構成を有する。
障害管理部2は、障害検出復旧手段21と、メタデータ収集配布手段22と、ジョブ実行引継手段23とを備えている。これらの手段21〜23は、いずれも、他の拠点の各拠点の障害管理部および自拠点のジョブ実行システム1と協調して動作を行う。また、それぞれの手段21〜23については後に詳述する。
障害管理部2は、マスタクラスタ領域24(マスタクラスタ情報記憶手段)と、メタデータ領域25(メタデータ記憶手段)と、引継領域26(引継情報記憶手段)とを有する記憶手段を備えている。マスタクラスタ領域24は、マスタやマスタクラスタの構成情報を格納する。メタデータ領域25は、ジョブの定義、ジョブ実行のスケジュール定義、実行環境定義書を含むメタデータを格納する。引継領域26は、引き継いだジョブに関する引継情報を格納する。
障害検出復旧手段21は、自拠点の障害を検出した場合に、他の拠点に通知を行う機能を有する。障害検出の情報は、例えば、本実施の形態1にかかる情報処理システム以外のシステムから得られる。また、障害検出復旧手段21は、定期的に各拠点のヘルスチェックを行い、各拠点が正常に動作していることを確認する。
他の拠点からネットワークを介して障害検出通知を受信した場合や、ヘルスチェックに対して一定時間応答がない場合には、当該障害検出復旧手段21は、マスタの再選出処理を開始する。マスタの再選出処理においては、優先度アルゴリズムを使用する。この優先度アルゴリズムは、入れ替え可能であり、どのようにマスタを選出するかについては限定されない。ここで、優先度アルゴリズムの条件は、複数の拠点でいくつかの拠点が障害になったときに、ただひとつのマスタを選出できることである。
障害検出復旧手段21は、マスタの再選出処理によって、マスタの選出を完了すると、新たに選出された新マスタに関する情報、新マスタと通信可能な拠点からなるマスタクラスタに関する情報、および障害拠点の情報が生成する。障害検出復旧手段21は、生成したこれらの情報を、マスタクラスタ領域24に格納する。その後、ジョブ実行引継手段23が所定の処理を開始する。
メタデータ収集配布手段22は、マスタクラスタ領域24を確認し、自分がマスタでなければ、メタデータ領域25に格納された、ジョブ実行のスケジュール定義、実行環境定義書といったメタデータを更新する。メタデータ収集配布手段22は、ジョブ実行システム1から送付されたメタデータを受信した場合、受信したメタデータをメタデータ領域25に格納するとともに、マスタにメタデータを送付する。また、メタデータ収集配布手段22は、マスタから他拠点のメタデータを受信した場合は、受信したメタデータに基づいて、メタデータ領域25に格納されたメタデータを更新する。
メタデータ収集配布手段22は、マスタクラスタ領域24を確認し、自分がマスタの場合は、他拠点からメタデータを受信すると、メタデータ領域25に、受信したメタデータを格納することによりメタデータを更新する。さらに、メタデータ収集配布手段22は、メタデータの送付元である拠点以外の拠点に対して、更新されたメタデータを配布する。また、メタデータ収集配布手段22は、自拠点のジョブ実行システム1から送付されたメタデータを受信した場合、受信したメタデータに基づきメタデータ領域25を更新するとともに、さらに、更新後のメタデータを他の拠点全てに対して配布する。
ジョブ実行引継手段23は、自分がマスタの場合、マスタクラスタ領域24を確認し、障害拠点を確認後、メタデータ領域25を確認し、障害拠点のジョブ一覧および実行環境定義書を含むメタデータを取得する。ジョブ実行引継手段23は、取得したメタデータに含まれるジョブ一覧により特定される各ジョブが引き継ぎ可能かを、自分以外の拠点(例えば、拠点B、C)に対して問い合わせる。ジョブ実行引継手段23は、自分以外の各拠点からの回答が揃ったところで、各拠点の中からジョブ引継ぎ実行権の委譲先をひとつ決定し、各拠点に委譲通知を送付する。ジョブ実行引継手段23は、委譲先として、まず必須条件を満たしている拠点を選択する。ここで、ジョブ実行引継手段23は、複数の拠点が必須条件を満たしているときは付加条件を確認し、付加条件を満たしている項目数が最も多い拠点を選択する。また、付加条件も同じ場合、ジョブ実行引継手段23は、実行環境定義書の優先度を確認し、優先度の高い拠点を選択する。
ジョブ実行引継手段23は、自分がマスタでない場合、マスタから引継ぎ問い合わせを受信したときに、メタデータ領域25を確認する。具体的には、ジョブ実行引継手段23は、メタデータ領域25に格納された当該ジョブの実行環境定義書を確認し、自拠点の環境が必須条件及び付加条件を満たしているか確認する。自拠点の環境の情報は、例えば、本実施の形態1にかかる情報処理システム以外のシステムから入手できる。
ジョブ実行引継手段23は、条件確認が完了した場合には、マスタに対して、確認結果を回答する。ジョブ実行引継手段23は、マスタから受信した委譲通知において、自拠点が委譲先に指定されていた場合は、当該ジョブを引き継いだ旨を、引継領域26に格納する。また、ジョブ実行引継手段23は、当該ジョブの定義情報、スケジュール情報をメタデータ領域25から取得し、ジョブ実行システム1に対してそれらの情報を送付し、ジョブ実行の引継ぎを指示する。
続いて、図1〜図8を用いて、本実施の形態1にかかる情報処理システムの処理について、詳細に説明する。
まず、障害検出復旧手段21が各障害パターンでどのようにマスタの選出を行うのかを図2〜図5を用いて説明する。
マスタの選出で用いる優先度アルゴリズムには、一般に多数決アルゴリズムと呼ばれているアルゴリズムを例に挙げて説明する。ここで、多数決アルゴリズムは、全拠点の過半数の投票を得た拠点をマスタとするアルゴリズムである。
図2に示すパターン1は、拠点Cに異常が発生した場合である。
まず、拠点A及び拠点Bがそれぞれ障害検出復旧手段21によりヘルスチェックを実行して拠点Cの異常を検知する(S201)。このとき、拠点A、拠点Bのそれぞれは、障害検出復旧手段21によって、マスタの再選出処理を開始する。拠点A及び拠点Cの障害検出復旧手段21は、多数決アルゴリズムによって過半数の拠点の正常を確認する(S202)。そして、本例では、多数決により拠点Aが選出される。
この場合、拠点Aと拠点Bによりマスタクラスタが構成され、障害拠点は拠点Cである。多数決において拠点Aと拠点Bの票が同数の場合には、一般的な優先度アルゴリズムによって、マスタが決定される。
次に、図3に示すパターン2は、マスタである拠点Aに異常が発生した場合である。
まず、拠点B及び拠点Cがそれぞれ障害検出復旧手段21によりヘルスチェックを実行して、マスタである拠点Aの異常を検知する(S301)。このとき、拠点B、拠点Cのそれぞれは、障害検出復旧手段21によって、マスタの再選出処理を開始する。拠点B及び拠点Cの障害検出復旧手段21は、多数決アルゴリズムによって過半数の拠点の正常を確認する(S302)。そして、本例では、多数決により拠点Bが新マスタに選出される。
図4に示すパターン3は、拠点Aと拠点Cに異常が発生した場合である。
まず、拠点Bが障害検出復旧手段21によりヘルスチェックを実行して、拠点A及び拠点Cの異常を検知する(S401)。このとき、拠点Bは、障害検出復旧手段21によって、マスタの再選出処理を開始する。拠点Bは多数決アルゴリズムにより、過半数の正常が確認できないため(S402)、マスタは選出せず、自業務のみの継続を行う(S403)。すなわち、拠点Bは、ジョブの引継ぎ実行は行わない。また、この場合も拠点Bは、障害検出復旧手段21により、定期的にヘルスチェックを行い、拠点A及び拠点Cが復旧するのを待ち、復旧が確認できた場合は、マスタの再選出を開始する。
パターン3の場合では、多数決アルゴリズムではマスタは選出されないが、他の優先度アルゴリズムを採用した場合には、パターン3でもマスタが選出されることがありうる。ただし、本実施の形態1にかかる情報処理システムでは、どの場合にも全ての拠点でマスタが複数選出されるような優先度アルゴリズムは、適用できない。
図5に示すパターン4は、ネットワークに異常が発生した場合である。
このパターン4は、基本的にはパターン3と同じでマスタは選出されず、各拠点は自業務のみの継続を行う。即ち、拠点Bが障害検出復旧手段21によりヘルスチェックを実行して、ネットワークの異常を検知する(S501)。このとき、拠点Bは、障害検出復旧手段21によって、マスタの再選出処理を開始する。拠点Bは多数決アルゴリズムにより、過半数の正常が確認できないため(S502)、マスタは選出せず、自業務のみの継続を行う(S503)。
続いて、図6を用いて、メタデータ収集配布手段22の動作について、説明する。
まず、各拠点のメタデータ収集配布手段22は、メタデータが更新された際にジョブ実行システム1からメタデータを受け取る。メタデータ収集配布手段22は、受け取ったメタデータをメタデータ領域25に格納する(S601)。次に、メタデータ収集配布手段22は、マスタである拠点Aに対してメタデータを送付する(S602)。
マスタである拠点Aのメタデータ収集配布手段22は、送付されたメタデータをメタデータ領域25に格納する(S603)。その後、マスタである拠点Aのメタデータ収集配布手段22は、メタデータの送付拠点以外の拠点(本例では、拠点B)にメタデータを配布する(S604)。メタデータの配布を受けた拠点(本例では、拠点B)は、メタデータ収集配布手段22により、メタデータ領域25にメタデータを格納する。なお、マスタのメタデータが更新された場合は、ステップS603の手順から開始される。
続いて、図7を用いて、ジョブ実行引継手段23の動作について、説明する。
まず、マスタである拠点Aのジョブ実行引継手段23は、マスタクラスタ領域24から、障害拠点(本例では拠点D)の情報を読み取り、メタデータ領域25からメタデータに含まれる障害拠点のジョブ情報及び実行環境定義書を取得する(S701)。
次に、マスタである拠点Aのジョブ実行引継手段23は、ジョブ毎に、障害拠点を除く各拠点(本例では、拠点Bと拠点C)に対してジョブが引き継ぎ可能かを問い合わせる(S702)。
各拠点(本例では、拠点Bと拠点C)のジョブ実行引継手段23は、問い合わせられたジョブの実行環境定義書をそれぞれの拠点のメタデータ領域25から取得し、実行環境定義書に記述されている必須条件及び付加条件を確認して、確認結果をマスタである拠点Aに回答する(S703)。マスタである拠点Aのジョブ実行引継手段23は、回答結果を確認し、ジョブの引継ぎ実行権をどの拠点が獲得したか(本例では、拠点C)を各拠点(本例では、拠点Bと拠点C)に対して通知する(S704)。
各拠点(本例では、拠点Bと拠点C)のジョブ実行引継手段23は、通知結果を確認する。引継ぎ実行権を獲得した拠点(本例では、拠点C)のジョブ実行引継手段23は、メタデータ領域25から引き継ぐジョブのメタデータを取得し、引継領域26に格納する。そして、拠点Cのジョブ実行引継手段23は、ジョブ実行システム1に対してメタデータの送付とジョブ実行の引継ぎ指示を行う。
ここで、図8にジョブの実行環境定義書の例を示す。この例では、必須条件に(1)12:00以降のDISK Aのバックアップと、(2)アプリケーションAの存在が指定してある。また、付加条件にジョブ実行数が100以下と指定してある。これらの条件の成立有無は、本実施の形態における障害管理部2以外のシステムから確認可能である。また優先度が、拠点A、拠点B、拠点Cの順としているため、必須条件、付加条件が同じ場合にはこの順番で実行権の委譲順位が決定される。
以上、説明した本実施の形態にかかる情報処理システムによれば、次のような効果を奏する。
第一の効果は、ジョブの実行条件が異なる複数の拠点がある場合に、ジョブの引継ぎ実行が確実に行える拠点で行われることである。その理由は、一般的にジョブの実行環境は、ジョブが処理する業務データの有無やインストールされているアプリケーションや業務システムの違いで、特定の条件を満たした拠点でしか実行できない場合があると考えられるが、本発明では、各拠点に対してジョブが実行可能か問い合わせを行い、必須条件を満たしている条件の拠点に対して実行権を委譲しているからである。
第二の効果は、ジョブの実行環境定義書の付加条件や優先度を用いることによって、必須条件を満たした拠点の中からより、最適な拠点にジョブの引継ぎ実行権を委譲できることである。
第三の効果は、拠点が増えたり、拠点のジョブ実行環境が変わった場合でも、ジョブの引継ぎ実行が最適な拠点で行われることである。その理由は、障害発生時にジョブの実行環境定義書に従い、各拠点が条件の適合度を判断してマスタに回答するからである。
第四の効果は、マスタ選出の優先度アルゴリズムを変更することで、災害発生時にジョブの引継ぎ実行を行うかを柔軟に選択可能になることである。この理由は、例えば、本発明の実施の形態1では、多数決アルゴリズムを用いて、過半数以上の拠点が正常な場合に引継ぎ実行を行うとしていたが、特定の拠点の優先度を高くしたり、特定の拠点をマスタクラスタから排除したりすることも、優先度アルゴリズムを変更することで可能であり、各拠点の特性にあったアルゴリズムに変更することで、災害復旧を柔軟に行うことができる。
発明の実施の形態2.
図9は、本実施の形態2にかかる情報処理システムの全体構成を示す図である。図に示されるように、当該情報処理システムは、ネットワークで相互接続された拠点A、拠点B、拠点Cを備えている。図1においては、拠点Aについてのみ、その内部を詳細に示している。
拠点Aにおける情報処理システム10は、ジョブ実行システム1と、当該ジョブ実行システム11と連携して動作する障害管理部2を備えている。ジョブ実行システム1は、従来よりある一般的な構成を有する。障害管理部2は、本発明の特徴的な構成を有する。
障害管理部2は、障害検出復旧手段21と、ジョブ実行引継手段23とを備えている。これらの手段21、23は、いずれも、他の拠点の各拠点の障害管理部および自拠点のジョブ実行システム1と協調して動作を行う。
また、障害管理部2は、マスタクラスタ領域24(マスタクラスタ情報記憶手段)と、、引継領域26(引継情報記憶手段)とを備えている。マスタクラスタ領域24は、マスタやマスタクラスタの構成情報を格納する。引継領域26は、引き継いだジョブに関する引継情報を格納する。
また、本実施の形態2にかかる情報処理システムでは、拠点10とは別に、メタデータを管理するメタデータ管理部40が存在する。メタデータ管理部40は、メタデータ収集配布手段41と、メタデータ領域42を備えている。メタデータ収集配布手段41と、メタデータ領域42のそれぞれは、本実施の形態1におけるメタデータ収集配布手段22と、メタデータ領域25と同等の機能を有する。
このように、本実施の形態2が発明の実施の形態1と異なる点は、メタデータ収集配布手段を、障害管理部2から独立させてメタデータ管理部40としたことである。このメタデータ管理部40は、同一拠点内にある必要はなく、複数あってもよい。この構成により、メタデータをより信頼性の高い施設で管理したり、また、各拠点とは別にメタデータをより分散させて、冗長性を高め、信頼性を向上させることも可能となる。
1 ジョブ実行システム
2 障害管理部
11 マネージャ
12 ジョブ実行サーバ
21 障害検出復旧手段
22 メタデータ収集配布手段
23 ジョブ実行引継手段
24 マスタクラスタ領域
25 メタデータ領域
26 引継領域
100 拠点A
200 拠点B
300 拠点C
400 拠点D

Claims (20)

  1. 相互にネットワークを介して接続された複数の拠点システムを備えた情報処理システムであって、前記拠点システムのそれぞれは、
    ジョブを実行するジョブ実行システムと、
    障害管理を実行する障害管理部とを備え、
    当該障害管理部は、
    自拠点及び他拠点の障害を検出し、障害拠点情報を記憶手段に格納し、自拠点システム以外の他の各拠点システムとの間でジョブ実行のスケジュール定義及び実行環境定義書を含むメタデータの集取及び配布を行うマスタを選出する障害検出復旧手段と、
    ジョブ実行引継手段とを備え、
    前記ジョブ実行引継手段は、
    前記マスタの選出の結果、自拠点システムが前記マスタの場合には、前記記憶手段に格納された障害拠点情報により特定される障害拠点のジョブが引き継ぎ可能かを他の拠点システムに対して問い合わせ、
    前記マスタの選出の結果、自拠点システムが前記マスタでない場合には、ジョブの引継が可能かの問い合せに対して前記記憶手段に格納された当該障害拠点のジョブの実行可否の前提となる環境条件の情報を含む実行環境定義書に基づいて当該ジョブの引継の可否について決定し、前記マスタである拠点システムに対して回答する、
    情報処理システム。
  2. 前記情報処理システムは、さらに、自拠点システムが前記マスタの場合には、前記メタデータを他拠点システムから取得したときにその他の拠点システムに配布し、自拠点システムが前記マスタでない場合には、自拠点システムにおけるメタデータの更新があったときに、マスタである拠点システムに対して送付するメタデータ収集配布手段を備えたことを特徴とする請求項1に記載の情報処理システム。
  3. 前記メタデータ収集配布手段は、各拠点システムに設けられていることを特徴とする請求項2に記載の情報処理システム。
  4. 前記メタデータ収集配布手段は、各拠点システムから独立して設けられていることを特徴とする請求項2に記載の情報処理システム。
  5. 前記障害検出復旧手段は、自拠点及び他拠点の障害を検出した場合に、マスタの再選出処理を実行することを特徴とする請求項1〜4いずれか1項に記載の情報処理システム。
  6. 前記障害検出復旧手段は、マスタの再選出処理において、優先度に応じてマスタを再選出することを特徴とする請求項5に記載の情報処理システム。
  7. 前記ジョブ実行引継手段は、自拠点システムがマスタの場合に、ジョブの引継に関する問い合せに対する回答に基づいて、委譲先を決定し、ジョブの委譲先となる拠点システムに対して、委譲先である旨を通知することを特徴とする請求項1〜6のいずれか1項に記載の情報処理システム。
  8. 前記ジョブ実行引継手段は、委譲先の決定を、実行環境定義書に記載された拠点システムの優先度に基づいて実行することを特徴とする請求項7に記載の情報処理システム。
  9. 自拠点及び他拠点の障害を検出し、障害拠点情報を自拠点システムが備える記憶手段に格納し、自拠点システム以外の他の各拠点システムとの間でジョブ実行のスケジュール定義及び実行環境定義書を含むメタデータの集取及び配布を行うマスタを選出するステップと、
    マスタである拠点システムから、障害拠点情報により特定される障害拠点のジョブが引き継ぎ可能かを他の拠点システムに対して問い合わせるステップと、
    問い合わせを受けた拠点システムは、ジョブの引継が可能かの問い合せに対して、前記障害拠点のジョブの実行環境定義書に基づいて当該ジョブの実行可否の前提となる環境条件の情報を含む実行環境定義書に基づいて引継の可否について決定し、前記マスタである拠点システムに対して回答するステップとを備えたディザスタリカバリ方法。
  10. マスタ以外の拠点システムから、ジョブ実行のスケジュール定義及び実行環境定義書を含むメタデータの更新があったときに、マスタである拠点システムに対して送付するステップと、
    マスタである拠点システムから、メタデータを他拠点システムから取得したときにその他の拠点システムに配布するシステムとを備えたことを特徴とする請求項9に記載のディザスタリカバリ方法。
  11. 自拠点及び他拠点の障害を検出した場合に、マスタの再選出処理を実行するステップを備えたことを特徴とする請求項9又は10に記載のディザスタリカバリ方法。
  12. マスタの再選出処理において、優先度に応じてマスタを再選出することを特徴とする請求項11に記載のディザスタリカバリ方法。
  13. マスタである拠点システムは、ジョブの引継に関する問い合せに対する回答に基づいて、委譲先を決定し、ジョブの委譲先となる拠点システムに対して、委譲先である旨を通知することを特徴とする請求項9〜12のいずれか1項に記載のディザスタリカバリ方法。
  14. 委譲先の決定を、実行環境定義書に記載された拠点システムの優先度に基づいて実行することを特徴とする請求項13に記載のディザスタリカバリ方法。
  15. 自拠点及び他拠点の障害を検出し、障害拠点情報を自拠点システムが備える記憶手段に格納し、自拠点システム以外の他の各拠点システムとの間でジョブ実行のスケジュール定義及び実行環境定義書を含むメタデータの集取及び配布を行うマスタを選出するステップと、
    自拠点システムが前記マスタの場合には、前記記憶手段に格納された障害拠点情報により特定される障害拠点のジョブが引き継ぎ可能かを他の拠点システムに対して問い合わせるステップと、
    自拠点システムが前記マスタでない場合には、ジョブの引継が可能かの問い合せに対して前記記憶手段に格納された当該障害拠点のジョブの実行可否の前提となる環境条件の情報を含む実行環境定義書に基づいて当該ジョブの引継の可否について決定して前記マスタである拠点システムに対して回答するステップとを自拠点が備えるコンピュータに対して実行させるディザスタリカバリプログラム。
  16. 自拠点システムがマスタの場合には、ジョブ実行のスケジュール定義及び実行環境定義書を含むメタデータを他拠点システムから取得したときにその他の拠点システムに配布するステップと、
    自拠点システムがマスタでない場合には、自拠点システムにおけるメタデータの更新があったときに、マスタである拠点システムに対して送付するステップとを備えたことを特徴とする請求項15に記載のディザスタリカバリプログラム。
  17. 自拠点及び他拠点の障害を検出した場合に、マスタの再選出処理を実行するステップを備えたことを特徴とする請求項15又は16に記載のディザスタリカバリプログラム。
  18. マスタの再選出処理ステップにおいて、優先度に応じてマスタを再選出することを特徴とする請求項17に記載のディザスタリカバリプログラム。
  19. 自拠点システムがマスタの場合に、ジョブの引継に関する問い合せに対する回答に基づいて、委譲先を決定し、ジョブの委譲先となる拠点システムに対して、委譲先である旨を通知するステップをさらに備えたことを特徴とする請求項15〜18のいずれか1項に記載のディザスタリカバリプログラム。
  20. 委譲先の決定を、実行環境定義書に記載された拠点システムの優先度に基づいて実行することを特徴とする請求項19に記載のディザスタリカバリプログラム。
JP2009043442A 2009-02-26 2009-02-26 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム Expired - Fee Related JP5625243B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009043442A JP5625243B2 (ja) 2009-02-26 2009-02-26 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009043442A JP5625243B2 (ja) 2009-02-26 2009-02-26 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム

Publications (2)

Publication Number Publication Date
JP2010198404A JP2010198404A (ja) 2010-09-09
JP5625243B2 true JP5625243B2 (ja) 2014-11-19

Family

ID=42823050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009043442A Expired - Fee Related JP5625243B2 (ja) 2009-02-26 2009-02-26 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム

Country Status (1)

Country Link
JP (1) JP5625243B2 (ja)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2972232B2 (ja) * 1989-08-30 1999-11-08 株式会社日立製作所 計算機ネツトワーク・システムの制御方式
JP3788832B2 (ja) * 1996-10-04 2006-06-21 株式会社東芝 複合系計算機システム
JPH10187638A (ja) * 1996-10-28 1998-07-21 Mitsubishi Electric Corp クラスタ制御システム
JP2000215177A (ja) * 1999-01-26 2000-08-04 Atr Ningen Joho Tsushin Kenkyusho:Kk クライアント―サ―バシステム、サ―バ/クライアント装置、およびサ―バ/クライアントソフトウェアの管理プログラムを記録したコンピュ―タで読取可能な記録媒体
US7529822B2 (en) * 2002-05-31 2009-05-05 Symantec Operating Corporation Business continuation policy for server consolidation environment
JP2004118689A (ja) * 2002-09-27 2004-04-15 Ricoh Co Ltd 監視システム、監視方法及びプログラム
JP4163481B2 (ja) * 2002-10-11 2008-10-08 株式会社東芝 クラスタシステム及び同システムにおけるサービス制御方法
JP2005018510A (ja) * 2003-06-27 2005-01-20 Hitachi Ltd データセンタシステム及びその制御方法
JP2005196683A (ja) * 2004-01-09 2005-07-21 Hitachi Ltd 情報処理システム、情報処理装置、及び情報処理システムの制御方法
JP2005250626A (ja) * 2004-03-02 2005-09-15 Hitachi Ltd コンピュータシステム及びそのプログラム。
JP4277873B2 (ja) * 2006-05-23 2009-06-10 日本電気株式会社 トランザクション処理装置、トランザクション処理方法
JP5235292B2 (ja) * 2006-09-29 2013-07-10 富士通株式会社 コンピュータシステム、バックアップシステムへの移行方法、バックアップシステムへの移行プログラム、監視装置、端末装置及びバックアップシステム
US7917469B2 (en) * 2006-11-08 2011-03-29 Hitachi Data Systems Corporation Fast primary cluster recovery

Also Published As

Publication number Publication date
JP2010198404A (ja) 2010-09-09

Similar Documents

Publication Publication Date Title
KR100930576B1 (ko) 가상화 기반 고가용성 클러스터 시스템 및 고가용성클러스터 시스템에서 장애 관리 방법
CN109729129A (zh) 存储集群的配置修改方法、存储集群及计算机系统
US8266474B2 (en) Fast cluster failure detection
CN106059791B (zh) 一种存储系统中业务的链路切换方法和存储设备
CN109474465A (zh) 一种基于服务器集群的可动态流转的高可用性的实现方法和系统
CN104221004A (zh) 对互连失效在群集范围内的一致性检测
JP3887130B2 (ja) 高可用性計算機システム及び同システムにおけるデータバックアップ方法
JP5446405B2 (ja) イベント検出制御方法及びシステム
US20070180287A1 (en) System and method for managing node resets in a cluster
AU2001241700B2 (en) Multiple network fault tolerance via redundant network control
CN111708668A (zh) 集群故障的处理方法、装置及电子设备
US20050234919A1 (en) Cluster system and an error recovery method thereof
CN109189854B (zh) 提供持续业务的方法及节点设备
US7752493B2 (en) High reliability system, redundant construction control method, and program
CN104794026B (zh) 一种集群实例多数据源绑定的故障转移方法
Zhang et al. Reliability models for systems with internal and external redundancy
US20090138101A1 (en) Method, System and Computer Program Product for Improving Information Technology Service Resiliency
Mitrović et al. Improving fault-tolerance of distributed multi-agent systems with mobile network-management agents
JP5176231B2 (ja) 計算機システム、計算機制御方法及び計算機制御プログラム
CN111309515B (zh) 一种容灾控制方法、装置及系统
JP5625243B2 (ja) 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム
JP4806382B2 (ja) 冗長化システム
CN114328033A (zh) 保持高可用设备组业务配置一致性的方法及装置
WO2018037535A1 (ja) 生存管理プログラム、生存管理方法、および生存管理装置
KR100832543B1 (ko) 계층적 다중 백업 구조를 갖는 고가용성 클러스터 시스템및 이를 이용한 고가용성 구현 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140915

R150 Certificate of patent or registration of utility model

Ref document number: 5625243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees