JP2005018510A - データセンタシステム及びその制御方法 - Google Patents

データセンタシステム及びその制御方法 Download PDF

Info

Publication number
JP2005018510A
JP2005018510A JP2003183743A JP2003183743A JP2005018510A JP 2005018510 A JP2005018510 A JP 2005018510A JP 2003183743 A JP2003183743 A JP 2003183743A JP 2003183743 A JP2003183743 A JP 2003183743A JP 2005018510 A JP2005018510 A JP 2005018510A
Authority
JP
Japan
Prior art keywords
storage system
host computer
data center
data
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003183743A
Other languages
English (en)
Other versions
JP2005018510A5 (ja
Inventor
Yoko Sugiura
葉子 杉浦
Kiyousuke Achiwa
恭介 阿知和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003183743A priority Critical patent/JP2005018510A/ja
Priority to US10/769,482 priority patent/US7260625B2/en
Publication of JP2005018510A publication Critical patent/JP2005018510A/ja
Publication of JP2005018510A5 publication Critical patent/JP2005018510A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2071Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers

Abstract

【課題】それぞれクラスタサービスを行なっているホストコンピュータが接続される3以上のデータセンタからなるデータセンターシステムで、フェイルオーバーを行なう場合、速やかにフェイルオーバ処理がされ、フェイルオーバ後の処理が遅滞なく開始されるようにする必要がある。
【解決手段】3つ以上のデータセンタからなるデータセンタシステムにおいて、メインデータセンタで稼動中のホストコンピュータがフェイルオーバーを行なう場合に、各センタのホストコンピュータは、稼動優先順位情報を保持し、当該優先順位情報に基づいて、フェイルオーバ先のホストコンピュータを選択する。
【選択図】 図4

Description

【0001】
【発明の属する技術分野】
本発明は、複数のデータセンタからなるデータセンタシステムに関し、特にデータセンタ毎に接続されるホストコンピュータがクラスタ構成である場合のフェイルオーバー、フェイルバック制御に関する。
【0002】
【従来の技術】
昨今のIT化社会に伴ってコンピュータが貴重な情報を持つようになり、天災などに突如遭遇してもデータを安全に格納・保持することが極めて重要となった。それに伴い、記憶システムやデータの冗長化およびそれらの回復手段の整備は欠くことができない。
【0003】
ところで、システムの冗長化を図るための手段の一つにクラスタサービスの利用がある。クラスタとはコンピュータに何らかの障害が発生した場合を想定して、予めメインコンピュータとは別に待機状態のコンピュータを準備し、万一稼動中のメインコンピュータが停止しても待機状態のコンピュータに処理を移し、コンピュータを止めることなく稼動を維持するシステムのことである。
【0004】
また、稼動中のメインコンピュータが停止して待機状態のコンピュータに処理が移ると、メインコンピュータが認識していたディスクボリュームを、待機状態のコンピュータに認識させるようにする。このような特徴から、クラスタサービスは重要なシステムに取り入れられている技術である。
【0005】
一方、データの冗長化という面では、ホストコンピュータに接続される複数の記憶システム間でデータのコピーを保持する技術がある。特に物理的に離れた記憶システム同士でデータの送受信を行う技術をリモートコピーと呼び、現在の記憶システムはホストコンピュータの介在なしに、複数の記憶システム同士がデータのコピーを行うリモートコピー技術も提案されている。
【0006】
上述のようなリモートコピーの技術とクラスタ構成の技術とを組み合わせると、システムとデータの冗長性を強化できる。
【0007】
この点を、2台のホストコンピュータにそれぞれ一台ずつ記憶システムが接続され、これらのホストコンピュータの一つを待機系コンピュータとし、もう一つを稼動系コンピュータとしてクラスタを構成している状態を例にとって説明する。
【0008】
稼動しているホストコンピュータに接続される記憶システムから、もう一方の待機状態のホストコンピュータに接続される記憶システムにリモートコピーを実施している場合は、稼動系の記憶システム(リモートコピー元)のボリュームを、その記憶システムに接続する稼動中のホストコンピュータから認識できるように設定し、待機系の記憶システム(リモートコピー先)のボリュームをその記憶システムに接続する待機系のホストコンピュータから認識できるように設定する。
【0009】
このようなシステムにおいて稼動系のホストコンピュータに障害が発生すると、クラスタサービスによって待機中のホストコンピュータに処理が移動し、待機中のホストコンピュータからリモートコピー先の記憶システムのデータを認識することができるようになる。
【0010】
さらに、処理を受け取ったホストコンピュータに接続される記憶システムを新たにリモートコピー元として設定し、リモートコピー元であった記憶システムをリモートコピー先となるように設定することも可能である。
【0011】
このようにホストコンピュータに障害が発生しても、記憶システムのリモートコピーの向きを張り替え(コピー元とコピー先を入れ替えること)ることで、システム全体の稼動を停止することなくリモートコピーを継続する事が可能である。
【0012】
ところでこのようなリモートコピーの方法には同期転送方式と非同期転送方式がある。このリモートコピーの処理の具体的な流れを図3に示す。ここで各システムを構成するそれぞれのコンピュータをノードA、ノードB、ノードC、ノードDと呼ぶ。
【0013】
同期転送方式のリモートコピー1200では、ノードA1010からの書込み命令を記憶システムA1020が受領すると(▲1▼)、同データの書込み命令を記憶システムB1021に発行し(▲2▼)、記憶システムB1021でのデータの書き込みが完了すると完了通知が記憶システムA1020へ送信され(▲3▼)、書き込み完了通知をノードA1010に発行する(▲4▼)。
【0014】
この場合、ノードAに接続される記憶システムA1020が保持するデータと記憶システムB1021が保持するデータとが一致性を保ちながら更新される。このような方式は同期転送方式のリモートコピーと呼ばれる。
【0015】
一方、非同期転送方式のリモートコピー1201では、ノードC1013からの書込み命令を記憶システムC1022が受領すると(▲1▼)、同データの書込み完了命令をノードC1013に発行し(▲2▼)、記憶システムC1022はノードC1013の要求する処理とは非同期に記憶システムD1023への書込み命令を発行し(▲3▼)、書き込み完了通知を受領する(▲4▼)。
【0016】
これらの両方式による違いは、次のとおりである。まず、同期転送方式のリモートコピー1200を実施する記憶システムAはホストコンピュータであるノードA1010の書き込み命令と同期してリモートコピー元の記憶システムA1020に書き込まれたデータをリモートコピー先の記憶システムB1021にコピーするため、通常これらの記憶システムは同じデータを保持する。
【0017】
一方、非同期転送方式のリモートコピー1201を実施する記憶システムは、ホストコンピュータであるノードC1013からの書き込み命令と非同期に、リモートコピー元記憶システムC1022に書き込まれたデータをリモートコピー先記憶システムD1023にコピーする。
【0018】
つまり、記憶システムC1022は、ノードC1013に対して、データの書込みが完了した旨の通知を発行した後で、ノードC1013から書き込み要求を受けたデータをリモートコピー先である記憶システムD1023に転送する。
【0019】
この場合のデータの転送は、記憶システムC1022独自のタスクスケジュールで行われるので、リモートコピー先記憶システムD1023はリモートコピー元よりも古いデータを持つ時間が長いが、リモート先記憶システムD1023へのデータの転送処理を待たずにノードC1013にデータ書き込みの完了を通知するので、ノードC1013は、直ちに次の処理に移ることができる。(例えば特許文献1)
【特許文献1】
米国特許5,554,347号公報
【0020】
【発明が解決しようとする課題】
しかしながら、昨今では先述のとおり、情報システムが保持するデータの重要性がさらに高まっており、このような記憶システムを2拠点に配するようなシステムであっても十分とは言えないものとなってきた。また、特に情報処理システムの稼動が、仮に障害が発生したとしても中断されることなく、或いはその中断期間をさらに短くすることが切望される。本発明の第一の目的はこのような課題を解決することである。
【0021】
【課題を解決するための手段】
上述のような課題を解決するための本願発明の装置構成の一つを図2を用いて簡単に説明する。
図2に示すように、本願発明のシステムは、それぞれが記憶システムを有する情報処理システムを少なくとも3拠点有し、それらの情報処理システムは、ネットワークで接続されている。
【0022】
主業務を実行する稼動中のコンピュータ1010(以下、ノードA)に接続されてコピー元となる第1の記憶システムAは、その近地に設置する第2の記憶システムB1021とそれよりも遠地に設置する第3の記憶システムC1022とそれぞれネットワークで接続されている。
【0023】
ここで、コピー元となる記憶システムAと比較的近い場所に設置された記憶システムB間で同期転送方式のリモートコピー1080を行い、コピー元となる記憶システムAと記憶システムBとの距離よりも、記憶システムAと記憶システムCとの距離が遠くなるように設置される記憶システムCとの間のデータの転送を非同期転送方式のリモートコピーによって行うように構成する。
【0024】
さらに、コピー元記憶システムAの近地に設置する記憶システムBと、コピー元の遠地に設置する記憶システムC間で非同期転送方式のリモートコピーを実施するように構成しても良い。
【0025】
このような構成により、データの冗長性や情報処理システム自体の冗長性を高めることができる。また、コピー元となる稼動系情報処理システムに近い情報処理システムとの間におけるデータ転送を同期方式とし、コピー元となる稼動系情報処理システムに遠い情報処理システムとの間におけるデータ転送方式を非同期転送方式にしたので、同期方式のデータ転送による利点と、非同期転送による利点とを全体として享受することが可能となる。
【0026】
同期転送方式によるリモートコピーを用いると両記憶システム間で同じデータを保持できるという利点があるものの、遠地に設置した記憶システムとの間のデータ転送に対してこの方式を用いると、データのコピーに時間を要するため、効率が悪くなることがある。
【0027】
一方、非同期転送方式のリモートコピーは、接続される両記憶システム間にデータ内容の一時的な差異があるものの、リモートコピーの処理が記憶システムや、その上位にあるコンピュータの処理を妨げる事は無い。
【0028】
従って、図2に示すようにリモートコピー元となる記憶システムと、その近地に設置する記憶システムとの間では同期転送方式のリモートコピーを行い、そして、リモートコピー元となる記憶システムの遠地に設置する記憶システムとの間では、非同期転送方式を用いる上記の構成が全体として性能をバランスよく保つのである。
【0029】
換言すれば、コピー元データセンタ、近地のコピー先データセンタ、遠地のコピー先データセンタの3拠点を設け、各データセンタ内に記憶システムを設置し、それぞれをネットワーク接続する場合には、コピー元データセンタから近地のコピー先データセンタに同期転送方式によってリモートコピーを実施し、コピー元データセンタから遠地のコピー先データセンタに非同期転送方式によってリモートコピーを実施する構成が3データセンタ以上からなる多拠点のリモートコピー構成として非常に有効である。
【0030】
ここで、近地とは、例えば渋谷−恵比寿間のような数Kmの距離、遠地とは、例えば東京と大阪のような数百Kmの距離を指すが、これらは固定的なものでなく、システムに要求される上位装置へのレスポンス性能や、障害復旧の瞬時性などによって、どの程度を遠地、近地とするかが定められることは言うまでもない。例えば、近地を同じビルのほかのフロアーにするという運用もあろう。
【0031】
以下、説明の便宜のために、コピー元データセンタ(以下、「メインデータセンタ」)と、その近地にあるデータセンタと遠地にあるデータセンタとを有し、各データセンタが記憶システムを有して記憶システム同士が互いにコンピュータネットワークで接続しているデータセンタ構成を、3データセンタと呼ぶ。
【0032】
本願発明の3データセンタの構成の一態様には例えば次ような構成が考えられる。各データセンタは、ホストコンピュータとそれに接続される記憶システムによって構成される。各データセンタのホストコンピュータ同士は、同一のネットワーク(例えばTCP/IPを利用したネットワークなど)によって接続される。これらのホストコンピュータには、クラスタサービスを提供するソフトウェアが常駐され、オペレータの指示や障害の検出によって、その業務を他のコンピュータに受け継がせることができるように構成されている。
【0033】
また記憶システム間は、ホストコンピュータ間の結合とは別のネットワーク(例えばSANなど)によって接続され、メインデータセンタの記憶システムから近地のデータセンタの記憶システムへのデータ転送は同期転送方式のリモートコピーを行うように構成し、メインデータセンタ内の記憶システムから遠地のデータセンタ内の記憶システムへのデータ転送は、非同期転送方式のリモートコピーを実施するように構成する。
【0034】
このように接続されたデータセンタは、メインデータセンタの記憶システムに接続されたホストコンピュータに障害が発生した場合であっても、近地または遠地のどちらかのホストコンピュータにフェイルオーバー(実行中の業務を引き渡し)し、他のホストコンピュータによっての業務の稼動を維持することができる。
【0035】
このようにフェイルオーバーを行う場合に、近地の同期転送方式によってデータを転送されていた記憶システムに接続されているホストコンピュータにフェイルオーバーすると、この記憶システムは、元のメインーデータセンタと同じデータを保持しているため、すぐに業務を引き継いで、稼動することができる。
【0036】
この場合、新たなホストコンピュータが業務を行うこととなるので、そのホストコンピュータに接続されている記憶システムが、メインの記憶システムとなる。
【0037】
一方、フェイルオーバーの後に更新または蓄積されるデータについても、上述の要求から冗長化する必要があるので、元のメインデータセンタに接続されていた記憶システムに対してリモートコピーを行う。この場合、新たなメインの記憶システムから、フェイルオーバー前にメインのデータセンタを構成していた記憶システムに対して、同期コピーを行うように構成すれば良い。 換言すれば、リモートコピーを実施する向きを変えるだけでリモートコピー環境の構築を含むフェイルオーバーの処理が終了する。
【0038】
ところで、フェイルオーバー先として、データの転送方式に非同期式を採用している遠地のデータセンタのホストコンピュータを選択した場合は、そのホストコンピュータに接続される記憶システムはコピー元に比べ古いデータを保持している可能性が大きい。
【0039】
そのため、フェイルオーバー処理に先立って、フェイルオーバー前のメインデータセンタ内の記憶システムの最新のデータか、それと同期して更新されているその他のデータセンタ内の記憶システム内のデータのいずれかを、参照してデータを最新の状態になるまで更新するか、それらからデータをコピーしてくる必要がある。つまり非同期でデータ転送されることの多い比較的遠地の記憶システムは最新のデータを保持していないため、このような記憶システムに接続されているホストコンピュータにフェイルオーバーする場合には、元のコピー元または同期方式でデータの転送がされている比較的近地の記憶システムが保持する最新のデータを新たに稼動系となるホストコンピュータに接続ざれる記憶システムにコピーすれば良い。
【0040】
本発明の目的を換言すれば、主として稼動しているメインデータセンタと、複数のサブデータセンタで構成された環境において、メインデータセンタ内で稼動中のホストコンピュータを何らかの事情で、他のサブデータセンタ内のコンピュータにフェイルオーバーさせる場合に、上述のような種々のファクターを勘案して最適なフェイルオーバー対象となるコンピュータが選択可能なシステムを提供することである。
【0041】
従って、この目的を達成するための本願発明のデータセンタシステムは、各データセンタ内のノード即ち、コンピュータが、自身に接続されている記憶システムから、リモートコピー状態を含む構成情報を取得し、記憶システムのリモートコピー状態とホストコンピュータとの関連を示すリモートコピー状態管理テーブル(以下、「管理テーブル」)を作成する。
【0042】
この管理テーブルを全てのホストコンピュータで共有することで、各データセンタ内のホストコンピュータは、他のホストコンピュータとその他のホストコンピュータに接続される記憶システムがどのような方式のリモートコピー環境となっているかを認識することができる。
【0043】
メインデータセンタ内のホストコンピュータか、そのホストコンピュータに接続される記憶システムのいずれかに障害が発生した場合や、それらの稼動の中止をしたい場合、メインデータセンタ内のホストコンピュータは、前述の管理テーブルを参照して、フェイルオーバー先として、他のデータセンタ内の適当なコンピュータを決定する。
【0044】
具体的には、フェイルオーバーを行おうとするホストコンピュータは、管理テーブルを参照して自身に接続された記憶システムと同期して更新されている記憶システムに接続されているコンピュータを優先してフェイルオーバー先に選択するのである。
【0045】
フェイルオーバー先として選択されたコンピュータに接続される記憶システムは、フェイルオーバー以降は、主としてデータを記憶するメイン記憶システムとなるから、フェイルオーバー前のメイン記憶システムに対するコピー元となるようにリモートコピーの方向を変更する。この変更は、記憶システムを管理する構成情報を変更することで行う。構成情報は、各記憶システム内に保持され、各記憶システムはこの構成情報を参照して、各記憶システム間でのデータの転送を行うのである。
【0046】
ところで、フェイルオーバー先としてどのデータセンタのホストコンピュータが適当であるかは、ホストコンピュータが、先述の管理テーブルを参照して、フェイルオーバーが必要となる度に最適なものを選択するようにプログラムを組み込んでも良いが、予め優先度を決定し、それを管理テーブルに蓄積しておき、その管理テーブルの優先度を参照して、フェイルオーバー先を決定するようにしても良い。
【0047】
また、ホストコンピュータが当該ホストコンピュータに接続される記憶システムと他のホストコンピュータに接続される記憶システムとがどのような形式のリモートコピーを行っているかに関する情報を収集し、それら収集した情報に基づいて自動的にフェイルオーバー優先度を決定して、当該管理テーブルに蓄積するようにしても良い。
【0048】
一方、フェイルオーバーは、稼動中のホストコンピュータに障害が発生した場合にも必要となる。このような場合は、この稼動中のホストコンピュータからのコマンド発行で、フェイルオーバーを行うことはできない。従って、サブデータセンタの待機系のホストコンピュータのそれぞれは、常にメインデータセンタのホストコンピュータの稼動状態をネットワークを通じてハートビート等で確認し、その通信が途絶えた場合には、待機系のホストコンピュータの内、最も優先度の高いホストコンピュータによってフェイルオーバーが実行されなければならない。
【0049】
即ち、サブデータセンタ内のノードである各ホストコンピュータは、稼動中のホストコンピュータの障害を検出した場合、自身がそのホストコンピュータにとって、最優先のフェイルオーバー先であるかどうかを前述の管理テーブルを参照して確認する。確認の結果、自身が最優先のフェイルオーバー先であると認識したホストコンピュータは、フェイルオーバー処理を開始する。
【0050】
一方、ホストコンピュータは管理テーブルを参照して、自身に接続される記憶システムがメインの記憶システムになった場合に、他のホストコンピュータに接続される記憶システムをリモート先として、どのような方式でデータを転送するかを決定し、管理テーブルを更新する。記憶システムは、更新された管理テーブルに基づいて、同期方式のリモートコピーや、非同期方式のリモートコピーを他のデータセンタの記憶システムに対して設定する。
【0051】
この場合、当該新たにメインとなったコンピュータにフェイルオーバーが必要となったときに、最優先でフェイルオーバー先となるコンピュータに接続される記憶システムと、この新たにメインとなったコンピュータとの間のリモートコピーの方式を同期方式としておくことで、さらにフェイルオーバーが必要となった際にも、最も効率よく、フェイルオーバーが可能なデータセンタにフェイルオーバーがされることとなる。
これまでに述べてきた、本願の課題を解決するためのデータセンタシステムの具体的な構成は、例えば次のように構成される。
第1のデータセンタと、第2のデータセンタと、第3のデータセンタとからなるデータセンタシステムであって、前記データセンタシステムは、第1のホストコンピュータと第1の記憶システムからなる前記第1のデータセンタと、 第2のホストコンピュータと、第1の記憶システムのコピーデータを保持する第2の記憶システムとからなる前記第2のデータセンタと、第3のホストコンピュータと、前記第1の記憶システムと前記第2の記憶システムとが配置される距離よりも遠地に配置され、前記第1の記憶システムのコピーデータを保持する第3の記憶システムと、からなる前記第3のデータセンタと、で構成され、 前記第1のホストコンピュータと、前記第2のホストコンピュータと、前記第3のホストコンピュータは、それぞれ、稼動優先順位を保持するメモリ領域と、前記クラスタサービスプログラム保持するメモリ領域と、を有し前記クラスタサービスプログラムは、前記稼動優先順位を保持するメモリ領域を参照して実行され、 前記稼動優先順位情報に基づいて、前記第1のホストコンピュータが、フェイルオーバーするホストコンピュータを選択するように構成されてなる。
さらにまた本願課題を解決するための本願データセンタシステムの構成は、第1のデータセンタと、第2のデータセンタと、第3のデータセンタとからなるデータセンタシステムであって、このデータセンタシステムは、 第1のホストコンピュータと第1の記憶システムからなる前記第1のデータセンタと、第2のホストコンピュータと、第1の記憶システムのコピーデータを保持する第2の記憶システムとからなる前記第2のデータセンタと、第3のホストコンピュータと、前記第1の記憶システムと前記第2の記憶システムとが配置される距離よりも遠地に配置され、前記第1の記憶システムのコピーデータを保持する第3の記憶システムと、からなる前記第3のデータセンタと、で構成され、前記第1の記憶システムと、前記第2の記憶システムとの間は、同期方式によるリモートコピーを実行し、前記第1の記憶システムと、前記第3の記憶システムとの間は、非同期方式よるリモートコピー実行し、 前記第1のホストコンピュータと、前記第2のホストコンピュータと、前記第3のホストコンピュータは、それぞれ、リモートコピーの方式を保持するメモリ領域と、前記クラスタサービスプログラム保持するメモリ領域と、を有し 前記第1のホストコンピュータが、フェイルオーバを実行する場合に、前記リモートコピーの方式を保持するメモリ領域を参照して、前記第2の記憶システムに接続される前記第2のホストコンピュータ対してフェイルオーバーするように構成される。
【0052】
またこのような構成をとるデータセンタシステムは、第1のホストコンピュータの稼動状態を第1のホストコンピュータ以外のホストコンピュータが監視する第1のステップと、
前記第1のホストコンピュータ以外のコンピュータが、前記第1のホストコンピュータの稼動障害を検出した場合に、前記稼動障害を検出したホストコンピュータが、このホストコンピュータ内部のメモリに保持される稼動優先順位情報を参照して、フェイルオバー先となるホストコンピュータを選択する第2のステップと、前記ホストコンピュータを選択するステップにおいて選択されたホストコンピュータに対して前記第1のホストコンピュータのフェイルオーバ処理を行なう第3のステップと、からなる。
また、このような制御を行なうプログラムを各ホストコンピュータに搭載することにより、当該プログラムが各ホストコンピュータで実行され、データセンタシステム内でのフェイルオーバーや、フェイルバックが制御される。
【0053】
【発明の実施の形態】
本願発明を図を用いて詳細に説明する。図1は本発明を適用したデータセンタシステムの1例である。データセンタシステム1000は、メインデータセンタ1001、近地のサブデータセンタ1002、近地よりもメインデータセンタから遠い位置遠地のサブデータセンタ1003からなる3データセンタ構成のデータセンタシステムである。
【0054】
データセンタ1001は、ノードA1010とそれに接続される記憶システムA1020で構成されている。他のサブデータセンタ1002及び1003も同様にそれぞれ、ノード及びそれに接続される記憶システムで構成される。
【0055】
各ノードは、パーソナルコンピュータやワークステーションなどホストコンピュータと成り得るものである。ノード1010、ノード1011、ノード1012はクラスタサービスを行うためのソフトウェア1060と後述する管理テーブル1080を有する。これらのノードは、ネットワーク1030で接続されており、例えば、TCP/IPを利用したネットワークで接続される。
【0056】
記憶システムA1020、記憶システムB1021、記憶システムC1022は、データを蓄積するためのハードディスクドライブ1050と構成情報1090を有する。構成情報1090は、各記憶システム内のメモリに保持され、記憶システムはこの構成情報を参照しながら、上位装置から受領したデータの書き込みや読み出し命令を処理する。この構成情報には、どのようなハードディスクが接続されているかという情報や、ハードディスク上に論理的に構成される論理ボリュームに関する情報が記録される他、他の記憶システムとの間でリモートコピーによりデータがコピーがなされるために必要な情報が蓄積される。
【0057】
例えば、記憶システムのどの論理ボリュームがどの記憶システムのどの論理ボリュームにコピーされるかというペア情報も含んでいる。またそのリモートコピーの方式が非同期方式であるか、同期方式であるかという情報もこの構成情報として格納されている。
【0058】
また、記憶システムA1020、記憶システムB1021、記憶システムC1022は、それぞれネットワーク1040、1041,1042で接続されている。これらの接続にはSAN(Storage Area Network)などを利用することが可能であるが限定されるものではない。
【0059】
ネットワークで接続される記憶システム同士はそれぞれ双方向のリモートコピーが可能であり、そのリモートコピーの方式は種々選択可能である。本実施例においては、記憶システムA1020から記憶システムB1021へは同期転送方式のリモートコピーが設定され、記憶システムA1020から記憶システムC1022へは非同期転送方式のリモートコピーが設定されている状態を示している。
【0060】
図4はフェイルオーバーを行う際に、フェイルオーバーの対象となるノードを同期転送方式のリモートコピーを実施する記憶システムに接続されるノードに優先的割り当てる実施形態を示している。
【0061】
データセンタシステム1300の構成は図1を用いて説明したデータセンタシステム1000と同じであるがノードの稼動優先順位を明瞭にするために、各データセンタを構成するノードをそれぞれ、最優先ノード1310、次優先ノード1311、待機ノード1312として示している。
【0062】
ここで、最優先ノードとは、現在稼動しているノードを示し、次優先ノードとは、最優先ノードが何らかの理由でフェイルオーバーする場合に次に優先するノードで現在稼動しているノードのJOBを受け継ぐノードである。待機ノードは次優先ノードよりも優先度の低いノードで、次優先ノードへのフェイルオーバーが何らかの理由で行えない場合に、選択されるノードである。
【0063】
図4においては、3つのデータセンタからなる図を用いて説明しているがデータセンタの数は、適宜設定可能である。例えば、データセンタ4つある場合には、現在稼動している最優先ノード以下、順に3種の優先度が決定されることになる。
【0064】
図中、記憶システムA1020から記憶システムB1021へは同期転送方式によるリモートコピーを実施しているものとする。記憶システムA1020は最優先ノード1310からの書込み命令を受けて、記憶システム1020のハードディスクドライブ1050へデータを書込む。併せて、記憶システムB1021へも同データの書込み命令を発行し、記憶システム1021は、そのデータの書き込みを完了すると、データ書込み完了通知を記憶システム1020に送信する。記憶システムA1020は、記憶システムB1021からの書込み完了通知を受領した後、その旨を最優先ノード1310に送信する。
【0065】
つまり、最優先ノードからの書き込み命令と同期してに記憶システムA1020と記憶システムB1021にデータの書込みがなされるため、記憶システムA1020と記憶システムB1021は原則として同じデータを保持する。
【0066】
尚、ここでいうデータの書込みの完了とは、記憶システムに内蔵されるハードディスクそのものへの書き込みの完了のみを意味するのではなく、記憶システムによってハードディスクへの書き込みが出来る状態になったものを含む。
【0067】
記憶システムは、記憶システムの内部に高速のキャッシュメモリを有し、多くの記憶システムは、上位装置から受けた書き込み命令を一旦このキャッシュに読み込み、キャッシュへの読み込みが完了した時点で、上位装置に対して書込み完了の通知を発行するように構成されている。このことにより上位装置は、応答速度の遅いハードディスクへのアクセス完了待つことを必要としなくなるのである。
【0068】
一方、本図の記憶システムA1020から記憶システムC1022へはデータの転送方式1082は、非同期転送方式によるリモートコピーを実施している。記憶システムA1020は最優先ノード1310からのデータの書込み命令を受けると、記憶システム内のキャッシュメモリ(図示しない)にデータを書込んだ後、データ書込み完了通知を最優先ノード1310へ発行する。記憶システム1020Aは最優先ノード1310の書き込み命令とは非同期的に記憶システムC1022へデータの書込み命令を発行する。つまり、記憶記憶システムA1020は、自身のキャッシュメモリに取り込んだ書き込みデータを、任意のタイミングで、記憶システム1022に対して書き込むように命令する。従って、記憶システム1022は記憶システム1020に比べて古いデータを保持する可能性がある。
【0069】
ここで、図4の最優先ノード1310に障害が発生した場合について説明する。現在稼動中の最優先ノードに障害が発生した場合、この最優先ノードは処理を継続することができなくなるので、遅滞なくほかのいずれかのノードに処理を移行する作業、即ちフェイルオーバーを行う必要がある。このフェイルオーバー処理は、上述のとおりできる限り短時間で終了することが望ましい。
【0070】
そこで、本願発明においては、どのノードを選択するかについて、その接続されている記憶システムの状態に着目する。記憶システムに蓄積されるデータが、障害発生の直前まで稼動していたノードが接続していた記憶システムのデータに最もデータイメージが近いものを選択することによって、ノードの切り替えに伴うデータの整合に係る時間を最小限に留めることができるからである。
【0071】
このため、本願発明のデータセンタシステム1300を構成する各データセンタ内のノードは、管理テーブル1080に、最優先ノードに接続されている記憶システムと同期方式でリモートコピーが行われている記憶システムに関する情報と、当該記憶システムに接続されているノードを特定する情報が蓄積されている。
【0072】
最優先ノードに障害が発生したことを検出したデータセンタシステム内のいずれかのノードは、この管理テーブル1080を参照して、自身が現在稼動中のノードに代わって、処理を引き継ぐノードであるかどうかを確認するのである。
【0073】
また、現在稼動中の最優先ノードからの制御によって、他のノードにフェイルオーバーを行う場合も同様に、管理テーブル1080を参照して、フェイルオーバーを行うノードを選択するのである。
【0074】
次に図5を用いて、図4で参照した管理テーブルがどのように作成されるかを詳細に説明する。図5は、最優先ノード1310が行う管理テーブルを作成するための処理手順を示している。 最優先ノード1310は記憶システムA1020から、リモートコピー種別を得るために構成情報1090を読み出す(ステップ1411)。
【0075】
図4に示すデータセンタシステム1300における記憶システム1020の構成情報1090は少なくとも次の3つの情報を保持している。
1.記憶記憶システムA1020がリモートコピー元(最優先ノードに接続されている記憶システムであるということでもある。)であること。
2.記憶システムB1021との間では同期転送方式によってデータのリモートコピーを行っていること。
3.記憶システムC1022との間ではが非同期転送方式によってデータのリモートコピーを行っているということ。
【0076】
ノードから、構成情報の要求を受けた記憶システムは上述のようなデータ転送方式の種別を含む構成情報1090を、その要求を発行したノードにわたす。このようにノードが記憶システムの構成情報を取得するには、ノードから記憶システムに対してSCSIのモードセレクトコマンドのVendorUnique等を送信することによって行えば良い。
【0077】
構成情報を受領した最優先ノード1310は構成情報1090から必要な情報を集めて管理テーブル1450を作成する(ステップ1412)。
【0078】
管理テーブルの1構成例をリモートコピー状態管理テーブル(以下、適宜、管理テーブルと呼ぶ)1450に示す。
【0079】
例示した管理テーブル1450はノードを特定するためのノード種別と、データ転送方式を特定するためのリモートコピー種別と、現在稼動中のノードに接続されているものであるかどうかを示す動作フラグを要素としている。
【0080】
ノード種別にはIPアドレスまたはコンピュータ名など、ノードとなっているコンピュータを一意に識別できる要素が格納される。リモートコピー種別は最優先のノードに接続される記憶システムと、どのような転送方式(種別)のリモートコピが行われているかを示している。
【0081】
今、IP0001が最優先ノードであるとすると、それに接続されている記憶システムは、リモートコピー元となるから、このリモートコピーの形態の欄にはリモートコピー元を示す情報が記載される。その下の欄には、IP0002とIP0001とのデータ転送の方式が同期転送方式であることが示され、IP0003とIP0001とが非同期転送方式であることがその下の欄に示されている。動作フラグは、どのノードが稼動中のノードであるかを示している。本管理テーブルでは、稼動中のものを「1」としている。この場合、通常、リモートコピー元となっている記憶システムに接続されるノードの動作フラグの欄が「1」となる。
【0082】
ステップ1412で作成された管理テーブル1450を、最優先ノード1310と同一ネットワーク上にある次優先ノード1311と、待機ノード1312にそれそれコピーする。(1413)
尚、管理テーブルの存在形態は、例えばファイル、ポインタの集合、データベース、バイナリなどどのようなものでもよく、限定されるものではない。また図4の説明ではデータ転送方式の差異によるフェイルオーバー時の処理軽減に着目して、フェイルオーバーを行うノードを決定しようとする場合の管理テーブルを示したので、図5に示す管理テーブルを構成する要素としてリモートコピーの態様を示すものを利用しているが、記憶システムの性能に着眼して次に最優先ノード即ち、稼動ノードとなるものを決定するような場合は、構成情報から記憶システムの性能に関する情報を抽出してこの管理テーブルを作成すれば良い。
【0083】
ここで、障害が発生した場合の詳細な説明に先立って、障害について簡単に説明する。稼動中のデータセンタに発生する障害はノード側の障害と、ノードに接続される記憶システムの障害の2つに大別される。いずれの障害の場合にもデータセンタシステムを構成する他のデータセンタにその業務を引き継ぎ、運用の中断を最小限にとどめるような手段を講じなければならない。業務を引き継ぐ場合には、フェイルオバー処理によってノードの処理を他のノードに引き継がせる作業と、引き継いだ新たなノードが制御する記憶システム内のデータを障害が発生する直前までのデータに更新してやる作業がある。
【0084】
ところで、ノードのみに障害が発生した場合、記憶システム自体には障害がないので、障害が発生したノードの処理をフェイルオーバで他のノードに移し、当該新たなノードで元の記憶システムを制御するという方法も考えられる。同一のデータセンタにクラスタ構成の複数のノードがあるような場合がこれにあたる。しかしながら、同一データセンタ内の全てのノードに何らかの障害が発生した場合には、他のデータセンタのノードを用いてフェイルオーバを行ない業務を継続させる必要がある。このような場合、記憶システムとノードとの物理的な距離が大きくなってしまうと応答性能の劣化に繋がるので、フェイルオーバ先のノードは、同じデータセンタ内の記憶システムをメインの記憶システムとして用いることになる。従って、ノードの選択にあたってはフェイルオーバー後のデータの回復処理(障害発生時までの状態にデータを更新すること)に最も適した記憶システムを選択する必要が生じるのである。
【0085】
図6は、図4の最優先ノード1310に接続される記憶システム1020で障害が発生した場合に、最優先ノード1310と次優先ノード1311で実行される処理を示したものである。
【0086】
図6のステップ1511において、記憶システムに何らかの障害が発生すると最優先ノード(稼動中のノード)から記憶システムへのデータの書き込みがなされなくなる。
【0087】
つまり、最優先ノード1310に接続する記憶システム1020で障害が発生すると、記憶システムA1020への書込み処理がエラーとなり(ステップ1511)、最優先ノードのリソースは、オフラインとなる(ステップ1512)。リソースとは記憶システムのハードディスクドライブやノード自身が持つディスク、上位装置と記憶システムに接続するために利用するNIC(NetworkInterfaceCard)などのハードウエアやユーザアプリケーションなどで最優先ノード1310が使用していたものをさす。
【0088】
このエラーを検出した稼動中のノード1310は、次優先ノード1311や待機ノード1312など管理テーブル1080に登録されているノードが正常状態にあるかどうかを図4に示す通信路1030を介して確認する(1513)。ノード1310は他のノードが全て正常状態にあれば、管理テーブル1080からリモートコピー形態の欄を検索し、同期転送方式リモートコピーを実施している記憶システムに接続する次優先ノードのIPアドレスを取得する(ステップ1514)。
【0089】
同期転送方式リモートコピーを実施する記憶システムが複数ある場合には、管理テーブルに他の情報、例えば記憶システムの性能情報等を蓄積しておき、それらに基づいて最も適した記憶システムを決定するようにしてもよいし、検索で最も早くヒットした記憶システムとしてもよい。
【0090】
次優先ノードのIPアドレスが見つかると最優先ノード1010が持つ管理テーブル1080内の(動作フラグ)欄の、「最優先ノード」であることを示すフラグを下ろし、新たに稼動ノードとなるIPアドレスに対応する動作フラグの欄に稼動中であることを示すフラグを立てる。(ステップ1515)。そして、この更新された管理テーブルをデータセンタシステム内の他のノードに通信線1030を介して送信し、他のノードが有する管理テーブルも更新する。(ステップ1516)
次いで、各ノードはクラスタ管理ソフトウェアを起動してフェイルオーバーを実行する(ステップ1530)。
【0091】
フェイルオーバーの処理にはクラスタの切り替え、データの新たな最優先ノードへの移動、IPアドレスの切り替え、アプリケーションの引継ぎなどがある。
【0092】
新たに最優先ノードとなったノード1311は記憶システムB1021に対して、記憶システム1021から記憶システム1022との間にリモートコピーペアを作成する命令を発行し、リモートコピーペアを生成する。(リモートコピーペアを再生成することからの張替えと呼ぶこともある。)(ステップ1521)。この段階で、記憶システム1021はリモートコピー元となり、記憶システム1022へのリモートコピーが実施出来るようになる。これらのリモートコピーペアに関する情報は、記憶システム1021の構成情報として記憶システム1021内に蓄積される。
【0093】
新たに最優先ノードとなったノード1311は、図5で説明した手順に従って、管理テーブルを作成し、データセンタシステムの他のノードに送信する。(ステップ1522)
次いでノード1311は記憶システム1021のリソースをディスクの再マウントやIPアドレスの切り替え等の処理で次優先ノードでオンラインにして(ステップ1523)、記憶システムB1021のハードディスクドライブへの接続を可能とし、アプリケーションの再実行等を行って、ノード1311は障害発生前と同じ状態の正常稼動を始める(ステップ1523)。
【0094】
尚、フェイルオーバーの契機は、オペレータによって計画的に実行される他、障害発生の検出を契機に行なわれる。この障害発生は、図4に示す最優先ノード1310、次優先ノード1311、待機ノード1312に搭載される各クラスタサービスソフトウェアがpingの応答を監視するなどのハートビートを用いて常にリソースを監視していることにより検出される。。
【0095】
図7は、図4に示す稼動中の最優先ノード1310で障害が発生した場合の最優先ノード1310の処理及び、次優先ノード1311と待機ノード1312の処理を示したものである。図4でも述べたようにこれらのノードの優先度は固定的なものではないが、本願発明の理解を助けるために、障害前まで稼動しているノード1310を最優先のノード、最優先のノードがフェイルオーバーする際にその対象となるノード1311を次優先ノード、それ以外のノード1312を待機ノードとそれぞれ呼称して説明する。
【0096】
図4の最優先ノード1310、次優先ノード1311、待機ノード1312の各クラスタサービスは障害を検出するため、pingの応答を監視するなどのハートビートを用いて常にリソースを監視する(ステップ1611、ステップ1621、ステップ1631)。これらの監視は記憶システム間を接続する通信網とは異なる通信回線1030を用いて行われる。
【0097】
最優先ノード1310でノード自体に障害が発生すると次優先ノード1311や待機ノード1312は、最優先ノード1310からのハートビートを受けることができない。次優先ノード1311または待機ノード1312は、正常なハートビートを得られないことから、最優先ノード1030に何らかの異常が発生したことを検知する。
【0098】
次優先ノード1311及び待機ノード1312が異常が発生したことを検知した場合(ステップ1621、ステップ1631)、それぞれのノードは、そのノード自身のメモリに記録されている管理テーブル1080を参照する。管理テーブルの詳細は図5に示す。
【0099】
そして、リモートコピー形態を検索して、その項が「同期転送方式」となっているノード(図4においては、データセンタシステム内のノード1311(次優先ノード))を検索する。(ステップ1622、ステップ1632)
次に各ノードは、自分が次に最優先ノードなって稼動するノードかどうかを調べる。(ステップ1623、ステップ1633)。
【0100】
その調査は、次に稼動するノードと自ノードのIPアドレスが一致するかどうかによって行えば良い。IPアドレスに代えて、マシン名を管理テーブル1080に蓄積している場合は、マシン名によることとなる。
【0101】
上記の処理によって次優先ノード1311が次に稼動するノードであると検出されると、次優先ノード内の管理テーブルの最優先ノードの動作フラグ欄のフラグを「1」から「0」にし、次優先ノードの動作フラグ欄のフラグを「0」から「1」にする。(ステップ1624)。
【0102】
この段階で、これまでの次優先ノードは、最優先ノードとなる。また、前の待機ノード1312は、次優先ノードとなる。最優先ノードとなったノード1311は、待機ノード1312に通信線1030を介して新たな管理テーブル1080をコピーする(ステップ1625)。
【0103】
新たに最優先ノードとなったノード1311で、記憶システム1021に対し、記憶システム1021と記憶システム1020との間に記憶システム1021をコピー元とする同期転送方式によるリモートコピーペアを形成するように命令を発行する。さらに、記憶システム1021と記憶システム1022との間に記憶システム1021をコピー元とする非同期転送方式によるリモートペアを形成する旨の命令を発行する。(ステップ1626)
次いでノード1311は、新たな管理テーブルの情報及び構成情報に基づいて記憶システム1321のリソースをオンラインにする。(ステップ1627)
この段階でノード1311はフェイルオーバー前の最優先ノード1310と同じ状態となるのである(ステップ1628)。
【0104】
ところで、元々同期コピーを行なっていたノード1310と、ノード1311は、配下の記憶システムのデータの整合性が取れているので、同期コピーの方向を変更することで、フェイルオーバー後、直ちに運用を開始できる。
【0105】
しかしながら、非同期コピーを行なっていた元の最優先ノードと待機ノードとの間については、フェイルオーバー後のデータの整合性を保証する必要がある。以下その点について説明する。
上述のとおり、新たに最優先ノードとなったノード1311は記憶システムB1021に対し、記憶システムB1021から記憶システムA1020に、記憶システムB1021をコピー元とする同期転送方式によるリモートコピーを実施するよう命令を発行する。
【0106】
さらに、この新たに最優先ノードとなったノード1311は記憶システム1021Bに対し、記憶システムB1021から記憶システムC1022へ、記憶システムB1021をコピー元とする非同期転送方式によるリモートコピーを実施するよう命令を発行する。
【0107】
しかし、これまで記憶システムA1020との間で、非同期のコピーを行なっていた記憶システムC1022が保持するデータは、最新のデータになっているとは限らない。つまり、まだ記憶システムC1022へのコピーが完了していないデータ(以下、未転送データと呼ぶ)が記憶システムA1020に残っている可能性がある。換言すれば、記憶システムC1022が最新の状態となっておらず、記憶システムA1020が記憶システムC1022の未転送データを保持している可能性があるということである。
【0108】
そこで、新たな最優先ノード1311は、配下の記憶システムB1021に対して、「記憶システムA1020が保持する未転送データに関する情報を要求する命令を発行する」ように指示する。
【0109】
この指示を受けた記憶システムB1021は、例えばSCSIのVendorUniqueコマンドを利用した未転送データ情報要求コマンドを記憶システムA1020に発行し、未転送データに関する情報を要求する。
【0110】
記憶システムA1020は、記憶システムB1021の上記要求を受けて、未転送データに関する情報を記憶システムB1021に送信する。
【0111】
ここで図11を用いて未転送データの情報について説明する。
未転送データαは図11に示すようにヘッダーに総ブロック数Nと、N個のデータブロックからなるデータ構造を持つ。(図中ブロックA1、ブロックA2・・・ブロックAnとして示す。)
各データブロックはブロックアドレスとそのデータから構成される。(図中データ1、データ2、・・・データn)
ここでは説明を簡単にするため、データ1〜データnは固定長とするが、可変長のデータを保持し、データサイズをブロック中に保持することも可能である。
【0112】
未転送データに関する情報を要求された記憶システムA1020は、自装置内の未転送のデータブロックの数である総ブロック数Nを記憶システムB1021に応答する。記憶システムB1021は、受領した未転送データα内のブロック数Nが正の値を保持しているかどうかを判定し、正である場合には、記憶システムA1020が未転送データブロックを保持していると判断する。
【0113】
そして、ブロック数N個分の容量を持つ未転送データαを記憶システムB1021に転送する。記憶システムB1021は記憶システムC1022へ記憶システムBをコピー元とする非同期転送のデータ方式を設定し、記憶システムA1020から受領した未転送データαを順次、記憶システムC1022コピーする。
【0114】
ここで、記憶システムB1021から記憶システムCへ未転送データαのコピーが完了する前に、記憶システムB1021に対して、新たに最優先ノードとなったノード1311からWrite命令が来た場合には、そのデータの記憶システムC1022へのコピーを、未転送データαよりも後に実施するように記憶システムB1021はタスクスケジュールを組む。
【0115】
このような方法をとることで、未転送データαの記憶システムC1022への書き込みが完了する前に、ノード1311から記憶システムB1021へ書き込まれたデータを記憶システムC1022に書き込むことがないように抑止する。
【0116】
また、記憶システムB1021が記憶システムA1020から受領した未転送データαに上書きされるようなデータがノード1311からのWrite命令で書き込まれた場合には、最新のデータのみを記憶システムC1022に送るために、記憶システムA1020から受領したが上書きされたことで不要となったデータを、記憶システムC1022へ書き込まないようにして記憶システムB1021から記憶システムC1022へのデータ転送量を削減しても良い。
【0117】
また、これまで記憶システムA1020から記憶システムC1022への未転送データαを記憶システムB1021を経由して記憶システムC1022へコピーする方法について述べてきたが、未転送データαを記憶システムA1020から直接記憶システムC1022へ転送する方法をとっても良い。
【0118】
以下、その具体例を説明する。ノード1310に障害が発生するなどして、ノード1311にフェイルオーバーすると、記憶システムB1021はSCSIのVendorUniqueコマンドを利用した未転送データ要求コマンドを用いて記憶システムA1020が保持する未転送データαのブロック数Nを確認する。
【0119】
ブロック数Nが正の値を保持している場合には、定期的にブロック数Nの値を確認して、その値が0となるまでの間、ノード1311から記憶システムB1021へのWrite命令があっても記憶システムC1022への書き込みを抑止する。(非同期リモートコピーを中断して、データ整合性のためのコピーを優先する。)
そして、ブロック数Nが0であることを確認すると記憶システムB1021は記憶システムC1022への書き込み抑止を解除し、リモートコピーを開始する。このようにして、非同期コピーによりデータを蓄積していた記憶システムのデータ欠如を解消するのである。
【0120】
本願発明を言い換えれば、運用中のノードが何らかの理由で他のノードに処理をフェイルオーバーする必要ができた場合の次ノードの選択方法として、まず、同期コピーをおこなっている記憶システムを配下に有するノードを選択して、フェイルオーバー直後であってもその運用を引き継ぐ。このことにより、フェイルオーバー直後から、データセンタの運用が可能となる。
【0121】
そして、その新たに運用系となった最優先ノードの配下の記憶システムのデータは、これまで遠隔地に待機系として存在していた記憶システムとの間で二重化されるように制御される。
【0122】
上述のとおり、この待機系として存在していた記憶システムは、遠隔地にあるという理由から前の最優先ノードとの間で、非同期コピーを行なわれていることが多い。そこで本願発明においては、新たに非同期コピーのリモートコピー先となる記憶システムのデータを、二重化データとして利用できるようにするために、前の最優先ノード配下の記憶システムとの間のリモートコピーが未完了のデータについてタスクスケジュール管理を行い、新たに開始する非同期リモートコピーに先立って、コピー処理するのである。
【0123】
この場合そのタスク制御を行なうのは、フェイルオーバー後に最優先ノードとなるノードの配下の記憶システムが行なえば、新たに最優先ノードとなったノードからのI/O要求と未転送データとの転送優先制御を行い易くなる。
【0124】
尚、また、図4における待機ノード1312は図7のステップ1633の処理によって自ノードがフェイルオーバーを受けないことが確認され、ステップ1634からステップ1638の処理はされないで他ノードの監視を行う状態に戻る。
【0125】
無論、この記憶システム1022においても、新たに優先ノードとなったノードからの指示により、新たなリモートコピーのリモートコピー先とリモートコピー元の定義がなされることはいうまでもない。また、この記憶システム1022が、フェイルオーバー前の非同期リモートコピーの未完了分について、稼動開始直後からタスク管理されて、先に蓄積すべきデータの転送を受けることは上述の通りである。
【0126】
このようにして障害発生または、保守管理のためにフェイルオーバーがなされ、図4のメインデータセンタ1001の機能が、近地のサブデータセンタ1002で引き継がれ、業務が中断されることなく(或いは中断があったとしても短期間のうちに)、引き継がれるのである。
【0127】
ところで、このように業務がサブセンタ1002に引き継がれている間に、メインデータセンタ1001での稼動が回復できるようになった場合、次のようにして復旧処理を行う。
【0128】
図9は、リモートコピー状態管理テーブルの他の実施例を示している。この図9に示すリモートコピー状態管理テーブルには、優先キーが各ノードに定義されている。データセンタシステムに障害や保守のための計画停止がない場合には、優先キーに定義された最高順位のノードが最優先ノードとして稼動系(リモートコピー元)となり、その他のノードが待機系(リモートコピー先)となる。
【0129】
図9の優先キー1は、数字の値の少ない順に優先度が高い状態を表している。図10は、ノードAに発生した障害が理由で2番目の優先順位のノードBが、稼動系となっている場合に、優先順位の高いノードAが障害から回復した後に、ノードBが、ノードAにフェイルバックする場合の手順を示す。尚、ノードAの配下に接続される記憶システムを記憶システムA、ノードBの配下に接続される記憶システムを記憶システムB、ノードCの配下に接続される記憶システムを記憶システムCとして説明する。
【0130】
ノードBよりも優先度の高い最優先ノードAが障害から復旧すると、ノードAはノードAの内部に保持した図9のリモートコピー状態管理テーブル(以下管理テーブルという。)を参照して、現在稼動中のノードを検索する。この場合、ノードAが保持している管理テーブルが最新のものに更新されていない可能性があるので、稼動ノードをまず検索する。(ステップ2011)
図10においては、ノードBが稼動系となっているので、ノードBが保持する管理テーブルをノードBより収集してノードA内の新管理テーブルとして保持する(ステップ2012)。
【0131】
もしも、この例では、ノードBが稼動中である場合を示しているが、ノードBが稼動中でない場合には、順次優先順位の低いノードについて稼動中であるかどうか検索すれば良い。
【0132】
ノードAはノードBから受領した管理テーブル内の情報を、ノードAが稼動中となるようにフラグを立て直す。具体的には現在稼動中の、ノードBの稼動フラグを下げ、ノードAの稼動フラグを立てる(ステップ2013)。更新した管理テーブルをノードBとノードCにコピーする(ステップ2014)。
【0133】
次に稼動中のノードBにフェイルバックを要求すると(ステップ2015)、要求を受けた稼動中のノードBは記憶システムへのI/Oを停止し(ステップ2021)、リソースオフラインとする(ステップ2122)。
【0134】
新たに最優先となったノードAはフェイルバックすると、配下の記憶システムAに対して最新のデータである記憶システムBのデータを吸い上げるよう命令を発行し、記憶システムAから記憶システムBへは同期転送方式でのリモートコピーを、記憶システムAから記憶システムCへは非同期転送方式のリモートコピーを実施するよう記憶システムAへ命令を発行し、リモートコピーペアの張替え2016を行う。ノードAは記憶システムAのハードディスクやリソースのオンライン(ステップ2017)とし、ノードBの処理を引き継ぎを経て正常稼動となる(ステップ2018)。
【0135】
尚、この場合において、フェイルバック前の非同期リモートコピー中のデータについて、前述のようにデータの整合性をとるために、未転送データについてタスクスケジュール管理がされることは言うまでもない。
【0136】
第2の実施形態では、同期転送方式のリモートコピーを実行する記憶システムに接続するノードにのみフェイルオーバーし、非同期転送方式のリモートコピーを実施する記憶システムは単なるバックアップを行う。
【0137】
第2の実施形態は図5に示す管理テーブル1450に登録されるノードのうち、リモートコピー状態が非同期転送方式とされるノードを次に稼動するノードの検索処理1514,1622、1632において、リモートコピー種別が「同期転送方式」であるノードを検索対象外として検索処理を行う他は、第1の実施形態と同様の処理により実施する。
【0138】
第3の実施形態では最優先ノードのフェイルオーバー優先順位をノードまたは記憶システムが自動的に設定する。
【0139】
第3の実施形態は、図9のテーブルに示すように複数の優先キーをを管理テーブルの要素として追加し、フェイルオーバー先の選択条件として利用する。、またこの優先キーは、ノード毎に優先順位をつける情報として利用でき、上述のように、何らかの理由で最優先ノードから次の優先ノードにフェイルオーバーした後、優先キーの示す優先順位に従って、優先度の高い元のノードにフェイルバックを行なう。
この優先キーは、図9に示すように複数もつようにして、各種条件に応じて優先度自体を変更するようにしても良い。
【0140】
最優先ノード1310がフェイルオーバーする場合に、第1の実施形態ではリモートコピー種別をキーに次に稼動するノードを検索したが、第3の実施形態ではフェイルオーバー時に優先させたい項目のキーデータを「優先キー」に登録する。例えば、最優先ノード1310から次優先ノード1311へ、最優先ノード1310から待機ノード1312へそれぞれpingコマンドを実行し、そのレスポンスタイムを「優先キー」に登録することも可能である。
【0141】
図具体的には、図7に示す最優先ノード1310のフェイルオーバー時に次の稼動ノードを検索する処理1622や1632において、リモートコピー種別を検索対象とせず「優先キー」を検索対象とする。例えば、レスポンスタイムの小さいノードを次に優先するノードとして検索し、近地の記憶システムを自動的に判断しフェイルオーバー先として設定するようにすることも可能である。
【0142】
第4の実施形態では現在稼動中の最優先ノード1310のフェイルオーバー優先順位を予めユーザが設定する。
【0143】
図8にユーザ手動による管理テーブル登録処理1810を示す。管理テーブル登録処理1810は最優先ノード1310にて実行される処理である。
【0144】
フェイルオーバーの順番を決めるためのキーとなる「優先キー」があれば(ステップ1811)「優先キー」を入力する(ステップ1816)。次に、ノードの登録1812、リモートコピー形態の登録1813、優先キー値または優先順位の登録1814を同一ネットワークにつながる全ノードについておこない(ステップ1821)、各ノードに管理テーブルファイルをコピーする(1815)。ノード登録やリモートコピー形態の登録は手動で行わなくとも図5に示す最優先ノード処理A1410を用いても良い。
【0145】
上記、第1の実施形態から第4の実施形態まで、3データセンタ間でのシステムについて述べてきたが、図1において記憶システムA1020と記憶システムB1021との間で非同期転送方式を用いている場合も本システムは適用することができ、さらに3データセンタ以上のデータセンタが存在するシステムにも適用可能である。
【0146】
さらにまた、クラスタサービスを有するホストコンピュータが接続する記憶システムが3組以上存在し、ホストコンピュータは同一のコンピュータネットワークで接続し、記憶システムがコンピュータネットワークに接続して記憶システム間でリモートコピーを実施するシステムにおいても本発明が適用できることは言うまでも無い。
【0147】
【発明の効果】
本発明の構成により、障害発生時に無駄の無いフェイルオーバーの処理が可能となる。
【図面の簡単な説明】
【図1】本発明にかかるシステム構成の一例を示した説明図である。
【図2】リモートコピー実施構成の一例を示した図である。
【図3】同期転送方式のリモートコピーと非同期転送方式のリモートコピーの処理を示した図である。
【図4】同期転送方式のリモートコピーを優先するフェイルオーバーを示す図である。
【図5】リモートコピー状態管理テーブル作成のフローチャートである。
【図6】記憶システム障害発生時の同期転送方式リモートコピー優先フェイルオーバーの処理を示すフローチャートである。
【図7】ノード障害発生時の同期転送方式リモートコピー優先フェイルオーバーの処理を示すフローチャートである。
【図8】管理テーブル手動登録処理手順を示すフローチャートである。
【図9】優先キーを複数持つ場合の管理テーブルを示す表である。
【図10】復旧監視および復旧処理を示すフローチャートである。
【図11】未転送データのデータフォーマットを示す図である。
【符号の説明】
1000・・・データセンタシステム、1001・・・メインデータセンタ、1010・・・ノードA、1090・・・管理テーブル、1060・・・クラスタサービス、1020・・・記憶システムA、1050・・・ハードディスクドライブ、1021・・・記憶システムB、1002・・・近地のサブデータセンタ、1003・・・遠地のサブデータセンタ、1022・・・記憶システムC

Claims (15)

  1. 第1のデータセンタと、第2のデータセンタと、第3のデータセンタとからなるデータセンタシステムであって、
    前記データセンタシステムは、
    第1のホストコンピュータと第1の記憶システムからなる前記第1のデータセンタと、
    第2のホストコンピュータと、第1の記憶システムのコピーデータを保持する第2の記憶システムとからなる前記第2のデータセンタと、
    第3のホストコンピュータと、前記第1の記憶システムと前記第2の記憶システムとが配置される距離よりも遠地に配置され、前記第1の記憶システムのコピーデータを保持する第3の記憶システムと、からなる前記第3のデータセンタと、で構成され、
    前記第1のホストコンピュータと、前記第2のホストコンピュータと、前記第3のホストコンピュータは、それぞれ、稼動優先順位を保持するメモリ領域と、前記クラスタサービスプログラム保持するメモリ領域と、を有し
    前記クラスタサービスプログラムは、前記稼動優先順位を保持するメモリ領域を参照して実行され、
    前記稼動優先順位情報に基づいて、前記第1のホストコンピュータが、フェイルオーバーするホストコンピュータを選択することを特徴とするデータセンタシステム。
  2. 第1のデータセンタと、第2のデータセンタと、第3のデータセンタとからなるデータセンタシステムであって、
    前記データセンタシステムは、
    第1のホストコンピュータと第1の記憶システムからなる前記第1のデータセンタと、
    第2のホストコンピュータと、第1の記憶システムのコピーデータを保持する第2の記憶システムとからなる前記第2のデータセンタと、
    第3のホストコンピュータと、前記第1の記憶システムと前記第2の記憶システムとが配置される距離よりも遠地に配置され、前記第1の記憶システムのコピーデータを保持する第3の記憶システムと、からなる前記第3のデータセンタと、で構成され、
    前記第1の記憶システムと、前記第2の記憶システムとの間は、同期方式によるリモートコピーを実行し、
    前記第1の記憶システムと、前記第3の記憶システムとの間は、非同期方式よるリモートコピー実行し、
    前記第1のホストコンピュータと、前記第2のホストコンピュータと、前記第3のホストコンピュータは、それぞれ、リモートコピーの方式を保持するメモリ領域と、前記クラスタサービスプログラム保持するメモリ領域と、を有し 前記第1のホストコンピュータが、フェイルオーバを実行する場合に、前記リモートコピーの方式を保持するメモリ領域を参照して、前記第2の記憶システムに接続される前記第2のホストコンピュータ対してフェイルオーバーすることを特徴とするデータセンタシステム。
  3. 請求項1に記載のデータセンタシステムにおいて、
    前記稼動優先順位情報が、リモートコピーの種別によって定義されることを特徴とするデータセンタシステム。
  4. 請求項2に記載のデータセンタシステムにおいて、
    前記第2の記憶システムに接続される前記第2のホストコンピュータがフェイルオバー不可能な場合に、前記第3のホストコンピュータに対してフェイルオーバすることを特徴とするデータセンタシステム。
  5. 請求項1に記載のデータセンタシステムにおいて、
    前記稼動優先順位情報が管理テーブルとしてホストコンピュータ毎に定義され、前記管理テーブルは、リモートコピーの種別を示す項目、及び少なくとも1つ以上の稼動優先順位を示す項目を有することを特徴とするデータセンタシステム。
  6. 請求項5に記載のデータセンタシステムにおいて、前記稼動優先順位を保持する管理テーブルを、管理者が登録する手段を有することを特徴とするデータセンタシステム。
  7. 請求項1記載のコンピューターシステムであって、
    前記第1のホストコンピュータが、前記稼動優先順位情報を作成するために、前記第1の記憶システム、前記第2の記憶システム、前記第3の記憶システムのいずれかが保持する記憶システムの構成情報を読み出すことを特徴とするデータセンタシステム。
  8. 第1のホストコンピュータと第1の記憶システムからなる第1のデータセンタと、
    第2のホストコンピュータと、第1の記憶システムのコピーデータを保持する第2の記憶システムとからなる第2のデータセンタと、
    第3のホストコンピュータと、前記第1の記憶システムと前記第2の記憶システムとの距離よりも遠地に配置され、前記第1の記憶システムのコピーデータを保持する第3の記憶システムと、からなる第3のデータセンタと、で構成され、前記第1のホストコンピュータと前記第2のホストコンピュータと前記第3のホストコンピュータとが、クラスタサービスを行なうデータセンタシステムの制御方法であって、
    この制御方法は、
    前記第1のホストコンピュータの稼動状態を前記第1のホストコンピュータ以外のホストコンピュータが監視する第1のステップと、
    前記第1のホストコンピュータ以外のコンピュータが、前記第1のホストコンピュータの稼動障害を検出した場合に、前記稼動障害を検出したホストコンピュータが、このホストコンピュータ内部のメモリに保持される稼動優先順位情報を参照して、フェイルオバー先となるホストコンピュータを選択する第2のステップと、
    前記ホストコンピュータを選択するステップにおいて選択されたホストコンピュータに対して前記第1のホストコンピュータのフェイルオーバ処理を行なう第3のステップと、からなることを特徴とするデータセンタシステムの制御方法。
  9. 請求項8に記載のデータセンタシステムの制御方法において、
    前記第2のステップにおける稼動優先順位情報が、リモートコピー種別によって定義されることを特徴とするデータセンタシステムの制御方法。
  10. 請求項8に記載のデータセンタシステムの制御方法において、
    前記第2のステップにおいて選択されるホストコンピュータが、前記第2のホストコンピュータであることを特徴とするデータセンタシステムの制御方法。
  11. 請求項8に記載のデータセンタシステムの制御方法において、
    前記第1の記憶システム前記第2の記憶システムとの間に同期方式のリモートコピーが実行され、前記第1の記憶システムと前記第3の記憶システムとの間に非同期方式のリモートコピーが実行されている場合に、前記第2のステップにおいて、前記第2の記憶システムが前記第1のホストコンピュータのフェイルオーバ先として選択されることを特徴とするデータセンタシステムの制御方法。
  12. 請求項11に記載のデータセンタシステムの制御方法において、
    前記稼動優先順位情報を前記第1、第2、及び第3の記憶システム内に蓄積される構成情報を読み出して生成することを特徴とするデータセンタシステムの制御方法。
  13. 請求項8に記載のデータセンタシステムの制御方法において、
    前記各ホストコンピュータは、どのホストコンピュータがリモートコピー元の記憶システムに接続されるホストコンピュータであるかを示す動作フラグを有し、前記第1のホストコンピュターの稼動に障害が発生した場合に、当該第1のホストコンピュータの動作を引きつぐホストコンピュータが、自身に記録される前記動作フラグをオンにするとともに、他のホストコンピュータの内の動作フラグ状態も更新する第4のステップと、
    前記引継ぎを行なったホストコンピュータが、このホストコンピュータに接続される記憶システムをリモートコピー元とするようにリモートコピーを他の記憶システムとの間に設定する第5のステップと、を有することを特徴とするデータセンタシステムの制御方法。
  14. 請求項13に記載のデータセンタシステムの制御方法において、
    前記第5のステップにおいて、前記リモートコピーを設定する場合に、前記新たにリモートコピー先となる記憶システムが、フェイルオーバー前に非同期コピー方式のリモートコピー先であった場合に、前記記憶システムに対して、前記非同期方式のリモートコピー期間において未転送のであったデータを新たに設定されたリモートコピーのデータ転送に先立って転送することを特徴とするデータセンタシステムの制御方法。
  15. 第1のホストコンピュータと第1の記憶システムからなる第1のデータセンタと、
    第2のホストコンピュータと、第1の記憶システムのコピーデータを保持する第2の記憶システムとからなる第2のデータセンタと、
    第3のホストコンピュータと、前記第1の記憶システムと前記第2の記憶システムとの距離よりも遠地に配置され、前記第1の記憶システムのコピーデータを保持する第3の記憶システムと、からなる第3のデータセンタと、で構成され、前記第1のホストコンピュータと前記第2のホストコンピュータと前記第3のホストコンピュータとが、クラスタサービスを行なうデータセンタシステムの各ホストコンピュータまたは各記憶システムのいずれかに搭載されるアプリケーションプログラムであって、
    このアプリケーションプログラムは、
    前記第1のホストコンピュータの稼動状態を前記第1のホストコンピュータ以外のホストコンピュータに監視させる第1のステップと、
    前記第1のホストコンピュータ以外のコンピュータが、前記第1のホストコンピュータの稼動障害を検出した場合に、前記稼動障害を検出したホストコンピュータが、このホストコンピュータ内部のメモリに保持される稼動優先順位情報を参照して、フェイルオバー先となるホストコンピュータを選択する第2のステップと、
    前記ホストコンピュータを選択するステップにおいて選択されたホストコンピュータに対して前記第1のホストコンピュータのフェイルオーバ処理を行なう第3のステップと、を有することを特徴とするアプリケーションプログラム。
JP2003183743A 2003-06-27 2003-06-27 データセンタシステム及びその制御方法 Pending JP2005018510A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003183743A JP2005018510A (ja) 2003-06-27 2003-06-27 データセンタシステム及びその制御方法
US10/769,482 US7260625B2 (en) 2003-06-27 2004-01-30 Data center system and method for controlling the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003183743A JP2005018510A (ja) 2003-06-27 2003-06-27 データセンタシステム及びその制御方法

Publications (2)

Publication Number Publication Date
JP2005018510A true JP2005018510A (ja) 2005-01-20
JP2005018510A5 JP2005018510A5 (ja) 2006-08-10

Family

ID=34055343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003183743A Pending JP2005018510A (ja) 2003-06-27 2003-06-27 データセンタシステム及びその制御方法

Country Status (2)

Country Link
US (1) US7260625B2 (ja)
JP (1) JP2005018510A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006114040A (ja) * 2004-10-08 2006-04-27 Microsoft Corp コンピュータクラスタのノードのフェールオーバー範囲
JP2006260357A (ja) * 2005-03-18 2006-09-28 Hitachi Ltd フェイルオーバークラスタシステム及びフェイルオーバー方法
JP2007213345A (ja) * 2006-02-09 2007-08-23 Hitachi Ltd ストレージシステム及びその制御方法
JP2008009814A (ja) * 2006-06-30 2008-01-17 Nec Corp データレプリケーションシステム及びデータレプリケーション方法
JP2009163529A (ja) * 2008-01-08 2009-07-23 Nec Corp データ多重化システムおよびデータ多重化方法
JP2009265805A (ja) * 2008-04-23 2009-11-12 Hitachi Ltd フェイルオーバ方法、プログラム、フェイルオーバ装置およびフェイルオーバシステム
JP2010530108A (ja) * 2007-06-15 2010-09-02 サヴィス・インコーポレーテッド 共有データセンタ災害復旧システム及び方法
JP2010198404A (ja) * 2009-02-26 2010-09-09 Nec Corp 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム
JP2013505499A (ja) * 2009-09-18 2013-02-14 アルカテル−ルーセント 動的ネットワークでの改善されたサーバ冗長性の方法
WO2013190737A1 (ja) * 2012-06-19 2013-12-27 日本電気株式会社 サーバシステム、サーバ、サーバ制御方法、及びサーバ制御プログラムが格納された非一時的なコンピュータ可読媒体
WO2014076765A1 (ja) * 2012-11-13 2014-05-22 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
JP2016151795A (ja) * 2015-02-16 2016-08-22 日本電信電話株式会社 データベースシステム及びそのマスター/スレーブ決定方法
US9652342B2 (en) 2014-03-10 2017-05-16 Fujitsu Limited Redundancy processing method and system, and information processing apparatus thereof

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004102852A (ja) * 2002-09-12 2004-04-02 Hitachi Ltd ホットスタンバイ計算機システム
GB0308708D0 (en) * 2003-04-15 2003-05-21 British Telecomm A computer system
JP2005062928A (ja) * 2003-08-11 2005-03-10 Hitachi Ltd 複数のサイトにリモートコピーを行うシステム
JP4415610B2 (ja) 2003-08-26 2010-02-17 株式会社日立製作所 系切替方法、レプリカ作成方法、及びディスク装置
US7664110B1 (en) 2004-02-07 2010-02-16 Habanero Holdings, Inc. Input/output controller for coupling the processor-memory complex to the fabric in fabric-backplane interprise servers
US7757033B1 (en) 2004-02-13 2010-07-13 Habanero Holdings, Inc. Data exchanges among SMP physical partitions and I/O interfaces enterprise servers
US7633955B1 (en) 2004-02-13 2009-12-15 Habanero Holdings, Inc. SCSI transport for fabric-backplane enterprise servers
US7685281B1 (en) 2004-02-13 2010-03-23 Habanero Holdings, Inc. Programmatic instantiation, provisioning and management of fabric-backplane enterprise servers
US7860097B1 (en) 2004-02-13 2010-12-28 Habanero Holdings, Inc. Fabric-backplane enterprise servers with VNICs and VLANs
US7561571B1 (en) 2004-02-13 2009-07-14 Habanero Holdings, Inc. Fabric address and sub-address resolution in fabric-backplane enterprise servers
US7953903B1 (en) 2004-02-13 2011-05-31 Habanero Holdings, Inc. Real time detection of changed resources for provisioning and management of fabric-backplane enterprise servers
US7843906B1 (en) 2004-02-13 2010-11-30 Habanero Holdings, Inc. Storage gateway initiator for fabric-backplane enterprise servers
US7843907B1 (en) 2004-02-13 2010-11-30 Habanero Holdings, Inc. Storage gateway target for fabric-backplane enterprise servers
US7990994B1 (en) 2004-02-13 2011-08-02 Habanero Holdings, Inc. Storage gateway provisioning and configuring
US8145785B1 (en) 2004-02-13 2012-03-27 Habanero Holdings, Inc. Unused resource recognition in real time for provisioning and management of fabric-backplane enterprise servers
US7873693B1 (en) 2004-02-13 2011-01-18 Habanero Holdings, Inc. Multi-chassis fabric-backplane enterprise servers
US7860961B1 (en) 2004-02-13 2010-12-28 Habanero Holdings, Inc. Real time notice of new resources for provisioning and management of fabric-backplane enterprise servers
US8868790B2 (en) 2004-02-13 2014-10-21 Oracle International Corporation Processor-memory module performance acceleration in fabric-backplane enterprise servers
JP2005301442A (ja) * 2004-04-07 2005-10-27 Hitachi Ltd ストレージ装置
US7991753B2 (en) * 2004-05-21 2011-08-02 International Business Machines Corporation Lock acquisition among nodes of divided cluster
US8713295B2 (en) 2004-07-12 2014-04-29 Oracle International Corporation Fabric-backplane enterprise servers with pluggable I/O sub-system
US7487385B2 (en) * 2004-11-01 2009-02-03 Netapp, Inc. Apparatus and method for recovering destroyed data volumes
US8850132B1 (en) * 2004-12-08 2014-09-30 Symantec Operating Corporation Method and system for providing a shared data resource coordinator within a storage virtualizing data processing system
JP4515314B2 (ja) * 2005-04-08 2010-07-28 株式会社日立製作所 計算機システムの構成再現方法
WO2010079447A1 (en) * 2009-01-12 2010-07-15 Axxana (Israel) Ltd Disaster-proof data recovery
US9195397B2 (en) 2005-04-20 2015-11-24 Axxana (Israel) Ltd. Disaster-proof data recovery
US7707453B2 (en) * 2005-04-20 2010-04-27 Axxana (Israel) Ltd. Remote data mirroring system
US7831453B2 (en) * 2005-05-05 2010-11-09 Siebel Systems, Inc. Modeling of business process data
JP4699091B2 (ja) * 2005-05-31 2011-06-08 株式会社日立製作所 ディザスタリカバリ方法およびシステム
US8326990B1 (en) * 2005-07-15 2012-12-04 Symantec Operating Corporation Automated optimal workload balancing during failover in share-nothing database systems
US7577868B2 (en) * 2005-09-30 2009-08-18 Lockheed Martin Corporation No data loss IT disaster recovery over extended distances
US7934116B2 (en) * 2005-09-30 2011-04-26 Lockheed Martin Corporation Disaster recover/continuity of business adaptive solution framework
US7933987B2 (en) * 2005-09-30 2011-04-26 Lockheed Martin Corporation Application of virtual servers to high availability and disaster recovery solutions
JP4790372B2 (ja) * 2005-10-20 2011-10-12 株式会社日立製作所 ストレージのアクセス負荷を分散する計算機システム及びその制御方法
EP1788774A1 (en) * 2005-11-18 2007-05-23 Alcatel Lucent Method and system for initiating or recovering a media-on-demand session
JP2007179273A (ja) * 2005-12-27 2007-07-12 Sony Corp ファイル転送システム、ファイル記憶装置、ファイル記憶方法及びプログラム
US7647525B2 (en) * 2006-03-31 2010-01-12 Emc Corporation Resumption of operations following failover in connection with triangular asynchronous replication
US20070271302A1 (en) * 2006-05-16 2007-11-22 Texas Instruments, Incorporated Data copy system and method for multi-platform disaster recovery
US8386732B1 (en) * 2006-06-28 2013-02-26 Emc Corporation Methods and apparatus for storing collected network management data
US7487383B2 (en) * 2006-06-29 2009-02-03 Dssdr, Llc Data transfer and recovery process
US7797566B2 (en) * 2006-07-11 2010-09-14 Check Point Software Technologies Ltd. Application cluster in security gateway for high availability and load sharing
JP4902403B2 (ja) 2006-10-30 2012-03-21 株式会社日立製作所 情報システム及びデータ転送方法
US8553853B2 (en) * 2006-12-08 2013-10-08 Verizon Services Corp. Systems and methods for using the advanced intelligent network to redirect data network traffic
US7752404B2 (en) * 2006-12-29 2010-07-06 Emc Corporation Toggling between concurrent and cascaded triangular asynchronous replication
US7680997B1 (en) * 2006-12-29 2010-03-16 Emc Corporation Data recovery simulation
US7734884B1 (en) * 2006-12-29 2010-06-08 Emc Corporation Simultaneous concurrent and cascaded triangular asynchronous replication
US7779291B2 (en) * 2006-12-29 2010-08-17 Emc Corporation Four site triangular asynchronous replication
CA2630014C (en) * 2007-05-18 2014-05-27 Nec Infrontia Corporation Main device redundancy configuration and main device replacing method
US8244949B2 (en) * 2007-05-18 2012-08-14 Nec Infrontia Corporation Slot interface access unit, method thereof, and program thereof, as well as redundancy configuration of main unit, and replacing method of the same
WO2009047751A2 (en) * 2007-10-08 2009-04-16 Axxana (Israel) Ltd. Fast data recovery system
JP4491482B2 (ja) * 2007-11-28 2010-06-30 株式会社日立製作所 障害回復方法、計算機、クラスタシステム、管理計算機及び障害回復プログラム
JP4547440B2 (ja) * 2008-03-31 2010-09-22 富士通株式会社 仮想テープシステム
US7925917B1 (en) * 2008-04-03 2011-04-12 United Services Automobile Association (Usaa) Systems and methods for enabling failover support with multiple backup data storage structures
US9946493B2 (en) * 2008-04-04 2018-04-17 International Business Machines Corporation Coordinated remote and local machine configuration
WO2009141752A2 (en) * 2008-05-19 2009-11-26 Axxana (Israel) Ltd. Resilient data storage in the presence of replication faults and rolling disasters
US20100125619A1 (en) * 2008-11-20 2010-05-20 Microsoft Corporation Deterministic selection of domain controllers in a multi-master database distributed directory service
WO2010076755A2 (en) * 2009-01-05 2010-07-08 Axxana (Israel) Ltd Disaster-proof storage unit having transmission capabilities
US8291036B2 (en) * 2009-03-16 2012-10-16 Microsoft Corporation Datacenter synchronization
US9021124B2 (en) 2009-12-02 2015-04-28 Axxana (Israel) Ltd. Distributed intelligent network
JP5691248B2 (ja) * 2010-05-28 2015-04-01 富士通株式会社 タスク引継プログラム、処理装置及びコンピュータ・システム
EP2592556A1 (en) * 2010-07-07 2013-05-15 Fujitsu Limited Management device, management program and management method
US8782238B2 (en) 2010-11-05 2014-07-15 Verizon Patent And Licensing Inc. Server clustering in a computing-on-demand system
US8484419B2 (en) 2010-11-24 2013-07-09 International Business Machines Corporation Systems and methods for backing up storage volumes in a storage system
CN102142008B (zh) * 2010-12-02 2013-04-17 华为技术有限公司 分布式内存数据库的实现方法、系统、令牌控制器及内存数据库
US8549130B2 (en) * 2010-12-08 2013-10-01 International Business Machines Corporation Discovery and management mechanism for SAN devices
US8627034B2 (en) * 2011-06-15 2014-01-07 Hitachi, Ltd. Storage control apparatus and storage control method
US8856583B1 (en) * 2012-01-20 2014-10-07 Google Inc. Failover operation on a replicated distributed database system while maintaining access invariance
JP6186787B2 (ja) * 2013-03-25 2017-08-30 富士通株式会社 データ転送装置、データ転送システム、データ転送方法及びプログラム
US10769028B2 (en) 2013-10-16 2020-09-08 Axxana (Israel) Ltd. Zero-transaction-loss recovery for database systems
KR20150085507A (ko) * 2013-12-11 2015-07-23 가부시키가이샤 고마쓰 세이사쿠쇼 작업 기계, 작업 기계의 관리 시스템 및 작업 기계의 관리 방법
US10353918B2 (en) * 2014-11-07 2019-07-16 Amobee, Inc. High availability and disaster recovery in large-scale data warehouse
JP2016162261A (ja) * 2015-03-03 2016-09-05 富士通株式会社 情報処理装置、情報処理システム、および制御プログラム
US10379958B2 (en) 2015-06-03 2019-08-13 Axxana (Israel) Ltd. Fast archiving for database systems
US10320898B2 (en) * 2016-06-06 2019-06-11 Verizon Patent And Licensing Inc. Automated multi-network failover for data centers
US10091904B2 (en) * 2016-07-22 2018-10-02 Intel Corporation Storage sled for data center
US10592326B2 (en) 2017-03-08 2020-03-17 Axxana (Israel) Ltd. Method and apparatus for data loss assessment
JP6974706B2 (ja) * 2017-08-14 2021-12-01 富士通株式会社 情報処理装置、ストレージシステムおよびプログラム
JP6782210B2 (ja) * 2017-09-01 2020-11-11 株式会社日立製作所 計算機システム、データ管理方法、及びデータ管理プログラム
CN110968456B (zh) * 2018-09-30 2023-05-02 阿里巴巴集团控股有限公司 分布式存储系统中故障磁盘的处理方法及装置
CN114461438A (zh) * 2022-04-12 2022-05-10 北京易鲸捷信息技术有限公司 非对称中心模式的分布式数据库容灾系统及方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4757442A (en) * 1985-06-17 1988-07-12 Nec Corporation Re-synchronization system using common memory bus to transfer restart data from non-faulty processor to failed processor
US5544347A (en) * 1990-09-24 1996-08-06 Emc Corporation Data storage system controlled remote data mirroring with respectively maintained data indices
JP2979771B2 (ja) 1991-09-12 1999-11-15 株式会社日立製作所 情報処理装置及びそのバス制御方法
US5581724A (en) 1992-10-19 1996-12-03 Storage Technology Corporation Dynamically mapped data storage subsystem having multiple open destage cylinders and method of managing that subsystem
FR2715583B1 (fr) 1994-02-02 1996-04-05 Inst Francais Du Petrole Dispositif pour la mise en Óoeuvre de réactions chimiques nécessitant au moins au démarrage un apport de calories.
JP2894676B2 (ja) * 1994-03-21 1999-05-24 インターナショナル・ビジネス・マシーンズ・コーポレイション 非同期式遠隔コピー・システム及び非同期式遠隔コピー方法
US6446224B1 (en) 1995-03-03 2002-09-03 Fujitsu Limited Method and apparatus for prioritizing and handling errors in a computer system
KR970076238A (ko) 1996-05-23 1997-12-12 포만 제프리 엘 클라이언트 데이타 화일의 다수의 복사본을 생성하고 관리하는 서버, 방법 및 그 프로그램 제품
US5819310A (en) 1996-05-24 1998-10-06 Emc Corporation Method and apparatus for reading data from mirrored logical volumes on physical disk drives
US6725331B1 (en) * 1998-01-07 2004-04-20 Emc Corporation Method and apparatus for managing the dynamic assignment resources in a data storage system
JP4689137B2 (ja) 2001-08-08 2011-05-25 株式会社日立製作所 リモートコピー制御方法、及びストレージシステム
US6594786B1 (en) 2000-01-31 2003-07-15 Hewlett-Packard Development Company, Lp Fault tolerant high availability meter
US6643795B1 (en) * 2000-03-30 2003-11-04 Hewlett-Packard Development Company, L.P. Controller-based bi-directional remote copy system with storage site failover capability
US6701455B1 (en) 2000-08-29 2004-03-02 Hitachi, Ltd. Remote copy system with data integrity
US6785678B2 (en) 2000-12-21 2004-08-31 Emc Corporation Method of improving the availability of a computer clustering system through the use of a network medium link state function
US6823349B1 (en) * 2001-09-21 2004-11-23 Emc Corporation Method and system for establishing, maintaining, and using a persistent fracture log
US7113938B2 (en) * 2002-02-14 2006-09-26 Gravic, Inc. Method of increasing system availability by splitting a system
JP3951835B2 (ja) 2002-07-03 2007-08-01 株式会社日立製作所 業務管理方法及び業務処理システム
US7103727B2 (en) 2002-07-30 2006-09-05 Hitachi, Ltd. Storage system for multi-site remote copy
US6907505B2 (en) * 2002-07-31 2005-06-14 Hewlett-Packard Development Company, L.P. Immediately available, statically allocated, full-logical-unit copy with a transient, snapshot-copy-like intermediate stage
ATE429678T1 (de) 2002-09-10 2009-05-15 Exagrid Systems Inc Primär- und ferndatensicherung mit knoten- failover
JP4037257B2 (ja) 2002-12-26 2008-01-23 株式会社日立製作所 情報処理システムの制御方法、情報処理システム、及びプログラム
US7149919B2 (en) * 2003-05-15 2006-12-12 Hewlett-Packard Development Company, L.P. Disaster recovery system with cascaded resynchronization
US7058731B2 (en) * 2004-08-03 2006-06-06 Hitachi, Ltd. Failover and data migration using data replication

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006114040A (ja) * 2004-10-08 2006-04-27 Microsoft Corp コンピュータクラスタのノードのフェールオーバー範囲
JP2006260357A (ja) * 2005-03-18 2006-09-28 Hitachi Ltd フェイルオーバークラスタシステム及びフェイルオーバー方法
JP4516458B2 (ja) * 2005-03-18 2010-08-04 株式会社日立製作所 フェイルオーバークラスタシステム及びフェイルオーバー方法
JP2007213345A (ja) * 2006-02-09 2007-08-23 Hitachi Ltd ストレージシステム及びその制御方法
JP2008009814A (ja) * 2006-06-30 2008-01-17 Nec Corp データレプリケーションシステム及びデータレプリケーション方法
JP2010530108A (ja) * 2007-06-15 2010-09-02 サヴィス・インコーポレーテッド 共有データセンタ災害復旧システム及び方法
JP2009163529A (ja) * 2008-01-08 2009-07-23 Nec Corp データ多重化システムおよびデータ多重化方法
JP4659062B2 (ja) * 2008-04-23 2011-03-30 株式会社日立製作所 フェイルオーバ方法、プログラム、管理サーバおよびフェイルオーバシステム
JP2009265805A (ja) * 2008-04-23 2009-11-12 Hitachi Ltd フェイルオーバ方法、プログラム、フェイルオーバ装置およびフェイルオーバシステム
JP2010198404A (ja) * 2009-02-26 2010-09-09 Nec Corp 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム
JP2013505499A (ja) * 2009-09-18 2013-02-14 アルカテル−ルーセント 動的ネットワークでの改善されたサーバ冗長性の方法
US9569319B2 (en) 2009-09-18 2017-02-14 Alcatel Lucent Methods for improved server redundancy in dynamic networks
WO2013190737A1 (ja) * 2012-06-19 2013-12-27 日本電気株式会社 サーバシステム、サーバ、サーバ制御方法、及びサーバ制御プログラムが格納された非一時的なコンピュータ可読媒体
JPWO2013190737A1 (ja) * 2012-06-19 2016-02-08 日本電気株式会社 サーバシステム、サーバ、サーバ制御方法、及び、サーバ制御プログラム
US9893980B2 (en) 2012-06-19 2018-02-13 Nec Corporation Server system, server, server control method, and non-transitory computer-readable medium containing server control program
WO2014076765A1 (ja) * 2012-11-13 2014-05-22 三菱電機株式会社 データ処理装置及びデータ処理方法及びプログラム
US9652342B2 (en) 2014-03-10 2017-05-16 Fujitsu Limited Redundancy processing method and system, and information processing apparatus thereof
JP2016151795A (ja) * 2015-02-16 2016-08-22 日本電信電話株式会社 データベースシステム及びそのマスター/スレーブ決定方法

Also Published As

Publication number Publication date
US20050015657A1 (en) 2005-01-20
US7260625B2 (en) 2007-08-21

Similar Documents

Publication Publication Date Title
JP2005018510A (ja) データセンタシステム及びその制御方法
JP4581500B2 (ja) ディザスタリカバリシステム、プログラム及びデータベースのリカバリ方法
US7802137B2 (en) Journaling system switching to another logical volume to store subsequently received update history
JP4405509B2 (ja) データ管理方法、システム、およびプログラム(リモート記憶位置にフェイルオーバを行うための方法、システム、およびプログラム)
US7293194B2 (en) Method and device for switching database access part from for-standby to currently in use
JP4796854B2 (ja) 差分リモートコピーにおける中間ボリュームのデータ溢れ対策
JP5396836B2 (ja) データ分散制御プログラム、ストレージ管理プログラム、制御ノード、およびディスクノード
JP5352115B2 (ja) ストレージシステム及びその監視条件変更方法
JP5486793B2 (ja) リモートコピー管理システム、方法及び装置
JP5286212B2 (ja) ストレージクラスタ環境でのリモートコピー制御方法及びシステム
EP1507206A2 (en) Storage operation management program and method and storage management computer
US20080005288A1 (en) Storage system and data replication method
US20120030440A1 (en) Storage system group including scale-out storage system and management method therefor
JP2006023889A (ja) リモートコピーシステム及び記憶装置システム
JP5521595B2 (ja) ストレージシステム及びストレージ制御方法
JP2005309793A (ja) データ処理システム
JP4318211B2 (ja) 高信頼システム、冗長構成制御方法及びプログラム
US20090177916A1 (en) Storage system, controller of storage system, control method of storage system
JP2004348174A (ja) 記憶装置システム
JP5947974B2 (ja) 情報処理装置及び情報処理装置の交換支援システム並びに交換支援方法
JP2008276281A (ja) データ同期システム、方法、及び、プログラム
JP4898609B2 (ja) ストレージ装置、データ回復方法及び計算機システム
JP2004272318A (ja) 系切り替えシステムおよびその処理方法並びにその処理プログラム
CN106953736B (zh) 故障切换方法和装置
CN113076065B (zh) 一种高性能计算系统中数据输出故障容错方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060420

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060622

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060622

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060622

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071012

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090512

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090723