JP2010198467A - 情報処理装置の障害復旧システム及び情報処理装置の障害復旧方法 - Google Patents

情報処理装置の障害復旧システム及び情報処理装置の障害復旧方法 Download PDF

Info

Publication number
JP2010198467A
JP2010198467A JP2009044333A JP2009044333A JP2010198467A JP 2010198467 A JP2010198467 A JP 2010198467A JP 2009044333 A JP2009044333 A JP 2009044333A JP 2009044333 A JP2009044333 A JP 2009044333A JP 2010198467 A JP2010198467 A JP 2010198467A
Authority
JP
Japan
Prior art keywords
server
data
failure
synchronization data
server device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009044333A
Other languages
English (en)
Inventor
Masaki Inoue
雅貴 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009044333A priority Critical patent/JP2010198467A/ja
Publication of JP2010198467A publication Critical patent/JP2010198467A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】サーバのハードウェア構成を若干変更することにより、障害発生時にはサーバ間の優先度に応じた迅速な障害復旧を可能にするコストの安い情報処理装置の障害復旧システムを提供すること。
【解決手段】サーバ100,110,120は、ホットスワップ可能なローカルディスクを2個ずつ実装している。また、代替サーバを用意する。サーバ100,110,120のいずれかにサーバ障害が発生した場合には、障害発生サーバの同期データ(バックアップデータ)が入っているローカルディスクを、ホットスワップにて取り外し、代替サーバに実装して起動する。
【選択図】図1

Description

本発明は、情報処理装置の障害復旧システム及び情報処理装置の障害復旧方法に係り、特に、データをバックアップすることにより、複数のサーバを有するシステムの一部に障害が生じた際に、該障害からの復旧を短時間で行うことができる情報処理装置の障害復旧システム及び情報処理装置の障害復旧方法に関する。
従来の情報処理装置の障害復旧システムでは、障害発生に備えてデータをバックアップする方式が採用されている。例えば、共有ディスクなどの特殊な外部記憶装置を使用せずにデータをバックアップすることを可能にするため、異なる機能を持ったサーバ間でのデータ同期を実現する方式として、特許文献2に記載の方式が有り、先行技術として参照できる。これらの技術では、障害によるサーバ交換時には、交換した空のサーバへ他のサーバが保持しているバックアップデータを書き込んでいる。
なお、本発明の関連技術として、例えば、特許文献1及び前述の特許文献2には、ディスク障害時に代替ディスクをホットスワップ(実行時交換)する方式によるディスクアレイ障害時の復旧手段を開示している。
特開2001−109642号公報 特開2008−276281号公報
しかしながら、上記背景技術で述べた従来の情報処理装置の障害復旧システムにあっては、前述のとおり、障害によるサーバ交換時には、交換した空のサーバへ他のサーバが保持しているバックアップデータを書き込むため、復旧までの時間が長くなるという問題点があった。
障害発生に備えて、複数のサーバ間でデータを同期してバックアップを行う方式としては、例えば前述の特願2007−115517号に示す方式があり、この方式では、共有ディスクなどの高価な設備が不要となり、各ローカルディスクに必要な容量はサーバ数に依存せずにサーバ2台分に収まり、またクラスタシステムなどに限らず別個の機能を持ったサーバ群にも適用可能であるといった特長を有する反面、障害によるサーバ交換時には、やはり、前述のとおり、交換した空のサーバへ他のサーバが保持しているバックアップデータを書き込むため、復旧に要する時間が長くなるという問題点があった。
そこで、この問題点に対処する技術として、例えば前述の特願2008−115260号に示す技術では、各サーバにプライオリティを設定し、よりプライオリティの高いサーバに障害が発生した場合に、該サーバの同期データを保持するサーバを検出し、該同期データを保持するサーバ側にて再起動させるように改良した方式を示している。しかしながら、この方式では、障害が発生した高プライオリティサーバと、正常に動作している低プライオリティサーバとを引き換えにする方式となっているが、高プライオリティサーバは早期に復旧しても、相対的にプライオリティの低かったサーバにあっては、空のサーバを用意してバックアップデータから復旧させる必要があり、復旧に要する時間はやはり長くなるという問題点があった。
なお、このような問題点は、復旧対象の装置は異なるものであっても、前述の特許文献1及び特許文献2に対しても同様に指摘できるものである。
本発明は、上記従来の問題点に鑑みてなされたものであって、サーバのハードウェア構成を若干変更することにより、障害発生時にはサーバ間のプライオリティに応じた迅速な障害復旧を可能にするコストの安い情報処理装置の障害復旧システムを提供することを目的としている。
本発明の他の目的は、サーバのハードウェア構成を若干変更することにより、障害発生時にはサーバ間のプライオリティに応じた迅速な障害復旧を可能にするコストの安い情報処理装置の障害復旧方法を提供することにある。
上記課題を解決するために、本発明に係る情報処理装置の障害復旧システムは、互いに通信可能にネットワーク接続された複数のサーバ装置で構成され、前記複数のサーバ装置のいずれかに生じる障害を復旧する情報処理装置の障害復旧システムにおいて、前記複数のサーバ装置間の処理の優先度を決定する手段と、前記複数のサーバ装置の各々において、該サーバ装置間での同期を要する自サーバ装置用の同期データを確保し、同期データとして保存する手段と、前記複数のサーバ装置のいずれか1つで実行されるアプリケーションプログラムにおいて前記同期データの書き込み要求が生じた時に、前記アプリケーションプログラムを実行するサーバ装置側から、他のサーバ装置の1つに前記データの保存を依頼して前記データを保存させる手段と、前記複数のサーバ装置の各々が、該複数のサーバ装置の1つに障害が生じたことを検出した際には、前記複数のサーバ装置の各々は、互いに通信することにより、前記障害が検出されたサーバ装置と前記同期データの保存を依頼されたサーバ装置との間の、前記優先度の高低に応じた障害復旧を行う障害復旧手段と、を備えたことを特徴とする情報処理装置の障害復旧システムを提供するものである。
また、本発明に係る情報処理装置は、互いに通信可能にネットワーク接続された複数のサーバ装置のいずれか1つとして障害復旧処理を実行する情報処理装置であって、前記複数のサーバ間の処理の優先度を記憶する手段と、前記複数のサーバ間での同期を要する自サーバ用の同期データを確保し、同期データとして保存する手段と、実行中のアプリケーションプログラムにおいて前記同期データの書き込み要求が生じた時に、他のサーバ装置の1つに前記データの保存を依頼して前記データを保存させる手段と、前記複数のサーバ装置の1つに障害が生じたことを検出した時、若しくは他のサーバ装置から、前記複数のサーバ装置の1つに障害が生じたことが通知された時には、他のサーバ装置と互いに通信することにより、前記障害が検出されたサーバ装置と前記障害が検出されたサーバ装置の同期データを保存するサーバ装置との間の、前記優先度の高低に応じた障害復旧を行う障害復旧手段と、を備えたことを特徴とする情報処理装置を提供するものである。
また、本発明に係るコンピュータプログラムは、互いに通信可能にネットワーク接続された複数のサーバ装置のいずれか1つにおいて障害復旧処理を制御するコンピュータプログラムであって、前記複数のサーバ間の処理の優先度を記憶するステップと、前記複数のサーバ間での同期を要する自サーバ用の同期データを確保し、同期データとして保存するステップと、実行中のアプリケーションプログラムにおいて前記同期データの書き込み要求が生じた時に、他のサーバ装置の1つに前記データの保存を依頼して前記データを保存させるステップと、前記複数のサーバ装置の1つに障害が生じたことを検出した時、若しくは他のサーバ装置から、前記複数のサーバ装置の1つに障害が生じたことが通知された時には、他のサーバ装置と互いに通信することにより、前記障害が検出されたサーバ装置と前記障害が検出されたサーバ装置の同期データを保存するサーバ装置との間の、前記優先度の高低に応じた障害復旧を行う障害復旧ステップと、を備えたことを特徴とするコンピュータプログラムを提供するものである。
さらに、本発明に情報処理装置の障害復旧方法は、互いに通信可能にネットワーク接続された複数のサーバ装置で構成され、前記複数のサーバ装置のいずれかに生じる障害を復旧する情報処理装置の障害復旧方法であって、前記複数のサーバ装置間の処理の優先度を決定するステップと、前記複数のサーバ装置の各々において、該サーバ装置間での同期を要する自サーバ装置用の同期データを確保し、同期データとして保存するステップと、前記複数のサーバ装置のいずれか1つで実行されるアプリケーションプログラムにおいて前記同期データの書き込み要求が生じた時に、前記アプリケーションプログラムを実行するサーバ装置側から、他のサーバ装置の1つに前記データの保存を依頼して前記データを保存させるステップと、前記複数のサーバ装置の各々が、該複数のサーバ装置の1つに障害が生じたことを検出した際には、前記複数のサーバ装置の各々は、互いに通信することにより、前記障害が検出されたサーバ装置と前記同期データの保存を依頼されたサーバ装置との間の、前記優先度の高低に応じた障害復旧を行う障害復旧ステップと、を有することを特徴とする情報処理装置の障害復旧方法を提供するものである。
以上説明したように、本発明の情報処理装置の障害復旧システムによれば、サーバ間で同期データをセーブする仕組みを構成し、障害発生時には、サーバ間で互いに通信することにより、サーバ間の優先度に応じた迅速な障害復旧を可能にすると共に、コストの安い情報処理装置の障害復旧システムを提供することができる効果がある。
本発明の実施形態に係る情報処理装置の障害復旧システムの全体構成を示す構成図である。 本障害復旧システムのファイルレプリケーションの処理手順を、サーバ100の動作を例として示したフローチャート図である。 サーバ100に障害が発生した場合を例として、障害発生時の処理手順を示したフローチャート図である。 サーバ100に障害が発生した場合を例として、障害発生時の処理手順のイメージを示した説明図である。
本発明に係る情報処理装置の障害復旧システム及び情報処理装置の障害復旧方法は、共有ディスクなどの外部記憶装置を具備しない複数のサーバ間において、それぞれのローカルディスク上に他のサーバのバックアップデータを保持することにより耐障害性を高め、また障害などによるサーバ交換時に、バックアップデータを保持しているローカルディスクを直接代替サーバに実装することにより短時間で復旧する。即ち、ホットスワップ可能なディスクを使用し、バックアップデータを持つディスクを代替サーバに直接実装することにより、必要に応じて迅速な復旧を可能にしている。
本発明に係る情報処理装置の障害復旧システムの構成は、各サーバがホットスワップ可能なローカルディスクを2個ずつ実装しているものとする。サーバ障害が発生した場合には、障害発生サーバの同期データ(バックアップデータ)が入っているローカルディスクを、ホットスワップにて取り外し、代替サーバに実装して起動する。よって、この方式ならば、障害発生時点で空のローカルディスクにバックアップデータをコピーする従来方式よりも短時間で障害からの復旧が可能となる。
以下、本発明の情報処理装置の障害復旧システムの実施形態について、図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る情報処理装置の障害復旧システムの全体構成を示す構成図である。
同図において、本実施形態の情報処理装置の障害復旧システムは、ネットワーク200を介して接続され、データ同期システムを構成する3つのサーバ、即ち、互いに通信可能なサーバ100、サーバ110、及びサーバ120を備える。これら3つのサーバはそれぞれ異なる機能を持つサーバである。また、この他に、障害発生時に起動される代替サーバを少なくとも1つは備えるものとする。
サーバ100は、ホットスワップ可能なローカルディスク103,104を具備し、また、レプリケーション機能部101と、アプリケーションプログラム102とを具備している。さらに、サーバ100は、保持データ管理テーブル105と、各サーバのプライオリティ(優先度)を管理するためのプライオリティ管理テーブル106と、ディスク103と、ディスク104と、を具備する。
ディスク103とディスク104とは、いずれか一方がサーバ100自体が使用するデータ(同期データ用を含む)を保持するオリジナルデータ用ディスク(領域)となり、他方が、他サーバとの同期データ(オリジナルデータを含む)を保持する同期データ用ディスク(領域)となる。
以下、本システムの動作について説明する場合には、例えば、サーバ110をサーバ100の代替サーバとする場合には、サーバ100のオリジナルデータ用であるディスク103のことを100用データ領域103と称し、サーバ100の同期データ用ディスク104のことを110用データ領域104と称することがある。
但し、100用データ領域103と、110用データ領域104とは、OS(オペレーティング・システム)を含むマルチブート環境を構成することが可能であり、この場合には、サーバ100は、100用データ領域103と、110用データ領域104との、どちらのデータからでも起動することが可能である。100用データ領域103と、110用データ領域104とのどちらがオリジナルデータ用ディスクとなり得るか、及び同期データ用ディスクがどのサーバのデータを保持しているかは保持データ管理テーブル105,115,125によって管理される。
サーバ110及びサーバ120に関してもサーバ100と同様の構成となっており、図1に示す構成例ではローカルディスク104,114,124は、同期データ用ディスクであり、それぞれサーバ110,120,130との同期データを保持している。
保持データ管理テーブル105,115,125は、対応するサーバのローカルディスクがどのサーバのデータを保持するかを管理するためのテーブルである。また、プライオリティ管理テーブル106,116,126は、対応するサーバに設定されたプライオリティを記憶する。各サーバのプライオリティは、例えばシステム管理者などにより事前に設定することができるが、同位のプライオリティは付与しないものとする。このプライオリティは、例えば、重要な機能を担っているために可能な限り稼動状態を維持したいサーバほど高く設定することができる。保持データ管理テーブル105,115,125及びプライオリティ管理テーブル106,116,126は、それぞれレプリケーション機能部101,111,121の内部に保持される構成であってもよい。
各サーバのレプリケーション機能部は大きく分けて3つの機能を有する。以下、この各レプリケーション機能部の機能について説明する。
まず、各レプリケーション機能部の1つ目の機能は、自サーバのデータをオリジナルデータ用ディスクに書き込む際に、他サーバのレプリケーション機能部を介して、他サーバの同期データ用ディスクに、オリジナルデータ用ディスクに書き込んだデータと同じ内容を書き込む機能である。例えば、サーバ100のレプリケーション機能部101は、アプリケーションプログラム102からデータの書き込み要求を受け取ると、まず、データをオリジナルデータ用ディスクの100用データ領域103に書き込み、この書き込みが正常に完了すると、サーバ120上で動作しているレプリケーション機能部121を介して、サーバ120が備える同期データ用ディスクの100用データ領域124にも、オリジナルデータ用ディスクの100用データ領域103に書き込んだデータと同じデータを書き込む。
次に、各レプリケーション機能部の2つ目の機能は、ネットワーク200の構成が変化した際、例えば、ネットワーク200に接続されているいずれかのサーバが削除されるか、若しくは、何らかの他のサーバがネットワーク200に追加接続された際に、該変化後のネットワーク構成に合わせて、各サーバの同期データ用ディスクに保持する同期データの割り当てを変更する機能である。即ち、各レプリケーション機能部は、障害によってサーバが交換される際に、対応する保持データ管理テーブルを参照し、障害が発生したサーバのデータを同期データ用ディスクに保持しているサーバを特定する。次に、レプリケーション機能部は、当該データを、この特定したサーバから、交換されたサーバのオリジナルデータ用ディスクにコピーする。また、レプリケーション機能部は、ネットワーク200に新規サーバが追加された場合は、この追加されたサーバも含めて各サーバにおいて他サーバの同期データが保持できるように、各サーバで保持する同期データの組み合わせを見直し、同期データの新たな組み合わせを割り当てる。
最後に、各レプリケーション機能部の3つ目の機能は、よりプライオリティの高いサーバに障害が発生した際に、この障害発生サーバのデータを同期データ用ディスクに保持させるべきサーバを、障害サーバの代替サーバとして動作させる機能である。即ち、各レプリケーション機能部は、ネットワーク200を構成するいずれかのサーバに障害が発生すると、保持データ管理テーブルを参照して、該障害発生サーバの同期データを保持させるべきサーバを特定する。この際、各レプリケーション機能部は、プライオリティ管理テーブルを参照して、その特定したサーバのプライオリティと障害が発生したサーバのプライオリティとを比較する。各レプリケーション機能部は、障害が発生したサーバのプライオリティが、前記特定したサーバのプライオリティよりも高い場合は、障害発生サーバの同期データを記憶させるべきサーバを同期データ用ディスク側で再起動する。同期データ用ディスク側で再起動したサーバは、その後、障害サーバの代替サーバとして機能することになり、同期データ用ディスクとオリジナルデータ用ディスクとが入れ替わる。
例えば、サーバ100を、同期データ用ディスクの110用データ領域104に記憶するサーバ110用のデータで再起動したときは、サーバ100はサーバ110の代替サーバとなり、サーバ110のデータを記憶する同期データ用ディスク104がオリジナルデータ用ディスクに変わり、オリジナルデータ用ディスク103が同期データ用ディスクに変わる。
また、各サーバのローカルディスクはホットスワップ可能であり、同期データ用ディスクであればサーバの動作を中断することなく抜去可能である。また、抜去した同期データ用ディスクを別のサーバに実装することで、その同期データにて起動することが可能である。例えば、サーバ100で障害が発生した場合、サーバ100の同期データを記憶しているサーバ120の同期データ用ディスク124を抜去し、代替サーバにオリジナルデータ用ディスクとして実装することにより、該代替サーバを、サーバ100のデータで起動することができるようになる。
なお、ホットスワップ実行時には、いずれかのサーバに対してホットスワップ用の保守コマンドを投入する必要がある。保守コマンドを投入されたサーバのレプリケーション機能部は、各サーバのレプリケーション機能部に対して対象ディスクへのデータ同期の停止を指示し、また各サーバの保持データ管理テーブルの更新を指示する。同様に、ホットスワップによるディスク実装時には、いずれかのサーバに対してホットスワップ用の保守コマンドを投入する必要がある。保守コマンドを投入されたサーバのレプリケーション機能部は、各サーバのレプリケーション機能部に対して対象ディスクへのデータ同期の開始を指示し、また、各サーバの保持データ管理テーブルの更新を指示する。
本実施形態に係る情報処理装置の障害復旧システムは、以上の構成を備えることにより、安価なデータ同期機能及び迅速な障害復旧を実現している。
図2は、本障害復旧システムのファイルレプリケーションの処理手順を、サーバ100の動作を例として示したフローチャート図である。
以下、図1を参照しながら、図2に示すフローチャート図を使用して、ファイルレプリケーションの処理手順を説明する。
まず、通常運用時のデータ同期手順について説明する。
(ステップS1)
ステップS1では、サーバ100上のアプリケーションプログラム102から、レプリケーション機能部101へ、データの書き込み要求を行う。
(ステップS2)
ステップS2では、上記データの書き込み要求を受信したレプリケーション機能部101が、オリジナルデータ用ディスクである100用データ領域103へ、データ(即ち、サーバ間の同期が必要なバックアップデータ)の書き込みを実行する。
(ステップS3)
ステップS3では、レプリケーション機能部101は、上記データの書き込みが正常に終了したか否かを検証し、上記データの書き込みに成功した場合はステップS4に進み、上記データの書き込みに失敗した場合はステップS2に戻って上記データの書き込みを再試行する。
(ステップS4)
ステップS4では、上記データの書き込みに成功した場合として、レプリケーション機能部101は、保持データ管理テーブル106を参照し、サーバ100の同期データを記憶するための同期データ用ディスクを検索する。
(ステップS5)
ステップS5では、レプリケーション機能部101は、サーバ120のレプリケーション機能部121に対して書き込み要求を行う。
(ステップS6)
ステップS6では、上記データの書き込み要求を受信したレプリケーション機能部121が、サーバ100のオリジナルデータ用ディスク103へ書き込まれたのと同じデータを同期データ用ディスクである100用データ領域124に書き込む。
(ステップS7)
ステップS7では、レプリケーション機能部121は、データの書き込みが正常に終了したか否かを検証し、上記データの書き込みに成功した場合は処理を終了し、上記データの書き込みに失敗した場合はステップS6に戻ってデータの書き込みを再試行する。
次に、障害発生などによりサーバを交換した際のデータコピー手順について説明する。図3は、サーバ100に障害が発生した場合を例として、障害発生時の処理手順を示したフローチャート図である。また、図4は、サーバ100に障害が発生した場合を例として、障害発生時の処理手順のイメージを示した説明図である。
障害発生サーバ(ここではサーバ100)と、該サーバの同期データを持つサーバ(ここではサーバ120)との間のプライオリティの関係、及び保守コマンドによって可能となるホットスワップによる復旧機能を利用するかどうかにより、障害発生時の動作は大きく3つに分かれる。
まず、サーバ120のプライオリティよりもサーバ100のプライオリティの方が低い場合の障害発生時の処理手順を図3に示すフローチャートを使用して説明する。
(ステップS21)
ステップS21では、各サーバのレプリケーション機能部が、障害発生サーバを検出する。
(ステップS22)
次に、ステップS22では、各サーバ間で通信することにより、障害サーバ100の同期データを同期データ用ディスクに記憶するサーバ(ここではサーバ120)を検出する。 (ステップS23)
次に、ステップS23では、サーバ100とサーバ120の間で通信することにより、サーバ100とサーバ120のプライオリティを比較し、サーバ120のプライオリティよりもサーバ100のプライオリティが低いのでステップS24に進む。
(ステップS24)
ステップS24では、サーバ120は、サーバ100の代替サーバが接続されるまで待機する。
(ステップS25)
ステップS25では、サーバ120は、サーバ130の接続を確認する。
(ステップS26)
ステップS26では、サーバ130が接続されると、各サーバのレプリケーション機能部は、内部に保持している保持データ管理テーブルを参照することにより、サーバ130がサーバ100の代替サーバだと判断し、ここまでにホットスワップ実行用の保守コマンドの投入が無かった場合、若しくは保守コマンドにてデータ同期を指示された場合は、ステップS27に進み、さもなくて、保守コマンドがホットスワップ実行用に投入された場合は、ステップS38(後述)に移る。
(ステップS27)
ステップS27では、レプリケーション機能部121は、同期データ用ディスク124に記憶しているサーバ100の同期データ(バックアップデータ)を、サーバ130のオリジナルデータ用ディスク133にコピーする。
(ステップS28)
次に、ステップS28では、レプリケーション機能部111が、オリジナルデータ用ディスク113に保持している自サーバのデータを、サーバ130の同期データ用ディスク134にコピーする。
(ステップS29)
次に、ステップS29では、データのコピーが完了したため、代替サーバであるレプリケーション機能部131が、通常のレプリケーション処理を開始する。
以上に示す処理の流れで、サーバ130はサーバ100のデータを引き継いで動作する。
次に、サーバ120のプライオリティよりもサーバ100のプライオリティの方が高い場合の障害発生時の処理手順を図3に示すフローチャートを使用して説明する。
この場合も、図3に示すステップS22までは前述した動作と同様である。即ち、サーバ100に障害が発生すると、各サーバのレプリケーション機能部が障害発生サーバを検出し(ステップS21)、障害サーバ100の同期データを同期データ用ディスクに記憶するサーバを検出する(ステップS22)。
(ステップS23)
ステップS23では、サーバ100とサーバ120のプライオリティを比較し、ここでは、サーバ100の方がプライオリティが高いので、ステップS30に進む。
(ステップS30)
ステップS30では、サーバ120を再起動するが、この時、同期データ用ディスクである100用データ領域124に記憶されているサーバ100の同期データを使用して起動する。
(ステップS31)
ステップS31では、これ以降、サーバ120はサーバ100の担っていた機能を代行する。サーバ120の内部ではサーバ100のデータを記憶するディスク124がオリジナルデータ用ディスク、サーバ120のデータを記憶するディスクの120用データ領域123が同期データ用ディスクとして扱われる。
(ステップS32)
次に、ステップS32では、各サーバのレプリケーション機能部は、障害発生サーバの代替としてサーバ130が接続されたことを確認する。
(ステップS33)
ステップS33では、サーバ130が接続されると、各サーバのレプリケーション機能部は、内部に保持している保持データ管理テーブルを参照することにより、サーバ130がサーバ100の代替サーバだと判断し、ここまでにホットスワップ実行用の保守コマンドの投入が無かった場合、若しくは保守コマンドにてデータ同期を指示された場合は、ステップS34に進み、さもなくて、保守コマンドがホットスワップ実行用に投入された場合は、ステップS38(後述)に移る。
(ステップS34)
ステップS34では、レプリケーション機能部121は、同期データ用ディスク123に記憶しているサーバ100の同期データ(バックアップデータ)を、サーバ130のオリジナルデータ用ディスク133にコピーする。この時、サーバ120は、前述のとおり、サーバ100用データ124で起動されたサーバ100の代替サーバとして起動しているため、ここではサーバ120用データ123が同期データ用ディスクとなる。
(ステップS35)
次に、ステップS35では、レプリケーション機能部111が、オリジナルデータ用ディスク113に保持している自サーバのデータを、サーバ120の同期データ用ディスクである120用データ領域123にコピーする。
(ステップS36)
次に、ステップS36では、レプリケーション機能部121が、ローカルディスク124に保持しているデータを、サーバ120の120用データ領域134にコピーする。
(ステップS37)
次に、ステップS37では、データのコピーが完了したため、代替サーバであるレプリケーション機能部131が、通常のレプリケーション処理を開始する。
以上に示す処理の流れで、サーバ130はサーバ100のデータを引き継いで動作する。
最後に、上記処理手順に共通する処理手順として、ホットスワップ実行用の保守コマンドの投入が有った場合の処理手順、即ち、ホットスワップ機能を利用して障害復旧する場合の処理手順(ステップS37以下の動作)について説明する。この処理手順は、障害発生を検出してから代替サーバの接続を検出するまでの期間に、ホットスワップによるディスク交換を指示する保守コマンドの投入が有った場合に実行される。
(ステップS38)
ステップS38では、各サーバのレプリケーション機能部は、抜去対象となるディスクに対するデータ同期を休止し、保持データ管理テーブルを更新する。サーバ100のプライオリティがサーバ120のプライオリティよりも低い場合は、サーバ120の同期データ用ディスク124が抜去対象となり、サーバ100のプライオリティがサーバ120のプライオリティよりも高い場合は、サーバ120はサーバ100のデータで起動しているので、同期データ用ディスク123が抜去対象となる。
(ステップS39)
ステップS39では、保守者が抜去対象ディスク(120用データ領域123または100用データ領域124)を手動で抜去し、代替サーバ130にオリジナルデータ用ディスク133として実装後、該ディスク133のデータでサーバ130が起動する。
(ステップS40)
ステップS40では、サーバ130の起動後、保守者が保守コマンドでもってデータ同期を指示することにより、各サーバのレプリケーション機能部は、サーバ130も含めてデータ同期を開始する。
なお、図2,3に示すフローチャート図では、サーバ100全体が障害になったケースを例示しているが、障害が生じた箇所がディスク以外の部分であり、オリジナルデータ用ディスク103や同期データ用ディスク104には障害が発生していない場合には、該ディスク103及び該ディスク104を、代替サーバ130に直接実装することも可能である。
本実施形態に係る情報処理装置の障害復旧システムは、現用系、待機系から構成されるクラスタシステムに適用されるとは限らず、別個の機能を持ったサーバ群にも適用可能であり、共有ディスクなどの高価な設備を必要とせずに各サーバのデータ同期(バックアップ手段)を実施することができる効果がある。なお、本発明の構成にはホットスワップ可能なローカルディスクが必要となるが、ホットスワップに対応した規格としてUSBや、eSATAなどが急速に普及しており、通常のハードディスクと比較しても性能的・コスト的な不利は殆ど無いものと考えられる。
また、サーバに障害が発生する直前までファイルを同期させているため、定期バックアップ方式に比べて多くのデータを救済できる効果がある。
また、サーバ数には上限はなく、サーバ数がどれだけ増加しても、各ローカルディスクに必要な容量はサーバ2台分に収まるため、システムのコストを安く抑えることができる効果がある。
また、プライオリティの高いサーバが障害になった際には、該サーバの同期データを保持するサーバを代替機として使用することができる効果がある。
また、同期を行っているサーバ群のうち、複数のサーバが同時に障害になったとしても、システムを復旧させることができる可能性を残す効果がある。例えば、サーバAが障害になった時には、サーバAの同期データを持つ他のサーバも同時に障害にならない限りは復旧が可能となる。
さらに、サーバに障害が発生しても、ローカルディスクが無事ならば、該ローカルディスクを容易に流用することが可能となる効果がある。
なお、本発明に係る情報処理装置の障害復旧システムにおける上記処理を、図2,3のフローチャートで示した手順により実行せしめるコンピュータにプログラムは、半導体メモリを始め、CD−ROMや磁気テープなどのコンピュータ読み取り可能な記録媒体に格納して配付してもよい。そして、少なくともマイクロコンピュータ、パーソナルコンピュータ、汎用コンピュータを範疇に含むコンピュータが、上記の記録媒体から上記プログラムを読み出して、実行するものとしてもよい。
本発明に係る情報処理装置の障害復旧システムによれば、処理速度よりも耐障害性が重視される計算機(例えばファイルサーバ)などにおいて、安価にミラーリングを実現するといった用途に好適に適用することができる。
100,110,120 サーバ
101,111,121 レプリケーション機能部
102,112,122 アプリケーションプログラム
103,113,123 ディスク(領域)
104,114,124 ディスク(領域)
105,115,125 保持データ管理テーブル
106,116,126 プライオリティ管理テーブル

Claims (7)

  1. 互いに通信可能にネットワーク接続された複数のサーバ装置で構成され、前記複数のサーバ装置のいずれかに生じる障害を復旧する情報処理装置の障害復旧システムにおいて、
    前記複数のサーバ装置間の処理の優先度を決定する手段と、
    前記複数のサーバ装置の各々において、該サーバ装置間での同期を要する自サーバ装置用の同期データを確保し、同期データとして保存する手段と、
    前記複数のサーバ装置のいずれか1つで実行されるアプリケーションプログラムにおいて前記同期データの書き込み要求が生じた時に、前記アプリケーションプログラムを実行するサーバ装置側から、他のサーバ装置の1つに前記データの保存を依頼して前記データを保存させる手段と、
    前記複数のサーバ装置の各々が、該複数のサーバ装置の1つに障害が生じたことを検出した際には、前記複数のサーバ装置の各々は、互いに通信することにより、前記障害が検出されたサーバ装置と前記同期データの保存を依頼されたサーバ装置との間の、前記優先度の高低に応じた障害復旧を行う障害復旧手段と、
    を備えたことを特徴とする情報処理装置の障害復旧システム。
  2. 前記障害復旧手段は、前記障害が検出されたサーバ装置の前記優先度が前記データの保存を依頼されたサーバ装置の前記優先度よりも低い場合には、前記同期データの保存を依頼されたサーバ装置の動作を前記アプリケーションプログラムを代行する代替サーバ装置が接続されるまで待機させる手段と、前記代替サーバ装置が接続された時には、前記複数のサーバ装置の各々に、前記接続を確認する手段と、前記障害発生後に保守コマンドの投入が無い場合には、前記同期データの保存を依頼されたサーバ装置が保存していた前記同期データを前記代替サーバ装置用の同期データとする手段と、前記同期データに基づいて前記代替サーバ装置を起動する手段と、を備えたことを特徴とする請求項1記載の情報処理装置の障害復旧システム。
  3. 前記障害復旧手段は、前記アプリケーションプログラムを実行するサーバ装置の前記優先度が前記データの保存を依頼されたサーバ装置の前記優先度よりも高い場合には、前記同期データの保存を依頼されたサーバ装置が保存していた前記同期データに基づいて前記同期データの保存を依頼されたサーバ装置を起動する手段と、前記代替サーバ装置が接続されたことを確認する手段と、前記障害発生後に保守コマンドの投入が無い場合には、前記同期データの保存を依頼されたサーバ装置自体が使用していた同期データを前記代替サーバ装置の同期データとして使用させる手段と、前記同期データの保存を依頼されたサーバ装置が保存していた同期データを前記代替サーバ装置に保存させる手段と、を備えたことを特徴とする請求項1記載の情報処理装置の障害復旧システム。
  4. 前記障害復旧手段は、前記障害発生後にホットスワップ実行用の保守コマンドの投入が有った場合に、抜去されるディスクに対応した前記同期データを確保する処理を中止する手段と、前記障害を発生させたサーバ装置が備える前記同期データ記憶用のディスクが、前記代替サーバ装置に実装されたことを確認する手段と、前記確認後に、前記複数のサーバ装置の各々における前記同期データを確保する処理を開始する手段と、を備えたことを特徴とする請求項2または請求項3記載の情報処理装置の障害復旧システム。
  5. 互いに通信可能にネットワーク接続された複数のサーバ装置のいずれか1つとして障害復旧処理を実行する情報処理装置であって、
    前記複数のサーバ間の処理の優先度を記憶する手段と、
    前記複数のサーバ間での同期を要する自サーバ用の同期データを確保し、同期データとして保存する手段と、
    実行中のアプリケーションプログラムにおいて前記同期データの書き込み要求が生じた時に、他のサーバ装置の1つに前記データの保存を依頼して前記データを保存させる手段と、
    前記複数のサーバ装置の1つに障害が生じたことを検出した時、若しくは他のサーバ装置から、前記複数のサーバ装置の1つに障害が生じたことが通知された時には、他のサーバ装置と互いに通信することにより、前記障害が検出されたサーバ装置と前記障害が検出されたサーバ装置の同期データを保存するサーバ装置との間の、前記優先度の高低に応じた障害復旧を行う障害復旧手段と、
    を備えたことを特徴とする情報処理装置。
  6. 互いに通信可能にネットワーク接続された複数のサーバ装置のいずれか1つにおいて障害復旧処理を制御するコンピュータプログラムであって、
    前記複数のサーバ間の処理の優先度を記憶するステップと、
    前記複数のサーバ間での同期を要する自サーバ用の同期データを確保し、同期データとして保存するステップと、
    実行中のアプリケーションプログラムにおいて前記同期データの書き込み要求が生じた時に、他のサーバ装置の1つに前記データの保存を依頼して前記データを保存させるステップと、
    前記複数のサーバ装置の1つに障害が生じたことを検出した時、若しくは他のサーバ装置から、前記複数のサーバ装置の1つに障害が生じたことが通知された時には、他のサーバ装置と互いに通信することにより、前記障害が検出されたサーバ装置と前記障害が検出されたサーバ装置の同期データを保存するサーバ装置との間の、前記優先度の高低に応じた障害復旧を行う障害復旧ステップと、
    を備えたことを特徴とするコンピュータプログラム。
  7. 互いに通信可能にネットワーク接続された複数のサーバ装置で構成され、前記複数のサーバ装置のいずれかに生じる障害を復旧する情報処理装置の障害復旧方法であって、
    前記複数のサーバ装置間の処理の優先度を決定するステップと、
    前記複数のサーバ装置の各々において、該サーバ装置間での同期を要する自サーバ装置用の同期データを確保し、同期データとして保存するステップと、
    前記複数のサーバ装置のいずれか1つで実行されるアプリケーションプログラムにおいて前記同期データの書き込み要求が生じた時に、前記アプリケーションプログラムを実行するサーバ装置側から、他のサーバ装置の1つに前記データの保存を依頼して前記データを保存させるステップと、
    前記複数のサーバ装置の各々が、該複数のサーバ装置の1つに障害が生じたことを検出した際には、前記複数のサーバ装置の各々は、互いに通信することにより、前記障害が検出されたサーバ装置と前記同期データの保存を依頼されたサーバ装置との間の、前記優先度の高低に応じた障害復旧を行う障害復旧ステップと、
    を備えたことを特徴とする情報処理装置の障害復旧方法。
JP2009044333A 2009-02-26 2009-02-26 情報処理装置の障害復旧システム及び情報処理装置の障害復旧方法 Pending JP2010198467A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009044333A JP2010198467A (ja) 2009-02-26 2009-02-26 情報処理装置の障害復旧システム及び情報処理装置の障害復旧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009044333A JP2010198467A (ja) 2009-02-26 2009-02-26 情報処理装置の障害復旧システム及び情報処理装置の障害復旧方法

Publications (1)

Publication Number Publication Date
JP2010198467A true JP2010198467A (ja) 2010-09-09

Family

ID=42823109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009044333A Pending JP2010198467A (ja) 2009-02-26 2009-02-26 情報処理装置の障害復旧システム及び情報処理装置の障害復旧方法

Country Status (1)

Country Link
JP (1) JP2010198467A (ja)

Similar Documents

Publication Publication Date Title
JP4480756B2 (ja) ストレージ管理装置、ストレージシステム制御装置、ストレージ管理プログラム、データ記憶システムおよびデータ記憶方法
US9268659B2 (en) Detecting failover in a database mirroring environment
JP2019101703A (ja) 記憶システム及び制御ソフトウェア配置方法
TWI522807B (zh) 利用儲存區域網路回復電腦系統的系統及方法
JP3938475B2 (ja) バックアップ処理方法及びその実施システム並びにその処理プログラム
JP2010097385A (ja) データ管理プログラム、ストレージ装置診断プログラム、およびマルチノードストレージシステム
JP5217966B2 (ja) ストレージシステムのアップデート処理プログラム、アップデート処理方法及びストレージシステム
JP2005196683A (ja) 情報処理システム、情報処理装置、及び情報処理システムの制御方法
CN111221678B (zh) Hbase数据备份/恢复系统、方法、装置及电子设备
JP2006227964A (ja) ストレージシステム、処理方法及びプログラム
US9841923B2 (en) Storage apparatus and storage system
JP4456121B2 (ja) コンピュータ・クラスタ、コンピュータ・ユニット、および、コンピュータ・ユニット間における記憶アクセス制御方法
JP2007080012A (ja) 再起動方法、システム及びプログラム
JP2011028520A (ja) ディスクアレイ装置及び物理ディスクの復元方法
US10235256B2 (en) Systems and methods for highly-available file storage with fast online recovery
JP6569476B2 (ja) ストレージ装置、ストレージシステムおよびストレージ制御プログラム
JP2009265973A (ja) データ同期システム、障害復旧方法、及び、プログラム
WO2021088367A1 (zh) 数据恢复方法及相关设备
JP2008276281A (ja) データ同期システム、方法、及び、プログラム
JP5348300B2 (ja) データ管理プログラム、およびマルチノードストレージシステム
US20150019822A1 (en) System for Maintaining Dirty Cache Coherency Across Reboot of a Node
JP5640480B2 (ja) データ管理プログラム、ストレージシステム、およびデータ管理方法
JP2010198467A (ja) 情報処理装置の障害復旧システム及び情報処理装置の障害復旧方法
US20140082313A1 (en) Storage class memory evacuation
JP5773446B2 (ja) 記憶装置、冗長性回復方法、およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100716