JP2005055995A - Storage control method and server system with redundancy function - Google Patents

Storage control method and server system with redundancy function Download PDF

Info

Publication number
JP2005055995A
JP2005055995A JP2003206404A JP2003206404A JP2005055995A JP 2005055995 A JP2005055995 A JP 2005055995A JP 2003206404 A JP2003206404 A JP 2003206404A JP 2003206404 A JP2003206404 A JP 2003206404A JP 2005055995 A JP2005055995 A JP 2005055995A
Authority
JP
Japan
Prior art keywords
server
new
active
standby
hard disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003206404A
Other languages
Japanese (ja)
Inventor
Kazuhisa Abe
和寿 安部
Hironobu Kashiwagi
博信 柏樹
Keiji Yamahara
圭司 山原
Masaaki Higuchi
正明 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003206404A priority Critical patent/JP2005055995A/en
Publication of JP2005055995A publication Critical patent/JP2005055995A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To realize a redundancy function which is simple in structure and low in cost, the redundancy function executing recovery from a malfunction by switching an active system in a short period of time, when the malfunction occurs, and not stopping the services of a system as a whole due to maintenance or the like. <P>SOLUTION: N sets of active system servers and one standby system server are prepared, and a hard disk is subjected to redundancy for mirroring. When the active system is stopped due to maintenance or the like, the mirroring operation is interrupted, and the services of the active system are maintained while storing in one hard disk updated address information to which data are written along with the services, and the data are copied to a hard disk of a standby system from the other hard disk. After the copying is finished, the hard disk of active system and the hard disk of standby system are accorded with each other based on the updated address information to switch the standby system and the active system. When the malfunction occurs, the data are unconditionally copied to the standby system from the active system. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、サーバシステムのストレージ制御方法に係り、特に冗長化機能を有するサーバシステムで、運用系システムと待機系システムが用意されるシステムであって、無停止でシステムの運用をおこなうサーバシステムに用いて好適なサーバシステムのストレージ制御方法に関する。
【0002】
【従来の技術】
近年、サーバシステムは、情報処理社会における基幹技術となっており、高い信頼性が求められるようになってきている。このような信頼性確保のためのサーバシステム一般における冗長化の技術の例としては、単体で必要とされる機能を満たすサーバを複数台集めて、あたかも一つのシステムであるかのように動作させるクラスタサーバシステムが挙げられる、クラスタサーバシステムでは一台のサーバがダウンしても、クラスタ内の他のサーバが必要なリソースを引き継いで、短時間に業務を再開する。クラスタサーバシステムにおけるデータの引継ぎ手段としては、共有ディスクタイプが有り、これは、二つのサーバで、拡張ディスクアレイ装置を共有し、データの引継ぎを実現する。
【0003】
例えば、下記の特許文献1では、各サーバの状態を共有ディスクに保存して、複数のサーバを管理できるようになっている。
【0004】
また、その他の冗長化技術として、一台のサーバ内でプロセッサ、メモリーからPCIモジュール、ストレージまで、主要なハードウェアコンポーネントの完全二重化をおこなうフォールトレラントサーバシステムが挙げられる。
【0005】
【特許文献1】
特開平10−247911号公報
【0006】
【発明が解決しようとする課題】
システム設計者は、システムのリスク、可用性、コストを勘案してシステム設計をおこなうことになる。特に、障害が起こったときのサーバシステムにおけるデータ資産の引継ぎは、冗長化されたシステムのキーポイントである。
【0007】
上記クラスタサーバシステムにおける共有ディスク方式にておこなわれるサーバ間のデータの共有によるデータ引継ぎは、無停止でデータ資産も損なうことがない。しかしながら、一般的に共有ディスクが高価であるために、システム構築のコストが大きくなる傾向にある。またデータを共有するため、各サーバのOSが同一であることが必要であるというシステム設計上の制約もある。また、保守のために一定時間、サーバシステムを停止させて、ディスク内のデータの更新作業等のメンテナンスをおこなう際に、共有データの使用に影響を与えないための特別な配慮が必要となる等の保守上の制約も生じる。
【0008】
また、一方フォールトトレラントサーバシステムにおいては完全なハードウェアの二重化をおこない、高信頼性動作を保証するが、システム構築のコストが膨大となる。
【0009】
本発明は、上記問題点を解決するためになされたもので、その目的は、サーバシステムのストレージ制御に関し、冗長化機能を有するサーバシステムの運用系と待機系を用意して、通常サーバ停止を必要とする保守作業においては、運用系切替えによりサービスを継続可能とし、障害発生時には、短時間で運用系切替えによる障害回復をおこなう冗長化機能を、シンプルな構成で、低コストで実現することのできるサーバシステムを提供することにある。
【0010】
【課題を解決するための手段】
上記目的を達成するために、本発明のストレージ制御方法においては、N台の運用系サーバと一台の待機系サーバを用意し、運用系サーバ、待機系サーバのハードディスクを冗長化して、ミラーリングしておく。
【0011】
そして、運用系サーバを、保守などのために停止するときに、運用系サーバの冗長化動作を中断して、ミラーリングのハードディスクの一方のハードディスクで運用系サーバのサービスを継続する。
【0012】
このときに、運用系サーバのサービスに伴ったデータ書き込みのハードディスクの更新アドレスを記憶しておく。
【0013】
一方、運用系サーバのミラーリングされたハードディスクの他の一方のハードディスクから待機系サーバのハードディスクにデータをコピーする。
【0014】
そして、コピーが終了して、かつ、運用系サーバのサービスに伴ったデータ書き込みがないときに、記憶された更新アドレスに基づいて、運用系サーバのサービスに伴って書き込まれたデータを、待機系サーバにコピーする。
【0015】
コピーが終了して、運用系サーバと待機系サーバのハードディスクのデータが全て一致したときに、待機系サーバを運用系サーバに切り替え、運用系サーバを待機系サーバに切り替えて、運用系サーバの停止をおこなって、メインテナンスなどをおこなう。
【0016】
また、障害が発生したときには、運用系サーバから待機系サーバに無条件でデータのコピーをおこなうようにする。
【0017】
各運用系サーバと待機系サーバは、同一のシャーシ内に搭載し、ハードディスクを高速の専用バスで接続して、コピーをおこなったり、他のサーバへのコピーの制御の中継を切り替えられるようにする。
【0018】
このように、本発明のサーバシステムの構成によれば、保守などによる停止時、、障害発生時の各々の状態において、運用系サーバのHDD内データを完全にコピーすることから、二台以上の運用系サーバに対して、一台の待機系サーバのみによる低コストな冗長構成が実現できるものとなっている。
【0019】
また、保守などによる停止時には、冗長化された二台以上のHDDのうち、一台のHDDの冗長化動作を停止させて、サーバの運用切替えのためのデータコピーに使用する。そのため、運用系のサービスを停止せずに、高速に運用系と待機系を切替えることができる。また、最も故障頻度が多いHDDに関しては、HDDの冗長化構成により障害時の継続動作が可能であり、HDD以外の故障時には、運用系サーバから待機系サーバへのコピー終了後の切替えを実現する。
【0020】
【発明の実施の形態】
以下、本発明に係る一実施形態を、図1ないし図6を用いて説明する。
【0021】
〔冗長化機能を有するサーバシステムの構成〕
先ず、図1を用いて本発明の一実施形態に係る冗長化機能を有するサーバシステムの構成について説明する。
図1は、本発明の一実施形態に係る冗長化機能を有するサーバシステムの構成図である。
【0022】
本実施形態のサーバシステムは、図1に示されるように、通常、複数台のサーバ部2と、予備のために設けられる予備サーバ部3、マネージメント部4、LANスイッチ部5から構成されている。
【0023】
サーバ部2の台数は、システムの信頼性、可用性、パーフォマンスなどの要素を勘案して、システム設計の際に決定される。予備サーバ部3は、システムの運用にあたって予備的に設けられるサーバであり、複数台設けてもよいが、通常は、運用されているサーバ部2の台数よりは少なくなっている。
【0024】
マネージメント部4は、各サーバの相互に関係のある動作を管理する部分であり、各サーバ部2、予備サーバ部3の監視・制御マネージメント部20に接続されている。LANスイッチ部5は、外部のLAN8と接続されて、各サーバ部2、予備サーバ部3とネットワークの中継をおこなう部分である。
【0025】
また、LAN8には、保守端末6とクライアント群7が接続されていて、保守端末6からは、システムの保守、各種の設定をおこない、クライアント群7からは、サーバの提供するサービスを利用する。
【0026】
サーバ部2は、監視・制御マネージメント部20、CPU21、メモリ22、LAN/IF23、デバイス制御部24、ディスクコントローラ部25、HDD28,29からなっている。この構成は、予備サーバ部3も同様である。
【0027】
監視・制御マネージメント部20は、サーバの故障監視と、マネージメント部4からの指令を受け、デバイス制御部24とディスクコントローラ部25を制御してサーバ部2全体の制御をおこなう部分である。
【0028】
デバイス制御部24は、サーバの各デバイスの制御をおこなう部分である。
【0029】
ディスクコントローラ部25は、同期制御部26とディスク制御部27からなり、HDDの制御をおこなう部分である。
【0030】
ディスクコントローラ部25の同期制御部26は、サーバ部2のHDD28,29と、予備サーバ部3のHDD38,39のデータの同期のための制御をおこなう部分である。
【0031】
ディスクコントローラ部25のディスク制御部27は、HDD28,29を直接制御し、HDDの冗長化動作と、同期制御部26から指示を受けて、サーバ部2と予備サーバ部3のデータの同期のための入出力制御を司る。
【0032】
また、同期制御部26は、更新アドレスメモリ部261と、ディスク制御監視部262からなる。更新アドレスメモリ部261は、ハードディスクのデータが更新される際の書き込みアドレスを記憶する部分である。ディスク制御監視部262は、ハードディスクのサービスに伴うアクセスを監視する部分である。これらは、サーバ部2のHDDと、予備サーバ部3のHDDのデータの同期を保つために必要なコンポーネントであり、詳細な動作については後に説明する。
【0033】
〔冗長化機能を有するサーバシステムの動作〕
次に、図2ないし図5を用いて本発明の一実施形態に係る冗長化機能を有するサーバシステムの動作について説明する。
(I)予定停止時の動作
先ず、図2を用いてサーバシステムを保守・メンテナンス作業のために停止させる場合のサーバシステムの動作について説明する。
【0034】
以下では、サーバシステムを保守・メンテナンス作業などで保守者が意図したときに、運用系のシステムを停止させることを「予定停止」と言うことにする。
【0035】
また、サーバ部2を運用系として、予備サーバ部3を待機系として運用する場合を考え、それぞれ、運用系サーバ部2、待機系予備サーバ部3ということにする。
図2は、予定停止させるときのシステム動作を説明するためのタイミングチャートである。
【0036】
運用系サーバ部2では、通常の運転では、HDD28とHDD29は、冗長化されていて、ミラーリング(RAID1)の動作で読み書きのアクセスがなされている。一方の待機系予備サーバ部3の動作は停止している。
【0037】
ここで、LAN8に接続された保守端末6から運用系サーバ部2の予定停止が指示されたとする。
【0038】
この指示は、マネージメント部4により、運用系サーバ部2の監視・制御マネージメント部20と、待機系予備サーバ部3の監視・制御マネージメント部30に伝えられて、ディスクコントローラ部25とディスクコントローラ部35を制御することにより以下の動作が開始される。
【0039】
ディスクコントローラ部25のディスク制御部27は、図2に示されるようにミラーリングされていた一方のHDD28に対しては、運用系サーバ部2の読み書きのアクセスを継続しておこなわせる。
【0040】
そして、ディスクコントローラ部25のディスク制御部27とディスクコントローラ部35のディスク制御部37は、ミラーリングされていた他の一方のHDD29に対して、待機系予備サーバ部3のHDD38とHDD39の両方に同じデータをコピーする。
【0041】
運用系サーバ部2の読み書きのアクセスは、 HDD28によりおこなわれるので、この段階でも運用系の動作は継続している。ディスクコントローラ部25の同期制御部26の更新アドレスメモリ部261は、冗長化動作を停止してから、HDD28に書き込まれた更新データ1000の更新アドレス情報260aを記憶する。このときに、同一アドレスのデータ更新に対しては、上書きして最終的なデータの更新の情報のみが有効になるようにする。
【0042】
一方のHDD29からのコピー動作が終了すると、待機系予備サーバ部3の監視・制御マネージメント部30は、デバイス制御部34を介して、運用の準備のためにOS、アプリケーションソフトウェアを起動する。
【0043】
また、同期制御部26のディスク制御監視部262と同期制御部36のディスク制御監視部362は、更新アドレスメモリ部261内の更新アドレス情報260aに基づいて、HDD28の冗長化動作が停止してからの更新データ1000を、同じ運用系サーバ部2のHDD29と、待機系予備サーバ部3のHDD38、HDD39にコピーする。
【0044】
ここで、HDD28が他のHDDに更新データ1000をコピーしているときにも、運用系のサービス要求のための読み書きのアクセスがあったときには、新たに更新アドレスメモリ部261内の更新アドレス情報260aに記憶される。
【0045】
運用系のサービス要求による大量なデータ更新が長時間継続し、コピー動作が長時間継続する状況においては、この更新データ1000の他のHDDによるコピー動作がなかなか終了しないときが考えられる。
【0046】
そのようなときには、予め保守端末6により与えられた時間的指示をおこなって、その条件に従い、監視・制御マネージメント部20を介してマネージメント部4にサービス停止要求を通知する。そして、マネージメント部4は、LANスイッチ部5に対し該当ポートをブロッキング制御するよう指示することで、更新データのコピー動作が長時間継続する状況の回避が可能である。
【0047】
HDD28からの更新データ1000のコピーが終了して、全てのHDDの内容が同一になった瞬間を捉え、監視・制御マネージメント部20は、ディスクコントローラ部25により、冗長化動作を開始し、HDD28、HDD29に対してミラーリング動作を開始する。
【0048】
また、監視・制御マネージメント部20と監視・制御マネージメント部30は、マネージメント部4を介して、同期をとって、ディスクコントローラ部35により、待機系予備サーバ部3の冗長化動作を開始し、HDD38、HDD39に対してミラーリング動作を開始する。
【0049】
すなわち、この瞬間には、運用系サーバ部2と待機系予備サーバ部3の全てのHDDが同一の内容でミラーリング動作をおこなっていることになる。
【0050】
その後に、マネージメント部4は、監視・制御マネージメント部20と監視・制御マネージメント部30に指示を与えて、運用系を待機系予備サーバ部3に切り替える。
【0051】
これ以降は、サーバ部2に対して、保守・メンテナンス作業がおこなわれるが、同期制御部26の更新アドレスメモリ部261は、保守・メンテナンス作業時にHDDに書き込まれたデータ1001の更新アドレス情報260bを記憶する。
【0052】
また、予備サーバ部3が新たに運用系となるが、同期制御部36の更新アドレスメモリ部361は、この代替運用の期間中に生じたHDDに書き込まれたデータ1002の更新アドレス情報260cを記憶する。
【0053】
これらのサーバ部2での保守・メンテナンス作業時にHDDに書き込まれたデータ1001の更新アドレス情報260bと、予備サーバ部3の代替運用の期間中に生じたHDDに書き込まれたデータ1002の更新アドレス情報260cは、以下の復旧の手順のときにHDDのデータを回復するときに用いられる。
(II)保守終了後の復旧動作(その一)
次に、図3を用いて保守・メンテナンス作業が終了して、サーバシステムを復旧させる場合のサーバシステムの動作について説明する。
図3は、サーバシステムを復旧させるときのシステム動作を説明するためのタイミングチャートである(その一)。
【0054】
保守・メンテナンス作業時には、予備サーバ部3が新運用系予備サーバ部3、サーバ部2が新待機系サーバ部2となっている。
【0055】
そして、新運用系予備サーバ部3では、HDD38とHDD39は、冗長化されていて、ミラーリングの動作で読み書きのアクセスがなされている。
【0056】
ここで、新待機系サーバ部2の保守・メンテナンス作業が終了して、 LAN8に接続された保守端末6からサーバ部2の保守・メンテナンス作業後の復旧が指示されたとする。
【0057】
この指示は、マネージメント部4により、新待機系サーバ部22の監視・制御マネージメント部20と、新運用系予備サーバ部3の監視・制御マネージメント部30に伝えられて、ディスクコントローラ部25とディスクコントローラ部35を制御することにより以下の動作が開始される。
【0058】
指示されると、新運用系予備サーバ部3でのミラーリング動作を停止し、予備サーバ部3の代替運用の期間中に生じたHDDに書き込まれたデータ1002の更新アドレス情報260cを基にして、HDD39から新待機系サーバ部2のHDD28、HDD29に対してデータを追加データとしてコピーする。このように、保守・メインテナンス作業のおこなわれたHDDのデータに、新しいデータを追加しておこなうコピー動作を、本明細書中で、「マージコピー」ということにする。
【0059】
一方、ミラーリングの他の一方のHDD38には、新運用系予備サーバ部3の読み書きのアクセスを継続する。これによって、新運用系予備サーバ部3は、停止することなくサービスを継続することができる。
【0060】
また、同期制御部36の更新アドレスメモリ部361は、このミラーリング動作停止以降に、HDD38にあった読み書きのアクセスの更新データ1003のアドレスを更新アドレス情報260dとして、記憶する。
【0061】
この段階で、更新アドレス情報が二種類存在することになるが、例えば、更新アドレス情報を記憶するテーブルにフラグをつけることにより区別することができる。ここでは、復旧中にHDD38にあった読み書きのアクセスの更新データの更新アドレス情報260dを「フラグ付き更新アドレス情報」として区別することにする。
【0062】
そして、新待機系サーバ部2のHDD28、HDD29に対する代替運用の期間中に生じたHDDに書き込まれたデータ1002の更新アドレス情報260cを基にしたマージコピーが終了すると、新待機系サーバ部2の監視・制御マネージメント部20は、デバイス制御部24を介して、運用の準備のためにOS、アプリケーションソフトウェアを起動する。
【0063】
そして、次に、フラグ付き更新アドレス情報260dを基にして、HDD38から新待機系サーバ部2のHDD28、HDD29にコピーをおこなう。
【0064】
これにより、復旧動作中の新運用系予備サーバ部3に新たにアクセスのあったデータが新待機系サーバ部2のHDD28、HDD29に反映される。
【0065】
また、新運用系のサービス要求による大量なデータ更新が長時間継続し、コピー動作が長時間継続する状況においては、この更新データ1003の他のHDDによるコピー動作がなかなか終了しないときが考えられる。
【0066】
そのようなときには、予め保守端末6により与えられた時間的指示をおこなって、その条件に従い、監視・制御マネージメント部30を介してマネージメント部4にサービス停止要求を通知する。そして、マネージメント部4は、LANスイッチ部5に対し該当ポートをブロッキング制御するよう指示することで、更新データ1003のコピー動作が長時間継続する状況の回避が可能である。
【0067】
これは、(I)のときに、運用系サーバ2のサービスを一時停止した動作と同様である。
【0068】
そして、更新データのHDD38からの更新データ1003のコピーが終了して、全てのHDDの内容が同一になった瞬間を捉え、監視・制御マネージメント部20は、ディスクコントローラ部25により、冗長化動作を開始し、HDD28、HDD29に対してミラーリング動作を開始する。
【0069】
その後に、マネージメント部4は、監視・制御マネージメント部20と監視・制御マネージメント部30に指示を与えて、運用系をサーバ部2に切り替える。これで復旧動作は、終了して、サーバ部2は、通常運転に戻り、予備サーバ部3は、待機系に戻される。
(III)保守終了後の復旧動作(その二)
次に、図4を用いて保守・メンテナンス作業が終了して、サーバシステムを復旧させる場合のサーバシステムの他の動作について説明する。
図4は、サーバシステムを復旧させるときのシステム動作を説明するためのタイミングチャートである(その二)。
【0070】
この復旧動作をおこなう場合は、予備サーバ部3の代替運用の期間が長期にわたるなどして、予備サーバ部3の代替運用の期間中に生じたHDDに書き込まれたデータの更新アドレス情報が、予め定められた一定の数を超した場合である。
【0071】
この場合には、代替運用の期間中に生じたHDDに書き込まれたデータ1002の更新アドレス情報260cを用いるのは能率的ではないので、新運用系予備サーバ部3のHDDの内容を一旦、新待機系サーバ部2のHDDに一括してコピーするものである。
【0072】
この場合も、(II)と同様に、新運用系予備サーバ部3では、HDD38とHDD39は、冗長化されていて、ミラーリングの動作で読み書きのアクセスがなされている。そして、(II)と同様に、新待機系サーバ部2の保守・メンテナンス作業が終了して、 LAN8に接続された保守端末6からサーバ部2の保守・メンテナンス作業後の復旧が指示されたとする。
【0073】
予備サーバ部3の代替運用の期間中に生じたHDDに書き込まれたデータの更新アドレス情報が、予め定められた一定の数を超しているか否かを判断する。一定の数を超していないときには、(II)の動作と同様にして復旧するが、一定の数を超しているときには、以下のようにして復旧動作をおこなうものとする。
【0074】
先ず、新運用系予備サーバ部3のHDD39の内容を、新待機系サーバ部2のHDD29に一括コピーする。
【0075】
この一括コピーしている間に、新運用系予備サーバ部3の読み書きのアクセスの更新アドレスをフラグ付き更新アドレス情報260dとして、記憶しておくことは、(II)の動作と同様である。
【0076】
HDD39から新待機系サーバ部2のHDD29に一括コピーが終了すると、次に、(I)に説明した保守・メンテナンス作業時にHDDに書き込まれたデータ1001の更新アドレス情報260bを基にして、HDD28のデータをHDD29にマージコピーする。これにより、HDD29の内容は、新待機系サーバ部2で保守されたデータの内容と、新運用系予備サーバ部3でのサービスでの読み書きのアクセスにより更新されたデータを併せたものになる。
【0077】
その後に、HDD29の内容を全て、HDD28にコピーし直して、HDD28とHDD29の内容を同一にする。
【0078】
これ以降は、フラグ付き更新アドレス260dに基づいて、一括コピー中の読み書きのアクセスの更新データ1003の内容をコピーして、新待機系サーバ部2を運用系に切り替える動作は、(II)と同様である。
(IV)障害時の動作
次に、図5を用いてサーバシステムの障害時の動作について説明する。
図5は、サーバシステムを障害時のシステム動作を説明するためのタイミングチャートである。
【0079】
ここでは、運用系サーバ部2の、HDDが冗長化されており、ミラーリング動作をおこなっているときに、HDD以外の障害がおこったときについて説明する。なお、HDDに障害がおこったときの動作は、通常のRAIDによりシステムを復旧させる動作と同様になる。
【0080】
例えば、回路の異常、運転温度の上昇など、運用系サーバ部2が障害を検知されたときには、監視・制御マネージメント部20は、ディスクコントローラ部25に指示を与え、運用系サーバ部2のミラーリングされた一方のHDD29から、待機系予備サーバ部3のHDD38、HDD39にコピーを開始する。
【0081】
そして、コピーが終了すると、待機系予備サーバ部3の監視・制御マネージメント部30は、デバイス制御部34を介して、運用の準備のためにOS、アプリケーションソフトウェアを起動する。
【0082】
そして、待機系予備サーバ部3を運用系に切り替えて、HDD38とHDD39により、ミラーリング動作を開始する。
【0083】
〔サーバ間のストレージ制御のための高速専用バス〕
次に、図6を用いてサーバ間のストレージ制御のための高速専用バスについて説明する。
図6は、サーバ間のストレージ制御をおこなう部分に重点をおいた構成図である。
【0084】
発明の実施形態の冒頭では、図1を用いて冗長化機能を有するサーバシステムの構成全体を説明したが、ここでは、サーバ間でストレージ制御をおこなう手段としての高速専用バスを設ける構成について説明する。
【0085】
本実施形態のサーバシステムの各サーバは、ブレードサーバ(Blade Server)として実装することができる。ここで、ブレードサーバとは、一枚の基盤にコンピュータとして必要な要素を実装し、必要な枚数を接続して構成するサーバ専用機のことをいう。
【0086】
ここで、図6に示されたように、サーバ部A10、サーバ部B11、予備サーバ部12がマネージメント部9を介して接続されている。これらの各サーバ部は、ブレードサーバとして、一つのシャーシ内に実装されているものとする。
【0087】
各サーバ部は、ディスク制御切替え部により、高速専用バスで接続されていて、データや制御の指令を受け渡せるようになっている。各サーバ部のディスク制御切替え部は、デバイス制御部の指示をうけてHDDの接続を切り替えるようになっている。
【0088】
この高速専用バスのインタフェースとしては、SCSI( Small Computer System Interface)、ATA(AT Attachment)、シリアルATA、ファイバチャネル(Fibre Channel)などを用いることができる。
【0089】
ここで、サーバ部Bは、(I)の手順で説明したように、運用したままサーバ部Aを予定停止させることにする。
【0090】
このときのサーバ部AのHDD104は、デバイス制御部107を指示を受けて、運用系のサービスを継続させる。一方のHDD105のデータは、予備サーバ部12のHDD124とHDD125にコピーされる。
【0091】
このときに、ディスク制御切替え部106は、HDD105から専用高速バスA13を介して、サーバ部B11のディスク制御切替え部116に、コピーをおこなえるように接続する。サーバ部B11のディスク制御切替え部116は、予備サーバ部12に専用高速バスB14により、予備サーバ部12のディスク制御切替え部126によるコピー制御の中継をするように接続する。そして、サーバ部B11を中継して、サーバ部AのHDD105から、予備サーバ部12のHDD124と、HDD125にデータがコピーされる。
【0092】
運用系であるサーバ部B11のディスク制御切替え部116は、ミラーリング動作をおこなうようにHDD114とHDD115を接続している。
【0093】
なお、これらのストレージ制御は、各監視・制御マネージメント部がマネージメント部7を介して、他の監視・制御マネージメント部と情報をやり取りしておこなうものである。また、図6では、ディスク制御切替えは、機械的なスイッチのように模式的に示したが、実際には、電気的に切替えをおこなうものである。
【0094】
このように、本実施形態では、各サーバ部は同一シャーシ内で隣接するサーバ間を接続する専用高速バスを有し、運用系から予備系切替えに伴うコピー動作の対象外であった場合には、バスの中継制御をおこなっている。これにより同一シャーシ内の全てのサーバ部が連結された場合にも、シャーシ内のバックプレーン上のパターン配置が容易となり、かつ、数十〜数百MHz以上の速度をもつ高速なHDD制御バスの電気的な中継がおこなわれ、複数台サーバが同一シャーシに搭載される場合の待機系サーバまでの長距離な伝送を可能とする。
【0095】
【発明の効果】
本発明によれば、サーバシステムのストレージ制御に関し、冗長化機能を有するサーバシステムの運用系と待機系を用意して、通常サーバ停止を必要とする保守作業においては、運用系切替えによりサービスを継続可能とし、障害発生時には、短時間で運用系切替えによる障害回復をおこなう冗長化機能を、低コストで、シンプルな構成のサーバシステムで実現することができる
【図面の簡単な説明】
【図1】本発明の一実施形態に係る冗長化機能を有するサーバシステムの構成図である。
【図2】予定停止させるときのシステム動作を説明するためのタイミングチャートである。
【図3】サーバシステムを復旧させるときのシステム動作を説明するためのタイミングチャートである(その一)。
【図4】サーバシステムを復旧させるときのシステム動作を説明するためのタイミングチャートである(その二)。
【図5】サーバシステムを障害時のシステム動作を説明するためのタイミングチャートである。
【図6】サーバ間のストレージ制御をおこなう部分に重点をおいた構成図である。
【符号の説明】
1…サーバシステム
2…サーバ部
3,12…予備サーバ部
4,9…マネージメント部
5…LANスイッチ部
6…保守端末
7…クライアント郡
8…LAN
10…サーバ部A
11…サーバ部B
13…専用高速バスA
14…専用高速バスB
20,30,101,111,121…監視・制御マネージメント部
21,31…CPU
22,32…メモリ
23,33…LAN/IF
24,34,107,117,127…デバイス制御部
25,35,102,112,122…ディスクコントローラ部
26,36…同期制御部
27,37,103,113,123…ディスク制御部
28,29,38,39,104,105,114,115,124,125…HDD
261,361…更新アドレスメモリ部
262,362…ディスク制御監視部
106,116,126…ディスク制御切替え部
260a〜260d…更新アドレス情報
1000〜1003…HDDに書き込まれる各種データ
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a storage control method for a server system, and more particularly to a server system having a redundancy function, in which an active system and a standby system are prepared, and the server system that operates the system without stopping. The present invention relates to a storage control method for a server system suitable for use.
[0002]
[Prior art]
In recent years, server systems have become a key technology in the information processing society, and high reliability has been demanded. As an example of redundancy technology in general server systems for ensuring reliability, multiple servers that satisfy the functions required for a single server are collected and operated as if they were a single system. In a cluster server system, such as a cluster server system, even if one server goes down, other servers in the cluster take over necessary resources and resume business in a short time. As a data takeover means in the cluster server system, there is a shared disk type, which realizes the takeover of data by sharing the extended disk array device between two servers.
[0003]
For example, in Patent Document 1 below, the state of each server can be stored in a shared disk so that a plurality of servers can be managed.
[0004]
As another redundancy technology, there is a fault tolerant server system in which a main hardware component is completely duplicated from a processor and a memory to a PCI module and a storage in one server.
[0005]
[Patent Document 1]
Japanese Patent Laid-Open No. 10-247911
[0006]
[Problems to be solved by the invention]
The system designer performs system design in consideration of the risk, availability, and cost of the system. In particular, taking over data assets in a server system when a failure occurs is a key point of a redundant system.
[0007]
Data takeover by sharing data between servers performed by the shared disk method in the cluster server system is non-stop and does not damage data assets. However, since the shared disk is generally expensive, the cost of system construction tends to increase. In addition, since data is shared, there is a system design restriction that the OS of each server must be the same. In addition, special care must be taken not to affect the use of shared data when performing maintenance such as updating the data in the disk by stopping the server system for a certain period of time for maintenance. There are also maintenance restrictions.
[0008]
On the other hand, in a fault-tolerant server system, complete hardware duplication is performed and high-reliability operation is guaranteed, but the cost of system construction becomes enormous.
[0009]
The present invention has been made to solve the above problems, and its purpose is related to storage control of a server system. An operation system and a standby system of a server system having a redundancy function are prepared, and a normal server stop is performed. In the required maintenance work, it is possible to continue the service by switching the active system, and in the event of a failure, the redundancy function that recovers the failure by switching the active system in a short time can be realized with a simple configuration at low cost. It is to provide a server system that can be used.
[0010]
[Means for Solving the Problems]
To achieve the above object, in the storage control method of the present invention, N active servers and one standby server are prepared, and the hard disks of the active server and the standby server are made redundant and mirrored. Keep it.
[0011]
When the active server is stopped for maintenance or the like, the redundancy operation of the active server is interrupted, and the service of the active server is continued with one of the mirroring hard disks.
[0012]
At this time, the update address of the hard disk for data writing accompanying the service of the active server is stored.
[0013]
On the other hand, data is copied from the other hard disk of the mirrored hard disk of the active server to the hard disk of the standby server.
[0014]
Then, when copying is completed and there is no data write accompanying the service of the active server, the data written with the service of the active server is changed to the standby system based on the stored update address. Copy to server.
[0015]
When copying is complete and all hard disk data on the active server and standby server match, switch the standby server to the active server, switch the active server to the standby server, and stop the active server Do maintenance, etc.
[0016]
When a failure occurs, data is unconditionally copied from the active server to the standby server.
[0017]
Each active server and standby server are installed in the same chassis, and hard disks are connected by a high-speed dedicated bus so that copying can be performed and relay of copy control to other servers can be switched. .
[0018]
As described above, according to the configuration of the server system of the present invention, the data in the HDD of the active server is completely copied in each state at the time of stoppage due to maintenance, etc., or when a failure occurs. A low-cost redundant configuration with only one standby server can be realized for the active server.
[0019]
Further, at the time of stoppage due to maintenance or the like, the redundancy operation of one HDD among the two or more redundant HDDs is stopped and used for data copy for server operation switching. Therefore, the active system and the standby system can be switched at high speed without stopping the active service. In addition, the HDD with the highest failure frequency can be continuously operated in the event of a failure due to the redundant configuration of the HDD. In the event of a failure other than the HDD, switching from the active server to the standby server is realized after the copy is completed. .
[0020]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment according to the present invention will be described with reference to FIGS. 1 to 6.
[0021]
[Configuration of server system with redundancy function]
First, the configuration of a server system having a redundancy function according to an embodiment of the present invention will be described with reference to FIG.
FIG. 1 is a configuration diagram of a server system having a redundancy function according to an embodiment of the present invention.
[0022]
As shown in FIG. 1, the server system of this embodiment is generally composed of a plurality of server units 2, a spare server unit 3 provided for backup, a management unit 4, and a LAN switch unit 5. .
[0023]
The number of server units 2 is determined at the time of system design in consideration of factors such as system reliability, availability, and performance. The spare server unit 3 is a server that is provisionally provided for the operation of the system. A plurality of spare server units 3 may be provided, but the number is usually smaller than the number of server units 2 that are operated.
[0024]
The management unit 4 is a part that manages operations that are related to each other, and is connected to the monitoring / control management unit 20 of each server unit 2 and spare server unit 3. The LAN switch unit 5 is connected to an external LAN 8 and relays the network with each server unit 2 and spare server unit 3.
[0025]
A maintenance terminal 6 and a client group 7 are connected to the LAN 8. The maintenance terminal 6 performs system maintenance and various settings, and the client group 7 uses a service provided by a server.
[0026]
The server unit 2 includes a monitoring / control management unit 20, a CPU 21, a memory 22, a LAN / IF 23, a device control unit 24, a disk controller unit 25, and HDDs 28 and 29. This configuration is the same for the spare server unit 3.
[0027]
The monitoring / control management unit 20 is a part that controls the server unit 2 by controlling the device control unit 24 and the disk controller unit 25 in response to monitoring of a server failure and a command from the management unit 4.
[0028]
The device control unit 24 is a part that controls each device of the server.
[0029]
The disk controller unit 25 includes a synchronization control unit 26 and a disk control unit 27, and is a part that controls the HDD.
[0030]
The synchronization control unit 26 of the disk controller unit 25 is a part that performs control for synchronizing data of the HDDs 28 and 29 of the server unit 2 and the HDDs 38 and 39 of the spare server unit 3.
[0031]
The disk control unit 27 of the disk controller unit 25 directly controls the HDDs 28 and 29, and receives an instruction from the HDD redundancy operation and the synchronization control unit 26 to synchronize data between the server unit 2 and the spare server unit 3. I / O control.
[0032]
The synchronization control unit 26 includes an update address memory unit 261 and a disk control monitoring unit 262. The update address memory unit 261 is a part that stores a write address when data on the hard disk is updated. The disk control monitoring unit 262 is a part that monitors accesses associated with hard disk services. These are components necessary to keep the data in the HDD of the server unit 2 and the HDD of the spare server unit 3 synchronized, and detailed operations will be described later.
[0033]
[Operation of server system with redundancy function]
Next, the operation of the server system having a redundancy function according to an embodiment of the present invention will be described with reference to FIGS.
(I) Operation at scheduled stop
First, the operation of the server system when the server system is stopped for maintenance / maintenance work will be described with reference to FIG.
[0034]
Hereinafter, when the maintenance person intends to perform maintenance / maintenance work on the server system, stopping the active system is referred to as “scheduled stop”.
[0035]
Further, considering the case where the server unit 2 is operated as an active system and the spare server unit 3 is operated as a standby system, they are referred to as an active server unit 2 and a standby system spare server unit 3, respectively.
FIG. 2 is a timing chart for explaining the system operation when the scheduled stop is performed.
[0036]
In the active server unit 2, in normal operation, the HDD 28 and the HDD 29 are made redundant, and read / write access is performed by the operation of mirroring (RAID 1). The operation of one standby standby server unit 3 is stopped.
[0037]
Here, it is assumed that a scheduled stop of the active server unit 2 is instructed from the maintenance terminal 6 connected to the LAN 8.
[0038]
This instruction is transmitted to the monitoring / control management unit 20 of the active server unit 2 and the monitoring / control management unit 30 of the standby standby server unit 3 by the management unit 4, and the disk controller unit 25 and the disk controller unit 35. The following operation is started by controlling.
[0039]
The disk control unit 27 of the disk controller unit 25 continues to perform read / write access of the active server unit 2 to one HDD 28 mirrored as shown in FIG.
[0040]
The disk control unit 27 of the disk controller unit 25 and the disk control unit 37 of the disk controller unit 35 are the same as both the HDD 38 and the HDD 39 of the standby spare server unit 3 with respect to the other mirrored HDD 29. Copy the data.
[0041]
Since the read / write access of the active server unit 2 is performed by the HDD 28, the operation of the active system continues at this stage. The update address memory unit 261 of the synchronization control unit 26 of the disk controller unit 25 stores the update address information 260a of the update data 1000 written in the HDD 28 after stopping the redundancy operation. At this time, over the data update of the same address, it is overwritten so that only the final data update information becomes valid.
[0042]
When the copy operation from one HDD 29 is completed, the monitoring / control management unit 30 of the standby standby server unit 3 activates the OS and application software for preparation for operation via the device control unit 34.
[0043]
Further, the disk control monitoring unit 262 of the synchronization control unit 26 and the disk control monitoring unit 362 of the synchronization control unit 36 stop after the redundancy operation of the HDD 28 is stopped based on the update address information 260a in the update address memory unit 261. The update data 1000 is copied to the HDD 29 of the same active server unit 2 and the HDDs 38 and 39 of the standby spare server unit 3.
[0044]
Here, even when the HDD 28 is copying the update data 1000 to another HDD, if there is a read / write access for an active service request, the update address information 260a in the update address memory unit 261 is newly added. Is remembered.
[0045]
In a situation where a large amount of data update due to an active service request continues for a long time and the copy operation continues for a long time, the copy operation by another HDD of the update data 1000 may not be completed easily.
[0046]
In such a case, a time instruction given in advance by the maintenance terminal 6 is given, and a service stop request is notified to the management unit 4 via the monitoring / control management unit 20 according to the conditions. Then, the management unit 4 instructs the LAN switch unit 5 to perform blocking control on the corresponding port, thereby avoiding a situation in which the update data copy operation continues for a long time.
[0047]
The monitoring / control management unit 20 uses the disk controller unit 25 to start the redundancy operation by capturing the moment when the copy of the update data 1000 from the HDD 28 is finished and the contents of all the HDDs are the same. A mirroring operation for the HDD 29 is started.
[0048]
In addition, the monitoring / control management unit 20 and the monitoring / control management unit 30 synchronize with each other via the management unit 4 and start the redundancy operation of the standby standby server unit 3 by the disk controller unit 35. The mirroring operation for the HDD 39 is started.
[0049]
That is, at this moment, all the HDDs of the active server unit 2 and the standby spare server unit 3 perform the mirroring operation with the same contents.
[0050]
Thereafter, the management unit 4 gives an instruction to the monitoring / control management unit 20 and the monitoring / control management unit 30 to switch the active system to the standby standby server unit 3.
[0051]
Thereafter, maintenance / maintenance work is performed on the server unit 2, but the update address memory unit 261 of the synchronization control unit 26 stores the update address information 260b of the data 1001 written in the HDD during the maintenance / maintenance work. Remember.
[0052]
Further, although the spare server unit 3 becomes a new active system, the update address memory unit 361 of the synchronization control unit 36 stores the update address information 260c of the data 1002 written in the HDD generated during this alternative operation period. To do.
[0053]
The update address information 260b of the data 1001 written in the HDD at the time of maintenance / maintenance work in these server units 2, and the update address information of the data 1002 written in the HDD generated during the alternative operation of the spare server unit 3 260c is used to recover HDD data during the following recovery procedure.
(II) Restoration operation after maintenance (Part 1)
Next, the operation of the server system when the maintenance / maintenance work is completed and the server system is restored will be described with reference to FIG.
FIG. 3 is a timing chart for explaining the system operation when the server system is restored (part 1).
[0054]
At the time of maintenance / maintenance work, the spare server unit 3 is the new active spare server unit 3 and the server unit 2 is the new standby server unit 2.
[0055]
In the new active spare server unit 3, the HDD 38 and the HDD 39 are made redundant, and read / write access is performed by a mirroring operation.
[0056]
Here, it is assumed that the maintenance / maintenance work of the new standby server unit 2 is finished and the maintenance terminal 6 connected to the LAN 8 gives an instruction to restore the server unit 2 after the maintenance / maintenance work.
[0057]
This instruction is transmitted by the management unit 4 to the monitoring / control management unit 20 of the new standby server unit 22 and the monitoring / control management unit 30 of the new standby system server unit 3, and the disk controller unit 25 and the disk controller. The following operation is started by controlling the unit 35.
[0058]
When instructed, the mirroring operation in the new active spare server unit 3 is stopped, and based on the updated address information 260c of the data 1002 written in the HDD generated during the alternative operation period of the spare server unit 3, Data is copied as additional data from the HDD 39 to the HDD 28 and the HDD 29 of the new standby server unit 2. In this specification, a copy operation in which new data is added to HDD data that has been subjected to maintenance / maintenance work is referred to as “merge copy”.
[0059]
On the other hand, the read / write access of the new active spare server unit 3 is continued to the other HDD 38 of the mirroring. Thus, the new active spare server unit 3 can continue the service without stopping.
[0060]
In addition, the update address memory unit 361 of the synchronization control unit 36 stores the address of the read / write access update data 1003 in the HDD 38 as the update address information 260d after the mirroring operation is stopped.
[0061]
At this stage, there are two types of update address information. For example, the update address information can be distinguished by attaching a flag to a table storing the update address information. Here, the update address information 260d of the read / write access update data in the HDD 38 during the recovery is distinguished as “update address information with flag”.
[0062]
When the merge copy based on the update address information 260c of the data 1002 written in the HDD generated during the alternative operation for the HDD 28 and HDD 29 of the new standby server unit 2 is completed, the new standby server unit 2 The monitoring / control management unit 20 activates the OS and application software via the device control unit 24 to prepare for operation.
[0063]
Then, based on the update address information with flag 260d, copying is performed from the HDD 38 to the HDD 28 and the HDD 29 of the new standby server unit 2.
[0064]
As a result, data that has been newly accessed to the new active standby server unit 3 during the recovery operation is reflected in the HDD 28 and HDD 29 of the new standby server unit 2.
[0065]
Further, in a situation where a large amount of data update due to a service request for a new operation system continues for a long time and the copy operation continues for a long time, the copy operation by another HDD of the update data 1003 may not be completed easily.
[0066]
In such a case, a time instruction given in advance by the maintenance terminal 6 is given, and a service stop request is notified to the management unit 4 via the monitoring / control management unit 30 according to the conditions. Then, the management unit 4 instructs the LAN switch unit 5 to perform blocking control on the corresponding port, thereby avoiding a situation where the copy operation of the update data 1003 continues for a long time.
[0067]
This is the same as the operation of temporarily suspending the service of the active server 2 at (I).
[0068]
Then, when the copy of the update data 1003 from the HDD 38 of the update data is completed and the contents of all the HDDs become the same, the monitoring / control management unit 20 performs the redundancy operation by the disk controller unit 25. The mirroring operation for the HDD 28 and the HDD 29 is started.
[0069]
Thereafter, the management unit 4 gives an instruction to the monitoring / control management unit 20 and the monitoring / control management unit 30 to switch the operation system to the server unit 2. Thus, the recovery operation ends, the server unit 2 returns to normal operation, and the spare server unit 3 returns to the standby system.
(III) Restoration operation after maintenance (Part 2)
Next, another operation of the server system when the maintenance / maintenance work is completed and the server system is restored will be described with reference to FIG.
FIG. 4 is a timing chart for explaining the system operation when the server system is restored (part 2).
[0070]
When this recovery operation is performed, the update address information of the data written in the HDD generated during the replacement operation period of the spare server unit 3 is previously stored, for example, because the replacement server period of the spare server unit 3 is long. This is the case when a certain number is exceeded.
[0071]
In this case, since it is not efficient to use the updated address information 260c of the data 1002 written in the HDD generated during the alternative operation period, the contents of the HDD of the new active spare server unit 3 are temporarily updated. A batch copy is made to the HDD of the standby server unit 2.
[0072]
Also in this case, as in (II), in the new active spare server unit 3, the HDD 38 and the HDD 39 are made redundant, and read / write access is made by the mirroring operation. Similarly to (II), it is assumed that the maintenance / maintenance work of the new standby server unit 2 is finished and the maintenance terminal 6 connected to the LAN 8 gives an instruction to restore the server unit 2 after the maintenance / maintenance work. .
[0073]
It is determined whether or not the update address information of data written in the HDD generated during the alternative operation period of the spare server unit 3 exceeds a predetermined number. When it does not exceed a certain number, it is restored in the same manner as the operation (II). When it exceeds a certain number, the restoration operation is performed as follows.
[0074]
First, the contents of the HDD 39 of the new active standby server unit 3 are collectively copied to the HDD 29 of the new standby server unit 2.
[0075]
During the batch copying, storing the update address for read / write access of the new active spare server unit 3 as flagged update address information 260d is the same as the operation (II).
[0076]
When the batch copy from the HDD 39 to the HDD 29 of the new standby server unit 2 is completed, the update address information 260b of the data 1001 written to the HDD during the maintenance operation described in (I) is then used. Data is merged and copied to the HDD 29. As a result, the content of the HDD 29 is a combination of the data content maintained by the new standby server unit 2 and the data updated by the read / write access in the service of the new active standby server unit 3.
[0077]
Thereafter, the entire contents of the HDD 29 are copied back to the HDD 28 so that the contents of the HDD 28 and the HDD 29 are the same.
[0078]
Thereafter, the operation of copying the contents of the read / write access update data 1003 during batch copy and switching the new standby server unit 2 to the active system based on the flagged update address 260d is the same as in (II). It is.
(IV) Operation at the time of failure
Next, the operation at the time of failure of the server system will be described with reference to FIG.
FIG. 5 is a timing chart for explaining the system operation when the server system fails.
[0079]
Here, a description will be given of a case where a failure other than the HDD occurs when the HDD of the active server unit 2 is redundant and the mirroring operation is performed. The operation when a failure occurs in the HDD is the same as the operation of recovering the system by normal RAID.
[0080]
For example, when the operational server unit 2 detects a failure such as a circuit abnormality or an increase in operating temperature, the monitoring / control management unit 20 gives an instruction to the disk controller unit 25 and the operational server unit 2 is mirrored. Copying is started from one HDD 29 to the HDD 38 and HDD 39 of the standby spare server unit 3.
[0081]
When the copying is completed, the monitoring / control management unit 30 of the standby standby server unit 3 activates the OS and application software to prepare for operation via the device control unit 34.
[0082]
Then, the standby spare server unit 3 is switched to the active system, and the mirroring operation is started by the HDD 38 and the HDD 39.
[0083]
[High-speed dedicated bus for storage control between servers]
Next, a high-speed dedicated bus for storage control between servers will be described with reference to FIG.
FIG. 6 is a configuration diagram focusing on the part that performs storage control between servers.
[0084]
At the beginning of the embodiment of the invention, the entire configuration of the server system having a redundancy function has been described with reference to FIG. 1, but here, a configuration in which a high-speed dedicated bus is provided as means for performing storage control between servers will be described. .
[0085]
Each server of the server system of the present embodiment can be implemented as a blade server (Blade Server). Here, the blade server refers to a server-dedicated machine configured by mounting necessary elements as a computer on a single board and connecting the necessary numbers.
[0086]
Here, as shown in FIG. 6, the server unit A 10, the server unit B 11, and the spare server unit 12 are connected via the management unit 9. Each of these server units is assumed to be mounted in one chassis as a blade server.
[0087]
Each server unit is connected by a high-speed dedicated bus by a disk control switching unit, and can receive data and control commands. The disk control switching unit of each server unit switches the HDD connection in response to an instruction from the device control unit.
[0088]
As an interface of the high-speed dedicated bus, a small computer system interface (SCSI), an AT attachment (ATA), a serial ATA, a fiber channel (Fibre Channel), or the like can be used.
[0089]
Here, as described in the procedure (I), the server unit B schedules the server unit A to remain operating.
[0090]
At this time, the HDD 104 of the server unit A receives the instruction from the device control unit 107 and continues the operation service. The data in one HDD 105 is copied to the HDD 124 and HDD 125 of the spare server unit 12.
[0091]
At this time, the disk control switching unit 106 is connected from the HDD 105 to the disk control switching unit 116 of the server unit B11 via the dedicated high-speed bus A13 so that copying can be performed. The disk control switching unit 116 of the server unit B11 is connected to the spare server unit 12 so as to relay copy control by the disk control switching unit 126 of the spare server unit 12 through the dedicated high-speed bus B14. Then, data is copied from the HDD 105 of the server unit A to the HDD 124 and the HDD 125 of the spare server unit 12 via the server unit B11.
[0092]
The disk control switching unit 116 of the server unit B11, which is the active system, connects the HDD 114 and the HDD 115 so as to perform a mirroring operation.
[0093]
The storage control is performed by each monitoring / control management unit exchanging information with other monitoring / control management units via the management unit 7. In FIG. 6, the disk control switching is schematically shown as a mechanical switch. However, in actuality, the disk control switching is performed electrically.
[0094]
As described above, in this embodiment, each server unit has a dedicated high-speed bus that connects adjacent servers in the same chassis, and is not subject to a copy operation associated with switching from the active system to the standby system. And bus relay control. As a result, even when all server units in the same chassis are connected, the pattern arrangement on the backplane in the chassis is facilitated, and a high-speed HDD control bus having a speed of several tens to several hundreds of MHz or more is provided. Electrical relaying is performed to enable long-distance transmission to a standby server when multiple servers are mounted in the same chassis.
[0095]
【The invention's effect】
According to the present invention, with regard to storage control of a server system, an operation system and a standby system of a server system having a redundancy function are prepared, and in maintenance work requiring a normal server stop, the service is continued by switching the operation system. Enables a redundant function that enables failure recovery by switching the operating system in a short time when a failure occurs, and can be realized with a server system with a simple configuration at low cost
[Brief description of the drawings]
FIG. 1 is a configuration diagram of a server system having a redundancy function according to an embodiment of the present invention.
FIG. 2 is a timing chart for explaining a system operation when a scheduled stop is performed.
FIG. 3 is a timing chart for explaining the system operation when the server system is restored (part 1);
FIG. 4 is a timing chart for explaining the system operation when the server system is restored (part 2);
FIG. 5 is a timing chart for explaining the system operation when the server system fails.
FIG. 6 is a configuration diagram with emphasis on a portion that performs storage control between servers.
[Explanation of symbols]
1 ... Server system
2 ... Server part
3, 12 ... spare server part
4,9… Management Department
5 ... LAN switch
6. Maintenance terminal
7 ... Client County
8 ... LAN
10 ... Server A
11 ... Server part B
13 ... Exclusive highway bus A
14 ... Exclusive express bus B
20, 30, 101, 111, 121 ... monitoring / control management section
21, 31 ... CPU
22, 32 ... Memory
23, 33 ... LAN / IF
24, 34, 107, 117, 127 ... Device control unit
25, 35, 102, 112, 122... Disk controller section
26, 36 ... synchronization control unit
27, 37, 103, 113, 123... Disk control unit
28, 29, 38, 39, 104, 105, 114, 115, 124, 125 ... HDD
261, 361 ... Update address memory section
262, 362 ... Disk control monitoring unit
106, 116, 126... Disk control switching unit
260a-260d ... Update address information
1000 to 1003 ... Various data written to the HDD

Claims (12)

運用系システムと待機系システムとを有する計算機システムのストレージ制御方法において、
前記運用系システムは、二台以上のハードディスクに同一のデータを冗長化して書き込む冗長化手段を有するシステムであって、
前記運用系システムを予定停止するときに、
(1)前記運用系システムの冗長化動作を中断して、前記二台以上のハードディスクの一方のハードディスクで運用系システムのサービスを継続する手順と、
(2)前記運用系システムの二台以上のハードディスクの他の一方のハードディスクから前記待機系システムのハードディスクにコピーする手順と、
(3)前記(1)の手順で、運用系システムのサービスに伴ったデータ書き込みのハードディスクの更新アドレスを記憶する手順と、
(4)前記(2)の手順のコピーが終了して、かつ、運用系システムのサービスに伴ったデータ書き込みがないときに、前記(3)の手順の更新アドレスに基づいて、前記運用系システムのサービスに伴って書き込まれたデータを、前記待機系システムにコピーする手順と、
(5)前記(4)の手順のコピーが終了して、前記運用系システムと前記待機系システムのハードディスクのデータが全て一致したときに、前記待機系システムを運用系システムに切り替え、前記運用系システムを待機系システムに切り替えて、前記運用系システムの予定停止をおこなう手順と
を有することを特徴とする計算機システムのストレージ制御方法。
In a storage control method for a computer system having an active system and a standby system,
The operational system is a system having redundant means for redundantly writing the same data to two or more hard disks,
When the operational system is scheduled to stop,
(1) A procedure for interrupting the redundancy operation of the active system and continuing the service of the active system on one of the two or more hard disks;
(2) a procedure of copying from the other hard disk of the two or more hard disks of the active system to the hard disk of the standby system;
(3) In the procedure of (1), a procedure for storing the update address of the hard disk for data writing accompanying the service of the active system;
(4) When the copy of the procedure of (2) is completed and there is no data write accompanying the service of the operation system, the active system is based on the update address of the procedure of (3). A procedure for copying data written with the service to the standby system;
(5) When the copying of the procedure of (4) is completed and all the hard disk data of the active system and the standby system match, the standby system is switched to the active system, and the active system A computer system storage control method comprising: a procedure for switching a system to a standby system and performing a scheduled stop of the active system.
待機系システムから切り替えられた新運用系システムも、二台以上のハードディスクに同一のデータを冗長化して書き込む冗長化手段を有するシステムであって、
運用系システムから切り替えられた新待機系システムの復旧動作をするときに、
(10)新運用系システムに切り替えられた以降のサービスに伴ったデータ書き込みのハードディスクの更新アドレスを記憶する手順と、
(11)前記新運用系システムの冗長化動作を中断して、前記二台以上のハードディスクの一方のハードディスクで新運用系システムのサービスを継続する手順と、
(12)前記新運用系システムの二台以上のハードディスクの他の一方のハードディスクから前記新待機系システムのハードディスクに、前記(10)の手順の更新アドレスに基づいて、マージコピーする手順と、
(13)前記(12)の手順のマージコピーしている間の前記新運用系システムのサービスに伴ったデータ書き込みのハードディスクの更新アドレスを記憶する手順と、
(14)前記(12)の手順のマージコピーが終了して、かつ、新運用系システムのサービスに伴ったデータ書き込みがないときに、前記(13)の手順の更新アドレスに基づいて、前記新運用系システムのサービスに伴って書き込まれたデータを、前記新待機系システムにコピーする手順と、
(15)前記(14)の手順のコピーが終了して、前記新運用系システムと前記新待機系システムのハードディスクのデータが全て一致したときに、前記新待機系システムを運用系システムに切り替え、前記新運用系システムを待機系システムに切り替えて、前記新待機系システムの復旧動作をおこなう手順と
を有することを特徴とする請求項1記載の計算機システムのストレージ制御方法。
The new operation system switched from the standby system is also a system having redundancy means for redundantly writing the same data to two or more hard disks,
When recovering a new standby system that has been switched from the active system,
(10) A procedure for storing an update address of a hard disk for data writing accompanying a service after switching to a new operation system;
(11) A procedure for interrupting the redundancy operation of the new active system and continuing the service of the new active system on one of the two or more hard disks;
(12) Merge copy from the other hard disk of the two or more hard disks of the new active system to the hard disk of the new standby system based on the update address of the procedure of (10);
(13) A procedure for storing an update address of a hard disk for data writing accompanying a service of the new active system during the merge copy of the procedure of (12),
(14) When the merge copy of the procedure of (12) is completed and there is no data write accompanying the service of the new operation system, the new copy is performed based on the update address of the procedure of (13). A procedure for copying the data written with the service of the active system to the new standby system;
(15) When the copying of the procedure of (14) is completed and the hard disk data of the new active system and the new standby system all match, the new standby system is switched to the active system, 2. The storage control method for a computer system according to claim 1, further comprising a procedure for switching the new active system to a standby system and performing a recovery operation of the new standby system.
待機系システムから切り替えられた新運用系システムも、二台以上のハードディスクに同一のデータを冗長化して書き込む冗長化手段を有するシステムであって、
運用系システムから切り替えられた新待機系システムの復旧動作をするときに、
(20)新待機系システムの保守時に更新されたデータのハードディスクの更新アドレスを記憶する手順と、
(21)新運用系システムに切り替えられた以降のサービスに伴ったデータ書き込みのハードディスクの更新アドレスを記憶する手順と、
(22)前記(21)の手順の更新アドレスの数が所定の数を超えるか否かを判断する手順と、
(24)前記新運用系システムの冗長化動作を中断して、前記二台以上のハードディスクの一方のハードディスクで新運用系システムのサービスを継続する手順と、
(25)前記(22)の手順で、更新アドレスの数が所定の数を超えた場合に、前記新運用系システムの二台以上のハードディスクの他の一方のハードディスクから前記新待機系システムのハードディスクの一方に、一括コピーする手順と、
(26)前記(25)の手順の一括コピーしている間の前記新運用系システムのサービスに伴ったデータ書き込みのハードディスクの更新アドレスを記憶する手順と、
(27)前記新待機系システムの一括コピーされたハードディスクに、他の一方のハードディスクのデータを、前記(20)の手順の保守時に更新された更新アドレスに基づいて、マージコピーする手順と、
(28)前記(27)の手順でマージコピーされた一方のハードディスクのデータを、前記新待機系システムの他の一方のハードディスクに一括コピーする手順と、
(29)前記(28)の手順のマージコピーが終了して、かつ、新運用系システムのサービスに伴ったデータ書き込みがないときに、前記(26)の手順の更新アドレスに基づいて、前記新運用系システムのサービスに伴って書き込まれたデータを、前記新待機系システムにコピーする手順と、
(30)前記(29)の手順のコピーが終了して、前記新運用系システムと前記新待機系システムのハードディスクのデータが全て一致したときに、前記新待機系システムを運用系システムに切り替え、前記新運用系システムを待機系システムに切り替えて、前記新待機系システムの復旧動作をおこなう手順と
を有することを特徴とする請求項1記載の計算機システムのストレージ制御方法。
The new operation system switched from the standby system is also a system having redundancy means for redundantly writing the same data to two or more hard disks,
When recovering a new standby system that has been switched from the active system,
(20) storing a hard disk update address of data updated during maintenance of the new standby system;
(21) a procedure for storing the update address of the hard disk for data writing accompanying the service after switching to the new active system;
(22) a procedure for determining whether or not the number of update addresses in the procedure of (21) exceeds a predetermined number;
(24) A procedure for interrupting the redundant operation of the new active system and continuing the service of the new active system on one of the two or more hard disks;
(25) When the number of update addresses exceeds a predetermined number in the procedure of (22), the hard disk of the new standby system is switched from the other one of the two or more hard disks of the new active system. To one of the steps,
(26) a procedure for storing an update address of a hard disk for data writing accompanying the service of the new active system during the batch copying of the procedure of (25);
(27) Merge copying the data of the other hard disk to the hard disk collectively copied of the new standby system based on the update address updated at the time of maintenance of the procedure of (20);
(28) A procedure for batch copying the data of one hard disk merge-copied in the procedure of (27) to the other hard disk of the new standby system;
(29) When the merge copy of the procedure of (28) is completed and there is no data write accompanying the service of the new operation system, the new copy is performed based on the update address of the procedure of (26). A procedure for copying the data written with the service of the active system to the new standby system;
(30) When the copy of the procedure of (29) is completed and the hard disk data of the new active system and the new standby system all match, the new standby system is switched to the active system, 2. The storage control method for a computer system according to claim 1, further comprising a procedure for switching the new active system to a standby system and performing a recovery operation of the new standby system.
前記(4)の手順のコピー中に、前記運用系システムのサービスによって、このコピー動作が長時間停止したときに、前記運用系システムのサービスを停止する処理を含むことを特徴とする請求項1記載の計算機システムのストレージ制御方法。2. The process of stopping the service of the active system when the copy operation is stopped for a long time by the service of the active system during copying of the procedure of (4). A storage control method for the described computer system. 前記(14)の手順のコピー中に、前記新運用系システムのサービスによって、このコピー動作が長時間停止したときに、前記新運用系システムのサービスを停止する処理を含むことを特徴とする請求項2記載の計算機システムのストレージ制御方法。The copy processing of (14) includes a process of stopping the service of the new operation system when the copy operation is stopped for a long time by the service of the new operation system. Item 3. A storage control method for a computer system according to Item 2. 前記(29)の手順のコピー中に、前記新運用系システムのサービスによって、このコピー動作が長時間停止したときに、前記新運用系システムのサービスを停止する処理を含むことを特徴とする請求項3記載の計算機システムのストレージ制御方法。The copy processing of (29) includes a process of stopping the service of the new operation system when the copy operation is stopped for a long time by the service of the new operation system. Item 4. A storage control method for a computer system according to Item 3. 運用系サーバと待機系サーバとを有する冗長化機能を有するサーバシステムにおいて、
前記運用系サーバは、二台以上のハードディスクに同一のデータを冗長化して書き込む冗長化手段を有し、
さらに、前記運用系サーバは、
この運用系サーバを予定停止するときに、前記運用系サーバの冗長化動作を中断して、前記二台以上のハードディスクの一方のハードディスクで運用系サーバのサービスを継続する手段と、
この運用系サーバの二台以上のハードディスクの他の一方のハードディスクから前記待機系サーバのハードディスクにコピーする手段と、
この運用系サーバのサービスに伴ったデータ書き込みのハードディスクの更新アドレスを記憶する手段と、
前記待機系サーバのハードディスクにコピーが終了して、かつ、運用系サーバのサービスに伴ったデータ書き込みがないときに、記憶された前記更新アドレスに基づいて、この運用系サーバのサービスに伴って書き込まれたデータを、前記待機系サーバにコピーする手段とを有し、
前記待機系サーバのハードディスクにコピーが終了して、前記運用系サーバと前記待機系サーバのハードディスクのデータが全て一致したときに、前記待機系サーバを運用系サーバに切り替え、前記運用系サーバを待機系サーバに切り替えて、前記運用系サーバの予定停止をおこなうことを有することを特徴とする冗長化機能を有するサーバシステム。
In a server system having a redundancy function having an active server and a standby server,
The operational server has redundant means for redundantly writing the same data to two or more hard disks,
Further, the operational server
Means for interrupting the redundancy operation of the active server and continuing the service of the active server with one of the two or more hard disks when the active server is scheduled to stop;
Means for copying from the other hard disk of the two or more hard disks of the active server to the hard disk of the standby server;
Means for storing the update address of the hard disk for data writing accompanying the service of the active server;
When the copying to the hard disk of the standby server is completed and there is no data writing associated with the service of the active server, writing is performed with the service of the active server based on the stored update address. Means for copying the received data to the standby server,
When copying to the hard disk of the standby server is completed and the hard disk data of the active server and the standby server all match, the standby server is switched to the active server and the active server is waited A server system having a redundancy function, characterized by switching to an active server and performing a scheduled stop of the active server.
待機系サーバから切り替えられた新運用系サーバも、二台以上のハードディスクに同一のデータを冗長化して書き込む冗長化手段を有し、
さらに、前記新運用系サーバは、
運用系サーバから切り替えられた新待機系サーバの復旧動作をするときに、新運用系サーバに切り替えられた以降のサービスに伴ったデータ書き込みのハードディスクの更新アドレスを記憶する手段と、
前記新運用系サーバの冗長化動作を中断して、前記二台以上のハードディスクの一方のハードディスクで新運用系サーバのサービスを継続する手段と、
前記新運用系サーバの二台以上のハードディスクの他の一方のハードディスクから前記新待機系サーバのハードディスクに、前記更新アドレスに基づいて、マージコピーする手段と、
前記マージコピーしている間の前記新運用系サーバのサービスに伴ったデータ書き込みのハードディスクの更新アドレスを、フラグつき更新アドレスとして記憶する手段と、
前記マージコピーが終了して、かつ、新運用系サーバのサービスに伴ったデータ書き込みがないときに、前記フラグつき更新アドレスに基づいて、前記新運用系サーバのサービスに伴って書き込まれたデータを、前記新待機系サーバのハードディスクにコピーする手段とを有し、
前記新待機系サーバのハードディスクへのコピーが終了して、前記新運用系サーバと前記新待機系サーバのハードディスクのデータが全て一致したときに、前記新待機系サーバを運用系サーバに切り替え、前記新運用系サーバを待機系サーバに切り替えて、前記新待機系サーバの復旧動作をおこなうことを特徴とする請求項7記載の冗長化機能を有するサーバシステム。
The new active server switched from the standby server also has redundant means for redundantly writing the same data to two or more hard disks,
Furthermore, the new operational server
Means for storing the update address of the hard disk for data writing accompanying the service after switching to the new active server when performing the recovery operation of the new standby server switched from the active server;
Means for interrupting the redundancy operation of the new active server and continuing the service of the new active server on one of the two or more hard disks;
Means for performing a merge copy from the other hard disk of the two or more hard disks of the new active server to the hard disk of the new standby server based on the update address;
Means for storing, as a flagged update address, an update address of a hard disk for data writing accompanying the service of the new active server during the merge copy;
When the merge copy is completed and there is no data writing associated with the service of the new active server, the data written with the service of the new active server is determined based on the flagged update address. And means for copying to the hard disk of the new standby server,
When copying to the hard disk of the new standby server is completed and the hard disk data of the new active server and the new standby server all match, the new standby server is switched to the active server, 8. The server system having a redundancy function according to claim 7, wherein the new active server is switched to a standby server and the recovery operation of the new standby server is performed.
待機系サーバから切り替えられた新運用系サーバも、二台以上のハードディスクに同一のデータを冗長化して書き込む冗長化手段を有するシステムであって、
前記新運用系サーバは、
運用系サーバから切り替えられた新待機系サーバの復旧動作をするときに、この新運用系サーバに切り替えられた以降のサービスに伴ったデータ書き込みのハードディスクの更新アドレスを記憶する手段と、
前記更新アドレスの数が所定の数を超えるか否かを判断する手段と、
この新運用系サーバの冗長化動作を中断して、前記二台以上のハードディスクの一方のハードディスクで新運用系サーバのサービスを継続する手段と、
前記更新アドレスの数が所定の数を超えた場合に、この新運用系サーバの二台以上のハードディスクの他の一方のハードディスクから前記新待機系サーバのハードディスクの一方に、一括コピーする手段と、
一括コピーしている間のこの新運用系サーバのサービスに伴ったデータ書き込みのハードディスクの更新アドレスを、フラグつき更新アドレスとして記憶する手段とを有し、
前記新待機系サーバは、
新待機系サーバの保守時に更新されたデータのハードディスクの更新アドレスを、保守時更新アドレスとして記憶する手段と、
前記新運用系サーバから一括コピーされたハードディスクに、他の一方のハードディスクのデータを、前記保守時に更新された保守時更新アドレスに基づいて、マージコピーする手段と、
マージコピーされた一方のハードディスクのデータを、この新待機系サーバの他の一方のハードディスクに一括コピーする手段とを有し、
さらに、前記新運用系サーバは、
前記新待機系サーバでおこなわれるマージコピーが終了して、かつ、この新運用系サーバのサービスに伴ったデータ書き込みがないときに、前記フラグつき更新アドレスに基づいて、この新運用系サーバのサービスに伴って書き込まれたデータを、前記新待機系サーバにコピーする手段を有し、
前記新待機系サーバへのコピーが終了して、前記新運用系サーバと前記新待機系サーバのハードディスクのデータが全て一致したときに、前記新待機系サーバを運用系サーバに切り替え、前記新運用系サーバを待機系サーバに切り替えて、前記新待機系サーバの復旧動作をおこなうことを特徴とする請求項7記載の冗長化機能を有するサーバシステム。
The new active server switched from the standby server is also a system having redundant means for redundantly writing the same data to two or more hard disks,
The new operational server is
Means for storing the update address of the hard disk for data writing accompanying the service after switching to the new active server when performing the recovery operation of the new standby server switched from the active server;
Means for determining whether the number of the update addresses exceeds a predetermined number;
Means for interrupting the redundancy operation of the new active server and continuing the service of the new active server with one of the two or more hard disks;
Means for batch copying from the other hard disk of the two or more hard disks of the new active server to one of the hard disks of the new standby server when the number of the update addresses exceeds a predetermined number;
Means for storing, as a flagged update address, the update address of the hard disk for data writing accompanying the service of the new active server during batch copying;
The new standby server is:
Means for storing a hard disk update address of data updated during maintenance of the new standby server as a maintenance update address;
Means for performing a merge copy on the hard disk collectively copied from the new active server, based on the maintenance update address updated during the maintenance, on the data of the other hard disk;
Means for collectively copying the data of one of the hard disks merged and copied to the other hard disk of the new standby server;
Furthermore, the new operational server
When the merge copy performed at the new standby server is completed and there is no data write accompanying the service of the new active server, the service of the new active server is based on the flagged update address. Means for copying the data written along with the new standby server,
When copying to the new standby server is completed and the hard disk data of the new active server and the new standby server all match, the new standby server is switched to the active server, and the new operation 8. The server system having a redundancy function according to claim 7, wherein a recovery operation of the new standby server is performed by switching the standby server to a standby server.
運用系サーバがN台(N≧1)で、待機系サーバが一台で構成されたこと特徴とする請求項7記載の冗長化機能を有するサーバシステム。8. The server system having a redundancy function according to claim 7, wherein there are N active servers (N ≧ 1) and one standby server. 前記運用系サーバのハードディスク以外の障害が発生したときに、障害が発生した運用系サーバのハードディスクから、前記待機系サーバのハードディスクにコピーする手段を有し、
コピーが終了したときに、前記待機系サーバを運用系サーバに切り替えることを特徴とする請求項7記載の冗長化機能を有するサーバシステム。
When a failure other than the hard disk of the active server occurs, means for copying from the hard disk of the active server where the failure has occurred to the hard disk of the standby server,
8. The server system having a redundancy function according to claim 7, wherein when the copying is completed, the standby server is switched to an active server.
前記運用系サーバと前記待機系サーバとは、同一シャーシ上に搭載され、
隣接する前記運用系サーバのハードディスクと前記待機系サーバのハードディスクとは、他の隣接する前記運用系サーバのハードディスクと前記待機系サーバのハードディスクと高速専用バスで接続され、
前記運用系サーバのハードディスクと前記待機系サーバのハードディスク間で、コピーが必要になったときに、
各運用系サーバと待機系サーバとでのコピー制御の動作を判断し、前記高速専用バスで、コピーをおこなうか、コピー制御の中継をおこなうかを切り替えて制御することを特徴とする請求項7および請求項9記載のいずれかの冗長化機能を有するサーバシステム。
The active server and the standby server are mounted on the same chassis,
The hard disk of the adjacent active server and the hard disk of the standby server are connected to the hard disk of the other adjacent active server and the hard disk of the standby server via a high-speed dedicated bus,
When copying is required between the hard disk of the active server and the hard disk of the standby server,
8. The copy control operation between each active server and standby server is determined, and control is performed by switching whether to perform copying or to perform copy control relay using the high-speed dedicated bus. A server system having the redundancy function according to claim 9.
JP2003206404A 2003-08-07 2003-08-07 Storage control method and server system with redundancy function Pending JP2005055995A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003206404A JP2005055995A (en) 2003-08-07 2003-08-07 Storage control method and server system with redundancy function

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003206404A JP2005055995A (en) 2003-08-07 2003-08-07 Storage control method and server system with redundancy function

Publications (1)

Publication Number Publication Date
JP2005055995A true JP2005055995A (en) 2005-03-03

Family

ID=34363280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003206404A Pending JP2005055995A (en) 2003-08-07 2003-08-07 Storage control method and server system with redundancy function

Country Status (1)

Country Link
JP (1) JP2005055995A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285808A (en) * 2005-04-04 2006-10-19 Hitachi Ltd Storage system
JP2007066216A (en) * 2005-09-02 2007-03-15 Hitachi Ltd Boot reconfiguration method
KR100740850B1 (en) 2005-03-17 2007-07-20 후지쯔 가부시끼가이샤 Error notification method and informationn processing apparatus
JP2007328595A (en) * 2006-06-08 2007-12-20 Nec Corp Server system, and synchronization method for the system
JP2008108019A (en) * 2006-10-25 2008-05-08 Hitachi Ltd Blade server system
JPWO2006100723A1 (en) * 2005-03-18 2008-08-28 富士通株式会社 File management system
JP2010033398A (en) * 2008-07-30 2010-02-12 Internatl Business Mach Corp <Ibm> Acting-proxy system including acting system for processing transaction and proxy system being backup system for the acting system
JP2011096275A (en) * 2010-12-17 2011-05-12 Fujitsu Ltd File management system
JP2013016194A (en) * 2012-09-18 2013-01-24 Hitachi Ltd Boot configuration change method
US8972777B2 (en) 2012-03-30 2015-03-03 Fujitsu Limited Method and system for storage management
US11010269B2 (en) 2017-06-15 2021-05-18 Hitachi, Ltd. Distributed processing system and method for management of distributed processing system

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100740850B1 (en) 2005-03-17 2007-07-20 후지쯔 가부시끼가이샤 Error notification method and informationn processing apparatus
JPWO2006100723A1 (en) * 2005-03-18 2008-08-28 富士通株式会社 File management system
JP5184078B2 (en) * 2005-03-18 2013-04-17 富士通株式会社 File management system
JP2006285808A (en) * 2005-04-04 2006-10-19 Hitachi Ltd Storage system
JP4701929B2 (en) * 2005-09-02 2011-06-15 株式会社日立製作所 Boot configuration change method, management server, and computer system
JP2007066216A (en) * 2005-09-02 2007-03-15 Hitachi Ltd Boot reconfiguration method
JP2007328595A (en) * 2006-06-08 2007-12-20 Nec Corp Server system, and synchronization method for the system
JP2008108019A (en) * 2006-10-25 2008-05-08 Hitachi Ltd Blade server system
JP2010033398A (en) * 2008-07-30 2010-02-12 Internatl Business Mach Corp <Ibm> Acting-proxy system including acting system for processing transaction and proxy system being backup system for the acting system
JP2011096275A (en) * 2010-12-17 2011-05-12 Fujitsu Ltd File management system
US8972777B2 (en) 2012-03-30 2015-03-03 Fujitsu Limited Method and system for storage management
JP2013016194A (en) * 2012-09-18 2013-01-24 Hitachi Ltd Boot configuration change method
US11010269B2 (en) 2017-06-15 2021-05-18 Hitachi, Ltd. Distributed processing system and method for management of distributed processing system

Similar Documents

Publication Publication Date Title
US7360047B2 (en) Storage system, redundancy control method, and program
CN101488077B (en) Redundancy magnetic disk control server system
JP2011060055A (en) Virtual computer system, recovery processing method and of virtual machine, and program therefor
US20060179218A1 (en) Method, apparatus and program storage device for providing geographically isolated failover using instant RAID swapping in mirrored virtual disks
WO2012112308A1 (en) Power failure management in components of storage area network
KR20110044858A (en) Maintain data indetermination in data servers across data centers
JPH09231016A (en) Method and device for production of data snap shot copy in raid storage subsystem
CN110912991A (en) Super-fusion-based high-availability implementation method for double nodes
CN104536971A (en) High-availability database
US20200042416A1 (en) Information processing system, information processing system management method, and program thereof
JP2006227964A (en) Storage system, processing method and program
US11409471B2 (en) Method and apparatus for performing data access management of all flash array server
JP2005055995A (en) Storage control method and server system with redundancy function
CN113254275A (en) MySQL high-availability architecture method based on distributed block device
CN113961397A (en) High-availability cluster disaster tolerance method based on backup disaster tolerance system
CN101686261A (en) RAC-based redundant server system
US9542273B2 (en) Storage control apparatus, storage control system, and storage control method for failure detection and configuration of cascaded storage cabinets
JP6335336B2 (en) Storage system and control method thereof
CN111240903A (en) Data recovery method and related equipment
JP2006114064A (en) Storage subsystem
JP2009265973A (en) Data synchronization system, failure recovery method, and program
JP2006058960A (en) Synchronization method and system in redundant configuration server system
US9158666B2 (en) Computer system and computer system information storage method
JPH09293001A (en) Non-stop maintenance system
JP2008276281A (en) Data synchronization system, method, and program