JP2012248128A - ホットスタンバイシステム及びデータ冗長化方法 - Google Patents
ホットスタンバイシステム及びデータ冗長化方法 Download PDFInfo
- Publication number
- JP2012248128A JP2012248128A JP2011121181A JP2011121181A JP2012248128A JP 2012248128 A JP2012248128 A JP 2012248128A JP 2011121181 A JP2011121181 A JP 2011121181A JP 2011121181 A JP2011121181 A JP 2011121181A JP 2012248128 A JP2012248128 A JP 2012248128A
- Authority
- JP
- Japan
- Prior art keywords
- server blade
- standby
- blade
- server
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
【課題】
本発明の課題は秒単位で復帰可能な二重化システムの構築を可能とすることである。
【解決手段】
主系と待機系のサーバブレードと外部記憶装置において、主系のサーバブレードが外部記憶装置に不揮発性メモリの内容を常に書き出す。待機系のサーバブレードは主系のサーバブレードをpingによって監視し、障害を検知した場合に不揮発性メモリの内容・構成を外部記憶装置から読込み復帰する。
【選択図】 図1
本発明の課題は秒単位で復帰可能な二重化システムの構築を可能とすることである。
【解決手段】
主系と待機系のサーバブレードと外部記憶装置において、主系のサーバブレードが外部記憶装置に不揮発性メモリの内容を常に書き出す。待機系のサーバブレードは主系のサーバブレードをpingによって監視し、障害を検知した場合に不揮発性メモリの内容・構成を外部記憶装置から読込み復帰する。
【選択図】 図1
Description
本発明は計算機システムにおける冗長化が組まれた情報処理装置に関し、特に、冗長化のためのデータバックアップ装置を情報処理装置の外部に配置するホットスタンバイシステムと、冗長化のためのデータをCPUから直接外部記憶装置へ接続する形態のデータ冗長化方法に関する。
計算機システムでは、一般的に情報処理装置の障害に備えてハードウェアの二重化を行う。その二重化の方式には、コールドスタンバイ、ホットスタンバイが存在する。コールドスタンバイとは同構成のシステムを2系統用意し、そのうちの片方(主系)を動作させ、もう一方(待機系)を主系のダウン時のために未動作状態で待機させておく方式である。ホットスタンバイとは、コールドスタンバイの待機系を動作状態で待機させておく方式である。コールドスタンバイは、ホットスタンバイに比べて主系と待機系の同期が不要なのでコストが安いが、その分システム停止時間が長く、信頼性は低い。
ホットスタンバイの技術概要として、特許文献1に示される、通信パケットを主系と待機系に送信し、主系の障害時には待機系が通信パケット番号を引き継ぐものがある。このように一般的に1つの情報を複数個所に記録させる技術が一般的である。
また、ホットスタンバイの技術においてハードウェアの観点では、特許文献2に示される、システム内部でメモリの情報をミラーリングするものがある。これはCPUの情報をメモリコントローラ経由で複数のメモリへコピーすることで、メモリ情報のホットスタンバイを行っている。メモリコントローラでは情報のエラー検出を行っている。
このように、一般技術としては、CPUからのデータをメモリコントローラ経由でメモリに格納している。
さて、前述のコールドスタンバイ技術を作用したブレードシステムが知られている。これは、主系の情報をSVPと呼ばれる管理機器にコピーしておき、主系障害時には待機系にSVPから主系の情報をコピーし使用する復帰する。
また、コールドスタンバイ関連技術として特許文献3に示す技術がある。これは、コールドスタンバイ構成に支障をきたすことなく、待機系ブレードのメンテナンスを自動的に行う機能を持つブレードサーバシステムを提供するものである。
従来の二重化技術であるコールドスタンバイの主系・待機系への切り替え時間は数十秒単位であり、秒単位の切り替えができない問題がある。またホットスタンバイではメモリのみのホットスタンバイ技術であり、サーバ単位のホットスタンバイではない。
そこで、本発明の目的はホットスタンバイによりサーバ単位での主系から待機系の切り替えを可能とすることである。
主系サーバと、それと同様のハードウェア構成の待機系サーバと、各サーバのCPUとデータの送受信可能であるSSDにおいて、二重化に対する課題を次の手段で解決する。ここで、読み書き速度が高速なSSDを使用することで、HDDでは不可能である、メモリと記憶装置のミラーリングが可能となる。
まず、主系、待機系それぞれのCPUのデータパスをSSDと接続しておき、データの読み書きを可能な状態にしておく。そして、主系は障害発生時、障害直前の状態に復帰させるため常にメモリへ書き込む情報を、ホットスタンバイプログラムがミラーリング動作を行い常にSSDへ書き込む。待機系は主系の状態を監視し、障害を検知した場合、あるいは手動で系切り替えの指示が出された時、SSDに書き込まれている内容を待機系のメモリにロードし、動作を開始する。
本発明によれば、主系の障害を待機系が検知、あるいは手動で系切り替えを行ったタイミングに、秒単位のオーダーで待機系に切り替る。これより分単位から秒単位で待機系への切り替えが可能になる。
以下、本発明を適用したサーバブレードシステムについて、図面を参照して詳細に説明する。
図1は、二重化されたブレードシステムである。サーバブレード1は、二重化するシステムの主系である。サーバブレード2は、二重化するシステムの待機系である。I/O拡張装置3とは、サーバブレード1及びサーバブレード2とSSD4とを接続するための装置である。SSD4は、サーバブレード1の外部に存在し、主系のメモリ内容をバックアップするための記憶装置である。ストレージ5とは、OS・データを格納しているストレージである。FCSW6とは、ストレージ5とサーバブレード1とサーバブレード2とを接続するための中継器である。LANSW7とは、サーバブレード1とサーバブレード2とを接続するための中継器である。TPケーブル8、銅線ケーブル9、及び光ファイバーケーブル10は、それぞれサーバブレード間接続、SSD接続、ストレージ接続のためのものである。
そして、サーバブレード1は、プログラムを実行するCPU21、プログラムなどの動作データ33を一時的に記憶する揮発性メモリ25、LAN通信のためのNIC23、FCネットワーク、SSD4との通信に必要なPCI-Eインタフェース24、ホットスタンバイプログラム31とホットスタンバイプログラム用データベース32を有する不揮発性メモリ22を有する。また、サーバブレード2も、サーバブレード1と同様の構成を有する。
以上の各装置と、図2のフローチャート、図3を用い、ホットスタンバイシステム及びデータ冗長化方法を以下に説明する。
まず、サーバブレードのCPUは、起動後に、不揮発性メモリ22に記憶されているホットスタンバイプログラム31を実行する(ステップ41)。
サーバブレード1は、主系であるかの質問に対し、外部入力によりYESと答えることにより、主系として動作する(ステップ42)。
主系として動作するサーバブレード1は、揮発性メモリ25に格納される動作データ33を、CPU21からSSD4へ直接常に書き込むよう動作する(ステップ43)。即ち、SSD4に書き込まれるデータとサーバブレード1の揮発性メモリ25に格納されるデータとは、常にミラーリングされた状態とされている。
サーバブレード2は、主系であるかの質問に対し、外部入力によりNOと答えることにより、待機系として動作する(ステップ42)。
待機系として動作するサーバブレード2は、ホットスタンバイプログラムがホットスタンバイプログラム用データベースに監視対象のサーバブレード番号を書き込むことで設定される(ステップ44)。
監視対象のサーバブレードという設定情報は、図3に示すホットスタンバイプログラム用データベース32に格納される。待機系のサーバブレードは、主系のサーバブレード1へpingを例えば0.1秒間隔で行い、動作しているか確認する(ステップ45)。なお、pingの間隔は0.1秒に限定されるものではない。
動作している場合は、pingによるチェックにもどる(ステップ45)。
pingの応答がで無かった場合、サーバブレード1に障害が発生したと判断し、サーバブレード2は、SSD4に格納してあった主系の不揮発性メモリのデータを、待機系の不揮発性メモリに読込み動作を開始する(ステップ46)。なお、サーバブレード1に障害が発生したと判断する基準は、例えばpingの応答が3連続で無かった場合としてもよく、pingの無応答の回数について特に限定されない。
これにより、待機系のサーバブレード2は、主系のサーバブレード1のデータ・構成情報を引き継ぎ、サーバブレード1と同様に動作する。
1 主系のサーバーブレード、2 待機系のサーバーブレード、3 I/O拡張装置、4 SSD
Claims (5)
- CPU及びメモリを有するブレードサーバを複数備えるサーバブレードシステムにおいて、
前記サーバブレードと接続される記憶装置を有し、
主系となるサーバブレードは、
前記メモリに格納されるデータを、前記記憶装置に常に転送し、
待機系となるサーバブレードは、
前記主系のサーバブレードの障害有無を監視し、
前記主系のサーバブレードに障害が発生した場合、前記記憶装置から前記主系のサーバブレードにより転送されたデータを読み出し、
前記読み出したデータを前記待機系のメモリに格納し、
前記格納したデータに基づいて前記主系のサーバブレードの業務を引き継ぐ
ことを特徴とするサーバブレードシステム。 - 前記サーバブレードと接続される記憶装置は、SSDであることを特徴とする請求項1記載のサーバブレードシステム。
- 前記ブレードサーバが有するメモリは、揮発性メモリであることを特徴とする請求項1記載のサーバブレードシステム。
- 前記待機系のサーバブレードによる障害有無の監視では、
前記待機系のサーバブレードから前記主系のサーバブレードへpingを行い、
前記主系のサーバブレードからのping応答の有無を確認する
ことを特徴とする請求項1記載のサーバブレードシステム。 - 前記サーバブレードは、記憶装置へのデータ転送速度が揮発性メモリへのデータ転送速度以上であり、
前記記憶装置は、揮発性メモリの読み書き速度以上であること
を特徴とする請求項1記載のサーバブレードシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011121181A JP2012248128A (ja) | 2011-05-31 | 2011-05-31 | ホットスタンバイシステム及びデータ冗長化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011121181A JP2012248128A (ja) | 2011-05-31 | 2011-05-31 | ホットスタンバイシステム及びデータ冗長化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012248128A true JP2012248128A (ja) | 2012-12-13 |
Family
ID=47468489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011121181A Withdrawn JP2012248128A (ja) | 2011-05-31 | 2011-05-31 | ホットスタンバイシステム及びデータ冗長化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012248128A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114189429A (zh) * | 2021-11-25 | 2022-03-15 | 山东云海国创云计算装备产业创新中心有限公司 | 一种服务器集群故障的监测系统、方法、装置及介质 |
-
2011
- 2011-05-31 JP JP2011121181A patent/JP2012248128A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114189429A (zh) * | 2021-11-25 | 2022-03-15 | 山东云海国创云计算装备产业创新中心有限公司 | 一种服务器集群故障的监测系统、方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10146472B2 (en) | Tertiary storage unit management in bidirectional data copying | |
JP6827501B2 (ja) | ホットバックアップシステム、ホットバックアップ方法、及びコンピュータ機器 | |
US8498967B1 (en) | Two-node high availability cluster storage solution using an intelligent initiator to avoid split brain syndrome | |
JP5352115B2 (ja) | ストレージシステム及びその監視条件変更方法 | |
US7793060B2 (en) | System method and circuit for differential mirroring of data | |
TWI453592B (zh) | 利用儲存區域網路回復電腦系統的系統及方法 | |
JP5286212B2 (ja) | ストレージクラスタ環境でのリモートコピー制御方法及びシステム | |
WO2017071274A1 (zh) | 双活集群系统中容灾的方法及装置 | |
US9734028B2 (en) | Reverse resynchronization by a secondary data source when a data destination has more recent data | |
JP2007164769A (ja) | ミラーリングされたシステム内の障害を管理するための方法、システム、およびプログラム(ミラーリングされたシステム内の障害の管理) | |
CN104794028A (zh) | 一种容灾处理方法、装置、主用数据中心和备用数据中心 | |
US20070180308A1 (en) | System, method and circuit for mirroring data | |
CN109783280A (zh) | 共享存储系统和共享存储方法 | |
JP2005196490A (ja) | データ多重化のためのシステム及び方法 | |
CN111158955B (zh) | 一种基于卷复制的高可用系统以及多服务器数据同步方法 | |
JP6540202B2 (ja) | 情報処理システム、制御装置および制御プログラム | |
JP5287974B2 (ja) | 演算処理システム、再同期方法、およびファームプログラム | |
CN109117317A (zh) | 一种集群故障恢复方法和相关装置 | |
JP2009098988A (ja) | フォルトトレラントコンピュータシステム | |
JP2012248128A (ja) | ホットスタンバイシステム及びデータ冗長化方法 | |
JP4822024B2 (ja) | フォールトトレラントサーバ、フルバックアップ方法、およびフルバックアッププログラム | |
JP2016143248A (ja) | ストレージ制御装置及びストレージ制御プログラム | |
US7587628B2 (en) | System, method and computer program product for copying data | |
CN117785568B (zh) | 一种双主双机热备方法及装置 | |
JP7371547B2 (ja) | ノード、ミラーリング型クラスタシステム、リストア検出方法、及び、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140805 |