JP2013037433A - サーバ、サーバシステムおよびサーバの冗長切り替え方法 - Google Patents
サーバ、サーバシステムおよびサーバの冗長切り替え方法 Download PDFInfo
- Publication number
- JP2013037433A JP2013037433A JP2011171028A JP2011171028A JP2013037433A JP 2013037433 A JP2013037433 A JP 2013037433A JP 2011171028 A JP2011171028 A JP 2011171028A JP 2011171028 A JP2011171028 A JP 2011171028A JP 2013037433 A JP2013037433 A JP 2013037433A
- Authority
- JP
- Japan
- Prior art keywords
- server
- servers
- standby
- active
- virtual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1482—Generic software techniques for error detection or fault masking by means of middleware or OS functionality
- G06F11/1484—Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2046—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2048—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2097—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated
Abstract
【解決手段】制御サーバ300は、データの生成、削除、参照を伴うアプリケーションが運用されるOS200、210、220が稼働する複数の現用系サーバの運用状態を監視する手段と、前記現用系物理サーバのOS200、210、220と、ホストOS240上で前記現用系サーバのOSに対応するゲストOS242、244、246が稼働する待機系サーバとのデータを同期する手段と、前記監視する手段が前記現用系物理サーバの一つの運用状態の障害を検出したとき、対応する前記ゲストOS242、244、246の上で、前記現用系物理サーバの一つで運用されていたアプリケーションを起動し、障害が検出された現用系サーバから待機系サーバの対応するゲストOS242、244、246に系を切り替える手段と、を含む。
【選択図】図3
Description
また、現用系と待機系の二重化構成を取る一組の物理サーバにおいて、正常運転時に待機系をコールドスタンバイ状態で運用していれば、障害が発生した後に待機系にコンフィグ情報を転送してから通信用のアプリケーションを起動することになるため長時間の通信断、サービスの中断を発生させていた。また、障害発生から待機系の運用開始まで時間が掛かるという問題があった。
(比較例)
図1は、サーバシステム(網間ゲートウェイサーバおよびネットワーク機器運用制御サーバ)が用いられるシステムを示す図、図2〜6は、冗長構成を備えるサーバシステム、およびそのサーバシステムにおける系の切替方法、特に障害回復方法の比較例である。
図2に示されているサーバシステム100は、冗長構成を構築する、それぞれオペレーティングシステム(OS)200、210、220、230が稼動する通信サーバと制御サーバ300を含み、通信サーバと制御サーバ300は一つの筐体内に収容されている。OS200、210、220、230が稼動する複数のサーバのうちの3つのOS200、210、220が稼動するサーバが現用系サーバ、残りの一つのOS230が稼動し得るサーバが待機系サーバである。待機系(予備系)のサーバは、通信機器100が正常に動作している間は、コールドスタンバイ状態にあるので、障害が発生した直後の状態である図2の(A)では、OS230は破線で示されている。OS200、210、220のそれぞれの上では、通信アプリケーション2002、2102、2202が稼動している。これら通信アプリケーション2002、2102、2202はそれぞれ、通信アプリケーション用のデータ2004、2104、2204を生成、利用しながら運用される。
上述の方法では、制御サーバが現用系サーバの一つに障害を検出した後に,待機系サーバにコンフィグ情報を転送してから通信用のアプリケーションを起動することになる。そのため長時間の通信断・サービス断を発生させていた。
図3〜10を参照して、本発明の一実施例に従うサーバシステム(網間ゲートウェイサーバもしくはネットワーク機器運用制御サーバ)110の構成を説明する。サーバシステム(以下、単に装置とも呼ぶ)110はN+1冗長構成(以下、単に冗長構成とも呼ぶ)を備える。また、サーバシステム110も、図1中の網間ゲートウェイサーバ100またはネットワーク機器運用制御サーバ130として用いられる。
1)経路情報(LSA等)、
2)ARPキャッシュテーブル、
3)ネイバーキャッシュテーブル、
4)TCP/UDPセッション情報、
5)HTTP/HTTPSコネクション情報、
6)NATアドレスマッピング情報、
7)QoS均等割り当て帯域情報、
8)ファイアーウォール用アクセス禁止情報(フィルタリング情報)
9)フローテーブル、
10)各種統計情報、
11)装置状態。
NATアドレスマッピング情報とは、NAT(Network Address Translation)を用いたアドレス間の対応に関する情報である。一般には、プライベートIPアドレスとグローバルIPアドレスを対応付けするための情報である。IPv4およびIPv6に準拠するNATアドレスマッピング情報を含むデータの例は、それぞれ図9および10に示されている。
フローテーブルとは特定のIPアドレスやポート番号、MACアドレス、MPLSラベル、入力ポートなどを組み合わせることによってデータの流れを表現した情報である。
装置状態としては、消費電力、CPU稼働率、CPU温度などサーバとしての動作を特徴付ける量であれば任意の量であって良い。
このような構成を有することによって、サーバシステムは、単一の物理サーバの障害によってシステム全体が停止することはないという利点を有する。また、現用系サーバは仮想化されていないので、正常運転時には仮想化によるオーバーヘッドが存在しないという利点を有する。さらに、正常時に待機系サーバでは、ゲストOSが稼動し、現用系サーバとアプリケーションのデータについて同期しているので、ホットスタンバイに比べて消費電力を抑えることができる。また、高可用性を実現することができる。さらに、アプリケーションとしては二重化対応のみを意識すればよいので、アプリケーションコストの開発が容易であり、これはアプリケーション自体およびアプリケーションが動作するシステムの信頼性を高めることができる。また、冗長構成によるコストメリットを実現するとともにネットワークの高信頼化を実現することができる。
図11を参照して、仮想化機能を利用した冗長構成を備えるサーバシステム110における障害回復処理を説明する。
1)仮想サーバ内ネットワーク経由での同期、
2)メモリマップによる同期、
3)共有ディスクによる同期、
4)上記1)〜3)の少なくとも二つの組み合わせによる同期、
を挙げることができる。
上記4つの方法のうち第一の方法を除く同期方法は、現用系サーバと待機系サーバの間でのデータの同期を行う同期手段とは別の引継手段によって行われても良い。つまり、引継手段では、仮想化されたサーバにおいて、ホストOS上に置かれるデータとゲストOS上に置かれるデータ間の同期を行うものとする。
上記のような処置によって、従来は時として、障害の発生時に現用系から待機系へのデータ設定から再起動まで、数十秒〜数分の通信の中断が発生することがあったが、性能低下を伴わずに数秒以内で切り替えをすることができる。
図12〜23を参照して、サーバシステム110およびサーバシステム110での障害回復方法について説明する。
まず、図12〜16を参照して、サーバシステム110の構成について説明する。サーバシステム110は、図1の網間ゲートウェイサーバ100またはネットワーク機器運用制御サーバ130として機能する。
サーバシステム110は、現用系サーバ1202、1204、1206、および待機系(予備系)のサーバ1208を含む。各サーバ上では、それぞれホストOS200、210、220、230が稼動している。現用系サーバ1202、1204、1206では、ホストOS200、210、220、230の上で直接、アプリケーション2002a〜2002b、2102a〜2102d、2202が稼動する。一方、待機系サーバ1208では、ホストOS230上に仮想化機構を用いて実現された3つの仮想計算機1214、1216、1218が構築され、それぞれゲストOS242、244、246が稼動している。さらに、3つのゲストOS242、244、246上で、それぞれフローエンジン(ミドルウェア)2424、2444、2464とアプリケーション2002a〜2002b、2102a〜2102d、2202が稼動する。つまり、アプリケーション2002a〜2002b、2102a〜2102d、2202は二重化に対応している。本実施例で、ホストOSはLinuxである。しかしながら、ホストOSはLinux(登録商標)には限定されない。また、現用系サーバと待機系サーバのホストOSが同一である必要もないし、複数の現用系サーバのホストOSが同一である必要もなく、同一APIを提供するOSであれば良い。
図14は、図12、13のようなシステム構成を有するブレードサーバ400を示している。ブレードサーバ400では、ブレード筐体410内に複数のブレード(図14では4枚のブレード)402、404、406、408が搭載されている。図示されていないが、制御サーバ300の機能を果たすシャーシマネージメントモジュール(CMM)も搭載されていても良い。ブレード402、404、406、408は、ブレード筐体410に抜き差し可能に構成され、ラックに比べて省スペースを図ることが可能である。ブレードサーバ400内の各ブレードはCPUを備えるN+1冗長構成を有する。各ブレード402、404、406、408にはネットワーク接続用の端子、たとえばイーサネット(Ethernet)(登録商標)規格に準拠した端子が設けられている。
ATCAサーバ500は、ATCA筐体502、シングルボードコンピュータ(SBC)ブレードまたはパケットプロセッシングボード(PBB)ブレード504、506、508、510、512、514、516、518、シャーシマネージメントモジュール(CMM)520のほか、図示されていない、RTM(Rear Transition Module)等を含み得る。SBCブレードは、CPUを搭載するブレードであり、PBBブレードはパケット処理を行う。図15に示されているATCAサーバ500は、SBCブレードまたはPBBブレードを8枚搭載し、これらのブレードがN+1冗長構成を構築する。RTMは、ブレードとペアで実装される拡張モジュールで、ハードディスクやファイバーチャネル、IP回線などの入出力(I/O)回路を実装する。ATCA筐体502は、前述の各ユニットを搭載する筐体である。CMM520は、ATCA筐体502に搭載された各ユニットの状態監視や制御を行う。CMM520はまた、制御サーバ300の機能を実行し得る。
図17〜23を参照しながら、サーバシステム110における障害回復処理について説明する。
そしてS112で、待機系サーバ1208は、ホストOS230上で稼動している仮想サーバ1214、1216、1218をシャットダウンする。この仮想サーバのシャットダウンは、制御サーバ300または仮想化手段が備えるシャットダウン手段によって実行される。
(付記1)
データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバの運用状態を監視する監視手段と、
前記現用系物理サーバと、前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバ上の前記現用系物理サーバに対応する前記仮想サーバの一つとの間で前記データの同期を行う同期手段と、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、
を含む制御サーバ。
(付記2)
前記切替手段は、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させる引継手段と、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
を含む付記1の制御サーバ。
(付記3)
さらに、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、付記1または2の制御サーバ。
(付記4)
前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切替手段は、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
請求項1または2の制御サーバ。
(付記5)
データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバの運用状態を監視することと、
前記現用系物理サーバと、前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバ上の前記現用系物理サーバに対応する前記仮想サーバの一つとの間で前記データの同期を行うことと、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行うことと、
を含む障害回復制御方法。
(付記6)
前記切り替えを行うことは、さらに、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させることと、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系サーバへ系の切り替えを行うことと、
を含む付記5の障害回復制御方法。
(付記7)
さらに、前記仮想サーバの少なくとも一つをシャットダウンすることを含む、付記5または6の障害回復制御方法。
(付記8)
前記監視することは、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切り替えを行うことは、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
付記5または6の障害回復制御方法。
(付記9)
データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバと、
仮想サーバを提供する仮想化手段と、前記仮想化手段によって提供される前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバと、
前記現用系物理サーバの運用状態を監視する監視手段と、
前記現用系物理サーバとそれに対応する前記仮想サーバの間で前記データの同期を行う同期手段と、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、
を含む制御サーバと、
を含むサーバシステム。
(付記10)
前記切替手段は、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させる引継手段と、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
を含む付記9のサーバシステム。
(付記11)
データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバと、
仮想サーバを提供する仮想化手段と、前記仮想化手段によって提供される前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバと
前記現用系物理サーバの運用状態を監視する監視手段と、前記現用系物理サーバとそれに対応する前記仮想サーバの間で前記データの同期を行う同期手段を含み、前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、含む制御サーバと、
前記待機系物理サーバの上のデータを前記待機系サーバ上に同期させる引継手段と、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
を含むサーバシステム。
(付記12)
前記制御サーバは、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、付記9乃至11のいずれか一つのサーバシステム。
(付記13)
前記仮想化手段は、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、付記9乃至11のいずれか一つのサーバシステム。
(付記14)
前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切替手段は、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
付記9または10のサーバシステム。
(付記15)
前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記移動手段は、前記前記仮想サーバの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
付記11のサーバシステム。
(付記16)
前記運用状態はCPU稼働率である、付記14または15のサーバシステム。
(付記17)
前記運用状態はパケットのトラフィック量である、付記14または15のサーバシステム。
(付記18)
1つ以上の現用系物理サーバと待機系物理サーバを含むサーバシステムの障害回復方法であって、
前記現用系物理サーバ上で、データの生成、削除、参照を伴って運用されるアプリケーションを運用することと、
前記現用系物理サーバの数と同じ数の仮想サーバを前記待機系物理サーバ上で運用することと、
前記現用系物理サーバの運用状態を監視することと、
前記現用系物理サーバとそれに対応する前記仮想サーバの一つとの間で前記データの同期を行うことと、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行うことと、
を含む障害回復方法。
(付記19)
前記切り替えを行うことは、さらに、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させることと、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行うことと、
を含む付記18の障害回復方法。
(付記20)
1つ以上の現用系物理サーバと待機系物理サーバを含むサーバシステムの障害回復方法であって、
前記現用系物理サーバ上で、データの生成、削除、参照を伴って運用されるアプリケーションを運用することと、
前記現用系物理サーバの数と同じ数の仮想サーバを前記待機系物理サーバ上で運用することと、
前記現用系物理サーバの運用状態を監視することと、
前記現用系物理サーバとそれに対応する前記仮想サーバの一つとの間で前記データの同期を行うことと、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行うことと、
前記待機系物理サーバの上のデータを前記待機系サーバ上に同期させることと、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行うことと、
を含む障害回復方法。
(付記21)
さらに、前記仮想サーバの少なくとも一つをシャットダウンすることを含む、付記18乃至20のいずれか一つの障害回復方法。
(付記22)
前記監視することは、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切り替えを行うことは、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
付記18または19の障害回復方法。
(付記23)
前記運用状態はCPU稼働率である、付記22の障害回復方法。
(付記24)
前記運用状態はパケットのトラフィック量である、付記22の障害回復方法。
100a、100b(100)、110、400、500 網間ゲートウェイサーバ
120 インターネット
130a、130b、130c(130) ネットワーク機器運用制御サーバ
140a、140b(140) イントラネット
200、210、220、230 242、244、246、248、250、252 オペレーティングシステム
2002a、2002b(2002)、2102a、2102b、2102c、2102d(2102)、2202、2302、2422、2442、2462 アプリケーション
2004、2104、2204、2304、2424、2444、2464 データ
2444、2484、2504、2524 ミドルウェア
300 制御サーバ
1202、1204、1206、1208 サーバ
1210、1212 スイッチ
1214、1216、1218 仮想サーバ
248 ソフトスイッチ
400 ブレードサーバ
402、404、406、408 ブレード
410 ブレード筐体
500 ATCAサーバ
504、506、508、510、512、514、516、518 シングルボードコンピュータ(SBC)ブレードまたはパケットプロセッシングボード(PBB)ブレード
520 シャーシマネージメントモジュール(CMM)
Claims (15)
- データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバの運用状態を監視する監視手段と、
前記現用系物理サーバと、前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバ上の前記現用系物理サーバに対応する前記仮想サーバの一つとの間で前記データの同期を行う同期手段と、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、
を含むサーバ。 - 前記切替手段は、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させる引継手段と、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
を含む請求項1のサーバ。 - さらに、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、請求項1または2のサーバ。
- 前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切替手段は、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
請求項1または2のサーバ。 - データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバと、
仮想サーバを提供する仮想化手段と、前記仮想化手段によって提供される前記現用系サーバの数と同じ数の仮想サーバを含む待機系物理サーバと、
前記現用系物理サーバの運用状態を監視する監視手段と、
前記現用系物理サーバとそれに対応する前記仮想サーバの間で前記データの同期を行う同期手段と、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、
を含む制御サーバと、
を含むサーバシステム。 - 前記切替手段は、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させる引継手段と、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
を含む請求項1のサーバシステム。 - データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバと、
前記現用系サーバの数と同じ数の仮想サーバを含む待機系物理サーバと
前記現用系物理サーバの運用状態を監視する監視手段と、前記現用系物理サーバとそれに対応する前記仮想サーバの間で前記データの同期を行う同期手段を含み、前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、含む制御サーバと、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させる引継手段と、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
を含むサーバシステム。 - 前記制御サーバは、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、請求項1乃至3のいずれか一つのサーバシステム。
- 前記仮想化手段は、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、請求項1乃至3のいずれか一つのサーバシステム。
- 前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切替手段は、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系サーバへ系の切り替えを開始する、
請求項1または2のサーバシステム。 - 前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記移動手段は、前記前記仮想サーバの運用状態に基づいて、前記仮想サーバの一つから前記待機系サーバへ系の切り替えを開始する、
請求項3のサーバシステム。 - データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバの運用状態を監視することと、
前記現用系物理サーバと、前記現用系サーバの数と同じ数の仮想サーバを含む待機系物理サーバ上の、前記現用系物理サーバに対応する前記仮想サーバの一つとの間で前記データの同期を行うことと、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行うことと、
を含む障害回復制御方法。 - 前記切り替えを行うことは、さらに、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させることと、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切替を行うことと、
を含む請求項12の障害回復制御方法。 - さらに、前記仮想サーバの少なくとも一つをシャットダウンすることを含む、請求項12または13の障害回復制御方法。
- 前記監視することは、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切替を行うことは、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
請求項12または13の障害回復制御方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011171028A JP5817308B2 (ja) | 2011-08-04 | 2011-08-04 | サーバ、サーバシステムおよびサーバの冗長切り替え方法 |
US13/564,052 US9032241B2 (en) | 2011-08-04 | 2012-08-01 | Server, server system, and method for controlling recovery from a failure |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011171028A JP5817308B2 (ja) | 2011-08-04 | 2011-08-04 | サーバ、サーバシステムおよびサーバの冗長切り替え方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013037433A true JP2013037433A (ja) | 2013-02-21 |
JP5817308B2 JP5817308B2 (ja) | 2015-11-18 |
Family
ID=47627737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011171028A Expired - Fee Related JP5817308B2 (ja) | 2011-08-04 | 2011-08-04 | サーバ、サーバシステムおよびサーバの冗長切り替え方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9032241B2 (ja) |
JP (1) | JP5817308B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014139706A (ja) * | 2013-01-21 | 2014-07-31 | Nec Corp | フォールトトレラントシステム |
US20140240724A1 (en) * | 2013-02-27 | 2014-08-28 | Toshiba Tec Kabushiki Kaisha | Image forming apparatus |
JP2015130134A (ja) * | 2014-01-09 | 2015-07-16 | 日本電気株式会社 | 情報処理装置、情報処理システム、メモリレプリケーション方法、並びにコンピュータ・プログラム |
KR101713034B1 (ko) * | 2016-05-30 | 2017-03-09 | 주식회사 씨엠테스 | 비가시성 가상볼륨을 이용한 서버 이중화 시스템 |
JP2017134668A (ja) * | 2016-01-28 | 2017-08-03 | 富士通株式会社 | 情報処理システム、情報処理システムの制御方法および管理装置の制御プログラム |
US10089200B2 (en) | 2014-03-07 | 2018-10-02 | Mitsubishi Electric Corporation | Computer apparatus and computer mechanism |
US11232007B2 (en) | 2018-04-10 | 2022-01-25 | Fujitsu Limited | Server system and method of switching server |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9053026B2 (en) * | 2013-02-05 | 2015-06-09 | International Business Machines Corporation | Intelligently responding to hardware failures so as to optimize system performance |
US9727357B2 (en) | 2013-10-01 | 2017-08-08 | International Business Machines Corporation | Failover detection and treatment in checkpoint systems |
US10027600B2 (en) * | 2014-09-10 | 2018-07-17 | Artesyn Embedded Computing, Inc. | Time-division multiplexing data aggregation over high speed serializer/deserializer lane |
US11327779B2 (en) * | 2015-03-25 | 2022-05-10 | Vmware, Inc. | Parallelized virtual machine configuration |
US10324747B1 (en) * | 2016-12-13 | 2019-06-18 | EMC IP Holding Company LLC | Distributed configuration checking and troubleshooting in data center using best practices rules |
US11099925B2 (en) * | 2018-07-10 | 2021-08-24 | EMC IP Holding Company LLC | Datacenter preemptive measures for improving protection using IoT sensors |
US11106528B2 (en) | 2018-10-10 | 2021-08-31 | EMC IP Holding Company LLC | Datacenter IoT-triggered preemptive measures using machine learning |
US11436111B2 (en) * | 2019-10-03 | 2022-09-06 | Cisco Technology, Inc. | Highly-available distributed network address translation (NAT) architecture with failover solutions |
CN113760610A (zh) * | 2020-06-01 | 2021-12-07 | 富泰华工业(深圳)有限公司 | 基于OpenStack的裸机高可用性的实现方法、装置及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001306349A (ja) * | 2000-04-27 | 2001-11-02 | Mitsubishi Electric Corp | バックアップ装置及びバックアップ方法 |
JP2005250839A (ja) * | 2004-03-04 | 2005-09-15 | Nomura Research Institute Ltd | 耐障害性システム |
US20070079102A1 (en) * | 2005-09-30 | 2007-04-05 | International Business Machines Corporation | Assigning a processor to a logical partition |
JP2008276320A (ja) * | 2007-04-25 | 2008-11-13 | Nec Corp | 仮想システム制御方法およびコンピュータシステム |
JP2008293245A (ja) * | 2007-05-24 | 2008-12-04 | Hitachi Ltd | フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法 |
JP2010003022A (ja) * | 2008-06-19 | 2010-01-07 | Fujitsu Ltd | ファイル更新方法 |
JP2010211819A (ja) * | 2010-04-26 | 2010-09-24 | Hitachi Ltd | 障害回復方法 |
JP2011086316A (ja) * | 2011-01-31 | 2011-04-28 | Hitachi Ltd | 引継方法、計算機システム及び管理サーバ |
US20110154332A1 (en) * | 2009-12-22 | 2011-06-23 | Fujitsu Limited | Operation management device and operation management method |
US20110321041A1 (en) * | 2010-06-29 | 2011-12-29 | Bhat Santhosh R | Method and system for migrating a virtual machine |
-
2011
- 2011-08-04 JP JP2011171028A patent/JP5817308B2/ja not_active Expired - Fee Related
-
2012
- 2012-08-01 US US13/564,052 patent/US9032241B2/en not_active Expired - Fee Related
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001306349A (ja) * | 2000-04-27 | 2001-11-02 | Mitsubishi Electric Corp | バックアップ装置及びバックアップ方法 |
JP2005250839A (ja) * | 2004-03-04 | 2005-09-15 | Nomura Research Institute Ltd | 耐障害性システム |
US20070079102A1 (en) * | 2005-09-30 | 2007-04-05 | International Business Machines Corporation | Assigning a processor to a logical partition |
JP2009510572A (ja) * | 2005-09-30 | 2009-03-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ロジカル・パーティションにプロセッサを割り当てるための方法、装置、およびプログラム |
JP2008276320A (ja) * | 2007-04-25 | 2008-11-13 | Nec Corp | 仮想システム制御方法およびコンピュータシステム |
JP2008293245A (ja) * | 2007-05-24 | 2008-12-04 | Hitachi Ltd | フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法 |
JP2010003022A (ja) * | 2008-06-19 | 2010-01-07 | Fujitsu Ltd | ファイル更新方法 |
US20110154332A1 (en) * | 2009-12-22 | 2011-06-23 | Fujitsu Limited | Operation management device and operation management method |
JP2011134010A (ja) * | 2009-12-22 | 2011-07-07 | Fujitsu Ltd | 運用管理プログラム、運用管理装置および運用管理方法 |
JP2010211819A (ja) * | 2010-04-26 | 2010-09-24 | Hitachi Ltd | 障害回復方法 |
US20110321041A1 (en) * | 2010-06-29 | 2011-12-29 | Bhat Santhosh R | Method and system for migrating a virtual machine |
JP2011086316A (ja) * | 2011-01-31 | 2011-04-28 | Hitachi Ltd | 引継方法、計算機システム及び管理サーバ |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014139706A (ja) * | 2013-01-21 | 2014-07-31 | Nec Corp | フォールトトレラントシステム |
US20140240724A1 (en) * | 2013-02-27 | 2014-08-28 | Toshiba Tec Kabushiki Kaisha | Image forming apparatus |
US9158220B2 (en) * | 2013-02-27 | 2015-10-13 | Kabushiki Kaisha Toshiba | Image forming apparatus |
JP2015130134A (ja) * | 2014-01-09 | 2015-07-16 | 日本電気株式会社 | 情報処理装置、情報処理システム、メモリレプリケーション方法、並びにコンピュータ・プログラム |
US10089200B2 (en) | 2014-03-07 | 2018-10-02 | Mitsubishi Electric Corporation | Computer apparatus and computer mechanism |
JP2017134668A (ja) * | 2016-01-28 | 2017-08-03 | 富士通株式会社 | 情報処理システム、情報処理システムの制御方法および管理装置の制御プログラム |
KR101713034B1 (ko) * | 2016-05-30 | 2017-03-09 | 주식회사 씨엠테스 | 비가시성 가상볼륨을 이용한 서버 이중화 시스템 |
US11232007B2 (en) | 2018-04-10 | 2022-01-25 | Fujitsu Limited | Server system and method of switching server |
Also Published As
Publication number | Publication date |
---|---|
US20130036324A1 (en) | 2013-02-07 |
JP5817308B2 (ja) | 2015-11-18 |
US9032241B2 (en) | 2015-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5817308B2 (ja) | サーバ、サーバシステムおよびサーバの冗長切り替え方法 | |
US11687422B2 (en) | Server clustering in a computing-on-demand system | |
CN114946166B (zh) | 在包括云边缘位置的异构计算环境中的动态资源移动的方法和系统 | |
US9600380B2 (en) | Failure recovery system and method of creating the failure recovery system | |
US8037180B2 (en) | Centralized control plane appliance for virtual infrastructure | |
CN110633170A (zh) | 本地化服务恢复 | |
CN109861839B (zh) | 业务不中断的虚拟交换机升级方法以及相关设备 | |
CN103761166A (zh) | 一种虚拟化环境下针对网络服务的双机热备份容灾系统及其方法 | |
US9992058B2 (en) | Redundant storage solution | |
JP2012527023A (ja) | ファイバ・チャネル・ファブリックへのアクセスの変更 | |
US11349706B2 (en) | Two-channel-based high-availability | |
US11153269B2 (en) | On-node DHCP implementation for virtual machines | |
US20230185680A1 (en) | Cloud restart for vm failover and capacity management | |
JP5262145B2 (ja) | クラスタシステムおよび情報処理方法 | |
EP3038296A1 (en) | Pool element status information synchronization method, pool register and pool element | |
JP2012190175A (ja) | フォールトトレラントシステム、サーバ、フォールトトレラント化方法およびプログラム | |
CN114785807A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
Guay et al. | Early experiences with live migration of SR-IOV enabled InfiniBand | |
US20170185445A1 (en) | High availability service virtual machine in virtualization environment | |
US11349702B2 (en) | Communication apparatus, system, rollback method, and non-transitory medium | |
Kawahara et al. | The Continuity of Out-of-band Remote Management across Virtual Machine Migration in Clouds | |
CN115904608A (zh) | 控制平面配置 | |
US10168903B2 (en) | Methods for dynamically managing access to logical unit numbers in a distributed storage area network environment and devices thereof | |
US11966306B1 (en) | Availability zone recovery using virtual private clouds | |
EP4333396A1 (en) | Facilitating elasticy of a network device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140404 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150901 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5817308 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |