JP2013037433A - サーバ、サーバシステムおよびサーバの冗長切り替え方法 - Google Patents

サーバ、サーバシステムおよびサーバの冗長切り替え方法 Download PDF

Info

Publication number
JP2013037433A
JP2013037433A JP2011171028A JP2011171028A JP2013037433A JP 2013037433 A JP2013037433 A JP 2013037433A JP 2011171028 A JP2011171028 A JP 2011171028A JP 2011171028 A JP2011171028 A JP 2011171028A JP 2013037433 A JP2013037433 A JP 2013037433A
Authority
JP
Japan
Prior art keywords
server
servers
standby
active
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011171028A
Other languages
English (en)
Other versions
JP5817308B2 (ja
Inventor
Tomoyuki Nagasawa
智之 長澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011171028A priority Critical patent/JP5817308B2/ja
Priority to US13/564,052 priority patent/US9032241B2/en
Publication of JP2013037433A publication Critical patent/JP2013037433A/ja
Application granted granted Critical
Publication of JP5817308B2 publication Critical patent/JP5817308B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated

Abstract

【課題】1つ以上の現用系物理サーバと待機系物理サーバとを含むサーバシステムの障害発生時に早期に回復が可能な制御サーバを提供する。
【解決手段】制御サーバ300は、データの生成、削除、参照を伴うアプリケーションが運用されるOS200、210、220が稼働する複数の現用系サーバの運用状態を監視する手段と、前記現用系物理サーバのOS200、210、220と、ホストOS240上で前記現用系サーバのOSに対応するゲストOS242、244、246が稼働する待機系サーバとのデータを同期する手段と、前記監視する手段が前記現用系物理サーバの一つの運用状態の障害を検出したとき、対応する前記ゲストOS242、244、246の上で、前記現用系物理サーバの一つで運用されていたアプリケーションを起動し、障害が検出された現用系サーバから待機系サーバの対応するゲストOS242、244、246に系を切り替える手段と、を含む。
【選択図】図3

Description

本発明は、冗長構成を備える複数のサーバからなるサーバシステム、およびサーバの冗長切り替え方法に関する。
近年、セキュリティゲートウェイ、ロードバランサ、ネットワーク機器運用制御装置などの装置は、サーバを複数組み合わせた形で構成されている。サーバを複数組み合わせた形で構成される装置に対しては、サービスの持続性などの高信頼性が要求される。今日の企業活動は計算機に依存する面が大きく、計算機システムの停止による損害が大きくなったことが、高信頼性への要求を高める背景の一つである。特に、インターネットの普及や映像サービスなど新しいサービスの台頭によってインターネットトラフィックが急増しており、装置には、高速処理して多様なサービスに対応する通信システムをスピーディーかつ経済的に構築、運用することが要求されている。
これらの装置のうち、データーセンタ、キャリアといったスムースなサービスが必要とされるところに設置される装置、特にサーバシステムは、実際に運用される現用系のほかに予備の装置、サーバを備える冗長化構成が採用され、保守作業や障害発生時に通信の中断時間を減らすようにしている場合もある。サーバシステムに対しては、このような冗長化の一つとして、N個の現用系サーバとは別に1個の待機系サーバを用意するN+1冗長構成がある。N+1冗長構成を採用することによって、サーバシステムの信頼性、特に可用性を上げることができる。
たとえば、一つの筐体内に複数のCPUブレードが収容されたブレードシステムであって、各CPUブレード上では仮想計算機方式によって実現されたVMシステムが稼動するブレードシステムにおいて、予め決められたサーバを予備として待機させ、負荷の平準化や障害によるシステムダウンを回避するシステムが知られている。このようなシステムでは、障害等の発生時に、現用系サーバから予備サーバに仮想システムをマイグレーションすることによって、スムースなシステム運用を実現することができる。
また、あるCPUブレード上で動作するシステム、たとえば仮想システムを別のCPUブレードにマイグレーションする必要が生じたときに、マイグレーション先のCPUブレードを予め決められた一つに限定せず、ブレードの特徴やファンや電源などの動作環境、障害発生状況等などを考慮して、最適のブレードシステムを選択するシステムも知られている(たとえば、特許文献1)。このようなシステムでは、予備のブレードを予め用意する必要がない。さらに、各CPUブレードについてのシステム運用環境を数値化しておき、障害発生時には同等以上のCPUブレードを移動先として選択するように構成することによって、障害発生から移行完了までに要する時間を短縮することができる。
また、仮想計算機方式によって実現された複数の仮想計算機が動作可能な複数の物理サーバからなる現用系サーバと、仮想計算機が動作する単一の待機系サーバとを備え、現用系サーバのうち物理サーバに障害が発生したときに、その物理サーバで稼動していたOSを待機系の仮想サーバとして起動し、仮想計算機が動作している物理サーバに障害が発生したときには、その仮想計算機の仮想化OSを待機系の仮想サーバとして起動するシステムが知られている(たとえば、特許文献2)。このシステムにおける障害回復処理では、現用系サーバのいずれかに障害イベントが発生すると、障害発生サーバが使用していた起動ディスクを待機系サーバに割り当て、待機系サーバの電源をONにする。
また、1台の物理サーバ内に複数のVMシステムがサーバとして稼動し、そのうちの一つのブレードが現用系として、別の一つのブレードが待機系として二重化運転している仮想サーバ環境での系の切り替えに際して、同一の物理サーバ上の他の仮想サーバに影響を及ぼさないファイル更新方法が知られている(たとえば、特許文献3)。
特開2008−276320号公報 特開2010−211819号公報 特開2010−3022号公報
一般に、物理サーバ上に複数の仮想サーバを構築した際には、物理サーバに障害が発生するとその上で稼動している全ての仮想サーバが停止してしまい、システムの高信頼性を得ることは難しいという問題があった。一方、独立した複数のサーバでサーバシステムが構築されていれば、単一の物理サーバの障害によってシステム全体が停止することはないが、コストが掛かるという問題があった。
また、現用系サーバとして物理サーバ上に仮想サーバを用いる場合には、ゲストOSのI/O操作を並行して行うため、オーバーヘッドが存在するという問題があった。
また、現用系と待機系の二重化構成を取る一組の物理サーバにおいて、正常運転時に待機系をコールドスタンバイ状態で運用していれば、障害が発生した後に待機系にコンフィグ情報を転送してから通信用のアプリケーションを起動することになるため長時間の通信断、サービスの中断を発生させていた。また、障害発生から待機系の運用開始まで時間が掛かるという問題があった。
さらに、従来のN+1冗長化の方法では障害発生時にコールドスタンバイを実施するか、各アプリケーションレベルでN+1冗長構成に対応させる必要があったが、多様化するアプリケーション群にホットスタンバイな二重化対応の実装はあってもN+1重化ホットスタンバイ対応の実装をさせるには開発コストが膨大になるという難点があった。
また、待機系がN個の現用系に対応するような方法も考えられるが、多様化する通信アプリケーションにN+1重化対応の冗長構成を意識させたコードを実装することはコスト的に実装が困難である上に待機系での信頼性も低下させていた。
したがって、複数のサーバより構成されるサーバシステムにおけるN+1冗長構成において、CPU性能やI/O性能を犠牲にせず、かつコストを抑えて冗長化された信頼性の高いコンピューターシステムが要求されている。
また、信頼性の向上のため、一つの筐体内の複数のサーバより構成されるN+1冗長構成を備えるサーバシステムにおける、系の切替方法、特に障害発生時の回復方法が要求されている。
本発明は上記のような問題に鑑み、複数のCPUブレードを有するブレードサーバや複数のシングルボードコンピュータ(SBC)やパケットプロセッシングボード(PPB)を有するアドバンストTCA(telecom computing architecture)サーバからなるN+1冗長構成を有するサーバシステムを制御する制御サーバであって、サーバシステムのCPU性能やI/O性能を犠牲にせずに、しかもコストアドヴァンテージを有し、さらに高可用性を有する制御サーバおよび障害回復制御方法、ならびにそのような制御サーバを含むサーバシステムおよび障害回復方法を提供することを目的とする。
本発明に従う制御サーバは、データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバの運用状態を監視する監視手段と、前記現用系物理サーバと、前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバ上の前記現用系物理サーバに対応する前記仮想サーバの一つとの間で前記データの同期を行う同期手段と、前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、を含むことを特徴とする。
待機系物理サーバ上の仮想サーバで現用系物理サーバのOSが稼動するサーバシステムにおいて、現用系とそれに対応する待機系のデータを互いに同期させることによって、コストを抑えつつも、CPU性能やI/O性能を犠牲にせず、障害発生時に早期に回復が可能な、高可用性を有する信頼性が高いサーバシステムを制御する制御サーバおよびそのような制御サーバによる障害回復制御方法を提供することができる。
網間ゲートウェイサーバおよびネットワーク機器運用制御サーバが用いられるネットワークシステムを示す図である。 冗長構成を用いるサーバシステムにおける障害回復処理の比較例を示す概略図である。 冗長構成を用いるサーバシステムを示す概略図である。 現用系サーバと待機系サーバで同期処理される経路情報のエントリに関するデータの例である。 現用系サーバと待機系サーバで同期処理されるARPキャッシュのエントリに関するデータの例である。 現用系サーバと待機系サーバで同期処理されるネイバーキャッシュのエントリに関するデータの例である。 現用系サーバと待機系サーバで同期処理されるセッション、コネクション(IPv4)のエントリに関するデータの例である。 現用系サーバと待機系サーバで同期処理されるセッション、コネクション(IPv6)のエントリに関するデータの例である。 現用系サーバと待機系サーバで同期処理されるアドレスマッピング情報(IPv4)のエントリに関するデータの例である。 現用系サーバと待機系サーバで同期処理されるアドレスマッピング情報(IPv6)のエントリに関するデータの例である。 冗長構成を用いるサーバシステムにおける障害回復処理を示す概略図(その1)である。 冗長構成を用いるサーバシステムにおける障害回復処理を示す概略図(その2)である。 冗長構成を用いるサーバシステムにおける障害回復処理を示す概略図(その3)である。 冗長構成を用いるサーバシステムにおける障害回復処理を示す概略図(その4)である。 冗長構成を用いるサーバシステムの全体図である。 冗長構成を用いるサーバシステムのブロック図である。 冗長構成を用いるサーバシステムの構成図である。 冗長構成を用いる別のサーバシステムの構成図である。 冗長構成を用いるさらに別のサーバシステムの構成図である。 冗長構成を用いるサーバシステムにおける障害回復処理のフローチャートである。 冗長構成を用いるサーバシステムにおける障害回復処理のシーケンス図である。 冗長構成を用いるサーバシステムの障害切替直後におけるシステム全体図である。 図19に示されている障害切替直後における冗長構成を用いるサーバシステムのブロック図である。 冗長構成を用いるサーバシステムのホストOS引き継ぎ後におけるシステム全体図である。 図21に示されているホストOS引き継ぎ後における冗長構成を用いるサーバシステムのブロック図である。 冗長構成を用いるサーバシステムの通常運用復帰後におけるブロック図である。
以下、本発明の実施形態について、図面を参照しながら説明をする。尚、図中で類似の部分または類似の機能を果たす部分については、同一または類似の参照符号を付与して重複した説明を省略する。
以下では、まず、図2〜6を参照してN+1冗長構成(以下、単に冗長構成とも呼ぶ)を用いるサーバシステムおよび障害回復方法の比較例を説明し、その後、図3〜23を参照して、本発明に従うシステムおよび方法を説明する。図1は、網間ゲートウェイサーバおよびネットワーク機器運用制御サーバが用いられるシステムの図である。
本発明では、1つ以上の現用系物理サーバおよび待機系物理サーバからなる冗長構成において、仮想化機構(仮想化手段)を用いて待機系物理サーバ上の仮想サーバで現用系物理サーバに対応する複数のOSを稼動させ、それぞれの現用系とそれに対応する待機系のデータを互いに同期させることによって、コストを抑えつつも、CPU性能やI/O性能を犠牲にせず、障害発生時に早期に回復が可能な、高可用性を有する信頼性が高い装置(網間ゲートウェイサーバおよびネットワーク機器運用制御サーバ)を提供することができる。
<全般的な説明>
(比較例)
図1は、サーバシステム(網間ゲートウェイサーバおよびネットワーク機器運用制御サーバ)が用いられるシステムを示す図、図2〜6は、冗長構成を備えるサーバシステム、およびそのサーバシステムにおける系の切替方法、特に障害回復方法の比較例である。
イントラネット140a、140b(まとめて140)内の端末からインターネット120上のサービスへアクセスするためには網間ゲートウェイサーバ100aを経由しなければならず、このような環境中で用いられる網間ゲートウェイサーバ100a、100b(まとめて100)は、一般に、大きなパケット処理能力が要求され、したがって網間ゲートウェイサーバ100として用いられるサーバシステムは、大きなCPUパワーを備えることが要求される。
また、ネットワーク機器運用制御サーバ130a、130bはインターネット120上の多数のネットワーク機器を運用制御し、ネットワーク機器運用制御サーバ130cもイントラネット140b上の多数のネットワーク機器を運用制御しなければならず、このような環境中で用いられるネットワーク機器運用制御サーバ130a、130b、130c(まとめて130)もまた、一般に、大きなパケット処理能力が要求され、したがってネットワーク機器運用制御サーバ130として用いられる装置も、大きなCPUパワーを備えることが要求される。
図2は、4台の物理サーバからなる冗長構成を備えるサーバシステム100における障害回復方法の比較例の概略を示している。
図2に示されているサーバシステム100は、冗長構成を構築する、それぞれオペレーティングシステム(OS)200、210、220、230が稼動する通信サーバと制御サーバ300を含み、通信サーバと制御サーバ300は一つの筐体内に収容されている。OS200、210、220、230が稼動する複数のサーバのうちの3つのOS200、210、220が稼動するサーバが現用系サーバ、残りの一つのOS230が稼動し得るサーバが待機系サーバである。待機系(予備系)のサーバは、通信機器100が正常に動作している間は、コールドスタンバイ状態にあるので、障害が発生した直後の状態である図2の(A)では、OS230は破線で示されている。OS200、210、220のそれぞれの上では、通信アプリケーション2002、2102、2202が稼動している。これら通信アプリケーション2002、2102、2202はそれぞれ、通信アプリケーション用のデータ2004、2104、2204を生成、利用しながら運用される。
制御サーバ300は、オペレーティングシステム(OS)200、210、220、230が稼動する通信サーバの監視を行い、必要に応じて系の切替を制御する。そのために、制御サーバ300は、監視している各通信サーバのコンフィグ情報を保持している。
図2の(A)は、制御サーバ300が、通信アプリケーション2102に障害が発生したことを検知したことを示す図である。この障害は、通信アプリケーション2102が運用されるサーバの物理的な障害であっても良いし、ソフトウェア的な障害、たとえば通信アプリケーション2102でのトラブル発生であっても良い。このとき、待機系サーバはコールドスタンバイ状態(待機中)にある。
次の図2の(B)では、予備系のサーバのコールドスタンバイ状態を解き、そのサーバ上で稼動するOS230とその上で運用される通信アプリケーション2302を起動する。OS230の起動に際しては、障害が発生したサーバのコンフィグ情報が制御サーバ300から転送される。同時に、障害が発生したサーバ、OS210が稼動していたサーバ、は停止する。
そして図2の(C)では、もともと待機系であった通信サーバを現用系として運用する。
上述の方法では、制御サーバが現用系サーバの一つに障害を検出した後に,待機系サーバにコンフィグ情報を転送してから通信用のアプリケーションを起動することになる。そのため長時間の通信断・サービス断を発生させていた。
また、待機系サーバをN個の現用系サーバに対応させるような方法も考えられるが、多様化する通信アプリケーションにN+1重化対応のN+1冗長構成を意識させたコードを実装することはコスト的に実装が困難である上に待機系での信頼性も低下させてしまう。
(サーバシステムの構成)
図3〜10を参照して、本発明の一実施例に従うサーバシステム(網間ゲートウェイサーバもしくはネットワーク機器運用制御サーバ)110の構成を説明する。サーバシステム(以下、単に装置とも呼ぶ)110はN+1冗長構成(以下、単に冗長構成とも呼ぶ)を備える。また、サーバシステム110も、図1中の網間ゲートウェイサーバ100またはネットワーク機器運用制御サーバ130として用いられる。
このN+1冗長構成を実現するための手段の一つとしては、1台の物理計算機上に仮想的な計算機を構成し、複数のオペレーティングシステム(OS)を並列して実行する仮想化のための技術、仮想化機構が知られている。この仮想化機構を、本明細書中では仮想化手段と呼ぶこともある。このような技術には仮想計算機方式や論理分割方式がある。これらの技術を用いた計算機を、仮想化機能を利用した計算機または仮想計算機と呼ぶ。仮想計算機がサーバである場合は、仮想サーバと呼ぶこともある。また、仮想化機構の上で動作するOSをゲストOSと呼ぶ。仮想化機構がその上で稼動するOSを、ホストOSと呼ぶ。つまり、ホストOSが動作する1台の物理計算機上でN+1個のゲストOSを並列して実行し、あたかもN+1台の計算機が存在するかのように構成し、そのうちのN台を現用系サーバ、残りの1台を待機系(予備系)サーバとして利用し冗長構成を実現する。
仮想計算機方式では、仮想計算機モニタ(VMM:Virtual Machine Monitor)と呼ばれる制御ソフトウェアが、計算機のハードウェアやプロセッサの動作を制御するためのレジスタ類を仮想化し、1台の物理計算機上に複数の仮想的な計算機、つまり仮想計算機(VM:Virtual Machine)を実現する。このときゲストOSはVMMによって生成された仮想計算機上で動作する。より詳細には、VMMはゲストOSが実行する入出力(I/O)命令や制御レジスタ等のCPUの特権命令をトラップして、実際の物理デバイスへのアクセスに変換してエミュレート(処理)し、仮想計算機を作り出す。この仮想計算機方式では、複数のゲストOSが1つの物理I/Oデバイスを共有することができる。
この仮想計算機方式のI/O制御では、ゲストOSによるI/O操作はVMMがエミュレートするため、オーバーヘッドが発生する。動作しているゲストOSが複数ある場合には、VMMは複数のゲストOSのI/O操作を並行して行うため、オーバーヘッドの量の予測は容易ではないことがある。
一方、論理分割方式は、ハイパーバイザーと呼ばれる制御ソフトウェアが物理計算機のリソースを論理的に分割することによって、1台の物理計算機上に複数のVMを実現する。つまり、ハイパーバイザーは、プロセッサ等のハードウェアが参照するレジスタ、テーブルを操作して、1台の物理計算機を論理的に分割する。ゲストOSは、ハイパーバイザーによって分割された区画(論理パーティション)内で実行される。つまり、ゲストOSが実行するI/O命令等の特権命令は、エミュレートされることなく、直接的に物理計算機のプロセッサで実行される。論理分割方式は、その構成から、あるゲストOSの動作は、同一の物理計算機上で走る別のゲストOSの動作からの影響は受け難い。その一方で、複数のゲストOSが1つの物理I/Oデバイスを共有することはできない。本明細書中では、ハイパーバイザーを単にホストOSと呼ぶことがある。
一般に仮想化機構は、高可用性とコストパフォーマンスが求められる通信制御用テレコムサーバや通信コンピューターシステムのうち、ブレードサーバを冗長構成のコンピューターシステムとして使用する場合や、アドバンストTCA筐体で使用するボードのうち、単価が高く、かつ使用枚数が装置としてのパケット処理性能に影響するようなパケットプロセッシングボードを冗長構成で使用する場合に好適である。本発明の装置での仮想化手段としては、仮想計算機方式を用いる手段でも論理分割方式を用いる手段でも良い。
サーバシステム110では、冗長構成を構築する複数の物理サーバのうち、待機系物理サーバ(以下、単に待機系サーバとも呼ぶ)の1台のみに仮想化計算機(仮想サーバ)が実現されている。
図3に示されているサーバシステム110は、冗長構成を構築する、それぞれオペレーションシステム(OS)200、210、220、240が稼動する通信サーバ(待機系物理サーバを含む)と制御サーバ300を含み、通信サーバと制御サーバ300は一つの筐体内に収容されている。しかしながら、通信サーバと制御サーバ300は必ずしも一つの筐体内に収容されてなくても良い。OS200、210、220、230が稼動する複数のサーバのうちの3つのOS200、210、220が稼動するサーバが現用系物理サーバ(以下、単に現用系サーバとも呼ぶ)、残りの1つのOS240が稼動するサーバが待機系サーバである。待機系サーバは仮想化手段を含み、仮想化手段を用いて仮想化され仮想サーバが構築されている。OS240は待機系サーバのホストOSであって、その上でゲストOS242、244、246が稼動し得る。図2に示されている比較例とは、待機系サーバ上には現用系サーバのそれぞれに対応する仮想サーバが構築されている点が異なっている。また、各仮想サーバは、それぞれに対応する現用系サーバと常に通信し、アプリケーション、たとえば通信アプリケーションのデータが互いに同期されている。
尚、仮想計算機を提供する仮想化手段は待機系サーバのみならず、現用系サーバにも備えられ、現用系サーバもホストOS上でゲストOSを稼動させることが可能なように構成されている。
制御サーバ300はOS200、210、220、230が稼動する複数のサーバの運用状況を監視する監視手段を有している。そして、監視している各通信サーバのコンフィグ情報を保持している。また、制御サーバ300は、現用系サーバと待機系サーバの間で通信アプリケーション用のデータの同期を行う同期手段を有する。この同期手段は現用系サーバと待機系サーバの間で通信アプリケーション用のデータの同期を行うが、仮想化手段によって仮想計算機が構築されたサーバにおいて、ゲストOSとホストOSの間でデータを同期させる機能を有しても良い。ゲストOSとホストOSの間でデータを同期させる機能は引継手段(第2の同期手段)として、前記同期手段(第1の同期手段)とは別に用意されても良い。この引継手段は、仮想化手段に含まれても良い。
さらに、制御サーバ300は、現用系サーバのいずれかに障害が発生したときに、障害が発生したサーバから待機系のサーバへの系の切り替えを制御する切替手段を有する。この切替手段(第1の切替手段)は、現用系と待機系は物理的には別個のサーバ間での系の切り換えを制御する。しかし、たとえば、仮想化機構によって仮想計算機が実現している1台の物理サーバ上で、ゲストOSが稼動する仮想計算機が現用系、ホストOSが稼動する系が待機系として働く場合に、現用系から待機系への系の切り替えが行われることがある。この切り替えの機能は前記切替手段によって担われても良いし、前記切替手段とは別の移動手段(第2の切替手段)によって担われても良い。移動手段は、仮想化手段に含まれても良い。
さらに、サーバシステム110では、正常時には、待機系サーバにおいてのみ仮想化手段を用いて、待機系サーバ上で複数のゲストOSを起動させる。一般に、待機系は大きなCPUパワーを要せず、仮想化機能を利用した計算機としてもオーバーヘッドは問題にならない。一方、現用系は正常運用時に大きなCPUパワーを要する。しかしながら、本発明の構成を採用することによって、CPUパワーを浪費する現用系では仮想化機構の使用に伴うオーバーヘッドが存在せず、高い処理性能を有することができる。
また、サーバシステム110では、制御サーバ300は現用系サーバの運用状態を監視する監視手段および現用系サーバ上のデータと待機系の仮想サーバ上のデータを同期させる同期手段を含む。つまり、現用系サーバと待機系サーバの運用状態は制御サーバ300の監視手段によって監視され、さらに、現用系サーバ上のデータと待機系の仮想サーバ上のデータは制御サーバ300の同期手段によって同期している。現用系サーバの運用は対応する仮想サーバによっても監視されている。すなわち、仮想化手段が、監視手段、同期手段、切替手段を含んでいても良い。
そして、現用系サーバに障害が発生したときには、待機系上のそれぞれのOSによって、現用系サーバで運用していた通信サーバをバックアップする。仮想化機構が稼動する待機系サーバのホストOSとゲストOSはアプリケーションに対して同一のAPIを提供する必要があるが、現用系サーバでそれぞれ動作しているアプリケーションは同一である必要はない。もちろん、待機系サーバのホストOSとゲストOSは同一でも良く、Linux(登録商標)が用いられても良い。
現用系サーバ上で稼動するホストOSと待機系サーバ上で稼動するホストOSおよびゲストOSが提供するAPIは、各OS上で動作するアプリケーションが共通に使用できるものであればよいが、OSの間の切り替えの際に各OSが独自に使用するAPIに関してはこの限りではない。
また、アプリケーションは現用系サーバおよび待機系サーバ、たとえば待機系サーバ上に構築された仮想サーバの2つのシステム上で動作すればよく、冗長構成に対応する必要はない。よって、各現用系サーバで動作するアプリケーションは同一である必要はない。さらに、一つの現用系サーバ上で複数のアプリケーションが動作しても良い。
図3は、冗長構成を用いるサーバシステムを示す概略図である。本例のサーバシステムは、3つのサーバから構成される現用系サーバと仮想化機構が稼動する1つの待機系サーバを含んでいる。もちろん、現用系サーバを構成するサーバの数は3には限定されない任意の数で構わない。
図3(A)は、待機系サーバが起動中の状態を示しており、ホストOS240、ゲストOS242、244、246、およびそれぞれゲストOS242、244、246上で稼動し得る通信アプリケーション2422、2442、2462は破線で示されている。待機系サーバでは、冗長構成をとるサーバシステムの待機系のホストOS上で運用系サーバのOSの数と同じ数だけゲストOSが稼動している。つまり、予備系はウォームスタンバイ状態にあるとも言うこともできる。
図3(B)は、サーバシステム110が正常に運用されている状態である。この状態で待機系サーバの各ゲストOS242、244、246上には、現用系サーバ上で運用される通信アプリケーション2002、2102、2202のデータ2004、2104、2204と同期した通信アプリケーションのデータ2424、2444、2464が置かれる。つまり、現用系サーバと待機系サーバではアプリケーション用のデータの同期が行われている。現用系サーバでデータ2004、2104、2204の変更が発生した場合、それぞれが運用系サーバの一つに対応する待機系サーバの上のゲストOSにデータを転送し、アプリケーションのデータの同期をする。サーバシステム110の運用中、それぞれゲストOS242、244、246が稼動する待機サーバの上のデータ2424、2444、2464は、対応する現用系サーバのOS200、210、220のデータ2004、2104、2204と同期をし続ける。この同期処理は、制御サーバ300および/または待機系サーバに備えられる同期手段によって実行される。
同期するデータの例には、次のようなものが含まれ得る。
1)経路情報(LSA等)、
2)ARPキャッシュテーブル、
3)ネイバーキャッシュテーブル、
4)TCP/UDPセッション情報、
5)HTTP/HTTPSコネクション情報、
6)NATアドレスマッピング情報、
7)QoS均等割り当て帯域情報、
8)ファイアーウォール用アクセス禁止情報(フィルタリング情報)
9)フローテーブル、
10)各種統計情報、
11)装置状態。
経路情報を含むデータの例は図4に示されている。図4に示されているデータは、RFC4340に従うフォーマットを有している。ここでは、RFC(Request for Comments)のようにIETF(Internet Engineering Task Force)による業界標準に従うフォーマットを有するLSA(リンクステートアドバタイズメント)を例として挙げたが、ルーティングプロトコルにおける経路管理情報であれば、LSAに限定されない。
ARP(Address Resolution Protocol)キャッシュテーブルの例は図5に示されている。図5に示されているデータは、RFC826/RFC5227/RFC5459に従うフォーマットを有している。ARPキャッシュテーブルは、TCP/IPネットワークでイーサネットフレームを送信するために必要な宛先のMACアドレスを、宛先のIPアドレスに対応させるためのテーブルである。
ネイバーキャッシュテーブルの例は図6に示されている。図6に示されているデータは、RFC2461、チャプター4.4に従うフォーマットを有している。チャプターネイバーキャッシュテーブルは、IPv6でのIPアドレスとMACアドレスのマッピングの際に用いられるテーブルである。
TCP/UDPセッション情報とは、1対1の通信処理で使われるプロトコルであるTCP(トランスミッションコントロール プロトコル)またはUDP(ユーザ データグラムプロトコル)の接続(セッション)に関する情報である。
HTTP/HTTPSコネクション情報とは、HTTP(ハイパーテキスト転送プロトコル)またはHTTPによる通信よりセキュリティを強化したHTTPSに則った接続(コネクション)に関する情報である。
TCP/UDPセッション情報、HTTP/HTTPSコネクション情報を含むデータの例は図7、8に示されている。
NATアドレスマッピング情報とは、NAT(Network Address Translation)を用いたアドレス間の対応に関する情報である。一般には、プライベートIPアドレスとグローバルIPアドレスを対応付けするための情報である。IPv4およびIPv6に準拠するNATアドレスマッピング情報を含むデータの例は、それぞれ図9および10に示されている。
QoS均等割り当て帯域情報とは、ネットワーク上で、一定の通信速度を保証するために、ある特定の通信のために予約された帯域に関する情報である。
フローテーブルとは特定のIPアドレスやポート番号、MACアドレス、MPLSラベル、入力ポートなどを組み合わせることによってデータの流れを表現した情報である。
また、各種統計情報には、トラフィックの量などが含まれても良い。
装置状態としては、消費電力、CPU稼働率、CPU温度などサーバとしての動作を特徴付ける量であれば任意の量であって良い。
サーバシステム110のハードウェア構成は、図3に示されたような構成に限定されない。より詳細には、複数のサーバを備え、それぞれのサーバ上でデータを参照しながら稼動するアプリケーションが運用される冗長構成をとるサーバシステムであって、複数のサーバのうち少なくとも一つは待機系サーバ、残りは現用系サーバとして運用され、待機系サーバは仮想化機構を用いて仮想化されて複数の仮想サーバ(仮想計算機)が実現し、仮想サーバ上では現用系サーバのOSに対応するOSが稼動しており、現用系サーバとそれに対応する待機系サーバ上の仮想サーバの間で、現用系サーバで運用されているアプリケーションのデータが同期されるように構成されるものであれば良い。サーバシステムは一つの筐体内に収めされていても良いが、必ずしもそうでなくても良い。図3に示されている構成では、サーバシステムは一つの筐体内に収納されている。
また、少なくとも待機系サーバは、仮想化されたサーバにおいて、ホストOS上に置かれるデータとゲストOS上に置かれるデータ間の同期を行う引継手段を有している。
このような構成を有することによって、サーバシステムは、単一の物理サーバの障害によってシステム全体が停止することはないという利点を有する。また、現用系サーバは仮想化されていないので、正常運転時には仮想化によるオーバーヘッドが存在しないという利点を有する。さらに、正常時に待機系サーバでは、ゲストOSが稼動し、現用系サーバとアプリケーションのデータについて同期しているので、ホットスタンバイに比べて消費電力を抑えることができる。また、高可用性を実現することができる。さらに、アプリケーションとしては二重化対応のみを意識すればよいので、アプリケーションコストの開発が容易であり、これはアプリケーション自体およびアプリケーションが動作するシステムの信頼性を高めることができる。また、冗長構成によるコストメリットを実現するとともにネットワークの高信頼化を実現することができる。
(障害回復処理)
図11を参照して、仮想化機能を利用した冗長構成を備えるサーバシステム110における障害回復処理を説明する。
図11(A)は、図3(B)に示されたサーバシステム110の複数のサーバのうち、OS210が稼動するサーバにハードウェア的またはソフトウェア的な障害が発生し、それを制御サーバ300が検出したところである。このとき、OS210上で稼動するアプリケーション2102のデータ2104と、待機サーバ上のゲストOS244上に置かれるデータ2444とは同期している。しかし、アプリケーション2442は稼動していない。
図11(B)では、制御サーバ300が現用系サーバのひとつに障害が検出されたことに応答して、障害が検出された現用系サーバから、待機系サーバ上の対応するゲストOS242、244、246に系を切り替え、待機サーバでの通信、サービスを開始する。それと同時に、障害が検出された現用系サーバ、すなわちOS210が稼動するサーバを停止する。
図11(C)では、制御サーバ300は、ゲストOS244上で通信アプリケーション2442が稼動することによって、性能低下が発生するか否かを判断し、もし性能低下が発生する場合には、ホストOS230上でアプリケーション2302を新待機系として起動し、新待機系上のデータ2304を、同一の物理サーバ上でデータ2444と同期させる。この系の切り替えは、制御サーバ300に備えられる切替手段によって行われても良いし、制御サーバ300に備えられる切替手段とは別の移動手段によって行われても良い。
図11(D)では、全ゲストOS242、244、246をシャットダウンする。これにより通信アプリケーション2422、2442、2462はホストOS230上で現用系として動作し、並行して仮想計算機が動作することによる性能低下を防ぐことができる。
図11(C)から図11(D)への切り替えは、同一の物理サーバ上で行われるため、データの同期の方法には幾つかの方法がある。例としては、
1)仮想サーバ内ネットワーク経由での同期、
2)メモリマップによる同期、
3)共有ディスクによる同期、
4)上記1)〜3)の少なくとも二つの組み合わせによる同期、
を挙げることができる。
第一の仮想サーバ内ネットワーク経由での同期方法は、現用系サーバから待機系の仮想サーバに切り替えた方法と同じであるが逆向きの方法で仮想ネットワークを経由して、ゲストOSが稼動する仮想サーバから、ホストOSが稼動する物理サーバにデータを同期させる。これらのデータの同期処理は、制御サーバ300および/または待機系サーバに備えられる同期手段によって実行され得る。
第二のメモリマップによる同期方法は、仮想サーバ上のメモリ空間と物理サーバ上のアプリケーション上のメモリ空間のうち、同期させるデータが保持されている領域をマッピングすることによりデータを同期させる方法である。この方法を用いることにより、切り替えを高速に実行することができる。
第三の共有ディスクによる同期方法では、次のようなステップを踏む。まず、仮想サーバ群と物理サーバの間に共有ディスクを設定する。たとえば物理サーバ側でNFSサーバを起動し、仮想サーバ側はNFSクライアントとしてディスクを共有する。次に、仮想サーバ上で動作するアプリケーションは、同期するデータをディスクに書き込む。仮想サーバから物理サーバへと系を切り替えたあとでは、物理サーバ上で動作するアプリケーションが共有されているディスクに書き込まれたデータを利用する。
第四の方法は、上記第一から第三の方法の少なくとも二つを組み合わせて得られる方法である。
上記4つの方法のうち第一の方法を除く同期方法は、現用系サーバと待機系サーバの間でのデータの同期を行う同期手段とは別の引継手段によって行われても良い。つまり、引継手段では、仮想化されたサーバにおいて、ホストOS上に置かれるデータとゲストOS上に置かれるデータ間の同期を行うものとする。
なお、制御サーバ300に備えられる各手段、監視手段、同期手段、切替手段は、ソフトウェアプログラムによってまたは専用ハードウェアによって実行される。
上記のような処置によって、従来は時として、障害の発生時に現用系から待機系へのデータ設定から再起動まで、数十秒〜数分の通信の中断が発生することがあったが、性能低下を伴わずに数秒以内で切り替えをすることができる。
<実施例>
図12〜23を参照して、サーバシステム110およびサーバシステム110での障害回復方法について説明する。
以下では、一つの筐体内に4台のブレードを含むサーバシステムであって、そのうち3台が現用系物理サーバ(以下、単に現用系サーバとも呼ぶ)として、残りの1台が待機系(予備系)物理サーバ(以下、単に待機系サーバとも呼ぶ)として機能するものについて説明するが、ブレードの個数はこのような値に限定されない任意の数で構わないことは当業者には明らかであろう。
(サーバシステムの構成)
まず、図12〜16を参照して、サーバシステム110の構成について説明する。サーバシステム110は、図1の網間ゲートウェイサーバ100またはネットワーク機器運用制御サーバ130として機能する。
図12は、サーバシステム110のシステム全体図である。サーバシステム110は、それぞれ現用系のOS#1、#2、#3(それぞれ200、210、220)が稼動する現用系サーバ1202、1204、1206、ホストOS230が稼動する待機系サーバ1208、およびスイッチ1210、1212を含んでいる。現用系サーバ1202、1204、1206は、正常運転時には、スイッチ1210および1212に接続されている。待機系サーバ1208のホストOS230の上では、仮想化機能を用いて、ゲストOS#1、#2、#3(それぞれ242、244、246)が稼動する3つの仮想計算機(仮想サーバ)が実現している。
待機系サーバ1208の上のゲストOS#1、#2、#3は、それぞれ図3のゲストOS242、244、246に対応し、ゲストOS#1、#2、#3が稼動する仮想計算機はそれぞれ、図3のゲストOS242、244、246が稼動する仮想計算機に対応する。
待機系サーバ1208上に構築された3つの仮想計算機(仮想サーバ)は、ソフトスイッチ248を介してスイッチ1212と繋がっている。また、現用系サーバ1202、1204、1206の正常運転時には、3つの仮想計算機はスイッチ1210とは繋がっていなくて良い。
これら現用系サーバ1202、1204、1206および待機系サーバ1208は、それぞれ、図3のオペレーションシステム(OS)200、210、220、240が稼動する通信サーバに対応する。
スイッチ1210は、各サーバ1202、1204、1206、1208と外部のインターネット/イントラネット120/140の間に配置されている。各サーバ1202、1204、1206にはそれぞれ、クラスAのIPアドレス、“10.23.4.121”、“10.23.4.122” 、“10.23.4.123”が割り当てられている。これらのクラスAのIPアドレスは、待機系サーバ1208の上で稼動するホストOS#1、#2、#3(それぞれ242、244、246)が稼動するサーバまたは待機系のゲストOS#1、#2、#3対しても付与されている。また、待機系サーバのホストOSに対しては、クラスAのIPアドレス“10.23.4.124”が割り当てられている。
スイッチ1212は、内部保守用のイーサネットワークのスイッチである。各現用系サーバ1202、1204、1206にはそれぞれクラスCのIPアドレス、“192.168.1.1”、“192.168.1.2” 、“192.168.1.3” が割り当てられている。ホストOS230が稼動する待機系サーバ1208には、“192.168.1.4” が割り当てられている。さらに、待機系サーバ1208の上で仮想化機構を用いて実現する仮想計算機のOS、即ちゲストOS#1、#2、#3(それぞれ242、244、246)にはそれぞれ、 “192.168.1.41”、“192.168.1.42”、“192.168.1.43”が割り当てられる。
現用系サーバ1202、1204、1206上で稼動するアプリケーション2002、2102、2202に付随するデータは、サーバシステム110内の各サーバを互いに接続する内部保守イーサネットワークを介して、3つの仮想サーバ上に置かれるデータと同期する。
スイッチ1210またはスイッチ1212は、制御サーバ300として機能する。即ち、スイッチ1210またはスイッチ1212は、監視手段、同期手段、および切替手段を有する。切替手段は、現用系サーバ1202、1204、1206で障害が発生しないかを監視する。同期手段は、現用系サーバ1202、1204、1206と待機系サーバ1208の間でアプリケーションのデータを同期させ、切替手段は、必要に応じてスイッチ1210を制御し、さらに現用系サーバ1202、1204、1206と待機系サーバ1208の運用を制御する機能、特に現用系サーバ1202、1204、1206と待機系サーバ1208の間の系の切り替えを行う機能を有している。スイッチ1212は、現用系サーバ1202、1204、1206および待機系サーバ1208と内部保守イーサネットワークを介して電気的に接続されている。
尚、SR−IOVなど仮想化をサポートしたネットワークカードを利用する場合には、ソフトスイッチはネットワークカードに内蔵されていても良い。
図13は、図11に示されているサーバシステム110のブロック図である。
サーバシステム110は、現用系サーバ1202、1204、1206、および待機系(予備系)のサーバ1208を含む。各サーバ上では、それぞれホストOS200、210、220、230が稼動している。現用系サーバ1202、1204、1206では、ホストOS200、210、220、230の上で直接、アプリケーション2002a〜2002b、2102a〜2102d、2202が稼動する。一方、待機系サーバ1208では、ホストOS230上に仮想化機構を用いて実現された3つの仮想計算機1214、1216、1218が構築され、それぞれゲストOS242、244、246が稼動している。さらに、3つのゲストOS242、244、246上で、それぞれフローエンジン(ミドルウェア)2424、2444、2464とアプリケーション2002a〜2002b、2102a〜2102d、2202が稼動する。つまり、アプリケーション2002a〜2002b、2102a〜2102d、2202は二重化に対応している。本実施例で、ホストOSはLinuxである。しかしながら、ホストOSはLinux(登録商標)には限定されない。また、現用系サーバと待機系サーバのホストOSが同一である必要もないし、複数の現用系サーバのホストOSが同一である必要もなく、同一APIを提供するOSであれば良い。
図14〜16は、上記のようなサーバシステム110のハードウェア構成の例である。
図14は、図12、13のようなシステム構成を有するブレードサーバ400を示している。ブレードサーバ400では、ブレード筐体410内に複数のブレード(図14では4枚のブレード)402、404、406、408が搭載されている。図示されていないが、制御サーバ300の機能を果たすシャーシマネージメントモジュール(CMM)も搭載されていても良い。ブレード402、404、406、408は、ブレード筐体410に抜き差し可能に構成され、ラックに比べて省スペースを図ることが可能である。ブレードサーバ400内の各ブレードはCPUを備えるN+1冗長構成を有する。各ブレード402、404、406、408にはネットワーク接続用の端子、たとえばイーサネット(Ethernet)(登録商標)規格に準拠した端子が設けられている。
図15は、ATCA(Advanced Telecom Computing Architecture)サーバ500を示している。
ATCAサーバ500は、ATCA筐体502、シングルボードコンピュータ(SBC)ブレードまたはパケットプロセッシングボード(PBB)ブレード504、506、508、510、512、514、516、518、シャーシマネージメントモジュール(CMM)520のほか、図示されていない、RTM(Rear Transition Module)等を含み得る。SBCブレードは、CPUを搭載するブレードであり、PBBブレードはパケット処理を行う。図15に示されているATCAサーバ500は、SBCブレードまたはPBBブレードを8枚搭載し、これらのブレードがN+1冗長構成を構築する。RTMは、ブレードとペアで実装される拡張モジュールで、ハードディスクやファイバーチャネル、IP回線などの入出力(I/O)回路を実装する。ATCA筐体502は、前述の各ユニットを搭載する筐体である。CMM520は、ATCA筐体502に搭載された各ユニットの状態監視や制御を行う。CMM520はまた、制御サーバ300の機能を実行し得る。
本例では、制御サーバ300の機能を実行するためにCMM520を備えたが、N+1冗長構成内部の待機系サーバが制御サーバ300の機能を実行しても良い。
図16に示されているATCAサーバ600では、ATCA筐体602に搭載された複数のSBCブレードまたはPBBブレード604、606、608、610、612、614、616、618の一部のみがN+1冗長構成を構築する。具体的には、SBCブレードまたはPBBブレード604、606は二重化構成のサーバを構築し、SBCブレードまたはPBBブレード608、610、612、614、616、618がN+1冗長構成を構築する。
(障害回復処理)
図17〜23を参照しながら、サーバシステム110における障害回復処理について説明する。
図17、18はそれぞれ、サーバシステム110における障害回復処理のフローチャートおよびシーケンス図である。図18のシーケンス図において、待機系サーバ4は、ホストOS230を有するサーバを指す。
S100では、現用系サーバ1202、1204、1206は待機系サーバ1208上の各ゲストOS242、244、246またはゲストOS242、244、246が稼動する仮想サーバ1214、1216、1218とデータを同期する。
S102では、現用系サーバ1204で障害が発生するとする。すると、S104または/およびS106で障害が検出される。より具体的には、S104では、制御サーバ300が現用系サーバ1204の障害を検出する。S106では、現用系サーバ1204のペアである待機系仮想サーバ1216によって現用系サーバ1204の障害が検出される。
次にS108で、現用系サーバ1204に対応する待機系仮想サーバ1216が、現用系仮想サーバとして動作を開始する。このときのシステム図が図19に、ブロック図が図20に示されている。
S108の次のS110では、待機系仮想サーバ1216から待機系サーバ1208に切り替えを実施し、ホストOS230が稼動する待機系サーバ1208が、新たな現用系サーバとして動作を開始する。このときのシステム図が図21に示されている。この待機系仮想サーバ1216から待機系サーバ1208への切り替えは、制御サーバの切替手段によって実行されても良い。しかしながら、この系の切り替えは、同一の物理サーバ上での切り替えなので、制御サーバ300に備えられる切替手段(第一の切替手段)とは別の、仮想化手段に備えられる移動手段(第二の切替手段)によって実行されても良い。
待機系仮想サーバ1216から待機系サーバ1208への切り替えには、上述の引継手段によって実行されても良い。
そしてS112で、待機系サーバ1208は、ホストOS230上で稼動している仮想サーバ1214、1216、1218をシャットダウンする。この仮想サーバのシャットダウンは、制御サーバ300または仮想化手段が備えるシャットダウン手段によって実行される。
図17、18には示されていないが、S112の後、サーバ1204を再起動させ(図22)、サーバ1204において仮想化機構を用いて、障害発生前のサーバ1208と同一の構成を有する新たな待機系サーバを構築しても良い(図23)。図22は、図21に示されているホストOS引き継ぎ後における本発明に従うN+1冗長構成を用いるサーバシステムのブロック図、図23は、本発明のサーバシステムの通常運用復帰後におけるサーバシステムのブロック図である。図23に示されているブロック図は、障害発生前のものと同一である。
待機系仮想サーバ1216から待機系サーバ1208への系の切り替えのタイミングは、第一または第二の切替手段によって判定されても良い。たとえば、制御サーバによって得られる各サーバ、今の場合現用系サーバ1202、1206および待機系仮想サーバ1216の運用状態に関するデータを基に、待機系仮想サーバ1216の処理スピードに不足がある場合にのみ、待機系仮想サーバ1216から待機系サーバ1208への系の切り替えを行っても良い。たとえば、サーバ1208のCPU稼働率を基に系の切り替えを行っても良い。または、待機系仮想サーバ1216の運用状態に関するデータを基に、待機系仮想サーバ1216から待機系サーバ1208への系の切り替え作業が待機系仮想サーバ1216の処理に影響を及ぼさないと判断されたときに行っても良い。たとえば、待機系仮想サーバ1216のトラフィック量が小さいときに系の切り替えを行っても良い。
上記のような構成を採用することによって、待機系物理サーバ上の仮想サーバで現用系物理サーバのOSが稼動するサーバシステムにおいて、現用系とそれに対応する待機系のデータを互いに同期させることによって、コストを抑えつつも、CPU性能やI/O性能を犠牲にせず、障害発生時に早期に回復が可能な、高可用性を有する信頼性が高いサーバシステムを制御する制御サーバを得ることができる。
また、コストを抑えつつも、CPU性能やI/O性能を犠牲にせず、障害発生時に早期に回復が可能な、高可用性を有する信頼性が高い、前記制御サーバによって実行され得る障害回復制御方法を得ることができる。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバの運用状態を監視する監視手段と、
前記現用系物理サーバと、前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバ上の前記現用系物理サーバに対応する前記仮想サーバの一つとの間で前記データの同期を行う同期手段と、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、
を含む制御サーバ。
(付記2)
前記切替手段は、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させる引継手段と、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
を含む付記1の制御サーバ。
(付記3)
さらに、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、付記1または2の制御サーバ。
(付記4)
前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切替手段は、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
請求項1または2の制御サーバ。
(付記5)
データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバの運用状態を監視することと、
前記現用系物理サーバと、前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバ上の前記現用系物理サーバに対応する前記仮想サーバの一つとの間で前記データの同期を行うことと、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行うことと、
を含む障害回復制御方法。
(付記6)
前記切り替えを行うことは、さらに、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させることと、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系サーバへ系の切り替えを行うことと、
を含む付記5の障害回復制御方法。
(付記7)
さらに、前記仮想サーバの少なくとも一つをシャットダウンすることを含む、付記5または6の障害回復制御方法。
(付記8)
前記監視することは、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切り替えを行うことは、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
付記5または6の障害回復制御方法。
(付記9)
データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバと、
仮想サーバを提供する仮想化手段と、前記仮想化手段によって提供される前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバと、
前記現用系物理サーバの運用状態を監視する監視手段と、
前記現用系物理サーバとそれに対応する前記仮想サーバの間で前記データの同期を行う同期手段と、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、
を含む制御サーバと、
を含むサーバシステム。
(付記10)
前記切替手段は、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させる引継手段と、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
を含む付記9のサーバシステム。
(付記11)
データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバと、
仮想サーバを提供する仮想化手段と、前記仮想化手段によって提供される前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバと
前記現用系物理サーバの運用状態を監視する監視手段と、前記現用系物理サーバとそれに対応する前記仮想サーバの間で前記データの同期を行う同期手段を含み、前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、含む制御サーバと、
前記待機系物理サーバの上のデータを前記待機系サーバ上に同期させる引継手段と、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
を含むサーバシステム。
(付記12)
前記制御サーバは、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、付記9乃至11のいずれか一つのサーバシステム。
(付記13)
前記仮想化手段は、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、付記9乃至11のいずれか一つのサーバシステム。
(付記14)
前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切替手段は、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
付記9または10のサーバシステム。
(付記15)
前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記移動手段は、前記前記仮想サーバの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
付記11のサーバシステム。
(付記16)
前記運用状態はCPU稼働率である、付記14または15のサーバシステム。
(付記17)
前記運用状態はパケットのトラフィック量である、付記14または15のサーバシステム。
(付記18)
1つ以上の現用系物理サーバと待機系物理サーバを含むサーバシステムの障害回復方法であって、
前記現用系物理サーバ上で、データの生成、削除、参照を伴って運用されるアプリケーションを運用することと、
前記現用系物理サーバの数と同じ数の仮想サーバを前記待機系物理サーバ上で運用することと、
前記現用系物理サーバの運用状態を監視することと、
前記現用系物理サーバとそれに対応する前記仮想サーバの一つとの間で前記データの同期を行うことと、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行うことと、
を含む障害回復方法。
(付記19)
前記切り替えを行うことは、さらに、
前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させることと、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行うことと、
を含む付記18の障害回復方法。
(付記20)
1つ以上の現用系物理サーバと待機系物理サーバを含むサーバシステムの障害回復方法であって、
前記現用系物理サーバ上で、データの生成、削除、参照を伴って運用されるアプリケーションを運用することと、
前記現用系物理サーバの数と同じ数の仮想サーバを前記待機系物理サーバ上で運用することと、
前記現用系物理サーバの運用状態を監視することと、
前記現用系物理サーバとそれに対応する前記仮想サーバの一つとの間で前記データの同期を行うことと、
前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行うことと、
前記待機系物理サーバの上のデータを前記待機系サーバ上に同期させることと、
前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行うことと、
を含む障害回復方法。
(付記21)
さらに、前記仮想サーバの少なくとも一つをシャットダウンすることを含む、付記18乃至20のいずれか一つの障害回復方法。
(付記22)
前記監視することは、少なくとも前記仮想サーバの一つの運用状態を監視し、
前記切り替えを行うことは、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
付記18または19の障害回復方法。
(付記23)
前記運用状態はCPU稼働率である、付記22の障害回復方法。
(付記24)
前記運用状態はパケットのトラフィック量である、付記22の障害回復方法。
10 ネットワークシステム
100a、100b(100)、110、400、500 網間ゲートウェイサーバ
120 インターネット
130a、130b、130c(130) ネットワーク機器運用制御サーバ
140a、140b(140) イントラネット
200、210、220、230 242、244、246、248、250、252 オペレーティングシステム
2002a、2002b(2002)、2102a、2102b、2102c、2102d(2102)、2202、2302、2422、2442、2462 アプリケーション
2004、2104、2204、2304、2424、2444、2464 データ
2444、2484、2504、2524 ミドルウェア
300 制御サーバ
1202、1204、1206、1208 サーバ
1210、1212 スイッチ
1214、1216、1218 仮想サーバ
248 ソフトスイッチ
400 ブレードサーバ
402、404、406、408 ブレード
410 ブレード筐体
500 ATCAサーバ
504、506、508、510、512、514、516、518 シングルボードコンピュータ(SBC)ブレードまたはパケットプロセッシングボード(PBB)ブレード
520 シャーシマネージメントモジュール(CMM)

Claims (15)

  1. データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバの運用状態を監視する監視手段と、
    前記現用系物理サーバと、前記現用系物理サーバの数と同じ数の仮想サーバを含む待機系物理サーバ上の前記現用系物理サーバに対応する前記仮想サーバの一つとの間で前記データの同期を行う同期手段と、
    前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、
    を含むサーバ。
  2. 前記切替手段は、
    前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させる引継手段と、
    前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
    を含む請求項1のサーバ。
  3. さらに、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、請求項1または2のサーバ。
  4. 前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
    前記切替手段は、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
    請求項1または2のサーバ。
  5. データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバと、
    仮想サーバを提供する仮想化手段と、前記仮想化手段によって提供される前記現用系サーバの数と同じ数の仮想サーバを含む待機系物理サーバと、
    前記現用系物理サーバの運用状態を監視する監視手段と、
    前記現用系物理サーバとそれに対応する前記仮想サーバの間で前記データの同期を行う同期手段と、
    前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、
    を含む制御サーバと、
    を含むサーバシステム。
  6. 前記切替手段は、
    前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させる引継手段と、
    前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
    を含む請求項1のサーバシステム。
  7. データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバと、
    前記現用系サーバの数と同じ数の仮想サーバを含む待機系物理サーバと
    前記現用系物理サーバの運用状態を監視する監視手段と、前記現用系物理サーバとそれに対応する前記仮想サーバの間で前記データの同期を行う同期手段を含み、前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行う切替手段と、含む制御サーバと、
    前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させる引継手段と、
    前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを行う移動手段と、
    を含むサーバシステム。
  8. 前記制御サーバは、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、請求項1乃至3のいずれか一つのサーバシステム。
  9. 前記仮想化手段は、前記仮想サーバの少なくとも一つをシャットダウンするシャットダウン手段を含む、請求項1乃至3のいずれか一つのサーバシステム。
  10. 前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
    前記切替手段は、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系サーバへ系の切り替えを開始する、
    請求項1または2のサーバシステム。
  11. 前記監視手段は、少なくとも前記仮想サーバの一つの運用状態を監視し、
    前記移動手段は、前記前記仮想サーバの運用状態に基づいて、前記仮想サーバの一つから前記待機系サーバへ系の切り替えを開始する、
    請求項3のサーバシステム。
  12. データの生成、削除、参照を伴って運用されるアプリケーションが運用される1つ以上の現用系物理サーバの運用状態を監視することと、
    前記現用系物理サーバと、前記現用系サーバの数と同じ数の仮想サーバを含む待機系物理サーバ上の、前記現用系物理サーバに対応する前記仮想サーバの一つとの間で前記データの同期を行うことと、
    前記監視手段が前記現用系物理サーバの一つの運用状態に障害が生じたことを見つけたときに、前記現用系物理サーバの一つに対応する前記仮想サーバの一つの上で、前記現用系物理サーバの一つで運用されていた前記アプリケーションを起動し、前記同期手段によって前記現用系物理サーバ上の前記データと同期していた前記仮想サーバの一つの上の前記データの一つを参照しつつ、前記アプリケーションを運用し、さらに、前記仮想サーバの一つから前記待機系物理サーバに系の切り替えを行うことと、
    を含む障害回復制御方法。
  13. 前記切り替えを行うことは、さらに、
    前記待機系物理サーバの上のデータを前記待機系物理サーバ上に同期させることと、
    前記待機系物理サーバの上で前記アプリケーションを起動し、前記仮想サーバの一つから前記待機系物理サーバへ系の切替を行うことと、
    を含む請求項12の障害回復制御方法。
  14. さらに、前記仮想サーバの少なくとも一つをシャットダウンすることを含む、請求項12または13の障害回復制御方法。
  15. 前記監視することは、少なくとも前記仮想サーバの一つの運用状態を監視し、
    前記切替を行うことは、前記仮想サーバの一つの運用状態に基づいて、前記仮想サーバの一つから前記待機系物理サーバへ系の切り替えを開始する、
    請求項12または13の障害回復制御方法。
JP2011171028A 2011-08-04 2011-08-04 サーバ、サーバシステムおよびサーバの冗長切り替え方法 Expired - Fee Related JP5817308B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011171028A JP5817308B2 (ja) 2011-08-04 2011-08-04 サーバ、サーバシステムおよびサーバの冗長切り替え方法
US13/564,052 US9032241B2 (en) 2011-08-04 2012-08-01 Server, server system, and method for controlling recovery from a failure

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011171028A JP5817308B2 (ja) 2011-08-04 2011-08-04 サーバ、サーバシステムおよびサーバの冗長切り替え方法

Publications (2)

Publication Number Publication Date
JP2013037433A true JP2013037433A (ja) 2013-02-21
JP5817308B2 JP5817308B2 (ja) 2015-11-18

Family

ID=47627737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011171028A Expired - Fee Related JP5817308B2 (ja) 2011-08-04 2011-08-04 サーバ、サーバシステムおよびサーバの冗長切り替え方法

Country Status (2)

Country Link
US (1) US9032241B2 (ja)
JP (1) JP5817308B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014139706A (ja) * 2013-01-21 2014-07-31 Nec Corp フォールトトレラントシステム
US20140240724A1 (en) * 2013-02-27 2014-08-28 Toshiba Tec Kabushiki Kaisha Image forming apparatus
JP2015130134A (ja) * 2014-01-09 2015-07-16 日本電気株式会社 情報処理装置、情報処理システム、メモリレプリケーション方法、並びにコンピュータ・プログラム
KR101713034B1 (ko) * 2016-05-30 2017-03-09 주식회사 씨엠테스 비가시성 가상볼륨을 이용한 서버 이중화 시스템
JP2017134668A (ja) * 2016-01-28 2017-08-03 富士通株式会社 情報処理システム、情報処理システムの制御方法および管理装置の制御プログラム
US10089200B2 (en) 2014-03-07 2018-10-02 Mitsubishi Electric Corporation Computer apparatus and computer mechanism
US11232007B2 (en) 2018-04-10 2022-01-25 Fujitsu Limited Server system and method of switching server

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053026B2 (en) * 2013-02-05 2015-06-09 International Business Machines Corporation Intelligently responding to hardware failures so as to optimize system performance
US9727357B2 (en) 2013-10-01 2017-08-08 International Business Machines Corporation Failover detection and treatment in checkpoint systems
US10027600B2 (en) * 2014-09-10 2018-07-17 Artesyn Embedded Computing, Inc. Time-division multiplexing data aggregation over high speed serializer/deserializer lane
US11327779B2 (en) * 2015-03-25 2022-05-10 Vmware, Inc. Parallelized virtual machine configuration
US10324747B1 (en) * 2016-12-13 2019-06-18 EMC IP Holding Company LLC Distributed configuration checking and troubleshooting in data center using best practices rules
US11099925B2 (en) * 2018-07-10 2021-08-24 EMC IP Holding Company LLC Datacenter preemptive measures for improving protection using IoT sensors
US11106528B2 (en) 2018-10-10 2021-08-31 EMC IP Holding Company LLC Datacenter IoT-triggered preemptive measures using machine learning
US11436111B2 (en) * 2019-10-03 2022-09-06 Cisco Technology, Inc. Highly-available distributed network address translation (NAT) architecture with failover solutions
CN113760610A (zh) * 2020-06-01 2021-12-07 富泰华工业(深圳)有限公司 基于OpenStack的裸机高可用性的实现方法、装置及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306349A (ja) * 2000-04-27 2001-11-02 Mitsubishi Electric Corp バックアップ装置及びバックアップ方法
JP2005250839A (ja) * 2004-03-04 2005-09-15 Nomura Research Institute Ltd 耐障害性システム
US20070079102A1 (en) * 2005-09-30 2007-04-05 International Business Machines Corporation Assigning a processor to a logical partition
JP2008276320A (ja) * 2007-04-25 2008-11-13 Nec Corp 仮想システム制御方法およびコンピュータシステム
JP2008293245A (ja) * 2007-05-24 2008-12-04 Hitachi Ltd フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法
JP2010003022A (ja) * 2008-06-19 2010-01-07 Fujitsu Ltd ファイル更新方法
JP2010211819A (ja) * 2010-04-26 2010-09-24 Hitachi Ltd 障害回復方法
JP2011086316A (ja) * 2011-01-31 2011-04-28 Hitachi Ltd 引継方法、計算機システム及び管理サーバ
US20110154332A1 (en) * 2009-12-22 2011-06-23 Fujitsu Limited Operation management device and operation management method
US20110321041A1 (en) * 2010-06-29 2011-12-29 Bhat Santhosh R Method and system for migrating a virtual machine

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306349A (ja) * 2000-04-27 2001-11-02 Mitsubishi Electric Corp バックアップ装置及びバックアップ方法
JP2005250839A (ja) * 2004-03-04 2005-09-15 Nomura Research Institute Ltd 耐障害性システム
US20070079102A1 (en) * 2005-09-30 2007-04-05 International Business Machines Corporation Assigning a processor to a logical partition
JP2009510572A (ja) * 2005-09-30 2009-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション ロジカル・パーティションにプロセッサを割り当てるための方法、装置、およびプログラム
JP2008276320A (ja) * 2007-04-25 2008-11-13 Nec Corp 仮想システム制御方法およびコンピュータシステム
JP2008293245A (ja) * 2007-05-24 2008-12-04 Hitachi Ltd フェイルオーバ方法、計算機システム、管理サーバ及び予備サーバの設定方法
JP2010003022A (ja) * 2008-06-19 2010-01-07 Fujitsu Ltd ファイル更新方法
US20110154332A1 (en) * 2009-12-22 2011-06-23 Fujitsu Limited Operation management device and operation management method
JP2011134010A (ja) * 2009-12-22 2011-07-07 Fujitsu Ltd 運用管理プログラム、運用管理装置および運用管理方法
JP2010211819A (ja) * 2010-04-26 2010-09-24 Hitachi Ltd 障害回復方法
US20110321041A1 (en) * 2010-06-29 2011-12-29 Bhat Santhosh R Method and system for migrating a virtual machine
JP2011086316A (ja) * 2011-01-31 2011-04-28 Hitachi Ltd 引継方法、計算機システム及び管理サーバ

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014139706A (ja) * 2013-01-21 2014-07-31 Nec Corp フォールトトレラントシステム
US20140240724A1 (en) * 2013-02-27 2014-08-28 Toshiba Tec Kabushiki Kaisha Image forming apparatus
US9158220B2 (en) * 2013-02-27 2015-10-13 Kabushiki Kaisha Toshiba Image forming apparatus
JP2015130134A (ja) * 2014-01-09 2015-07-16 日本電気株式会社 情報処理装置、情報処理システム、メモリレプリケーション方法、並びにコンピュータ・プログラム
US10089200B2 (en) 2014-03-07 2018-10-02 Mitsubishi Electric Corporation Computer apparatus and computer mechanism
JP2017134668A (ja) * 2016-01-28 2017-08-03 富士通株式会社 情報処理システム、情報処理システムの制御方法および管理装置の制御プログラム
KR101713034B1 (ko) * 2016-05-30 2017-03-09 주식회사 씨엠테스 비가시성 가상볼륨을 이용한 서버 이중화 시스템
US11232007B2 (en) 2018-04-10 2022-01-25 Fujitsu Limited Server system and method of switching server

Also Published As

Publication number Publication date
US20130036324A1 (en) 2013-02-07
JP5817308B2 (ja) 2015-11-18
US9032241B2 (en) 2015-05-12

Similar Documents

Publication Publication Date Title
JP5817308B2 (ja) サーバ、サーバシステムおよびサーバの冗長切り替え方法
US11687422B2 (en) Server clustering in a computing-on-demand system
CN114946166B (zh) 在包括云边缘位置的异构计算环境中的动态资源移动的方法和系统
US9600380B2 (en) Failure recovery system and method of creating the failure recovery system
US8037180B2 (en) Centralized control plane appliance for virtual infrastructure
CN110633170A (zh) 本地化服务恢复
CN109861839B (zh) 业务不中断的虚拟交换机升级方法以及相关设备
CN103761166A (zh) 一种虚拟化环境下针对网络服务的双机热备份容灾系统及其方法
US9992058B2 (en) Redundant storage solution
JP2012527023A (ja) ファイバ・チャネル・ファブリックへのアクセスの変更
US11349706B2 (en) Two-channel-based high-availability
US11153269B2 (en) On-node DHCP implementation for virtual machines
US20230185680A1 (en) Cloud restart for vm failover and capacity management
JP5262145B2 (ja) クラスタシステムおよび情報処理方法
EP3038296A1 (en) Pool element status information synchronization method, pool register and pool element
JP2012190175A (ja) フォールトトレラントシステム、サーバ、フォールトトレラント化方法およびプログラム
CN114785807A (zh) 一种数据处理方法、装置、电子设备及存储介质
Guay et al. Early experiences with live migration of SR-IOV enabled InfiniBand
US20170185445A1 (en) High availability service virtual machine in virtualization environment
US11349702B2 (en) Communication apparatus, system, rollback method, and non-transitory medium
Kawahara et al. The Continuity of Out-of-band Remote Management across Virtual Machine Migration in Clouds
CN115904608A (zh) 控制平面配置
US10168903B2 (en) Methods for dynamically managing access to logical unit numbers in a distributed storage area network environment and devices thereof
US11966306B1 (en) Availability zone recovery using virtual private clouds
EP4333396A1 (en) Facilitating elasticy of a network device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150914

R150 Certificate of patent or registration of utility model

Ref document number: 5817308

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees