JP6056554B2 - クラスタシステム - Google Patents
クラスタシステム Download PDFInfo
- Publication number
- JP6056554B2 JP6056554B2 JP2013042016A JP2013042016A JP6056554B2 JP 6056554 B2 JP6056554 B2 JP 6056554B2 JP 2013042016 A JP2013042016 A JP 2013042016A JP 2013042016 A JP2013042016 A JP 2013042016A JP 6056554 B2 JP6056554 B2 JP 6056554B2
- Authority
- JP
- Japan
- Prior art keywords
- server
- active server
- fencing
- disk
- standby
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2089—Redundant storage control functionality
- G06F11/2092—Techniques of failing over between control units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2046—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
Description
現用系サーバから待機系サーバにフェイルオーバを実行する場合は、現用系サーバからの共有ディスクアクセスを確実に停止した後に、待機系サーバで業務アプリケーションを起動する必要がある。
サーバ間のネットワークの障害によりクラスタがお互いの状態を認識できないスプリットブレイン状態になった場合は、共有ディスクへのアクセスの有無により、業務アプリケーションを切り替えるサーバを決定する仕組み(スプリットブレイン解決)がある。このスプリットブレイン解決方式では、ネットワーク機器に障害が発生したサーバが共有ディスクへアクセスを行うと、障害サーバが健全に作動していると誤認識するおそれがあり、障害サーバから確実に共有ディスクにアクセスできないようにする必要がある。
相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備え、
前記現用系サーバは、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えており、
前記現用系サーバの前記制御装置は、前記待機系サーバと通信を行う通信モジュールと、前記現用系サーバの障害発生時に前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する初期化モジュールと、を備え、
前記待機系サーバは、前記現用系サーバの前記制御装置から前記I/Oフェンシングが完了した旨の通知を受けて、前記待機系サーバ上における前記アプリケーションにて前記現用系サーバ上における前記アプリケーションによる処理を引き継ぐフェイルオーバ処理機能を有する、
という構成をとる。
相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムにおける前記現用系サーバであって、
前記現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えており、
前記制御装置は、前記待機系サーバと通信を行う通信モジュールと、前記現用系サーバの障害発生時に前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する初期化モジュールと、を備えた、
という構成をとる。
相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムにおける前記現用系サーバが、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えると共に、当該制御装置は、前記待機系サーバと通信を行う通信モジュールを備えており、
前記制御装置に、前記現用系サーバの障害発生時に前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する初期化モジュールによる処理、
を実行させるためのプログラムである。
相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムによるフェイルオーバ方法であって、
前記現用系サーバは、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えると共に、当該制御装置は、前記待機系サーバと通信を行う通信モジュールを備えており、
前記現用系サーバの前記制御装置は、前記現用系サーバの障害発生時に、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行い、当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知し、
前記待機系サーバは、前記現用系サーバの前記制御装置から前記I/Oフェンシングが完了した旨の通知を受けて、前記待機系サーバ上における前記アプリケーションにて前記現用系サーバ上における前記アプリケーションによる処理を引き継ぐ、
という構成をとる。
相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムによるフェイルオーバ方法であって、
前記現用系サーバは、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えると共に、当該制御装置は、前記待機系サーバと通信を行う通信モジュールを備えており、
前記現用系サーバの前記制御装置は、前記現用系サーバの障害発生時に、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行い、当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
という構成をとる。
本発明の第1の実施形態を、図1乃至図9を参照して説明する。図1は、クラスタシステムの構成を示す図であり、図2乃至図9は、クラスタシステムの動作を示す図である。
本実施形態におけるクラスタシステム1は、共有ディスクを備えたフェイルオーバ型のクラスタシステムである。このクラスタシステム1は、図1に示すように、現用系サーバ10と待機系サーバ20とを備えており、これら両サーバ10,20にてアクセス可能であり共有される共有ディスク50を備えて構成されている。
次に、上述したクラスタシステムの動作を、図2乃至図9を参照して説明する。以下では、クラスタシステムの動作を、次の4種類のケースに分けて説明する。
(1)クラスタ起動
(2)クラスタソフトウェアが自サーバの障害を検出したケース
(3)BMCが自サーバのHW障害を検出したケース
(4)クラスタソフトウェアが、他サーバの停止を検出したケース
まず、クラスタシステムが起動したときの動作を、図2のフローチャート、及び、図3の点線矢印を参照して説明する。
次に、クラスタソフトウェアが自サーバの障害を検出したときの動作を、図4のフローチャート、及び、図5の点線矢印を参照して説明する。本障害ケースでは、現用系サーバ10上のクラスタソフトウェア30を構成する障害検出モジュール33が障害を検出する。本ケースにおける障害は、業務アプリケーションの消滅、NICドライバやディスクドライバなどのドライバレベルで検出される障害など、ソフトウェアレベルで検出可能な障害である。
次に、現用系サーバ10のBMC40が、自サーバのHW障害を検出したときの動作を、図6のフローチャート、及び、図7の点線矢印を参照して説明する。
次に、待機系サーバ60のクラスタソフトウェア80が、現用系サーバの障害を検出したときの動作を、図8のフローチャート、及び、図9の点線矢印を参照して説明する。
まず、共有ディスクアクセスの排他制御の確実性が向上する。これは、上述したように、BMCおよびHWレベルでPCIカードをリセットするためであり、ソフトウェアレベルでI/Oフェンシングを制御するよりも確実にI/Oを停止可能である。たとえば、ソフトウェアレベルでは、カードにキューイングされているI/Oを障害発生時に停止することは困難である。また、OSがストールまたは停止していると判断される障害サーバに対して、外部のサーバがI/Oフェンシングの命令を行うことで、確実にI/Oフェンシングを実行できる。
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明におけるクラスタシステム(図10参照)、現用系サーバ、プログラム、フェイルオーバ方法の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
相互に同一のアプリケーション111,211を実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ100及び待機系サーバ200と、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスク300と、を備え、
前記現用系サーバ100は、当該現用系サーバに組み込まれたオペレーティングシステム110の影響を受けずに作動する制御装置120と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置130と、を備えており、
前記現用系サーバ100の前記制御装置120は、前記待機系サーバと通信を行う通信モジュール121と、前記現用系サーバの障害発生時に前記ディスク入出力装置130を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュール121を介して前記待機系サーバ200に通知する初期化モジュール122と、を備え、
前記待機系サーバ200は、前記現用系サーバの前記制御装置から前記I/Oフェンシングが完了した旨の通知を受けて、前記待機系サーバ上における前記アプリケーションにて前記現用系サーバ上における前記アプリケーションによる処理を引き継ぐフェイルオーバ処理機能を有する、
クラスタシステム。
付記1に記載のクラスタシステムであって、
前記現用系サーバは、当該現用系サーバにて作動しているソフトウェアの障害発生を検出して前記制御装置の前記通知モジュールに通知する障害検出モジュールを備え、
前記制御装置の前記初期化モジュールは、前記障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
クラスタシステム。
付記1又は2に記載のクラスタシステムであって、
前記現用系サーバの前記制御装置は、当該現用系サーバに装備されたハードウェアの障害発生を検出して前記制御装置の前記初期化モジュールに通知するハードウェア障害検出モジュールを備え、
前記制御装置の前記初期化モジュールは、前記ハードウェア障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
クラスタシステム。
付記1乃至3のいずれかに記載のクラスタシステムであって、
前記待機系サーバは、前記現用系サーバにおける障害発生を検出して、前記現用系サーバの前記初期化モジュールに通知する待機系側障害検出モジュールを備え、
前記現用系サーバの前記初期化モジュールは、前記待機系サーバの前記待機系側障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
クラスタシステム。
付記1乃至4のいずれかに記載のクラスタシステムであって、
前記初期化モジュールは、前記ディスク入出力装置にアクセスするためのアクセス情報と、前記待機系サーバに情報を通知するためのアドレス情報と、を記憶保持しており、前記アクセス情報に基づいて前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記アドレス情報に基づいて前記通信モジュールを介して前記待機系サーバに通知する、
クラスタシステム。
付記5に記載のクラスタシステムであって、
前記現用系サーバは、当該現用系サーバの起動時に、前記アクセス情報及び前記アドレス情報が予め設定された設定ファイルを読み出し、当該設定ファイルに設定されている前記アクセス情報及び前記アドレス情報を前記制御装置の前記初期化モジュールに通知し、
前記初期化モジュールは、通知された前記アクセス情報及び前記アドレス情報を記憶保持する、
クラスタシステム。
相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムにおける前記現用系サーバであって、
前記現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えており、
前記制御装置は、前記待機系サーバと通信を行う通信モジュールと、前記現用系サーバの障害発生時に前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する初期化モジュールと、を備えた、
現用系サーバ。
付記7に記載の現用系サーバであって、
前記現用系サーバは、当該現用系サーバにて作動しているソフトウェアの障害発生を検出して前記初期化モジュールに通知する障害検出モジュールを備え、
前記初期化モジュールは、前記障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
現用系サーバ。
付記7又は7−2に記載の現用系サーバであって、
前記制御装置は、当該現用系サーバに装備されたハードウェアの障害発生を検出して前記初期化モジュールに通知するハードウェア障害検出モジュールを備え、
前記初期化モジュールは、前記ハードウェア障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
現用系サーバ。
付記7乃至7−3のいずれかに記載の現用系サーバであって、
前記待機系サーバが、前記現用系サーバにおける障害発生を検出して、前記現用系サーバの前記初期化モジュールに通知する待機系側障害検出モジュールを備えており、
前記初期化モジュールは、前記待機系サーバの前記待機系側障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
現用系サーバ。
相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムにおける前記現用系サーバが、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えると共に、当該制御装置は、前記待機系サーバと通信を行う通信モジュールを備えており、
前記制御装置に、前記現用系サーバの障害発生時に前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する初期化モジュールによる処理、
を実行させるためのプログラム。
付記8に記載のプログラムであって、
前記現用系サーバは、当該現用系サーバにて作動しているソフトウェアの障害発生を検出して前記初期化モジュールに通知する障害検出モジュールを備えており、
前記初期化モジュールは、前記障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
プログラム。
付記8又は8−2に記載のプログラムであって、
前記制御装置は、当該現用系サーバに装備されたハードウェアの障害発生を検出して前記初期化モジュールに通知するハードウェア障害検出モジュールを備えており、
前記初期化モジュールは、前記ハードウェア障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
プログラム。
付記8乃至8−3のいずれかに記載のプログラムであって、
前記待機系サーバは、前記現用系サーバにおける障害発生を検出して、前記現用系サーバの前記初期化モジュールに通知する待機系側障害検出モジュールを備えており、
前記現用系サーバの前記初期化モジュールは、前記待機系サーバの前記待機系側障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
プログラム。
相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムによるフェイルオーバ方法であって、
前記現用系サーバは、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えると共に、当該制御装置は、前記待機系サーバと通信を行う通信モジュールを備えており、
前記現用系サーバの前記制御装置は、前記現用系サーバの障害発生時に、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行い、当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知し、
前記待機系サーバは、前記現用系サーバの前記制御装置から前記I/Oフェンシングが完了した旨の通知を受けて、前記待機系サーバ上における前記アプリケーションにて前記現用系サーバ上における前記アプリケーションによる処理を引き継ぐ、
フェイルオーバ方法。
付記9に記載のフェイルオーバ方法であって、
前記現用系サーバは、当該現用系サーバにて作動しているソフトウェアの障害発生を検出して前記制御装置に通知し、
前記現用系サーバの前記制御装置は、前記現用系サーバにて作動しているソフトウェアの障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
フェイルオーバ方法。
付記9又は9−2に記載のフェイルオーバ方法であって、
前記現用系サーバの前記制御装置は、当該現用系サーバに装備されたハードウェアの障害発生を検出すると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
フェイルオーバ方法。
付記9乃至9−3のいずれかに記載のフェイルオーバ方法であって、
前記待機系サーバは、前記現用系サーバにおける障害発生を検出して、前記現用系サーバの前記制御装置に通知し、
前記現用系サーバの前記制御装置は、前記待機系サーバから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
フェイルオーバ方法。
相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムによるフェイルオーバ方法であって、
前記現用系サーバは、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えると共に、当該制御装置は、前記待機系サーバと通信を行う通信モジュールを備えており、
前記現用系サーバの前記制御装置は、前記現用系サーバの障害発生時に、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行い、当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
フェイルオーバ方法。
11 PCIカード
20 OS
30 クラスタソフトウェア
31 サーバ管理モジュール
32 HBモジュール
33 障害検出モジュール
34 サーバ制御モジュール
35 通知受信モジュール
40 BMC
41 BMC制御モジュール
42 IPMI受信モジュール
43 フェンシング制御モジュール
44 通知送信モジュール
45 HW障害検出モジュール
50 共有ディスク
60 待機系サーバ
61 PCIカード
70 OS
80 クラスタソフトウェア
81 サーバ管理モジュール
82 HBモジュール
83 障害検出モジュール
84 サーバ制御モジュール
85 通知受信モジュール
90 BMC
91 BMC制御モジュール
92 IPMI受信モジュール
93 フェンシング制御モジュール
94 通知送信モジュール
95 HW障害検出モジュール
100 現用系サーバ
110 OS
111 アプリケーション
120 制御装置
121 通信モジュール
122 初期化モジュール
130 入出力装置
200 待機系サーバ
210 OS
211 アプリケーション
300 共有ディスク
Claims (10)
- 相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備え、
前記現用系サーバは、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えており、
前記現用系サーバの前記制御装置は、前記待機系サーバと通信を行う通信モジュールと、前記現用系サーバの障害発生時に前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する初期化モジュールと、を備え、
前記待機系サーバは、前記現用系サーバの前記制御装置から前記I/Oフェンシングが完了した旨の通知を受けて、前記待機系サーバ上における前記アプリケーションにて前記現用系サーバ上における前記アプリケーションによる処理を引き継ぐフェイルオーバ処理機能を有する、
クラスタシステム。 - 請求項1に記載のクラスタシステムであって、
前記現用系サーバは、当該現用系サーバにて作動しているソフトウェアの障害発生を検出して前記制御装置の前記通知モジュールに通知する障害検出モジュールを備え、
前記制御装置の前記初期化モジュールは、前記障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
クラスタシステム。 - 請求項1又は2に記載のクラスタシステムであって、
前記現用系サーバの前記制御装置は、当該現用系サーバに装備されたハードウェアの障害発生を検出して前記制御装置の前記初期化モジュールに通知するハードウェア障害検出モジュールを備え、
前記制御装置の前記初期化モジュールは、前記ハードウェア障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
クラスタシステム。 - 請求項1乃至3のいずれかに記載のクラスタシステムであって、
前記待機系サーバは、前記現用系サーバにおける障害発生を検出して、前記現用系サーバの前記初期化モジュールに通知する待機系側障害検出モジュールを備え、
前記現用系サーバの前記初期化モジュールは、前記待機系サーバの前記待機系側障害検出モジュールから前記現用系サーバにおける障害発生の通知を受けると、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
クラスタシステム。 - 請求項1乃至4のいずれかに記載のクラスタシステムであって、
前記初期化モジュールは、前記ディスク入出力装置にアクセスするためのアクセス情報と、前記待機系サーバに情報を通知するためのアドレス情報と、を記憶保持しており、前記アクセス情報に基づいて前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記アドレス情報に基づいて前記通信モジュールを介して前記待機系サーバに通知する、
クラスタシステム。 - 請求項5に記載のクラスタシステムであって、
前記現用系サーバは、当該現用系サーバの起動時に、前記アクセス情報及び前記アドレス情報が予め設定された設定ファイルを読み出し、当該設定ファイルに設定されている前記アクセス情報及び前記アドレス情報を前記制御装置の前記初期化モジュールに通知し、
前記初期化モジュールは、通知された前記アクセス情報及び前記アドレス情報を記憶保持する、
クラスタシステム。 - 相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムにおける前記現用系サーバであって、
前記現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えており、
前記制御装置は、前記待機系サーバと通信を行う通信モジュールと、前記現用系サーバの障害発生時に前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する初期化モジュールと、を備えた、
現用系サーバ。 - 相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムにおける前記現用系サーバが、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えると共に、当該制御装置は、前記待機系サーバと通信を行う通信モジュールを備えており、
前記制御装置に、前記現用系サーバの障害発生時に前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行うと共に当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する初期化モジュールによる処理、
を実行させるためのプログラム。 - 相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムによるフェイルオーバ方法であって、
前記現用系サーバは、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えると共に、当該制御装置は、前記待機系サーバと通信を行う通信モジュールを備えており、
前記現用系サーバの前記制御装置は、前記現用系サーバの障害発生時に、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行い、当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知し、
前記待機系サーバは、前記現用系サーバの前記制御装置から前記I/Oフェンシングが完了した旨の通知を受けて、前記待機系サーバ上における前記アプリケーションにて前記現用系サーバ上における前記アプリケーションによる処理を引き継ぐ、
フェイルオーバ方法。 - 相互に同一のアプリケーションを実行し当該アプリケーションによる他方の処理を引き継ぐことが可能なフェイルオーバ機能を有する現用系サーバ及び待機系サーバと、当該現用系サーバ及び待機系サーバにて共有可能なデータを記憶する共有ディスクと、を備えたクラスタシステムによるフェイルオーバ方法であって、
前記現用系サーバは、当該現用系サーバに組み込まれたオペレーティングシステムの影響を受けずに作動する制御装置と、前記共有ディスクに接続し当該共有ディスクに対するデータの入出力を行うディスク入出力装置と、を備えると共に、当該制御装置は、前記待機系サーバと通信を行う通信モジュールを備えており、
前記現用系サーバの前記制御装置は、前記現用系サーバの障害発生時に、前記ディスク入出力装置を初期化することにより前記共有ディスクに対するI/Oフェンシングを行い、当該I/Oフェンシングが完了した旨を前記通信モジュールを介して前記待機系サーバに通知する、
フェイルオーバ方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013042016A JP6056554B2 (ja) | 2013-03-04 | 2013-03-04 | クラスタシステム |
US14/196,393 US9235484B2 (en) | 2013-03-04 | 2014-03-04 | Cluster system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013042016A JP6056554B2 (ja) | 2013-03-04 | 2013-03-04 | クラスタシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014170394A JP2014170394A (ja) | 2014-09-18 |
JP6056554B2 true JP6056554B2 (ja) | 2017-01-11 |
Family
ID=51421646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013042016A Active JP6056554B2 (ja) | 2013-03-04 | 2013-03-04 | クラスタシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9235484B2 (ja) |
JP (1) | JP6056554B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6205898B2 (ja) * | 2013-06-27 | 2017-10-04 | 富士通株式会社 | 制御方法、制御プログラムおよび情報処理システム |
JP2016177642A (ja) * | 2015-03-20 | 2016-10-06 | 株式会社リコー | 情報処理装置、情報処理システム、プログラム及び画像処理システム |
JP6424134B2 (ja) * | 2015-04-23 | 2018-11-14 | 株式会社日立製作所 | 計算機システム及び計算機システムの制御方法 |
US10341252B2 (en) * | 2015-09-30 | 2019-07-02 | Veritas Technologies Llc | Partition arbitration optimization |
US10089028B2 (en) * | 2016-05-27 | 2018-10-02 | Dell Products L.P. | Remote secure drive discovery and access |
US9612927B1 (en) | 2016-09-14 | 2017-04-04 | International Business Machines Corporation | Managing server processes with proxy files |
US10671403B2 (en) * | 2017-02-17 | 2020-06-02 | Lenovo (Beijing) Co., Ltd. | Method and apparatus for identifying hardware device in operating system |
JP7056868B2 (ja) * | 2017-12-19 | 2022-04-19 | 日本電気通信システム株式会社 | システム、計算機、システム制御方法及びプログラム |
CN108768730B (zh) * | 2018-05-31 | 2022-05-31 | 北京百度网讯科技有限公司 | 用于操作智能网卡的方法和装置 |
US10909008B2 (en) * | 2018-12-17 | 2021-02-02 | Ribbon Communications Operating Company, Inc. | Methods and apparatus for detecting, eliminating and/or mitigating split brain occurrences in high availability systems |
CN110333972A (zh) * | 2019-07-03 | 2019-10-15 | 深信服科技股份有限公司 | 共享磁盘管理方法、装置、设备及存储介质 |
US11403001B2 (en) * | 2020-04-30 | 2022-08-02 | EMC IP Holding Company, LLC | System and method for storage system node fencing |
JP2023104302A (ja) * | 2022-01-17 | 2023-07-28 | 株式会社日立製作所 | クラスタシステム、復旧方法 |
CN116170286B (zh) * | 2023-04-25 | 2023-09-15 | 陕西盛禾汇达网络科技有限公司 | 基于区块链的网络安全服务器及控制系统 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06325008A (ja) * | 1993-03-17 | 1994-11-25 | Hitachi Ltd | リセット機能を備えるコンピュータシステム |
JPH08185379A (ja) * | 1994-12-29 | 1996-07-16 | Nec Corp | パラレルプロセッシングシステム |
US5996075A (en) * | 1995-11-02 | 1999-11-30 | Sun Microsystems, Inc. | Method and apparatus for reliable disk fencing in a multicomputer system |
EP1368742A4 (en) * | 2001-02-13 | 2010-09-01 | Candera Inc | STORAGE VIRTUALIZATION AND STORAGE MANAGEMENT FOR PROVIDING HIGHER STORAGE SERVICES |
JP2002312297A (ja) * | 2001-04-18 | 2002-10-25 | Nec Corp | Pciホスト・バス・ブリッジ・システム初期化方式 |
US7254736B2 (en) * | 2002-12-18 | 2007-08-07 | Veritas Operating Corporation | Systems and method providing input/output fencing in shared storage environments |
US7739541B1 (en) * | 2003-07-25 | 2010-06-15 | Symantec Operating Corporation | System and method for resolving cluster partitions in out-of-band storage virtualization environments |
JP4426321B2 (ja) * | 2004-01-13 | 2010-03-03 | 株式会社日立製作所 | ホットスタンバイシステム、ホストコンピュータ、i/o処理方法、および、コンピュータ読取り可能なプログラム |
JP2005309552A (ja) * | 2004-04-19 | 2005-11-04 | Hitachi Ltd | 計算機 |
JP4353005B2 (ja) * | 2004-06-29 | 2009-10-28 | 株式会社日立製作所 | クラスタ構成コンピュータシステムの系切替方法 |
US7653682B2 (en) * | 2005-07-22 | 2010-01-26 | Netapp, Inc. | Client failure fencing mechanism for fencing network file system data in a host-cluster environment |
JP4939102B2 (ja) * | 2006-04-21 | 2012-05-23 | 株式会社日立製作所 | ネットワークブート計算機システムの高信頼化方法 |
JP5392594B2 (ja) * | 2008-03-05 | 2014-01-22 | 日本電気株式会社 | 仮想計算機冗長化システム、コンピュータシステム、仮想計算機冗長化方法、及びプログラム |
WO2010079587A1 (ja) * | 2009-01-06 | 2010-07-15 | 三菱電機株式会社 | 管理装置及び管理方法及びプログラム |
JP2011070655A (ja) * | 2009-08-24 | 2011-04-07 | Toshiba Corp | 情報処理装置、メモリダンプシステムおよびメモリダンプ方法 |
US8417899B2 (en) * | 2010-01-21 | 2013-04-09 | Oracle America, Inc. | System and method for controlling access to shared storage device |
JP2012173752A (ja) * | 2011-02-17 | 2012-09-10 | Nec Corp | クラスタシステム、データ記録方法、及びプログラム |
-
2013
- 2013-03-04 JP JP2013042016A patent/JP6056554B2/ja active Active
-
2014
- 2014-03-04 US US14/196,393 patent/US9235484B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20140250320A1 (en) | 2014-09-04 |
US9235484B2 (en) | 2016-01-12 |
JP2014170394A (ja) | 2014-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6056554B2 (ja) | クラスタシステム | |
US8423816B2 (en) | Method and computer system for failover | |
US8713362B2 (en) | Obviation of recovery of data store consistency for application I/O errors | |
US9582373B2 (en) | Methods and systems to hot-swap a virtual machine | |
US9298566B2 (en) | Automatic cluster-based failover handling | |
US8443237B2 (en) | Storage apparatus and method for controlling the same using loopback diagnosis to detect failure | |
JP4572250B2 (ja) | 計算機切り替え方法、計算機切り替えプログラム及び計算機システム | |
JP5561622B2 (ja) | 多重化システム、データ通信カード、状態異常検出方法、及びプログラム | |
US8667337B2 (en) | Storage apparatus and method of controlling the same | |
JP2007164394A (ja) | ストレージ切替システム、ストレージ切替方法、管理サーバ、管理方法および管理プログラム | |
JP2008186296A (ja) | ストレージシステム、ストレージ装置、ファームウェアの活性交換方法、ファームウェアの活性交換プログラム | |
WO2012176278A1 (ja) | 情報処理装置、仮想マシン制御方法およびプログラム | |
JP2017010390A (ja) | ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法 | |
JP2006107080A (ja) | ストレージ装置システム | |
US20130117518A1 (en) | System controller, information processing system and method of saving and restoring data in the information processing system | |
EP2648095B1 (en) | System and method for controlling the booting of a computer | |
JP3957065B2 (ja) | ネットワーク計算機システムおよび管理装置 | |
JP6124644B2 (ja) | 情報処理装置および情報処理システム | |
JP2006189963A (ja) | ストレージアクセス制御方法、クラスタシステム、パス接続スイッチおよびストレージアクセス制御プログラム | |
US10353613B2 (en) | Computer system and control method therefor for handling path failure | |
JP6822706B1 (ja) | クラスタシステム、サーバ装置、引継ぎ方法、及びプログラム | |
JP5549688B2 (ja) | 情報処理システム、及び、情報処理システムの制御方法 | |
JP5439736B2 (ja) | コンピュータ管理システム、コンピュータシステムの管理方法、及びコンピュータシステムの管理プログラム | |
JP6519266B2 (ja) | 情報処理装置、デバイス、および復旧方法、並びにコンピュータ・プログラム | |
JPWO2012176278A1 (ja) | 情報処理装置、仮想マシン制御方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161028 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6056554 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |