JP2012173996A - Cluster system, cluster management method and cluster management program - Google Patents
Cluster system, cluster management method and cluster management program Download PDFInfo
- Publication number
- JP2012173996A JP2012173996A JP2011035476A JP2011035476A JP2012173996A JP 2012173996 A JP2012173996 A JP 2012173996A JP 2011035476 A JP2011035476 A JP 2011035476A JP 2011035476 A JP2011035476 A JP 2011035476A JP 2012173996 A JP2012173996 A JP 2012173996A
- Authority
- JP
- Japan
- Prior art keywords
- server
- cluster
- quorum
- service
- servers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラムに関し、特に、スプリットブレイン対策を行なうクラスタシステム、クラスタ管理方法、およびクラスタ管理プログラムに関する。 The present invention relates to a cluster system, a cluster management method, and a cluster management program, and more particularly, to a cluster system, a cluster management method, and a cluster management program that take measures against split brain.
従来、サーバの障害時に、当該サーバがクライアントに提供していたサービスを別のサーバで継続することを可能とする技術として、クラスタシステムがある。 Conventionally, there is a cluster system as a technique that enables a server to continue a service provided to a client by another server in the event of a server failure.
このようなクラスタシステムでは、当該クラスタシステムを構成する複数のサーバが相互にハートビートと呼ばれる通信を行なうことにより、障害が発生したノードすなわちサーバを検知するのが一般的である。 In such a cluster system, a plurality of servers constituting the cluster system generally detect a failed node, that is, a server by performing communication called a heartbeat with each other.
ハートビート通信とは、フェールオーバーすなわち業務の引き継ぎを互いに行なう関係にある複数のサーバ間で、サーバ機能が停止していないことを示すためのハートビートをやり取りすることにより、互いのサーバの死活監視を行なう技術である。ハートビート通信が行なわれている間は、相手方サーバが正常に稼働しているものと判断され、フェールオーバーは行なわれない。 Heartbeat communication refers to the monitoring of each server's aliveness by exchanging heartbeats to indicate that the server function has not stopped between multiple servers that are in a failover or business takeover relationship. It is a technology to do. While the heartbeat communication is performed, it is determined that the other server is operating normally, and no failover is performed.
逆に、ハートビート通信が途切れた場合には、相手方サーバがシステムダウンしたものと判断され、相手方サーバで提供されていた業務アプリケーション等のサービスを自機で引き継ぐ。これにより、サービスを利用するクライアントからは、クラスタシステム全体が1台のサーバのように見える。したがって、現用系サーバから待機系サーバに処理が切り替わった場合でも、クライアントは、どのサーバからサービスが提供されているかを意識することはない。 On the other hand, when the heartbeat communication is interrupted, it is determined that the partner server is down, and services such as business applications provided by the partner server are taken over by the own device. As a result, the entire cluster system looks like a single server to clients using the service. Therefore, even when the processing is switched from the active server to the standby server, the client does not know from which server the service is provided.
しかしながら、ハートビート通信のための通信経路の障害により、クラスタシステムを構成する複数のサーバが孤立すると、当該複数のサーバで同じサービスが開始され、データが破壊されるといった、クラスタとして不整合な状態が発生する。このような状態は、スプリットブレインと呼ばれている。 However, if multiple servers that make up the cluster system are isolated due to a failure in the communication path for heartbeat communication, the same service is started on the multiple servers and data is destroyed. Will occur. Such a state is called split brain.
このスプリットブレインを回避するため、定足数(クォーラム:quorum)を用いた多数決方式が知られている。この多数決方式では、クラスタを再構成するためには、50%より多くのクォーラムを確保する必要がある。 In order to avoid this split brain, a majority method using a quorum is known. In this majority method, it is necessary to secure more than 50% quorum in order to reconfigure the cluster.
たとえば2ノードで構成されるクラスタでは、クォーラムを各サーバに1つずつ、かつ共有ディスクに1つ保持し、スプリットブレインが発生した場合に、タイブレーク処理として各サーバが共有ディスク上のクォーラムの確保を試みる。クォーラムを先に確保したサーバは過半数(2/3)のクォーラムを持つため、正規のクラスタとして再構成される。すなわち、当該サーバは、他方のサーバ上で動作中のサービスを引き継ぐ。共有ディスク上のクォーラムを確保できなかったサーバは、自身のクォーラム(1/3)を確保するのみであり、過半数を確保できないため、パニックを行なって動作を停止する。 For example, in a two-node cluster, each server holds one quorum and one shared disk, and when split brain occurs, each server secures quorum on the shared disk as a tie-break process. Try. Since the server that has secured the quorum first has a majority (2/3) quorum, it is reconfigured as a regular cluster. That is, the server takes over the service running on the other server. The server that could not secure the quorum on the shared disk only secures its own quorum (1/3) and cannot secure the majority, so it panics and stops its operation.
なお、Oracle社 SunCluster 3.2 Release Note for Solaris OS Sun Cluster Quorum Server[online]、[平成23年2月1日検索]、インターネット〈URL:http://docs.sun.com/app/docs/doc/819-6611/gcvsc?a=view〉(非特許文献1)に開示されているように、商用UNIX(登録商標)環境では、共有ディスクの代わりに、クラスタに属していないノードにクォーラムを保持する方法を提供しているクラスタ製品がある。このような技術では、物理的なディスク書き込みが発生しないため、生き残るサーバを高速に決定できる他、ディスク依存した機能を用いなくてもソフトウェアだけで制御できるメリットがある。 Oracle SunCluster 3.2 Release Note for Solaris OS Sun Cluster Quorum Server [online], [Search February 1, 2011], Internet <URL: http://docs.sun.com/app/docs/doc/ 819-6611 / gcvsc? A = view> (Non-patent Document 1) In a commercial UNIX (registered trademark) environment, a quorum is held in a node not belonging to a cluster instead of a shared disk. There is a cluster product that provides a method. In such a technique, since physical disk writing does not occur, a surviving server can be determined at high speed, and there is a merit that it can be controlled only by software without using a disk-dependent function.
また、特開2006−48477号公報(特許文献1)には、以下のような技術が開示されている。すなわち、クラスタシステムを構成する2つのサーバ(ノード)間の通信が不通になると、それぞれのノードでは、ノード制御部で、割当て時間とその優先度に関する定義情報に基づき、次の割当て時間の開始時刻を算出する。そして、算出された開始時刻まで、所定のサービス処理の起動を遅延させる。そして、割当て時間の開始時刻になると、サービス処理を起動し、割当て時間内にサービスが実行できれば、サービス処理を継続し、サービスが実行できなければ、動作を停止する。 Japanese Patent Laid-Open No. 2006-48477 (Patent Document 1) discloses the following technique. That is, when communication between two servers (nodes) constituting a cluster system is interrupted, the start time of the next allocation time is determined by the node control unit in each node based on the definition information on the allocation time and its priority. Is calculated. Then, activation of a predetermined service process is delayed until the calculated start time. When the allocation time starts, the service process is started. If the service can be executed within the allocation time, the service process is continued. If the service cannot be executed, the operation is stopped.
また、特開2009−223519号公報(特許文献2)には、以下のような技術が開示されている。すなわち、各ノードのクラスタ管理部は、相互にハートビート通信を行なうことでノード障害を検出する。すると各重み付け処理部は、ノードのサービスの開始に関する状態をチェックし、そのチェックされた状態に応じて、共有ストレージ装置に格納されている重み情報中のノード自身の重みを更新する。各ノードのタイブレーカ機構は、更新された重み情報の示す重みに基づいてノード自身の優先順位が最も高いかを判定し、最も優先順位が高い場合にノード自身をマスタノードとして選択する。 Japanese Unexamined Patent Application Publication No. 2009-223519 (Patent Document 2) discloses the following technique. That is, the cluster management unit of each node detects a node failure by performing heartbeat communication with each other. Then, each weighting processing unit checks the state related to the start of the service of the node, and updates the weight of the node itself in the weight information stored in the shared storage device according to the checked state. The tie breaker mechanism of each node determines whether the priority of the node itself is the highest based on the weight indicated by the updated weight information, and selects the node itself as the master node when the priority is the highest.
クォーラムを過半数確保できなかったサーバ上で動作していたサービスは、クォーラムを過半数確保できたサーバ上で動作するよう再構成される。このため、異なるサーバでサービスの提供を継続させることは可能であるが、この動作により一時的にサービス停止が発生する。 Services that were running on a server that could not have a majority of quorums are reconfigured to run on a server that could have a majority of quorums. For this reason, it is possible to continue providing services on different servers, but this operation temporarily stops the service.
また、データベースのように起動前に復旧処理等を行なうことで整合性を確認する必要のあるサービスも多いため、クラスタのサービスを起動させる際は、サービス提供までに少なからず時間およびコストがかかる。 In addition, since there are many services such as databases that need to be checked for consistency by performing recovery processing or the like before startup, it takes time and cost to provide services when starting a cluster service.
クラスタノードすなわちサーバ間のハートビートが途切れる原因としては、サーバ自身またはクラスタ管理コンポーネントがハングまたはスローダウンした場合、およびサーバは問題ないがハートビート用の通信経路に障害が発生した場合の2通り考えられる。前者の場合はやむを得ないが、後者の場合には、サーバは正常に動作できるにも関わらず、無駄にサービスの一時停止が発生してしまう。 There are two possible causes for heartbeat interruption between cluster nodes or servers: when the server itself or the cluster management component hangs or slows down, and when there is no problem with the server but the heartbeat communication path fails. It is done. In the former case, it is unavoidable, but in the latter case, although the server can operate normally, the service is temporarily suspended.
すなわち、クラスタシステムにおいてスプリットブレインが発生した際に、従来の方法では、クラスタシステムの整合性を保つため、一方のクラスタノード(サーバ)が稼動し、もう一方のクラスタノード(サーバ)が停止するような動作を行なわせる。このため、停止させるサーバ上でサービスの提供が行なわれており、当該サーバが正常に動作できる場合でも、稼動させるサーバ上でサービスを再起動する必要があり、一時的にサービスの停止が発生してしまうという問題点があった。 In other words, when split brain occurs in a cluster system, in the conventional method, in order to maintain the consistency of the cluster system, one cluster node (server) is activated and the other cluster node (server) is stopped. To perform the correct operation. For this reason, services are provided on the server to be stopped, and even when the server can operate normally, it is necessary to restart the service on the server to be operated. There was a problem that it was.
ここで、ハートビート用の通信経路は、信頼性を向上させるため多重化されることも多い。しかしながら、コストおよびサーバ構成の制限などで多重化できない場合、ならびに通信経路の一部が多重化されない場合もあり、通信経路の単一障害によりハートビートが途切れる可能性がある。たとえば、1つの物理NIC(Network Interface Card)の複数のポートを使わざるを得ない環境、および経路上のネットワーク装置を共有せざるを得ない環境では、通信経路の一部が多重化されない。 Here, the heartbeat communication path is often multiplexed in order to improve reliability. However, there are cases where multiplexing cannot be performed due to cost and server configuration restrictions, and there are cases where a part of the communication path is not multiplexed, and the heartbeat may be interrupted due to a single failure in the communication path. For example, in an environment where a plurality of ports of one physical NIC (Network Interface Card) must be used and an environment where a network device on the path must be shared, a part of the communication path is not multiplexed.
特許文献1および特許文献2に記載の技術は、いずれもハートビート通信経路障害によるスプリットブレインが発生した場合に、サービスが起動できる正常なサーバを選択し、より正常なノードでサービスを起動させる方法である。
The techniques described in
これらの方法では、正常なノードでサービスが動作できる状態でも、優先度またはより信頼性のあるサーバにサービスがフェールオーバーされてしまう可能性があり、無駄にサービスの停止および再起動が発生する可能性がある。 With these methods, even when the service can operate on a normal node, the service may fail over to a priority or more reliable server, which can cause unnecessary service stop and restart. There is sex.
この発明は、上述の課題を解決するためになされたもので、その目的は、クラスタシステムにおいて、スプリットブレインが発生した際の不要なサービス停止を防ぐことが可能なクラスタシステム、クラスタ管理方法、およびクラスタ管理プログラムを提供することである。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a cluster system, a cluster management method, and a cluster system capable of preventing an unnecessary service stop when a split brain occurs in the cluster system. It is to provide a cluster management program.
上記課題を解決するために、この発明のある局面に係わるクラスタシステムは、サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、クォーラムを有するクォーラムサーバとを備えるクラスタシステムであって、上記クラスタサーバは、他の上記クラスタサーバから上記ハートビート信号を正常に受信できない場合には、上記クォーラムを確保するための確保要求を上記クォーラムサーバへ送信し、上記クォーラムサーバは、上記クラスタサーバから上記確保要求を受信してから所定時間内に他の上記クラスタサーバから上記確保要求を受信したときには、上記確保要求に対する成功通知を上記複数のクラスタサーバへ送信する。 In order to solve the above problems, a cluster system according to an aspect of the present invention provides a plurality of clusters for providing a service to one or a plurality of clients and transmitting / receiving heartbeat signals to / from each other via a heartbeat communication path. A cluster system comprising a server and a quorum server having a quorum, wherein the cluster server is unable to normally receive the heartbeat signal from another cluster server, and a securing request for securing the quorum To the quorum server, and when the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, the quorum server sends a success notification for the reservation request. Send to the multiple cluster servers.
上記課題を解決するために、この発明のある局面に係わるクラスタ管理方法は、サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおけるクラスタ管理方法であって、上記クラスタサーバが、他の上記クラスタサーバから上記ハートビート信号を正常に受信できない場合には、上記クォーラムを確保するための確保要求を上記クォーラムサーバへ送信するステップと、上記クォーラムサーバが、上記クラスタサーバから上記確保要求を受信してから所定時間内に他の上記クラスタサーバから上記確保要求を受信したときには、上記確保要求に対する成功通知を上記複数のクラスタサーバへ送信するステップとを含む。 In order to solve the above problems, a cluster management method according to an aspect of the present invention provides a plurality of services for providing a service to one or a plurality of clients and transmitting / receiving heartbeat signals to / from each other via a heartbeat communication path. A cluster management method in a cluster system comprising a cluster server and a quorum server having a quorum, wherein the quorum is secured when the cluster server cannot normally receive the heartbeat signal from another cluster server. Transmitting a reservation request to the quorum server, and when the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, Multiple success notifications for the reservation request And a step to be sent to the cluster server.
上記課題を解決するために、この発明のある局面に係わるクラスタ管理プログラムは、サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおいて用いられるクラスタ管理プログラムであって、コンピュータに、上記クラスタサーバが、他の上記クラスタサーバから上記ハートビート信号を正常に受信できない場合には、上記クォーラムを確保するための確保要求を上記クォーラムサーバへ送信するステップと、上記クォーラムサーバが、上記クラスタサーバから上記確保要求を受信してから所定時間内に他の上記クラスタサーバから上記確保要求を受信したときには、上記確保要求に対する成功通知を上記複数のクラスタサーバへ送信するステップとを実行させるプログラムである。 In order to solve the above problems, a cluster management program according to an aspect of the present invention provides a plurality of services for providing a service to one or a plurality of clients and transmitting / receiving heartbeat signals to / from each other via a heartbeat communication path. A cluster management program used in a cluster system including a cluster server and a quorum server having a quorum, when the cluster server cannot normally receive the heartbeat signal from another cluster server. A step of transmitting a securing request for securing the quorum to the quorum server, and the securing request from another cluster server within a predetermined time after the quorum server receives the securing request from the cluster server. When you receive The success notification for the serial reservation request is a program for executing the steps of transmitting to the plurality of servers in a cluster.
本発明によれば、クラスタシステムにおいて、スプリットブレインが発生した際の不要なサービス停止を防ぐことができる。 According to the present invention, it is possible to prevent an unnecessary service stop when a split brain occurs in a cluster system.
以下、本発明の実施の形態について図面を用いて説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals and description thereof will not be repeated.
[構成および基本動作]
図1は、本発明の実施の形態に係るクラスタシステムの構成を示す図である。
[Configuration and basic operation]
FIG. 1 is a diagram showing a configuration of a cluster system according to an embodiment of the present invention.
図1を参照して、クラスタシステム301は、情報処理装置の一例であるサーバ(クラスタサーバ)151,152と、情報処理装置の一例であるクォーラムサーバ201と、共有ストレージ装置40と、サービス提供用通信路60とを備える。サーバ151は、クラスタ管理部11と、サービス管理部12と、構成情報13とを含む。サーバ152は、クラスタ管理部21と、サービス管理部22と、構成情報23とを含む。
Referring to FIG. 1, a
クラスタシステム301は、たとえばサーバ151,152を備える2ノードクラスタシステムである。なお、クラスタシステム301は3つ以上のサーバを備える構成であってもよい。以下、クラスタシステム301においてサービスを提供するサーバ群をクラスタと称する。サーバ151,152の各々は、クラスタを構成するクラスタノードに該当する。
The
サーバ151,152は、サービスをクライアントCT1〜CTn(nは1以上の整数)に提供し、かつハートビート通信路50を介してハートビート信号を互いに送受信する。
The
より詳細には、共有ストレージ装置40は、サーバ151およびサーバ152からアクセス可能である。
More specifically, the shared
サーバ151およびサーバ152は、互いの死活確認(ハートビート)用のハートビート通信路50によって接続されている。サーバ151およびサーバ152は、互いの死活監視を行なうために、ハートビート通信路50を使用してハートビート信号を定期的に送受信しあう。
The
また、サーバ151およびサーバ152は、クライアントCT1〜CTnにサービスを提供するためのサービス提供用通信路60に接続されており、この通信路上にクォーラムサーバ201が配置される。
The
本発明の実施の形態に係る情報処理装置であるクォーラムサーバ201およびサーバ151,152は、典型的には、汎用的なアーキテクチャを有するコンピュータを基本構造としており、予めインストールされたプログラムを実行することで、後述するような各種機能を提供する。一般的に、このようなプログラムは、フレキシブルディスク(Flexible Disk)およびCD−ROM(Compact Disk Read Only Memory)などの記録媒体に格納されて、あるいはネットワークなどを介して流通する。
The
本発明の実施の形態に係るプログラムは、OS等の他のプログラムの一部に組み込まれて提供されるものであってもよい。この場合でも、本発明の実施の形態に係るプログラム自体は、上記のような組み込み先の他のプログラムが有するモジュールを含んでおらず、当該他のプログラムと協働して処理が実行される。すなわち、本発明の実施の形態に係るプログラムとしては、このような他のプログラムに組み込まれた形態であってもよい。 The program according to the embodiment of the present invention may be provided by being incorporated in a part of another program such as an OS. Even in this case, the program itself according to the embodiment of the present invention does not include a module included in the other program as described above, and the process is executed in cooperation with the other program. That is, the program according to the embodiment of the present invention may be in a form incorporated in such another program.
なお、代替的に、プログラムの実行により提供される機能の一部もしくは全部を専用のハードウェア回路として実装してもよい。 Alternatively, some or all of the functions provided by program execution may be implemented as a dedicated hardware circuit.
図2は、本発明の実施の形態に係るクォーラムサーバの概略構成図である。サーバ151,152の構成は、たとえばクォーラムサーバ201と同様である。
FIG. 2 is a schematic configuration diagram of a quorum server according to the embodiment of the present invention. The configuration of the
図2を参照して、クォーラムサーバ201は、演算処理部であるCPU(Central Processing Unit)101と、メインメモリ102と、ハードディスク103と、入力インタフェース104と、表示コントローラ105と、データリーダ/ライタ106と、通信インタフェース107とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
Referring to FIG. 2, a
CPU101は、ハードディスク103に格納されたプログラム(コード)をメインメモリ102に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ102は、典型的には、DRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、ハードディスク103から読み出されたプログラムに加えて、各種の演算処理結果を示すデータなどを保持する。また、ハードディスク103は不揮発性の磁気記憶装置であり、CPU101で実行されるプログラムに加えて、各種設定値などが格納される。このハードディスク103にインストールされるプログラムは、後述するように、記録媒体111に格納された状態で流通する。なお、ハードディスク103に加えて、あるいはハードディスク103に代えて、フラッシュメモリなどの半導体記憶装置を採用してもよい。
The
入力インタフェース104は、CPU101とキーボード108、マウス109および図示しないタッチパネルなどの入力部との間のデータ伝送を仲介する。すなわち、入力インタフェース104は、ユーザが入力部を操作することで与えられる操作指令などの外部からの入力を受付ける。
The
表示コントローラ105は、表示部の典型例であるディスプレイ110と接続され、ディスプレイ110での表示を制御する。すなわち、表示コントローラ105は、CPU101による画像処理の結果などをユーザに対して表示する。ディスプレイ110は、たとえばLCD(Liquid Crystal Display)またはCRT(Cathode Ray Tube)である。
The
データリーダ/ライタ106は、CPU101と記録媒体111の間のデータ伝送を仲介する。すなわち、記録媒体111は、クォーラムサーバ201で実行されるプログラムなどが格納された状態で流通し、データリーダ/ライタ106は、この記録媒体111からプログラムを読み出す。また、データリーダ/ライタ106は、CPU101の内部指令に応答して、クォーラムサーバ201における処理結果などを記録媒体111へ書き込む。なお、記録媒体111は、たとえば、CF(Compact Flash)およびSD(Secure Digital)などの汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)などの磁気記憶媒体、またはCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体である。
The data reader /
通信インタフェース107は、CPU101と他のパーソナルコンピュータおよびサーバ装置などの間のデータ伝送を仲介する。通信インタフェース107は、典型的には、イーサネット(登録商標)またはUSB(Universal Serial Bus)の通信機能を有する。なお、記録媒体111に格納されたプログラムをクォーラムサーバ201にインストールする形態に代えて、通信インタフェース107を介して配信サーバなどからダウンロードしたプログラムをクォーラムサーバ201にインストールしてもよい。
The
また、クォーラムサーバ201には、必要に応じてプリンタなどの他の出力装置が接続されてもよい。
Further, the
[制御構造]
次に、クォーラムサーバ201における死活監視機能を提供するための制御構造について説明する。
[Control structure]
Next, a control structure for providing a life and death monitoring function in the
図1は、本発明の実施の形態に係る各サーバが提供する制御構造も示している。図1に示すクォーラムサーバ201およびサーバ151,152における各ブロックは、ハードディスク103に格納されたプログラム(コード)などをメインメモリ102に展開して、CPU101に実行させることで提供される。なお、図1に示すクォーラムサーバ201およびサーバ151,152の制御構造の一部もしくは全部を専用ハードウェアおよび/または配線回路によって実現してもよい。
FIG. 1 also shows a control structure provided by each server according to the embodiment of the present invention. Each block in the
図1を参照して、クォーラムサーバ201は、その制御構造として、タイブレーカ部32を備える。サーバ151は、その制御構造として、クラスタ管理部11と、サービス管理部12とを備える。サーバ152は、その制御構造として、クラスタ管理部21と、サービス管理部22とを備える。また、クォーラムサーバ201は、クォーラム記憶域31を備える。サーバ151は、クラスタ構成情報13を備える。サーバ152は、クラスタ構成情報23を備える。
Referring to FIG. 1,
クォーラムサーバ201において、クォーラム記憶域31は、ロック機能を提供する。また、タイブレーカ部32は、各サーバからのクォーラム確保要求を調停する。
In the
タイブレーカ部32は、クラスタシステム301におけるクラスタを構成するサーバ151およびサーバ152からクォーラム確保要求(以下、確保要求とも称する。)を受信すると、クォーラム記憶域31においてクォーラム(ロック)が取得されていることを他のサーバが認識できるようにマークを行なう。
When the
また、タイブレーカ部32は、クォーラム(ロック)が未確保の状態であった場合には、確保要求を送信したサーバにクォーラム確保成功通知(以下、成功通知とも称する。)を返す。一方、タイブレーカ部32は、他のサーバがクォーラム確保済みでクォーラムが確保できなかった場合には、確保要求を送信したサーバにクォーラム確保失敗通知(以下、失敗通知とも称する。)を返す。通常、複数のサーバからクォーラムサーバ201にほぼ同時に確保要求が届いた場合には、先に届いた確保要求を送信したサーバがクォーラムを確保し、後から届いた確保要求を送信したサーバはクォーラム確保に失敗する。
Further, when the quorum (lock) is not secured, the
クォーラムサーバ201では、従来技術のようにあるサーバから確保要求を受け取ってもすぐにクォーラムを確保するのではなく、許容時間内で他のサーバからの確保要求を待ち合わせる。クォーラムサーバ201では、許容時間内に複数のサーバから確保要求があった場合には、各サーバ上でサービスが重複して起動されないように制御を行った上で、先に届いた確保要求を送信したサーバにクォーラムを取得させ、他の各サーバに成功通知を返す。
The
サーバ151,152は、クラスタを管理する機能として、クラスタ管理部11,21と、サービス管理部12,22と、クラスタの各種情報を記録する記憶域であるクラスタ構成情報13,23とをそれぞれ備える。
The
クラスタ管理部11,21は、クラスタの状態を監視し、クラスタ構成情報(以下、構成情報とも称する。)13,23をそれぞれ管理する。クラスタ管理部11,21は、ハートビート通信路50経由で他サーバにおけるクラスタ管理部21,11とハートビート信号をそれぞれ送受信することにより、死活確認を行なう。
The
また、クラスタ管理部11,21は、構成情報13,23の管理をそれぞれ担い、クラスタ内で起動中のサーバ間で同一の構成情報を保持する。また、クラスタ管理部11,21は、クラスタ内のサーバが起動してメンバとして加わった場合、およびハートビートが途切れた場合にクラスタを再構成する役割を担う。ここで、クラスタの再構成とは、クラスタ内のメンバの状態を変更し、サービスを適切なサーバで再起動することである。
The
また、各サーバのクラスタ管理部11,21は、クォーラムを1つずつ保持する。クォーラムサーバ201上に1つのクォーラムが存在するため、クラスタシステム301では合計3つのクォーラムが存在する。
The
クラスタ管理部11,21は、ハートビート信号が途切れた場合には、クォーラムサーバ201のクォーラムの取得を試みる。
When the heartbeat signal is interrupted, the
クラスタ管理部11,21は、クォーラムサーバ201から成功通知を受けた場合には、システムの過半数(2/3)以上のクォーラムを確保したことから、自身を正規のクラスタとして再構成する、すなわち、他サーバのサービスを引き継ぐ。
When the
一方、クラスタ管理部11,21は、クォーラムサーバ201から失敗通知を受けた場合には、保持するクォーラムが、自身のクォーラム(1/3)のみであり過半数に満たないことから、自身の動作を停止(パニック)させる。
On the other hand, if the
また、クラスタ管理部11,21は、サーバ起動時にもクォーラムサーバ201に確保要求を行い、過半数のクォーラムを得る必要がある。
In addition, the
クラスタ管理部11,21がクォーラムサーバ201のクォーラム確保に失敗した場合には、クォーラムサーバ201のクォーラムを確保しているサーバの起動を待ち合わせる必要があり、その後に起動が許可される。その際、クォーラムサーバ201のクォーラムを確保しているサーバの構成情報の同期(コピー)が行なわれる。構成情報13,23の同期がとれると、クラスタ管理部11,21は、クォーラムサーバ201のクォーラムの解放を行なう。
When the
サービス管理部12,22は、それぞれ、クラスタ管理部11,21と連携し、構成情報13,23に基づいてサービスの起動、停止および監視を制御する。
The
図3は、本発明の実施の形態に係るクラスタシステムにおいて、構成情報で管理している主な情報を示す図である。 FIG. 3 is a diagram showing main information managed by the configuration information in the cluster system according to the embodiment of the present invention.
図3を参照して、構成情報は、たとえば、クラスタに参加しているサーバおよびその状態を保持するクラスタメンバテーブル90と、サービスの構成要素、サービスの状態、および当該サービスが動作しているサーバを保持するサービス管理テーブル91とを有する。 Referring to FIG. 3, the configuration information includes, for example, a server participating in the cluster and a cluster member table 90 that holds the status, a service component, a service status, and a server on which the service is operating. And a service management table 91 that holds
サービスの構成要素は、一般的には、主要要素であるアプリケーション名、そのアプリケーションが使用するディスク領域(以下、LUNとも称する。)、およびクライアントからの要求を待ち受けるための仮想IPアドレス(以下、VIPとも称する。)で構成される。アプリケーションがディスクおよびネットワーク機能を必要としない場合には、LUNおよびVIPをサービスの構成要素から外すことも可能である。 The service components generally include an application name which is a main element, a disk area used by the application (hereinafter also referred to as LUN), and a virtual IP address (hereinafter referred to as VIP) for waiting for a request from a client. Also called). If the application does not require disk and network functions, LUNs and VIPs can be removed from the service components.
[動作]
次に、本発明の実施の形態に係る情報処理装置の動作について図面を用いて説明する。本発明の実施の形態では、クォーラムサーバ201およびサーバ151,152を動作させることによって、本発明の実施の形態に係るクラスタ管理方法が実施される。よって、本発明の実施の形態に係るクラスタ管理方法の説明は、以下のクォーラムサーバ201およびサーバ151,152の動作説明に代える。なお、以下の説明においては、適宜図1を参照する。
[Operation]
Next, the operation of the information processing apparatus according to the embodiment of the present invention will be described with reference to the drawings. In the embodiment of the present invention, the cluster management method according to the embodiment of the present invention is implemented by operating the
図1に示すように、サーバ151上でサービス1が動作し、かつサーバ152上でサービス2が動作している状態で、ハートビート通信路50上のハートビートが途切れると、サーバ151およびサーバ152におけるクラスタ管理部11,21は、ハートビートが断絶したことを検出する。そして、クラスタ管理部11,21は、過半数のクォーラムを確保するために、クォーラムサーバ201に確保要求を発行する。
As illustrated in FIG. 1, when the heartbeat on the
すなわち、サーバ151,152は、他のサーバからハートビート信号を正常に受信できない場合には、クォーラムを確保するための確保要求をクォーラムサーバ201へ送信する。
That is, if the
クォーラムサーバ201は、サーバ151,152から確保要求を受信してから所定時間内に他のサーバから確保要求を受信したときには、確保要求に対する成功通知をサーバ151,152へ送信する。
When the
また、サーバ151,152は、他のサーバが提供するサービスの情報を含む構成情報を有する。
Further, the
クォーラムサーバ201は、確保要求に対する成功通知をサーバ151,152へ送信する前に、サーバ151,152が他のサーバのサービスを引き継がないようにサーバ151,152の構成情報を書き換える。
The
また、クォーラムサーバ201は、先に到着した確保要求を送信したサーバが、クォーラムを真に確保したことを記憶する。
Also, the
また、クォーラムサーバ201は、構成情報を書き換える際に、クォーラムを真に確保したサーバが有する構成情報において、他のサーバが提供するサービスをダミーサービスに書き換える。
In addition, when the configuration information is rewritten, the
より詳細には、クラスタを構成するサーバ151およびサーバ152でそれぞれサービス1およびサービス2が動作している状態において、サーバ151およびサーバ152間のハートビート信号が途切れた場合に、各サーバは、クォーラムサーバ201のクォーラムの確保を試みる。クォーラムサーバ201におけるタイブレーカ部32は、クォーラムサーバ201にサーバ151およびサーバ152から確保要求が許容時間内に届いた場合には、両サーバともサービスの稼動が可能とみなす。そして、タイブレーカ部32は、クラスタの整合性が損なわれないように排他制御を行なわせた上で、サーバ151およびサーバ152へクォーラムが確保できた旨を通知し、両方のサーバ上で動作中のサービスを継続動作させる。
More specifically, when the heartbeat signal between the
具体的には、クォーラムサーバ201におけるタイブレーカ部32は、以下の図4および図5に示すフローチャートに基づいて調停を行なう。なお、ここでは、先にサーバ151からの確保要求がクォーラムサーバ201に届いた場合について説明する。
Specifically, the
図4および図5は、本発明の実施の形態に係るクォーラムサーバがシステム管理処理を行なう際の動作手順を示すフローチャートである。 4 and 5 are flowcharts showing an operation procedure when the quorum server according to the embodiment of the present invention performs system management processing.
図4および図5を参照して、タイブレーカ部32は、サーバ151から確保要求が届くと(ステップA1)、許容時間内でサーバ152からの確保要求を待ち合わせる(ステップA2)。
Referring to FIGS. 4 and 5, when
次に、タイブレーカ部32は、許容時間内にサーバ152から確保要求を受けると、サーバ152に対してハートビート用のNICを閉塞させる依頼を行なう(ステップA3)。タイブレーカ部32は、たとえば、リモートシェルを用いてハートビート用のNICをソフトウェア的にオフラインにする。これにより、ハートビートの通信路障害が間欠障害であった場合等に、図4および図5に示すフローチャートの処理が実行されている間に再度ハートビートが再開され、整合性に矛盾をきたすことを防ぐことができる。
Next, when receiving a securing request from the
次に、タイブレーカ部32は、サーバ152におけるハートビート用NICを閉塞した後、サーバ151におけるクラスタ管理部11に対してサーバ151の構成情報13の変更を依頼する。この依頼の内容は、サービス管理テーブル91において、サーバ152上で動作しているサービス2をダミーサービス、すなわちLUNおよびVIPを構成せず、定期的に単純に簡単な計算を行なうアプリケーションのみの構成に差し替えるものである(ステップA5)。
Next, after closing the heartbeat NIC in the
次に、依頼を受けたサーバ151におけるクラスタ管理部11は、構成情報13のサービス管理テーブル91を変更する(ステップA6)。
Next, the
図6は、本発明の実施の形態に係るクラスタシステムにおける各サーバのサービス管理テーブルの変更例を示す図である。 FIG. 6 is a diagram showing a modification example of the service management table of each server in the cluster system according to the embodiment of the present invention.
図6を参照して、サーバ151におけるサービス管理テーブル91において、サーバ152上で動作しているサービス2がダミーサービスに変更され、サービス管理テーブル91aのようになる。
Referring to FIG. 6, in service management table 91 in
このようにサービス管理テーブル91を変更することにより、後述するステップA10までたどり着いた場合において、サーバ152において動作中のサービス2が使用するLUNおよびVIP等のリソースと競合が発生することを防ぐことができる。なお、ダミーサービスを起動させるように変更することにより、ステップA10以降のシステム運用、または事後解析時にダミーサービス等の稼動状況を認識できるようになる。
By changing the service management table 91 in this way, it is possible to prevent contention with resources such as LUNs and VIPs used by the
次に、タイブレーカ部32は、サーバ151の構成情報13の変更後、サーバ152に対して構成情報23の変更を依頼する(ステップA7)。この依頼の内容は、サービス管理テーブル91において、自身のサーバ以外で動作中のサービスの情報を削除するものである。
Next, after changing the configuration information 13 of the
次に、依頼を受けたサーバ152におけるクラスタ管理部21は、自身の構成情報23のサービス管理テーブル91を変更する。
Next, the
図6を参照して、サーバ152におけるサービス管理テーブル91において、サーバ152以外で動作中のサービス1が削除され、サービス管理テーブル91bのようになる。
Referring to FIG. 6, in service management table 91 in
このようにサービス管理テーブル91を変更することにより、後述するステップA10までたどり着いた場合において、サーバ151において動作中のサービス1が使用するLUNおよびVIP等のリソースと競合が発生することを防ぐことができる。また、ステップA10までたどり着いた場合には、サーバ152に対して、擬似的に自身が生き残るべきクラスタであると認識させて動作を継続させるが、それ以降、サーバ152の構成情報は正式な情報として利用されない。このため、サーバ152に対して自身以外のサービスの情報を削除させる。
By changing the service management table 91 in this way, when the process reaches a later-described step A10, it is possible to prevent contention with resources such as LUN and VIP used by the
次に、サーバ152の構成情報23の変更後、サーバ151は、クォーラムサーバ201のクォーラムを確保(ロック)する(ステップA9)。
Next, after changing the
次に、タイブレーカ部32は、サーバ151およびサーバ152の両方に対して成功通知を発行する。(ステップA10)。
Next, the
次に、サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サービス管理部12に対してサーバ152上で動作しているサービスの起動を指示する。ここで、サーバ151では、ステップA5において構成情報13を変更していることから、実際にはサービス2ではなくダミーサービスが起動する。
Next, the
また、サーバ152におけるクラスタ管理部21は、成功通知を受けて、構成情報23のクラスタメンバテーブル90におけるサーバ151の状態をオフラインに変更し、サービス管理部22に対してサーバ151上で動作しているサービスの起動を指示する。ここで、ステップA7においてサービス管理テーブル91におけるサーバ151上で動作しているサービスの情報は削除されていることから、実際には何も起動されない。
Further, upon receiving the success notification, the
図7は、本発明の実施の形態に係るクラスタシステムの状態を示す図である。 FIG. 7 is a diagram showing a state of the cluster system according to the embodiment of the present invention.
ステップA10までたどり着いた場合には、クラスタシステム301は、図7に示すような状態となる。このステップA10までの処理において、動作中のサービス1および2の停止、ならびに再起動が発生しないことから、サーバ151上のサービス1およびサーバ152上のサービス2は稼動したままである。このため、各クライアントにおいてサービス提供可能な状態が継続される。
When the process reaches step A10, the
ステップA10の処理が実行された後、クォーラムサーバ201におけるタイブレーカ部32は、サーバ152におけるクラスタ管理部21の死活監視を行なう。
After the processing of
タイブレーカ部32は、サーバ152がサーバ停止等を行った場合には、サーバ152の応答が無くなることを検知し、サーバ151におけるクラスタ管理部11に対してダミーサービスを一旦オフラインにさせる。そして、タイブレーカ部32は、クラスタ管理部11に対して、ステップA5で変更する前のサービス管理テーブル91に差し替えさせる、すなわちダミーサービスをサービス2に変更させた上で、サーバ151においてサービス2を起動させる。
When the
なお、ステップA10を実行した後で、サーバの停止および起動等によりクラスタの再構成が必要となった場合には、正規のクラスタ構成情報として、先に確保要求を送信したサーバ151の構成情報13が採用される。
In addition, if it is necessary to reconfigure the cluster after the execution of step A10 due to the stop and start of the server, the configuration information 13 of the
この場合、ステップA9において、クォーラムサーバ201のクォーラム記憶域31はサーバ151がロックしており、サーバ151は過半数のクォーラムを得ることができるため、サーバ151は単独で再起動が可能である。一方、サーバ152は、過半数のクォーラムを確保できないため単独での再起動できない。
In this case, in step A9, the
また、サーバ152の再起動時にはサーバ151が起動している必要があり、再起動の際、サーバ152の構成情報23は、サーバ151の持つ正式な構成情報13と同期(一致)がとられる。この同期がとられて初めて、サーバ152をクラスタとして起動することができる。両方のサーバで構成情報の整合がとられると、クォーラムサーバ201上のクォーラム記憶域31から、サーバ151が確保しているクォーラムロックが削除される。
Also, the
次に、図4および図5に示すフローチャートにおいて、処理が正常に行なわれなかった場合の処理について説明する。 Next, in the flowcharts shown in FIGS. 4 and 5, processing when processing is not performed normally will be described.
タイブレーカ部32は、ステップA10まで辿りつかない場合には、ハートビート通信路50の障害ではなく、サーバ151,152のいずれかがハングおよびスローダウン等、動作不能な状態になったと判断し、適切なサーバでサービスを引き継ぐように、以下の動作を行なう。
If the
タイブレーカ部32は、許容時間内にサーバ152からの確保要求が届かない場合には(ステップA2でNO)、サーバ152は動作不能であるとみなす。そして、タイブレーカ部32は、サーバ151によるクォーラム確保(ステップA21)後、サーバ151に成功通知を発行する(ステップA22)。
If the securing request from the
サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サーバ152上で動作しているサービス2の起動を試みる。
Upon receiving the success notification, the
また、タイブレーカ部32は、サーバ152におけるハートビート用NICの閉塞に失敗した場合には(ステップA4でNO)、サーバ152は動作不能であるとみなす。そして、タイブレーカ部32は、サーバ151によるクォーラム確保(ステップA41)後、サーバ151に成功通知を発行し、サーバ152に失敗通知を発行する(ステップA42)。
When the
サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サーバ152上で動作しているサービス2の起動を試みる。
Upon receiving the success notification, the
一方、サーバ152におけるクラスタ管理部21は、失敗通知を受けて、クォーラムが過半数に満たないことから、自身の動作停止(パニック)を試みる。
On the other hand, upon receipt of the failure notification, the
また、タイブレーカ部32は、サーバ151の構成情報変更に失敗した場合には(ステップA6でNO)、サーバ151は動作不能であるとみなす。そして、タイブレーカ部32は、サーバ152にサービス1を引き継がせるため、ステップA3において閉塞させたサーバ152におけるハートビート用のNIC閉塞を解除する(ステップA61)。
In addition, when the configuration information change of the
そして、タイブレーカ部32は、サーバ152によるクォーラム確保(ステップA62)後、サーバ152にクォーラム確保成功の通知を発行し、サーバ151に確保失敗の通知を発行する(ステップA63)。
Then, the
サーバ152におけるクラスタ管理部21は、成功通知を受けて、構成情報23のクラスタメンバテーブル90におけるサーバ151の状態をオフラインに変更し、サービス管理部22に対してサーバ151上で動作しているサービス1の起動を依頼する。
Upon receiving the success notification, the
一方、サーバ151におけるクラスタ管理部11は、失敗通知を受けて、クォーラムが過半数に満たないことから、自身をパニックさせる。
On the other hand, the
また、タイブレーカ部32は、サーバ152の構成情報変更に失敗した場合には(ステップA8でNO)、サーバ152は動作不能であるとみなす。そして、タイブレーカ部32は、サーバ151でサービス2を引き継がせるため、ステップA5において変更したサーバ151の構成情報13を元に戻す(ステップA81)。
In addition, when the configuration information change of the
そして、タイブレーカ部32は、サーバ151によるクォーラム確保(ステップA41)後、サーバ151に成功通知を発行し、サーバ152に失敗通知を発行する(ステップA42)。
The
サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サーバ152上で動作しているサービス2の起動を試みる。
Upon receiving the success notification, the
一方、サーバ152におけるクラスタ管理部21は、失敗通知を受けて、クォーラムが過半数に満たないことから、自身のパニックを試みる。
On the other hand, the
次に、本発明の実施の形態に係るクラスタシステムの他の動作例について説明する。すなわち、クラスタシステム301においてすべてのサービス1およびサービス2の両方がサーバ151上で起動しており、サーバ152上で起動しているサービスが無い状態においてハートビートが途切れた場合の動作について、2つのパターンを以下に説明する。
Next, another operation example of the cluster system according to the embodiment of the present invention will be described. That is, in the
[パターン1]
タイブレーカ部32は、クォーラムサーバ201へサーバ151から先に確保要求があり、許容時間内にサーバ152からも確保要求があった場合には、図4および図5に示すフローチャートに従い、以下のように動作する。
[Pattern 1]
If there is a reservation request from the
タイブレーカ部32は、サーバ152に対してハートビート用のNICを閉塞させる要求を発行する(ステップA3)。
The
次に、タイブレーカ部32は、サーバ151におけるクラスタ管理部11に対してサーバ151の構成情報13の変更を依頼する(ステップA5)。
Next, the
クラスタ管理部11は、この依頼を受けて、構成情報13のサービス管理テーブル91において、サーバ152上で動作しているサービスをダミーサービスに変更する。ただし、サーバ152上で動作しているサービスは存在しないため、サーバ151のサービス管理テーブル91に変更は発生しない。
In response to this request, the
次に、クラスタ管理部11は、サーバ152におけるクラスタ管理部21に対して構成情報23の変更を依頼する(ステップA7)。
Next, the
サーバ152におけるクラスタ管理部21は、この依頼を受けて、自身のサーバ以外で動作中のサービスを構成情報から削除する。サーバ152上で動作中のサービスは無いため、サーバ152上のサービス管理テーブル91は空になる。
In response to this request, the
次に、タイブレーカ部32は、サーバ151がクォーラムサーバ201のクォーラムを確保した(ステップA9)後、サーバ151およびサーバ152の両方に成功通知を発行する。(ステップA10)。
Next, after the
サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サービス管理部12に対してサーバ152上で動作しているサービスの起動を試みる。ただし、サーバ152上で動作しているサービスは無いため、何もサービスは起動されない。
Upon receiving the success notification, the
また、サーバ152におけるクラスタ管理部21は、成功通知を受けて、構成情報23のクラスタメンバテーブル90におけるサーバ151の状態をオフラインに変更し、サービス管理部22に対してサーバ151上で動作しているサービスの起動を試みる。ただし、ステップA7において、サーバ151上で動作しているサービスはサービス管理テーブル91から削除されているため、何のサービスも起動されない。
Further, upon receiving the success notification, the
図8は、本発明の実施の形態に係るクラスタシステムの状態を示す図である。 FIG. 8 is a diagram showing a state of the cluster system according to the embodiment of the present invention.
ステップA10までたどり着いた場合には、クラスタシステム301は、図8に示すような状態となる。このステップA10までの処理において、動作中のサービス1および2の停止、ならびに再起動が発生しないことから、サーバ151上のサービス1およびサーバ152上のサービス2は、稼動したままである。このため、各クライアントにおいてサービス提供可能な状態が継続される。
When the process reaches step A10, the
[パターン2]
タイブレーカ部32は、クォーラムサーバ201にサーバ152から先に確保要求があり、許容時間内にサーバ151からも確保要求があった場合には、図4および図5に示すフローチャートに従い、以下のように動作する。
[Pattern 2]
When the
タイブレーカ部32は、サーバ151に対してハートビート用のNICを閉塞させる要求を発行する(ステップA3)。
The
次に、タイブレーカ部32は、サーバ152におけるクラスタ管理部21に対してサーバ152の構成情報23の変更を依頼する(ステップA5)。
Next, the
クラスタ管理部21は、この依頼を受けて、構成情報23のサービス管理テーブル91において、サーバ151上で動作しているサービス1およびサービス2をダミーサービスに変更する。
Upon receiving this request, the
次に、タイブレーカ部32は、サーバ151におけるクラスタ管理部11に対して構成情報13の変更を依頼する(ステップA7)。クラスタ管理部11は、自身のサーバ以外で動作中のサービスを構成情報13から削除する。ただし、サーバ152上で動作しているサービスは存在しないため、サーバ151におけるサービス管理テーブル91に変更は発生しない。
Next, the
次に、タイブレーカ部32は、サーバ152がクォーラムサーバ201のクォーラムを確保した(ステップA9)後、サーバ151およびサーバ152の両方に成功通知を発行する。(ステップA10)。
Next, the
サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サービス管理部12に対してサーバ152上で動作しているサービスの起動を依頼する。ただし、サーバ152上で動作しているサービスは無いため、何もサービスは起動されない。
Upon receiving the success notification, the
また、サーバ152におけるクラスタ管理部21は、成功通知を受けて、構成情報23のクラスタメンバテーブル90におけるサーバ151の状態をオフラインに変更し、サービス管理部22に対してサーバ151上で動作しているサービスの起動を依頼する。
Further, upon receiving the success notification, the
ここで、ステップA5において構成情報23におけるサーバ151上で動作しているサービス1およびサービス2の情報を変更しているため、実際にはサービス1およびサービス2が起動されず、ダミーサービスが起動される。
Here, since the information of the
図9は、本発明の実施の形態に係るクラスタシステムの状態を示す図である。 FIG. 9 is a diagram showing a state of the cluster system according to the embodiment of the present invention.
ステップA10までたどり着いた場合には、クラスタシステム301は、図9に示すような状態となる。このステップA10までの処理において、動作中のサービス1および2の停止、ならびに再起動が発生しないことから、サーバ151上のサービス1およびサーバ152上のサービス2は、稼動したままである。このため、各クライアントにおいてサービス提供可能な状態が継続される。
When the process reaches step A10, the
ところで、特許文献1および特許文献2に記載の技術では、正常なノードでサービスが動作できる状態でも、優先度またはより信頼性のあるサーバにサービスがフェールオーバーされてしまう可能性があり、無駄にサービスの停止および再起動が発生する可能性がある。
By the way, in the technologies described in
これに対して、本発明の実施の形態に係るクラスタシステムでは、サーバ151,152は、他のサーバからハートビート信号を正常に受信できない場合には、クォーラムを確保するための確保要求をクォーラムサーバ201へ送信する。そして、クォーラムサーバ201は、サーバ151,152から確保要求を受信してから所定時間内に他のサーバから確保要求を受信したときには、確保要求に対する成功通知をサーバ151,152へ送信する。
On the other hand, in the cluster system according to the embodiment of the present invention, if the
すなわち、タイブレーカ部32は、スプリットブレインが発生した際、許容時間内に複数のサーバからのクォーラム確保要求が行なわれた場合には、ハートビート通信路障害と判断する。そして、タイブレーカ部32は、擬似的に複数のサーバにクォーラム確保成功の通知を行い、スプリットブレイン状態のまま複数のサーバおよび複数のサービスを継続稼動させる。
In other words, the
このような構成により、クラスタシステムにおけるスプリットブレイン発生時の不要なサービス停止を防止することができる。すなわち、クラスタシステムでサーバ間のハートビート通信が不通となった場合に、サービスについて不必要なフェールオーバーを発生させず、サービスを継続稼動させることができる。 With such a configuration, it is possible to prevent an unnecessary service stop when a split brain occurs in the cluster system. That is, when heartbeat communication between servers is interrupted in the cluster system, the service can be continuously operated without causing unnecessary failover of the service.
すなわち、本発明の実施の形態に係るクラスタシステムにおける各構成要素のうち、クォーラムサーバ201およびサーバ151,152からなる最小構成により、クラスタシステムにおいて、スプリットブレインが発生した際の不要なサービス停止を防ぐ、という本発明の目的を達成することが可能となる。
That is, among the components in the cluster system according to the embodiment of the present invention, the minimum configuration including the
また、本発明の実施の形態に係るクラスタシステムでは、サーバ151,152は、他のサーバが提供するサービスの情報を有する。そして、クォーラムサーバ201は、確保要求に対する成功通知をサーバ151,152へ送信する前に、サーバ151,152が他のサーバのサービスを引き継がないようにサーバ151,152の上記情報を書き換える。
In the cluster system according to the embodiment of the present invention, the
すなわち、スプリットブレイン発生時に各サーバからクォーラム確保要求が遅延なく行なわれる場合には、各サーバ上でサービス継続可能と判断する。そして、他サーバ上で動作中のサービスを起動しないように構成情報の変更を行った上で、擬似的に各サーバへクォーラム確保の成功を通知することで、スプリットブレイン状態のまま各サーバを動作させる。 That is, if a quorum securing request is made without delay from each server when split brain occurs, it is determined that service can be continued on each server. Then, after changing the configuration information so that services running on other servers are not started, each server can be operated in the split-brain state by notifying each server of a successful quorum acquisition. Let
このように、サーバによるクラスタ再構成の前に、各サーバで互いにクラスタの構成情報の変更を行なうことにより、スプリットブレイン状態でサービスを動作させる際の、リソースの重複およびデータ破壊が発生を防ぐことができる。 As described above, before the cluster is reconfigured by the server, the cluster configuration information is changed between the servers, thereby preventing resource duplication and data corruption when operating the service in the split brain state. Can do.
また、本発明の実施の形態に係るクラスタシステムでは、クォーラムサーバ201は、先に到着した確保要求を送信したサーバが、クォーラムを真に確保したことを記憶する。
Further, in the cluster system according to the embodiment of the present invention, the
このように、クォーラムサーバ上のクォーラムロックを、正規のクラスタ情報を保持するサーバに確保させることにより、スプリットブレイン状態で動作させるにあたり、正規のクラスタ情報を保持するサーバを判別することができる。 As described above, by ensuring the quorum lock on the quorum server in the server holding the regular cluster information, it is possible to determine the server holding the regular cluster information when operating in the split brain state.
また、本発明の実施の形態に係るクラスタシステムでは、クォーラムサーバ201は、情報を書き換える際に、クォーラムを真に確保したサーバが有する情報において、他のサーバが提供するサービスをダミーサービスに書き換える。
Further, in the cluster system according to the embodiment of the present invention, when rewriting information, the
このように、スプリットブレイン発生時にクラスタの構成情報を変更する際に、正規のクラスタ情報を保持するサーバ上でダミーサービスが起動するように構成情報を変更することにより、後の運用および事後解析時にログ等でダミーサービス等の稼動状況を認識することができる。 In this way, when changing the cluster configuration information when a split brain occurs, the configuration information is changed so that the dummy service is started on the server that holds the regular cluster information. The operating status of the dummy service can be recognized from the log or the like.
上記実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The above embodiment should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
[付記1]
サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、
クォーラムを有するクォーラムサーバとを備えるクラスタシステムであって、
前記クラスタサーバは、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信し、
前記クォーラムサーバは、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する、クラスタシステム。
[Appendix 1]
A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster system comprising a quorum server having a quorum,
When the cluster server cannot normally receive the heartbeat signal from the other cluster server, the cluster server sends a securing request for securing the quorum to the quorum server,
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, the quorum server transmits a success notification for the reservation request to the plurality of cluster servers. , Cluster system.
[付記2]
前記クラスタサーバは、他の前記クラスタサーバが提供するサービスの情報を有し、
前記クォーラムサーバは、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する前に、前記複数のクラスタサーバが他の前記クラスタサーバのサービスを引き継がないように前記複数のクラスタサーバの前記情報を書き換える、付記1に記載のクラスタシステム。
[Appendix 2]
The cluster server has information on services provided by other cluster servers,
The quorum server sends the information of the plurality of cluster servers so that the plurality of cluster servers do not take over the services of the other cluster servers before sending a success notification for the reservation request to the plurality of cluster servers. The cluster system according to
[付記3]
前記クォーラムサーバは、先に到着した前記確保要求を送信した前記クラスタサーバが、前記クォーラムを真に確保したことを記憶する、付記1または2に記載のクラスタシステム。
[Appendix 3]
The cluster system according to
[付記4]
前記クォーラムサーバは、前記情報を書き換える際に、前記クォーラムを真に確保した前記クラスタサーバが有する前記情報において、他の前記クラスタサーバが提供するサービスをダミーサービスに書き換える、付記3に記載のクラスタシステム。
[Appendix 4]
The cluster system according to appendix 3, wherein, when rewriting the information, the quorum server rewrites a service provided by the other cluster server to a dummy service in the information of the cluster server that truly secures the quorum. .
[付記5]
サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、
クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおけるクラスタ管理方法であって、
前記クラスタサーバが、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信するステップと、
前記クォーラムサーバが、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信するステップとを含む、クラスタ管理方法。
[Appendix 5]
A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster management method in a cluster system comprising a quorum server having a quorum,
If the cluster server cannot normally receive the heartbeat signal from the other cluster server, sending a securing request to secure the quorum to the quorum server;
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, it transmits a success notification for the reservation request to the plurality of cluster servers. And a cluster management method.
[付記6]
前記クラスタサーバは、他の前記クラスタサーバが提供するサービスの情報を有し、
前記クラスタ管理方法は、さらに、
前記クォーラムサーバが、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する前に、前記複数のクラスタサーバが他の前記クラスタサーバのサービスを引き継がないように前記複数のクラスタサーバの前記情報を書き換えるステップを含む、付記5に記載のクラスタ管理方法。
[Appendix 6]
The cluster server has information on services provided by other cluster servers,
The cluster management method further includes:
Before the quorum server sends a success notification for the reservation request to the plurality of cluster servers, the information on the plurality of cluster servers is set so that the plurality of cluster servers do not take over the services of the other cluster servers. The cluster management method according to appendix 5, including a step of rewriting.
[付記7]
前記クラスタ管理方法は、さらに、
前記クォーラムサーバが、先に到着した前記確保要求を送信した前記クラスタサーバが前記クォーラムを真に確保したことを記憶するステップを含む、付記5または6に記載のクラスタ管理方法。
[Appendix 7]
The cluster management method further includes:
The cluster management method according to appendix 5 or 6, including a step of storing that the cluster server that has transmitted the reservation request that has arrived first has really reserved the quorum.
[付記8]
前記複数のクラスタサーバの前記情報を書き換えるステップにおいては、前記クォーラムサーバは、前記クォーラムを真に確保した前記クラスタサーバが有する前記情報において、他の前記クラスタサーバが提供するサービスをダミーサービスに書き換える、付記7に記載のクラスタ管理方法。
[Appendix 8]
In the step of rewriting the information of the plurality of cluster servers, the quorum server rewrites a service provided by the other cluster server to a dummy service in the information of the cluster server that has truly secured the quorum. The cluster management method according to appendix 7.
[付記9]
サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、
クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおいて用いられるクラスタ管理プログラムであって、コンピュータに、
前記クラスタサーバが、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信するステップと、
前記クォーラムサーバが、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信するステップとを実行させるための、クラスタ管理プログラム。
[Appendix 9]
A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster management program used in a cluster system comprising a quorum server having a quorum, the computer comprising:
If the cluster server cannot normally receive the heartbeat signal from the other cluster server, sending a securing request to secure the quorum to the quorum server;
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, it transmits a success notification for the reservation request to the plurality of cluster servers. A cluster management program for executing steps.
[付記10]
前記クラスタサーバは、他の前記クラスタサーバが提供するサービスの情報を有し、
前記クラスタ管理プログラムは、さらに、コンピュータに、
前記クォーラムサーバが、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する前に、前記複数のクラスタサーバが他の前記クラスタサーバのサービスを引き継がないように前記複数のクラスタサーバの前記情報を書き換えるステップを実行させる、付記9に記載のクラスタ管理プログラム。
[Appendix 10]
The cluster server has information on services provided by other cluster servers,
The cluster management program further includes:
Before the quorum server sends a success notification for the reservation request to the plurality of cluster servers, the information on the plurality of cluster servers is set so that the plurality of cluster servers do not take over the services of the other cluster servers. The cluster management program according to appendix 9, wherein the rewriting step is executed.
[付記11]
前記クラスタ管理プログラムは、さらに、コンピュータに、
前記クォーラムサーバが、先に到着した前記確保要求を送信した前記クラスタサーバが前記クォーラムを真に確保したことを記憶するステップを実行させる、付記9または10に記載のクラスタ管理プログラム。
[Appendix 11]
The cluster management program further includes:
11. The cluster management program according to
[付記12]
前記複数のクラスタサーバの前記情報を書き換えるステップにおいては、前記クォーラムサーバは、前記クォーラムを真に確保した前記クラスタサーバが有する前記情報において、他の前記クラスタサーバが提供するサービスをダミーサービスに書き換える、付記11に記載のクラスタ管理プログラム。
[Appendix 12]
In the step of rewriting the information of the plurality of cluster servers, the quorum server rewrites a service provided by the other cluster server to a dummy service in the information of the cluster server that has truly secured the quorum. The cluster management program according to
本発明によれば、複数のサーバを構成要素とするクラスタシステムにおいて、ネットワーク障害などにより各サーバ間が分断された場合において、不要なサービス停止を防ぐことができる。したがって、本発明は、産業上の利用可能性を有している。 According to the present invention, in a cluster system having a plurality of servers as components, it is possible to prevent an unnecessary service stop when each server is disconnected due to a network failure or the like. Therefore, the present invention has industrial applicability.
11 クラスタ管理部
12 サービス管理部
13 、構成情報
21 クラスタ管理部
22 サービス管理部
23 構成情報
40 共有ストレージ装置
50 ハートビート通信路
60 サービス提供用通信路
90 クラスタメンバテーブル
91 サービス管理テーブル
101 CPU
102 メインメモリ
103 ハードディスク
104 入力インタフェース
105 表示コントローラ
106 データリーダ/ライタ
107 通信インタフェース
121 バス
151,152 サーバ(クラスタサーバ)
201 クォーラムサーバ
301 クラスタシステム
DESCRIPTION OF
102 Main Memory 103
201
Claims (6)
クォーラムを有するクォーラムサーバとを備えるクラスタシステムであって、
前記クラスタサーバは、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信し、
前記クォーラムサーバは、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する、クラスタシステム。 A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster system comprising a quorum server having a quorum,
When the cluster server cannot normally receive the heartbeat signal from the other cluster server, the cluster server sends a securing request for securing the quorum to the quorum server,
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, the quorum server transmits a success notification for the reservation request to the plurality of cluster servers. , Cluster system.
前記クォーラムサーバは、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する前に、前記複数のクラスタサーバが他の前記クラスタサーバのサービスを引き継がないように前記複数のクラスタサーバの前記情報を書き換える、請求項1に記載のクラスタシステム。 The cluster server has information on services provided by other cluster servers,
The quorum server sends the information of the plurality of cluster servers so that the plurality of cluster servers do not take over the services of the other cluster servers before sending a success notification for the reservation request to the plurality of cluster servers. The cluster system according to claim 1, wherein the cluster system is rewritten.
クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおけるクラスタ管理方法であって、
前記クラスタサーバが、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信するステップと、
前記クォーラムサーバが、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信するステップとを含む、クラスタ管理方法。 A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster management method in a cluster system comprising a quorum server having a quorum,
If the cluster server cannot normally receive the heartbeat signal from the other cluster server, sending a securing request to secure the quorum to the quorum server;
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, it transmits a success notification for the reservation request to the plurality of cluster servers. And a cluster management method.
クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおいて用いられるクラスタ管理プログラムであって、コンピュータに、
前記クラスタサーバが、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信するステップと、
前記クォーラムサーバが、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信するステップとを実行させるための、クラスタ管理プログラム。
A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster management program used in a cluster system comprising a quorum server having a quorum, the computer comprising:
If the cluster server cannot normally receive the heartbeat signal from the other cluster server, sending a securing request to secure the quorum to the quorum server;
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, it transmits a success notification for the reservation request to the plurality of cluster servers. A cluster management program for executing steps.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011035476A JP2012173996A (en) | 2011-02-22 | 2011-02-22 | Cluster system, cluster management method and cluster management program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011035476A JP2012173996A (en) | 2011-02-22 | 2011-02-22 | Cluster system, cluster management method and cluster management program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012173996A true JP2012173996A (en) | 2012-09-10 |
Family
ID=46976850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011035476A Withdrawn JP2012173996A (en) | 2011-02-22 | 2011-02-22 | Cluster system, cluster management method and cluster management program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012173996A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015197742A (en) * | 2014-03-31 | 2015-11-09 | 富士通株式会社 | Storage system, storage device, and monitoring server |
WO2016107173A1 (en) * | 2014-12-31 | 2016-07-07 | 华为技术有限公司 | Post-cluster brain split quorum processing method and quorum storage device and system |
CN105849702A (en) * | 2013-12-25 | 2016-08-10 | 日本电气方案创新株式会社 | Cluster system, server device, cluster system management method, and computer-readable recording medium |
JP2016531348A (en) * | 2013-08-26 | 2016-10-06 | ヴイエムウェア インコーポレイテッドVMware,Inc. | Fragmentation tolerance in cluster membership management |
CN111869163A (en) * | 2018-03-19 | 2020-10-30 | 华为技术有限公司 | Fault detection method, device and system |
US10855602B2 (en) | 2013-08-26 | 2020-12-01 | Vmware, Inc. | Distributed policy-based provisioning and enforcement for quality of service |
US11016820B2 (en) | 2013-08-26 | 2021-05-25 | Vmware, Inc. | Load balancing of resources |
US11210035B2 (en) | 2013-08-26 | 2021-12-28 | Vmware, Inc. | Creating, by host computers, respective object of virtual disk based on virtual disk blueprint |
US11249956B2 (en) | 2013-08-26 | 2022-02-15 | Vmware, Inc. | Scalable distributed storage architecture |
CN115190046A (en) * | 2022-04-13 | 2022-10-14 | 统信软件技术有限公司 | Detection method and detection device for server cluster and computing equipment |
WO2023148977A1 (en) * | 2022-02-07 | 2023-08-10 | 株式会社Pfu | Node device, cluster management method, program, and cluster system |
-
2011
- 2011-02-22 JP JP2011035476A patent/JP2012173996A/en not_active Withdrawn
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11016820B2 (en) | 2013-08-26 | 2021-05-25 | Vmware, Inc. | Load balancing of resources |
US10855602B2 (en) | 2013-08-26 | 2020-12-01 | Vmware, Inc. | Distributed policy-based provisioning and enforcement for quality of service |
JP2016531348A (en) * | 2013-08-26 | 2016-10-06 | ヴイエムウェア インコーポレイテッドVMware,Inc. | Fragmentation tolerance in cluster membership management |
US11809753B2 (en) | 2013-08-26 | 2023-11-07 | Vmware, Inc. | Virtual disk blueprints for a virtualized storage area network utilizing physical storage devices located in host computers |
US11249956B2 (en) | 2013-08-26 | 2022-02-15 | Vmware, Inc. | Scalable distributed storage architecture |
US11210035B2 (en) | 2013-08-26 | 2021-12-28 | Vmware, Inc. | Creating, by host computers, respective object of virtual disk based on virtual disk blueprint |
US9672115B2 (en) | 2013-08-26 | 2017-06-06 | Vmware, Inc. | Partition tolerance in cluster membership management |
US11704166B2 (en) | 2013-08-26 | 2023-07-18 | Vmware, Inc. | Load balancing of resources |
CN105849702A (en) * | 2013-12-25 | 2016-08-10 | 日本电气方案创新株式会社 | Cluster system, server device, cluster system management method, and computer-readable recording medium |
US10102088B2 (en) | 2013-12-25 | 2018-10-16 | Nec Solution Innovators, Ltd. | Cluster system, server device, cluster system management method, and computer-readable recording medium |
JP2015197742A (en) * | 2014-03-31 | 2015-11-09 | 富士通株式会社 | Storage system, storage device, and monitoring server |
US10020980B2 (en) | 2014-12-31 | 2018-07-10 | Huawei Technologies Co., Ltd. | Arbitration processing method after cluster brain split, quorum storage apparatus, and system |
US10298436B2 (en) | 2014-12-31 | 2019-05-21 | Huawei Technologies Co., Ltd. | Arbitration processing method after cluster brain split, quorum storage apparatus, and system |
JP2017525008A (en) * | 2014-12-31 | 2017-08-31 | 華為技術有限公司Huawei Technologies Co.,Ltd. | Arbitration processing method, quorum storage device, and system after cluster brain division |
WO2016107173A1 (en) * | 2014-12-31 | 2016-07-07 | 华为技术有限公司 | Post-cluster brain split quorum processing method and quorum storage device and system |
JP2017517817A (en) * | 2014-12-31 | 2017-06-29 | 華為技術有限公司Huawei Technologies Co.,Ltd. | Arbitration processing method, quorum storage device, and system after cluster brain division |
CN111869163A (en) * | 2018-03-19 | 2020-10-30 | 华为技术有限公司 | Fault detection method, device and system |
WO2023148977A1 (en) * | 2022-02-07 | 2023-08-10 | 株式会社Pfu | Node device, cluster management method, program, and cluster system |
CN115190046A (en) * | 2022-04-13 | 2022-10-14 | 统信软件技术有限公司 | Detection method and detection device for server cluster and computing equipment |
CN115190046B (en) * | 2022-04-13 | 2024-01-23 | 统信软件技术有限公司 | Detection method, detection device and computing equipment of server cluster |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012173996A (en) | Cluster system, cluster management method and cluster management program | |
US9311199B2 (en) | Replaying jobs at a secondary location of a service | |
US9747179B2 (en) | Data management agent for selective storage re-caching | |
JP6084624B2 (en) | Split brain tolerant failover in high availability clusters | |
US8583773B2 (en) | Autonomous primary node election within a virtual input/output server cluster | |
US9110717B2 (en) | Managing use of lease resources allocated on fallover in a high availability computing environment | |
US8533171B2 (en) | Method and system for restarting file lock services at an adoptive node during a network filesystem server migration or failover | |
US20120180070A1 (en) | Single point, scalable data synchronization for management of a virtual input/output server cluster | |
JP4572250B2 (en) | Computer switching method, computer switching program, and computer system | |
US9052833B2 (en) | Protection of former primary volumes in a synchronous replication relationship | |
US11550820B2 (en) | System and method for partition-scoped snapshot creation in a distributed data computing environment | |
US11573737B2 (en) | Method and apparatus for performing disk management of all flash array server | |
US11604806B2 (en) | System and method for highly available database service | |
US20110161724A1 (en) | Data management apparatus, monitoring apparatus, replica apparatus, cluster system, control method and computer-readable medium | |
EP3648405B1 (en) | System and method to create a highly available quorum for clustered solutions | |
US20150067401A1 (en) | Computer recovery method, computer system, and storage medium | |
CN107071189B (en) | Connection method of communication equipment physical interface | |
CN101442437A (en) | Method, system and equipment for implementing high availability | |
JP4520899B2 (en) | Cluster control method, cluster control program, cluster system, and standby server | |
US11010269B2 (en) | Distributed processing system and method for management of distributed processing system | |
CN114827148B (en) | Cloud security computing method and device based on cloud fault-tolerant technology and storage medium | |
WO2023148976A1 (en) | Node device, cluster reconfiguration method, program, and cluster system | |
JP5153310B2 (en) | Fault tolerant computer system, resynchronization operation processing method, and program | |
CN116303364A (en) | Redis high-availability and high-expansibility installation method and device | |
Zhang et al. | ZooKeeper+: The Optimization of Election Algorithm in Complex Network Circumstance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140513 |