JP2012173996A - Cluster system, cluster management method and cluster management program - Google Patents

Cluster system, cluster management method and cluster management program Download PDF

Info

Publication number
JP2012173996A
JP2012173996A JP2011035476A JP2011035476A JP2012173996A JP 2012173996 A JP2012173996 A JP 2012173996A JP 2011035476 A JP2011035476 A JP 2011035476A JP 2011035476 A JP2011035476 A JP 2011035476A JP 2012173996 A JP2012173996 A JP 2012173996A
Authority
JP
Japan
Prior art keywords
server
cluster
quorum
service
servers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011035476A
Other languages
Japanese (ja)
Inventor
Tsunehito Nakada
常仁 中田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011035476A priority Critical patent/JP2012173996A/en
Publication of JP2012173996A publication Critical patent/JP2012173996A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

PROBLEM TO BE SOLVED: To prevent unnecessary service stop when split-brain occurs in a cluster system.SOLUTION: A cluster system 301 comprises: multiple cluster servers 151 and 152 for providing service to one or more clients CT1 to CTn and mutually transmitting and receiving a heartbeat signal through a heartbeat communication channel 50; and a quorum server 201 having a quorum. When failing to normally receive the heartbeat signal from the other cluster server, the cluster server 151 or 152 transmits a securement request for securing the quorum to the quorum server 201. When receiving the securement request from the other cluster server within a predetermined time of receiving the securement request from the cluster server, the quorum server 201 transmits success notification to the cluster servers 151 and 152 in response to the securement requests.

Description

本発明は、クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラムに関し、特に、スプリットブレイン対策を行なうクラスタシステム、クラスタ管理方法、およびクラスタ管理プログラムに関する。   The present invention relates to a cluster system, a cluster management method, and a cluster management program, and more particularly, to a cluster system, a cluster management method, and a cluster management program that take measures against split brain.

従来、サーバの障害時に、当該サーバがクライアントに提供していたサービスを別のサーバで継続することを可能とする技術として、クラスタシステムがある。   Conventionally, there is a cluster system as a technique that enables a server to continue a service provided to a client by another server in the event of a server failure.

このようなクラスタシステムでは、当該クラスタシステムを構成する複数のサーバが相互にハートビートと呼ばれる通信を行なうことにより、障害が発生したノードすなわちサーバを検知するのが一般的である。   In such a cluster system, a plurality of servers constituting the cluster system generally detect a failed node, that is, a server by performing communication called a heartbeat with each other.

ハートビート通信とは、フェールオーバーすなわち業務の引き継ぎを互いに行なう関係にある複数のサーバ間で、サーバ機能が停止していないことを示すためのハートビートをやり取りすることにより、互いのサーバの死活監視を行なう技術である。ハートビート通信が行なわれている間は、相手方サーバが正常に稼働しているものと判断され、フェールオーバーは行なわれない。   Heartbeat communication refers to the monitoring of each server's aliveness by exchanging heartbeats to indicate that the server function has not stopped between multiple servers that are in a failover or business takeover relationship. It is a technology to do. While the heartbeat communication is performed, it is determined that the other server is operating normally, and no failover is performed.

逆に、ハートビート通信が途切れた場合には、相手方サーバがシステムダウンしたものと判断され、相手方サーバで提供されていた業務アプリケーション等のサービスを自機で引き継ぐ。これにより、サービスを利用するクライアントからは、クラスタシステム全体が1台のサーバのように見える。したがって、現用系サーバから待機系サーバに処理が切り替わった場合でも、クライアントは、どのサーバからサービスが提供されているかを意識することはない。   On the other hand, when the heartbeat communication is interrupted, it is determined that the partner server is down, and services such as business applications provided by the partner server are taken over by the own device. As a result, the entire cluster system looks like a single server to clients using the service. Therefore, even when the processing is switched from the active server to the standby server, the client does not know from which server the service is provided.

しかしながら、ハートビート通信のための通信経路の障害により、クラスタシステムを構成する複数のサーバが孤立すると、当該複数のサーバで同じサービスが開始され、データが破壊されるといった、クラスタとして不整合な状態が発生する。このような状態は、スプリットブレインと呼ばれている。   However, if multiple servers that make up the cluster system are isolated due to a failure in the communication path for heartbeat communication, the same service is started on the multiple servers and data is destroyed. Will occur. Such a state is called split brain.

このスプリットブレインを回避するため、定足数(クォーラム:quorum)を用いた多数決方式が知られている。この多数決方式では、クラスタを再構成するためには、50%より多くのクォーラムを確保する必要がある。   In order to avoid this split brain, a majority method using a quorum is known. In this majority method, it is necessary to secure more than 50% quorum in order to reconfigure the cluster.

たとえば2ノードで構成されるクラスタでは、クォーラムを各サーバに1つずつ、かつ共有ディスクに1つ保持し、スプリットブレインが発生した場合に、タイブレーク処理として各サーバが共有ディスク上のクォーラムの確保を試みる。クォーラムを先に確保したサーバは過半数(2/3)のクォーラムを持つため、正規のクラスタとして再構成される。すなわち、当該サーバは、他方のサーバ上で動作中のサービスを引き継ぐ。共有ディスク上のクォーラムを確保できなかったサーバは、自身のクォーラム(1/3)を確保するのみであり、過半数を確保できないため、パニックを行なって動作を停止する。   For example, in a two-node cluster, each server holds one quorum and one shared disk, and when split brain occurs, each server secures quorum on the shared disk as a tie-break process. Try. Since the server that has secured the quorum first has a majority (2/3) quorum, it is reconfigured as a regular cluster. That is, the server takes over the service running on the other server. The server that could not secure the quorum on the shared disk only secures its own quorum (1/3) and cannot secure the majority, so it panics and stops its operation.

なお、Oracle社 SunCluster 3.2 Release Note for Solaris OS Sun Cluster Quorum Server[online]、[平成23年2月1日検索]、インターネット〈URL:http://docs.sun.com/app/docs/doc/819-6611/gcvsc?a=view〉(非特許文献1)に開示されているように、商用UNIX(登録商標)環境では、共有ディスクの代わりに、クラスタに属していないノードにクォーラムを保持する方法を提供しているクラスタ製品がある。このような技術では、物理的なディスク書き込みが発生しないため、生き残るサーバを高速に決定できる他、ディスク依存した機能を用いなくてもソフトウェアだけで制御できるメリットがある。   Oracle SunCluster 3.2 Release Note for Solaris OS Sun Cluster Quorum Server [online], [Search February 1, 2011], Internet <URL: http://docs.sun.com/app/docs/doc/ 819-6611 / gcvsc? A = view> (Non-patent Document 1) In a commercial UNIX (registered trademark) environment, a quorum is held in a node not belonging to a cluster instead of a shared disk. There is a cluster product that provides a method. In such a technique, since physical disk writing does not occur, a surviving server can be determined at high speed, and there is a merit that it can be controlled only by software without using a disk-dependent function.

また、特開2006−48477号公報(特許文献1)には、以下のような技術が開示されている。すなわち、クラスタシステムを構成する2つのサーバ(ノード)間の通信が不通になると、それぞれのノードでは、ノード制御部で、割当て時間とその優先度に関する定義情報に基づき、次の割当て時間の開始時刻を算出する。そして、算出された開始時刻まで、所定のサービス処理の起動を遅延させる。そして、割当て時間の開始時刻になると、サービス処理を起動し、割当て時間内にサービスが実行できれば、サービス処理を継続し、サービスが実行できなければ、動作を停止する。   Japanese Patent Laid-Open No. 2006-48477 (Patent Document 1) discloses the following technique. That is, when communication between two servers (nodes) constituting a cluster system is interrupted, the start time of the next allocation time is determined by the node control unit in each node based on the definition information on the allocation time and its priority. Is calculated. Then, activation of a predetermined service process is delayed until the calculated start time. When the allocation time starts, the service process is started. If the service can be executed within the allocation time, the service process is continued. If the service cannot be executed, the operation is stopped.

また、特開2009−223519号公報(特許文献2)には、以下のような技術が開示されている。すなわち、各ノードのクラスタ管理部は、相互にハートビート通信を行なうことでノード障害を検出する。すると各重み付け処理部は、ノードのサービスの開始に関する状態をチェックし、そのチェックされた状態に応じて、共有ストレージ装置に格納されている重み情報中のノード自身の重みを更新する。各ノードのタイブレーカ機構は、更新された重み情報の示す重みに基づいてノード自身の優先順位が最も高いかを判定し、最も優先順位が高い場合にノード自身をマスタノードとして選択する。   Japanese Unexamined Patent Application Publication No. 2009-223519 (Patent Document 2) discloses the following technique. That is, the cluster management unit of each node detects a node failure by performing heartbeat communication with each other. Then, each weighting processing unit checks the state related to the start of the service of the node, and updates the weight of the node itself in the weight information stored in the shared storage device according to the checked state. The tie breaker mechanism of each node determines whether the priority of the node itself is the highest based on the weight indicated by the updated weight information, and selects the node itself as the master node when the priority is the highest.

Oracle社 SunCluster 3.2 Release Note for Solaris OS Sun Cluster Quorum Server[online]、[平成23年2月1日検索]、インターネット〈URL:http://docs.sun.com/app/docs/doc/819-6611/gcvsc?a=view〉Oracle SunCluster 3.2 Release Note for Solaris OS Sun Cluster Quorum Server [online], [searched on February 1, 2011], Internet <URL: http://docs.sun.com/app/docs/doc/819- 6611 / gcvsc? A = view>

特開2006−48477号公報JP 2006-48477 A 特開2009−223519号公報JP 2009-223519 A

クォーラムを過半数確保できなかったサーバ上で動作していたサービスは、クォーラムを過半数確保できたサーバ上で動作するよう再構成される。このため、異なるサーバでサービスの提供を継続させることは可能であるが、この動作により一時的にサービス停止が発生する。   Services that were running on a server that could not have a majority of quorums are reconfigured to run on a server that could have a majority of quorums. For this reason, it is possible to continue providing services on different servers, but this operation temporarily stops the service.

また、データベースのように起動前に復旧処理等を行なうことで整合性を確認する必要のあるサービスも多いため、クラスタのサービスを起動させる際は、サービス提供までに少なからず時間およびコストがかかる。   In addition, since there are many services such as databases that need to be checked for consistency by performing recovery processing or the like before startup, it takes time and cost to provide services when starting a cluster service.

クラスタノードすなわちサーバ間のハートビートが途切れる原因としては、サーバ自身またはクラスタ管理コンポーネントがハングまたはスローダウンした場合、およびサーバは問題ないがハートビート用の通信経路に障害が発生した場合の2通り考えられる。前者の場合はやむを得ないが、後者の場合には、サーバは正常に動作できるにも関わらず、無駄にサービスの一時停止が発生してしまう。   There are two possible causes for heartbeat interruption between cluster nodes or servers: when the server itself or the cluster management component hangs or slows down, and when there is no problem with the server but the heartbeat communication path fails. It is done. In the former case, it is unavoidable, but in the latter case, although the server can operate normally, the service is temporarily suspended.

すなわち、クラスタシステムにおいてスプリットブレインが発生した際に、従来の方法では、クラスタシステムの整合性を保つため、一方のクラスタノード(サーバ)が稼動し、もう一方のクラスタノード(サーバ)が停止するような動作を行なわせる。このため、停止させるサーバ上でサービスの提供が行なわれており、当該サーバが正常に動作できる場合でも、稼動させるサーバ上でサービスを再起動する必要があり、一時的にサービスの停止が発生してしまうという問題点があった。   In other words, when split brain occurs in a cluster system, in the conventional method, in order to maintain the consistency of the cluster system, one cluster node (server) is activated and the other cluster node (server) is stopped. To perform the correct operation. For this reason, services are provided on the server to be stopped, and even when the server can operate normally, it is necessary to restart the service on the server to be operated. There was a problem that it was.

ここで、ハートビート用の通信経路は、信頼性を向上させるため多重化されることも多い。しかしながら、コストおよびサーバ構成の制限などで多重化できない場合、ならびに通信経路の一部が多重化されない場合もあり、通信経路の単一障害によりハートビートが途切れる可能性がある。たとえば、1つの物理NIC(Network Interface Card)の複数のポートを使わざるを得ない環境、および経路上のネットワーク装置を共有せざるを得ない環境では、通信経路の一部が多重化されない。   Here, the heartbeat communication path is often multiplexed in order to improve reliability. However, there are cases where multiplexing cannot be performed due to cost and server configuration restrictions, and there are cases where a part of the communication path is not multiplexed, and the heartbeat may be interrupted due to a single failure in the communication path. For example, in an environment where a plurality of ports of one physical NIC (Network Interface Card) must be used and an environment where a network device on the path must be shared, a part of the communication path is not multiplexed.

特許文献1および特許文献2に記載の技術は、いずれもハートビート通信経路障害によるスプリットブレインが発生した場合に、サービスが起動できる正常なサーバを選択し、より正常なノードでサービスを起動させる方法である。   The techniques described in Patent Literature 1 and Patent Literature 2 are both methods for selecting a normal server that can start a service when a split brain occurs due to a heartbeat communication path failure and starting the service on a more normal node. It is.

これらの方法では、正常なノードでサービスが動作できる状態でも、優先度またはより信頼性のあるサーバにサービスがフェールオーバーされてしまう可能性があり、無駄にサービスの停止および再起動が発生する可能性がある。   With these methods, even when the service can operate on a normal node, the service may fail over to a priority or more reliable server, which can cause unnecessary service stop and restart. There is sex.

この発明は、上述の課題を解決するためになされたもので、その目的は、クラスタシステムにおいて、スプリットブレインが発生した際の不要なサービス停止を防ぐことが可能なクラスタシステム、クラスタ管理方法、およびクラスタ管理プログラムを提供することである。   The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a cluster system, a cluster management method, and a cluster system capable of preventing an unnecessary service stop when a split brain occurs in the cluster system. It is to provide a cluster management program.

上記課題を解決するために、この発明のある局面に係わるクラスタシステムは、サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、クォーラムを有するクォーラムサーバとを備えるクラスタシステムであって、上記クラスタサーバは、他の上記クラスタサーバから上記ハートビート信号を正常に受信できない場合には、上記クォーラムを確保するための確保要求を上記クォーラムサーバへ送信し、上記クォーラムサーバは、上記クラスタサーバから上記確保要求を受信してから所定時間内に他の上記クラスタサーバから上記確保要求を受信したときには、上記確保要求に対する成功通知を上記複数のクラスタサーバへ送信する。   In order to solve the above problems, a cluster system according to an aspect of the present invention provides a plurality of clusters for providing a service to one or a plurality of clients and transmitting / receiving heartbeat signals to / from each other via a heartbeat communication path. A cluster system comprising a server and a quorum server having a quorum, wherein the cluster server is unable to normally receive the heartbeat signal from another cluster server, and a securing request for securing the quorum To the quorum server, and when the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, the quorum server sends a success notification for the reservation request. Send to the multiple cluster servers.

上記課題を解決するために、この発明のある局面に係わるクラスタ管理方法は、サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおけるクラスタ管理方法であって、上記クラスタサーバが、他の上記クラスタサーバから上記ハートビート信号を正常に受信できない場合には、上記クォーラムを確保するための確保要求を上記クォーラムサーバへ送信するステップと、上記クォーラムサーバが、上記クラスタサーバから上記確保要求を受信してから所定時間内に他の上記クラスタサーバから上記確保要求を受信したときには、上記確保要求に対する成功通知を上記複数のクラスタサーバへ送信するステップとを含む。   In order to solve the above problems, a cluster management method according to an aspect of the present invention provides a plurality of services for providing a service to one or a plurality of clients and transmitting / receiving heartbeat signals to / from each other via a heartbeat communication path. A cluster management method in a cluster system comprising a cluster server and a quorum server having a quorum, wherein the quorum is secured when the cluster server cannot normally receive the heartbeat signal from another cluster server. Transmitting a reservation request to the quorum server, and when the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, Multiple success notifications for the reservation request And a step to be sent to the cluster server.

上記課題を解決するために、この発明のある局面に係わるクラスタ管理プログラムは、サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおいて用いられるクラスタ管理プログラムであって、コンピュータに、上記クラスタサーバが、他の上記クラスタサーバから上記ハートビート信号を正常に受信できない場合には、上記クォーラムを確保するための確保要求を上記クォーラムサーバへ送信するステップと、上記クォーラムサーバが、上記クラスタサーバから上記確保要求を受信してから所定時間内に他の上記クラスタサーバから上記確保要求を受信したときには、上記確保要求に対する成功通知を上記複数のクラスタサーバへ送信するステップとを実行させるプログラムである。   In order to solve the above problems, a cluster management program according to an aspect of the present invention provides a plurality of services for providing a service to one or a plurality of clients and transmitting / receiving heartbeat signals to / from each other via a heartbeat communication path. A cluster management program used in a cluster system including a cluster server and a quorum server having a quorum, when the cluster server cannot normally receive the heartbeat signal from another cluster server. A step of transmitting a securing request for securing the quorum to the quorum server, and the securing request from another cluster server within a predetermined time after the quorum server receives the securing request from the cluster server. When you receive The success notification for the serial reservation request is a program for executing the steps of transmitting to the plurality of servers in a cluster.

本発明によれば、クラスタシステムにおいて、スプリットブレインが発生した際の不要なサービス停止を防ぐことができる。   According to the present invention, it is possible to prevent an unnecessary service stop when a split brain occurs in a cluster system.

本発明の実施の形態に係るクラスタシステムの構成を示す図である。It is a figure which shows the structure of the cluster system which concerns on embodiment of this invention. 本発明の実施の形態に係るクォーラムサーバの概略構成図である。It is a schematic block diagram of the quorum server which concerns on embodiment of this invention. 本発明の実施の形態に係るクラスタシステムにおいて、構成情報で管理している主な情報を示す図である。It is a figure which shows the main information managed with the configuration information in the cluster system according to the embodiment of the present invention. 本発明の実施の形態に係るクォーラムサーバがシステム管理処理を行なう際の動作手順を示すフローチャートである。It is a flowchart which shows the operation | movement procedure at the time of the quorum server concerning embodiment of this invention performing a system management process. 本発明の実施の形態に係るクォーラムサーバがシステム管理処理を行なう際の動作手順を示すフローチャートである。It is a flowchart which shows the operation | movement procedure at the time of the quorum server concerning embodiment of this invention performing a system management process. 本発明の実施の形態に係るクラスタシステムにおける各サーバのサービス管理テーブルの変更例を示す図である。It is a figure which shows the example of a change of the service management table of each server in the cluster system which concerns on embodiment of this invention. 本発明の実施の形態に係るクラスタシステムの状態を示す図である。It is a figure which shows the state of the cluster system which concerns on embodiment of this invention. 本発明の実施の形態に係るクラスタシステムの状態を示す図である。It is a figure which shows the state of the cluster system which concerns on embodiment of this invention. 本発明の実施の形態に係るクラスタシステムの状態を示す図である。It is a figure which shows the state of the cluster system which concerns on embodiment of this invention.

以下、本発明の実施の形態について図面を用いて説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals and description thereof will not be repeated.

[構成および基本動作]
図1は、本発明の実施の形態に係るクラスタシステムの構成を示す図である。
[Configuration and basic operation]
FIG. 1 is a diagram showing a configuration of a cluster system according to an embodiment of the present invention.

図1を参照して、クラスタシステム301は、情報処理装置の一例であるサーバ(クラスタサーバ)151,152と、情報処理装置の一例であるクォーラムサーバ201と、共有ストレージ装置40と、サービス提供用通信路60とを備える。サーバ151は、クラスタ管理部11と、サービス管理部12と、構成情報13とを含む。サーバ152は、クラスタ管理部21と、サービス管理部22と、構成情報23とを含む。   Referring to FIG. 1, a cluster system 301 includes servers (cluster servers) 151 and 152 that are examples of information processing apparatuses, a quorum server 201 that is an example of an information processing apparatus, a shared storage apparatus 40, and a service providing service. And a communication path 60. The server 151 includes a cluster management unit 11, a service management unit 12, and configuration information 13. The server 152 includes a cluster management unit 21, a service management unit 22, and configuration information 23.

クラスタシステム301は、たとえばサーバ151,152を備える2ノードクラスタシステムである。なお、クラスタシステム301は3つ以上のサーバを備える構成であってもよい。以下、クラスタシステム301においてサービスを提供するサーバ群をクラスタと称する。サーバ151,152の各々は、クラスタを構成するクラスタノードに該当する。   The cluster system 301 is a two-node cluster system including servers 151 and 152, for example. Note that the cluster system 301 may be configured to include three or more servers. Hereinafter, a group of servers that provide services in the cluster system 301 is referred to as a cluster. Each of the servers 151 and 152 corresponds to a cluster node constituting the cluster.

サーバ151,152は、サービスをクライアントCT1〜CTn(nは1以上の整数)に提供し、かつハートビート通信路50を介してハートビート信号を互いに送受信する。   The servers 151 and 152 provide services to the clients CT1 to CTn (n is an integer of 1 or more), and transmit / receive heartbeat signals to / from each other via the heartbeat communication path 50.

より詳細には、共有ストレージ装置40は、サーバ151およびサーバ152からアクセス可能である。   More specifically, the shared storage device 40 can be accessed from the server 151 and the server 152.

サーバ151およびサーバ152は、互いの死活確認(ハートビート)用のハートビート通信路50によって接続されている。サーバ151およびサーバ152は、互いの死活監視を行なうために、ハートビート通信路50を使用してハートビート信号を定期的に送受信しあう。   The server 151 and the server 152 are connected to each other via a heartbeat communication path 50 for life and death confirmation (heartbeat). The server 151 and the server 152 periodically transmit and receive heartbeat signals using the heartbeat communication path 50 in order to monitor each other's life and death.

また、サーバ151およびサーバ152は、クライアントCT1〜CTnにサービスを提供するためのサービス提供用通信路60に接続されており、この通信路上にクォーラムサーバ201が配置される。   The server 151 and the server 152 are connected to a service providing communication path 60 for providing services to the clients CT1 to CTn, and the quorum server 201 is disposed on the communication path.

本発明の実施の形態に係る情報処理装置であるクォーラムサーバ201およびサーバ151,152は、典型的には、汎用的なアーキテクチャを有するコンピュータを基本構造としており、予めインストールされたプログラムを実行することで、後述するような各種機能を提供する。一般的に、このようなプログラムは、フレキシブルディスク(Flexible Disk)およびCD−ROM(Compact Disk Read Only Memory)などの記録媒体に格納されて、あるいはネットワークなどを介して流通する。   The quorum server 201 and the servers 151 and 152, which are information processing apparatuses according to the embodiment of the present invention, typically have a basic structure of a computer having a general-purpose architecture and execute a program installed in advance. Thus, various functions as described later are provided. In general, such a program is stored in a recording medium such as a flexible disk and a CD-ROM (Compact Disk Read Only Memory) or distributed via a network or the like.

本発明の実施の形態に係るプログラムは、OS等の他のプログラムの一部に組み込まれて提供されるものであってもよい。この場合でも、本発明の実施の形態に係るプログラム自体は、上記のような組み込み先の他のプログラムが有するモジュールを含んでおらず、当該他のプログラムと協働して処理が実行される。すなわち、本発明の実施の形態に係るプログラムとしては、このような他のプログラムに組み込まれた形態であってもよい。   The program according to the embodiment of the present invention may be provided by being incorporated in a part of another program such as an OS. Even in this case, the program itself according to the embodiment of the present invention does not include a module included in the other program as described above, and the process is executed in cooperation with the other program. That is, the program according to the embodiment of the present invention may be in a form incorporated in such another program.

なお、代替的に、プログラムの実行により提供される機能の一部もしくは全部を専用のハードウェア回路として実装してもよい。   Alternatively, some or all of the functions provided by program execution may be implemented as a dedicated hardware circuit.

図2は、本発明の実施の形態に係るクォーラムサーバの概略構成図である。サーバ151,152の構成は、たとえばクォーラムサーバ201と同様である。   FIG. 2 is a schematic configuration diagram of a quorum server according to the embodiment of the present invention. The configuration of the servers 151 and 152 is the same as that of the quorum server 201, for example.

図2を参照して、クォーラムサーバ201は、演算処理部であるCPU(Central Processing Unit)101と、メインメモリ102と、ハードディスク103と、入力インタフェース104と、表示コントローラ105と、データリーダ/ライタ106と、通信インタフェース107とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。   Referring to FIG. 2, a quorum server 201 includes a CPU (Central Processing Unit) 101 that is an arithmetic processing unit, a main memory 102, a hard disk 103, an input interface 104, a display controller 105, and a data reader / writer 106. And a communication interface 107. These units are connected to each other via a bus 121 so that data communication is possible.

CPU101は、ハードディスク103に格納されたプログラム(コード)をメインメモリ102に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ102は、典型的には、DRAM(Dynamic Random Access Memory)などの揮発性の記憶装置であり、ハードディスク103から読み出されたプログラムに加えて、各種の演算処理結果を示すデータなどを保持する。また、ハードディスク103は不揮発性の磁気記憶装置であり、CPU101で実行されるプログラムに加えて、各種設定値などが格納される。このハードディスク103にインストールされるプログラムは、後述するように、記録媒体111に格納された状態で流通する。なお、ハードディスク103に加えて、あるいはハードディスク103に代えて、フラッシュメモリなどの半導体記憶装置を採用してもよい。   The CPU 101 performs various operations by developing programs (codes) stored in the hard disk 103 in the main memory 102 and executing them in a predetermined order. The main memory 102 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory), and stores data indicating various arithmetic processing results in addition to programs read from the hard disk 103. To do. The hard disk 103 is a non-volatile magnetic storage device, and stores various setting values in addition to programs executed by the CPU 101. The program installed in the hard disk 103 is distributed in a state of being stored in the recording medium 111 as will be described later. In addition to the hard disk 103 or instead of the hard disk 103, a semiconductor storage device such as a flash memory may be employed.

入力インタフェース104は、CPU101とキーボード108、マウス109および図示しないタッチパネルなどの入力部との間のデータ伝送を仲介する。すなわち、入力インタフェース104は、ユーザが入力部を操作することで与えられる操作指令などの外部からの入力を受付ける。   The input interface 104 mediates data transmission between the CPU 101 and an input unit such as a keyboard 108, a mouse 109, and a touch panel (not shown). That is, the input interface 104 receives an external input such as an operation command given by the user operating the input unit.

表示コントローラ105は、表示部の典型例であるディスプレイ110と接続され、ディスプレイ110での表示を制御する。すなわち、表示コントローラ105は、CPU101による画像処理の結果などをユーザに対して表示する。ディスプレイ110は、たとえばLCD(Liquid Crystal Display)またはCRT(Cathode Ray Tube)である。   The display controller 105 is connected to a display 110 that is a typical example of a display unit, and controls display on the display 110. That is, the display controller 105 displays the result of image processing by the CPU 101 to the user. The display 110 is, for example, an LCD (Liquid Crystal Display) or a CRT (Cathode Ray Tube).

データリーダ/ライタ106は、CPU101と記録媒体111の間のデータ伝送を仲介する。すなわち、記録媒体111は、クォーラムサーバ201で実行されるプログラムなどが格納された状態で流通し、データリーダ/ライタ106は、この記録媒体111からプログラムを読み出す。また、データリーダ/ライタ106は、CPU101の内部指令に応答して、クォーラムサーバ201における処理結果などを記録媒体111へ書き込む。なお、記録媒体111は、たとえば、CF(Compact Flash)およびSD(Secure Digital)などの汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)などの磁気記憶媒体、またはCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体である。   The data reader / writer 106 mediates data transmission between the CPU 101 and the recording medium 111. That is, the recording medium 111 circulates in a state where a program executed by the quorum server 201 is stored, and the data reader / writer 106 reads the program from the recording medium 111. Further, the data reader / writer 106 writes the processing result in the quorum server 201 to the recording medium 111 in response to the internal command of the CPU 101. The recording medium 111 is, for example, a general-purpose semiconductor storage device such as CF (Compact Flash) and SD (Secure Digital), a magnetic storage medium such as a flexible disk, or a CD-ROM (Compact Disk Read Only). Memory).

通信インタフェース107は、CPU101と他のパーソナルコンピュータおよびサーバ装置などの間のデータ伝送を仲介する。通信インタフェース107は、典型的には、イーサネット(登録商標)またはUSB(Universal Serial Bus)の通信機能を有する。なお、記録媒体111に格納されたプログラムをクォーラムサーバ201にインストールする形態に代えて、通信インタフェース107を介して配信サーバなどからダウンロードしたプログラムをクォーラムサーバ201にインストールしてもよい。   The communication interface 107 mediates data transmission between the CPU 101 and other personal computers and server devices. The communication interface 107 typically has an Ethernet (registered trademark) or USB (Universal Serial Bus) communication function. Instead of installing the program stored in the recording medium 111 in the quorum server 201, a program downloaded from a distribution server or the like via the communication interface 107 may be installed in the quorum server 201.

また、クォーラムサーバ201には、必要に応じてプリンタなどの他の出力装置が接続されてもよい。   Further, the quorum server 201 may be connected to another output device such as a printer as necessary.

[制御構造]
次に、クォーラムサーバ201における死活監視機能を提供するための制御構造について説明する。
[Control structure]
Next, a control structure for providing a life and death monitoring function in the quorum server 201 will be described.

図1は、本発明の実施の形態に係る各サーバが提供する制御構造も示している。図1に示すクォーラムサーバ201およびサーバ151,152における各ブロックは、ハードディスク103に格納されたプログラム(コード)などをメインメモリ102に展開して、CPU101に実行させることで提供される。なお、図1に示すクォーラムサーバ201およびサーバ151,152の制御構造の一部もしくは全部を専用ハードウェアおよび/または配線回路によって実現してもよい。   FIG. 1 also shows a control structure provided by each server according to the embodiment of the present invention. Each block in the quorum server 201 and the servers 151 and 152 shown in FIG. 1 is provided by developing a program (code) stored in the hard disk 103 in the main memory 102 and causing the CPU 101 to execute it. Note that part or all of the control structures of the quorum server 201 and the servers 151 and 152 shown in FIG. 1 may be realized by dedicated hardware and / or a wiring circuit.

図1を参照して、クォーラムサーバ201は、その制御構造として、タイブレーカ部32を備える。サーバ151は、その制御構造として、クラスタ管理部11と、サービス管理部12とを備える。サーバ152は、その制御構造として、クラスタ管理部21と、サービス管理部22とを備える。また、クォーラムサーバ201は、クォーラム記憶域31を備える。サーバ151は、クラスタ構成情報13を備える。サーバ152は、クラスタ構成情報23を備える。   Referring to FIG. 1, quorum server 201 includes tie breaker unit 32 as its control structure. The server 151 includes a cluster management unit 11 and a service management unit 12 as its control structure. The server 152 includes a cluster management unit 21 and a service management unit 22 as its control structure. The quorum server 201 includes a quorum storage area 31. The server 151 includes cluster configuration information 13. The server 152 includes cluster configuration information 23.

クォーラムサーバ201において、クォーラム記憶域31は、ロック機能を提供する。また、タイブレーカ部32は、各サーバからのクォーラム確保要求を調停する。   In the quorum server 201, the quorum storage area 31 provides a lock function. In addition, the tie breaker unit 32 arbitrates quorum securing requests from the servers.

タイブレーカ部32は、クラスタシステム301におけるクラスタを構成するサーバ151およびサーバ152からクォーラム確保要求(以下、確保要求とも称する。)を受信すると、クォーラム記憶域31においてクォーラム(ロック)が取得されていることを他のサーバが認識できるようにマークを行なう。   When the tie breaker unit 32 receives a quorum securing request (hereinafter also referred to as a securing request) from the server 151 and the server 152 constituting the cluster in the cluster system 301, the quorum (lock) is acquired in the quorum storage area 31. Mark it so that other servers can recognize it.

また、タイブレーカ部32は、クォーラム(ロック)が未確保の状態であった場合には、確保要求を送信したサーバにクォーラム確保成功通知(以下、成功通知とも称する。)を返す。一方、タイブレーカ部32は、他のサーバがクォーラム確保済みでクォーラムが確保できなかった場合には、確保要求を送信したサーバにクォーラム確保失敗通知(以下、失敗通知とも称する。)を返す。通常、複数のサーバからクォーラムサーバ201にほぼ同時に確保要求が届いた場合には、先に届いた確保要求を送信したサーバがクォーラムを確保し、後から届いた確保要求を送信したサーバはクォーラム確保に失敗する。   Further, when the quorum (lock) is not secured, the tie breaker unit 32 returns a quorum securing success notification (hereinafter also referred to as a success notification) to the server that has transmitted the securing request. On the other hand, the tie breaker unit 32 returns a quorum reservation failure notification (hereinafter also referred to as failure notification) to the server that has transmitted the reservation request when the other server has already secured the quorum and cannot secure the quorum. Normally, when a securing request arrives at the quorum server 201 almost simultaneously from a plurality of servers, the server that sent the securing request that arrived first secures the quorum, and the server that sent the securing request that arrived later secures the quorum. Fail.

クォーラムサーバ201では、従来技術のようにあるサーバから確保要求を受け取ってもすぐにクォーラムを確保するのではなく、許容時間内で他のサーバからの確保要求を待ち合わせる。クォーラムサーバ201では、許容時間内に複数のサーバから確保要求があった場合には、各サーバ上でサービスが重複して起動されないように制御を行った上で、先に届いた確保要求を送信したサーバにクォーラムを取得させ、他の各サーバに成功通知を返す。   The quorum server 201 does not immediately secure a quorum even if a reservation request is received from a server as in the prior art, but waits for a reservation request from another server within an allowable time. In the quorum server 201, when there are reservation requests from a plurality of servers within the allowable time, control is performed so that the services are not started redundantly on each server, and then the reservation request arrived first is transmitted. Server gets the quorum and returns a success notification to each of the other servers.

サーバ151,152は、クラスタを管理する機能として、クラスタ管理部11,21と、サービス管理部12,22と、クラスタの各種情報を記録する記憶域であるクラスタ構成情報13,23とをそれぞれ備える。   The servers 151 and 152 include cluster management units 11 and 21, service management units 12 and 22, and cluster configuration information 13 and 23 that are storage areas for recording various types of cluster information, as functions for managing clusters. .

クラスタ管理部11,21は、クラスタの状態を監視し、クラスタ構成情報(以下、構成情報とも称する。)13,23をそれぞれ管理する。クラスタ管理部11,21は、ハートビート通信路50経由で他サーバにおけるクラスタ管理部21,11とハートビート信号をそれぞれ送受信することにより、死活確認を行なう。   The cluster management units 11 and 21 monitor the state of the cluster and manage cluster configuration information (hereinafter also referred to as configuration information) 13 and 23, respectively. The cluster management units 11 and 21 perform life and death confirmation by transmitting and receiving heartbeat signals to and from the cluster management units 21 and 11 in other servers via the heartbeat communication path 50.

また、クラスタ管理部11,21は、構成情報13,23の管理をそれぞれ担い、クラスタ内で起動中のサーバ間で同一の構成情報を保持する。また、クラスタ管理部11,21は、クラスタ内のサーバが起動してメンバとして加わった場合、およびハートビートが途切れた場合にクラスタを再構成する役割を担う。ここで、クラスタの再構成とは、クラスタ内のメンバの状態を変更し、サービスを適切なサーバで再起動することである。   The cluster management units 11 and 21 are responsible for managing the configuration information 13 and 23, respectively, and hold the same configuration information between servers running in the cluster. The cluster management units 11 and 21 are responsible for reconfiguring the cluster when a server in the cluster is started and joined as a member, and when the heartbeat is interrupted. Here, the cluster reconfiguration is to change the state of the members in the cluster and restart the service on an appropriate server.

また、各サーバのクラスタ管理部11,21は、クォーラムを1つずつ保持する。クォーラムサーバ201上に1つのクォーラムが存在するため、クラスタシステム301では合計3つのクォーラムが存在する。   The cluster management units 11 and 21 of each server hold one quorum. Since there is one quorum on the quorum server 201, there are a total of three quorums in the cluster system 301.

クラスタ管理部11,21は、ハートビート信号が途切れた場合には、クォーラムサーバ201のクォーラムの取得を試みる。   When the heartbeat signal is interrupted, the cluster management units 11 and 21 attempt to acquire the quorum of the quorum server 201.

クラスタ管理部11,21は、クォーラムサーバ201から成功通知を受けた場合には、システムの過半数(2/3)以上のクォーラムを確保したことから、自身を正規のクラスタとして再構成する、すなわち、他サーバのサービスを引き継ぐ。   When the cluster management units 11 and 21 receive a success notification from the quorum server 201, the cluster management units 11 and 21 have secured a quorum of a majority (2/3) or more of the system, and thus reconfigure themselves as regular clusters. Take over the services of other servers.

一方、クラスタ管理部11,21は、クォーラムサーバ201から失敗通知を受けた場合には、保持するクォーラムが、自身のクォーラム(1/3)のみであり過半数に満たないことから、自身の動作を停止(パニック)させる。   On the other hand, if the cluster management unit 11 or 21 receives a failure notification from the quorum server 201, the quorum to be held is only its own quorum (1/3) and less than the majority, Stop (panic).

また、クラスタ管理部11,21は、サーバ起動時にもクォーラムサーバ201に確保要求を行い、過半数のクォーラムを得る必要がある。   In addition, the cluster management units 11 and 21 need to obtain a majority quorum by making a reservation request to the quorum server 201 even when the server is activated.

クラスタ管理部11,21がクォーラムサーバ201のクォーラム確保に失敗した場合には、クォーラムサーバ201のクォーラムを確保しているサーバの起動を待ち合わせる必要があり、その後に起動が許可される。その際、クォーラムサーバ201のクォーラムを確保しているサーバの構成情報の同期(コピー)が行なわれる。構成情報13,23の同期がとれると、クラスタ管理部11,21は、クォーラムサーバ201のクォーラムの解放を行なう。   When the cluster management units 11 and 21 fail to secure the quorum of the quorum server 201, it is necessary to wait for the server that secures the quorum of the quorum server 201, and then the activation is permitted. At this time, synchronization (copying) of the configuration information of the server securing the quorum of the quorum server 201 is performed. When the configuration information 13 and 23 are synchronized, the cluster management units 11 and 21 release the quorum of the quorum server 201.

サービス管理部12,22は、それぞれ、クラスタ管理部11,21と連携し、構成情報13,23に基づいてサービスの起動、停止および監視を制御する。   The service management units 12 and 22 cooperate with the cluster management units 11 and 21, respectively, to control service start, stop, and monitoring based on the configuration information 13 and 23.

図3は、本発明の実施の形態に係るクラスタシステムにおいて、構成情報で管理している主な情報を示す図である。   FIG. 3 is a diagram showing main information managed by the configuration information in the cluster system according to the embodiment of the present invention.

図3を参照して、構成情報は、たとえば、クラスタに参加しているサーバおよびその状態を保持するクラスタメンバテーブル90と、サービスの構成要素、サービスの状態、および当該サービスが動作しているサーバを保持するサービス管理テーブル91とを有する。   Referring to FIG. 3, the configuration information includes, for example, a server participating in the cluster and a cluster member table 90 that holds the status, a service component, a service status, and a server on which the service is operating. And a service management table 91 that holds

サービスの構成要素は、一般的には、主要要素であるアプリケーション名、そのアプリケーションが使用するディスク領域(以下、LUNとも称する。)、およびクライアントからの要求を待ち受けるための仮想IPアドレス(以下、VIPとも称する。)で構成される。アプリケーションがディスクおよびネットワーク機能を必要としない場合には、LUNおよびVIPをサービスの構成要素から外すことも可能である。   The service components generally include an application name which is a main element, a disk area used by the application (hereinafter also referred to as LUN), and a virtual IP address (hereinafter referred to as VIP) for waiting for a request from a client. Also called). If the application does not require disk and network functions, LUNs and VIPs can be removed from the service components.

[動作]
次に、本発明の実施の形態に係る情報処理装置の動作について図面を用いて説明する。本発明の実施の形態では、クォーラムサーバ201およびサーバ151,152を動作させることによって、本発明の実施の形態に係るクラスタ管理方法が実施される。よって、本発明の実施の形態に係るクラスタ管理方法の説明は、以下のクォーラムサーバ201およびサーバ151,152の動作説明に代える。なお、以下の説明においては、適宜図1を参照する。
[Operation]
Next, the operation of the information processing apparatus according to the embodiment of the present invention will be described with reference to the drawings. In the embodiment of the present invention, the cluster management method according to the embodiment of the present invention is implemented by operating the quorum server 201 and the servers 151 and 152. Therefore, the description of the cluster management method according to the embodiment of the present invention is replaced with the following description of the operation of the quorum server 201 and the servers 151 and 152. In the following description, FIG. 1 is referred to as appropriate.

図1に示すように、サーバ151上でサービス1が動作し、かつサーバ152上でサービス2が動作している状態で、ハートビート通信路50上のハートビートが途切れると、サーバ151およびサーバ152におけるクラスタ管理部11,21は、ハートビートが断絶したことを検出する。そして、クラスタ管理部11,21は、過半数のクォーラムを確保するために、クォーラムサーバ201に確保要求を発行する。   As illustrated in FIG. 1, when the heartbeat on the heartbeat communication path 50 is interrupted while the service 1 is operating on the server 151 and the service 2 is operating on the server 152, the server 151 and the server 152. The cluster management units 11 and 21 in FIG. 11 detect that the heartbeat has been interrupted. Then, the cluster management units 11 and 21 issue a securing request to the quorum server 201 in order to secure a majority quorum.

すなわち、サーバ151,152は、他のサーバからハートビート信号を正常に受信できない場合には、クォーラムを確保するための確保要求をクォーラムサーバ201へ送信する。   That is, if the servers 151 and 152 cannot normally receive a heartbeat signal from another server, the servers 151 and 152 transmit a securing request for securing a quorum to the quorum server 201.

クォーラムサーバ201は、サーバ151,152から確保要求を受信してから所定時間内に他のサーバから確保要求を受信したときには、確保要求に対する成功通知をサーバ151,152へ送信する。   When the quorum server 201 receives a securing request from another server within a predetermined time after receiving the securing request from the servers 151 and 152, the quorum server 201 transmits a success notification to the securing request to the servers 151 and 152.

また、サーバ151,152は、他のサーバが提供するサービスの情報を含む構成情報を有する。   Further, the servers 151 and 152 have configuration information including information on services provided by other servers.

クォーラムサーバ201は、確保要求に対する成功通知をサーバ151,152へ送信する前に、サーバ151,152が他のサーバのサービスを引き継がないようにサーバ151,152の構成情報を書き換える。   The quorum server 201 rewrites the configuration information of the servers 151 and 152 so that the servers 151 and 152 do not take over the services of other servers before sending a success notification for the securing request to the servers 151 and 152.

また、クォーラムサーバ201は、先に到着した確保要求を送信したサーバが、クォーラムを真に確保したことを記憶する。   Also, the quorum server 201 stores that the server that transmitted the reservation request that arrived first has truly secured the quorum.

また、クォーラムサーバ201は、構成情報を書き換える際に、クォーラムを真に確保したサーバが有する構成情報において、他のサーバが提供するサービスをダミーサービスに書き換える。   In addition, when the configuration information is rewritten, the quorum server 201 rewrites a service provided by another server into a dummy service in the configuration information of the server that has truly secured the quorum.

より詳細には、クラスタを構成するサーバ151およびサーバ152でそれぞれサービス1およびサービス2が動作している状態において、サーバ151およびサーバ152間のハートビート信号が途切れた場合に、各サーバは、クォーラムサーバ201のクォーラムの確保を試みる。クォーラムサーバ201におけるタイブレーカ部32は、クォーラムサーバ201にサーバ151およびサーバ152から確保要求が許容時間内に届いた場合には、両サーバともサービスの稼動が可能とみなす。そして、タイブレーカ部32は、クラスタの整合性が損なわれないように排他制御を行なわせた上で、サーバ151およびサーバ152へクォーラムが確保できた旨を通知し、両方のサーバ上で動作中のサービスを継続動作させる。   More specifically, when the heartbeat signal between the server 151 and the server 152 is interrupted in the state where the service 1 and the service 2 are operating on the server 151 and the server 152 constituting the cluster, Attempts to secure the quorum of the server 201. The tie breaker unit 32 in the quorum server 201 considers that both servers can operate the service when the reservation requests from the servers 151 and 152 reach the quorum server 201 within the allowable time. The tie breaker unit 32 performs exclusive control so that the consistency of the cluster is not impaired, and notifies the server 151 and the server 152 that the quorum has been secured, and is operating on both servers. Continue to operate the service.

具体的には、クォーラムサーバ201におけるタイブレーカ部32は、以下の図4および図5に示すフローチャートに基づいて調停を行なう。なお、ここでは、先にサーバ151からの確保要求がクォーラムサーバ201に届いた場合について説明する。   Specifically, the tie breaker unit 32 in the quorum server 201 performs arbitration based on the flowcharts shown in FIGS. 4 and 5 below. Here, a case will be described in which a reservation request from the server 151 first arrives at the quorum server 201.

図4および図5は、本発明の実施の形態に係るクォーラムサーバがシステム管理処理を行なう際の動作手順を示すフローチャートである。   4 and 5 are flowcharts showing an operation procedure when the quorum server according to the embodiment of the present invention performs system management processing.

図4および図5を参照して、タイブレーカ部32は、サーバ151から確保要求が届くと(ステップA1)、許容時間内でサーバ152からの確保要求を待ち合わせる(ステップA2)。   Referring to FIGS. 4 and 5, when tie breaker unit 32 receives a secure request from server 151 (step A1), tie breaker unit 32 waits for a secure request from server 152 within an allowable time (step A2).

次に、タイブレーカ部32は、許容時間内にサーバ152から確保要求を受けると、サーバ152に対してハートビート用のNICを閉塞させる依頼を行なう(ステップA3)。タイブレーカ部32は、たとえば、リモートシェルを用いてハートビート用のNICをソフトウェア的にオフラインにする。これにより、ハートビートの通信路障害が間欠障害であった場合等に、図4および図5に示すフローチャートの処理が実行されている間に再度ハートビートが再開され、整合性に矛盾をきたすことを防ぐことができる。   Next, when receiving a securing request from the server 152 within the allowable time, the tie breaker unit 32 requests the server 152 to close the heartbeat NIC (step A3). The tie breaker unit 32 takes the NIC for heartbeat offline by using a remote shell, for example. As a result, when the heartbeat communication path failure is an intermittent failure, the heartbeat is restarted again while the processing of the flowcharts shown in FIGS. 4 and 5 is being performed, causing inconsistency in consistency. Can be prevented.

次に、タイブレーカ部32は、サーバ152におけるハートビート用NICを閉塞した後、サーバ151におけるクラスタ管理部11に対してサーバ151の構成情報13の変更を依頼する。この依頼の内容は、サービス管理テーブル91において、サーバ152上で動作しているサービス2をダミーサービス、すなわちLUNおよびVIPを構成せず、定期的に単純に簡単な計算を行なうアプリケーションのみの構成に差し替えるものである(ステップA5)。   Next, after closing the heartbeat NIC in the server 152, the tie breaker unit 32 requests the cluster management unit 11 in the server 151 to change the configuration information 13 of the server 151. The content of this request is that the service 2 running on the server 152 in the service management table 91 is a dummy service, that is, an application that does not constitute LUNs and VIPs and that simply performs simple calculations periodically. It is to be replaced (step A5).

次に、依頼を受けたサーバ151におけるクラスタ管理部11は、構成情報13のサービス管理テーブル91を変更する(ステップA6)。   Next, the cluster management unit 11 in the server 151 that has received the request changes the service management table 91 of the configuration information 13 (step A6).

図6は、本発明の実施の形態に係るクラスタシステムにおける各サーバのサービス管理テーブルの変更例を示す図である。   FIG. 6 is a diagram showing a modification example of the service management table of each server in the cluster system according to the embodiment of the present invention.

図6を参照して、サーバ151におけるサービス管理テーブル91において、サーバ152上で動作しているサービス2がダミーサービスに変更され、サービス管理テーブル91aのようになる。   Referring to FIG. 6, in service management table 91 in server 151, service 2 operating on server 152 is changed to a dummy service, resulting in service management table 91a.

このようにサービス管理テーブル91を変更することにより、後述するステップA10までたどり着いた場合において、サーバ152において動作中のサービス2が使用するLUNおよびVIP等のリソースと競合が発生することを防ぐことができる。なお、ダミーサービスを起動させるように変更することにより、ステップA10以降のシステム運用、または事後解析時にダミーサービス等の稼動状況を認識できるようになる。   By changing the service management table 91 in this way, it is possible to prevent contention with resources such as LUNs and VIPs used by the service 2 operating in the server 152 when the process reaches step A10 described later. it can. Note that by changing the dummy service to be activated, it becomes possible to recognize the operation status of the dummy service or the like at the time of system operation after step A10 or post-analysis.

次に、タイブレーカ部32は、サーバ151の構成情報13の変更後、サーバ152に対して構成情報23の変更を依頼する(ステップA7)。この依頼の内容は、サービス管理テーブル91において、自身のサーバ以外で動作中のサービスの情報を削除するものである。   Next, after changing the configuration information 13 of the server 151, the tie breaker unit 32 requests the server 152 to change the configuration information 23 (step A7). The content of this request is to delete information on a service operating on a service management table 91 other than its own server.

次に、依頼を受けたサーバ152におけるクラスタ管理部21は、自身の構成情報23のサービス管理テーブル91を変更する。   Next, the cluster management unit 21 in the server 152 that has received the request changes the service management table 91 of its own configuration information 23.

図6を参照して、サーバ152におけるサービス管理テーブル91において、サーバ152以外で動作中のサービス1が削除され、サービス管理テーブル91bのようになる。   Referring to FIG. 6, in service management table 91 in server 152, service 1 that is operating other than server 152 is deleted, resulting in service management table 91b.

このようにサービス管理テーブル91を変更することにより、後述するステップA10までたどり着いた場合において、サーバ151において動作中のサービス1が使用するLUNおよびVIP等のリソースと競合が発生することを防ぐことができる。また、ステップA10までたどり着いた場合には、サーバ152に対して、擬似的に自身が生き残るべきクラスタであると認識させて動作を継続させるが、それ以降、サーバ152の構成情報は正式な情報として利用されない。このため、サーバ152に対して自身以外のサービスの情報を削除させる。   By changing the service management table 91 in this way, when the process reaches a later-described step A10, it is possible to prevent contention with resources such as LUN and VIP used by the service 1 operating in the server 151. it can. Also, when the process reaches step A10, the server 152 is caused to recognize that it is a cluster that should survive, and the operation is continued. Thereafter, the configuration information of the server 152 is the official information. Not used. For this reason, the server 152 is caused to delete information on services other than itself.

次に、サーバ152の構成情報23の変更後、サーバ151は、クォーラムサーバ201のクォーラムを確保(ロック)する(ステップA9)。   Next, after changing the configuration information 23 of the server 152, the server 151 secures (locks) the quorum of the quorum server 201 (step A9).

次に、タイブレーカ部32は、サーバ151およびサーバ152の両方に対して成功通知を発行する。(ステップA10)。   Next, the tie breaker unit 32 issues a success notification to both the server 151 and the server 152. (Step A10).

次に、サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サービス管理部12に対してサーバ152上で動作しているサービスの起動を指示する。ここで、サーバ151では、ステップA5において構成情報13を変更していることから、実際にはサービス2ではなくダミーサービスが起動する。   Next, the cluster management unit 11 in the server 151 receives the success notification, changes the state of the server 152 in the cluster member table 90 of the configuration information 13 to offline, and operates on the server 152 with respect to the service management unit 12. Instruct the start of the service that is running. Here, since the server 151 changes the configuration information 13 in step A5, the dummy service is actually activated instead of the service 2.

また、サーバ152におけるクラスタ管理部21は、成功通知を受けて、構成情報23のクラスタメンバテーブル90におけるサーバ151の状態をオフラインに変更し、サービス管理部22に対してサーバ151上で動作しているサービスの起動を指示する。ここで、ステップA7においてサービス管理テーブル91におけるサーバ151上で動作しているサービスの情報は削除されていることから、実際には何も起動されない。   Further, upon receiving the success notification, the cluster management unit 21 in the server 152 changes the state of the server 151 in the cluster member table 90 of the configuration information 23 to offline, and operates on the server 151 with respect to the service management unit 22. Instruct the activation of the service. Here, since the information of the service operating on the server 151 in the service management table 91 is deleted in step A7, nothing is actually activated.

図7は、本発明の実施の形態に係るクラスタシステムの状態を示す図である。   FIG. 7 is a diagram showing a state of the cluster system according to the embodiment of the present invention.

ステップA10までたどり着いた場合には、クラスタシステム301は、図7に示すような状態となる。このステップA10までの処理において、動作中のサービス1および2の停止、ならびに再起動が発生しないことから、サーバ151上のサービス1およびサーバ152上のサービス2は稼動したままである。このため、各クライアントにおいてサービス提供可能な状態が継続される。   When the process reaches step A10, the cluster system 301 is in a state as shown in FIG. In the processing up to step A10, since the services 1 and 2 that are in operation are not stopped and restarted, the service 1 on the server 151 and the service 2 on the server 152 remain in operation. For this reason, the state in which each client can provide a service is continued.

ステップA10の処理が実行された後、クォーラムサーバ201におけるタイブレーカ部32は、サーバ152におけるクラスタ管理部21の死活監視を行なう。   After the processing of step A 10 is executed, the tie breaker unit 32 in the quorum server 201 performs alive monitoring of the cluster management unit 21 in the server 152.

タイブレーカ部32は、サーバ152がサーバ停止等を行った場合には、サーバ152の応答が無くなることを検知し、サーバ151におけるクラスタ管理部11に対してダミーサービスを一旦オフラインにさせる。そして、タイブレーカ部32は、クラスタ管理部11に対して、ステップA5で変更する前のサービス管理テーブル91に差し替えさせる、すなわちダミーサービスをサービス2に変更させた上で、サーバ151においてサービス2を起動させる。   When the server 152 stops the server, the tie breaker unit 32 detects that the server 152 does not respond, and causes the cluster management unit 11 in the server 151 to temporarily set the dummy service offline. Then, the tie breaker unit 32 causes the cluster management unit 11 to replace the service management table 91 before the change in step A5, that is, change the dummy service to the service 2, and then change the service 2 in the server 151. Start.

なお、ステップA10を実行した後で、サーバの停止および起動等によりクラスタの再構成が必要となった場合には、正規のクラスタ構成情報として、先に確保要求を送信したサーバ151の構成情報13が採用される。   In addition, if it is necessary to reconfigure the cluster after the execution of step A10 due to the stop and start of the server, the configuration information 13 of the server 151 that has transmitted the securing request first as the regular cluster configuration information. Is adopted.

この場合、ステップA9において、クォーラムサーバ201のクォーラム記憶域31はサーバ151がロックしており、サーバ151は過半数のクォーラムを得ることができるため、サーバ151は単独で再起動が可能である。一方、サーバ152は、過半数のクォーラムを確保できないため単独での再起動できない。   In this case, in step A9, the quorum storage area 31 of the quorum server 201 is locked by the server 151, and the server 151 can obtain a majority quorum. Therefore, the server 151 can be restarted independently. On the other hand, the server 152 cannot secure a majority quorum and cannot be restarted alone.

また、サーバ152の再起動時にはサーバ151が起動している必要があり、再起動の際、サーバ152の構成情報23は、サーバ151の持つ正式な構成情報13と同期(一致)がとられる。この同期がとられて初めて、サーバ152をクラスタとして起動することができる。両方のサーバで構成情報の整合がとられると、クォーラムサーバ201上のクォーラム記憶域31から、サーバ151が確保しているクォーラムロックが削除される。   Also, the server 151 needs to be activated when the server 152 is restarted, and the configuration information 23 of the server 152 is synchronized (matched) with the formal configuration information 13 of the server 151 when restarted. Only after this synchronization is taken can the server 152 be started as a cluster. When the configuration information is matched between both servers, the quorum lock secured by the server 151 is deleted from the quorum storage area 31 on the quorum server 201.

次に、図4および図5に示すフローチャートにおいて、処理が正常に行なわれなかった場合の処理について説明する。   Next, in the flowcharts shown in FIGS. 4 and 5, processing when processing is not performed normally will be described.

タイブレーカ部32は、ステップA10まで辿りつかない場合には、ハートビート通信路50の障害ではなく、サーバ151,152のいずれかがハングおよびスローダウン等、動作不能な状態になったと判断し、適切なサーバでサービスを引き継ぐように、以下の動作を行なう。   If the tie breaker unit 32 cannot reach step A10, the tie breaker unit 32 determines that one of the servers 151 and 152 has become inoperable, such as a hang and a slowdown, rather than a failure of the heartbeat communication path 50, The following operations are performed so that the service can be taken over by an appropriate server.

タイブレーカ部32は、許容時間内にサーバ152からの確保要求が届かない場合には(ステップA2でNO)、サーバ152は動作不能であるとみなす。そして、タイブレーカ部32は、サーバ151によるクォーラム確保(ステップA21)後、サーバ151に成功通知を発行する(ステップA22)。   If the securing request from the server 152 does not arrive within the allowable time (NO in step A2), the tie breaker unit 32 considers the server 152 to be inoperable. Then, the tie breaker unit 32 issues a success notification to the server 151 (step A22) after securing the quorum by the server 151 (step A21).

サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サーバ152上で動作しているサービス2の起動を試みる。   Upon receiving the success notification, the cluster management unit 11 in the server 151 changes the state of the server 152 in the cluster member table 90 of the configuration information 13 to offline, and tries to start the service 2 operating on the server 152.

また、タイブレーカ部32は、サーバ152におけるハートビート用NICの閉塞に失敗した場合には(ステップA4でNO)、サーバ152は動作不能であるとみなす。そして、タイブレーカ部32は、サーバ151によるクォーラム確保(ステップA41)後、サーバ151に成功通知を発行し、サーバ152に失敗通知を発行する(ステップA42)。   When the tie breaker unit 32 fails to close the heartbeat NIC in the server 152 (NO in step A4), the tie breaker unit 32 regards the server 152 as inoperable. The tie breaker unit 32 then issues a success notification to the server 151 and issues a failure notification to the server 152 after securing the quorum by the server 151 (step A41) (step A42).

サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サーバ152上で動作しているサービス2の起動を試みる。   Upon receiving the success notification, the cluster management unit 11 in the server 151 changes the state of the server 152 in the cluster member table 90 of the configuration information 13 to offline, and tries to start the service 2 operating on the server 152.

一方、サーバ152におけるクラスタ管理部21は、失敗通知を受けて、クォーラムが過半数に満たないことから、自身の動作停止(パニック)を試みる。   On the other hand, upon receipt of the failure notification, the cluster management unit 21 in the server 152 tries to stop its operation (panic) because the quorum is less than a majority.

また、タイブレーカ部32は、サーバ151の構成情報変更に失敗した場合には(ステップA6でNO)、サーバ151は動作不能であるとみなす。そして、タイブレーカ部32は、サーバ152にサービス1を引き継がせるため、ステップA3において閉塞させたサーバ152におけるハートビート用のNIC閉塞を解除する(ステップA61)。   In addition, when the configuration information change of the server 151 fails (NO in step A6), the tie breaker unit 32 regards the server 151 as inoperable. The tie breaker unit 32 then releases the heartbeat NIC blockage in the server 152 blocked in step A3 in order to allow the server 152 to take over service 1 (step A61).

そして、タイブレーカ部32は、サーバ152によるクォーラム確保(ステップA62)後、サーバ152にクォーラム確保成功の通知を発行し、サーバ151に確保失敗の通知を発行する(ステップA63)。   Then, the tie breaker unit 32 issues a quorum reservation success notification to the server 152 after issuing a quorum reservation by the server 152 (step A62), and issues a reservation failure notification to the server 151 (step A63).

サーバ152におけるクラスタ管理部21は、成功通知を受けて、構成情報23のクラスタメンバテーブル90におけるサーバ151の状態をオフラインに変更し、サービス管理部22に対してサーバ151上で動作しているサービス1の起動を依頼する。   Upon receiving the success notification, the cluster management unit 21 in the server 152 changes the state of the server 151 in the cluster member table 90 of the configuration information 23 to offline, and the service operating on the server 151 with respect to the service management unit 22 Request activation of 1.

一方、サーバ151におけるクラスタ管理部11は、失敗通知を受けて、クォーラムが過半数に満たないことから、自身をパニックさせる。   On the other hand, the cluster management unit 11 in the server 151 receives the failure notification and panics itself because the quorum is less than a majority.

また、タイブレーカ部32は、サーバ152の構成情報変更に失敗した場合には(ステップA8でNO)、サーバ152は動作不能であるとみなす。そして、タイブレーカ部32は、サーバ151でサービス2を引き継がせるため、ステップA5において変更したサーバ151の構成情報13を元に戻す(ステップA81)。   In addition, when the configuration information change of the server 152 fails (NO in step A8), the tie breaker unit 32 considers the server 152 to be inoperable. Then, the tie breaker unit 32 restores the configuration information 13 of the server 151 changed in step A5 so that the service 2 can be taken over by the server 151 (step A81).

そして、タイブレーカ部32は、サーバ151によるクォーラム確保(ステップA41)後、サーバ151に成功通知を発行し、サーバ152に失敗通知を発行する(ステップA42)。   The tie breaker unit 32 then issues a success notification to the server 151 and issues a failure notification to the server 152 after securing the quorum by the server 151 (step A41) (step A42).

サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サーバ152上で動作しているサービス2の起動を試みる。   Upon receiving the success notification, the cluster management unit 11 in the server 151 changes the state of the server 152 in the cluster member table 90 of the configuration information 13 to offline, and tries to start the service 2 operating on the server 152.

一方、サーバ152におけるクラスタ管理部21は、失敗通知を受けて、クォーラムが過半数に満たないことから、自身のパニックを試みる。   On the other hand, the cluster management unit 21 in the server 152 receives a failure notification and tries to panic itself because the quorum is less than a majority.

次に、本発明の実施の形態に係るクラスタシステムの他の動作例について説明する。すなわち、クラスタシステム301においてすべてのサービス1およびサービス2の両方がサーバ151上で起動しており、サーバ152上で起動しているサービスが無い状態においてハートビートが途切れた場合の動作について、2つのパターンを以下に説明する。   Next, another operation example of the cluster system according to the embodiment of the present invention will be described. That is, in the cluster system 301, both the service 1 and the service 2 are activated on the server 151, and the operation when the heartbeat is interrupted in a state where there is no service activated on the server 152, two operations are performed. The pattern is described below.

[パターン1]
タイブレーカ部32は、クォーラムサーバ201へサーバ151から先に確保要求があり、許容時間内にサーバ152からも確保要求があった場合には、図4および図5に示すフローチャートに従い、以下のように動作する。
[Pattern 1]
If there is a reservation request from the server 151 to the quorum server 201 first and the server 152 receives a reservation request within the allowable time, the tie breaker unit 32 follows the flowcharts shown in FIGS. To work.

タイブレーカ部32は、サーバ152に対してハートビート用のNICを閉塞させる要求を発行する(ステップA3)。   The tie breaker unit 32 issues a request for closing the heartbeat NIC to the server 152 (step A3).

次に、タイブレーカ部32は、サーバ151におけるクラスタ管理部11に対してサーバ151の構成情報13の変更を依頼する(ステップA5)。   Next, the tie breaker unit 32 requests the cluster management unit 11 in the server 151 to change the configuration information 13 of the server 151 (step A5).

クラスタ管理部11は、この依頼を受けて、構成情報13のサービス管理テーブル91において、サーバ152上で動作しているサービスをダミーサービスに変更する。ただし、サーバ152上で動作しているサービスは存在しないため、サーバ151のサービス管理テーブル91に変更は発生しない。   In response to this request, the cluster management unit 11 changes the service running on the server 152 to a dummy service in the service management table 91 of the configuration information 13. However, since there is no service running on the server 152, no change occurs in the service management table 91 of the server 151.

次に、クラスタ管理部11は、サーバ152におけるクラスタ管理部21に対して構成情報23の変更を依頼する(ステップA7)。   Next, the cluster management unit 11 requests the cluster management unit 21 in the server 152 to change the configuration information 23 (step A7).

サーバ152におけるクラスタ管理部21は、この依頼を受けて、自身のサーバ以外で動作中のサービスを構成情報から削除する。サーバ152上で動作中のサービスは無いため、サーバ152上のサービス管理テーブル91は空になる。   In response to this request, the cluster management unit 21 in the server 152 deletes the service operating on the server other than its own server from the configuration information. Since there is no service running on the server 152, the service management table 91 on the server 152 is empty.

次に、タイブレーカ部32は、サーバ151がクォーラムサーバ201のクォーラムを確保した(ステップA9)後、サーバ151およびサーバ152の両方に成功通知を発行する。(ステップA10)。   Next, after the server 151 secures the quorum of the quorum server 201 (step A9), the tie breaker unit 32 issues a success notification to both the server 151 and the server 152. (Step A10).

サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サービス管理部12に対してサーバ152上で動作しているサービスの起動を試みる。ただし、サーバ152上で動作しているサービスは無いため、何もサービスは起動されない。   Upon receiving the success notification, the cluster management unit 11 in the server 151 changes the state of the server 152 in the cluster member table 90 of the configuration information 13 to offline, and the service operating on the server 152 with respect to the service management unit 12 Try to start. However, since no service is operating on the server 152, no service is activated.

また、サーバ152におけるクラスタ管理部21は、成功通知を受けて、構成情報23のクラスタメンバテーブル90におけるサーバ151の状態をオフラインに変更し、サービス管理部22に対してサーバ151上で動作しているサービスの起動を試みる。ただし、ステップA7において、サーバ151上で動作しているサービスはサービス管理テーブル91から削除されているため、何のサービスも起動されない。   Further, upon receiving the success notification, the cluster management unit 21 in the server 152 changes the state of the server 151 in the cluster member table 90 of the configuration information 23 to offline, and operates on the server 151 with respect to the service management unit 22. Try to start the service. However, since the service operating on the server 151 is deleted from the service management table 91 in step A7, no service is activated.

図8は、本発明の実施の形態に係るクラスタシステムの状態を示す図である。   FIG. 8 is a diagram showing a state of the cluster system according to the embodiment of the present invention.

ステップA10までたどり着いた場合には、クラスタシステム301は、図8に示すような状態となる。このステップA10までの処理において、動作中のサービス1および2の停止、ならびに再起動が発生しないことから、サーバ151上のサービス1およびサーバ152上のサービス2は、稼動したままである。このため、各クライアントにおいてサービス提供可能な状態が継続される。   When the process reaches step A10, the cluster system 301 is in a state as shown in FIG. In the processing up to step A10, since the service 1 and 2 that are in operation are not stopped and restarted, the service 1 on the server 151 and the service 2 on the server 152 remain in operation. For this reason, the state in which each client can provide a service is continued.

[パターン2]
タイブレーカ部32は、クォーラムサーバ201にサーバ152から先に確保要求があり、許容時間内にサーバ151からも確保要求があった場合には、図4および図5に示すフローチャートに従い、以下のように動作する。
[Pattern 2]
When the quorum server 201 has a reservation request from the server 152 first and the server 151 also has a reservation request within the allowable time, the tie breaker unit 32 follows the flowcharts shown in FIGS. To work.

タイブレーカ部32は、サーバ151に対してハートビート用のNICを閉塞させる要求を発行する(ステップA3)。   The tie breaker unit 32 issues a request for closing the heartbeat NIC to the server 151 (step A3).

次に、タイブレーカ部32は、サーバ152におけるクラスタ管理部21に対してサーバ152の構成情報23の変更を依頼する(ステップA5)。   Next, the tie breaker unit 32 requests the cluster management unit 21 in the server 152 to change the configuration information 23 of the server 152 (step A5).

クラスタ管理部21は、この依頼を受けて、構成情報23のサービス管理テーブル91において、サーバ151上で動作しているサービス1およびサービス2をダミーサービスに変更する。   Upon receiving this request, the cluster management unit 21 changes the service 1 and service 2 operating on the server 151 to dummy services in the service management table 91 of the configuration information 23.

次に、タイブレーカ部32は、サーバ151におけるクラスタ管理部11に対して構成情報13の変更を依頼する(ステップA7)。クラスタ管理部11は、自身のサーバ以外で動作中のサービスを構成情報13から削除する。ただし、サーバ152上で動作しているサービスは存在しないため、サーバ151におけるサービス管理テーブル91に変更は発生しない。   Next, the tie breaker unit 32 requests the cluster management unit 11 in the server 151 to change the configuration information 13 (step A7). The cluster management unit 11 deletes the service running on the server other than its own server from the configuration information 13. However, since there is no service operating on the server 152, no change occurs in the service management table 91 in the server 151.

次に、タイブレーカ部32は、サーバ152がクォーラムサーバ201のクォーラムを確保した(ステップA9)後、サーバ151およびサーバ152の両方に成功通知を発行する。(ステップA10)。   Next, the tie breaker unit 32 issues a success notification to both the server 151 and the server 152 after the server 152 secures the quorum of the quorum server 201 (step A9). (Step A10).

サーバ151におけるクラスタ管理部11は、成功通知を受けて、構成情報13のクラスタメンバテーブル90におけるサーバ152の状態をオフラインに変更し、サービス管理部12に対してサーバ152上で動作しているサービスの起動を依頼する。ただし、サーバ152上で動作しているサービスは無いため、何もサービスは起動されない。   Upon receiving the success notification, the cluster management unit 11 in the server 151 changes the state of the server 152 in the cluster member table 90 of the configuration information 13 to offline, and the service operating on the server 152 with respect to the service management unit 12 Request activation of. However, since no service is operating on the server 152, no service is activated.

また、サーバ152におけるクラスタ管理部21は、成功通知を受けて、構成情報23のクラスタメンバテーブル90におけるサーバ151の状態をオフラインに変更し、サービス管理部22に対してサーバ151上で動作しているサービスの起動を依頼する。   Further, upon receiving the success notification, the cluster management unit 21 in the server 152 changes the state of the server 151 in the cluster member table 90 of the configuration information 23 to offline, and operates on the server 151 with respect to the service management unit 22. Request activation of the service.

ここで、ステップA5において構成情報23におけるサーバ151上で動作しているサービス1およびサービス2の情報を変更しているため、実際にはサービス1およびサービス2が起動されず、ダミーサービスが起動される。   Here, since the information of the service 1 and the service 2 operating on the server 151 in the configuration information 23 is changed in the step A5, the service 1 and the service 2 are not actually activated and the dummy service is activated. The

図9は、本発明の実施の形態に係るクラスタシステムの状態を示す図である。   FIG. 9 is a diagram showing a state of the cluster system according to the embodiment of the present invention.

ステップA10までたどり着いた場合には、クラスタシステム301は、図9に示すような状態となる。このステップA10までの処理において、動作中のサービス1および2の停止、ならびに再起動が発生しないことから、サーバ151上のサービス1およびサーバ152上のサービス2は、稼動したままである。このため、各クライアントにおいてサービス提供可能な状態が継続される。   When the process reaches step A10, the cluster system 301 is in a state as shown in FIG. In the processing up to step A10, since the service 1 and 2 that are in operation are not stopped and restarted, the service 1 on the server 151 and the service 2 on the server 152 remain in operation. For this reason, the state in which each client can provide a service is continued.

ところで、特許文献1および特許文献2に記載の技術では、正常なノードでサービスが動作できる状態でも、優先度またはより信頼性のあるサーバにサービスがフェールオーバーされてしまう可能性があり、無駄にサービスの停止および再起動が発生する可能性がある。   By the way, in the technologies described in Patent Document 1 and Patent Document 2, even if the service can operate on a normal node, the service may be failed over to a server with higher priority or more reliability. Service outages and restarts can occur.

これに対して、本発明の実施の形態に係るクラスタシステムでは、サーバ151,152は、他のサーバからハートビート信号を正常に受信できない場合には、クォーラムを確保するための確保要求をクォーラムサーバ201へ送信する。そして、クォーラムサーバ201は、サーバ151,152から確保要求を受信してから所定時間内に他のサーバから確保要求を受信したときには、確保要求に対する成功通知をサーバ151,152へ送信する。   On the other hand, in the cluster system according to the embodiment of the present invention, if the servers 151 and 152 cannot normally receive the heartbeat signal from another server, a request for securing a quorum is issued to the quorum server. To 201. When the quorum server 201 receives a securing request from another server within a predetermined time after receiving the securing request from the servers 151 and 152, the quorum server 201 transmits a success notification for the securing request to the servers 151 and 152.

すなわち、タイブレーカ部32は、スプリットブレインが発生した際、許容時間内に複数のサーバからのクォーラム確保要求が行なわれた場合には、ハートビート通信路障害と判断する。そして、タイブレーカ部32は、擬似的に複数のサーバにクォーラム確保成功の通知を行い、スプリットブレイン状態のまま複数のサーバおよび複数のサービスを継続稼動させる。   In other words, the tie breaker unit 32 determines that a heartbeat communication path failure has occurred when a quorum securing request is made from a plurality of servers within the allowable time when split brain occurs. The tie breaker unit 32 then notifies the plurality of servers of the quorum reservation success, and continuously operates the plurality of servers and the plurality of services in the split brain state.

このような構成により、クラスタシステムにおけるスプリットブレイン発生時の不要なサービス停止を防止することができる。すなわち、クラスタシステムでサーバ間のハートビート通信が不通となった場合に、サービスについて不必要なフェールオーバーを発生させず、サービスを継続稼動させることができる。   With such a configuration, it is possible to prevent an unnecessary service stop when a split brain occurs in the cluster system. That is, when heartbeat communication between servers is interrupted in the cluster system, the service can be continuously operated without causing unnecessary failover of the service.

すなわち、本発明の実施の形態に係るクラスタシステムにおける各構成要素のうち、クォーラムサーバ201およびサーバ151,152からなる最小構成により、クラスタシステムにおいて、スプリットブレインが発生した際の不要なサービス停止を防ぐ、という本発明の目的を達成することが可能となる。   That is, among the components in the cluster system according to the embodiment of the present invention, the minimum configuration including the quorum server 201 and the servers 151 and 152 prevents unnecessary service stop when a split brain occurs in the cluster system. The object of the present invention can be achieved.

また、本発明の実施の形態に係るクラスタシステムでは、サーバ151,152は、他のサーバが提供するサービスの情報を有する。そして、クォーラムサーバ201は、確保要求に対する成功通知をサーバ151,152へ送信する前に、サーバ151,152が他のサーバのサービスを引き継がないようにサーバ151,152の上記情報を書き換える。   In the cluster system according to the embodiment of the present invention, the servers 151 and 152 have information on services provided by other servers. Then, the quorum server 201 rewrites the information of the servers 151 and 152 so that the servers 151 and 152 do not take over the services of other servers before transmitting the success notification for the securing request to the servers 151 and 152.

すなわち、スプリットブレイン発生時に各サーバからクォーラム確保要求が遅延なく行なわれる場合には、各サーバ上でサービス継続可能と判断する。そして、他サーバ上で動作中のサービスを起動しないように構成情報の変更を行った上で、擬似的に各サーバへクォーラム確保の成功を通知することで、スプリットブレイン状態のまま各サーバを動作させる。   That is, if a quorum securing request is made without delay from each server when split brain occurs, it is determined that service can be continued on each server. Then, after changing the configuration information so that services running on other servers are not started, each server can be operated in the split-brain state by notifying each server of a successful quorum acquisition. Let

このように、サーバによるクラスタ再構成の前に、各サーバで互いにクラスタの構成情報の変更を行なうことにより、スプリットブレイン状態でサービスを動作させる際の、リソースの重複およびデータ破壊が発生を防ぐことができる。   As described above, before the cluster is reconfigured by the server, the cluster configuration information is changed between the servers, thereby preventing resource duplication and data corruption when operating the service in the split brain state. Can do.

また、本発明の実施の形態に係るクラスタシステムでは、クォーラムサーバ201は、先に到着した確保要求を送信したサーバが、クォーラムを真に確保したことを記憶する。   Further, in the cluster system according to the embodiment of the present invention, the quorum server 201 stores that the server that transmitted the reservation request that arrived first has truly secured the quorum.

このように、クォーラムサーバ上のクォーラムロックを、正規のクラスタ情報を保持するサーバに確保させることにより、スプリットブレイン状態で動作させるにあたり、正規のクラスタ情報を保持するサーバを判別することができる。   As described above, by ensuring the quorum lock on the quorum server in the server holding the regular cluster information, it is possible to determine the server holding the regular cluster information when operating in the split brain state.

また、本発明の実施の形態に係るクラスタシステムでは、クォーラムサーバ201は、情報を書き換える際に、クォーラムを真に確保したサーバが有する情報において、他のサーバが提供するサービスをダミーサービスに書き換える。   Further, in the cluster system according to the embodiment of the present invention, when rewriting information, the quorum server 201 rewrites a service provided by another server to a dummy service in the information held by the server that truly secures the quorum.

このように、スプリットブレイン発生時にクラスタの構成情報を変更する際に、正規のクラスタ情報を保持するサーバ上でダミーサービスが起動するように構成情報を変更することにより、後の運用および事後解析時にログ等でダミーサービス等の稼動状況を認識することができる。   In this way, when changing the cluster configuration information when a split brain occurs, the configuration information is changed so that the dummy service is started on the server that holds the regular cluster information. The operating status of the dummy service can be recognized from the log or the like.

上記実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。   The above embodiment should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.

[付記1]
サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、
クォーラムを有するクォーラムサーバとを備えるクラスタシステムであって、
前記クラスタサーバは、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信し、
前記クォーラムサーバは、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する、クラスタシステム。
[Appendix 1]
A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster system comprising a quorum server having a quorum,
When the cluster server cannot normally receive the heartbeat signal from the other cluster server, the cluster server sends a securing request for securing the quorum to the quorum server,
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, the quorum server transmits a success notification for the reservation request to the plurality of cluster servers. , Cluster system.

[付記2]
前記クラスタサーバは、他の前記クラスタサーバが提供するサービスの情報を有し、
前記クォーラムサーバは、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する前に、前記複数のクラスタサーバが他の前記クラスタサーバのサービスを引き継がないように前記複数のクラスタサーバの前記情報を書き換える、付記1に記載のクラスタシステム。
[Appendix 2]
The cluster server has information on services provided by other cluster servers,
The quorum server sends the information of the plurality of cluster servers so that the plurality of cluster servers do not take over the services of the other cluster servers before sending a success notification for the reservation request to the plurality of cluster servers. The cluster system according to appendix 1, which is rewritten.

[付記3]
前記クォーラムサーバは、先に到着した前記確保要求を送信した前記クラスタサーバが、前記クォーラムを真に確保したことを記憶する、付記1または2に記載のクラスタシステム。
[Appendix 3]
The cluster system according to appendix 1 or 2, wherein the quorum server stores that the cluster server that has transmitted the reservation request that has arrived first has truly reserved the quorum.

[付記4]
前記クォーラムサーバは、前記情報を書き換える際に、前記クォーラムを真に確保した前記クラスタサーバが有する前記情報において、他の前記クラスタサーバが提供するサービスをダミーサービスに書き換える、付記3に記載のクラスタシステム。
[Appendix 4]
The cluster system according to appendix 3, wherein, when rewriting the information, the quorum server rewrites a service provided by the other cluster server to a dummy service in the information of the cluster server that truly secures the quorum. .

[付記5]
サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、
クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおけるクラスタ管理方法であって、
前記クラスタサーバが、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信するステップと、
前記クォーラムサーバが、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信するステップとを含む、クラスタ管理方法。
[Appendix 5]
A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster management method in a cluster system comprising a quorum server having a quorum,
If the cluster server cannot normally receive the heartbeat signal from the other cluster server, sending a securing request to secure the quorum to the quorum server;
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, it transmits a success notification for the reservation request to the plurality of cluster servers. And a cluster management method.

[付記6]
前記クラスタサーバは、他の前記クラスタサーバが提供するサービスの情報を有し、
前記クラスタ管理方法は、さらに、
前記クォーラムサーバが、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する前に、前記複数のクラスタサーバが他の前記クラスタサーバのサービスを引き継がないように前記複数のクラスタサーバの前記情報を書き換えるステップを含む、付記5に記載のクラスタ管理方法。
[Appendix 6]
The cluster server has information on services provided by other cluster servers,
The cluster management method further includes:
Before the quorum server sends a success notification for the reservation request to the plurality of cluster servers, the information on the plurality of cluster servers is set so that the plurality of cluster servers do not take over the services of the other cluster servers. The cluster management method according to appendix 5, including a step of rewriting.

[付記7]
前記クラスタ管理方法は、さらに、
前記クォーラムサーバが、先に到着した前記確保要求を送信した前記クラスタサーバが前記クォーラムを真に確保したことを記憶するステップを含む、付記5または6に記載のクラスタ管理方法。
[Appendix 7]
The cluster management method further includes:
The cluster management method according to appendix 5 or 6, including a step of storing that the cluster server that has transmitted the reservation request that has arrived first has really reserved the quorum.

[付記8]
前記複数のクラスタサーバの前記情報を書き換えるステップにおいては、前記クォーラムサーバは、前記クォーラムを真に確保した前記クラスタサーバが有する前記情報において、他の前記クラスタサーバが提供するサービスをダミーサービスに書き換える、付記7に記載のクラスタ管理方法。
[Appendix 8]
In the step of rewriting the information of the plurality of cluster servers, the quorum server rewrites a service provided by the other cluster server to a dummy service in the information of the cluster server that has truly secured the quorum. The cluster management method according to appendix 7.

[付記9]
サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、
クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおいて用いられるクラスタ管理プログラムであって、コンピュータに、
前記クラスタサーバが、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信するステップと、
前記クォーラムサーバが、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信するステップとを実行させるための、クラスタ管理プログラム。
[Appendix 9]
A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster management program used in a cluster system comprising a quorum server having a quorum, the computer comprising:
If the cluster server cannot normally receive the heartbeat signal from the other cluster server, sending a securing request to secure the quorum to the quorum server;
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, it transmits a success notification for the reservation request to the plurality of cluster servers. A cluster management program for executing steps.

[付記10]
前記クラスタサーバは、他の前記クラスタサーバが提供するサービスの情報を有し、
前記クラスタ管理プログラムは、さらに、コンピュータに、
前記クォーラムサーバが、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する前に、前記複数のクラスタサーバが他の前記クラスタサーバのサービスを引き継がないように前記複数のクラスタサーバの前記情報を書き換えるステップを実行させる、付記9に記載のクラスタ管理プログラム。
[Appendix 10]
The cluster server has information on services provided by other cluster servers,
The cluster management program further includes:
Before the quorum server sends a success notification for the reservation request to the plurality of cluster servers, the information on the plurality of cluster servers is set so that the plurality of cluster servers do not take over the services of the other cluster servers. The cluster management program according to appendix 9, wherein the rewriting step is executed.

[付記11]
前記クラスタ管理プログラムは、さらに、コンピュータに、
前記クォーラムサーバが、先に到着した前記確保要求を送信した前記クラスタサーバが前記クォーラムを真に確保したことを記憶するステップを実行させる、付記9または10に記載のクラスタ管理プログラム。
[Appendix 11]
The cluster management program further includes:
11. The cluster management program according to appendix 9 or 10, wherein the quorum server executes a step of storing that the cluster server that has transmitted the reservation request that has arrived first secures the quorum.

[付記12]
前記複数のクラスタサーバの前記情報を書き換えるステップにおいては、前記クォーラムサーバは、前記クォーラムを真に確保した前記クラスタサーバが有する前記情報において、他の前記クラスタサーバが提供するサービスをダミーサービスに書き換える、付記11に記載のクラスタ管理プログラム。
[Appendix 12]
In the step of rewriting the information of the plurality of cluster servers, the quorum server rewrites a service provided by the other cluster server to a dummy service in the information of the cluster server that has truly secured the quorum. The cluster management program according to attachment 11.

本発明によれば、複数のサーバを構成要素とするクラスタシステムにおいて、ネットワーク障害などにより各サーバ間が分断された場合において、不要なサービス停止を防ぐことができる。したがって、本発明は、産業上の利用可能性を有している。   According to the present invention, in a cluster system having a plurality of servers as components, it is possible to prevent an unnecessary service stop when each server is disconnected due to a network failure or the like. Therefore, the present invention has industrial applicability.

11 クラスタ管理部
12 サービス管理部
13 、構成情報
21 クラスタ管理部
22 サービス管理部
23 構成情報
40 共有ストレージ装置
50 ハートビート通信路
60 サービス提供用通信路
90 クラスタメンバテーブル
91 サービス管理テーブル
101 CPU
102 メインメモリ
103 ハードディスク
104 入力インタフェース
105 表示コントローラ
106 データリーダ/ライタ
107 通信インタフェース
121 バス
151,152 サーバ(クラスタサーバ)
201 クォーラムサーバ
301 クラスタシステム
DESCRIPTION OF SYMBOLS 11 Cluster management part 12 Service management part 13 Configuration information 21 Cluster management part 22 Service management part 23 Configuration information 40 Shared storage apparatus 50 Heartbeat communication path 60 Service provision communication path 90 Cluster member table 91 Service management table 101 CPU
102 Main Memory 103 Hard Disk 104 Input Interface 105 Display Controller 106 Data Reader / Writer 107 Communication Interface 121 Bus 151, 152 Server (Cluster Server)
201 quorum server 301 cluster system

Claims (6)

サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、
クォーラムを有するクォーラムサーバとを備えるクラスタシステムであって、
前記クラスタサーバは、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信し、
前記クォーラムサーバは、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する、クラスタシステム。
A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster system comprising a quorum server having a quorum,
When the cluster server cannot normally receive the heartbeat signal from the other cluster server, the cluster server sends a securing request for securing the quorum to the quorum server,
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, the quorum server transmits a success notification for the reservation request to the plurality of cluster servers. , Cluster system.
前記クラスタサーバは、他の前記クラスタサーバが提供するサービスの情報を有し、
前記クォーラムサーバは、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信する前に、前記複数のクラスタサーバが他の前記クラスタサーバのサービスを引き継がないように前記複数のクラスタサーバの前記情報を書き換える、請求項1に記載のクラスタシステム。
The cluster server has information on services provided by other cluster servers,
The quorum server sends the information of the plurality of cluster servers so that the plurality of cluster servers do not take over the services of the other cluster servers before sending a success notification for the reservation request to the plurality of cluster servers. The cluster system according to claim 1, wherein the cluster system is rewritten.
前記クォーラムサーバは、先に到着した前記確保要求を送信した前記クラスタサーバが、前記クォーラムを真に確保したことを記憶する、請求項1または2に記載のクラスタシステム。   The cluster system according to claim 1, wherein the quorum server stores that the cluster server that has transmitted the reservation request that has arrived first has truly reserved the quorum. 前記クォーラムサーバは、前記情報を書き換える際に、前記クォーラムを真に確保した前記クラスタサーバが有する前記情報において、他の前記クラスタサーバが提供するサービスをダミーサービスに書き換える、請求項3に記載のクラスタシステム。   4. The cluster according to claim 3, wherein, when rewriting the information, the quorum server rewrites a service provided by another cluster server to a dummy service in the information of the cluster server that truly secures the quorum. system. サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、
クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおけるクラスタ管理方法であって、
前記クラスタサーバが、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信するステップと、
前記クォーラムサーバが、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信するステップとを含む、クラスタ管理方法。
A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster management method in a cluster system comprising a quorum server having a quorum,
If the cluster server cannot normally receive the heartbeat signal from the other cluster server, sending a securing request to secure the quorum to the quorum server;
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, it transmits a success notification for the reservation request to the plurality of cluster servers. And a cluster management method.
サービスを1または複数のクライアントに提供し、かつハートビート通信路を介してハートビート信号を互いに送受信するための複数のクラスタサーバと、
クォーラムを有するクォーラムサーバとを備えるクラスタシステムにおいて用いられるクラスタ管理プログラムであって、コンピュータに、
前記クラスタサーバが、他の前記クラスタサーバから前記ハートビート信号を正常に受信できない場合には、前記クォーラムを確保するための確保要求を前記クォーラムサーバへ送信するステップと、
前記クォーラムサーバが、前記クラスタサーバから前記確保要求を受信してから所定時間内に他の前記クラスタサーバから前記確保要求を受信したときには、前記確保要求に対する成功通知を前記複数のクラスタサーバへ送信するステップとを実行させるための、クラスタ管理プログラム。
A plurality of cluster servers for providing services to one or a plurality of clients and for transmitting and receiving heartbeat signals to each other via a heartbeat channel;
A cluster management program used in a cluster system comprising a quorum server having a quorum, the computer comprising:
If the cluster server cannot normally receive the heartbeat signal from the other cluster server, sending a securing request to secure the quorum to the quorum server;
When the quorum server receives the reservation request from another cluster server within a predetermined time after receiving the reservation request from the cluster server, it transmits a success notification for the reservation request to the plurality of cluster servers. A cluster management program for executing steps.
JP2011035476A 2011-02-22 2011-02-22 Cluster system, cluster management method and cluster management program Withdrawn JP2012173996A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011035476A JP2012173996A (en) 2011-02-22 2011-02-22 Cluster system, cluster management method and cluster management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011035476A JP2012173996A (en) 2011-02-22 2011-02-22 Cluster system, cluster management method and cluster management program

Publications (1)

Publication Number Publication Date
JP2012173996A true JP2012173996A (en) 2012-09-10

Family

ID=46976850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011035476A Withdrawn JP2012173996A (en) 2011-02-22 2011-02-22 Cluster system, cluster management method and cluster management program

Country Status (1)

Country Link
JP (1) JP2012173996A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015197742A (en) * 2014-03-31 2015-11-09 富士通株式会社 Storage system, storage device, and monitoring server
WO2016107173A1 (en) * 2014-12-31 2016-07-07 华为技术有限公司 Post-cluster brain split quorum processing method and quorum storage device and system
CN105849702A (en) * 2013-12-25 2016-08-10 日本电气方案创新株式会社 Cluster system, server device, cluster system management method, and computer-readable recording medium
JP2016531348A (en) * 2013-08-26 2016-10-06 ヴイエムウェア インコーポレイテッドVMware,Inc. Fragmentation tolerance in cluster membership management
CN111869163A (en) * 2018-03-19 2020-10-30 华为技术有限公司 Fault detection method, device and system
US10855602B2 (en) 2013-08-26 2020-12-01 Vmware, Inc. Distributed policy-based provisioning and enforcement for quality of service
US11016820B2 (en) 2013-08-26 2021-05-25 Vmware, Inc. Load balancing of resources
US11210035B2 (en) 2013-08-26 2021-12-28 Vmware, Inc. Creating, by host computers, respective object of virtual disk based on virtual disk blueprint
US11249956B2 (en) 2013-08-26 2022-02-15 Vmware, Inc. Scalable distributed storage architecture
CN115190046A (en) * 2022-04-13 2022-10-14 统信软件技术有限公司 Detection method and detection device for server cluster and computing equipment
WO2023148977A1 (en) * 2022-02-07 2023-08-10 株式会社Pfu Node device, cluster management method, program, and cluster system

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11016820B2 (en) 2013-08-26 2021-05-25 Vmware, Inc. Load balancing of resources
US10855602B2 (en) 2013-08-26 2020-12-01 Vmware, Inc. Distributed policy-based provisioning and enforcement for quality of service
JP2016531348A (en) * 2013-08-26 2016-10-06 ヴイエムウェア インコーポレイテッドVMware,Inc. Fragmentation tolerance in cluster membership management
US11809753B2 (en) 2013-08-26 2023-11-07 Vmware, Inc. Virtual disk blueprints for a virtualized storage area network utilizing physical storage devices located in host computers
US11249956B2 (en) 2013-08-26 2022-02-15 Vmware, Inc. Scalable distributed storage architecture
US11210035B2 (en) 2013-08-26 2021-12-28 Vmware, Inc. Creating, by host computers, respective object of virtual disk based on virtual disk blueprint
US9672115B2 (en) 2013-08-26 2017-06-06 Vmware, Inc. Partition tolerance in cluster membership management
US11704166B2 (en) 2013-08-26 2023-07-18 Vmware, Inc. Load balancing of resources
CN105849702A (en) * 2013-12-25 2016-08-10 日本电气方案创新株式会社 Cluster system, server device, cluster system management method, and computer-readable recording medium
US10102088B2 (en) 2013-12-25 2018-10-16 Nec Solution Innovators, Ltd. Cluster system, server device, cluster system management method, and computer-readable recording medium
JP2015197742A (en) * 2014-03-31 2015-11-09 富士通株式会社 Storage system, storage device, and monitoring server
US10020980B2 (en) 2014-12-31 2018-07-10 Huawei Technologies Co., Ltd. Arbitration processing method after cluster brain split, quorum storage apparatus, and system
US10298436B2 (en) 2014-12-31 2019-05-21 Huawei Technologies Co., Ltd. Arbitration processing method after cluster brain split, quorum storage apparatus, and system
JP2017525008A (en) * 2014-12-31 2017-08-31 華為技術有限公司Huawei Technologies Co.,Ltd. Arbitration processing method, quorum storage device, and system after cluster brain division
WO2016107173A1 (en) * 2014-12-31 2016-07-07 华为技术有限公司 Post-cluster brain split quorum processing method and quorum storage device and system
JP2017517817A (en) * 2014-12-31 2017-06-29 華為技術有限公司Huawei Technologies Co.,Ltd. Arbitration processing method, quorum storage device, and system after cluster brain division
CN111869163A (en) * 2018-03-19 2020-10-30 华为技术有限公司 Fault detection method, device and system
WO2023148977A1 (en) * 2022-02-07 2023-08-10 株式会社Pfu Node device, cluster management method, program, and cluster system
CN115190046A (en) * 2022-04-13 2022-10-14 统信软件技术有限公司 Detection method and detection device for server cluster and computing equipment
CN115190046B (en) * 2022-04-13 2024-01-23 统信软件技术有限公司 Detection method, detection device and computing equipment of server cluster

Similar Documents

Publication Publication Date Title
JP2012173996A (en) Cluster system, cluster management method and cluster management program
US9311199B2 (en) Replaying jobs at a secondary location of a service
US9747179B2 (en) Data management agent for selective storage re-caching
JP6084624B2 (en) Split brain tolerant failover in high availability clusters
US8583773B2 (en) Autonomous primary node election within a virtual input/output server cluster
US9110717B2 (en) Managing use of lease resources allocated on fallover in a high availability computing environment
US8533171B2 (en) Method and system for restarting file lock services at an adoptive node during a network filesystem server migration or failover
US20120180070A1 (en) Single point, scalable data synchronization for management of a virtual input/output server cluster
JP4572250B2 (en) Computer switching method, computer switching program, and computer system
US9052833B2 (en) Protection of former primary volumes in a synchronous replication relationship
US11550820B2 (en) System and method for partition-scoped snapshot creation in a distributed data computing environment
US11573737B2 (en) Method and apparatus for performing disk management of all flash array server
US11604806B2 (en) System and method for highly available database service
US20110161724A1 (en) Data management apparatus, monitoring apparatus, replica apparatus, cluster system, control method and computer-readable medium
EP3648405B1 (en) System and method to create a highly available quorum for clustered solutions
US20150067401A1 (en) Computer recovery method, computer system, and storage medium
CN107071189B (en) Connection method of communication equipment physical interface
CN101442437A (en) Method, system and equipment for implementing high availability
JP4520899B2 (en) Cluster control method, cluster control program, cluster system, and standby server
US11010269B2 (en) Distributed processing system and method for management of distributed processing system
CN114827148B (en) Cloud security computing method and device based on cloud fault-tolerant technology and storage medium
WO2023148976A1 (en) Node device, cluster reconfiguration method, program, and cluster system
JP5153310B2 (en) Fault tolerant computer system, resynchronization operation processing method, and program
CN116303364A (en) Redis high-availability and high-expansibility installation method and device
Zhang et al. ZooKeeper+: The Optimization of Election Algorithm in Complex Network Circumstance

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140513