JP5387761B2 - Cluster reconstruction method, cluster reconstruction device, and cluster reconstruction program - Google Patents
Cluster reconstruction method, cluster reconstruction device, and cluster reconstruction program Download PDFInfo
- Publication number
- JP5387761B2 JP5387761B2 JP2012512539A JP2012512539A JP5387761B2 JP 5387761 B2 JP5387761 B2 JP 5387761B2 JP 2012512539 A JP2012512539 A JP 2012512539A JP 2012512539 A JP2012512539 A JP 2012512539A JP 5387761 B2 JP5387761 B2 JP 5387761B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- group
- information
- cluster
- priority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/142—Reconfiguring to eliminate the error
- G06F11/1425—Reconfiguring to eliminate the error by reconfiguration of node membership
Description
本発明は、クラスタシステムにおけるクラスタ再構築方法、クラスタ再構築装置及びクラスタプログラムに関し、特に、障害時に、系切り替え制御を行う技術に関するクラスタシステムに適用して好適なものである。 The present invention relates to a cluster rebuilding method, a cluster rebuilding apparatus, and a cluster program in a cluster system, and is particularly suitable for application to a cluster system related to a technique for performing system switching control in the event of a failure.
いわゆるクラスタシステムでは、クラスタプログラムが、ノード間で通信を行うことで、他ノードの死活状態を判断している。そのため、ノード間通信で用いるネットワークに障害が発生すると、通信ができないノード同士で互いに相手側のノードに障害が発生したと判断する。このような状態はネットワークスプリットと呼ばれ、複数クラスタ上で同一アプリケーションが実行され、共有リソースに対する競合が発生し、データが破壊されるおそれがある。そのため、一般的なクラスタプログラムでは、上記のような現象が起こらないよう、ネットワークスプリットが発生した場合に、クラスタ構成を再構築する方法が行われている。 In a so-called cluster system, the cluster program determines the alive state of other nodes by communicating between the nodes. For this reason, when a failure occurs in the network used for inter-node communication, it is determined that a failure has occurred in the partner node between nodes that cannot communicate with each other. Such a state is called network split, and the same application is executed on a plurality of clusters, contention for shared resources may occur, and data may be destroyed. Therefore, in a general cluster program, a method of reconstructing a cluster configuration when a network split occurs is performed so that the above phenomenon does not occur.
そのような再構築方法の一例として、従来のクラスタシステムでは、ネットワークスプリットが発生すると、予め各ノードに設定されたリセット優先度に基づき、ノードごとに時間差を設けてリセットを発行することで、最もリセット優先度が高いノードと通信ができないノードをリセットし、最もリセット優先度が高いノードと通信可能なグループをクラスタとして再構築する方法(以下、「第1の方法」と称する。)が採用されている(特許文献1参照)。 As an example of such a reconstruction method, in a conventional cluster system, when a network split occurs, a reset is issued with a time difference for each node based on a reset priority set in advance for each node. A method of resetting a node that cannot communicate with a node having a high reset priority and reconfiguring a group that can communicate with a node having the highest reset priority as a cluster (hereinafter referred to as a “first method”) is adopted. (See Patent Document 1).
また、その再構築方法の他の例として、従来のクラスタシステムでは、ネットワークスプリットが発生すると、通信可能なノード同士で形成されるグループのノード数を、クォーラムディスクと呼ばれるハードディスクに書き込むことで、他グループのノード数を把握し、最大ノード数となるグループをクラスタとして再構築する方法(以下、「第2の方法」と称する。)が採用されている(特許文献2参照)。 As another example of the reconstruction method, in a conventional cluster system, when a network split occurs, the number of nodes in a group formed by communicable nodes is written to a hard disk called a quorum disk. A method of grasping the number of nodes of a group and reconstructing the group having the maximum number of nodes as a cluster (hereinafter referred to as “second method”) is employed (see Patent Document 2).
しかしながら、上述した第1の方法では、リセット優先度が予め設定されているため、ネットワークスプリット発生時に、グループで実行中の処理内容に応じてクラスタを再構築することができないという問題がある。そのため、第1の方法では、ネットワークスプリットが発生した際に、最もリセット優先度が高いノードを含まないクラスタグループのノードで、金融機関のシステムにおける入出金処理のようなトランザクション処理をアプリケーションが実行中であった場合、トランザクション処理を処理中のノードが、最もリセット優先度が高いノードからリセットされてしまい、トランザクション処理が中断される可能性がある。 However, in the first method described above, the reset priority is set in advance, and therefore there is a problem that the cluster cannot be reconstructed according to the processing contents being executed in the group when a network split occurs. Therefore, in the first method, when a network split occurs, an application is executing transaction processing such as deposit / withdrawal processing in a financial institution system at a node of a cluster group that does not include a node having the highest reset priority. In such a case, there is a possibility that the node that is processing the transaction process is reset from the node having the highest reset priority, and the transaction process is interrupted.
また、第2の方法では、最大ノード数となるグループをクラスタとして再構築するが、稼働率がノードごとに同じとは限らないため、稼働率の低いノードが最大ノード数グループとして固まった場合、最大ノード数グループが最も可用性の高いグループであるとは限らないという事態を招来してしまうという問題がある。そのため、第2の方法では、最も可用性の高いグループでクラスタを再構築することができない可能性がある。 In the second method, the group having the maximum number of nodes is reconstructed as a cluster, but the operation rate is not necessarily the same for each node. There is a problem in that the maximum number of nodes group is not necessarily the most highly available group. Therefore, in the second method, there is a possibility that the cluster cannot be reconstructed with the most highly available group.
本発明は以上の点を考慮してなされたもので、ネットワークスプリットが発生した場合に、グループの処理内容から、クラスタとして構築するのに最適なグループを選択することができるクラスタ再構築方法及びクラスタシステムを提案しようとするものである。 The present invention has been made in consideration of the above points. When a network split occurs, a cluster reconstructing method and a cluster capable of selecting an optimum group to be constructed as a cluster from the processing contents of the group. The system is to be proposed.
かかる課題を解決するため、本発明においては、互いに監視パスで接続された複数のノードを含むクラスタシステムのクラスタ再構築方法であって、前記複数のノードのうちのいずれか所定のノードが、所定の条件を保持し、前記所定の条件に対応する自ノードの情報を生成する自ノード情報生成ステップと、前記所定のノードが、前記監視パスでの通信を可能とする他ノードから、前記所定の条件に対応する他ノードの情報を収集する他ノード情報収集ステップと、前記所定のノードが、前記自ノードの情報又は前記他ノードの情報が存在する場合、前記他ノードの情報及び前記自ノードの情報に基づいて、少なくとも前記自ノードを含むとともに前記監視パスで通信可能なノードで構成される自グループの優先度を生成する優先度生成ステップと、前記所定のノードが、前記自グループの優先度と、前記自ノードが前記監視パスでの通信を不可能とするノードから構成される他グループの優先度とに基づいて、クラスタとして再構築するグループを決定するグループ決定ステップとを含むことを特徴とする。 In order to solve this problem, in the present invention, there is provided a cluster rebuilding method for a cluster system including a plurality of nodes connected to each other through a monitoring path, wherein any one of the plurality of nodes is a predetermined node. The local node information generation step for generating local node information corresponding to the predetermined condition, and the predetermined node from the other node that enables communication on the monitoring path. An other node information collecting step for collecting information of another node corresponding to the condition, and when the predetermined node has the information of the own node or the information of the other node, the information of the other node and the information of the own node Based on the information, a priority generation process for generating the priority of the own group including at least the own node and communicable by the monitoring path. And the predetermined node as a cluster based on the priority of the own group and the priority of another group composed of nodes in which the own node cannot communicate on the monitoring path. And a group determining step for determining a group to be reconstructed.
また、本発明においては、互いに監視パスで接続された複数のノードを含むクラスタシステムのクラスタ構成再構築装置であって、前記複数のノードは、それぞれ、所定の条件を保持し、前記所定の条件に対応する自ノードの情報を生成する一方、前記監視パスでの通信を可能とする他ノードから、前記所定の条件に対応する他ノードの情報を収集するノード情報収集部と、前記自ノードの情報又は前記他ノードの情報が存在する場合には、前記他ノードの情報及び前記自ノードの情報に基づいて、少なくとも前記自ノードを含むとともに前記監視パスで通信可能なノードで構成される自グループの優先度を生成し、前記自グループの優先度と、前記自ノードが前記監視パスでの通信を不可能とするノードから構成される他グループの優先度とに基づいて、クラスタとして再構築するグループを決定するグループスコア作成部とを有することを特徴とする。 Further, in the present invention, there is provided a cluster configuration reconstruction device of a cluster system including a plurality of nodes connected to each other through a monitoring path, wherein each of the plurality of nodes holds a predetermined condition, and the predetermined condition A node information collection unit that collects information of another node corresponding to the predetermined condition from another node that enables communication on the monitoring path, and If the information or the information of the other node exists, the own group including at least the own node and communicable by the monitoring path based on the information of the other node and the information of the own node The priority of the own group and the priority of the other group composed of nodes that make the own node impossible to communicate on the monitoring path Based on, and having a group score creation unit configured to determine a group to be reconstructed as a cluster.
また、本発明においては、互いに監視パスで接続された複数のノードを含むクラスタシステムにおけるクラスタ再構築装置のクラスタ再構築プログラムであって、前記クラスタ再構築装置のプロセッサに、前記複数のノードのうちのいずれか所定のノードが保持する所定の条件に対応した自ノードの情報を生成させる自ノード情報生成ステップと、前記プロセッサに、前記監視パスでの通信を可能とする他ノードから、前記所定の条件に対応する他ノードの情報を収集させる他ノード情報収集ステップと、前記プロセッサに、前記自ノードの情報又は前記他ノードの情報が存在する場合、前記他ノードの情報及び前記自ノードの情報に基づいて、少なくとも前記自ノードを含むとともに前記監視パスで通信可能なノードで構成される自グループの優先度を生成させる優先度生成ステップと、前記プロセッサに、前記自グループの優先度と、前記自ノードが前記監視パスでの通信を不可能とするノードから構成される他グループの優先度とに基づいて、クラスタとして再構築するグループを決定させるグループ決定ステップとを実行させることを特徴とする。 Further, in the present invention, there is provided a cluster reconstruction program for a cluster reconstruction device in a cluster system including a plurality of nodes connected to each other via a monitoring path, the processor of the cluster reconstruction device including a plurality of nodes A local node information generation step for generating local node information corresponding to a predetermined condition held by any of the predetermined nodes, and the processor from another node that enables communication on the monitoring path. In the other node information collecting step for collecting information on other nodes corresponding to the condition, and the information on the own node or the information on the other node in the processor, the information on the other node and the information on the own node are included. Based on a self-group that includes at least the self-node and can communicate with the monitoring path. A priority generation step for generating the priority of the group, the processor having the priority of the own group, and the priority of the other group configured by the node incapable of communicating on the monitoring path. And a group determining step for determining a group to be reconstructed as a cluster.
本発明によれば、ネットワークスプリットが発生した場合に、グループの処理内容から、クラスタとして構築するのに最適なグループを選択することができる。 According to the present invention, when a network split occurs, it is possible to select an optimal group to be constructed as a cluster from the processing contents of the group.
以下、図面について、本発明の一実施の形態について詳述する。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
(1)本実施の形態によるクラスタシステムの構成
図1は、本実施の形態におけるクラスタシステムの構成例を示す。クラスタシステムは、ノードA1101、ノードB1201及びノードC1301を有し、それらが、ネットワーク1001、リセットパス1002及び監視パス1003と通信可能に互いに接続されている。各ノードの構成は、ほぼ同様であるため、以下では、主にノードA1101について説明する。(1) Configuration of Cluster System According to this Embodiment FIG. 1 shows a configuration example of a cluster system according to this embodiment. The cluster system includes a
ノードA1101は、CPU1102(プロセッサ)、ネットワークアダプタ(NIC)1103、メモリ1104及びリセット装置1105を備えている。ノードA1101は、CPU1102に後述する手順の処理を実行させるためのプログラム(クラスタ再構築プログラム)をメモリ1104に有する。ネットワークアダプタ(NIC)1103は、外部との通信を送受信するための装置である。
The node A 1101 includes a CPU 1102 (processor), a network adapter (NIC) 1103, a
メモリ1104は、後述するクラスタ監視部1112が動作するための記憶装置である。このメモリ1104は、オペレーティングシステム(以下、OSと称する)1110、アプリケーション1111及びクラスタ監視部1112を有する。このクラスタ監視部1112は、上述したクラスタ再構築プログラムに相当する。リセット装置1105は、自らが搭載されているノード(以下、自ノードという)以外のノード(以下、他ノードという)からリセット要求を受け取った時に自ノードを停止させるための装置である。
The
NIC1103は、アプリケーション1111の業務処理に伴う外部との通信に用いられたり、クラスタ監視部1112が他ノードを監視するための通信に用いられたり、クラスタ監視部1112が他ノードをリセットする際に行うリセット部との通信に用いられる。図1では、ノードA1101が複数のNIC1103を搭載している構成を例示したが、同一のNICでこれら通信を担うようにしても良い。
The NIC 1103 is used for communication with the outside accompanying business processing of the
クラスタ監視部1112は、ソフトウェアとハードウェアとの協働により、次のような各モジュールを実行する。このクラスタ監視部1112は、上述したクラスタ再構築プログラムに相当し、監視部1120、通信部1121、ノード情報収集部1122、グループスコア作成部1123及び系切替部1124を有する。
The
監視部1120は、自ノードのアプリケーション1111が正常動作するか監視する機能と、自ノードのアプリケーション1111に障害が発生した場合に、他ノードのクラスタ監視部1212などに障害が発生したことを通信部1121を介して通知する機能と、通信部1121を介して他ノードのクラスタ監視部の状態を監視する機能と、ノード情報収集部1122に対して正常動作しているアプリケーションを通知する機能と、他ノードのクラスタ監視部1212などの障害を検知した場合に、グループスコア作成部1123に対し、障害が発生しているノード(以下、障害ノードともいう)を通知する機能とを備える。
The
通信部1121は、NIC1103を介して、他ノード1201Aなどのクラスタ監視部1212などと通信する機能と、グループスコア作成部1123からの指示により、自ノードのリセット部1113に対して通知したり、他ノードのリセット部と通信したりする機能を持つ。
The
ノード情報収集部1122は、アプリケーション1111、OS1110及び監視部1120からノードに関する情報を収集する機能と、グループスコア作成部1123からノード情報の要求があった場合に、グループスコア作成部1123にノード情報を通知する機能を有する。
The node
ノード情報収集部1122は、所定の条件を保持し、所定の条件に対応する自ノードの情報を生成する一方、監視パス1103での通信を可能とする他ノードから、その所定の条件に対応する他ノードの情報を収集する。
The node
ここでいう、所定の条件とは、優先順位を有する複数の条件である。後述するように、各ノード1101では、グループスコア作成部1123が、複数の条件の夫々に対応する自ノードの情報を生成し、自グループの優先度を生成する際、複数の条件の夫々に対し優先度を生成し、クラスタとして再構築するグループを決定する際、優先順位に応じて、他グループの優先度と比較を行うことで再構築グループを決定する。
Here, the predetermined conditions are a plurality of conditions having priority. As will be described later, in each
また、ここでいう所定の条件は、例えば、各ノード1101などのハードウェア使用率(稼動率)、又は、各ノード1101などで稼動するアプリケーションが実行中である特定の処理の数を含んでいても良い。ここでいう特定の処理は、例えば、アプリケーションによるデータライト処理又はデータリード処理を含んでいる。また、上述した所定の条件としては、例えば、各ノード1101で稼動するアプリケーション1111の種別又はその種別の名称を含んでいても良い。
Further, the predetermined condition here includes, for example, the hardware usage rate (operation rate) of each
グループスコア作成部1123は、例えば、自ノードの情報又は他ノードの情報が存在する場合には、他ノードの情報及び自ノードの情報に基づいて、少なくとも自ノードを含むとともに監視パスで通信可能なノードで構成される自グループの優先度を生成し、自グループの優先度と、自ノードが監視パス1003での通信を不可能とするノードから構成される他グループの優先度とに基づいて、クラスタとして再構築するグループを決定する。
For example, when there is information on the own node or information on another node, the group
このグループスコア作成部1123は、例えば、以下のような7つの機能を有する。具体的には、グループスコア作成部1123は、優先定義1130の優先情報に基づき、ノード情報収集部1122からノード情報を取得する機能と、障害ノードを除く他ノードのクラスタ監視部に対し通信部1121を介してそのノード情報を通知する機能と、ノード情報収集部1122から取得したノード情報と障害ノードを除く他ノードのクラスタ監視部から通知されるノード情報とから、優先定義1130の優先条件に基づきグループスコアを作成する機能と、自ノードのリセット部1113に対して通信部1121を介してグループスコア管理表1132を通知する機能と、監視部1120から通知された障害ノードに対して通信部1121を介してグループスコア管理表1132を載せたリセット要求を通知する機能と、リセットが成功した場合に、通信部1121を用いて系切替部1124と障害ノードを除く他ノードのクラスタ監視部に障害ノードのリセット成功を通知する機能と、障害ノードを全てリセットした場合に、自ノードのリセット部1113に対して、全ての障害ノードをリセットしたことを通知する機能とを備えている。
The group score creating
さらに、グループスコア作成部1123は、優位なグループを決定するために必要な情報と条件を保持した優先定義1130と、各ノードの死活情報やノード情報を保持するためのノード情報管理表1131と、自ノードを含むグループの情報を保持するためのグループスコア管理表1132とを保持する。
Further, the group
系切替部1124は、グループスコア作成部1123及び、障害ノードを除く他ノードのクラスタ監視部1212又は1312からリセット完了の通知があった場合、又は、当該他ノードのクラスタ監視部1212又は1312からアプリケーションに障害が発生したことを示す通知があった場合、自ノードが障害により終了したアプリケーションを引き継ぐ必要があるか否か判断する。系切替部1124は、必要がある場合、障害により終了したアプリケーションを引き継ぐ機能を有する。
The
リセット装置1105のリセット部1113は、自グループがクラスタとして再構築するグループであると決定された場合、当該自グループに属するノードをリセットする。また、リセット部1113は、当該自グループに属するノードをリセットする際に、リセット要求とともに自グループの優先度を、クラスタを構成するノードに通知し、その通知を他ノードから受けた際に、その通知に含まれるグループ優先度が、当該自グループの優先度より低い場合、当該自ノードのリセットを防止している。
If the
(2)テーブルなどの構成
次に図2、図3及び図4を用いて、優先定義1130、ノード情報管理表1131及びグループスコア管理表1132が有する情報について詳細に説明する。(2) Configuration of Tables Next, the information included in the
図2は、優先定義1130が有する情報を示した図である。優先定義1130には、以下に示した3つの情報が保持される。
FIG. 2 is a diagram illustrating information included in the
(a)優先条件を一意に識別するための優先番号21
(b)優先条件に基づきより優位なグループを決めるために必要な情報を示す優先情報22
(c)クラスタを構築するグループとして最適なグループの条件を示す優先条件23(A)
(B)
(C)
図3は、ノード情報管理表1131に含まれる情報を示した図である。ノード情報管理表1131には、以下に示した3つの情報が保持される。 FIG. 3 is a diagram showing information included in the node information management table 1131. The node information management table 1131 holds the following three pieces of information.
(a)各ノードを一意に識別するためのノード名31
(b)障害ノードであることを表す障害発生フラグ32
(c)優先定義1130の優先情報22に基づき取得された各ノードのノード情報を示す第1〜第4ノード情報33〜36(A)
(B)
(C) 1st-4th node information 33-36 which shows the node information of each node acquired based on the
ノード情報管理表1131には、上記優先番号21の数だけノード情報を登録する列が追加される。
In the node information management table 1131, a column for registering node information by the number of the
障害発生フラグ32は、グループスコア作成部1123が監視部1120から通知された障害ノードに対して設定する。本実施の形態では、説明を容易にするため、ネットワークスプリットが発生し、ノードC1301に生じた障害によって、ノードB1201とノードC1301との間で通信が切断された例を示している。このため、ノードA1101の監視部1120がノードC1301の障害を検知し、グループスコア作成部1123に対してノードC1301の障害を通知する。このため、ノード名31が「C」の障害発生フラグ32がオフ(図示上では空欄に相当)からオン(図示の丸印に相当)設定される。
The
第1〜4ノード情報33〜36には、各ノードのグループスコア作成部1123などが、優先定義1130の優先情報22に基づき各ノードのノード情報収集部1122などから取得したノード情報が格納される。本実施の形態では、一例として、ノードA1101の監視部1120がノードC1301の障害を検知している。このため、ノードC1301のノード情報が格納されていない。その他ノードのノード情報については、以下で説明する。
In the first to
優先番号21が「1」の優先情報22は、「ノードの稼働率」であるため、第1ノード情報33には、ノードA1101及びノードB1201のそれぞれの稼働率を示す「95.0」及び「90.0」が設定される。これらの稼働率は、予めノード情報収集部に指定された値であってもよいし、ノード情報収集部1122が統計情報をとり、計算により求めた値でもよい。
Since the
優先番号21が「2」の優先情報22は、「データ書き込み処理中のアプリケーション数」であるため、第2ノード情報34には、ノードA1101とノードB1201におけるデータ書き込み処理中のアプリケーションの数が、それぞれ設定される。例えば、アプリケーション1111がデータ書き込み処理中であり、かつ、アプリケーション1211がデータ書き込み処理を行っていなかった場合、第2ノード情報34には、「1」と「0」がそれぞれ設定される。データ書き込み処理中のアプリケーション数は、ノード情報収集部1122に対して処理開始と処理終了を通知することができるプログラムを、アプリケーションがデータ書き込み処理を開始時と終了時に実行することで、ノード情報収集部1122によって把握される。
Since the
優先番号21が「3」の優先情報22は、「起動中のアプリケーション名」であるため、第3ノード情報35には、ノードA1101とノードB1201でそれぞれ起動中のアプリケーションの名称である「アプリケーション1111」と「アプリケーション1211」が設定される。
Since the
優先番号21が「4」の優先情報22は、「ネットワーク使用率」であるため、第4ノード情報36には、ノードA1101とノードB1201におけるネットワーク使用率を表す「40」と「60」がそれぞれ設定される。
Since the
図4は、グループスコア管理表1132が有する情報を示した図である。グループスコア管理表1132には、以下に示した2つの情報が保持される。 FIG. 4 is a diagram showing information included in the group score management table 1132. The group score management table 1132 holds the following two pieces of information.
(a)グループスコアがどの優先条件に基づき作成されたかを示す優先番号21
(b)自ノードと監視パスを介して互いに通信し合えるノードで形成されるグループの前記優先条件23に基づく優位度を示すグループスコア41(A)
(B) A
優先番号21は、優先定義1130の優先番号21と同じ値が設定される。一方、グループスコア41は、ノード情報管理表1131のノード情報から作成されたスコアを示す。本実施の形態では、一例として、ノードA1101とノードB1201がグループを形成するので、ノード情報管理表1131のノードA1101とノードB1201のノード情報から作成されたスコアが、グループスコア41に格納される。
The
優先番号21が「1」の優先条件22が「稼働率の高いグループが優位」であるため、優先番号21が「1」のグループスコア41には、第1ノード情報33から計算によって求めたグループの稼働率「98.5」が格納される。
Since the
優先番号21が「2」の優先条件22が「データ書き込み処理中のアプリケーション数が多いグループが優位」であるため、優先番号21が「2」のグループスコア41には、第2ノード情報34の合計値である「1」が格納される。
Since the
優先番号21が「3」の優先条件22が「アプリケーション1311が起動中のグループが優位」であるため、優先番号21が「3」のグループスコア41には、第3ノード情報35にアプリケーション1311の名前が存在しないことを示す「0」が設定される。一方、第3ノード情報35にアプリケーション1311の名前が存在する場合は「1」が設定される。
Since the
優先番号21が「4」の優先条件22が「ネットワーク使用率の平均値が高いグループが優位」であるため、優先番号21が「4」のグループスコア41には、第4ノード情報36から計算によって求めたグループのネットワーク使用率の平均値を表す「50」が格納される。
Since the
なお、本実施の形態では、説明を容易にするために、ノード情報収集部1122及びグループスコア作成部1123が、クラスタ監視部1112内のプログラムのモジュールとして構成されている例を示したが、クラスタ監視部1112とは別のプログラム内のモジュールとしても良い。また、優先情報22が、グループスコア作成部1123の管理する優先定義1130で保持する情報としたが、ノード情報収集部1122が保持する情報としても良い。
In the present embodiment, for ease of explanation, an example in which the node
リセット装置1105は、次のような機能を搭載するリセット部1113を有する。即ち、リセット部1113は、クラスタ監視部1112からの要求に応じて自ノードをリセットする機能を有する。より具体的には、このリセット部1113は、自ノードのクラスタ監視部1112から通知されるグループスコア管理表1132を保持する機能と、自身が保持するグループスコアと他ノードのクラスタ監視部からのリセット要求で通知されるグループスコアを比較し、自ノードのリセットを実行するか防止するか判断する機能と、自ノードを停止させる機能と、リセットを実行したことをクラスタ監視部に通知する機能とを持つ。なお、自ノードを停止させる処理は、自ノードの共有リソース使用を終了させることができれば良いので、例えば電源オフであったり、OSのシャットダウンであったりしても良い。
The
本実施の形態では、説明を容易にするために、リセット部1113がリセット装置1105内のモジュールである例を示したが、リセット装置1105とは別の装置内のモジュールとしても良く、ノードごとに存在する必要はない。また、リセット部1113は、ノードA1101内の他の装置から独立したリセット専用の装置内のモジュールである必要はなく、メモリ1104上で動作するプログラムでも良い。
In this embodiment, for ease of explanation, the example in which the
(3)クラスタ再構成方法の一例
(3−1)概念
本実施の形態では、クラスタ再構成方法の一例として、クラスタ再構築プログラムが、CPU1102に、次のような3つのステップを実行させる。まず、自ノード情報生成ステップでは、ノードA1101のCPU1102が、ノード情報収集部1122に、複数のノード1101,1201,1301のうちのいずれか所定のノード1101が、所定の条件を保持し、所定の条件に対応する自ノードの情報を生成する。他ノード情報収集ステップでは、ノードA1101のCPU1102が、監視パス1003での通信を可能とする他ノード1201,1301から、所定の条件に対応する他ノードの情報を収集する。(3) Example of Cluster Reconfiguration Method (3-1) Concept In this embodiment, as an example of the cluster reconfiguration method, the cluster reconfiguration program causes the
次に、優先度生成ステップでは、ノードA1101のCPU1102が、グループスコア作成部1123に、所定のノード1101が、自ノードの情報又は他ノードの情報が存在する場合、他ノードの情報及び自ノードの情報に基づいて、少なくとも自ノードを含むとともに監視パス1003で通信可能なノードで構成される自グループの優先度を生成する。次に、グループ決定ステップでは、ノードA1101のCPU1102が、グループスコア作成部1123に、自グループの優先度と、自ノードが監視パスでの通信を不可能とするノードから構成される他グループの優先度とに基づいて、クラスタとして再構築するグループを決定する。
Next, in the priority generation step, the
(3−2)具体例
図5から図8は、それぞれ本実施の形態におけるクラスタ監視部1112の動作と、リセット部1113の動作を説明したフローチャートである。まず、図5は、監視部1120が、他ノードの監視時に行う処理を説明したフロー図である。(3-2) Specific Example FIGS. 5 to 8 are flowcharts illustrating the operation of the
監視部1120は、まず、他ノードのクラスタ監視部と監視パス1003を介して接続しているか判断する(SP501)。監視部1120は、このステップ501において、接続していないと判断した場合、何もせずに終了する。監視部1120は、接続していると判断した場合、全てのノードのクラスタ監視部1112,1212,1312に対してハートビートメッセージを送信する(SP502)。
First, the
監視部1120は、ハートビートメッセージを送信すると、他ノードのクラスタ監視部から、ハートビートが届いているか否かをチェックする(SP503)。併せて監視部1120は、一定期間ハートビートが届いていないノードがあるか判断する(SP504)。監視部1120は、このステップ504において一定期間ハートビートが届いていないノードが存在しないと判断した場合、何もせずに処理を終了する(次回のハートビート監視まで待機する)。一方、監視部1120は、一定期間ハートビートが届いていないノードが存在すると判断した場合、そのノードに障害が発生したとみなし、グループスコア作成部1123に障害ノードを通知する(SP505)。
When transmitting the heartbeat message, the
図6は、グループスコア作成部1123が、障害ノードの通知、ノード情報の通知及びリセット実行済みを示す通知を受信した場合における処理の一例を示す。
FIG. 6 shows an example of processing when the group
まず、グループスコア作成部1123は、受信した通知の通知元が自ノードの監視部1120であるか否かを判断する(SP601)。通知元が監視部1120である場合、グループスコア作成部1123は、通知された障害ノードのノード情報管理表1131の障害発生フラグ32を設定する(SP602)。次にグループスコア作成部1123は、優先定義1130の優先情報22に設定されている情報に基づき、ノード情報収集部1122から自ノードのノード情報を取得し、この取得したノード情報をノード情報管理表1131に登録する(SP603)。
First, the group
次に、クラスタ監視部1112は、この取得したノード情報(自ノードの情報)を、障害発生フラグが設定されていない(正常に稼動中の)ノードのクラスタ監視部に通知する(SP604)。その後、クラスタ監視部1112は、障害発生フラグが設定されていないノードのクラスタ監視部から通知されてくるノード情報をノード情報管理表1131に登録する(SP605)。クラスタ監視部1112は、ノード障害フラグが設定されていない全てのノードから、ノード情報通知を受信したかを判断する(SP606)。
Next, the
上記ステップ606において、クラスタ監視部1112が、ノード情報が揃っていないと判断した場合、再び他ノードのノード情報の通知を受信する処理(SP605)に戻って実行する。一方、クラスタ監視部1112は、ノード情報が揃ったと判断した場合、自ノードのノード情報と受信済みの他ノードのノード情報とから、グループの優先条件23に基づく優位度を表すグループスコア41を作成する(SP607)。
If the
グループスコア作成部1123は、作成したグループスコア管理表1132を自ノードのリセット部1113に対して通知した後(SP608)、障害ノードのリセット部1313に対してグループスコア管理表1132を載せたリセット要求を発行する(SP609)。
After notifying the created group score management table 1132 to the
一方、上記ステップ601において通知元がリセット部であった場合、受信した通知はリセット実行済みであることを示す通知であるため、グループスコア作成部1123は、監視部1120と、障害ノードを除く他ノードのクラスタ監視部とに対して、リセット完了を通知する(SP611)。
On the other hand, when the notification source is the reset unit in step 601, the received notification is a notification indicating that the reset has been executed, and therefore the group
次に、グループスコア作成部1123は、リセットが完了したノードをノード情報管理表1131から削除した後(SP612)、障害ノード発生フラグ32が設定されたノードが残っているか確認する(SP613)。このステップ613で、グループスコア作成部1123は、ノードが残っていると判断した場合、何もせずに処理を終了する。一方、グループスコア作成部1123は、ノードが残っていないと判断した場合、自ノードのリセット部1113に対して、障害ノードを全てリセットしたことを通知する(ステップ614)。グループスコア作成部1123は、ノード情報管理表1131のノード情報を全てクリアし(ステップ615)、クラスタを再構築した結果を管理コンピュータ1004の画面に表示する。
Next, the group
図7は、リセット部1113が、クラスタ監視部1104から通知を受信した場合の処理を説明したフロー図である。リセット部1113は、受信した通知の通知元が自ノードのクラスタ監視部1112であるか否かを判断する(SP701)。リセット部1113は、自ノードのクラスタ監視部1112であった場合は、さらに通知内容がグループスコア管理表1132の通知であるかを判断する(SP702)。
FIG. 7 is a flowchart illustrating processing when the
リセット部1113は、このステップSP702において通知内容がグループスコア管理表1132の通知であると判断した場合、グループスコア管理表1132を保持し(SP703)、終了する。一方、リセット部1113は、グループスコア管理表1132の通知ではない場合、受信した通知は全ての障害ノードをリセットしたことを示す通知なので、上記ステップSP703で保持したグループスコア管理表1132を削除する(SP711)。
When the
一方、受信した通知の通信元が自ノードのクラスタ監視部1112でない場合、この通知は他ノードのクラスタ監視部からのリセット要求であるため、リセット部1113は、自身が保持するグループスコア管理表1132と、リセット要求で通知されたグループスコア管理表とから、同じ優先番号のグループスコアを比較する(SP722)。
On the other hand, if the communication source of the received notification is not the
リセット部1113は、リセット要求のグループスコアの方が小さい場合、何もせずに処理を終了する。両グループスコアが等しい場合は、再びステップSP722に戻り、リセット部1113は、次の優先番号のグループスコアを比較する。次の優先番号がない場合、リセット部1113は、通知元のIPアドレスなどのシステム内で一意に定まる値を用いて、リセット実行を判断する。一方、リセット部1113は、リセット要求のグループスコアの方が大きい場合は、自ノードのリセットを実行する(SP731)。
When the group score of the reset request is smaller, the
本実施の形態では、リセット部1113が、ノードA1101とノードB1201で形成されるグループと、ノードC1301のみで形成されるグループとのグループスコア同士を比較する。グループC1301のみで形成されるグループの優先番号21が1のグループスコアが98.5よりも大きい場合は、ノードA1101からノードC1301に対するリセットが防止され、ノードC1301からノードA1101に対するリセットが実行される。上記グループスコアが98.5よりも小さい場合は、ノードA1101からノードC1301に対するリセットが実行され、ノードC1301からノードA1101に対するリセットが防止される。等しい場合は、次の優先番号のグループスコアが比較される。
In the present embodiment, the
ステップSP731でリセットを実行したら、リセット要求元のクラスタ監視部に対して、リセット完了を通知し(SP732)、保持していたグループスコア管理表を削除する(SP733)。 When reset is executed in step SP731, the reset monitoring source cluster monitoring unit is notified of the reset completion (SP732), and the held group score management table is deleted (SP733).
なお、本実施の形態では、優先条件に優先度をつけるため、優先番号の順にグループスコアを比較し、グループスコアが等しかった場合だけ次の優先番号のグループスコアを比較する処理としているが、複数ある優先条件のうち、より多くの優先条件に適するグループをクラスタとして再構築した場合は、全てのグループスコアを比較してから、グループスコアが大きいと判断された回数でリセットの実行を判断してもよい。また、優先条件ごとに重みをつけることで、重みのつけられた優先条件を満たすグループがクラスタを再構築しやすくなるようにリセットの実行を判断してもよい。 In this embodiment, in order to give priority to the priority conditions, the group scores are compared in order of priority numbers, and the group score of the next priority number is compared only when the group scores are equal. If a group suitable for more priority conditions is reconfigured as a cluster among certain priority conditions, all group scores are compared, and the execution of reset is determined by the number of times that the group score is determined to be large. Also good. Further, by assigning a weight for each priority condition, it may be determined to execute the reset so that a group satisfying the weighted priority condition can easily reconstruct the cluster.
図8は、系切替部1124が、リセット完了の通知及びアプリケーション障害を示す通知を受信した場合における処理の一例を示す。系切替部1124は、リセット完了の通知及びアプリケーション障害を示す通知を受信すると、リセットされた障害ノードの処理を引き継ぐ必要があるか判断する(SP801)。系切替部1124は、このステップ801においてその障害ノードの処理を引き継ぐ必要がないと判断した場合、何もせずに処理を終了する。系切替部1124は、その障害ノードの処理を引き継ぐ必要があると判断した場合、系切り替え処理を行う(SP802)。
FIG. 8 shows an example of processing when the
(4)本実施の形態の効果等
以上説明したように、上記実施の形態によれば、ネットワークスプリットが発生した場合に、グループの処理内容から、クラスタとして構築するのに最適なグループを選択することができる。(4) Effects of this Embodiment As described above, according to the above embodiment, when a network split occurs, the optimum group to be constructed as a cluster is selected from the processing contents of the group. be able to.
(5)その他の実施形態
上記実施形態は、本発明を説明するための例示であり、本発明をこれらの実施形態にのみ限定する趣旨ではない。本発明は、その趣旨を逸脱しない限り、様々な形態で実施することができる。例えば、上記実施形態では、各種プログラムの処理をシーケンシャルに説明したが、特にこれにこだわるものではない。従って、処理結果に矛盾が生じない限り、処理の順序を入れ替え又は並行動作するように構成しても良い。(5) Other Embodiments The above embodiment is an example for explaining the present invention, and is not intended to limit the present invention only to these embodiments. The present invention can be implemented in various forms without departing from the spirit of the present invention. For example, in the above-described embodiment, the processing of various programs is described sequentially, but this is not particularly concerned. Therefore, as long as there is no contradiction in the processing result, the processing order may be changed or the operation may be performed in parallel.
1001……ネットワーク、1002……リセットパス、1003……監視パス、1004……管理コンピュータ、1101,1201,1301……ノード、1102……CPU、1103……NIC、1104……メモリ、1105,1205,1305……リセット装置、1110……OS、1111,1211,1311……アプリケーション、1112,1212,1312……クラスタ監視部、1113,1213,1313……リセット部、1120……監視部、1121……通信部、1122,1222,1322……ノード情報収集部、1123、1223,1323……グループスコア作成部、1124,1224,1324……系切替部、1130……優先定義、1131,1231,1331……ノード情報管理表、1132,1232,1332……グループスコア管理表。
DESCRIPTION OF
Claims (10)
前記複数のノードのうちのいずれか所定のノードが、所定の条件を保持し、前記所定の条件に対応する自ノードの情報を生成する自ノード情報生成ステップと、
前記所定のノードが、前記監視パスでの通信を可能とする他ノードから、前記所定の条件に対応する他ノードの情報を収集する他ノード情報収集ステップと、
前記所定のノードが、前記自ノードの情報又は前記他ノードの情報が存在する場合、前記他ノードの情報及び前記自ノードの情報に基づいて、少なくとも前記自ノードを含むとともに前記監視パスで通信可能なノードで構成される自グループの優先度を生成する優先度生成ステップと、
前記所定のノードが、前記自グループの優先度と、前記自ノードが前記監視パスでの通信を不可能とするノードから構成される他グループの優先度とに基づいて、クラスタとして再構築するグループを決定するグループ決定ステップとを有する
ことを特徴とするクラスタ再構築方法。A cluster reconstruction method for a cluster system including a plurality of nodes connected to each other via a monitoring path,
A local node information generation step in which any one of the plurality of nodes holds a predetermined condition and generates information of the local node corresponding to the predetermined condition;
The other node information collecting step of collecting information of another node corresponding to the predetermined condition from another node that enables the predetermined node to communicate on the monitoring path;
When the predetermined node has the information of the own node or the information of the other node, the predetermined node includes at least the own node and can communicate through the monitoring path based on the information of the other node and the information of the own node. A priority generation step for generating the priority of the own group composed of various nodes;
A group in which the predetermined node is reconfigured as a cluster on the basis of the priority of the own group and the priority of another group composed of nodes in which the own node cannot communicate on the monitoring path And a group determination step for determining a cluster reconstruction method.
前記所定のノードは、
前記複数の条件の夫々に対応する自ノードの情報を生成し、
前記自グループの優先度を生成する際、前記複数の条件の夫々に対し優先度を生成し、
前記クラスタとして再構築するグループを決定する際、前記優先順位に応じて、前記他グループの優先度と比較を行うことで再構築グループを決定する
ことを特徴とする請求項1に記載のクラスタ再構築方法。The predetermined condition is a plurality of conditions having a priority order,
The predetermined node is:
Generating information of the own node corresponding to each of the plurality of conditions;
When generating the priority of the own group, a priority is generated for each of the plurality of conditions,
2. The cluster reconstruction according to claim 1, wherein when a group to be reconstructed as the cluster is determined, a reconstructed group is determined by comparing with the priority of the other group according to the priority. Construction method.
前記所定のノードのハードウェア使用率(稼動率)を含む
ことを特徴とする請求項1又は2に記載のクラスタ再構築方法。The predetermined condition is:
The cluster rebuilding method according to claim 1, comprising a hardware usage rate (operation rate) of the predetermined node.
前記所定のノードで稼動するアプリケーションが実行中である特定の処理の数を含む
ことを特徴とする請求項1から3の何れか一項に記載のクラスタ再構築方法。The predetermined condition is:
The cluster rebuilding method according to any one of claims 1 to 3, further comprising: a number of specific processes that are being executed by an application that operates on the predetermined node.
前記アプリケーションによるデータライト処理又はデータリード処理を含む
ことを特徴とする請求項4に記載のクラスタ再構築方法。The specific process is:
The cluster rebuilding method according to claim 4, further comprising data write processing or data read processing by the application.
前記所定のノードで稼動する前記アプリケーションの種別又は前記種別の名称を含む
ことを特徴とする請求項1から5の何れか一項に記載のクラスタ再構築方法。The predetermined condition is:
The cluster rebuilding method according to any one of claims 1 to 5, further comprising: a type of the application running on the predetermined node or a name of the type.
前記所定のノードが、前記自グループが前記クラスタとして再構築するグループであると決定した場合、前記自グループに属するノードをリセットする
ことを特徴とする請求項1から6の何れか一項に記載のクラスタ再構築方法。In the group determination step,
The node according to any one of claims 1 to 6, wherein when the predetermined node determines that the self group is a group to be reconstructed as the cluster, the node belonging to the self group is reset. Cluster rebuild method.
前記所定のノードが、
前記自グループに属するノードをリセットする際に、リセット要求とともに前記自グループの優先度を、前記クラスタを構成するノードに通知し、
前記通知を他ノードから受けた際に、前記通知に含まれるグループ優先度が、前記自グループの優先度より低い場合、前記自ノードのリセットを防止する
ことを特徴とする請求項7に記載のクラスタ再構築方法。In the group determination step,
The predetermined node is
When resetting a node belonging to the own group, the priority of the own group is notified to a node constituting the cluster together with a reset request,
8. When the notification is received from another node and the group priority included in the notification is lower than the priority of the own group, the resetting of the own node is prevented. Cluster rebuild method.
前記複数のノードは、それぞれ、
所定の条件を保持し、前記所定の条件に対応する自ノードの情報を生成する一方、前記監視パスでの通信を可能とする他ノードから、前記所定の条件に対応する他ノードの情報を収集するノード情報収集部と、
前記自ノードの情報又は前記他ノードの情報が存在する場合には、前記他ノードの情報及び前記自ノードの情報に基づいて、少なくとも前記自ノードを含むとともに前記監視パスで通信可能なノードで構成される自グループの優先度を生成し、前記自グループの優先度と、前記自ノードが前記監視パスでの通信を不可能とするノードから構成される他グループの優先度とに基づいて、クラスタとして再構築するグループを決定するグループスコア作成部とを有する
ことを特徴とするクラスタ再構築装置。A cluster configuration reconstruction device for a cluster system including a plurality of nodes connected to each other via a monitoring path,
The plurality of nodes are respectively
While holding a predetermined condition and generating information of the own node corresponding to the predetermined condition, information on the other node corresponding to the predetermined condition is collected from another node enabling communication on the monitoring path. A node information collection unit to
When the information of the own node or the information of the other node exists, based on the information of the other node and the information of the own node, the node includes at least the own node and can communicate with the monitoring path Based on the priority of the own group and the priority of the other group composed of nodes in which the own node cannot communicate on the monitoring path. And a group score creating unit for determining a group to be reconstructed as a cluster reconstruction device.
前記クラスタ再構築装置のプロセッサに、前記複数のノードのうちのいずれか所定のノードが保持する所定の条件に対応した自ノードの情報を生成させる自ノード情報生成ステップと、
前記プロセッサに、前記監視パスでの通信を可能とする他ノードから、前記所定の条件に対応する他ノードの情報を収集させる他ノード情報収集ステップと、
前記プロセッサに、前記自ノードの情報又は前記他ノードの情報が存在する場合、前記他ノードの情報及び前記自ノードの情報に基づいて、少なくとも前記自ノードを含むとともに前記監視パスで通信可能なノードで構成される自グループの優先度を生成させる優先度生成ステップと、
前記プロセッサに、前記自グループの優先度と、前記自ノードが前記監視パスでの通信を不可能とするノードから構成される他グループの優先度とに基づいて、クラスタとして再構築するグループを決定させるグループ決定ステップと
を実行させることを特徴とするクラスタ再構築プログラム。
A cluster reconstruction program of a cluster reconstruction device in a cluster system including a plurality of nodes connected to each other via a monitoring path,
A self-node information generating step of causing the processor of the cluster restructuring device to generate self-node information corresponding to a predetermined condition held by any one of the plurality of nodes;
An other node information collecting step for causing the processor to collect information of another node corresponding to the predetermined condition from another node enabling communication on the monitoring path;
When the processor has the information of the own node or the information of the other node, the node includes at least the own node and can communicate through the monitoring path based on the information of the other node and the information of the own node. A priority generation step for generating the priority of the own group configured by:
The processor determines a group to be reconfigured as a cluster based on the priority of the own group and the priority of another group configured with nodes in which the own node cannot communicate with the monitoring path. A cluster restructuring program characterized by causing a group determination step to be executed.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/003063 WO2011135628A1 (en) | 2010-04-28 | 2010-04-28 | Cluster reconfiguration method, cluster reconfiguration device and cluster reconfiguration program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011135628A1 JPWO2011135628A1 (en) | 2013-07-18 |
JP5387761B2 true JP5387761B2 (en) | 2014-01-15 |
Family
ID=44860978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012512539A Expired - Fee Related JP5387761B2 (en) | 2010-04-28 | 2010-04-28 | Cluster reconstruction method, cluster reconstruction device, and cluster reconstruction program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5387761B2 (en) |
WO (1) | WO2011135628A1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6843650B2 (en) * | 2017-02-27 | 2021-03-17 | 三菱重工業株式会社 | Redundancy system and redundancy method |
JP6984437B2 (en) | 2018-01-24 | 2021-12-22 | 富士通株式会社 | Processing takeover method, cluster construction program and cluster construction device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001195377A (en) * | 2000-01-17 | 2001-07-19 | Nec Software Kyushu Ltd | Isolation judgment system, management method therefor and recording medium |
JP2006260357A (en) * | 2005-03-18 | 2006-09-28 | Hitachi Ltd | Fail-over cluster system and fail-over method |
JP2006285810A (en) * | 2005-04-04 | 2006-10-19 | Hitachi Ltd | Cluster configuration computer system and system reset method therefor |
-
2010
- 2010-04-28 WO PCT/JP2010/003063 patent/WO2011135628A1/en active Application Filing
- 2010-04-28 JP JP2012512539A patent/JP5387761B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001195377A (en) * | 2000-01-17 | 2001-07-19 | Nec Software Kyushu Ltd | Isolation judgment system, management method therefor and recording medium |
JP2006260357A (en) * | 2005-03-18 | 2006-09-28 | Hitachi Ltd | Fail-over cluster system and fail-over method |
JP2006285810A (en) * | 2005-04-04 | 2006-10-19 | Hitachi Ltd | Cluster configuration computer system and system reset method therefor |
Non-Patent Citations (2)
Title |
---|
CSNG200600342007; 馬場 恒彦: 'リセット排他制御を用いたクラスタシステム向け系切り替え方式' 電子情報通信学会技術研究報告 第105巻, 20051209, pp.49-54, 社団法人電子情報通信学会 * |
JPN6013045218; 馬場 恒彦: 'リセット排他制御を用いたクラスタシステム向け系切り替え方式' 電子情報通信学会技術研究報告 第105巻, 20051209, pp.49-54, 社団法人電子情報通信学会 * |
Also Published As
Publication number | Publication date |
---|---|
JPWO2011135628A1 (en) | 2013-07-18 |
WO2011135628A1 (en) | 2011-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106662983B (en) | The methods, devices and systems of data reconstruction in distributed memory system | |
CN106170782B (en) | System and method for creating highly scalable high availability clusters in massively parallel processing clusters of machines in a network | |
CN102402395B (en) | Quorum disk-based non-interrupted operation method for high availability system | |
JP5851503B2 (en) | Providing high availability for applications in highly available virtual machine environments | |
EP2691859B1 (en) | Fault detection and recovery as a service | |
US8032578B2 (en) | Using distributed queues in an overlay network | |
US20030187927A1 (en) | Clustering infrastructure system and method | |
US20050283658A1 (en) | Method, apparatus and program storage device for providing failover for high availability in an N-way shared-nothing cluster system | |
US20120198455A1 (en) | System and method for supporting service level quorum in a data grid cluster | |
JP2007503628A (en) | Fast application notification in clustered computing systems | |
CN107918570B (en) | Method for sharing arbitration logic disk by double-active system | |
TWI701916B (en) | Method and device for self-recovering management ability in distributed system | |
US10819641B2 (en) | Highly available servers | |
Batchu et al. | MPI/FT: a model-based approach to low-overhead fault tolerant message-passing middleware | |
US8068443B2 (en) | Using distributed timers in an overlay network | |
CN104427002A (en) | Cluster system and method for providing service availability in cluster system | |
CN110727508A (en) | Task scheduling system and scheduling method | |
US11533391B2 (en) | State replication, allocation and failover in stream processing | |
Dave et al. | CloudClustering: Toward an iterative data processing pattern on the cloud | |
JP5387761B2 (en) | Cluster reconstruction method, cluster reconstruction device, and cluster reconstruction program | |
CN114844809A (en) | Multi-factor arbitration method and device based on network heartbeat and kernel disk heartbeat | |
JP5326308B2 (en) | Computer link method and system | |
US11372702B2 (en) | Optimized high availability management using cluster-wide view | |
CN104657240B (en) | The Failure Control method and device of more kernel operating systems | |
WO2022218346A1 (en) | Fault processing method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130923 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5387761 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |