CN104660663A

CN104660663A - 服务器群集的操作方法

Info

Publication number: CN104660663A
Application number: CN201310669915.7A
Authority: CN
Inventors: 陈干越; 刘家宇
Original assignee: Synology Inc
Current assignee: Synology Inc
Priority date: 2013-11-19
Filing date: 2013-12-10
Publication date: 2015-05-27
Anticipated expiration: 2033-12-10
Also published as: US9354995B2; EP2874377A1; US20150143157A1; TW201520781A; EP2874377B1; CN104660663B; TWI501092B

Abstract

本发明公开了一种服务器群集的操作方法。服务器群集包含多个应用服务器。在对上述多个应用服务器中的一个失败节点进行故障转移时，根据失败节点的失败连接索引值、服务器群集的存活节点的总数以及各存活节点的成功连接索引值，将失败节点的网际协议地址的使用权转移至服务器群集的存活节点。

Description

服务器群集的操作方法

技术领域

本发明涉及一种服务器群集(server cluster)的操作方法，特别是涉及一种于服务器群集的多个应用服务器之间进行故障转移(failover)的方法。

背景技术

许多的网路服务会采用客户端/服务器(client/server)的架构来达成。在当代的客户端/服务器的环境里，服务器端会藉由多个应用服务器组成一个服务器群集(server cluster)，而每一个应用服务器可称为上述服务器群集的节点(node)。服务器群集对其所服务的各客户端而言仿佛像是单一个服务器，而在理想的服务器群集中，每个节点(应用服务器)会平均地处理来自客户端的网路服务需求。然而，当应用服务器故障时，为避免服务的中断，即会对故障的服务器进行故障转移(failover)。待服务器修复后，则可进行故障恢复(failback)。

发明内容

在本发明的一实施例中公开一种服务器群集的操作方法。服务器群集包括m个应用服务器。上述方法包括设定m个应用服务器的所有存活节点(surviving node)的数值相异的成功连接索引值；设定m个应用服务器的所有失败节点(failed node)的数值相异的失败连接索引值；以及当m个应用服务器的第s应用服务器为失败节点，而对第s应用服务器进行故障转移(failover)时，根据第s应用服务器的失败连接索引值、m个应用服务器中存活节点的总数以及各存活节点的成功连接索引值，将第s应用服务器的网际协议地址(internet protocol address)的使用权转移至m个应用服务器的第t应用服务器。其中m>1，0＜s≤m，0＜t≤m，且m、s及t皆为正整数。

本发明实施例的服务器群集的操作方法，采用非协调式(non-coordinated)架构来进行故障转移，服务器群集其各节点的地位相等，而不需如协调式(coordinated)架构一样需要主节点负责协调以进行故障转移。各应用服务器可依目前服务器群集的状态进行故障转移或是故障恢复(failback)。当进行故障转移时，会根据目前服务器群集各服务器的状态决定故障转移方式，以避免单一节点负载过高。再者，当进行失败节点的故障恢复时，会进行动态负载平衡，以避免单一节点负载过高。此外，服务器群集中不会有两个以上的节点对同一失败节点(Failed node)进行故障转移，而可确保服务器群集的稳定性。

附图说明

图1为本发明一实施例的服务器群集的示意图。

图2为图1每一应用服务器所记录的成功连接索引表及失败连接索引表的示意图。

图3绘示图1的服务器群集的一种状态。

图4绘示图3的服务器群集所对应的成功连接索引表及失败连接索引表。

图5绘示图1的服务器群集的另一种状态。

图6绘示图5的服务器群集所对应的成功连接索引表及失败连接索引表。

图7绘示第1图的服务器群集的另一种状态。

图8绘示图7的服务器群集所对应的成功连接索引表及失败连接索引表。

图9绘示图1的服务器群集的另一种状态。

图10绘示图9的服务器群集所对应的成功连接索引表及失败连接索引表。

其中，附图标记说明如下：

100 服务器群集

110 网路

120 存活节点表格

122 成功连接索引数据

130 失败节点表格

132 失败连接索引数据

A至F 应用服务器

IP_A至IP_F 网际协议地址

具体实施方式

请参考图1，图1为本发明一实施例的服务器群集(server cluster)100的示意图。服务器群集100包括多个应用服务器A至F。应用服务器A至F之间可通过网路110彼此地连接(link)。服务器群集100采用非协调式的架构来进行应用服务器A至F之间的故障转移(failover)及故障恢复(failback)。应用服务器A至F中的每一个应用服务器可被视为服务器群集100中的一个节点(node)，且应用服务器A至F中的每一个应用服务器会周期性的检查服务器群集100中各应用服务器A至F的状态，并从各应用服务器A至F的状态产生出如图2所示的存活节点表格120以及失败节点表格130。其中，存活节点表格120用以记录应用服务器A至F中的哪些应用服务器是可正常提供服务的应用服务器，而失败节点表格130则是用以记录应用服务器A至F中的哪些应用服务器是无法正常提供服务的应用服务器。在后续的说明中，可正常提供服务的应用服务器称为存活节点(surviving node)，而无法正常提供服务的应用服务器则称为失败节点(failed node)。此外，必须了解地，虽然本实施例以六个应用服务器A至F作说明，但本发明并不以此为限。本发明的操作方法适用于包括两个或更多个应用服务器的服务器群集。

应用服务器A至F使用网际协议地址(internet protocol address)IP_A至IP_F接收来自客户端的网路服务需求，并提供网路服务至客户端。其中，应用服务器A、B、C、D、E和F所使用的网际协议地址分别为IP_A、IP_B、IP_C、IP_D、IP_E及IP_F。在本发明一实施例，每一应用服务器A至F会依照网际协议地址IP_A至IP_F设定应用服务器A至F的顺序。例如，在本实施例中，因IP_A＜IP_B＜IP_C＜IP_D＜IP_E＜IP_F，故应用服务器A至F的顺序被设定为A→B→C→D→E→F。然而，应用服务器A至F的顺序的设定方式并不限于依据用服务器A至F的网际协议地址IP_A至IP_F进行设定，亦可依据应用服务器A至F的其他相关数据进行设定，例如：可依据应用服务器A至F的媒体访问控制地址(MAC Address)来设定应用服务器A至F的顺序。此外，应用服务器A至F的顺序亦可藉由人工的方式事先建立在各应用服务器A至F。由于每一个应用服务器A至F采用相同的规则来设定应用服务器A至F的顺序，故每一应用服务器A至F所设定的顺序会一致。此外，每一应用服务器A至F会依据所设定的顺序产生各自的存活节点表格120以及失败节点表格130，而各应用服务器A至F会周期性地重建存活节点表格120以及失败节点表格130，以使存活节点表格120以及失败节点表格130能适时地反应各应用服务器A至F的状态。由于每一应用服务器A至F所设定的应用服务器的顺序会一致，故每一存活节点各自产生的存活节点表格120以及失败节点表格130皆会相同。至于失败节点，则因其网路连线可能有问题而连带地影响其存活节点表格120及失败节点表格130的准确性，故失败节点所建立的存活节点表格120及失败节点表格130不会被使用，直到失败节点因故障恢复而成为存活节点并重新建立其存活节点表格120及失败节点表格130为止。

以下将就存活节点表格120以及失败节点表格130的功用作说明。以图1及图2为例，因所有的应用服务器A至F皆为可正常提供网路服务的应用服务器，故存活节点表格120会将所有的应用服务器A至F皆记录为存活节点，而失败节点表格130则不会记录任何的失败节点，且存活节点表格120所记录的成功连接索引数据122的顺序为应用服务器A→B→C→D→E→F。更进一步地说，存活节点表格120包括有多笔的成功连接索引数据122，而每一笔成功连接索引数据122对应于一个存活节点，并记录其对应的存活节点的成功连接索引值。以图1和图2的情况为例，因六个应用服务器A至F都为存活节点，故存活节点表格120会记录六笔成功连接索引数据122，而应用服务器A至F所对应的成功连接索引值分别为0至5。其中，因服务器A的网际协议地址IP_A的次序最先，故其成功连接索引值最小；而服务器F的网际协议地址IP_F的次序最后，故其成功连接索引值最大。上述存活节点表格120产生各笔成功连接索引数据122的方式亦适用于具其他数目应用服务器的服务器群集100。举例来说，倘若服务器群集100共有m个应用服务器，则在m个应用服务器都为存活节点的情况下，存活节点表格120会记录m笔成功连接索引数据122，而m个服务器所对应的成功连接索引值分别为0至(m-1)，其中m为大于1的正整数。各笔成功连接索引数据122的成功连接索引值是作为进行故障转移的依据。至于如何依据各笔成功连接索引数据122的成功连接索引值以进行故障转移，将在下面的叙述中有进一步的说明。

请参考图3及图4。图3用以说明对图1的服务器群集100的应用服务器C进行故障转移的过程，而图4绘示了图3的服务器群集100所对应的存活节点表格120及失败节点表格130。在对应用服务器C进行故障转移的过程中，应用服务器C所使用的网际协议地址IP_C的使用权会被转移至应用服务器A，且应用服务器C所对应的成功连接索引数据122会从存活节点表格120中删除，且失败节点表格130中会建立一笔失败连接索引数据132，以记录应用服务器C已转变成失败节点。应用服务器A则会使用网际协议地址IP_A及IP_C继续地提供应用服务器A本身及应用服务器C原先所提供的网路服务。此外，当应用服务器C所对应的成功连接索引数据122自存活节点表格120删除时，应用服务器A及B的成功连接索引值维持不变，而应用服务器D、E及F因其成功连接索引值皆大于应用服务器C的成功连接索引值，故应用服务器D、E及F的成功连接索引值会分别地减1。再者，应该由存活的应用服务器A、B、D、E及F中的哪一个应用服务器进行应用服务器C的故障转移，是依据应用服务器A、B、D、E及F的成功连接索引值来决定，而具有较小的成功连接索引值的应用服务器会较优先地对失败节点进行故障转移。以图3和图4的情况为例，由于应用服务器A具有最小的成功连接索引值，故应用服务器C将由应用服务器A进行故障转移。此外，当应用服务器A对应用服务器C进行故障转移时，其他的应用服务器B、D、E及F就不会对应用服务器C进行故障转移。因此，服务器群集100中不会有两个以上的节点对同一失败节点进行故障转移，故可确保服务器群集100的稳定性以及一致性。

请再参考图1至图2。在本发明一实施例中，每一应用服务器A至F会周期性地进行自我检查，以判断其本身是否还可继续正常地提供网路服务。倘若应用服务器A至F中任一应用服务器经自我检查后，判断其本身已经无法再继续正常地提供网路服务，则会中断与网路110之间的连接。在本发明一实施例中，各应用服务器A至F会通过应用服务器A至F之间的TCP/IP协议(Transmission Control Protocol/Internet Protocol)连线，判断与其他应用服务器之间的连接是否中断。在本发明另一实施例中，各应用服务器A至F则通过周期性地对其他应用服务器发出因特网包探索指令(Packet InternetGroper command,PING command)，以判断与其他应用服务器之间的连接是否中断。其中，被判断其连接已经中断的应用服务器会被视为失败节点；相对地，被判断其连接未中断的应用服务器则会被视为存活节点。藉此，各应用服务器A至F即可产生各自的存活节点表格120以及失败节点表格130。另外，因所有的存活节点产生存活节点表格120及失败节点表格130的方式一致，故各存活节点的存活节点表格120及失败节点表格130的内容会与其他存活节点的存活节点表格120及失败节点表格130完全地一致。

请参考图5及图6。图5绘示图1的服务器群集100的应用服务器C、D及E转变成失败节点时的状态，而图6绘示了图5的服务器群集100所对应的存活节点表格120及失败节点表格130。当存活节点重建其存活节点表格120及失败节点表格130时，各存活节点会依据所有存活节点所对应的顺序建立其存活节点表格120，并依据各失败节点所对应的顺序建立其失败节点表格130。以图5及图6为例，存活节点共有应用服务器A、B及F，而其顺序为A→B→F，故应用服务器A、B及F所对应的成功连接索引值由小到大分别为0、1和2。另失败节点共有应用服务器C、D及E，而其顺序为C→D→E，故应用服务器C、D及E所对应的失败连接索引值由小到大分别为0、1和2。此外，每一个失败节点应该由哪一个成功节点进行故障转移是依据下述方程式来决定：

FAILOVER(F_i)=S_imod||S||

其中，F_i为失败节点表格130中失败连接索引值等于i的节点，S_imod||S||为存活节点表格120中成功连接索引值等于imod||S||的节点，||S||为存活节点表格120所记录的成功连接索引数据122的数目(即存活节点的总数)，而imod||S||则为i除以||S||后的余数。以应用服务器C为例，其失败连接索引值等于0，即i=0。因有三个存活节点，故||S||=3，而应用服务器C所对应的imod||S||=0mod||3||=0，FAILOVER(F₀)=S_0mod||3||=S₀。亦即应用服务器C会由成功连接索引值为0的应用服务器A进行故障转移。若以应用服务器D为例，其失败连接索引值等于1，即i=1，故应用服务器D所对应的imod||S||=1，FAILOVER(F₁)=S_1mod||3||=S₁。亦即应用服务器D会由成功连接索引值为1的应用服务器B进行故障转移。另以应用服务器E为例，其失败连接索引值等于2，即i=2，故应用服务器E所对应的imod||S||=2，FAILOVER(F₂)=S_2mod||3||=S₂。亦即应用服务器E会由成功连接索引值为2的应用服务器F进行故障转移。因此，应用服务器C、D及E的网际协议地址IP_C、IP_D及IP_E的使用权会分别被转移至应用服务器A、B及F。

另以图7及图8做说明。其中，图7用以说明在图5的服务器群集100的应用服务器C、D及E已经转变成失败节点的情况下，应用服务器F转变成新的失败节点的过程。图8绘示了图7的服务器群集100所对应的存活节点表格120及失败节点表格130。当存活节点会重建其存活节点表格120及失败节点表格130时，因应用服务器A及B为存活节点，而其顺序为A→B，故应用服务器A及B所对应的成功连接索引值由小到大分别为0和1。应用服务器C、D、E及F则为失败节点，而其顺序为C→D→E→F，故应用服务器C、D、E及F所对应的失败连接索引值由小到大分别为0、1、2和3。当存活节点表格120及失败节点表格130被重建后，各存活节点即可依据存活节点表格120及失败节点表格130并依循上述的方程式FAILOVER(F_i)=S_imod||S||，来对属于失败节点的应用服务器C、D、E及F，进行故障转移。以应用服务器C为例，其失败连接索引值等于0，即i=0。因有两个存活节点，故||S||=2，而应用服务器C所对应的imod||S||=0mod||2||=0，FAILOVER(F₀)=S_0mod||2||=S₀。亦即应用服务器C会由成功连接索引值为0的应用服务器A进行故障转移。若以应用服务器D为例，其失败连接索引值等于1，即i=1，故应用服务器D所对应的imod||S||=1，FAILOVER(F₁)=S_1mod||2||=S₁。亦即应用服务器D会由成功连接索引值为1的应用服务器B进行故障转移。另以应用服务器E为例，其失败连接索引值等于2，即i=2，故应用服务器E所对应的imod||S||=0，FAILOVER(F₂)=S_2mod||2||=S₀。亦即应用服务器E会由成功连接索引值为0的应用服务器A进行故障转移。以应用服务器F为例，其失败连接索引值等于3，即i=3，故应用服务器F所对应的imod||S||=1，FAILOVER(F₁)=S_3mod||2||=S₁。亦即应用服务器F会由成功连接索引值为1的应用服务器B进行故障转移。因此，应用服务器C及E的网际协议地址IP_C及IP_E的使用权会被转移至应用服务器A，而应用服务器D及F的网际协议地址IP_D及IP_F的使用权会被转移至应用服务器B。

除了以上所述的故障转移以外，本发明的方法还可包括应用服务器的故障恢复(failback)。请参考图9及图10。图9用以说明在图7的服务器群集100的应用服务器E由失败节点转变成存活节点的过程。图10绘示了图9的服务器群集100所对应的存活节点表格120及失败节点表格130。在应用服务器E进行故障恢复的过程中，应用服务器E会恢复与网路110的连接，并自应用服务器A取回网际协议地址IP_E的使用权。此时，存活节点表格120所记录的应用服务器A、B及E的成功连接索引值分别为0、1、2，而失败节点表格130所记录的应用服务器C、D及F的失败连接索引值分别为0、1、2。

当存活节点表格120及失败节点表格130被重建后，各存活节点即可依据存活节点表格120及失败节点表格130并依循上述的方程式FAILOVER(F_i)=S_imod||S||，来对属于失败节点的应用服务器C、D及F，进行故障转移。以应用服务器C为例，其失败连接索引值等于0，即i=0。因有三个存活节点，故||S||=3，而应用服务器C所对应的imod||S||=0mod||3||=0，FAILOVER(F₀)=S_0mod||3||=S₀。亦即应用服务器C会由成功连接索引值为0的应用服务器A进行故障转移。若以应用服务器D为例，其失败连接索引值等于1，即i=1，故应用服务器D所对应的imod||S||=1，FAILOVER(F₁)=S_1mod||3||=S₁。亦即应用服务器D会由成功连接索引值为1的应用服务器B进行故障转移。另以应用服务器F为例，其失败连接索引值等于2，即i=2，故应用服务器F所对应的imod||S||=2，FAILOVER(F₂)=S_2mod||3||=S₂。亦即应用服务器F会由成功连接索引值为2的应用服务器E进行故障转移。因此，应用服务器C、D及E的网际协议地址IP_C、IP_D及IP_E的使用权会分别被转移至应用服务器A、B及F。

综上所述，本发明公开一种服务器群集的操作方法，采用非协调式架构来进行故障转移。各应用服务器可依目前服务器群集的状态进行故障转移或是故障恢复，并可动态地进行负载平衡，以避免单一节点负载过高。此外，由于存活节点表格与失败节点表格采用一致且唯一的排序方式产生，因此服务器群集中不会有两个以上的节点对同一失败节点进行故障转移，而可确保服务器群集的稳定性与一致性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种服务器群集的操作方法，该服务器群集包括m个应用服务器，其特征在于，该操作方法包括：

设定该m个应用服务器的所有存活节点的数值相异的成功连接索引值；

设定该m个应用服务器的所有失败节点的数值相异的失败连接索引值；

以及

当该m个应用服务器的第s个应用服务器为失败节点，而对该第s个应用服务器进行故障转移时，根据该第s个应用服务器的失败连接索引值、该m个应用服务器中存活节点的总数以及各存活节点的成功连接索引值，将该第s个应用服务器的网际协议地址的使用权转移至该m个应用服务器的第t个应用服务器；

其中m>1，0＜s≤m，0＜t≤m，且m、s及t皆为正整数。

2.如权利要求1所述的操作方法，其特征在于，其中根据该第s个应用服务器的失败连接索引值、该m个应用服务器中存活节点的总数以及各存活节点的成功连接索引值，将该第s个应用服务器的网际协议地址的使用权转移至该第t个应用服务器包括：

根据该第s个应用服务器的失败连接索引值除以该总数后所得的余数及各存活节点的成功连接索引值，将该第s个应用服务器的网际协议地址的使用权转移至该第t个应用服务器；

其中该第t个应用服务器的成功连接索引值等于该余数。

3.如权利要求1所述的操作方法，其特征在于，该操作方法另包括：

设定该m个应用服务器的顺序；

其中各存活节点的成功连接索引值以及各失败节点的失败连接索引值依据该顺序设定。

4.如权利要求3所述的操作方法，其特征在于，其中该顺序依据该m个应用服务器的网际协议地址设定。

5.如权利要求3所述的操作方法，其特征在于，其中该顺序依据该m个应用服务器的媒体访问控制地址设定。

6.如权利要求1所述的操作方法，其特征在于，该操作方法另包括：

该m个应用服务器互相发出因特网包探索指令，以分别建立一存活节点表格以及一失败节点表格，其中该存活节点表格用以记录各存活节点的成功连接索引值，该失败节点表格用以记录各失败节点的失败连接索引值。

7.如权利要求1所述的操作方法，其特征在于，该操作方法另包括：

每一应用服务器通过该m个应用服务器之间的TCP/IP协议的连线，判断该每一应用服务器与其他应用服务器之间的连接是否中断，以建立该每一应用服务器的一存活节点表格以及一失败节点表格，其中该存活节点表格用以记录各存活节点的成功连接索引值，该失败节点表格用以记录各失败节点的失败连接索引值。