CN105471995B

CN105471995B - 基于SOA的大规模Web服务机群高可用实现方法

Info

Publication number: CN105471995B
Application number: CN201510874522.9A
Authority: CN
Inventors: 王东岳; 程娟; 许宁; 薛梅; 杨化伟; 苗乃树; 张清博; 赵立虹; 孟庆山; 张泉
Original assignee: Shandong Academy of Agricultural Machinery Sciences
Current assignee: Shandong Academy of Agricultural Machinery Sciences
Priority date: 2015-12-14
Filing date: 2015-12-14
Publication date: 2016-08-31
Anticipated expiration: 2035-12-14
Also published as: CN105471995A

Abstract

本发明公开了一种基于SOA的大规模Web服务机群高可用实现方法，在于一个机房中分布有大量web业务服务器，服务器运行了相同或者不同的web服务；为每个web服务设定需要的硬件和软件资源，包括服务器列表、服务进程、硬盘和IP地址池；为各个web服务设置监控资源和监控策略；在监控资源发现异常时，对web服务进行失效转移；设置web集群主管理节点选举策略，在集群启动时选举主管理节点，并在主管理节点失效时重新选举，避免使用专门的服务器作为备份服务器，并且由于可以为失效切换组设置多个可启动服务器，从而使业务具有更高的可靠性，确保了用户业务高可用的基础上，降低用户投资、管理的复杂度和维护的费用。

Description

基于SOA的大规模Web服务机群高可用实现方法

技术领域

本发明涉及一种SOA架构系统，具体地说，涉及一种基于SOA的大规模Web服务机群高可用实现方法，属于计算机技术领域。

背景技术

随着信息化建设的不断推进，各个企事业单位的活动越来越多的依赖于其关键的业务信息系统，这些业务信息系统对整个机构的运营和发展起着至关重要的作用，一旦发生宕机故障或者应用停机，将给机构带来巨大的经济损失。如此可见，对于那些需要保障信息安全和提供不间断的信息服务的机构来说，业务系统的容错性和不间断性显得尤为重要。如何保障各种关键应用持续运营，达到有序经营的良性循环，已成为当今企事业单位和IT领域急需解决的关键问题。

目前常用的保护方式是通过1+1热备来实现业务的高可用。1+1热备构建需要备份服务器与主应用服务器一比一的构建，备份服务器在主应用服务器正常时处于启动但未激活的相对应业务所需要的资源。主应用服务器在发生故障时，备份服务器接管业务所有需要的资源，继续提供业务。1+1应用需要用户配置一比一的备份服务器，这对于用户投资和后期管理、能耗等方面都是一个比较大的挑战。

发明内容

本发明要解决的问题是针对以上不足，提出一种基于SOA的大规模Web服务机群高可用实现方法，该方法能够在确保用户业务高可用的基础上，降低用户投资、管理的复杂度和维护的费用。

为解决以上技术问题，本发明采取的技术方案如下：基于SOA的大规模Web服务机群高可用实现方法，其特征在于，该方法包括：

在于一个机房中分布有大量web业务服务器，服务器运行了相同或者不同的web服务；为每个web服务设定需要的硬件和软件资源，包括服务器列表、服务进程、硬盘和IP地址池；为各个web服务设置监控资源和监控策略；在监控资源发现异常时，对web服务进行失效转移；设置web集群主管理节点选举策略，在集群启动时选举主管理节点，并在主管理节点失效时重新选举。

进一步地，所述方法包括：

1）设置高可用web服务集群包含的服务器及其集群相关信息，包括设置

集群管理IP地址和端口号；设置集群中节点的优先级顺序，作为选举主节点算法的依据；

2）创建失效切换组及其服务业务需要的资源和监控资源，包括业务运行需要的相关策略，设置业务组的运行冲突组；

3）启动服务集群，选取服务集群主节点，选取主节点根据相关配置启动高可用集群中的所有服务业务；

4）如果在业务运行中出现节点宕机，主节点检测到到服务节点宕机，判断服务集群是否是整个组崩溃状态；如果集群不是整个组崩溃状态，依次为运行在此节点上的所有组查找可运行下一节点；

5）在业务运行中出现业务所需资源异常致使服务业务中断，节点监控资

源发现异常，上报主节点，主节点停止原节点对应组运行的各个资源，并计算可运行的另一节点。

进一步地，启动服务集群还包括以下处理步骤：

1）服务集群各节点应当广播该节点优先级和节点配置文件信息，各节点处理并存储其它节点优先级和配置文件信息；

2）各节点比较其他节点配置文件信息，判断本节点的优先级是否为最高优先级，如果本节点的优先级为最优，则判断本节点为集群主节点，否则主节点非集群主节点；

3）通过上诉选举算法选出的集群主节点，首先主节点将本机是主节点的信息广播给所有其他节点，其他节点回应认同该节点是主节点的信息。如果存在多个主节点的冲突，则这几个主节点相互发送带有时间戳的信息，然后这几个节点根据时间戳的先手顺序，哪个时间戳最新，则这个节点为主节点，并将该信息广播给其他所有节点；

4）主节点发出获取到的服务集群所有服务业务组的状态，各个节点回复运行组的状态；主节点根据配置信息确定未启动的web服务，并计算对应组的可运行的下一节点，并将未启动的web服务在该节点上运行。

进一步地，计算对应组的可运行的下一节点包括：

主节点根据配置的顺序，依次查找节点上正在运行的服务组是否和将要运行的服务组有冲突；如果无冲突，则在该节点上运行该服务组；如果有冲突，则依次询问下一个节点。如果所有节点都询问完，则将该信息在管理界面上展示。

本发明采用以上技术方案，与现有技术相比，具有以下优点：在多节点集群中选举主节点，并在主节点宕机之后重新选举，并确保集群的状态始终处于一致状态；选举算法的依据为集群节点的的优先级；优先级为设定的优先级，如果优先级有相同的，则相同节点有争用主节点的算法；争用主节点的算法为优先级相同的节点互相发送带有时间戳的争用信息，谁的时间戳最早，谁就为主节点；配置文件在生成时，计算一个32位的唯一码，作为集群的唯一标识，唯一标识始终不变。

在确定主节点后，为主节点添加集群IP，从而使集群管理客户端可以通过集群IP与整个集群建立联系。集群中的所有节点的控制权在主节点上，由主节点接受节点和组的失效，并决定失效切换组运行的服务器；

通过为失效切换组配置多个运行服务器，并设置失效切换组的互斥组，从而可以使失效切换组具有多个可启动服务器，从而避免使用专门的服务器作为备份服务器，并且由于可以为失效切换组设置多个可启动服务器，从而使业务具有更高的可靠性，确保了用户业务高可用的基础上，降低用户投资、管理的复杂度和维护的费用。

下面结合附图和实施例对本发明作进一步说明。

附图说明

附图1为本发明实施例中高可用Web服务集群的结构示意图；

附图2为本发明实施例中实现方法的流程图。

具体实施方式

实施例1，如图1、图2所示，基于SOA的大规模Web服务机群高可用实现方法，实现该方法的装置包括：管理控制台、交换机和多个机群节点，管理控制台和机群节点通过交换机联系在一起，管理控制台通过TCP/IP协议与机群节点进行通讯，管理控制台可以运行在任意一个机群节点，也可以使用一个单一服务器作为管理控制台。

1）设置高可用web服务集群包含的服务器及其集群相关信息，包括设置集群管理IP地址和端口号；设置集群中节点的优先级顺序，作为选举主节点算法的依据；

5）在业务运行中出现业务所需资源异常致使服务业务中断，节点监控资源发现异常，上报主节点，主节点停止原节点对应组运行的各个资源，并计算可运行的另一节点。

启动服务集群还包括以下处理步骤：

计算对应组的可运行的下一节点包括：

实施例2，如图1、图2所示，基于SOA的大规模Web服务机群高可用实现方法，实现该方法的装置包括：管理控制台、交换机和多个机群节点。管理控制台和机群节点通过交换机联系在一起。管理控制台通过TCP/IP协议与机群节点进行通讯。管理控制台可以运行在任意一个机群节点，也可以使用一个单一服务器作为管理控制台。

通过管理控制台进行高可用集群设置，管理控制台与高可用集群中的优先级最高的节点的IP地址进行通讯，并把配置文件传输到优先级最高的节点；

接收到配置文件的节点重新组装配置文件，将所有运行节点名称包含在消息的第一个域，然后通过广播协议广播到集群中；

各节点在接收到消息后，解析第一个域，如果包含自身则将配置文件保存，否则抛弃；

在完成配置以后，管理控制台通过向高可用集群中的优先级最高的节点发出启动集群的命令；

在接收到命令后，节点发出启动集群的命令，各个节点根据策略广播自己的优先级和配置文件号；

在完成广播后，各节点接收到其它节点的优先级和配置文件版本号，通过对比配置文件的版本号决定是否继续进行主节点判断；

如果本节点的配置文件版本较新，则判断节点优先级是否为最新，如果节点的优先级为现有节点中的最高节点，则判断自己是主节点；

判断为主节点的节点根据配置文件设置集群管理IP地址，并设置广播自己为主节点，所有其它节点在接收到广播主节点消息后设置主节点标识；

主节点获取所有运行组的状态，获取未启动组列表，根据未启动组列表启动所有组；

具体启动一个组的实施步骤如下：

A）主节点根据设定的业务组运行的节点顺序，依次判断节点上运行组是否与该业务组相冲突；

如果相冲突，则递归计算下一节点运行组是否与该业务组相冲突，直至找到不包含运行冲突组的服务器或者未找到运行服务器；

B）主节点找到运行服务器，给运行服务器发送启动组的指令；运行服务器在接收到启动组的指令后，根据组设置的资源，启动相关资源和监控资源；

C）主节点未找到运行服务器，设置组的状态为停止状态；

在所有失效切换组都已经启动后，失效切换组中的各个监控资源对资源进行监控。在发现资源失效后，根据设定的策略再次启动资源，如果资源能够启动成功，不发出异常。如果资源启动失败，向主节点发出组资源异常的消息。主节点在接收到组资源异常后，向原启动节点发出停止组命令，原节点停止组上的所有其它资源。主节点计算失效切换组的下一个可运行节点，判断此节点上运行的组是否与失效切换组相冲突，如果不相冲突，则向此节点发出启动组的命令。

在集群运行的过程中，如果节点宕机，所有节点感知到节点宕机，并判断是否是主节点宕机，如果是主节点宕机，则各个节点再次广播节点信息，包括节点优先级和版本号，再次选举主节点。如果宕机节点不是主节点，主节点将运行在节点上的所有组运行到其它节点上。

本领域技术人员应该认识到，上述的具体实施方式只是示例性的，是为了使本领域技术人员能够更好的理解本发明内容，不应理解为是对本发明保护范围的限制，只要是根据本发明技术方案所作的改进，均落入本发明的保护范围。

Claims

1.基于SOA的大规模Web服务机群高可用实现方法，其特征在于，该方法包括：

在一个机房中设置若干web业务服务器；

每个web服务设定需要的硬件和软件资源，包括服务器列表、服务进程、硬盘和IP地址池；

各个web服务设置监控资源和监控策略；

在监控资源发现异常时，对web服务进行失效转移；设置web集群主管理节点选举策略，在集群启动时选举主管理节点，并在主管理节点失效时重新选举；

所述方法包括：

1）设置高可用web服务集群包含的服务器及其集群相关信息，包括设置集群管理IP地址和端口号；

设置集群中节点的优先级顺序，作为选举主节点算法的依据；

4）如果在业务运行中出现节点宕机，主节点检测到到服务节点宕机，判断服务集群是否是整个组崩溃状态；

如果集群不是整个组崩溃状态，依次为运行在此节点上的所有组查找可运行下一节点；

5）在业务运行中出现业务所需资源异常致使服务业务中断，节点监控资源发现异常，上报主节点，主节点停止原节点对应组运行的各个资源，并计算可运行的另一节点；

启动服务集群还包括以下处理步骤：

3）通过上诉选举算法选出的集群主节点，首先主节点将本机是主节点的信息广播给所有其他节点，其他节点回应认同该节点是主节点的信息；

如果存在多个主节点的冲突，则这几个主节点相互发送带有时间戳的信息，然后这几个节点根据时间戳的先手顺序，哪个时间戳最新，则这个节点为主节点，并将该信息广播给其他所有节点；