CN102025776A

CN102025776A - 一种容灾控制方法、装置及系统

Info

Publication number: CN102025776A
Application number: CN2010105468999A
Authority: CN
Inventors: 李树贤; 刘欢迎; 刘祖洋; 赵欣
Original assignee: CVIC Software Engineering Co Ltd
Current assignee: CVIC Software Engineering Co Ltd
Priority date: 2010-11-16
Filing date: 2010-11-16
Publication date: 2011-04-20

Abstract

本申请公开了一种容灾控制方法、包括：将JEE应用服务器的集群节点定义为统一整体；接收用户端发送的容灾指令并获取所述指令中的部署策略；依据所述部署策略启动虚拟机对所述JEE应用服务器的集群节点进行容灾。本发明提供的容灾控制方法，将JEE应用服务器的集群节点定义为统一整体，以保证云计算平台能够识别虚拟机隶属于哪个集群；同时依据用户指令中的部署策略启动虚拟机，保证了JEE应用服务器的集群节点可以分布在不同的物理主机上；充分的实现了JEE应用服务器与云计算平台的结合，使得基于云计算环境下的JEE应用服务器具有非集群的容灾处理机制。

Description

一种容灾控制方法、装置及系统

技术领域

本申请涉及通信领域，特别是涉及一种云计算平台下提高JEE应用服务器的容灾控制方法、装置及系统。

背景技术

云计算是分布式处理、并行处理和网格计算的发展，或者说是这些计算机科学概念的商业实现。

传统的JEE应用服务器在虚拟环境下，并没有给出区别于非云计算环境下的容灾处理机制，包括集群的容灾与单节点的容灾，所谓集群的容灾是特指在虚拟环境下，集群节点尽量分布在最大可能的物理服务器上，也就是所谓的“鸡蛋不要放在一个篮子里”。

目前在云计算平台的虚拟技术下，在设定了JEE应用服务器的集群组成后，虚拟机启动集群节点策略时，不能保证所有集群分散到不同物理主机上，而且虚拟机，不能确定哪些集群节点是作为整体集群对外提供服务能力。

发明人通过研究发现，现有技术中，虚拟技术与JEE应用服务器技术进行结合后，JEE应用服务器的容灾机制中，集群节点不能有效的分散到不同的物理主机上。

发明内容

为解决上述技术问题，本申请实施例提供一种容灾控制方法、装置及系统，有效的将JEE应用服务器集群中节点运行在多台不同物理主机上，解决了在虚拟环境下，如何利用虚拟化技术有效提高JEE应用服务器容灾能力的问题。

技术方案如下：

一种容灾控制方法、包括：

将JEE应用服务器的集群节点定义为统一整体；

接收用户端发送的容灾指令并获取所述指令中的部署策略；

依据所述部署策略启动虚拟机对所述JEE应用服务器的集群节点进行容灾。

上述的方法，优选的，在所述虚拟机对JEE应用服务器集群节点进行容灾的过程中，还包括对虚拟机与JEE应用服务器运行状态的检测过程；包括：

步骤S201：检测虚拟机的运行状态；

步骤S202：判断所述虚拟机的CPU利用率是否超过预设CPU利用率临界值；如果是，对所述虚拟机的运行状态进行修复；否则执行步骤S203；

步骤S203：检测JEE应用服务器的运行状态；

步骤S204：判断所述JEE应用服务器的内存占用率是否超过预设内存占用率临界值；如果是，对所述JEE应用服务器的运行状态进行修复；否则，执行步骤S205；

步骤S205：检测业务应用状态；

步骤S206：判断所述业务应用对用户请求的响应时间是否超过预设响应时间，如果是，对所述业务应用状态进行修复，否则，返回步骤S201。

上述的方法，优选的，对所述虚拟机运行状态应用第一修复策略或第二修复策略进行修复；

所述第一修复策略为重新启动虚拟机；

所述第二修复策略为检测虚拟机当前运行的进程，对其中运行异常的进程进行消除。

上述的方法，优选的，对所述JEE应用服务器的运行状态应用第三修复策略或第四修复策略进行修复；

所述第三修复策略为重新启动JEE应用服务器；

所述第四修复策略为检测JEE应用服务器的连接数，连接数超过负载能力的，启动过载保护。

上述的方法，优选的，对所述业务应用状态应用第五修复策略进行修复；

所述第五修复策略为重新启动业务应用。

一种容灾控制装置，包括：

定义单元、接收单元和容灾单元；

所述定义单元用于将JEE应用服务器的集群节点定义为统一整体；

所述接收单元用于接收用户端发送的容灾指令并获取所述指令中的部署策略；

所述容灾单元用于依据所述接收单元获取的部署策略启动虚拟机对所述定义单元定义的JEE应用服务器的集群节点进行容灾。

上述的装置，优选的，所述容灾单元包括检测单元、策略预设单元和修复单元；

所述检测单元用于检测所述虚拟机和所述JEE应用服务器的运行状态及所述业务应用的状态是否满足预设要求；

所述策略预设单元用于预设修复策略；

所述修复单元用于依据所述策略预设单元预设的修复策略对所述检测单元检测的不满足预设要求的状态进行修复。

一种容灾控制系统，包括：客户端、服务端及一种容灾控制装置。

由以上本申请实施例提供的技术方案可见，本发明提供的一种容灾控制方法、装置及系统，将JEE应用服务器的集群节点定义为统一整体，以保证云计算平台能够识别虚拟机隶属于哪个集群；同时依据用户指令中的部署策略启动虚拟机，保证了JEE应用服务器的集群节点可以分布在不同的物理主机上；充分的实现了JEE应用服务器与云计算平台的结合，使得基于云计算环境下的JEE应用服务器具有非集群的容灾处理机制。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种容灾控制方法的流程图；

图2为本申请实施例提供的对虚拟机与JEE应用服务器运行状态进行检测的方法流程图；

图3为本申请实施例提供的检测过程的一详细流程图；

图4为本申请实施例提供的一种容灾控制装置的结构示意图；

图5为本申请实施例提供的一种容灾控制装置的一详细结构示意图；

图6为本申请实施例提供的一种容灾控制系统的结构示意图。

具体实施方式

本申请实施例提供一种容灾控制方法、装置及系统，在现有技术中JEE应用服务器本身不提供非集群容灾处理能力的背景下，将JEE应用服务器与云计算平台进行结合，将JEE应用服务器与云计算平台的容灾处理因素进行整合，通过定义集群节点与预设部署策略等手段，实现提高JEE应用服务器的容灾处理能力，将JEE应用服务器的集群节点尽可能的分布在不同的物理主机中。

以上是本申请的核心思想，为了使本技术领域的人员更好地理解本申请方案。下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请实施例提供的容灾控制方法的流程图如图1所示，包括：

步骤S101：将JEE应用服务器的集群节点定义为统一整体；

定义JEE应用服务器的集群节点为一个整体，保证云计算平台能够识别虚拟机隶属于的集群，定义的过程中定义了云应用的概念，即组成业务系统的所有节点，比如：数据库、负载均衡器、集群计算节点等，以云应用的方法告诉云计算平台，一个集群包含哪些节点，这些节点的角色是什么。

步骤S102：接收用户端发送的容灾指令并获取所述指令中的部署策略；

在集群部署时，使用专门针对集群的部署策略，也就是启动集群计算节点时，通过制定部署启动虚拟机到具体物理主机上，保证节点分布在不同的物理主机上；该部署策略为用户自己定义的部署策略，包括物理主机上提供的资源是否可以满足节点的需要，当前在物理主机上启动的集群节点的数据，节点的作用，启动时的启动顺序等。

步骤S103：依据所述部署策略启动虚拟机对所述JEE应用服务器的集群节点进行容灾。

容灾过程中，当某台物理主机出现问题时，确保对集群提供服务的能力的影响减小到最小。

本申请实施例提供的对虚拟机与JEE应用服务器运行状态进行检测的方法流程图如图2所示，包括：

步骤S201：检测虚拟机的运行状态；

步骤S203：检测JEE应用服务器的运行状态；

步骤S205：检测业务应用状态；

本申请实施例中对虚拟机与JEE应用服务器运行状态的检测过程，是定时检测的，每次检测结束后，隔一段时间会检测第二次，时间的长短，用户可以自己设定，由云计算平台发起检测。

本申请实施例提供的检测过程的一详细流程图为图3所示，对虚拟机运行状态对所述虚拟机运行状态应用第一修复策略或第二修复策略进行修复；

所述第一修复策略为重新启动虚拟机；

对所述JEE应用服务器的运行状态应用第三修复策略或第四修复策略进行修复；

所述第三修复策略为重新启动JEE应用服务器；

对所述业务应用状态应用第五修复策略进行修复；

所述第五修复策略为重新启动业务应用。

本申请实施例中，检测虚拟机的运行状态，主要从计算机资源的使用状态检测；如果不正常，则根据设定的第一修复策略或第二修复策略进行修复；

第一修复策略或第二修复策略的选定由用户预先进行修复设定。

检测JEE应用服务器的运行状态，主要从JEE应用服务器对资源的占用是否超出其合理范围，检测应用服务器对用户的请求响应是否在合理的范围内；如果不符合用户预设的参数值，则根据用户设定的策略第三修复策略或第四修复策略进行修复；

第三修复策略或第四修复策略的选定由用户预先进行修复设定。

其中第三修复策略为默认修复策略，如果用户不进行设定，则运行过程中如果出现异常，则直接使用第三修复策略进行修复。

检测业务应用的状态，主要从业务应用对用户请求的响应时间进行检测，如果不满足用户预设值，则启用第五修复策略进行修复。

在JEE应用服务器与虚拟技术相结合的过程中，JEE应用服务器要求能力检测自身的健康状况，当健康状态不佳时，要有自修复能力，以保证对外服务的高可用性，本申请实施例提供的检测方法中，对以上要求做到了很好的实现。

同时，现有技术中虚拟技术有自己的高可用处理机制，当某台物理主机出现毁灭性灾难时，能够将运行在本主机的虚拟机自动迁移到其它物理主机上，但是不能保证在物理主机或者虚拟机状态不佳时，也能做出自修复能力，没有针对JEE应用服务器提供容灾的策略处理，本申请实施例提供的检测方法中，用户可以根据预设的修复策略对检测过程进行设定，很好的避免了以上问题。

针对以上的方法实施例，本申请实施例还提供了与其相对应的一种容灾控制装置，如图4所示，包括：

定义单元301、接收单元302和容灾单元303；

所述定义单元301用于将JEE应用服务器的集群节点定义为统一整体；

所述接收单元302用于接收用户端发送的容灾指令并获取所述指令中的部署策略；

所述容灾单元303用于依据所述接收单元302获取的部署策略启动虚拟机对所述定义单元301定义的JEE应用服务器的集群节点进行容灾。

本申请实施例提供的一种容灾控制装置的一详细结构示意图如图5所示，容灾单元303包括检测单元304、策略预设单元305和修复单元306；

所述检测单元304用于检测所述虚拟机和所述JEE应用服务器的运行状态及所述业务应用的状态是否满足预设要求；

所述策略预设单元305用于预设修复策略；

所述修复单元306用于依据所述策略预设单元305预设的修复策略对所述检测单元304检测的不满足预设要求的状态进行修复。

综合本申请实施例提供的容灾控制方法及装置，从物理主机的层面，如果物理主机突发宕机，运行在上面的业务系统能够自动迁移到状态良好的物理主机上；

从虚拟机层面，如果虚拟机状态不正常，出现资源使用过程中的异常情况，则根据预先设定的策略，系统自动从虚拟机层面进行修复；

从JEE应用服务器和业务应用层面，如果JEE应用服务器状态异常，比如严重消耗内存，业务系统对用户响应缓慢，或者对用户请求没有响应，会执行修复策略对其修复。

本申请实施例提供的容灾控制方法和装置，解决了JEE应用服务器本身不提供非集群容灾处理能力的问题，将其与云计算平台进行结合，利用云计算平台提供的对VM的检测和控制能力，并对此概念进行延伸，将JEE应用服务器与云计算平台在容灾处理方面的相关因素进行创新性的整合，使得基于云计算环境下的JEE应用服务器也具有非集群的容灾处理机制。

另外本申请实施例还提供了一种容灾控制系统，如图6所示，包括客户端401、一种容灾控制装置402和应用端403；

其中：

客户端401为用户提供可操作平台；

容灾控制装置402对容灾控制的具体过程进行控制；

应用端403用于对容灾控制的具体过程进行实施。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种容灾控制方法、其特征在于，包括：

将JEE应用服务器的集群节点定义为统一整体；

接收用户端发送的容灾指令并获取所述指令中的部署策略；

2.根据权利要求1所述的方法，其特征在于，在所述虚拟机对JEE应用服务器集群节点进行容灾的过程中，还包括对虚拟机与JEE应用服务器运行状态的检测过程；包括：

步骤S201：检测虚拟机的运行状态；

步骤S203：检测JEE应用服务器的运行状态；

步骤S205：检测业务应用状态；

3.根据权利要求2所述的方法，其特征在于，对所述虚拟机运行状态应用第一修复策略或第二修复策略进行修复；

所述第一修复策略为重新启动虚拟机；

4.根据权利要求2所述的方法，其特征在于，对所述JEE应用服务器的运行状态应用第三修复策略或第四修复策略进行修复；

所述第三修复策略为重新启动JEE应用服务器；

5.根据权利要求2所述的方法，其特征在于，对所述业务应用状态应用第五修复策略进行修复；

所述第五修复策略为重新启动业务应用。

6.一种容灾控制装置，其特征在于，包括：

定义单元、接收单元和容灾单元；

7.根据权利要求6所述的装置，其特征在于，所述容灾单元包括检测单元、策略预设单元和修复单元；

所述策略预设单元用于预设修复策略；

8.一种容灾控制系统，其特征在于，包括：客户端、服务端及权利要求6～7所述的一种容灾控制装置。