CN105227374A

CN105227374A - 一种集群应用的故障迁移方法和系统

Info

Publication number: CN105227374A
Application number: CN201510696532.8A
Authority: CN
Inventors: 高峰
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2016-01-06
Anticipated expiration: 2035-10-23
Also published as: CN105227374B

Abstract

本发明公开了一种集群应用的故障迁移方法和系统，包括：通过cAdvisor对运行在不同的Docker容器内不同应用的进程进行监控，并对运行中的应用的性能进行分析。根据分析结果生成带有特殊标志的性能信息。通过Agent以第一时间周期性地收集其所在的集群应用服务器上的应用的性能信息，并以心跳的形式发送给中央处理中心；当中央处理中心接收到的心跳信息中标志出Docker容器内的应用出现故障时，通过镜像服务器创建可用的应用，并为其分配备份的集群应用服务器，将该可用的应用部署到备份的集群应用服务器上。通过本发明的方案，能够解决传统故障迁移对应用的局限性，减少对物理设备的依赖，提高物理设备的利用率。

Description

一种集群应用的故障迁移方法和系统

技术领域

本发明涉及计算机软件领域，具体涉及一种集群应用的故障迁移方法和系统。

背景技术

随着计算机技术和互联网的快速发展，集群系统以其低廉的成本、强大的运算能力和健壮的容错机制逐渐成为了计算机行业的焦点。集群应用可以运行在上千台普通的服务器上，伴随业务增长动态扩大集群规模，但也要承受普通计算机较高的故障率，这要求系统在发生软硬件故障的时候仍能保证高度的可用性。目前，对于集群的故障迁移，通常采用的是Failover(失效转移)集群的方法，将应用转移到另外一台完全一样的物理设备上。传统的Failover集群方法有很多局限性，比如有些要求应用必须是IP协议，如果有数据共享，则要求数据必须是在共享底盘资源上如iSCSILUN,SerialAttachedSCSI,或FibreChannel,在物理设备上也对CPU，网络，带宽和操作系统有要求。因此，这种方法对应用的故障迁移有一定的局限性。

发明内容

为了解决上述问题，本发明提出了一种集群应用的故障迁移方法和系统，能够解决传统故障迁移对应用的局限性，减少对物理设备的依赖，提高物理设备的利用率。

为了达到上述目的，本发明提出了一种集群应用的故障迁移方法，该方法包括：

通过cAdvisor对运行在不同的Docker容器内的不同应用的进程进行监控，并对运行中的应用的性能进行分析。

根据分析结果生成带有特殊标志的性能信息；其中，带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。

通过各个集群应用服务器上的Agent以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息，并以心跳的形式将该性能信息作为心跳信息发送给中央处理中心；其中，Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上，通过镜像服务器预先部署到集群应用服务器上的。

当中央处理中心接收到的心跳信息中标志出Docker容器内的应用出现故障时，通过镜像服务器创建与出现故障的应用相对应的可用的应用，并通过预设的备份策略为该可用的应用分配备份的集群应用服务器，并将创建的该可用的应用部署到备份的集群应用服务器上。

优选地，该方法还包括：

通过镜像服务器将创建的可用的应用部署到集群应用服务器上以后，更新中央处理中心中预存的位置映射关系表；其中，该位置映射关系表包括不同的应用进程的标志与应用进程所在位置的映射关系。

优选地，该方法还包括：

将部署到各个集群应用服务器上的全部Docker容器的信息均注册到中央处理中心中；并且通过各个集群应用服务器上的Agent以第二时间周期周期性地对Agent所在的应用服务器中的Docker容器进行扫描；当发现Agent所在的应用服务器上出现新的Docker容器时，将该新的Docker容器的信息注册到中央处理中心中，并更新位置映射关系表。

优选地，该方法还包括：

在预设的时间周期内，当中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时，通过中央处理中心在预设的资源池中寻找可用的物理资源，重新在各个集群应用服务器上部署不同的应用，并更新位置映射关系表。

优选地，预设的时间周期为n×第一时间周期，其中，n为正整数。

为了达到上述目的，本发明还提出了一种集群应用的故障迁移系统，该系统包括：监控模块、生成模块、采集模块、部署模块和创建模块。

监控模块，用于对运行在不同的Docker容器内的不同应用的进程进行监控，并对运行中的应用的性能进行分析。

生成模块，用于根据分析结果生成带有特殊标志的性能信息；其中，带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。

采集模块，用于以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息，并以心跳的形式将该性能信息作为心跳信息发送给中央处理中心；其中，Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上，通过部署模块预先部署到集群应用服务器上的。

创建模块，用于当中央处理中心接收到的心跳信息中标志Docker容器内的应用出现故障时，创建与出现故障的应用相对应的可用的应用，并通过预设的备份策略为该可用的应用分配备份的集群应用服务器，并将创建的该可用的应用部署到备份的集群应用服务器上。

优选地，该系统还包括：更新模块。

更新模块，用于将创建的可用的应用部署到集群应用服务器上以后，更新中央处理中心中预存的位置映射关系表；其中，该位置映射关系表包括不同的应用进程的标志与应用进程所在位置的映射关系。

优选地，该系统还包括：注册模块。

注册模块，用于将部署到各个集群应用服务器上的全部Docker容器的信息均注册到中央处理中心中；并且以第二时间周期周期性地对Agent所在的应用服务器中的Docker容器进行扫描；当发现Agent所在的应用服务器上出现新的Docker容器时，将该新的Docker容器的信息注册到中央处理中心中，并更新位置映射关系表。

优选地，

部署模块还用于，在预设的时间周期内，当中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时，通过中央处理中心在预设的资源池中寻找可用的物理资源，重新在各个集群应用服务器上部署不同的应用。

与现有技术相比，本发明包括：通过cAdvisor对运行在不同的Docker容器内的不同应用的进程进行监控，并对运行中的应用的性能进行分析。根据分析结果生成带有特殊标志的性能信息；其中，带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。通过各个集群应用服务器上的Agent以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息，并以心跳的形式将性能信息作为心跳信息发送给中央处理中心；其中，Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上，通过镜像服务器预先部署到集群应用服务器上的。当中央处理中心接收到的心跳信息中标志出Docker容器内的应用出现故障时，通过所述镜像服务器创建与出现故障的应用相对应的可用的应用，并通过预设的备份策略为可用的应用分配备份的集群应用服务器，并将创建的该可用的应用部署到备份的集群应用服务器上。通过本发明的方案，能够能够解决传统故障迁移对应用的局限性，减少对物理设备的依赖，提高物理设备的利用率。

附图说明

下面对本发明实施例中的附图进行说明，实施例中的附图是用于对本发明的进一步理解，与说明书一起用于解释本发明，并不构成对本发明保护范围的限制。

图1为本发明的集群应用的故障迁移方法流程图；

图2为本发明的集群应用的故障迁移方法结构示意图；

图3为本发明的集群应用的故障迁移系统组成框图。

具体实施方式

为了便于本领域技术人员的理解，下面结合附图对本发明作进一步的描述，并不能用来限制本发明的保护范围。

为了达到上述目的，本发明提出了一种集群应用的故障迁移方法，如图1、图2所示，该方法包括：

S101、通过cAdvisor对运行在不同的Docker容器内的不同应用的进程进行监控，并对运行中的应用的性能进行分析。

在本发明实施例中，所有的应用都运行在Docker容器里，Docker是提供商DotCloud开源的一个基于LXC(LXC为LinuxContainer的简写，LinuxContainer容器是一种内核虚拟化技术)高级容器引擎，它为每个应用提供了隔离的运行环境，每个应用以及应用所需的运行环境都被提交为一个Docker镜像，即，提交为镜像文件，用来创建和迁移各个应用，便于在其他服务器上进行快速部署。并且，使用cAdvisor来分析运行中的Docker容器的资源以及性能，cAdvisor是提供商谷歌公司开源的一个Docker容器性能检测工具。

S102、根据分析结果生成带有特殊标志的性能信息；其中，带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。即，根据此信息确定Docker容器内的应用的存活情况。

S103、通过各个集群应用服务器上的Agent以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息，并以心跳的形式将该性能信息作为心跳信息发送给中央处理中心；其中，Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上，通过镜像服务器预先部署到集群应用服务器上的。

在本发明实施例中，Agent是使用Go语言编写的服务器状态监听工具，用于收集本机Docker容器内应用的运行情况，注册应用信息，并向中央处理中心发送包含应用状态的心跳信息。

S104、当中央处理中心接收到的心跳信息中标志出Docker容器内的应用出现故障时，通过镜像服务器创建与出现故障的应用相对应的可用的应用，并通过预设的备份策略为该可用的应用分配备份的集群应用服务器，并将创建的该可用的应用部署到备份的集群应用服务器上。

优选地，该方法还包括：

下面通过具体实施例对本发明做进一步说明：

两个应用a和b，分别部署到集群应用服务器上以后，ip为ip_a和ip_b，客户端访问应用a时，首先请求中央处理中心获取应用a的ip_a，才能对应用a进行访问。假如此时应用a发生故障，该集群应用服务器上的Agent会周期性地，例如每隔s秒，主动采集一次应用a和应用b的信息，通过采集到的信息发现应用a的故障，并以心跳的形式将该信息通知中央处理中心，中央处理中心收到通知后，使用预设的分配策略给应用分配备用服务器，通过镜像迅速创建出可用的应用，并更新应用的位置关系映射表。此时应用a的映射ip更新为ip_c,用户访问的ip也被重定向到ip_c所在的机器。如果在n*m秒的时间内中央处理中心都没有收到任何服务器的心跳信息，则中央处理中心在资源池内寻找合适的物理资源，重新部署整台服务器上的应用，并更新位置关系映射表。

为了达到上述目的，本发明还提出了一种集群应用的故障迁移系统01，如图3所示，该系统包括：监控模块02、生成模块03、采集模块04、部署模块05和创建模块06。

监控模块02，用于对运行在不同的Docker容器内的不同应用的进程进行监控，并对运行中的应用的性能进行分析。

生成模块03，用于根据分析结果生成带有特殊标志的性能信息；其中，带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。

采集模块04，用于以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息，并以心跳的形式将性能信息作为心跳信息发送给中央处理中心；其中，Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上，通过部署模块05预先部署到集群应用服务器上的。

创建模块06，用于当中央处理中心接收到的心跳信息中标志Docker容器内的应用出现故障时，创建与出现故障的应用相对应的可用的应用，并通过预设的备份策略为该可用的应用分配备份的集群应用服务器，并将创建的该可用的应用部署到备份的集群应用服务器上。

优选地，该系统还包括：更新模块06。

更新模块06，用于将创建的可用的应用部署到集群应用服务器上以后，更新中央处理中心中预存的位置映射关系表；其中，该位置映射关系表包括不同的应用进程的标志与应用进程所在位置的映射关系。

优选地，该系统还包括：注册模块07。

注册模块07，用于将部署到各个集群应用服务器上的全部Docker容器的信息均注册到中央处理中心中；并且以第二时间周期周期性地对Agent所在的应用服务器中的Docker容器进行扫描；当发现Agent所在的应用服务器上出现新的Docker容器时，将该新的Docker容器的信息注册到中央处理中心中，并更新位置映射关系表。

优选地，

部署模块05还用于，在预设的时间周期内，当中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时，通过中央处理中心在预设的资源池中寻找可用的物理资源，重新在各个集群应用服务器上部署不同的应用。

与现有技术相比，本发明包括：通过cAdvisor对运行在不同的Docker容器内的不同应用的进程进行监控，并对运行中的应用的性能进行分析。根据分析结果生成带有特殊标志的性能信息；其中，带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。通过各个集群应用服务器上的Agent以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息，并以心跳的形式将性能信息作为心跳信息发送给中央处理中心；其中，Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上，通过镜像服务器预先部署到集群应用服务器上的。当中央处理中心接收到的心跳信息中标志出Docker容器内的应用出现故障时，通过所述镜像服务器创建与出现故障的应用相对应的可用的应用，并通过预设的备份策略为该可用的应用分配备份的集群应用服务器，并将创建的该可用的应用部署到备份的集群应用服务器上。通过本发明的方案，能够能够解决传统故障迁移对应用的局限性，减少对物理设备的依赖，提高物理设备的利用率。

需要说明的是，以上所述的实施例仅是为了便于本领域的技术人员理解而已，并不用于限制本发明的保护范围，在不脱离本发明的发明构思的前提下，本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims

1.一种集群应用的故障迁移方法，其特征在于，所述方法包括：

通过cAdvisor对运行在不同的Docker容器内的不同应用的进程进行监控，并对运行中的所述应用的性能进行分析；

根据分析结果生成带有特殊标志的性能信息；其中，所述带有特殊标志的性能信息中包含所述Docker容器内的应用是否出现故障的信息；

通过各个集群应用服务器上的Agent以第一时间周期周期性地收集所述Agent所在的集群应用服务器上的不同应用的性能信息，并以心跳的形式将所述性能信息作为心跳信息发送给所述中央处理中心；其中，所述Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将所述不同应用以及所述不同应用的运行环境打包为不同的镜像并存储在镜像服务器上，通过所述镜像服务器预先部署到所述集群应用服务器上的；

当所述中央处理中心接收到的所述心跳信息中标志出所述Docker容器内的应用出现故障时，通过所述镜像服务器创建与出现故障的应用相对应的可用的应用，并通过预设的备份策略为所述可用的应用分配备份的集群应用服务器，并将创建的该可用的应用部署到所述备份的集群应用服务器上。

2.如权利要求1所述的集群应用的故障迁移方法，其特征在于，所述方法还包括：

通过镜像服务器将创建的所述可用的应用部署到所述集群应用服务器上以后，更新所述中央处理中心中预存的位置映射关系表；其中，所述位置映射关系表包括不同的应用进程的标志与所述应用进程所在位置的映射关系。

3.如权利要求2所述的集群应用的故障迁移方法，其特征在于，所述方法还包括：

将部署到各个集群应用服务器上的全部Docker容器的信息均注册到所述中央处理中心中；并且通过各个所述集群应用服务器上的Agent以第二时间周期周期性地对所述Agent所在的应用服务器中的Docker容器进行扫描；当发现所述Agent所在的应用服务器上出现新的Docker容器时，将所述新的Docker容器的信息注册到所述中央处理中心中，并更新所述位置映射关系表。

4.如权利要求2所述的集群应用的故障迁移方法，其特征在于，所述方法还包括：

在预设的时间周期内，当所述中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时，通过所述中央处理中心在预设的资源池中寻找可用的物理资源，重新在各个集群应用服务器上部署不同的应用，并更新所述位置映射关系表。

5.如权利要求4所述的集群应用的故障迁移方法，其特征在于，所述预设的时间周期为n×第一时间周期，其中，n为正整数。

6.一种集群应用的故障迁移系统，其特征在于，所述系统包括：监控模块、生成模块、采集模块、部署模块和创建模块；

所述监控模块，用于对运行在不同的Docker容器内的不同应用的进程进行监控，并对运行中的所述应用的性能进行分析；

所述生成模块，用于根据分析结果生成带有特殊标志的性能信息；其中，所述带有特殊标志的性能信息中包含所述Docker容器内的应用是否出现故障的信息；

所述采集模块，用于以第一时间周期周期性地收集所述Agent所在的集群应用服务器上的不同应用的性能信息，并以心跳的形式将所述性能信息作为心跳信息发送给所述中央处理中心；其中，所述Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将所述不同应用以及所述不同应用的运行环境打包为不同的镜像并存储在镜像服务器上，通过所述部署模块预先部署到所述集群应用服务器上的；

所述创建模块，用于当所述中央处理中心接收到的所述心跳信息中标志出所述Docker容器内的应用出现故障时，创建与出现故障的应用相对应的可用的应用，并通过预设的备份策略为所述可用的应用分配备份的集群应用服务器，并将创建的该可用的应用部署到所述备份的集群应用服务器上。

7.如权利要求6所述的集群应用的故障迁移系统，其特征在于，所述系统还包括：更新模块；

所述更新模块，用于将创建的所述可用的应用部署到所述集群应用服务器上以后，更新所述中央处理中心中预存的位置映射关系表；其中，所述位置映射关系表包括不同的应用进程的标志与所述应用进程所在位置的映射关系。

8.如权利要求7所述的集群应用的故障迁移系统，其特征在于，所述系统还包括：注册模块；

所述注册模块，用于将部署到各个集群应用服务器上的全部Docker容器的信息均注册到所述中央处理中心中；并且以第二时间周期周期性地对所述Agent所在的应用服务器中的Docker容器进行扫描；当发现所述Agent所在的应用服务器上出现新的Docker容器时，将所述新的Docker容器的信息注册到所述中央处理中心中，并更新所述位置映射关系表。

9.如权利要求7所述的集群应用的故障迁移系统，其特征在于，

所述部署模块还用于，在预设的时间周期内，当所述中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时，通过所述中央处理中心在预设的资源池中寻找可用的物理资源，重新在各个集群应用服务器上部署不同的应用。

10.如权利要求9所述的集群应用的故障迁移系统，其特征在于，所述预设的时间周期为n×第一时间周期，其中，n为正整数。