CN105227374A - 一种集群应用的故障迁移方法和系统 - Google Patents

一种集群应用的故障迁移方法和系统 Download PDF

Info

Publication number
CN105227374A
CN105227374A CN201510696532.8A CN201510696532A CN105227374A CN 105227374 A CN105227374 A CN 105227374A CN 201510696532 A CN201510696532 A CN 201510696532A CN 105227374 A CN105227374 A CN 105227374A
Authority
CN
China
Prior art keywords
application
cluster
application server
central processing
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510696532.8A
Other languages
English (en)
Other versions
CN105227374B (zh
Inventor
高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510696532.8A priority Critical patent/CN105227374B/zh
Publication of CN105227374A publication Critical patent/CN105227374A/zh
Application granted granted Critical
Publication of CN105227374B publication Critical patent/CN105227374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种集群应用的故障迁移方法和系统,包括:通过cAdvisor对运行在不同的Docker容器内不同应用的进程进行监控,并对运行中的应用的性能进行分析。根据分析结果生成带有特殊标志的性能信息。通过Agent以第一时间周期性地收集其所在的集群应用服务器上的应用的性能信息,并以心跳的形式发送给中央处理中心;当中央处理中心接收到的心跳信息中标志出Docker容器内的应用出现故障时,通过镜像服务器创建可用的应用,并为其分配备份的集群应用服务器,将该可用的应用部署到备份的集群应用服务器上。通过本发明的方案,能够解决传统故障迁移对应用的局限性,减少对物理设备的依赖,提高物理设备的利用率。

Description

一种集群应用的故障迁移方法和系统
技术领域
本发明涉及计算机软件领域,具体涉及一种集群应用的故障迁移方法和系统。
背景技术
随着计算机技术和互联网的快速发展,集群系统以其低廉的成本、强大的运算能力和健壮的容错机制逐渐成为了计算机行业的焦点。集群应用可以运行在上千台普通的服务器上,伴随业务增长动态扩大集群规模,但也要承受普通计算机较高的故障率,这要求系统在发生软硬件故障的时候仍能保证高度的可用性。目前,对于集群的故障迁移,通常采用的是Failover(失效转移)集群的方法,将应用转移到另外一台完全一样的物理设备上。传统的Failover集群方法有很多局限性,比如有些要求应用必须是IP协议,如果有数据共享,则要求数据必须是在共享底盘资源上如iSCSILUN,SerialAttachedSCSI,或FibreChannel,在物理设备上也对CPU,网络,带宽和操作系统有要求。因此,这种方法对应用的故障迁移有一定的局限性。
发明内容
为了解决上述问题,本发明提出了一种集群应用的故障迁移方法和系统,能够解决传统故障迁移对应用的局限性,减少对物理设备的依赖,提高物理设备的利用率。
为了达到上述目的,本发明提出了一种集群应用的故障迁移方法,该方法包括:
通过cAdvisor对运行在不同的Docker容器内的不同应用的进程进行监控,并对运行中的应用的性能进行分析。
根据分析结果生成带有特殊标志的性能信息;其中,带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。
通过各个集群应用服务器上的Agent以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息,并以心跳的形式将该性能信息作为心跳信息发送给中央处理中心;其中,Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上,通过镜像服务器预先部署到集群应用服务器上的。
当中央处理中心接收到的心跳信息中标志出Docker容器内的应用出现故障时,通过镜像服务器创建与出现故障的应用相对应的可用的应用,并通过预设的备份策略为该可用的应用分配备份的集群应用服务器,并将创建的该可用的应用部署到备份的集群应用服务器上。
优选地,该方法还包括:
通过镜像服务器将创建的可用的应用部署到集群应用服务器上以后,更新中央处理中心中预存的位置映射关系表;其中,该位置映射关系表包括不同的应用进程的标志与应用进程所在位置的映射关系。
优选地,该方法还包括:
将部署到各个集群应用服务器上的全部Docker容器的信息均注册到中央处理中心中;并且通过各个集群应用服务器上的Agent以第二时间周期周期性地对Agent所在的应用服务器中的Docker容器进行扫描;当发现Agent所在的应用服务器上出现新的Docker容器时,将该新的Docker容器的信息注册到中央处理中心中,并更新位置映射关系表。
优选地,该方法还包括:
在预设的时间周期内,当中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时,通过中央处理中心在预设的资源池中寻找可用的物理资源,重新在各个集群应用服务器上部署不同的应用,并更新位置映射关系表。
优选地,预设的时间周期为n×第一时间周期,其中,n为正整数。
为了达到上述目的,本发明还提出了一种集群应用的故障迁移系统,该系统包括:监控模块、生成模块、采集模块、部署模块和创建模块。
监控模块,用于对运行在不同的Docker容器内的不同应用的进程进行监控,并对运行中的应用的性能进行分析。
生成模块,用于根据分析结果生成带有特殊标志的性能信息;其中,带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。
采集模块,用于以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息,并以心跳的形式将该性能信息作为心跳信息发送给中央处理中心;其中,Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上,通过部署模块预先部署到集群应用服务器上的。
创建模块,用于当中央处理中心接收到的心跳信息中标志Docker容器内的应用出现故障时,创建与出现故障的应用相对应的可用的应用,并通过预设的备份策略为该可用的应用分配备份的集群应用服务器,并将创建的该可用的应用部署到备份的集群应用服务器上。
优选地,该系统还包括:更新模块。
更新模块,用于将创建的可用的应用部署到集群应用服务器上以后,更新中央处理中心中预存的位置映射关系表;其中,该位置映射关系表包括不同的应用进程的标志与应用进程所在位置的映射关系。
优选地,该系统还包括:注册模块。
注册模块,用于将部署到各个集群应用服务器上的全部Docker容器的信息均注册到中央处理中心中;并且以第二时间周期周期性地对Agent所在的应用服务器中的Docker容器进行扫描;当发现Agent所在的应用服务器上出现新的Docker容器时,将该新的Docker容器的信息注册到中央处理中心中,并更新位置映射关系表。
优选地,
部署模块还用于,在预设的时间周期内,当中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时,通过中央处理中心在预设的资源池中寻找可用的物理资源,重新在各个集群应用服务器上部署不同的应用。
优选地,预设的时间周期为n×第一时间周期,其中,n为正整数。
与现有技术相比,本发明包括:通过cAdvisor对运行在不同的Docker容器内的不同应用的进程进行监控,并对运行中的应用的性能进行分析。根据分析结果生成带有特殊标志的性能信息;其中,带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。通过各个集群应用服务器上的Agent以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息,并以心跳的形式将性能信息作为心跳信息发送给中央处理中心;其中,Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上,通过镜像服务器预先部署到集群应用服务器上的。当中央处理中心接收到的心跳信息中标志出Docker容器内的应用出现故障时,通过所述镜像服务器创建与出现故障的应用相对应的可用的应用,并通过预设的备份策略为可用的应用分配备份的集群应用服务器,并将创建的该可用的应用部署到备份的集群应用服务器上。通过本发明的方案,能够能够解决传统故障迁移对应用的局限性,减少对物理设备的依赖,提高物理设备的利用率。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为本发明的集群应用的故障迁移方法流程图;
图2为本发明的集群应用的故障迁移方法结构示意图;
图3为本发明的集群应用的故障迁移系统组成框图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
为了达到上述目的,本发明提出了一种集群应用的故障迁移方法,如图1、图2所示,该方法包括:
S101、通过cAdvisor对运行在不同的Docker容器内的不同应用的进程进行监控,并对运行中的应用的性能进行分析。
在本发明实施例中,所有的应用都运行在Docker容器里,Docker是提供商DotCloud开源的一个基于LXC(LXC为LinuxContainer的简写,LinuxContainer容器是一种内核虚拟化技术)高级容器引擎,它为每个应用提供了隔离的运行环境,每个应用以及应用所需的运行环境都被提交为一个Docker镜像,即,提交为镜像文件,用来创建和迁移各个应用,便于在其他服务器上进行快速部署。并且,使用cAdvisor来分析运行中的Docker容器的资源以及性能,cAdvisor是提供商谷歌公司开源的一个Docker容器性能检测工具。
S102、根据分析结果生成带有特殊标志的性能信息;其中,带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。即,根据此信息确定Docker容器内的应用的存活情况。
S103、通过各个集群应用服务器上的Agent以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息,并以心跳的形式将该性能信息作为心跳信息发送给中央处理中心;其中,Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上,通过镜像服务器预先部署到集群应用服务器上的。
在本发明实施例中,Agent是使用Go语言编写的服务器状态监听工具,用于收集本机Docker容器内应用的运行情况,注册应用信息,并向中央处理中心发送包含应用状态的心跳信息。
S104、当中央处理中心接收到的心跳信息中标志出Docker容器内的应用出现故障时,通过镜像服务器创建与出现故障的应用相对应的可用的应用,并通过预设的备份策略为该可用的应用分配备份的集群应用服务器,并将创建的该可用的应用部署到备份的集群应用服务器上。
优选地,该方法还包括:
通过镜像服务器将创建的可用的应用部署到集群应用服务器上以后,更新中央处理中心中预存的位置映射关系表;其中,该位置映射关系表包括不同的应用进程的标志与应用进程所在位置的映射关系。
优选地,该方法还包括:
将部署到各个集群应用服务器上的全部Docker容器的信息均注册到中央处理中心中;并且通过各个集群应用服务器上的Agent以第二时间周期周期性地对Agent所在的应用服务器中的Docker容器进行扫描;当发现Agent所在的应用服务器上出现新的Docker容器时,将该新的Docker容器的信息注册到中央处理中心中,并更新位置映射关系表。
优选地,该方法还包括:
在预设的时间周期内,当中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时,通过中央处理中心在预设的资源池中寻找可用的物理资源,重新在各个集群应用服务器上部署不同的应用,并更新位置映射关系表。
优选地,预设的时间周期为n×第一时间周期,其中,n为正整数。
下面通过具体实施例对本发明做进一步说明:
两个应用a和b,分别部署到集群应用服务器上以后,ip为ip_a和ip_b,客户端访问应用a时,首先请求中央处理中心获取应用a的ip_a,才能对应用a进行访问。假如此时应用a发生故障,该集群应用服务器上的Agent会周期性地,例如每隔s秒,主动采集一次应用a和应用b的信息,通过采集到的信息发现应用a的故障,并以心跳的形式将该信息通知中央处理中心,中央处理中心收到通知后,使用预设的分配策略给应用分配备用服务器,通过镜像迅速创建出可用的应用,并更新应用的位置关系映射表。此时应用a的映射ip更新为ip_c,用户访问的ip也被重定向到ip_c所在的机器。如果在n*m秒的时间内中央处理中心都没有收到任何服务器的心跳信息,则中央处理中心在资源池内寻找合适的物理资源,重新部署整台服务器上的应用,并更新位置关系映射表。
为了达到上述目的,本发明还提出了一种集群应用的故障迁移系统01,如图3所示,该系统包括:监控模块02、生成模块03、采集模块04、部署模块05和创建模块06。
监控模块02,用于对运行在不同的Docker容器内的不同应用的进程进行监控,并对运行中的应用的性能进行分析。
生成模块03,用于根据分析结果生成带有特殊标志的性能信息;其中,带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。
采集模块04,用于以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息,并以心跳的形式将性能信息作为心跳信息发送给中央处理中心;其中,Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上,通过部署模块05预先部署到集群应用服务器上的。
创建模块06,用于当中央处理中心接收到的心跳信息中标志Docker容器内的应用出现故障时,创建与出现故障的应用相对应的可用的应用,并通过预设的备份策略为该可用的应用分配备份的集群应用服务器,并将创建的该可用的应用部署到备份的集群应用服务器上。
优选地,该系统还包括:更新模块06。
更新模块06,用于将创建的可用的应用部署到集群应用服务器上以后,更新中央处理中心中预存的位置映射关系表;其中,该位置映射关系表包括不同的应用进程的标志与应用进程所在位置的映射关系。
优选地,该系统还包括:注册模块07。
注册模块07,用于将部署到各个集群应用服务器上的全部Docker容器的信息均注册到中央处理中心中;并且以第二时间周期周期性地对Agent所在的应用服务器中的Docker容器进行扫描;当发现Agent所在的应用服务器上出现新的Docker容器时,将该新的Docker容器的信息注册到中央处理中心中,并更新位置映射关系表。
优选地,
部署模块05还用于,在预设的时间周期内,当中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时,通过中央处理中心在预设的资源池中寻找可用的物理资源,重新在各个集群应用服务器上部署不同的应用。
优选地,预设的时间周期为n×第一时间周期,其中,n为正整数。
与现有技术相比,本发明包括:通过cAdvisor对运行在不同的Docker容器内的不同应用的进程进行监控,并对运行中的应用的性能进行分析。根据分析结果生成带有特殊标志的性能信息;其中,带有特殊标志的性能信息中包含Docker容器内的应用是否出现故障的信息。通过各个集群应用服务器上的Agent以第一时间周期周期性地收集Agent所在的集群应用服务器上的不同应用的性能信息,并以心跳的形式将性能信息作为心跳信息发送给中央处理中心;其中,Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将不同应用以及不同应用的运行环境打包为不同的镜像并存储在镜像服务器上,通过镜像服务器预先部署到集群应用服务器上的。当中央处理中心接收到的心跳信息中标志出Docker容器内的应用出现故障时,通过所述镜像服务器创建与出现故障的应用相对应的可用的应用,并通过预设的备份策略为该可用的应用分配备份的集群应用服务器,并将创建的该可用的应用部署到备份的集群应用服务器上。通过本发明的方案,能够能够解决传统故障迁移对应用的局限性,减少对物理设备的依赖,提高物理设备的利用率。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims (10)

1.一种集群应用的故障迁移方法,其特征在于,所述方法包括:
通过cAdvisor对运行在不同的Docker容器内的不同应用的进程进行监控,并对运行中的所述应用的性能进行分析;
根据分析结果生成带有特殊标志的性能信息;其中,所述带有特殊标志的性能信息中包含所述Docker容器内的应用是否出现故障的信息;
通过各个集群应用服务器上的Agent以第一时间周期周期性地收集所述Agent所在的集群应用服务器上的不同应用的性能信息,并以心跳的形式将所述性能信息作为心跳信息发送给所述中央处理中心;其中,所述Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将所述不同应用以及所述不同应用的运行环境打包为不同的镜像并存储在镜像服务器上,通过所述镜像服务器预先部署到所述集群应用服务器上的;
当所述中央处理中心接收到的所述心跳信息中标志出所述Docker容器内的应用出现故障时,通过所述镜像服务器创建与出现故障的应用相对应的可用的应用,并通过预设的备份策略为所述可用的应用分配备份的集群应用服务器,并将创建的该可用的应用部署到所述备份的集群应用服务器上。
2.如权利要求1所述的集群应用的故障迁移方法,其特征在于,所述方法还包括:
通过镜像服务器将创建的所述可用的应用部署到所述集群应用服务器上以后,更新所述中央处理中心中预存的位置映射关系表;其中,所述位置映射关系表包括不同的应用进程的标志与所述应用进程所在位置的映射关系。
3.如权利要求2所述的集群应用的故障迁移方法,其特征在于,所述方法还包括:
将部署到各个集群应用服务器上的全部Docker容器的信息均注册到所述中央处理中心中;并且通过各个所述集群应用服务器上的Agent以第二时间周期周期性地对所述Agent所在的应用服务器中的Docker容器进行扫描;当发现所述Agent所在的应用服务器上出现新的Docker容器时,将所述新的Docker容器的信息注册到所述中央处理中心中,并更新所述位置映射关系表。
4.如权利要求2所述的集群应用的故障迁移方法,其特征在于,所述方法还包括:
在预设的时间周期内,当所述中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时,通过所述中央处理中心在预设的资源池中寻找可用的物理资源,重新在各个集群应用服务器上部署不同的应用,并更新所述位置映射关系表。
5.如权利要求4所述的集群应用的故障迁移方法,其特征在于,所述预设的时间周期为n×第一时间周期,其中,n为正整数。
6.一种集群应用的故障迁移系统,其特征在于,所述系统包括:监控模块、生成模块、采集模块、部署模块和创建模块;
所述监控模块,用于对运行在不同的Docker容器内的不同应用的进程进行监控,并对运行中的所述应用的性能进行分析;
所述生成模块,用于根据分析结果生成带有特殊标志的性能信息;其中,所述带有特殊标志的性能信息中包含所述Docker容器内的应用是否出现故障的信息;
所述采集模块,用于以第一时间周期周期性地收集所述Agent所在的集群应用服务器上的不同应用的性能信息,并以心跳的形式将所述性能信息作为心跳信息发送给所述中央处理中心;其中,所述Agent所在的集群应用服务器上的不同应用是预先使用Docker容器将所述不同应用以及所述不同应用的运行环境打包为不同的镜像并存储在镜像服务器上,通过所述部署模块预先部署到所述集群应用服务器上的;
所述创建模块,用于当所述中央处理中心接收到的所述心跳信息中标志出所述Docker容器内的应用出现故障时,创建与出现故障的应用相对应的可用的应用,并通过预设的备份策略为所述可用的应用分配备份的集群应用服务器,并将创建的该可用的应用部署到所述备份的集群应用服务器上。
7.如权利要求6所述的集群应用的故障迁移系统,其特征在于,所述系统还包括:更新模块;
所述更新模块,用于将创建的所述可用的应用部署到所述集群应用服务器上以后,更新所述中央处理中心中预存的位置映射关系表;其中,所述位置映射关系表包括不同的应用进程的标志与所述应用进程所在位置的映射关系。
8.如权利要求7所述的集群应用的故障迁移系统,其特征在于,所述系统还包括:注册模块;
所述注册模块,用于将部署到各个集群应用服务器上的全部Docker容器的信息均注册到所述中央处理中心中;并且以第二时间周期周期性地对所述Agent所在的应用服务器中的Docker容器进行扫描;当发现所述Agent所在的应用服务器上出现新的Docker容器时,将所述新的Docker容器的信息注册到所述中央处理中心中,并更新所述位置映射关系表。
9.如权利要求7所述的集群应用的故障迁移系统,其特征在于,
所述部署模块还用于,在预设的时间周期内,当所述中央处理中心没有接收到任何集群应用服务器上的Agent发送的心跳信息时,通过所述中央处理中心在预设的资源池中寻找可用的物理资源,重新在各个集群应用服务器上部署不同的应用。
10.如权利要求9所述的集群应用的故障迁移系统,其特征在于,所述预设的时间周期为n×第一时间周期,其中,n为正整数。
CN201510696532.8A 2015-10-23 2015-10-23 一种集群应用的故障迁移方法和系统 Active CN105227374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510696532.8A CN105227374B (zh) 2015-10-23 2015-10-23 一种集群应用的故障迁移方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510696532.8A CN105227374B (zh) 2015-10-23 2015-10-23 一种集群应用的故障迁移方法和系统

Publications (2)

Publication Number Publication Date
CN105227374A true CN105227374A (zh) 2016-01-06
CN105227374B CN105227374B (zh) 2018-05-29

Family

ID=54996085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510696532.8A Active CN105227374B (zh) 2015-10-23 2015-10-23 一种集群应用的故障迁移方法和系统

Country Status (1)

Country Link
CN (1) CN105227374B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677356A (zh) * 2016-01-11 2016-06-15 上海雷腾软件股份有限公司 一种运维方法及设备
CN105681420A (zh) * 2016-01-18 2016-06-15 浪潮集团有限公司 一种基于Docker实现交换机操作系统备份的方法
CN105893133A (zh) * 2016-03-31 2016-08-24 乐视控股(北京)有限公司 基于容器技术的应用服务无缝迁移方法和系统
CN106302632A (zh) * 2016-07-21 2017-01-04 华为技术有限公司 一种基础镜像的下载方法以及管理节点
CN106330576A (zh) * 2016-11-18 2017-01-11 北京红马传媒文化发展有限公司 容器化微服务自动伸缩及迁移调度的方法、系统和设备
CN106933693A (zh) * 2017-03-15 2017-07-07 郑州云海信息技术有限公司 一种数据库集群节点故障自动修复方法及系统
CN107171888A (zh) * 2017-05-26 2017-09-15 安徽四创电子股份有限公司 一种基于cAdvisor的集群性能监测方法
CN107194017A (zh) * 2017-07-28 2017-09-22 四川思途智旅软件有限公司 一种用于单服务器上多网站数据采集的系统和方法
CN107220263A (zh) * 2016-03-22 2017-09-29 阿里巴巴集团控股有限公司 数据迁移的优化方法、评估方法及处理方法及装置
CN107483260A (zh) * 2017-08-28 2017-12-15 北京三快在线科技有限公司 故障处理方法及装置、电子设备
CN108076155A (zh) * 2017-12-22 2018-05-25 聚好看科技股份有限公司 跨机房业务调度的方法、装置、系统及服务器
CN108156225A (zh) * 2017-12-15 2018-06-12 南瑞集团有限公司 基于容器云平台的微应用监控系统和方法
CN108733533A (zh) * 2017-04-18 2018-11-02 微软技术许可有限责任公司 经计划的主机维护的可选的手动调度
CN109412887A (zh) * 2018-10-08 2019-03-01 郑州云海信息技术有限公司 一种基于OpenStack的容器监控数据的收集系统
US10585745B2 (en) 2017-11-28 2020-03-10 International Business Machines Corporation Prevention of application container failure between replicated containers
CN112099444A (zh) * 2020-08-14 2020-12-18 中铝智能科技发展有限公司 高可靠流程工业先进控制器集群管理方法
CN112685225A (zh) * 2019-10-18 2021-04-20 伊姆西Ip控股有限责任公司 用于传输数据的方法、设备和计算机程序产品
CN112698992A (zh) * 2021-03-23 2021-04-23 腾讯科技(深圳)有限公司 一种云集群的容灾管理方法以及相关装置
CN115408112A (zh) * 2022-11-02 2022-11-29 确信信息股份有限公司 一种内网生产环境的Bug处理方法、系统、介质及设备
CN116382967A (zh) * 2023-06-02 2023-07-04 北京国电通网络技术有限公司 用于服务器设备固件故障的自动处理方法、电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090133031A1 (en) * 2003-10-29 2009-05-21 Masashi Inoue Information system, load control method, load control program and recording medium
CN103368807A (zh) * 2012-04-05 2013-10-23 思科技术公司 用于在网络环境中迁移应用虚拟机的系统和方法
CN103458055A (zh) * 2013-09-22 2013-12-18 广州中国科学院软件应用技术研究所 一种云计算平台
CN103677967A (zh) * 2012-09-03 2014-03-26 阿里巴巴集团控股有限公司 一种数据库的远程数据服务系统及任务调度方法
CN104618164A (zh) * 2015-02-12 2015-05-13 北京航空航天大学 云计算平台应用快速部署的管理方法
CN104965757A (zh) * 2015-01-21 2015-10-07 深圳市腾讯计算机系统有限公司 虚拟机热迁移的方法、虚拟机迁移管理装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090133031A1 (en) * 2003-10-29 2009-05-21 Masashi Inoue Information system, load control method, load control program and recording medium
CN103368807A (zh) * 2012-04-05 2013-10-23 思科技术公司 用于在网络环境中迁移应用虚拟机的系统和方法
CN103677967A (zh) * 2012-09-03 2014-03-26 阿里巴巴集团控股有限公司 一种数据库的远程数据服务系统及任务调度方法
CN103458055A (zh) * 2013-09-22 2013-12-18 广州中国科学院软件应用技术研究所 一种云计算平台
CN104965757A (zh) * 2015-01-21 2015-10-07 深圳市腾讯计算机系统有限公司 虚拟机热迁移的方法、虚拟机迁移管理装置及系统
CN104618164A (zh) * 2015-02-12 2015-05-13 北京航空航天大学 云计算平台应用快速部署的管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王施人: "基于iSCSI存储集群的设计与实现", 《计算机工程与设计》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677356A (zh) * 2016-01-11 2016-06-15 上海雷腾软件股份有限公司 一种运维方法及设备
CN105681420A (zh) * 2016-01-18 2016-06-15 浪潮集团有限公司 一种基于Docker实现交换机操作系统备份的方法
CN107220263A (zh) * 2016-03-22 2017-09-29 阿里巴巴集团控股有限公司 数据迁移的优化方法、评估方法及处理方法及装置
CN105893133A (zh) * 2016-03-31 2016-08-24 乐视控股(北京)有限公司 基于容器技术的应用服务无缝迁移方法和系统
WO2017166513A1 (zh) * 2016-03-31 2017-10-05 乐视控股(北京)有限公司 基于容器技术的应用服务无缝迁移方法和系统
CN106302632A (zh) * 2016-07-21 2017-01-04 华为技术有限公司 一种基础镜像的下载方法以及管理节点
CN106330576A (zh) * 2016-11-18 2017-01-11 北京红马传媒文化发展有限公司 容器化微服务自动伸缩及迁移调度的方法、系统和设备
CN106330576B (zh) * 2016-11-18 2019-10-25 北京红马传媒文化发展有限公司 容器化微服务自动伸缩及迁移调度的方法、系统和设备
CN106933693A (zh) * 2017-03-15 2017-07-07 郑州云海信息技术有限公司 一种数据库集群节点故障自动修复方法及系统
CN108733533A (zh) * 2017-04-18 2018-11-02 微软技术许可有限责任公司 经计划的主机维护的可选的手动调度
CN107171888A (zh) * 2017-05-26 2017-09-15 安徽四创电子股份有限公司 一种基于cAdvisor的集群性能监测方法
CN107194017A (zh) * 2017-07-28 2017-09-22 四川思途智旅软件有限公司 一种用于单服务器上多网站数据采集的系统和方法
CN107483260A (zh) * 2017-08-28 2017-12-15 北京三快在线科技有限公司 故障处理方法及装置、电子设备
US11119846B2 (en) 2017-11-28 2021-09-14 International Business Machines Corporation Prevention of application container failure between replicated containers
US10585745B2 (en) 2017-11-28 2020-03-10 International Business Machines Corporation Prevention of application container failure between replicated containers
CN108156225A (zh) * 2017-12-15 2018-06-12 南瑞集团有限公司 基于容器云平台的微应用监控系统和方法
CN108156225B (zh) * 2017-12-15 2021-02-05 南瑞集团有限公司 基于容器云平台的微应用监控系统和方法
CN108076155A (zh) * 2017-12-22 2018-05-25 聚好看科技股份有限公司 跨机房业务调度的方法、装置、系统及服务器
CN109412887A (zh) * 2018-10-08 2019-03-01 郑州云海信息技术有限公司 一种基于OpenStack的容器监控数据的收集系统
CN112685225A (zh) * 2019-10-18 2021-04-20 伊姆西Ip控股有限责任公司 用于传输数据的方法、设备和计算机程序产品
CN112099444A (zh) * 2020-08-14 2020-12-18 中铝智能科技发展有限公司 高可靠流程工业先进控制器集群管理方法
CN112099444B (zh) * 2020-08-14 2024-03-01 中铝智能科技发展有限公司 高可靠流程工业先进控制器集群管理方法
CN112698992A (zh) * 2021-03-23 2021-04-23 腾讯科技(深圳)有限公司 一种云集群的容灾管理方法以及相关装置
CN115408112A (zh) * 2022-11-02 2022-11-29 确信信息股份有限公司 一种内网生产环境的Bug处理方法、系统、介质及设备
CN116382967A (zh) * 2023-06-02 2023-07-04 北京国电通网络技术有限公司 用于服务器设备固件故障的自动处理方法、电子设备
CN116382967B (zh) * 2023-06-02 2023-09-12 北京国电通网络技术有限公司 用于服务器设备固件故障的自动处理方法、电子设备

Also Published As

Publication number Publication date
CN105227374B (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN105227374A (zh) 一种集群应用的故障迁移方法和系统
Jhawar et al. Fault tolerance and resilience in cloud computing environments
US10983880B2 (en) Role designation in a high availability node
CN106790595B (zh) 一种Docker容器主动负载均衡装置及方法
US9842042B2 (en) Datacenter management computing system
Li et al. Leveraging linux containers to achieve high availability for cloud services
US9998323B2 (en) Datacenter configuration management tool
WO2016121830A1 (ja) 仮想ネットワークファンクション管理装置、システム、ヒーリング方法及びプログラム
US10387279B2 (en) System and method for providing failovers for a cloud-based computing environment
CN106982266A (zh) 一种自动化部署集群的方法和装置
CN107209710A (zh) 节点系统、服务器设备、缩放控制方法和程序
CN113037560A (zh) 业务流量切换方法及装置、存储介质、电子设备
CN105893133A (zh) 基于容器技术的应用服务无缝迁移方法和系统
CN111277432A (zh) 配置信息更新方法、装置、电子设备及存储介质
Amogh et al. A cloud native solution for dynamic auto scaling of MME in LTE
CN105162632A (zh) 一种服务器集群故障自动处理系统
US20160092194A1 (en) Datacenter platform switching tool
CN111324377A (zh) 应用灰度发布方法、系统、设备及存储介质
CN108063787A (zh) 基于分布式一致性状态机实现双活架构的方法
US20200195513A1 (en) Methods, apparatuses and systems for configuring a network environment for a server
Heimovski et al. FT-Aurora: A highly available IaaS cloud manager based on replication
Villamayor et al. Raas: Resilience as a service
US20140280365A1 (en) Method and system for data system management using cloud-based data migration
Bekas et al. Cross-layer management of a containerized NoSQL data store
CN111338647A (zh) 一种大数据集群管理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant