CN104484243A - 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法 - Google Patents

一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法 Download PDF

Info

Publication number
CN104484243A
CN104484243A CN201410783236.7A CN201410783236A CN104484243A CN 104484243 A CN104484243 A CN 104484243A CN 201410783236 A CN201410783236 A CN 201410783236A CN 104484243 A CN104484243 A CN 104484243A
Authority
CN
China
Prior art keywords
virtual machine
host
technique
business
tolerant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410783236.7A
Other languages
English (en)
Other versions
CN104484243B (zh
Inventor
王幸福
莫庆良
袁泉
董春青
沈星宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGDONG NEWSTART TECHNOLOGY SERVICE Ltd
Original Assignee
GUANGDONG NEWSTART TECHNOLOGY SERVICE Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGDONG NEWSTART TECHNOLOGY SERVICE Ltd filed Critical GUANGDONG NEWSTART TECHNOLOGY SERVICE Ltd
Priority to CN201410783236.7A priority Critical patent/CN104484243B/zh
Publication of CN104484243A publication Critical patent/CN104484243A/zh
Application granted granted Critical
Publication of CN104484243B publication Critical patent/CN104484243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明提出了一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,属于计算机和通信技术领域,特别适用于保障用户业务连续性和可靠性。传统的高可用集群技术在业务切换的时候会造成业务的中断,关键业务已不能容忍,而基于虚拟机在线迁移的虚拟机容错技术,由于主机内存信息实时同步到备机,在主机系统异常、业务运行异常的情况下,这种异常信息也被同步到备机,这样即使备机能接管主机,但是系统和业务的异常信息同时也体现在备机上,从而不能保障业务的可靠性。本发明通过虚拟机容错技术和高可用集群技术相结合,即解决了高可用集群技术切换时间业务暂停的问题,又弥补了虚拟机容错技术在主机系统异常和业务异常的情况下,备机接管后系统和业务同样是异常的问题。从而有效的保障了用户业务的连续性和可靠性。

Description

一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法
(一)技术领域
本发明适用于计算机和通信技术领域,特别适用于保障用户关键业务的可靠性和连续性,具体涉及一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法。
(二)背景技术
随着通信网络技术的飞速发展,电信、金融、电子政务等关键领域对服务器持续运行的要求越来越高,由于软硬件问题导致的用户业务停止将带来无法估量的损失。传统的保障用户业务连续性和可靠性的方法是采用高可用集群技术。高可用集群系统由主服务器和备份服务器组成,主服务器运行用户业务,备份服务器处于standby状态。当主服务器发生故障时,高可用集群系统可以把业务切换到备份服务器,从而保障用户业务的连续性。虽然高可用集群系统从一定层度上保障了用户业务连续性,但是业务从主服务器切换到备份服务器需要一定的时间。业务切换的时间包括:从业务故障到高可用集群系统检测到故障的时间间隔T1、业务在主服务器停止时间T2、业务在备份服务器启动时间T3、高可用集群系统软件内部延时T4。T1的最大值是业务检测时间间隔,一般是30秒,最小值接近零。T2和T3则跟用户的业务软件有关。T4基本可以忽略。一般情况下业务切换的时间间隔是30秒以上。在业务切换的这段时间,服务器对外提供业务中断。目前,用户的关键业务已经不能容忍高可用集群系统业务切换导致的长时间业务中断。
近年来随着虚拟化、在线迁移、容错技术的发展,对保障用户业务连续性和可靠性的需求,有了虚拟机容错的解决方案。该方案在保证虚拟机上服务正常运行的同时,将一个虚拟机系统从一个物理主机迁移到另一个物理主机。迁移前,服务在源主机的虚拟机上运行,目的主机已经具备了运行虚拟机系统的必须资源。迁移过程只需要经过一个非常短暂的切换,源主机将控制权转移到目的主机,虚拟机系统在目的主机上继续运行。对于虚拟机服务本身而言,由于切换的时间非常短暂,用户感觉不到服务的中断,因而迁移过程对用户是透明的。
在保障用户业务连续性和可靠性方面,相比高可用集群技术,虚拟机容错方案解决了切换时间长导致的业务中断问题。但是由于虚拟机容错方案主虚拟机内存实时同步到备份虚拟机,备份虚拟机实时记录了主虚拟机的运行状态,在主虚拟机业务异常、系统崩溃、系统假死等情况下,备份虚拟机虽然能接管主虚拟机运行,但是接管后系统仍跟主虚拟机一样,存在业务或系统的异常问题,因而虚拟机迁移后,不能正常对外提供服务。
为了解决高可用集群系统和虚拟机容错方案在解决业务连续性方面的问题,本发明将高可用集群系统和虚拟机容错方案相结合,在保障用户业务连续性和可靠性方面,即解决了高可用集群系统业务切换时间长的问题,又弥补了业务异常或系统异常后虚拟机容错技术的不足。
(三)发明内容
本发明提供了一种虚拟机容错技术和高可用集群技术相结合的高可靠系统装置和方法,以满足用户业务连续性和可靠性的需求。
一种虚拟机容错技术和高可用集群技术相结合的高可靠系统装置,包括:
两个服务器A、B,硬件都支持虚拟化,分别安装redhat 6操作系统,安装虚拟化相关组件,挂载共享存储设备;
主机A上安装虚拟机A1
虚拟机A1安装虚拟机检测模块VCM;
虚拟机A1和B1配置成一对容错系统,A1是主虚拟机,B1是备份虚拟机;
物理机A、B分别安装高可用集群系统HA,集群配置为主备模式,A是主机,B是备机。
两主机上的HA模块通过网卡通信;
虚拟机A1上的虚拟机检测模块VCM和主机A上的HA模块通过虚拟网卡进行通信;
虚拟机B1上的虚拟机检测模块VCM和主机B上的HA模块通过虚拟网卡进行通信。
一种基于KVM虚拟化容错技术和高可用集群技术相结合的高可靠系统方法,包括:
虚拟机虚拟机A1和B1使用同一个虚拟机镜像文件,A1作为容错系统的主机启动,虚拟机B1作为备机启动。虚拟机A1内存实时同步到虚拟机B1。在发生主机A掉电、断网卡等情况下,虚拟机B1瞬间接管虚拟机A1。业务正常运行不受影响。
虚拟机A1上的虚拟机检测模块VCM实时检测系统运行状况和业务运行状况,当异常情况大于阀值,VCM向HA模块发送信息。
HA模块收到VCM模块发送的异常信息,重新完整启动虚拟机B1,并停止虚拟机A1。由于虚拟机B1是一次完整的启动,虚拟机A1的运行异常信息没有体现在虚拟机B1中,保障了业务的连续性和可靠性。
主机A系统掉电情况下,由于虚拟机A1和B1配置为一对虚拟机容错系统,虚拟机A1内存信息实时同步到虚拟机B1,所以虚拟机B1能够瞬间接管业务,保障了用户业务的可靠性和连续性。
虚拟机A1和B1里的虚拟机检测模块VCM实时检测虚拟机的运行状况,当出现系统崩溃、系统假死、用户业务异常等情况下,VCM能实时检测到,并通过网络发送给高可用集群模块HA。HA收到信息后启动虚拟机的迁移命令,虚拟机B1完整启动,同时虚拟机A1关闭。由于虚拟机B1是完整启动,系统的异常信息被清除掉。保障了用户业务的连续性和稳定性。
(四)附图说明
图1是传统高可用集群系统图。
图2是一种虚拟机容错系统图。
图3是虚拟机容错技术和高可用集群技术结合的高可靠系统装置图。
(五)具体实施方式
为了保障用户业务连续性和可靠性,本发明实施例中,将传统的高可用集群技术和虚拟机容错技术相结合。
以下结合附图对本发明具体实施方式详细说明。
服务器A、B在同一个局域网,分别有三张以上网卡,安装redhat 6操作系统,安装KVM虚拟化组件。服务器A、B分别安装高可用集群软件,并配置为一套双机高可用集群系统。心跳链路可走网口和串口。
服务器A安装虚拟机A1,A2等,服务器B安装虚拟机B1,B2等。服务器A和服务器B挂载共享存储,虚拟机A1,B1的镜像文件使用共享存储,即虚拟机A1,B1的镜像文件是同一个文件。虚拟机的安装过程只需要安装虚拟机A1。虚拟机A1,B1配置为一对虚拟机容错系统。虚拟机B1的启动命令如下:
qemu-system-x86_64-enable-kvm-M pc-m 1024-smp 2-monitor stdio-localtime-boot c-drive file=/qemu/linux.img,if=virtio,index=0,-net nic,model=virtio,macaddr=52∶54∶00∶05∶11∶12-net tap,ifname=tap1,script=no-vnc:5-incoming tcp:0:4444
虚拟机A1的启动命令如下:
qemu-system-x86_64-enable-kvm-M pc-m 1024-smp 2-monitor stdio-localtime-boot c-drive file=/qemu/linux.img,if=virtio,index=0,-net nic,model=virtio,macaddr=52∶54∶00∶05∶11∶11-net tap,ifname=tap0,script=no-vnc:6
在虚拟机A1qemu monitor上打开micro checkpoint功能:
$migrate_set_capabilit yx-mc on
在虚拟机A1qemu monitor上启动容错功能:
$migrate-d tcp:192.168.1.150:4444(其中192.168.1.150是虚拟机B1的IP地址)
配置后虚拟机A1正常运行,虚拟机B1作为容错系统的备机,虚拟机A1内存信息实时同步到虚拟机B1。虚拟机A1对外提供服务。
启动虚拟机检测模块VCM,启动主机A和主机B上的高可用集群软件HA。VCM实时检测虚拟机运行状况。
当主虚拟机A1掉电,网络异常等情况下,虚拟机B1瞬间接管虚拟机A1运行。从而保障了用户业务连续性和可靠性;当主虚拟机A1系统异常、业务软件异常的情况下,VCM检测到异常通知HA模块,HA模块收到通知后,停止主虚拟机,完整的启动备份虚拟机,从而保障用户业务可靠性和连续性。

Claims (8)

1.一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法。其特征在于,包括以下步骤:环境搭建的步骤;系统启动的步骤;异常保护的步骤;其中:
环境搭建的步骤包括以下步骤:
主机A和主机B redhat 6操作系统的安装步骤;
主机A和主机B共享存储的挂载步骤;
虚拟机A1的安装步骤;
虚拟机A1的虚拟机检测模块VCM的安装步骤;
主机A和主机B高可用集群软件HA的安装步骤;
系统启动的步骤包括以下步骤:
主机A和主机B的启动步骤;
虚拟机A1和B1的启动步骤;
虚拟机检测模块VCM的启动步骤;
主机A和主机B高可用集群软件HA的启动步骤。
异常保护的步骤包括以下步骤:
物理机A掉电、网卡断开、虚拟机A1掉电、虚拟机A1网卡中断等情况下,虚拟机B1瞬间接管虚拟机A1,并保持虚拟机A1的运行状况,虚拟机B1接管后正常提供服务,保障了业务的可靠性和可持续性;
虚拟机A1系统异常,业务异常等情况下,VCM模块检测到异常后发送消息给HA,HA收到消息后完整启动虚拟机B1,停止虚拟机A1。虚拟机B1启动后正常提供服务,保障了业务的可靠性和可持续性。
2.如权利要求1所述的一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于:主机A和主机B挂载共享存储,虚拟机的镜像文件存放在共享存储,虚拟机A1和B1的镜像文件是同一个。
3.如权利要求1所述的一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于:虚拟机检测模块VCM实时检测主虚拟机的系统运行状况和业务运行状况,如果出现系统崩溃、系统假死、业务崩溃等异常情况,VCM通过网络发送消息给HA模块。
4.如权利要求1所述的虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于:HA模块收到VCM模块发送的虚拟机异常消息,立即完整的重启备份虚拟机,并停止主虚拟机的运行。由于备份虚拟机是一次完整的启动,启动后系统能够正常对外提供服务,从而保障了业务的可靠性和连续性。
5.如权利要求1所述的虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于该装置和方法在主虚拟机和业务运行无异常的情况下,保障业务可靠性和连 续性的优先使用虚拟机容错方式。在主虚拟机和业务运行异常的情况下,保障业务可靠性和连续性使用高可用集群方式。
6.如权利要求1所述的虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于该装置和方法即保留了虚拟机容错系统的优势,又利用高可用集群技术弥补了虚拟机容错系统的不足。
7.如权利要求1所述的虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于:虚拟机容错技术可以是kvm虚拟化平台下的micro-checkpoint技术,也可以是xen虚拟化平台下的remuse技术。
8.如权利要求1所述的虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法,其特征在于:主机A和主机B上可以根据用户需求安装多个虚拟机,且可以部署除A1、B1外的容错系统。
CN201410783236.7A 2014-12-05 2014-12-05 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法 Active CN104484243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410783236.7A CN104484243B (zh) 2014-12-05 2014-12-05 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410783236.7A CN104484243B (zh) 2014-12-05 2014-12-05 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法

Publications (2)

Publication Number Publication Date
CN104484243A true CN104484243A (zh) 2015-04-01
CN104484243B CN104484243B (zh) 2019-08-06

Family

ID=52758787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410783236.7A Active CN104484243B (zh) 2014-12-05 2014-12-05 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法

Country Status (1)

Country Link
CN (1) CN104484243B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159798A (zh) * 2015-08-28 2015-12-16 浪潮集团有限公司 一种虚拟机的双机热备方法、双机热备管理服务器和系统
CN105335254A (zh) * 2015-11-03 2016-02-17 烽火通信科技股份有限公司 虚拟化备份容错系统及方法
CN106301876A (zh) * 2015-06-26 2017-01-04 中兴通讯股份有限公司 物理机升级方法、业务迁移方法及装置
CN106970861A (zh) * 2017-03-30 2017-07-21 山东超越数控电子有限公司 一种虚拟机容错方法和系统
WO2018001262A1 (zh) * 2016-06-30 2018-01-04 中兴通讯股份有限公司 虚拟机容灾方法、装置及系统
CN111400086A (zh) * 2020-02-18 2020-07-10 上海交通大学 虚拟机容错的实现方法和系统
CN113037569A (zh) * 2021-04-19 2021-06-25 杭州和利时自动化有限公司 一种基于双服务器的冗余服务方法、装置、设备及介质
CN114706714A (zh) * 2022-04-19 2022-07-05 纳贤信息科技(深圳)有限公司 一种同步计算机内存分割快照的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662751A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种提高基于热迁移虚拟机系统可用性的方法
CN103152419A (zh) * 2013-03-08 2013-06-12 中标软件有限公司 一种云计算平台的高可用集群管理方法
CN103268271A (zh) * 2013-04-23 2013-08-28 深圳市京华科讯科技有限公司 一体机容灾实现方法
CN103559108A (zh) * 2013-11-11 2014-02-05 中国科学院信息工程研究所 一种基于虚拟化实现主备故障自动恢复的方法及系统
CN103605561A (zh) * 2013-11-28 2014-02-26 中标软件有限公司 一种云计算集群系统及其在线迁移物理服务器的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662751A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种提高基于热迁移虚拟机系统可用性的方法
CN103152419A (zh) * 2013-03-08 2013-06-12 中标软件有限公司 一种云计算平台的高可用集群管理方法
CN103268271A (zh) * 2013-04-23 2013-08-28 深圳市京华科讯科技有限公司 一体机容灾实现方法
CN103559108A (zh) * 2013-11-11 2014-02-05 中国科学院信息工程研究所 一种基于虚拟化实现主备故障自动恢复的方法及系统
CN103605561A (zh) * 2013-11-28 2014-02-26 中标软件有限公司 一种云计算集群系统及其在线迁移物理服务器的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张水平等: "《云计算原理及应用技术》", 30 April 2014 *
赵凯等: "基于Vmware vSphere虚拟机化的技术实践", 《山东通信技术》 *
顾炯炯: "《云计算架构技术与实践》", 30 September 2014 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106301876A (zh) * 2015-06-26 2017-01-04 中兴通讯股份有限公司 物理机升级方法、业务迁移方法及装置
CN106301876B (zh) * 2015-06-26 2019-11-29 南京中兴新软件有限责任公司 物理机升级方法、业务迁移方法及装置
CN105159798A (zh) * 2015-08-28 2015-12-16 浪潮集团有限公司 一种虚拟机的双机热备方法、双机热备管理服务器和系统
CN105335254A (zh) * 2015-11-03 2016-02-17 烽火通信科技股份有限公司 虚拟化备份容错系统及方法
CN105335254B (zh) * 2015-11-03 2018-07-24 烽火通信科技股份有限公司 虚拟化备份容错系统及方法
WO2018001262A1 (zh) * 2016-06-30 2018-01-04 中兴通讯股份有限公司 虚拟机容灾方法、装置及系统
CN106970861A (zh) * 2017-03-30 2017-07-21 山东超越数控电子有限公司 一种虚拟机容错方法和系统
CN111400086A (zh) * 2020-02-18 2020-07-10 上海交通大学 虚拟机容错的实现方法和系统
CN111400086B (zh) * 2020-02-18 2022-05-06 上海交通大学 虚拟机容错的实现方法和系统
CN113037569A (zh) * 2021-04-19 2021-06-25 杭州和利时自动化有限公司 一种基于双服务器的冗余服务方法、装置、设备及介质
CN114706714A (zh) * 2022-04-19 2022-07-05 纳贤信息科技(深圳)有限公司 一种同步计算机内存分割快照的方法

Also Published As

Publication number Publication date
CN104484243B (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN104484243A (zh) 一种虚拟机容错技术和高可用集群技术结合的高可靠系统装置和方法
US9971660B2 (en) Virtual machine network loss detection and recovery for high availability
CN105677516B (zh) 一种计算靠近存储云平台中高效可靠的备份恢复方法
CN102355369B (zh) 虚拟化集群系统及其处理方法和设备
CN109471759B (zh) 一种基于sas双控设备的数据库故障切换方法及设备
CN106357787A (zh) 一种存储容灾控制系统
CN100492305C (zh) 一种计算机系统的快速恢复方法及设备
CN101908980A (zh) 一种网管升级的方法及系统
CN105024879A (zh) 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法
CN102708027B (zh) 一种避免通信设备运行中断的方法及系统
CN104391764A (zh) 一种计算机容错方法及系统
CN109245926B (zh) 智能网卡、智能网卡系统及控制方法
CN105554130A (zh) 基于分布式存储系统的NameNode切换方法和切换装置
CN101873223A (zh) 基于ip切换的n+m服务备份机制
JP2008052407A (ja) クラスタシステム
CN108469996A (zh) 一种基于自动快照的系统高可用方法
CN112153134A (zh) 一种容灾云主机的容灾演练方法、装置、设备及存储介质
CN104010034A (zh) 一种高可用集群关于组依赖的管理方法
CN105068763A (zh) 一种针对存储故障的虚拟机容错系统和方法
CN105389231A (zh) 一种数据库双机备份方法及系统
CN111078352A (zh) 一种基于kvm虚拟化系统的双机热备部署方法及系统
CN113377702B (zh) 两节点集群启动的方法及装置、电子设备和存储介质
CN107204963A (zh) 云计算模式下的高可靠性web安全防护实现方法
CN101557307B (zh) 调度自动化系统应用状态管理方法
US11036530B2 (en) Application continuous high availability solution

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 510663 Guangdong Province, Guangzhou Tianhe Science Park Gaotang New District high Pu Lu No. 1021 601

Applicant after: GUANGDONG ZHONGXING NEWSTART TECHNOLOGY CO., LTD.

Address before: 510663 Guangdong Province, Guangzhou Tianhe Science Park Gaotang New District high Pu Lu No. 1021 601

Applicant before: Guangdong NewStart Technology Service Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant