CN108469996A - 一种基于自动快照的系统高可用方法 - Google Patents

一种基于自动快照的系统高可用方法 Download PDF

Info

Publication number
CN108469996A
CN108469996A CN201810204644.0A CN201810204644A CN108469996A CN 108469996 A CN108469996 A CN 108469996A CN 201810204644 A CN201810204644 A CN 201810204644A CN 108469996 A CN108469996 A CN 108469996A
Authority
CN
China
Prior art keywords
virtual machine
availability
cluster
method based
snapshot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810204644.0A
Other languages
English (en)
Inventor
徐永强
马双涛
王晔
侯亚杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Chaoyue CNC Electronics Co Ltd
Original Assignee
Shandong Chaoyue CNC Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Chaoyue CNC Electronics Co Ltd filed Critical Shandong Chaoyue CNC Electronics Co Ltd
Priority to CN201810204644.0A priority Critical patent/CN108469996A/zh
Publication of CN108469996A publication Critical patent/CN108469996A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors

Abstract

本发明公开了一种基于自动快照的系统高可用方法,所述方法内容包括:通过KVM虚拟机管理平台,对虚拟机进行管理,并在虚拟机中安装部署业务操作系统;将安装KVM虚拟化套件的多个服务器系统构成高可用集群,当某一个节点发生故障时,另一个节点能够自动接管且立即向外提供服务;采用自动快照技术定时将虚拟机当前的内存状态打标签写入硬盘进行保存。本发明在虚拟化环境中,基于自动快照技术和迁移技术,所有的业务系统都运行在虚拟机中,方便、简洁、具有极强的灵活性,解决了操作系统高可用性的问题。

Description

一种基于自动快照的系统高可用方法
技术领域
本发明涉及软件技术领域,具体涉及一种基于自动快照的系统高可用方法,主要解决了操作系统高可用性的问题。
背景技术
对现代企业来说,利用计算机系统来提供及时可靠的信息和服务是必不可少的一部分业务。系统作为业务系统的核心,其运行稳定性和高可用性至关重要。因此,需要通过高可用性设计来尽量减少系统的计划内和计划外停机,并在系统出现故障时及时响应、快速恢复,以保障关键数据和业务系统的运行稳定性和可持续访问性。“高可用性”(HighAvailability)通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。
另一方面,计算机硬件与软件都不可避免地会发生故障,这些故障有可能给企业带来极大的损失,甚至整个服务的终止、网络的瘫痪。对于那些任何停工都将产生严重的财产损失、名誉损失、甚至生命损失的关键性应用的企业或公司,系统的高可用性显得更为重要。因此,必须有适当的措施来确保计算机系统提供不间断的服务,以维护系统的可用性。信息系统的可用性通常在两种情况下会受到影响,一种是系统当机、错误操作和管理引起的异常失败,另一种是由于系统维护和升级,需要安装新的硬件或软件而正常关机。
高可用性HA(High Availability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。它与被认为是不间断操作的容错技术有所不同。HA系统是目前企业防止核心计算机系统因故障停机的最有效手段。容错FT(Fault Tolerant)技术一般利用冗余硬件交叉检测操作结果。当发现异常时,故障部件会被隔离开而不影响用户的操作。
高可用性方案则利用更少的冗余部件同时由软件检测故障,一旦故障发生立即隔离损坏部件,通过提供故障恢复实现最大化系统和应用的可用性。容错技术随着处理器速度的加快和价格的下跌而越来越多地转移到软件中。未来容错技术将完全在软件环境下完成,那时它和高可用性技术之间的差别也就随之消失了。
发明内容
本发明要解决的技术问题是:针对现有技术的不足,为更加高效的解决操作系统高可用性的问题,在虚拟化环境中,本发明基于自动快照技术和迁移技术,本发明提供一种基于自动快照的系统高可用方法,一种更加全面的系统高可用方法。
本发明所采用的技术方案为:
一种基于自动快照的系统高可用方法,所述方法内容包括:
通过KVM虚拟机管理平台,对虚拟机进行管理,并在虚拟机中安装部署业务操作系统;
将安装KVM虚拟化套件的多个服务器系统构成高可用集群,当某一个节点发生故障时,另一个节点能够自动接管且立即向外提供服务;
采用自动快照技术定时将虚拟机当前的内存状态打标签写入硬盘进行保存。
所述方法内容包括:
通过采用存储迁移技术,通过迁移配置文件实现虚拟机迁移。
所述方法内容包括:
所述KVM虚拟机管理平台的管理端设置于虚拟机端,并运行于高可用集群系统的顶层,对高可用集群里的虚拟机进行集中管理和健康监控;虚拟化端同时作为管理端,和管理端二合一,一方面节省了硬件资源,另外一方面,每个虚拟化端都可以提供服务,避免了管理上单点故障的风险。
所述方法内容包括:
所述高可用集群采用对称方式实现,高可用集群的多个节点之间相互监测对方的健康状况,当其中一个节点发生故障时,该节点上的服务自动切换到另一个节点上,避免集群出现单点故障。
所述方法内容包括:
通过自动快照技术在做快照时捕捉虚拟机的内存状态,以及其他状态,包括磁盘,I/O,网络,当恢复该快照时,虚拟机将回到创建时确切的时间点,并恢复该虚拟机当时运行的任务,并且,快照将继续在创建快照完成确切的时间点上继续运行的任务。
虚拟化的快照分为内存快照和存储快照。自动快照技术面向的是内存快照。
所述方法内容包括:
所述存储迁移技术基于共享存储技术,将虚拟机配置的镜像文件存储在共享存储中,迁移时是将虚拟机的配置文件进行迁移,类似文件的远程拷贝,实现将一个虚拟机从原服务器上迁移到目标服务器上,简单快速。
所述方法内容包括:
所述高可用集群由多个物理节点组成,每个物理节点上运行集群同步软件。
所述方法内容包括:
在高可用集群系统成功创建后,通过集群同步软件实现各个物理节点集群系统的挂载和同步,从而实现对所有物理资源的统一管理。
所述方法内容包括:
在所述高可用集群其中某一个节点发生故障时,另一个节点自动接管并立即向外提供服务,将有故障节点上的资源转移到另一个节点上去,这样另一个节点有了资源就可以向外提供服务。高可用集群是用于单个节点发生故障时,能够自动将资源、服务进行切换,这样可以保证服务一直在线避免出现单点故障。
所述方法内容包括:
通过存储迁移技术采用热迁移方式将整个虚拟机的运行状态完整保存下来,在需要的时候,快速恢复到原有硬件平台或者不同的硬件平台。
本发明的有益效果为:
本发明在虚拟化环境中,基于自动快照技术和迁移技术,所有的业务系统都运行在虚拟机中,方便、简洁、具有极强的灵活性,解决了操作系统高可用性的问题。
附图说明
图1为虚拟化集群系统框图;
图2为安全增强智能终端密码模块固件功能框图。
具体实施方式
下面参照附图所示,通过具体实施方式对本发明进一步说明:
实施例1
如图1所示,一种基于自动快照的系统高可用方法,所述方法内容包括:
通过KVM虚拟机管理平台,对虚拟机进行管理,并在虚拟机中安装部署业务操作系统;
将安装KVM虚拟化套件的多个服务器系统构成高可用集群,当某一个节点发生故障时,另一个节点能够自动接管且立即向外提供服务;
采用自动快照技术定时将虚拟机当前的内存状态打标签写入硬盘进行保存。
所述方法内容包括:
通过采用存储迁移技术,通过迁移配置文件实现虚拟机迁移。
实施例2
如图2所示,原服务器和目标服务器运行在同一个集群系统中,集群同步软件将两台服务器上的物理资源信息进行同步。虚拟机VM-1运行在原服务器上,并且后台每隔2秒中,自动创建一个内存快照,内存快照文件存储在共享存储中。当原服务意外宕机时,目标服务器通过心跳网,能够检测到。然后,自动的将虚拟机VM-1迁移到目标服务器,该迁移在1秒以内可完成。迁移完成后。在目标服务器上会运行一个虚拟机VM-2。最后,将虚拟机VM-1的最后一个快照回滚到虚拟机VM-2上,快照回滚在3秒钟内可完成。回滚完成后,虚拟机VM-2可代替虚拟机VM-1继续对外提供服务。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种基于自动快照的系统高可用方法,其特征在于:所述方法内容包括:
通过KVM虚拟机管理平台,对虚拟机进行管理,并在虚拟机中安装部署业务操作系统;
将安装KVM虚拟化套件的多个服务器系统构成高可用集群,当某一个节点发生故障时,另一个节点能够自动接管且立即向外提供服务;
采用自动快照技术定时将虚拟机当前的内存状态打标签写入硬盘进行保存。
2.根据权利要求1所述的一种基于自动快照的系统高可用方法,其特征在于,所述方法内容包括:
通过采用存储迁移技术,通过迁移配置文件实现虚拟机迁移。
3.根据权利要求2所述的一种基于自动快照的系统高可用方法,其特征在于,所述方法内容包括:
所述KVM虚拟机管理平台的管理端设置于虚拟机端,并运行于高可用集群系统的顶层,对高可用集群里的虚拟机进行集中管理和健康监控。
4.根据权利要求1、2或3所述的一种基于自动快照的系统高可用方法,其特征在于,所述方法内容包括:
所述高可用集群采用对称方式实现,高可用集群的多个节点之间相互监测对方的健康状况,当其中一个节点发生故障时,该节点上的服务自动切换到另一个节点上,避免集群出现单点故障。
5.根据权利要求4所述的一种基于自动快照的系统高可用方法,其特征在于,所述方法内容包括:
通过自动快照技术在做快照时捕捉虚拟机的内存状态,以及其他状态,包括磁盘,I/O,网络,当恢复该快照时,虚拟机将回到创建时确切的时间点,并恢复该虚拟机当时运行的任务,并且,快照将继续在创建快照完成确切的时间点上继续运行的任务。
6.根据权利要求5所述的一种基于自动快照的系统高可用方法,其特征在于,所述方法内容包括:
所述存储迁移技术基于共享存储技术,将虚拟机配置的镜像文件存储在共享存储中。
7.根据权利要求6所述的一种基于自动快照的系统高可用方法,其特征在于,所述方法内容包括:
所述高可用集群由多个物理节点组成,每个物理节点上运行集群同步软件。
8.根据权利要求7所述的一种基于自动快照的系统高可用方法,其特征在于,所述方法内容包括:
在高可用集群系统成功创建后,通过集群同步软件实现各个物理节点集群系统的挂载和同步,从而实现对所有物理资源的统一管理。
9.根据权利要求8所述的一种基于自动快照的系统高可用方法,其特征在于,所述方法内容包括:
在所述高可用集群其中某一个节点发生故障时,另一个节点自动接管并立即向外提供服务,将有故障节点上的资源转移到另一个节点上去。
10.根据权利要求9所述的一种基于自动快照的系统高可用方法,其特征在于,所述方法内容包括:
通过存储迁移技术采用热迁移方式将整个虚拟机的运行状态完整保存下来,在需要的时候,快速恢复到原有硬件平台或者不同的硬件平台。
CN201810204644.0A 2018-03-13 2018-03-13 一种基于自动快照的系统高可用方法 Pending CN108469996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810204644.0A CN108469996A (zh) 2018-03-13 2018-03-13 一种基于自动快照的系统高可用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810204644.0A CN108469996A (zh) 2018-03-13 2018-03-13 一种基于自动快照的系统高可用方法

Publications (1)

Publication Number Publication Date
CN108469996A true CN108469996A (zh) 2018-08-31

Family

ID=63265255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810204644.0A Pending CN108469996A (zh) 2018-03-13 2018-03-13 一种基于自动快照的系统高可用方法

Country Status (1)

Country Link
CN (1) CN108469996A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110752955A (zh) * 2019-10-30 2020-02-04 北京计算机技术及应用研究所 一种席位不变故障迁移系统和方法
CN111078352A (zh) * 2019-10-31 2020-04-28 苏州浪潮智能科技有限公司 一种基于kvm虚拟化系统的双机热备部署方法及系统
CN111858143A (zh) * 2019-04-24 2020-10-30 伊姆西Ip控股有限责任公司 用于管理存储系统的方法、设备和计算机可读存储介质
CN111930563A (zh) * 2020-07-15 2020-11-13 中国人民解放军陆军工程大学 云仿真系统中的容错方法
CN112711632A (zh) * 2019-12-27 2021-04-27 山东鲁能软件技术有限公司 一种高可用集群的异步数据流复制方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110071A (zh) * 2011-03-04 2011-06-29 浪潮(北京)电子信息产业有限公司 一种虚拟机集群系统及其实现方法
CN102662751A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种提高基于热迁移虚拟机系统可用性的方法
CN103810038A (zh) * 2014-01-24 2014-05-21 杭州华三通信技术有限公司 一种ha集群中虚拟机存储文件迁移方法及其装置
US20150237132A1 (en) * 2014-02-19 2015-08-20 Vmware, Inc. Virtual machine high availability using shared storage during network isolation
CN107203443A (zh) * 2017-06-23 2017-09-26 郑州云海信息技术有限公司 一种基于kvm虚拟化的虚拟机高可用的方法与装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110071A (zh) * 2011-03-04 2011-06-29 浪潮(北京)电子信息产业有限公司 一种虚拟机集群系统及其实现方法
CN102662751A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种提高基于热迁移虚拟机系统可用性的方法
CN103810038A (zh) * 2014-01-24 2014-05-21 杭州华三通信技术有限公司 一种ha集群中虚拟机存储文件迁移方法及其装置
US20150237132A1 (en) * 2014-02-19 2015-08-20 Vmware, Inc. Virtual machine high availability using shared storage during network isolation
CN107203443A (zh) * 2017-06-23 2017-09-26 郑州云海信息技术有限公司 一种基于kvm虚拟化的虚拟机高可用的方法与装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858143A (zh) * 2019-04-24 2020-10-30 伊姆西Ip控股有限责任公司 用于管理存储系统的方法、设备和计算机可读存储介质
CN110752955A (zh) * 2019-10-30 2020-02-04 北京计算机技术及应用研究所 一种席位不变故障迁移系统和方法
CN111078352A (zh) * 2019-10-31 2020-04-28 苏州浪潮智能科技有限公司 一种基于kvm虚拟化系统的双机热备部署方法及系统
CN112711632A (zh) * 2019-12-27 2021-04-27 山东鲁能软件技术有限公司 一种高可用集群的异步数据流复制方法及系统
CN111930563A (zh) * 2020-07-15 2020-11-13 中国人民解放军陆军工程大学 云仿真系统中的容错方法
CN111930563B (zh) * 2020-07-15 2022-01-11 中国人民解放军陆军工程大学 云仿真系统中的容错方法

Similar Documents

Publication Publication Date Title
CN108469996A (zh) 一种基于自动快照的系统高可用方法
CN102394774B (zh) 一种云计算操作系统的控制器服务状态监控和故障恢复方法
KR100930576B1 (ko) 가상화 기반 고가용성 클러스터 시스템 및 고가용성클러스터 시스템에서 장애 관리 방법
CN103559108B (zh) 一种基于虚拟化实现主备故障自动恢复的方法及系统
CN104391764B (zh) 一种计算机容错方法及系统
CN104506357B (zh) 一种高可用集群节点管理方法
CN104408071A (zh) 一种基于集群管理器的分布式数据库高可用方法及系统
CN106850260A (zh) 一种虚拟化资源管理平台的部署方法和装置
CN106357787A (zh) 一种存储容灾控制系统
CN103152419A (zh) 一种云计算平台的高可用集群管理方法
CN102231681A (zh) 一种高可用集群计算机系统及其故障处理方法
CN105335251A (zh) 一种故障恢复方法及系统
CN103152414A (zh) 一种基于云计算的高可用系统及其实现方法
CN102394914A (zh) 集群脑裂处理方法和装置
CN112181660A (zh) 一种基于服务器集群的高可用方法
CN112948063B (zh) 云平台的创建方法、装置、云平台以及云平台实现系统
CN105554074A (zh) 一种基于rpc通信的nas资源监控系统及监控方法
CN109245926B (zh) 智能网卡、智能网卡系统及控制方法
CN103457775A (zh) 一种基于角色的高可用虚拟机池化管理系统
CN106970861A (zh) 一种虚拟机容错方法和系统
CN104317803A (zh) 数据库集群的数据存取结构和方法
CN106681858A (zh) 一种虚拟机数据容灾方法及管理装置
CN109361777A (zh) 分布式集群节点状态的同步方法、同步系统及相关装置
CN101482829A (zh) 集群系统、处理装置及集群系统冗余方法
CN103186348B (zh) 存储系统及其数据读写方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180831

RJ01 Rejection of invention patent application after publication