CN110413373A - 故障虚拟机的恢复方法、装置、电子设备及存储介质 - Google Patents

故障虚拟机的恢复方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110413373A
CN110413373A CN201910547522.6A CN201910547522A CN110413373A CN 110413373 A CN110413373 A CN 110413373A CN 201910547522 A CN201910547522 A CN 201910547522A CN 110413373 A CN110413373 A CN 110413373A
Authority
CN
China
Prior art keywords
server
virtual machine
configuration information
preassigned
deployed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910547522.6A
Other languages
English (en)
Inventor
朱从林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Huayun Data Technology Service Co Ltd
Original Assignee
Wuxi Huayun Data Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Huayun Data Technology Service Co Ltd filed Critical Wuxi Huayun Data Technology Service Co Ltd
Priority to CN201910547522.6A priority Critical patent/CN110413373A/zh
Publication of CN110413373A publication Critical patent/CN110413373A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45575Starting, stopping, suspending or resuming virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45587Isolation or security of virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请提供一种故障虚拟机的恢复方法、装置、电子设备及存储介质,所述方法包括:在确定检测到部署有虚拟机的服务器发生故障时,获取部署在所述发生故障的服务器上的虚拟机的配置信息;在确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源时,将所述配置信息发送至所述预先指定的服务器,以使所述预先指定的服务器基于所述配置信息部署所述虚拟机,与从除发生故障以外的其它服务器中确定出满足疏散要求的服务器相比,疏散过程可控,能够及时将部署在发生故障的服务器上的虚拟机重新部署,提高部署效率,继而提高业务系统的可靠性。

Description

故障虚拟机的恢复方法、装置、电子设备及存储介质
技术领域
本申请涉及云计算技术领域,具体而言,涉及一种故障虚拟机的恢复方法、装置、电子设备及存储介质。
背景技术
目前,云数据中心中的处于运行状态的某个服务器发生故障时,因为部署在该服务器上虚拟机无法正常运行,所以会存在客户端无法连接发生故障的云数据服务器、业务停止运行等问题。现有的虚拟机故障恢复方法,从除发生故障以外的其它节点中确定出满足疏散要求的节点,并将发生故障的服务器上的虚拟机疏散至满足疏散要求的服务器,然而在疏散过程中,因为虚拟机分布不可控,疏散过程也不可控,所以会因资源争用(疏散排队)或者资源需求发生变化而导致疏散失败,所以系统风险和隐患较大。
申请内容
鉴于此,本申请实施例的目的在于提供一种故障虚拟机的恢复方法、装置、电子设备及存储介质,以改善现有技术中虚拟机疏散的不可控而导致的容易疏散失败的问题。
第一方面,本申请实施例提供一种故障虚拟机的恢复方法,所述方法包括:在确定检测到部署有虚拟机的服务器发生故障时,获取部署在所述发生故障的服务器上的虚拟机的配置信息;在确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源时,将所述配置信息发送至所述预先指定的服务器,以使所述预先指定的服务器基于所述配置信息部署所述虚拟机。
在上述实现过程中,在确定检测到部署有虚拟机的服务器发生故障时,在预先指定的服务器上基于所述部署信息部署与所述发生故障的服务器对应的虚拟机,与从除发生故障以外的其它服务器中确定出满足疏散要求的服务器相比,疏散过程可控,及时将部署在发生故障的服务器上的虚拟机重新部署,提高部署效率,继而提高业务系统的可靠性。
基于第一方面,在一种可能的设计中,确定检测到部署有虚拟机的服务器发生故障的步骤,包括:检测部署有虚拟机的服务器的运行状态;在所述部署有虚拟机的服务器的运行状态为故障状态时,开始计时;在所述计时达到预设时长后,再次检测所述部署有虚拟机的服务器的运行状态;在再次检测的结果为所述部署有虚拟机的服务器的运行状态依然为故障状态时,确定所述部署有虚拟机的服务器发生故障。
在上述实现过程中,在部署有虚拟机的服务器发生故障的时长极短的情况下,为了防止将发生故障的时长较短的服务器上的虚拟机进行重新部署而浪费资源的情况,通过在初步确定所述部署有虚拟机的服务器发生故障开始的预设时长后,再次检测到所述初步确定发生故障的服务器的运行状态依然为故障状态时,确定检测到所述部署有虚拟机的服务器的发生故障,继而避免上述情况。
基于第一方面,在一种可能的设计中,所述预先指定的服务器和所述发生故障的服务器属于不同的云数据中心。
在上述实现过程中,由于所述预先指定的服务器和所述发生故障的服务器属于不同的云数据中心,因此,在发生故障的服务器所属云数据中心的剩余资源比较少时,也能保证所述发生故障的服务器上的虚拟机被及时重新部署。
基于第一方面,在一种可能的设计中,将所述配置信息发送至预先指定的服务器,所述方法包括:在确定至少两台所述预先指定的服务器中的每台服务器的剩余资源均大于等于所述所需存储资源时,按照剩余资源的大小,将所述配置信息发送至少两台所述预先指定的服务器中的剩余资源较大的服务器。
在上述实现过程中,通过将所述配置信息发送至少两台所述预先指定的服务器中的剩余资源较大的服务器,减轻剩余资源较少的服务器的压力。
基于第一方面,在一种可能的设计中,所述方法还包括:在确定所述预先指定的服务器的剩余存储资源小于所述所需存储资源时或所述预先指定的服务器故障时,从除所述预先指定的服务器之外的其它服务器中确定出剩余存储资源大于等于所述所需存储资源的备用服务器;将所述配置信息发送给所述备用服务器,以使所述备用服务器基于所述配置信息部署与所述发生故障的服务器对应的虚拟机。
在上述实现过程中,在确定所述预先指定的服务器的剩余存储资源小于所述所需存储资源时或所述预先指定的服务器故障时,通过在所述备用服务器上部署与所述发生故障的服务器对应的虚拟机,以保证所述发生故障的服务器上的虚拟机能够被及时重新部署。
基于第一方面,在一种可能的设计中,所述备用服务器和所述发生故障的服务器属于不同的云数据中心。
在上述实现过程中,由于所述备用服务器和所述发生故障的服务器属于不同的云数据中心,因此,在发生故障的服务器所属云数据中心的剩余资源比较少时,也能保证所述发生故障的服务器上的虚拟机被及时重新部署。
基于第一方面,在一种可能的设计中,所述方法还包括:在所述发生故障的服务器从故障状态恢复到正常状态时,删除所述发生故障的服务器在发生故障前部署的所有虚拟机。
在上述实现过程中,在所述发生故障的服务器从故障状态恢复到正常状态时,删除所述发生故障的服务器在发生故障前部署的所有虚拟机,以节约服务器的存储资源。
第二方面,本申请实施例提供一种故障虚拟机的恢复装置,所述装置包括:配置信息获取单元,用于在确定检测到部署有虚拟机的服务器发生故障时,获取部署在所述发生故障的服务器上的虚拟机的配置信息;第一部署单元,用于在确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源时,将所述配置信息发送至所述预先指定的服务器,以使所述预先指定的服务器基于所述配置信息部署所述虚拟机。
基于第二方面,在一种可能的设计中,所述第一部署单元还用于,在确定至少两台所述预先指定的服务器中的每台服务器的剩余资源均大于等于所述所需存储资源时,按照剩余资源的大小,将所述配置信息发送至所述至少两台所述预先指定的服务器中的剩余资源较大的服务器。
基于第二方面,在一种可能的设计中,所述装置还包括:备用服务器确定单元,用于在确定所述预先指定的服务器的剩余存储资源小于所述所需存储资源时或所述预先指定的服务器故障时,从除所述预先指定的服务器之外的其它服务器中确定出剩余存储资源大于等于所述所需存储资源的备用服务器;第二部署单元,用于将所述配置信息发送给所述备用服务器,以使所述备用服务器基于所述配置信息部署与所述发生故障的服务器对应的虚拟机。
基于第二方面,在一种可能的设计中,所述装置还包括:删除单元,用于在所述发生故障的服务器从故障状态恢复到正常状态时,删除所述发生故障的服务器在发生故障前部署的所有虚拟机。
第三方面,本申请实施例提供一种电子设备,包括处理器以及与所述处理器连接的存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行第一方面所述的方法。
第四方面,本申请实施例提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行第一方面所述的方法。
本申请的其它特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其它优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的云系统的结构示意图。
图2为本申请实施例提供的故障虚拟机的恢复方法的流程图。
图3为本申请实施例提供的故障虚拟机的恢复装置的结构示意图。
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,本申请实施例提供一种云系统,所述系统包括:云管平台、至少两个云数据中心,其中,所述至少两个云数据中心中的每个云数据中心包括至少两台服务器,所述至少两个云数据中心分别与所述云管平台通信连接,所述至少两个云数据中心中的每个云数据中心运行有至少一台服务器,为了方便阐述,在申请实施例中,所述系统包括云数据中心A和云数据中心B,云数据中心A和云数据中心B的类型可以相同,也可以不同,在云数据中心A和云数据中心B为不同类型的云数据中心时,云管平台通过应用程序编程接口(Application Programming Interface,API)分别与云数据中心A和云数据中心B通信连接,例如,云数据中心A可以为Openstack云数据中心,云数据中心B可以为Vmware云数据中心Hyper-V云数据中心等。
请参照图2,图2为本申请实施例提供的一种故障虚拟机恢复方法的流程图,应用于图1所述的云系统,所述方法包括:S100、S200和S300。
S100:云管平台在确定检测到部署有虚拟机的服务器发生故障时,获取部署在所述发生故障的服务器上的虚拟机的配置信息。
S200:云管平台在确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源时,将所述配置信息发送至所述预先指定的服务器。
S300:预先指定的服务器基于所述配置信息部署所述虚拟机。
下面对上述方法进行详细阐述:
在实际实施过程中,S100可以按照如下方式实施,云管平台基于预设时间间隔或不定时的检测部署有虚拟机的服务器的运行状态,其中,不同的运作状态用不同的字符表示,例如,“1”表示运行正常,“0”表示运作故障,在检测到云数据中心部署有虚拟机的服务器的运行状态为故障状态时,确定运行状态为故障状态的服务器发生故障,获取所述发生故障的服务器的标识(例如,网络之间互连的协议(Internet Protocol,IP)地址等),从预先存储在云管平台的服务器的标识和虚拟机的配置信息的对应关系中查找并获取与所述发生故障的服务器的标识对应的虚拟机的配置信息。
其中,所述配置信息包括:虚拟机名称、中央处理器(Central Processing Unit,CPU)、内存、虚拟机光驱、软驱配置、虚拟机网卡等配置信息。
其中,所述发生故障的服务器的数量可以为一台,也可以为两台、多台等,所述发生故障的服务器可以全部属于云数据中心A,也可以全部属于云数据中心B,也可以分别属于云数据中心A和云数据中心B。
其中,所述预设时间间隔可以为10秒、20秒、1分钟、2分钟等,根据用户需求设定,所述预设时间间隔越短,越能及时将部署在所述发生故障的服务器上的虚拟机进行重新部署。
作为一种可能的实施方式,云管平台可以通过如下方式获取部署在所述发生故障的服务器上的虚拟机的配置信息,在云管平台确定检测到部署有虚拟机的服务器发生故障时,云管平台直接从所述发生故障的服务器的上获取部署在所述发生故障的服务器上的虚拟机的配置信息。
作为一种可能的实施方式,云管平台可以通过如下方式获取部署在所述发生故障的服务器上的虚拟机的配置信息,在云管平台确定检测到部署有虚拟机的服务器发生故障时,云管平台从预先存储在包括所述发生故障的服务器的云数据中心的其它服务器上获取部署在所述发生故障的服务器上的虚拟机的配置信息。
其中,在部署有虚拟机的服务器发生故障的时长极短的情况下,为了防止将发生故障的时长较短的服务器上的虚拟机进行重新部署而浪费资源的情况,因此,确定检测到部署有虚拟机的服务器发生故障的步骤,包括:C1、C2、C3和C4。
C1:云管平台检测部署有虚拟机的服务器的运行状态。
云管平台基于预设时间间隔或不定时的获取部署有虚拟机的服务器的运行状态,其中,运行状态包括:运行正常和发生故障两种状态。
在云数据中心A和云数据中心B为不同的云数据中心时,云管平台通过API接口与云数据中心A和云数据中心B通信,云管平台通过API接口定时或不定时的获取云数据中心A和云数据中心B中部署有虚拟机的服务器的运行状态。
例如,部署有虚拟机的服务器定时或不定时的像云管平台发送表征所述部署有虚拟机的服务器的运行状态的信号,云管平台接收部署有虚拟机的服务器发送的所述信号,从所述信号中获取部署有虚拟机的服务器的运行状态。
例如,云管平台定时或不定时的向部署有虚拟机的服务器发送表征获取所述部署有虚拟机的服务器的运行状态,云管平台接收所述部署有虚拟机的服务器发送的表征所述部署有虚拟机的服务器的运行状态的信号。
C2:在所述部署有虚拟机的服务器的运行状态为故障状态时,开始计时。
C3:在所述计时达到预设时长后,再次检测所述部署有虚拟机的服务器的运行状态。
C4:在再次检测的结果为所述部署有虚拟机的服务器的运行状态依然为故障状态时,确定所述部署有虚拟机的服务器发生故障。
其中,所述预设时长小于等于5分钟,例如,所述预设时长可以为20秒、20秒、1分钟等,所述预设时长越长越能准确的确定部署有虚拟机的服务器是否发生故障,但是,所述预设时长太长也会导致部署在所述发生故障的服务器上的虚拟机无法得到及时重构。
在检测到部署有虚拟机的服务器的运行状态为故障状态时,开始计时,初步确定运行状态为故障状态的服务器发生故障,在所述计时达到预设时长后,再次检测所述部署有虚拟机的服务器的运行状态,在再次检测的结果为所述部署有虚拟机的服务器的运行状态为故障状态时,确定所述部署有虚拟机的服务器的发生故障。
相应的,在确定所述初步确定发生故障的服务器的发生故障时,获取部署在所述初步确定发生故障的服务器上的虚拟机的配置信息。
作为一种实施方式,在再次检测到所述初步确定发生故障的服务器的运行状态为正常状态时,确定所述初步确定发生故障的服务器的未发生故障。
相应的,不会对部署在所述未发生故障的服务器上的虚拟机进行重新部署。
S200:云管平台在确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源时,将所述配置信息发送至所述预先指定的服务器。
其中,确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源的步骤包括:
在获取到部署在所述发生故障的服务器上的虚拟机的配置信息之后,获取基于所述配置信息部署虚拟机所需资源的大小,从预先存储在云管平台中的发生故障的服务器和指定的服务器的对应关系中,确定与所述发生故障的服务器对应的所述预先指定的服务器,也可以直接从所述发生故障的服务器中获取所述预先指定的服务器,获取所述预先指定的服务器的剩余资源的和,将所述预先指定的服务器的剩余资源的和与所述所需资源进行作差比较,获取第一比较结果,在所述第一比较结果为大于等于零时,确定预先指定的服务器的剩余资源的和大于等于基于所述配置信息部署虚拟机所需存储资源。
作为一种实施方式,获取所述预先指定的服务器中每台服务器的剩余资源,分别将所述预先指定的服务器中的每台服务器的剩余资源与所述所需资源进行作差比较,获取第二比较结果,在所述第二结果表征所述预先指定的服务器中存在剩余资源大于等于所述所需资源的服务器时,确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源。
在发生故障的服务器所属云数据中心的剩余资源比较少时,为了保证所述发生故障的服务器上的虚拟机能够被及时重新部署,因此,作为一种实施方式,所述预先指定的服务器和所述发生故障的服务器属于不同的云数据中心。
作为一种实施方式,在所述预先指定的服务器和所述发生故障的服务器属于不同的数据中心时,云管平台通过API接口向所述预先指定的服务器发送配置信息,解决跨数据中心疏散发生故障的服务器上的虚拟机的问题。
作为一种实施方式,所述预先指定的服务器和所述发生故障的服务器属于相同的云数据中心。
作为一种实施方式,所述预先指定的服务器可以为一个云数据中心的所有服务器。
在实际实施过程中,在所述预先指定的服务器的数量为一台时,S200可以按照如下方式实施,云管平台在确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源时,将部署在所述发生故障的服务器上的虚拟机的配置信息发送至所述预先指定的服务器,以使所述预先指定的服务器基于所述配置信息部署与所述发生故障的服务器对应的虚拟机。
部署有虚拟机的服务器发生故障时,可根据预先指定的服务器自动将部署在所述发生故障上的虚拟机疏散至指定健康服务器上进行重建,疏散过程不会受资源争用、疏散排队等不可控因素影响,整个过程由系统自动执行,无需人工介入干预,解决业务系统故障无法精准疏散问题、无法,大大减少由于本地数据中心资源不够导致的疏散失败,业务宕机风险,提高业务系统的可靠性与连续性。
作为一种实施方式,在所述预先指定的服务器的数量为至少两台时,S200可以按照如下方式实施,云管平台在确定预先指定的服务器的剩余资源的和大于等于基于所述配置信息部署虚拟机所需存储资源时,将部署在所述发生故障的服务器上的每台虚拟机的配置信息分别发送至对应的所述预先指定的服务器,以使所述预先指定的服务器能够基于获取到的配置信息成功部署虚拟机器,减轻服务器的压力,其中,所述发生故障的服务器上的每台虚拟机的配置信息仅发送给一台预先指定的服务器。
作为一种实施方式,S200包括:在确定至少两台所述预先指定的服务器中的每台服务器的剩余资源均大于等于所述所需存储资源时,按照剩余资源的大小,将所述配置信息发送至所述至少两台所述预先指定的服务器中的剩余资源较大的服务器。
在所述预先指定的服务器的数量为至少两台时,通过分别将至少两台所述预先指定服务器中的每台服务器的剩余资源与所述所需存储资源进行单独比较,在确定至少两台所述预先指定的服务器中的每台服务器的剩余资源均大于等于所述所需存储资源时,按照剩余资源的大小,将所述配置信息发送至所述至少两台所述预先指定的服务器中的剩余资源最大的一台服务器,以缓解剩余资源较小的服务器的压力。
作为一种实施方式,将所述发生故障的服务器上的每台虚拟机的配置信息分别发送至所述至少两台所述预先指定的服务器中的剩余资源较大的一台服务器、两台服务器、三台服务器等,其中,所述发生故障的服务器上的每台虚拟机的配置信息仅发送给一台所述预先指定的服务器。在不同的预先指定的服务器上部署所述发生故障的虚拟机能够减轻预先指定的服务器的压力。
S300:预先指定的服务器基于所述配置信息部署与所述虚拟机。
在所述预先指定的服务器获取到云管平台发送的所述配置信息后,所述预先指定的服务器基于所述配置信息在该预先指定的服务器上部署与所述配置信息对应的虚拟机。
作为一种实施方式,所述方法还包括:D1和D2。
D1:在确定所述预先指定的服务器的剩余存储资源小于所述所需存储资源时或所述预先指定的服务器故障时,从除所述预先指定的服务器之外的其它服务器中确定出剩余存储资源大于等于所述所需存储资源的备用服务器。
在确定所述预先指定的服务器的剩余存储资源小于所述所需存储资源时或所述预先指定的服务器故障时,分别将所述云系统中的除所述预先指定的服务器之外的每台服务器的剩余资源的与所述存储资源的进行大小比较,从云系统中确定出剩余存储资源大于等于所述所需存储资源的至少一台备用服务器。
作为一种实施方式,在确定所述预先指定的服务器的剩余存储资源小于所述所需存储资源时或所述预先指定的服务器故障时,将所述云系统中的除所述预先指定的服务器之外的任意一台服务器的剩余资源的与所述存储资源进行大小比较,从云系统中确定出剩余存储资源大于等于所述所需存储资源的一台备用服务器。
D2:将所述配置信息发送给所述备用服务器,以使所述备用服务器基于所述配置信息部署与所述发生故障的服务器对应的虚拟机。
在所述备用服务器的数量为至少两台时,按照剩余资源的大小,将所述配置信息发送给剩余资源最大的所述备用服务器,以使所述备用服务器基于所述配置信息部署与所述发生故障的服务器对应的虚拟机。
作为一种实施方式,在所述备用服务器的数量为至少两台时,将所述配置信息发送给任意一台所述备用服务器。
作为一种实施方式,在所述备用服务器的数量为至少两台时,将所述发生故障的服务器上的每台虚拟机的配置信息对应的发送给至少两台所述备用服务器。其中,所述发生故障的服务器上的每台虚拟机的配置信息仅发送给一台所述备用服务器。
作为一种实施方式,所述备用服务器和所述发生故障的服务器属于不同的云数据中心。
作为一种实施方式,所述备用服务器和所述发生故障的服务器属于相同的云数据中心。
在所述发生故障的服务器恢复时,为了节约服务器的资源,作为一种实施方式,所述方法还包括:
在所述发生故障的服务器从故障状态恢复到正常状态时,删除所述发生故障的服务器在发生故障前部署的所有虚拟机。
定时或不定时的检测云系统中的服务器的运行状态,在所述发生故障的服务器从故障状态恢复到正常状态时,删除所述发生故障的服务器在发生故障前部署的所有虚拟机。
例如,在2019年6月8日部署有虚拟机a11、a22的服务器a1发生故障时,在2019年6月9日服务器a1恢复工作时,删除服务a1上部署的虚拟机a11和a22。
请参照图3,本申请实施提供一种故障虚拟机的恢复装置400的结构示意图,所述装置包括:
配置信息获取单元410,用于在确定检测到部署有虚拟机的服务器发生故障时,获取部署在所述发生故障的服务器上的虚拟机的配置信息。
第一部署单元420,用于在确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源时,将所述配置信息发送至所述预先指定的服务器,以使所述预先指定的服务器基于所述配置信息部署与所述发生故障的服务器对应的虚拟机。
作为一种实施方式,第一部署单元420还用于,在确定至少一台所述预先指定的服务器中的每台服务器的剩余资源均大于等于所述所需存储资源时,按照剩余资源的大小,将所述配置信息发送至所述至少一台所述预先指定的服务器中的剩余资源较大的服务器。
作为一种实施方式,所述装置还包括:备用服务器确定单元,用于在确定所述预先指定的服务器的剩余存储资源小于所述所需存储资源时,从除所述预先指定的服务器之外的其它服务器中确定出剩余存储资源大于等于所述所需存储资源的备用服务器;第二部署单元,用于将所述配置信息发送给所述备用服务器,以使所述备用服务器基于所述配置信息部署与所述发生故障的服务器对应的虚拟机。
作为一种实施方式,所述装置还包括:删除单元,用于在所述发生故障的服务器恢复时,删除所述发生故障的服务器在发生故障前部署的所有虚拟机。
本实施例对的各功能单元实现各自功能的过程,请参见上述图1和图2所示实施例中描述的内容,此处不再赘述。
本申请实施例提供一种电子设备100的结构示意图,如图4所示,电子设备100为云系统中服务器等,在本申请实施例中,电子设备可以是个人电脑(personal computer,PC)、平板电脑、智能手机、个人数字助理(personal digital assistant,PDA)等。
电子设备100可以包括:存储器102、处理101和通信总线,通信总线用于实现这些组件的连接通信。
存储器102用于存储部署在发生故障的服务器上的虚拟机的配置信息,以及本申请实施例提供的故障虚拟机的恢复方法及装置对应的计算程序指令等各种数据,其中,存储器102可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器101用于读取并运行存储于存储器中的计算机程序指令时,执行本申请实施例提供的故障虚拟机的恢复方法的步骤。
其中,处理器101可能是一种集成电路芯片,具有信号的处理能力。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
此外,本申请实施例还提供了一种存储介质,在该存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行本申请任一项实施方式所提供的方法。
综上所述,本申请各实施例提出的故障虚拟机的恢复方法、装置、电子设备及存储介质,在确定检测到部署有虚拟机的服务器发生故障时,在预先指定的服务器上基于所述部署信息部署与所述发生故障的服务器对应的虚拟机,与从除发生故障以外的其它服务器中确定出满足疏散要求的服务器相比,疏散过程可控,能够及时将部署在发生故障的服务器上的虚拟机重新部署,提高部署效率,继而提高业务系统的可靠性。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

Claims (10)

1.一种故障虚拟机的恢复方法,其特征在于,所述方法包括:
在确定检测到部署有虚拟机的服务器发生故障时,获取部署在所述发生故障的服务器上的虚拟机的配置信息;
在确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源时,将所述配置信息发送至所述预先指定的服务器,以使所述预先指定的服务器基于所述配置信息部署所述虚拟机。
2.根据权利要求1所述的方法,其特征在于,确定检测到部署有虚拟机的服务器发生故障的步骤,包括:
检测部署有虚拟机的服务器的运行状态;
在所述部署有虚拟机的服务器的运行状态为故障状态时,开始计时;
在所述计时达到预设时长后,再次检测所述部署有虚拟机的服务器的运行状态;
在再次检测的结果为所述部署有虚拟机的服务器的运行状态依然为故障状态时,确定所述部署有虚拟机的服务器发生故障。
3.根据权利要求1所述的方法,其特征在于,所述预先指定的服务器和所述发生故障的服务器属于不同的云数据中心。
4.根据权利要求1所述的方法,其特征在于,将所述配置信息发送至预先指定的服务器,所述方法包括:
在确定至少两台所述预先指定的服务器中的每台服务器的剩余资源均大于等于所述所需存储资源时,按照剩余资源的大小,将所述配置信息发送至所述至少两台所述预先指定的服务器中的剩余资源较大的服务器。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在确定所述预先指定的服务器的剩余存储资源小于所述所需存储资源时或所述预先指定的服务器故障时,从除所述预先指定的服务器之外的其它服务器中确定出剩余存储资源大于等于所述所需存储资源的备用服务器;
将所述配置信息发送给所述备用服务器,以使所述备用服务器基于所述配置信息部署与所述发生故障的服务器对应的虚拟机。
6.根据权利要求5所述的方法,其特征在于,所述备用服务器和所述发生故障的服务器属于不同的云数据中心。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述发生故障的服务器从故障状态恢复到正常状态时,删除所述发生故障的服务器在发生故障前部署的所有虚拟机。
8.一种故障虚拟机的恢复装置,其特征在于,所述装置包括:
配置信息获取单元,用于在确定检测到部署有虚拟机的服务器发生故障时,获取部署在所述发生故障的服务器上的虚拟机的配置信息;
部署单元,用于在确定预先指定的服务器的剩余资源大于等于基于所述配置信息部署虚拟机所需存储资源时,将所述配置信息发送至所述预先指定的服务器,以使所述预先指定的服务器基于所述配置信息部署与所述发生故障的服务器对应的虚拟机。
9.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器中存储有计算机程序指令,其特征在于,所述计算机程序指令被所述处理器读取并运行时,执行如权利要求1-7中任一项所述的方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序指令,所述计算机程序指令被计算机读取并运行时,执行如权利要求1-7中任一项所述的方法的步骤。
CN201910547522.6A 2019-06-21 2019-06-21 故障虚拟机的恢复方法、装置、电子设备及存储介质 Pending CN110413373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910547522.6A CN110413373A (zh) 2019-06-21 2019-06-21 故障虚拟机的恢复方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910547522.6A CN110413373A (zh) 2019-06-21 2019-06-21 故障虚拟机的恢复方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110413373A true CN110413373A (zh) 2019-11-05

Family

ID=68359539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910547522.6A Pending CN110413373A (zh) 2019-06-21 2019-06-21 故障虚拟机的恢复方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110413373A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111722911A (zh) * 2020-06-23 2020-09-29 浪潮云信息技术股份公司 一种云中心宿主机发生宕机时自动疏散的方法
CN113778463A (zh) * 2020-06-09 2021-12-10 华为技术有限公司 一种业务服务部署方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104079647A (zh) * 2014-06-27 2014-10-01 杭州华三通信技术有限公司 用于虚拟化集群的选举方法及装置
US9348646B1 (en) * 2014-09-22 2016-05-24 Amazon Technologies, Inc. Reboot-initiated virtual machine instance migration
CN106959886A (zh) * 2017-05-15 2017-07-18 河南科技学院 一种基于云计算的虚拟机部署管控平台及使用方法
CN107707413A (zh) * 2017-11-10 2018-02-16 郑州云海信息技术有限公司 一种集群容灾方法及装置
CN109254832A (zh) * 2018-09-11 2019-01-22 郑州云海信息技术有限公司 一种虚拟机启动方法、装置、存储介质和计算机设备质
CN109271257A (zh) * 2018-10-11 2019-01-25 郑州云海信息技术有限公司 一种虚拟机迁移部署的方法及设备
CN109669762A (zh) * 2018-12-25 2019-04-23 深圳前海微众银行股份有限公司 云计算资源管理方法、装置、设备及计算机可读存储介质
CN109818785A (zh) * 2019-01-15 2019-05-28 无锡华云数据技术服务有限公司 一种数据处理方法、服务器集群及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104079647A (zh) * 2014-06-27 2014-10-01 杭州华三通信技术有限公司 用于虚拟化集群的选举方法及装置
US9348646B1 (en) * 2014-09-22 2016-05-24 Amazon Technologies, Inc. Reboot-initiated virtual machine instance migration
CN106959886A (zh) * 2017-05-15 2017-07-18 河南科技学院 一种基于云计算的虚拟机部署管控平台及使用方法
CN107707413A (zh) * 2017-11-10 2018-02-16 郑州云海信息技术有限公司 一种集群容灾方法及装置
CN109254832A (zh) * 2018-09-11 2019-01-22 郑州云海信息技术有限公司 一种虚拟机启动方法、装置、存储介质和计算机设备质
CN109271257A (zh) * 2018-10-11 2019-01-25 郑州云海信息技术有限公司 一种虚拟机迁移部署的方法及设备
CN109669762A (zh) * 2018-12-25 2019-04-23 深圳前海微众银行股份有限公司 云计算资源管理方法、装置、设备及计算机可读存储介质
CN109818785A (zh) * 2019-01-15 2019-05-28 无锡华云数据技术服务有限公司 一种数据处理方法、服务器集群及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778463A (zh) * 2020-06-09 2021-12-10 华为技术有限公司 一种业务服务部署方法及装置
CN113778463B (zh) * 2020-06-09 2023-01-06 华为技术有限公司 一种业务服务部署方法及装置
CN111722911A (zh) * 2020-06-23 2020-09-29 浪潮云信息技术股份公司 一种云中心宿主机发生宕机时自动疏散的方法

Similar Documents

Publication Publication Date Title
CN106850260A (zh) 一种虚拟化资源管理平台的部署方法和装置
CN104618155B (zh) 一种虚拟机容错的方法、装置及系统
CN109743358A (zh) 异步消息接口熔断控制方法、装置、计算机设备及存储介质
CN112235136B (zh) 一种网络文件系统备份方法、系统、终端及存储介质
CN110413373A (zh) 故障虚拟机的恢复方法、装置、电子设备及存储介质
CN107122229A (zh) 一种虚拟机恢复方法及装置
CN112491980B (zh) 一种云主机服务管理方法、系统、终端及存储介质
CN104793981B (zh) 一种虚拟机集群的在线快照管理方法及装置
CN110019873A (zh) 人脸数据处理方法、装置及设备
CN106681858A (zh) 一种虚拟机数据容灾方法及管理装置
CN114064217B (zh) 一种基于OpenStack的节点虚拟机迁移方法及装置
CN115292003A (zh) 服务器故障恢复方法、装置、电子设备及存储介质
CN108762886A (zh) 虚拟机的故障检测恢复方法及系统
CN107688512A (zh) 一种优化虚拟机数据备份方法和系统
CN106874214A (zh) 云硬盘资源的回收方法及相关装置
CN113608765A (zh) 数据处理方法、装置、设备以及存储介质
CN104717175B (zh) 虚拟桌面的处理方法和系统
CN103457771B (zh) 一种ha的虚拟机集群的管理方法和设备
CN112799879B (zh) 节点的故障处理方法、装置、设备和存储介质
CN109271454A (zh) 一种数据同步的方法及网络设备
CN110618884A (zh) 故障监控方法、虚拟化的网络功能模块管理器和存储介质
US9860112B2 (en) Techniques for synchronizing operations between regions when a network connection fails
CN114281473A (zh) 云平台测试环境管理方法、系统、终端及存储介质
CN109101253B (zh) 云计算系统中主机的管理方法和装置
CN111813707A (zh) 一种数据同步方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105