CN108958883B

CN108958883B - 云计算集群中虚拟机的恢复方法及系统

Info

Publication number: CN108958883B
Application number: CN201810623622.8A
Authority: CN
Inventors: 马文军
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2021-04-09
Anticipated expiration: 2038-06-15
Also published as: CN108958883A

Abstract

本发明实施例提供的一种云计算集群中虚拟机的恢复方法及系统，应用于云计算集群的管理服务器，通过获取物理机的异常信息以及物理机的虚拟机上业务的业务信息，根据异常信息，获取第一虚拟机的属性信息。从云计算集群中非异常物理机上，选择与第一虚拟机具有相同属性信息的第二虚拟机，基于业务信息，在第二虚拟机上启动业务信息对应的业务。由管理服务器获取物理机异常信息以及物理机的虚拟机上业务的业务信息，自动恢复虚拟机并启动业务。与人工手动恢复虚拟机的方式相比，节省了人工确定异常信息以及手动查找业务信息并恢复虚拟机的时间，提高了异常信息确定以及虚拟机恢复的效率，减少了虚拟机异常造成的业务中断时延。

Description

云计算集群中虚拟机的恢复方法及系统

技术领域

本发明涉及云计算技术领域，特别是涉及一种云计算集群中虚拟机的恢复方法及系统。

背景技术

云计算集群利用虚拟技术向用户提供按需分配的资源，虚拟技术所依托的虚拟机建立在云计算集群中的物理机上，在云计算集群运行过程中，不可避免地会出现因物理机异常导致的虚拟机异常。例如，物理机资源占满导致的虚拟机卡顿、物理机重启及物理机宕机导致的虚拟机不可用等。

针对上述情况，为了避免虚拟机异常造成运行在虚拟机上的云计算集群业务异常，对应的虚拟机恢复方法中，采用人工恢复虚拟机的方式手动恢复虚拟机，从而实现云计算集群业务的恢复。但是，人工恢复需要一定的操作时间，造成虚拟机从发生异常到恢复正常、重新投入运行，需要经过一定的时长，进而导致云计算集群业务出现一定时间的中断，降低了业务效率。

发明内容

本发明实施例的目的在于提供一种云计算集群中虚拟机的恢复方法及系统，以实现对云计算集群中虚拟机的自动恢复，减少虚拟机异常造成的业务中断时延。具体技术方案如下：

第一方面，本发明实施例提供了一种云计算集群中虚拟机的恢复方法，应用于云计算集群的管理服务器，该方法包括：

获取异常物理机的异常信息以及第一虚拟机上业务的业务信息，第一虚拟机为所述异常物理机上的虚拟机；

根据异常信息，获取第一虚拟机的属性信息；

根据属性信息，从云计算集群中非异常物理机上，选择与第一虚拟机具有相同属性信息的第二虚拟机；

基于业务信息，在第二虚拟机上启动所述业务信息对应的业务。

第二方面，本发明实施例提供了一种云计算集群中虚拟机的恢复方法，应用于云计算集群的节点服务器，该云计算集群中包括节点服务器和管理服务器，该方法包括：

采集物理机的异常信息；

将异常信息发送至管理服务器，以使管理服务器根据异常信息确定异常物理机，并基于异常信息恢复第一虚拟机，第一虚拟机为异常物理机上的虚拟机。

第三方面，本发明实施例提供了一种云计算集群中虚拟机的恢复装置，应用于云计算集群的管理服务器，该装置包括：

信息获取模块，用于获取异常物理机的异常信息以及第一虚拟机上业务的业务信息，第一虚拟机为所述异常物理机上的虚拟机；根据异常信息，获取第一虚拟机的属性信息；

虚拟机恢复模块，用于根据属性信息，从云计算集群中非异常物理机上，选择与第一虚拟机具有相同属性信息的第二虚拟机；

业务启动模块，用于基于业务信息，在第二虚拟机上启动所述业务信息对应的业务。

第四方面，本发明实施例提供了一种云计算集群中虚拟机的恢复装置，应用于云计算集群的节点服务器，该云计算集群中包括节点服务器和管理服务器，该装置包括：

信息采集模块，用于采集物理机的异常信息；

信息发送模块，用于将异常信息发送至管理服务器，以使管理服务器根据异常信息确定异常物理机，并基于异常信息恢复第一虚拟机，第一虚拟机为异常物理机上的虚拟机。

第五方面，本发明实施例提供了一种云计算集群中虚拟机的恢复系统，该系统包括：

管理服务器，管理服务器包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现如上述第一方面提供的云计算集群中虚拟机的恢复方法的步骤；

节点服务器，节点服务器包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现如上述第二方面提供的云计算集群中虚拟机的恢复方法的步骤。

本发明实施例提供的云计算集群中虚拟机的恢复方法及系统，应用于云计算集群的管理服务器，通过获取物理机的异常信息以及物理机的虚拟机上业务的业务信息，根据异常信息，获取第一虚拟机的属性信息。从云计算集群中非异常物理机上，选择与第一虚拟机具有相同属性信息的第二虚拟机，基于业务信息，在第二虚拟机上启动业务信息对应的业务。由管理服务器获取物理机异常信息以及物理机的虚拟机上业务的业务信息，自动恢复虚拟机并启动业务。与人工手动恢复虚拟机的方式相比，节省了人工确定异常信息以及手动查找业务信息并恢复虚拟机的时间，提高了异常信息确定以及虚拟机恢复的效率，减少了虚拟机异常造成的业务中断时延。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明一实施例的云计算集群中虚拟机的恢复方法的流程示意图；

图2为本发明另一实施例的云计算集群中虚拟机的恢复方法的流程示意图；

图3为本发明的云计算集群中异常物理机的异常信息获取方法的流程示意图；

图4为本发明一实施例的云计算集群中虚拟机的恢复装置的结构示意图；

图5为本发明另一实施例的云计算集群中虚拟机的恢复装置的结构示意图；

图6为本发明再一实施例的云计算集群中虚拟机的恢复装置的结构示意图；

图7为本发明一实施例的云计算集群中虚拟机的恢复系统的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了实现对云计算集群中虚拟机的自动恢复，减少虚拟机异常造成的业务中断时延，本发明实施例提供了一种云计算集群中虚拟机的恢复方法及系统。

下面首先对本发明一实施例的云计算集群中虚拟机的恢复方法进行介绍。

如图1所示，本发明一实施例的云计算集群中虚拟机的恢复方法的流程，应用于云计算集群的管理服务器，该方法可以包括：

S101，获取异常物理机的异常信息以及第一虚拟机上业务的业务信息，第一虚拟机为异常物理机上的虚拟机。

异常信息为异常物理机的异常状态信息，可以包括宕机信息、重启信息以及预测异常信息。异常物理机的异常信息获取方式，可以是云计算集群中的节点服务器实时监控集群中的物理机，在检测到物理机异常时向管理服务器发送该异常物理机的异常信息。或者，物理机发生异常时触发物理机上预设的异常信息发送装置，该装置向管理服务器发送该物理机的异常信息。

第一虚拟机上业务的业务信息可以共享存储在云计算集群的后端，且存储的业务信息中包含虚拟机的标识信息，管理服务器可以根据第一虚拟机的标识信息获取集群后端存储的相应业务信息，以用于后续启动该业务。当然，为了提高云计算集群承担风险的能力，业务信息也可以共享存储在除云计算集群以外的其他网络或存储设备中，且存储的业务信息中包含虚拟机的标识信息，管理服务器可以根据第一虚拟机的标识信息获取其他网络或存储设备中存储的相应业务信息。

S102，根据异常信息，获取第一虚拟机的属性信息。

考虑到对于具有不同异常信息的物理机，可以采用不同的方式恢复该物理机上的虚拟机，因此可以在恢复第一虚拟机之前，根据异常信息获取第一虚拟机的属性信息。第一虚拟机的属性信息可以包括第一虚拟机的配置信息，还可以包括第一虚拟机的内存上下文信息，可以共享存储在云计算集群的后端，且存储的虚拟机属性信息中包含虚拟机的标识信息，管理服务器可以根据第一虚拟机的标识信息获取集群后端存储的相应属性信息。

当然，为了提高云计算集群承担风险的能力，各虚拟机的属性信息也可以共享存储在除云计算集群以外的其他网络或存储设备中，且存储的属性信息中包含虚拟机的标识信息，管理服务器可以根据第一虚拟机的标识信息获取其他网络或存储设备中存储的相应属性信息。

S103，根据属性信息，从云计算集群中非异常物理机上，选择与第一虚拟机具有相同属性信息的第二虚拟机。

S104，基于业务信息，在第二虚拟机上启动业务信息对应的业务。

由云计算集群中非异常物理机上、与第一虚拟机具有相同属性信息的第二虚拟机替代异常物理机上的第一虚拟机，为业务提供与原有运行环境相同的运行环境，从而在第二虚拟机上利用业务信息，启动相应的业务。

本发明实施例提供的云计算集群中虚拟机的恢复方法，应用于云计算集群的管理服务器，通过获取物理机的异常信息以及物理机的虚拟机上业务的业务信息，根据异常信息，获取第一虚拟机的属性信息。从云计算集群中非异常物理机上，选择与第一虚拟机具有相同属性信息的第二虚拟机，基于业务信息，在第二虚拟机上启动业务信息对应的业务。由管理服务器获取物理机异常信息以及物理机的虚拟机上业务的业务信息，自动恢复虚拟机并启动业务。与人工手动恢复虚拟机的方式相比，节省了人工确定异常信息以及手动查找业务信息并恢复虚拟机的时间，提高了异常信息确定以及虚拟机恢复的效率，减少了虚拟机异常造成的业务中断时延。

如图2所示，本发明另一实施例的云计算集群中虚拟机的恢复方法的流程，应用于云计算集群的管理服务器，该方法可以包括：

S201，获取异常物理机的异常信息以及第一虚拟机上业务的业务信息，第一虚拟机为异常物理机上的虚拟机。

S201与图1所示实施例的S101为相同的步骤，在此不再赘述，详见图1所示实施例的描述。

获取的异常信息包括宕机信息时，执行步骤S202-S207。获取的异常信息包括重启信息或者预测异常信息时，执行步骤S208-S213。

S202，根据宕机信息，获取第一虚拟机的配置信息。

S203，根据配置信息，从云计算集群中非异常物理机上，选择与第一虚拟机具有相同配置信息的第二虚拟机。

当物理机的异常信息为宕机信息时，代表物理机将无法通过排除异常重新投入使用，第一虚拟机也就无法继续使用。因此，非异常物理机上用于恢复第一虚拟机的第二虚拟机需要与第一虚拟机的配置信息相同，以完全替代宕机物理机上的第一虚拟机。其中，第一虚拟机的配置信息可以包括第一虚拟机的CPU(Central Processing Unit，中央处理器)信息、内存信息以及硬盘信息等虚拟机硬件配置信息。

实际应用中，与第一虚拟机具有相同配置信息的第二虚拟机，具体可以包括：将第一虚拟机的配置信息复制到云计算集群中非异常物理机上，在非异常物理机上注册虚拟机，注册的虚拟机使用第一虚拟机的配置信息，从而作为与第一虚拟机具有相同配置信息的第二虚拟机。或者，根据第一虚拟机的配置信息，在云计算集群中非异常物理机上，建立与第一虚拟机具有相同配置信息的第二虚拟机。

S204，基于业务信息，在第二虚拟机上启动业务信息对应的业务。

由于没有第一虚拟机的内存上下文信息，在第二虚拟机上启动业务时，相当于重新启动业务。业务启动后将始终运行在第二虚拟机上，不再重新返回至第一虚拟机上运行。

S205，判断业务是否成功启动。若否，则执行步骤S206-S207。

为了应对实际应用中可能出现的极端情况：云计算集群中非异常物理机也出现异常而不可用，可以在第二虚拟机上启动业务后，判断业务是否成功启动，从而在启动失败时，选择在备用物理机上的虚拟机上紧急启动业务。

S206，根据配置信息，从云计算集群中的备用物理机上，选择与第一虚拟机具有相同配置信息的第三虚拟机。

S207，初始化第三虚拟机，并基于业务信息，在第三虚拟机上启动业务信息对应的业务。

采用与选择第二虚拟机相同的方式选择第三虚拟机，第三虚拟机与第二虚拟机的区别在于第三虚拟机为云计算集群中备用物理机上的虚拟机，第二虚拟机为云计算集群总非异常物理机上的物理机。当然，由于备用物理机是为了应对云计算集群中非异常物理机也发生异常的极端情况，因此，备用物理机是与云计算集群中非异常物理机不同的物理机。当然，此时第三虚拟机用于替代第二虚拟机紧急启动业务，同样是业务的重新启动。

S208，根据重启信息或者预测异常信息，获取第一虚拟机的内存上下文信息。

S209，根据内存上下文信息，从云计算集群中非异常物理机上，选择与第一虚拟机具有相同内存上下文信息的第二虚拟机。

当物理机的异常信息为重启信息或者预测异常信息时，代表物理机可以通过排除异常重新投入使用，第一虚拟机也可以继续使用。因此，非异常物理机上用于恢复第一虚拟机的第二虚拟机可以仅与第一虚拟机的内存上下文信息相同，以用于继续运行重启或预测异常物理机上的虚拟机上的业务。其中，第一虚拟机的内存上下文信息为第一虚拟机上业务进程的运行环境，包括业务中断前的运行信息和中断后需要的运行信息，可以用于实时启动业务，使业务无中断的运行。当然，为了保证业务的正常运行，第二虚拟机的可用内存应当不小于预设内存阈值，避免内存不足导致的业务无法启动问题。

实际应用中，与第一虚拟机具有相同内存上下文信息的第二虚拟机，具体可以包括：将第一虚拟机的内存上下文信息复制到云计算集群中非异常物理机上，在非异常物理机上注册虚拟机，注册的虚拟机使用第一虚拟机的内存上下文信息运行，从而作为与第一虚拟机具有相同内存上下文信息的第二虚拟机。

S210，基于业务信息，在第二虚拟机上启动业务信息对应的业务。

由于可以利用第一虚拟机的内存上下文信息运行业务，因此，在第二虚拟机上启动业务时，相当于业务的继续运行，选择第二虚拟机启动业务的时间很短，业务基本没有中断。

后续异常物理机排除异常恢复正常后，第一虚拟机也可以正常使用，此时，可以获取业务启动后在第二虚拟机上运行的内存上下文信息以及业务信息，利用此时获取的内存上下文信息以及业务信息，在第一虚拟机上启动业务。第二虚拟机用于在第一虚拟机无法运行时暂时提供第一虚拟机上业务的运行环境，避免业务中断，而不会完全替代第一虚拟机，因此，不必具有与第一虚拟机相同的配置信息。

S211，判断业务是否成功启动。若否，则执行步骤S211-S212。

判断业务是否成功启动的方法，具体可以包括：管理服务器接收业务启动时返回的启动成功信息，若在预设周期内没有反馈启动成功信息，则确定业务没有成功启动。还可以是管理服务器向虚拟机发送业务是否成功启动的查询请求，若在预设周期内虚拟机没有反馈请求响应，则确定业务没有成功启动。

S212，根据内存上下文信息，从云计算集群中的备用物理机上，选择与第一虚拟机具有相同内存上下文信息的第三虚拟机。

S213，初始化第三虚拟机，并基于业务信息，在第三虚拟机上启动业务信息对应的业务。

采用与选择第二虚拟机相同的方式选择第三虚拟机，第三虚拟机与第二虚拟机的区别在于第三虚拟机为云计算集群中备用物理机上的虚拟机，第二虚拟机为云计算集群总非异常物理机上的物理机。当然，由于备用物理机是为了应对云计算集群中非异常物理机也发生异常的极端情况，因此，备用物理机是与云计算集群中非异常物理机不同的物理机。当然，此时第三虚拟机用于替代第二虚拟机紧急启动业务，同样属于业务的继续运行。

例如，获取的异常物理机A的异常信息为宕机信息，并获取异常物理机A上的第一虚拟机a上视频播放业务的业务信息。根据宕机信息，获取第一虚拟机的配置信息。根据第一虚拟机a的配置信息，从云计算集群中非异常物理机如物理机C上，选择与第一虚拟机A具有相同配置信息的第二虚拟机c。基于第一虚拟机a上视频播放业务的业务信息，在第二虚拟机c上重新启动业务信息对应的视频播放业务。判断视频播放业务是否成功启动。若视频播放业务没有成功启动，则根据第一虚拟机a的配置信息，从云计算集群中的备用物理机如D上，选择与第一虚拟机a具有相同配置信息的第三虚拟机d。初始化第三虚拟机d，并基于第一虚拟机a上视频播放业务的业务信息，在第三虚拟机d上启动业务信息对应的视频播放业务。

获取的异常物理机B的异常信息为重启信息或者预测异常信息，并获取异常物理机B上的第一虚拟机b上邮件发送业务的业务信息。根据重启信息或者预测异常信息，获取第一虚拟机b的内存上下文信息。根据第一虚拟机b的内存上下文信息，从云计算集群中非异常物理机如C上，选择与第一虚拟机b具有相同内存上下文信息的第二虚拟机e。基于第一虚拟机b上邮件发送业务的业务信息，在第二虚拟机上启动业务信息对应的邮件发送业务。判断邮件发送业务是否成功启动。若否邮件发送业务没有成功启动，则根据第一虚拟机b的内存上下文信息，从云计算集群中的备用物理机如D上，选择与第一虚拟机b具有相同内存上下文信息的第三虚拟机f。初始化第三虚拟机f，并基于第一虚拟机b上邮件发送业务的业务信息，在第三虚拟机f上启动业务信息对应的邮件发送业务。

本发明实施例提供的云计算集群中虚拟机的恢复方法，应用于云计算集群的管理服务器，通过由管理服务器获取物理机异常信息以及物理机的虚拟机上业务的业务信息，自动恢复虚拟机并启动业务。与人工手动恢复虚拟机的方式相比，节省了人工确定异常信息以及手动查找业务信息并恢复虚拟机的时间，提高了异常信息确定以及虚拟机恢复的效率，减少了虚拟机异常造成的业务中断时延。同时，针对宕机异常的物理机，采用与第一虚拟机配置信息完全相同的第二虚拟机替代第一虚拟机，针对重启或预测异常的物理机，采用与第一虚拟机内存上下文信息相同的第二虚拟机暂时提供第一虚拟机所具有的运行环境，从而避免采用无针对性地虚拟机恢复方式造成的恢复时间占用和信息获取浪费，提高了虚拟机恢复效率。

为了减轻管理服务器的工作压力，可选的，云计算集群中还可以包括节点服务器，本发明图1或图2所示实施例中异常物理机的异常信息获取方法，应用于云计算集群的节点服务器，该方法可以包括：

采集物理机的异常信息。

利用节点服务器监控云计算集群中的物理机，从而采集物理机的异常信息。其中，物理机的异常信息可以包括物理机的宕机信息、重启信息或者预测异常信息。

将异常信息发送至管理服务器，以使管理服务器根据异常信息确定异常物理机，并基于异常信息恢复第一虚拟机，第一虚拟机为所述异常物理机上的虚拟机。

考虑到云计算集群中存在多台异常物理机的情况，发送至管理服务器的异常信息中还可以包括物理机的标识信息和/或该物理机上虚拟机的标识信息。基于接收到的异常信息，管理服务器可以确定异常物理机和第一虚拟机的信息，从而获取第一虚拟机上业务的业务信息和属性信息，进而恢复第一虚拟机并启动业务。

本发明实施例提供的云计算集群中虚拟机的恢复方法，应用于云计算集群的管理服务器，通过由管理服务器获取物理机异常信息以及物理机的虚拟机上业务的业务信息，自动恢复虚拟机并启动业务。与人工手动恢复虚拟机的方式相比，节省了人工确定异常信息以及手动查找业务信息并恢复虚拟机的时间，提高了异常信息确定以及虚拟机恢复的效率，减少了虚拟机异常造成的业务中断时延。

实际应用中，异常信息可以包括：宕机信息、重启信息或者预测异常信息。相应的，采集物理机的异常信息的方法，如图3所示，本发明的云计算集群中异常物理机的异常信息获取方法的流程，应用于云计算集群的节点服务器，该方法可以包括：

S301，按第一预设周期向物理机发送检测信息，当未收到物理机的第一响应时，则确定物理机的异常信息为宕机信息。

S302，按第二预设周期向物理机发送检测信息，当未收到物理机的第二响应时，则确定物理机的异常信息为重启信息，第二预设周期小于第一预设周期。

为了及时响应物理机异常，节点服务器可以主动向物理机发送检测信息以确定物理机的异常信息。其中，考虑到发生宕机异常时，物理机无法进行信息反馈，因此，可以按第一预设周期发送检测信息。而发生重启异常时，物理机的异常还能够进行信息反馈，因此，可以按第二预设周期发送检测信息，且第二预设周期小于第一预设周期。

例如，按第一预设周期如5秒向物理机发送检测信息，当未收到物理机5秒后的第一响应时，则确定物理机的异常信息为宕机信息。按第二预设周期如2秒向物理机发送检测信息，当未收到物理机2秒后的第二响应时，则确定物理机的异常信息为重启信息。

S303，获取物理机的运行信息。

物理机的运行信息可以是CPU的使用率，硬盘容量占用情况，业务响应时长以及物理机的温度等信息。获取物理机运行信息的方式，可以为物理机采集自身的运行信息，将运行信息发送至节点服务器，也可以是节点服务器主动获取物理机采集的物理机运行信息。

S304，基于运行信息，利用预设预测算法确定物理机是否将发生异常，若是，则确定物理机的异常信息为预测异常信息。

此外，为了能够在将要发生异常的物理机异常之前及时应对异常，可以对物理机进行异常预测，确定物理机是否将发生异常。从而降低异常发生时再处理带来的物理机修复成本，例如在物理机宕机前及时排除异常，避免宕机，由此物理机还可以继续使用，而如果物理机宕机后才发现异常，那么物理机将无法使用。同时，在将要发生异常的物理机异常之前应对异常，可以使后续管理服务器根据预测异常信息获取第一虚拟机的内存上下文信息，进而实现第一虚拟机上业务的继续运行，而不是业务的重启，有利于减少启动业务的时延。

S305，将异常信息发送至管理服务器。

在确定了异常信息后，节点服务器就可以将异常信息发送至管理服务器，由此可以是管理服务器及时响应物理机的异常。

本发明实施例提供的云计算集群中虚拟机的恢复方法，应用于云计算集群的节点服务器，由管理服务器获取物理机异常信息以及物理机的虚拟机上业务的业务信息，自动恢复虚拟机并启动业务。与人工手动恢复虚拟机的方式相比，节省了人工确定异常信息以及手动查找业务信息并恢复虚拟机的时间，提高了异常信息确定以及虚拟机恢复的效率，减少了虚拟机异常造成的业务中断时延。同时，通过节点服务器对物理机进行的异常预测，降低异常发生时再处理带来的物理机修复成本和业务启动时延。

可选的，图3所示实施例的S304中的预设算法，具体可以包括：

判断运行信息是否大于预设运行阈值，若是，则确定物理机将发生异常。

预设运行阈值可以是根据历史经验确定的、物理机最大负荷时的各项运行信息。当然，只要物理机的各项运行信息中有一项大于预设运行阈值，就可以确定物理机将发生异常。

例如，物理机CPU使用率的预设运行阈值为70％，当CPU使用率超过70％时将导致CPU异常，进而造成物理机异常。物理机硬盘占用量的预设运行阈值为90％，当硬盘占用量超过90％时将导致硬盘异常，进而造成物理机异常。

或者，

将运行信息输入预设运行拟合函数，得到运行拟合曲线。判断运行拟合曲线与预设标准曲线的偏离度是否大于预设阈值，若大于，则确定物理机将发生异常。

其中，预设运行拟合函数可以是预先采集非异常物理机的运行信息，利用预设拟合算法，例如最小二乘拟合算法，多分类模型等算法，得到的运行拟合函数。运行拟合曲线与预设标准曲线的偏离度具体可以是欧式距离。

相应于上述方法实施例，本发明一实施例还提供了云计算集群中虚拟机的恢复装置，应用于云计算集群的管理服务器。

如图4所示，本发明一实施例的云计算集群中虚拟机的恢复装置的结构，该装置可以包括：

信息获取模块401，用于获取异常物理机的异常信息以及第一虚拟机上业务的业务信息，第一虚拟机为异常物理机上的虚拟机；根据异常信息，获取第一虚拟机的属性信息；

虚拟机恢复模块402，用于根据属性信息，从云计算集群中非异常物理机上，选择与第一虚拟机具有相同属性信息的第二虚拟机；

业务启动模块403，用于基于业务信息，在第二虚拟机上启动业务信息对应的业务。

本发明实施例提供的云计算集群中虚拟机的恢复装置，应用于云计算集群的管理服务器，通过由管理服务器获取物理机异常信息以及物理机的虚拟机上业务的业务信息，自动恢复虚拟机并启动业务。与人工手动恢复虚拟机的方式相比，节省了人工确定异常信息以及手动查找业务信息并恢复虚拟机的时间，提高了异常信息确定以及虚拟机恢复的效率，减少了虚拟机异常造成的业务中断时延。

如图5所示，本发明另一实施例的云计算集群中虚拟机的恢复装置的结构，该装置可以包括：

信息获取模块501，用于获取异常物理机的异常信息以及第一虚拟机上业务的业务信息，第一虚拟机为异常物理机上的虚拟机；根据异常信息，获取第一虚拟机的属性信息；

501与本发明图4所示实施例中的401为相同模块；

信息获取模块501获取的异常信息包括宕机信息时：

信息获取模块501，用于：

根据宕机信息，获取第一虚拟机的配置信息；

虚拟机恢复模块502，用于：

根据配置信息，从云计算集群中非异常物理机上，选择与第一虚拟机具有相同配置信息的第二虚拟机；

业务启动模块503，用于基于业务信息，在第二虚拟机上启动业务信息对应的业务；

判断模块504，用于判断所述业务是否成功启动；

若否，则虚拟机恢复模块502，用于根据配置信息，从云计算集群中的备用物理机上，选择与第一虚拟机具有相同配置信息的第三虚拟机；

业务启动模块503，用于初始化第三虚拟机，并基于业务信息，在第三虚拟机上启动业务信息对应的业务；

信息获取模块501获取的异常信息包括：重启信息或者预测异常信息时：

信息获取模块501，用于：

根据重启信息或者预测异常信息，获取第一虚拟机的内存上下文信息；

虚拟机恢复模块502，用于：

根据内存上下文信息，从云计算集群中非异常物理机上，选择与第一虚拟机具有相同内存上下文信息的第二虚拟机；

判断模块504，用于判断业务是否成功启动；

若否，则虚拟机恢复模块502，用于根据内存上下文信息，从云计算集群中的备用物理机上，选择与第一虚拟机具有相同内存上下文信息的第三虚拟机；

如图6所示，本发明再一实施例的云计算集群中虚拟机的恢复装置的结构，应用于云计算集群的节点服务器，该装置可以包括：

信息采集模块601，用于采集物理机的异常信息；

信息发送模块602，用于将异常信息发送至所述管理服务器，以使管理服务器根据异常信息确定异常物理机，并基于异常信息恢复第一虚拟机，第一虚拟机为异常物理机上的虚拟机。

可选的，本发明图6所示实施例中的异常信息可以包括：宕机信息、重启信息或者预测异常信息。

相应的，信息采集模块601，可以用于：

按第一预设周期向物理机发送检测信息，当未收到物理机的第一响应时，则确定物理机的异常信息为宕机信息；

按第二预设周期向物理机发送检测信息，当未收到物理机的第二响应时，则确定物理机的异常信息为重启信息，第二预设周期小于所述第一预设周期；

获取物理机的运行信息；

基于运行信息，利用预设预测算法确定物理机是否将发生异常，若是，则确定物理机的异常信息为预测异常信息。

可选的，上述实施例中的预设预测算法，可以包括：

判断运行信息是否大于预设运行阈值，若是，则确定所述物理机将发生异常；

或者，

将运行信息输入预设运行拟合函数，得到运行拟合曲线；判断运行拟合曲线与预设标准曲线的偏离度是否大于预设阈值，若大于，则确定物理机将发生异常。

本发明实施例提供的云计算集群中虚拟机的恢复装置，应用于云计算集群的节点服务器，通过节点服务器采集以及预测物理机的异常信息，并将异常信息发送给管理服务器。由管理服务器获取物理机异常信息以及物理机的虚拟机上业务的业务信息，自动恢复虚拟机并启动业务。与人工手动恢复虚拟机的方式相比，节省了人工确定异常信息以及手动查找业务信息并恢复虚拟机的时间，提高了异常信息确定以及虚拟机恢复的效率，减少了虚拟机异常造成的业务中断时延。同时，通过物理机的异常预测，降低异常发生时再处理带来的物理机修复成本和业务启动时延。

相应于上述实施例，本发明实施例还提供了一种云计算集群中虚拟机的恢复系统，如图7所示，该系统可以包括：

管理服务器701，包括处理器7011、通信接口7012、存储器7013和通信总线7014，其中，处理器7011，通信接口7012，存储器通7013过通信总线7014完成相互间的通信。存储器7013，用于存放计算机程序。处理器7011，用于执行上述存储器7013上所存放的计算机程序时，实现上述应用于管理服务器的云计算集群中虚拟机的恢复方法的所有步骤；

节点服务器702，包括处理器7021、通信接口7022、存储器7023和通信总线7024，其中，处理器7021，通信接口7022，存储器通7023过通信总线7024完成相互间的通信。存储器7023，用于存放计算机程序。处理器7021，用于执行上述存储器7023上所存放的计算机程序时，实现上述实施例中，任一应用于节点服务器的云计算集群中虚拟机的恢复方法的步骤。

本发明实施例提供的云计算集群中虚拟机的恢复系统，包括管理服务器和节点服务器，由管理服务器获取物理机异常信息以及物理机的虚拟机上业务的业务信息，自动恢复虚拟机并启动业务。与人工手动恢复虚拟机的方式相比，节省了人工确定异常信息以及手动查找业务信息并恢复虚拟机的时间，提高了异常信息确定以及虚拟机恢复的效率，减少了虚拟机异常造成的业务中断时延。同时，通过节点服务器对物理机的异常预测，降低异常发生时再处理带来的物理机修复成本和业务启动时延。

上述存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离于上述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的云计算集群中虚拟机的恢复方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线)或无线(例如：红外线、无线电、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如：DVD(Digital Versatile Disc，数字通用光盘))、或者半导体介质(例如：SSD(Solid StateDisk，固态硬盘))等。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种云计算集群中虚拟机的恢复方法，其特征在于，应用于云计算集群的管理服务器，所述方法包括：

获取异常物理机的异常信息以及第一虚拟机上业务的业务信息，所述第一虚拟机为所述异常物理机上的虚拟机；

根据所述异常信息，获取所述第一虚拟机的属性信息；其中，所述异常信息为所述异常物理机的异常状态信息；所述属性信息与所述异常信息对应；

根据所述属性信息，从所述云计算集群中非异常物理机上，选择与所述第一虚拟机具有相同属性信息的第二虚拟机；

基于所述业务信息，在所述第二虚拟机上启动所述业务信息对应的业务；

当所述异常信息为物理机无法通过排除异常重新投入使用的信息时，所述根据所述异常信息，获取所述第一虚拟机的属性信息，包括：根据所述异常信息，获取所述第一虚拟机的配置信息；

当所述异常信息为物理机能够通过排除异常重新投入使用的信息时，所述根据所述异常信息，获取所述第一虚拟机的属性信息，包括：根据所述异常信息，获取所述第一虚拟机的内存上下文信息。

2.根据权利要求1所述的方法，其特征在于，所述物理机无法通过排除异常重新投入使用时的异常信息包括：宕机信息；

所述根据所述异常信息，获取所述第一虚拟机的属性信息，包括：

根据所述宕机信息，获取所述第一虚拟机的配置信息；

所述根据所述属性信息，从所述云计算集群中非异常物理机上，选择与所述第一虚拟机具有相同属性信息的第二虚拟机，包括：

根据所述配置信息，从所述云计算集群中非异常物理机上，选择与所述第一虚拟机具有相同配置信息的第二虚拟机。

3.根据权利要求2所述的方法，其特征在于，在所述基于所述业务信息，在所述第二虚拟机上启动所述业务信息对应的业务之后，还包括：

判断所述业务是否成功启动；

若否，则根据所述配置信息，从所述云计算集群中的备用物理机上，选择与所述第一虚拟机具有相同配置信息的第三虚拟机；

初始化所述第三虚拟机，并基于所述业务信息，在所述第三虚拟机上启动所述业务信息对应的业务。

4.根据权利要求1所述的方法，其特征在于，所述物理机能够通过排除异常重新投入使用时的异常信息包括：重启信息或者预测异常信息；

根据所述重启信息或者预测异常信息，获取所述第一虚拟机的内存上下文信息；

根据所述内存上下文信息，从所述云计算集群中非异常物理机上，选择与所述第一虚拟机具有相同内存上下文信息的第二虚拟机。

5.根据权利要求4所述的方法，其特征在于，在所述基于所述业务信息，在所述第二虚拟机上启动所述业务信息对应的业务之后，还包括：

判断所述业务是否成功启动；

若否，则根据所述内存上下文信息，从所述云计算集群中的备用物理机上，选择与所述第一虚拟机具有相同内存上下文信息的第三虚拟机；

6.一种云计算集群中虚拟机的恢复方法，其特征在于，应用于云计算集群的节点服务器，所述云计算集群中包括节点服务器和管理服务器，所述方法包括：

采集物理机的异常信息；

将所述异常信息发送至所述管理服务器，以使所述管理服务器根据所述异常信息确定异常物理机，并基于所述异常信息恢复第一虚拟机，所述第一虚拟机为所述异常物理机上的虚拟机；其中，所述异常信息为所述异常物理机的异常状态信息；不同的所述异常信息对应有恢复所述虚拟机的不同方式；

所述基于所述异常信息恢复第一虚拟机，包括：

7.根据权利要求6所述的方法，其特征在于，所述异常信息包括：当物理机无法通过排除异常重新投入使用时的宕机信息，当物理机能够通过排除异常重新投入使用时的重启信息或者预测异常信息；

所述采集物理机的异常信息，包括：

按第一预设周期向物理机发送检测信息，当未收到所述物理机的第一响应时，则确定所述物理机的异常信息为宕机信息；

按第二预设周期向物理机发送检测信息，当未收到所述物理机的第二响应时，则确定所述物理机的异常信息为重启信息，所述第二预设周期小于所述第一预设周期；

获取物理机的运行信息；

基于所述运行信息，利用预设预测算法确定所述物理机是否将发生异常，若是，则确定所述物理机的异常信息为预测异常信息。

8.根据权利要求7所述的方法，其特征在于，所述预设预测算法，包括：

判断所述运行信息是否大于预设运行阈值，若是，则确定所述物理机将发生异常；

或者，

将所述运行信息输入预设运行拟合函数，得到运行拟合曲线；判断所述运行拟合曲线与预设标准曲线的偏离度是否大于预设阈值，若大于，则确定所述物理机将发生异常。

9.一种云计算集群中虚拟机的恢复装置，其特征在于，所述装置应用于云计算集群的管理服务器，所述装置包括：

信息获取模块，用于获取异常物理机的异常信息以及第一虚拟机上业务的业务信息，所述第一虚拟机为所述异常物理机上的虚拟机；根据所述异常信息，获取所述第一虚拟机的属性信息；其中，所述异常信息为所述异常物理机的异常状态信息；所述属性信息与所述异常信息对应；

虚拟机恢复模块，用于根据所述属性信息，从所述云计算集群中非异常物理机上，选择与所述第一虚拟机具有相同属性信息的第二虚拟机；

业务启动模块，用于基于所述业务信息，在所述第二虚拟机上启动所述业务信息对应的业务；

所述信息获取模块，具体用于：

当所述异常信息为物理机无法通过排除异常重新投入使用的信息时，根据所述异常信息，获取所述第一虚拟机的配置信息；

当所述异常信息为物理机能够通过排除异常重新投入使用的信息时，根据所述异常信息，获取所述第一虚拟机的内存上下文信息。

10.根据权利要求9所述的装置，其特征在于，所述物理机无法通过排除异常重新投入使用时的异常信息包括：宕机信息；

所述信息获取模块，用于：

根据所述宕机信息，获取所述第一虚拟机的配置信息；

所述虚拟机恢复模块，用于：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

判断模块，用于判断所述业务是否成功启动；

若否，则所述虚拟机恢复模块，用于根据所述配置信息，从所述云计算集群中的备用物理机上，选择与所述第一虚拟机具有相同配置信息的第三虚拟机；

所述业务启动模块，用于初始化所述第三虚拟机，并基于所述业务信息，在所述第三虚拟机上启动所述业务信息对应的业务。

12.根据权利要求9所述的装置，其特征在于，所述物理机能够通过排除异常重新投入使用时的异常信息包括：重启信息或者预测异常信息；

所述信息获取模块，用于：

所述虚拟机恢复模块，用于：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

判断模块，用于判断所述业务是否成功启动；

若否，则所述虚拟机恢复模块，用于根据所述内存上下文信息，从所述云计算集群中的备用物理机上，选择与所述第一虚拟机具有相同内存上下文信息的第三虚拟机；

14.一种云计算集群中虚拟机的恢复装置，其特征在于，应用于云计算集群的节点服务器，所述云计算集群中包括节点服务器和管理服务器，所述装置包括：

信息采集模块，用于采集物理机的异常信息；

信息发送模块，用于将所述异常信息发送至所述管理服务器，以使所述管理服务器根据所述异常信息确定异常物理机，并基于所述异常信息恢复第一虚拟机，所述第一虚拟机为所述异常物理机上的虚拟机；其中，所述异常信息为所述异常物理机的异常状态信息；不同的所述异常信息对应有恢复所述虚拟机的不同方式；

所述基于所述异常信息恢复第一虚拟机，包括：

15.根据权利要求14所述的装置，其特征在于，所述异常信息包括：当物理机无法通过排除异常重新投入使用时的宕机信息，当物理机能够通过排除异常重新投入使用时的重启信息或者预测异常信息；

所述信息采集模块，用于：

获取物理机的运行信息；

16.根据权利要求15所述的装置，其特征在于，所述预设预测算法，包括：

或者，

17.一种云计算集群中虚拟机的恢复系统，其特征在于，所述系统包括：

管理服务器，所述管理服务器包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现如权利要求1-5任一所述的方法步骤；

节点服务器，所述节点服务器包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序，实现如权利要求6-8任一所述的方法步骤。