CN103403689B

CN103403689B - 一种资源故障管理方法、装置及系统

Info

Publication number: CN103403689B
Application number: CN201280003070.1A
Authority: CN
Inventors: 郑力; 许利霞; 张羽
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-07-30
Filing date: 2012-07-30
Publication date: 2016-09-28
Anticipated expiration: 2032-07-30
Also published as: WO2014019119A1; CN103403689A

Abstract

本发明实施例公开了一种资源故障的管理方法、装置和系统，所述资源故障的管理方法方法包括：当检测到第一物理资源发生监控预警时，根据物理资源与虚拟资源的资源对应关系，获取与第一物理资源对应的第一虚拟资源；发出针对第一虚拟资源的监控预警。当检测到第二虚拟资源发生监控预警时，根据虚拟资源与物理资源的资源对应关系，获取与第二虚拟资源对应的第二物理资源；发出针对第二物理资源的监控预警。采用本发明，可根据物理资源与虚拟资源之间的资源对应关系，实现物理资源与虚拟资源的相互预警。

Description

一种资源故障管理方法、装置及系统

技术领域

本发明涉及服务器监控领域，尤其涉及一种资源故障管理方法、装置及系统。

背景技术

虚拟化技术是在操作系统和物理资源之间引入一个虚拟层，将物理资源虚拟成逻辑资源，在逻辑资源之上构建多个虚拟资源，也称为虚拟机（VM，VirtualMachine），通过对逻辑资源的调度来实现对物理资源的多路复用。通过将物理资源进行虚拟化，实现由多个虚拟机组成的虚拟机群的做法目前在服务器中使用的越来越普遍，可以提高服务器利用率，减少购买服务器的成本。随着虚拟化技术的发展，多核服务器与大量的虚拟机群也随之出现，对于整个系统的管理面临越来越大的挑战，虚拟机故障预警与管理即是其一。

目前的服务器厂商大都提供服务器整机级别的故障监控管理，虚拟化厂商提供了虚拟机的整体故障监控管理技术，管理软件厂商也有各种针对虚拟服务器的管理方案。

现有技术中有一种基于服务器的故障预测对虚拟机进行迁移的方案，具体为监视服务器的资源利用和功率消耗，当监视得到的值低于相应阈值时，服务器可以被断电，在服务器断电之前将服务器上运行的虚拟机计算机程序迁移到另一个服务器。这种技术是目前虚拟机故障监控采取的较为普遍的技术，存在如下缺点：该方案只能对服务器整体进行断电处理，而实际上服务器的故障并不一定需要服务器整个停机，整机上其他与发生故障的部件无关的虚拟机其实并不需要迁移，而一旦对服务器上所有的虚拟机进行整体迁移可能会由于耗时长，业务影响面大等对业务造成不良影响。

发明内容

本发明实施例提供一种资源故障管理方法、装置及系统，可以实现物理资源与虚拟资源间的相互预警，从而避免了对物理资源的故障或虚拟资源的故障采取简单的断电、迁移等处理方式而对业务造成的不良影响。

第一方面，本发明实施例提供了一种资源故障管理方法，所述方法包括：

当检测到第一物理资源发生监控预警时，根据物理资源与虚拟资源的资源对应关系，获取与所述第一物理资源对应的第一虚拟资源；

发出针对所述第一虚拟资源的监控预警。

第二方面，本发明实施例还提供了一种资源故障管理方法，所述方法包括：

当检测到第二虚拟资源发生监控预警时，根据虚拟资源与物理资源的资源对应关系，获取与所述第二虚拟资源对应的第二物理资源；

发出针对所述第二物理资源的监控预警。

第三方面，本发明实施例还提供了一种资源故障管理装置，所述装置包括：

资源对应关系查找模块，用于当第一物理资源发生监控预警时，根据物理资源与虚拟资源的资源对应关系，获取与所述第一物理资源对应的第一虚拟资源；

对应虚拟资源监控预警模块，用于发出针对所述第一虚拟资源的监控预警。

第四方面，本发明实施例还提供了一种资源故障管理装置，所述装置包括：

资源对应关系查找模块，用于当第二虚拟资源发生监控预警时，根据虚拟资源与物理资源的资源对应关系，获取与所述第二虚拟资源对应的第二物理资源；

对应物理资源监控预警模块，用于发出针对所述第二物理资源的监控预警。

第五方面，本发明实施例还提供了一种资源故障管理系统，包括服务器系统和如第三方面或第四方面所提出的资源故障管理装置，所述资源故障管理系统用于对所述服务器系统中的物理资源及虚拟资源进行监控预警。

实施本发明实施例，根据物理资源与虚拟资源两者之间的资源对应关系，实现了物理资源与虚拟资源间的相互预警，从而避免了对物理资源的故障或虚拟资源的故障采取简单的断电、迁移等处理方式而对业务造成的不良影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种资源故障管理系统的结构示意图；

图2是本发明的一种资源故障管理装置的第一实施例结构示意图；

图3是本发明的一种资源故障管理装置的第二实施例结构示意图；

图4是本发明的一种资源故障管理装置的第三实施例结构示意图；

图5是本发明的一种资源故障管理方法的第四实施例的方法流程图；

图6是本发明第四实施例中进行故障处理前后的资源对应关系的示意图；

图7是本发明的一种资源故障管理方法的第五实施例的方法流程图；

图8是本发明第五实施例中进行故障处理前后的资源对应关系的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例中一种资源故障管理系统的结构示意图。如图所示本发明所提供的资源故障管理系统包括服务器系统10和资源故障管理装置20。其中：

服务器系统10可以包括由一个或多个服务器组成的服务器机群，其中所有服务器上的物理资源可以虚拟化为逻辑资源，在逻辑资源上构建了包括虚拟机群在内的虚拟资源，并基于上述构建结果建立物理资源与虚拟资源的资源对应关系，和/或，虚拟资源与物理资源的资源对应关系。

本发明实施例中的物理资源指的是构成服务器系统10的物理资源池中的实际物理资源，具体可以由服务器系统10实现对计算节点、存储节点、IO（input/output，输入/输出）节点中的物理资源的池化管理，形成物理资源池，池内部可以细分为例如CPU（Central Processing Unit，中央处理器）池、内存池、IO资源池、HBA（Host Bus Adapter、主机总线适配器，可以是一个使计算机在服务器和存储装置间提供输入/输出(I/O)处理和物理连接的电路板和/或集成电路适配器）卡池、网卡池等，更具体地，物理资源可以是例如一颗CPU，一张内存卡、一块硬盘等；而逻辑资源指的是组成逻辑分区的时候用到的资源，具体如一个逻辑分区由4颗CPU32个核心、64Gb的内存、1T的存储、一个vNic（virtual Network Interface Card，虚拟网络适配器）和一个vHBA（virtual Host BusAdapter，虚拟主机总线适配器）组成，其中的一个核心或vNic等即为逻辑资源，一般可以通过逻辑分区软件将上述物理器件的资源集合构建得到逻辑资源池从而对其中的逻辑资源进行管理和使用。

本发明实施例中的虚拟资源包括虚拟机群以及在创建虚拟机时使用的虚拟硬件资源，这些资源是通过虚拟化软件将逻辑资源进行转化得到的，即包括构成虚拟机的各虚拟硬件（如vCPU，virtual Central Processing Unit，虚拟处理器）以及虚拟机本身都属于本发明中所述的虚拟资源。

现有技术中只能做到将在发生故障的服务器上运行的所有虚拟机进行整体迁移，而没有根据服务器整机和虚拟机之间更基本的物理资源和虚拟资源之间的资源对应关系，在服务器系统中对虚拟机进行精确且及时的故障预警。

在本发明实施例中，在物理资源和虚拟资源之间建立起资源对应关系可以通过多种方式，以建立物理CPU资源与虚拟CPU资源之间的资源对应关系为例，服务器中的BMC（Baseboard Management Controller，基板管理控制器）获取物理CPU资源的槽位信息，BIOS（Basic Input Output System，基本输入输出系统）获取CPU资源的核心等属性信息，并在槽位信息和属性信息间建立联系，服务器管理系统接收BMC与BIOS上报的信息，形成逻辑资源池，当虚拟化OS（Operating System，操作系统）启动后，从服务器管理系统中的逻辑资源池中选取逻辑资源，形成虚拟资源池，从而可以通过逻辑资源，建立物理资源与虚拟资源之间的资源对应关系，和/或，建立虚拟资源与物理资源的资源对应关系。上述的资源对应关系的记录方式可以有多种实现方式，如数据方式的物理资源与虚拟资源关系列表，或者对象方式的物理资源对象与虚拟资源对象绑定等。例如下表是以CPU资源为例，物理资源、逻辑资源与虚拟资源三者之间的资源对应关系：

如上表情况下虚拟资源与物理资源的资源对应关系和物理资源与虚拟资源的资源对应关系可以是反向对称的，例如物理资源中主机1中的CPU1对应到逻辑资源中的Core1～Core8组成的逻辑资源池，进而与VM0中的vCPU1建立对应关系，当主机1中的CPU1发生故障预警时，将会对VM0中的vCPU1产生直接影响，反之亦然，当VM0中的vCPU1发生故障预警时，主机1中的CPU1也可能会受到影响，例如导致资源不足、温度过高等。即：所述物理资源与虚拟资源的资源对应关系中，物理资源中主机1中的CPU1对应到虚拟资源中的VM0中的vCPU1，同时，所述虚拟资源与物理资源的资源对应关系中，虚拟资源中的VM0中的vCPU1也对应到物理资源中主机1中的CPU1。但在某些情况下也可以为非对称的，例如上述例子中虚拟机VM0中的vCPU1发生故障预警时，可能将影响主机1中的CPU1，又由于主机1中物理资源之间本身存在的关联性，还可能会间接地影响到主机1中的CPU2、CPU3等，甚至可能导致整个主机1超负载，导致主机1中所有物理资源出现故障的可能，即由于物理资源之间本身的关联性带来了虚拟资源与物理资源的资源对应关系的扩展，这时虚拟机VM0在虚拟资源与物理资源的资源对应关系中对应的物理资源就可以包括主机1的CPU1、CPU2以及CPU3，甚至为主机1中所有的物理资源，这时虚拟资源与物理资源的资源对应关系和物理资源与虚拟资源的资源对应关系就是非对称的了。

资源故障管理装置20可以对服务器系统10的物理资源和虚拟资源进行监控预警；当发生物理资源的监控预警时，资源故障管理装置20可以根据物理资源与虚拟资源的资源对应关系查找与发生监控预警的物理资源对应的虚拟资源，发出该对应的虚拟资源的监控预警；当发生虚拟资源的监控预警时，资源故障管理装置20可以根据虚拟资源与物理资源的资源对应关系查找与发生监控预警的虚拟资源对应的物理资源，发出该对应的物理资源的监控预警；进而资源故障管理装置20可以基于物理资源和虚拟资源二者之间的资源对应关系，针对发生监控预警的虚拟资源和/或发生监控预警的物理资源进行故障处理，并根据故障处理的结果实时触发服务器系统对资源对应关系的更新。

图2是本发明的一种资源故障管理装置的第一实施例结构示意图。如图所示本实施例中的资源故障管理装置可以包括：

资源对应关系查找模块220，用于当第一物理资源发生监控预警时，根据物理资源与虚拟资源的资源对应关系，获取与第一物理资源对应的第一虚拟资源。物理资源与虚拟资源的资源对应关系可以在服务器系统创建得到虚拟机群后由服务器系统生成得到，保存在服务器系统中并实时更新，资源对应关系查找模块220在需要时从服务器系统处获取，也可以在服务器系统创建得到虚拟机群后由资源故障管理装置根据服务器系统创建得到的虚拟机群生成物理资源与虚拟资源的资源对应关系，并实时追踪服务器系统中的物理资源与虚拟资源的资源对应关系的变化进行实时更新，资源对应关系查找模块220在需要时获取本地存储的物理资源与虚拟资源的资源对应关系。资源对应关系查找模块220从物理资源与虚拟资源的资源对应关系中查找第一物理资源与第一虚拟资源的资源对应关系，获取与第一物理资源对应的第一虚拟资源。

对应虚拟资源监控预警模块230，用于发出针对第一虚拟资源的监控预警。对应虚拟资源监控预警模块230可以从资源对应关系查找模块220获取与发生监控预警的第一物理资源对应的第一虚拟资源，从而能够精确预警对应的虚拟资源故障。

本发明实施例，根据物理资源与虚拟资源的资源对应关系，实现了在发生物理资源监控预警时，对虚拟资源进行准确预警。

进一步的，本实施例中资源故障管理装置还可以包括：物理资源监控预警模块210，用于对物理资源进行实时监控。具体的，物理资源监控预警模块210可以对服务器内的各物理资源进行实时监控预警：例如，各物理资源的温度、电压、寄存器故障值等状态，并根据上述状态产生对应的监控信息，当监控到物理资源发生状态异常时，就可以发出针对物理资源的监控预警。同时，当监控到第一物理资源发生状态异常时，物理资源监控预警模块210可以将第一物理资源发生监控预警的信息通知资源对应关系查找模块220，以便资源对应关系查找模块220获取与第一物理资源对应的第一虚拟资源。

进一步的，本实施例中资源故障管理装置还可以包括故障处理模块240，用于基于物理资源与虚拟资源的资源对应关系，针对发生监控预警的第一虚拟资源和/或发生监控预警的第一物理资源进行故障处理。具体的，故障处理模块240可以通过建立一个监控预警故障处理的规则库，当监控预警产生时，故障处理模块240在监控预警故障处理的规则库中匹配该监控预警，确定故障处理策略，并调用其他相关模块或系统执行此对策，对与发生监控预警的虚拟资源无关的物理资源不进行动作。故障处理模块240可以在预设的监控预警故障处理的规则库中对第一物理资源的监控预警和/或第一虚拟资源的监控预警进行匹配，确定故障处理策略，基于物理资源与虚拟资源的资源对应关系，对第一物理资源和/或第一虚拟资源进行故障处理，包括针对发生监控预警的第一虚拟资源确定故障处理对策，如替换资源、增减资源、虚拟机备份、停机或迁移等，其中替换、增减资源以及虚拟机迁移等可以根据物理资源与虚拟资源的资源对应关系查找可用的物理资源；针对发生监控预警的第一物理资源制定如隔离、下线、复位、散热调节或修复等处理对策，还包括根据物理资源与虚拟资源的资源对应关系进行负载均衡调节，例如因负载过高将第一物理资源对应的其他虚拟资源迁移出去或因负载较低可以将其他的虚拟资源迁移至所述第一物理资源上。本发明实施例，根据物理资源与虚拟资源的资源对应关系，实现了对发生监控预警的物理资源和/或发生监控预警的虚拟资源进行有效精确的故障处理。

进一步的，本实施例中资源故障管理装置还可以包括资源对应关系更新模块，用于根据故障处理模块240对所述第一虚拟资源和/或所述第一物理资源进行故障处理的结果更新所述物理资源与虚拟资源的资源对应关系，可以为在故障处理模块240对发生监控预警的虚拟资源和/或物理资源进行故障处理的过程中或完成后，触发对发生了变化的资源对应关系进行更新，从而实现了物理资源与虚拟资源的资源对应关系的及时有效更新。

进一步的，本实施例中资源故障管理装置还可以包括：虚拟资源管理模块，用于在物理资源上构建逻辑资源，在逻辑资源上构建所述虚拟资源；资源对应关系模块，用于建立物理资源与虚拟资源的资源对应关系。

例如如图6所示的服务器系统中，已建立图中所示的物理资源与虚拟资源的资源对应关系，物理资源监控预警模块210首先发出针对主机1中的CPU4的监控预警，资源对应关系查找模块220根据预先建立的物理资源与虚拟资源的资源对应关系，查找发生监控预警的CPU4对应的虚拟资源为VM2中的vCPU，然后对应虚拟资源监控预警模块230就发出针对VM2中的vCPU的监控预警，最后故障处理模块240根据物理资源与虚拟资源的资源对应关系制定如下故障处理对策：将发生监控预警的主机1的CPU4进行隔离，将VM2中的vCPU进行迁移，根据物理资源与虚拟资源的资源对应关系发现主机1中已没有空闲的CPU，因此将发生监控预警的VM2迁移到主机2使用其空闲CPU1。

图3是本发明的一种资源故障管理装置的第二实施例结构示意图。如图所示本实施例中的资源故障管理装置可以包括：

资源对应关系查找模块320，用于当第二虚拟资源发生监控预警时，根据虚拟资源与物理资源的资源对应关系，获取与第二虚拟资源对应的第二物理资源。虚拟资源与物理资源的资源对应关系可以在服务器系统创建得到虚拟机群后由服务器系统生成得到，保存在服务器系统中并实时更新，资源对应关系查找模块320在需要时从服务器系统处获取，也可以在服务器系统创建得到虚拟机群后，由资源故障管理装置根据服务器系统创建得到的虚拟机群生成虚拟资源与物理资源的资源对应关系，并实时追踪服务器系统中的虚拟资源与物理资源的资源对应关系的变化进行实时更新，资源对应关系查找模块320在需要时获取本地存储的所述虚拟资源与物理资源的资源对应关系。资源对应关系查找模块320从虚拟资源与物理资源的资源对应关系中查找第二虚拟资源与第二物理资源的资源对应关系，获取与第二虚拟资源对应的第二物理资源。

对应物理资源监控预警模块330，用于发出针对第二物理资源的监控预警。对应物理资源监控预警模块330可以从资源对应关系查找模块320获取其查找的第二虚拟资源对应的第二物理资源，从而能够精确预警对应的物理资源故障。

本发明实施例，根据虚拟资源与物理资源的资源对应关系，实现了在发生虚拟资源监控预警时，对物理资源进行准确预警。

进一步的，本实施例中资源故障管理装置还可以包括：虚拟资源监控预警模块310，用于对虚拟资源进行实时监控预警。具体的，虚拟资源监控预警模块310可以对各虚拟资源进行监控，例如包括监控各虚拟机的性能参数，虚拟机的资源状态信息，虚拟机群的负载情况等，当监控到上述虚拟资源状态异常时，就发出针对虚拟资源的监控预警。同时，当监控到第二虚拟资源发生状态异常时，虚拟资源监控预警模块310可以将第二虚拟资源发生监控预警的信息通知资源对应关系查找模块320，以便资源对应关系查找模块320获取与第二虚拟资源对应的第二物理资源。

进一步的，本实施例中资源故障管理装置还可以包括故障处理模块340，用于基于所述虚拟资源与物理资源的资源对应关系，针对所述发生监控预警的第二虚拟资源和/或发生监控预警的第二物理资源进行故障处理。具体的，故障处理模块340可以通过建立一个监控预警故障处理的规则库，当监控预警产生时，故障处理模块340在监控预警故障处理的规则库中匹配该监控预警，确定故障处理策略，并调用其他相关模块或系统执行此对策，对与发生监控预警的虚拟资源无关的物理资源不进行动作。故障处理模块340可以在预设的监控预警故障处理的规则库中对所述第二物理资源的监控预警和/或所述第二虚拟资源的监控预警进行匹配，确定故障处理策略，基于所述虚拟资源与物理资源的资源对应关系，对所述第二物理资源和/或所述第二虚拟资源进行故障处理，包括针对发生监控预警的第二虚拟资源制定故障处理对策，如替换资源、增减资源、虚拟机备份、停机或迁移等，其中替换、增减资源以及虚拟机迁移等可以根据所述虚拟资源与物理资源的资源对应关系查找可用的物理资源；针对发生监控预警的第二物理资源制定如隔离、下线、复位、散热调节、修复等处理对策，还包括根据所述虚拟资源与物理资源的资源对应关系进行负载均衡调节，例如因负载过高将第二物理资源对应的其他虚拟资源迁移出去或因负载较低可以将其他的虚拟资源迁移至所述第二物理资源上。本发明实施例，根据虚拟资源与物理资源的资源对应关系，实现了对发生监控预警的物理资源和/或发生监控预警的虚拟资源进行有效精确的故障处理。

进一步的，本实施例中资源故障管理装置还可以包括资源对应关系更新模块，用于根据故障处理模块340对所述第二虚拟资源和/或所述第二物理资源进行故障处理的结果更新所述虚拟资源与物理资源的资源对应关系，可以为在故障处理模块340对发生监控预警的虚拟资源和/或物理资源进行故障处理的过程中或完成后，触发对发生了变化的资源对应关系进行更新，从而实现了虚拟资源与物理资源的资源对应关系的及时有效更新。

进一步的，本实施例中资源故障管理装置还可以包括：虚拟资源管理模块，用于在物理资源上构建逻辑资源，在逻辑资源上构建所述虚拟资源；资源对应关系模块，用于建立虚拟资源与物理资源的资源对应关系。

例如图8所示的服务器系统中，已建立图中所示的虚拟资源与物理资源的资源对应关系，虚拟资源监控预警模块310首先发出VM0计算资源不足的监控预警，资源对应关系查找模块320根据所述虚拟资源与物理资源的资源对应关系查找VM0对应的物理资源为主机1中的CPU1和CPU2，对应物理资源监控预警模块330就可以发出针对主机1中的CPU1和CPU2的监控预警，进而故障处理模块340根据虚拟资源与物理资源的资源对应关系发现主机1中已没有空闲的CPU了，因此制定如下故障处理对策：就近将主机1中的CPU3分配给VM0，并将VM1迁移到主机2中，这就解决了VM0以及主机1中的CPU1和CPU2的计算资源不足的瓶颈。在其他实施例中由于物理资源与物理资源之间存在的关联，VM0当进行高精度海量运算时可能会导致主机1中的所有物理资源，例如CPU1和CPU2之外的其他CPU或内存等都会受到影响，例如资源超负载等，虚拟资源与物理资源的资源对应关系中VM0对应的物理资源就包括了主机1中的其他物理资源，这时就需要对主机1中的其它物理资源也发出监控预警。

图4是本发明的一种资源故障管理装置的第三实施例结构示意图。如图所示本实施例中的资源故障管理装置可以包括：

资源对应关系查找模块430，用于当第一物理资源发生监控预警时，可以根据物理资源与虚拟资源的资源对应关系，获取与第一物理资源对应的第一虚拟资源，而当第二虚拟资源发生监控预警时，资源对应关系查找模块430可以根据虚拟资源与物理资源的资源对应关系，获取与第二虚拟资源对应的第二物理资源。需要指出的是，本文提及的第一物理资源和第一虚拟资源、第二物理资源和第二虚拟资源并非特指，例如本实施例中发生监控预警的第一物理资源可以是物理资源池中的任意一个实际物理器件，也可以包括多个实际物理器件，资源对应关系查找模块430查找第一物理资源对应的第一虚拟资源，物理资源与虚拟资源的资源对应关系中每一个物理资源对应的虚拟资源可以为一个，也可以对应有多个，多个物理资源也可以对应到同一个虚拟资源，虚拟资源与物理资源的资源对应关系类似，不再赘述。资源对应关系查找模块430可以从物理资源与虚拟资源的资源对应关系中查找第一物理资源与第一虚拟资源的资源对应关系，获取与第一物理资源对应的第一虚拟资源；从虚拟资源与物理资源的资源对应关系中查找第二虚拟资源与第二物理资源的资源对应关系，获取与第二虚拟资源对应的所述第二物理资源。

对应虚拟资源监控预警模块440，用于发出针对第一虚拟资源的监控预警。对应虚拟资源监控预警模块440可以从资源对应关系查找模块430获取与发生监控预警的第一物理资源对应的第一虚拟资源，从而能够精确预警对应的虚拟资源故障。

对应物理资源监控预警模块450，用于发出针对第二物理资源的监控预警。对应物理资源监控预警模块450可以从资源对应关系查找模块430获取与发生监控预警的第二虚拟资源对应的第二物理资源，从而能够精确预警对应的物理资源故障。

本发明实施例，根据虚拟资源与物理资源的两者之间的资源对应关系，实现了虚拟资源与物理资源之间的互相准确预警。

进一步的，所述资源故障管理装置还可以包括：物理资源监控预警模块410，用于对物理资源进行实时监控。具体的，物理资源监控预警模块410对包括服务器物理整机内的各物理资源进行实时监控预警：例如，服务器中各物理资源的温度、电压、寄存器故障值等状态，并根据上述状态产生对应的监控信息，当监控到物理资源发生状态异常时，就可以发出针对物理资源的监控预警。当监控到第一物理资源发生状态异常时，物理资源监控预警模块410可以将第一物理资源发生监控预警的信息通知资源对应关系查找模块430，以便资源对应关系查找模块430获取与第一物理资源对应的第一虚拟资源。在其他实施例中，物理资源监控预警模块410可以与对应物理资源监控预警模块450实现于同一模块中。

进一步的，所述资源故障管理装置还可以包括：虚拟资源监控预警模块420，用于对虚拟资源进行实时监控预警。具体的，虚拟资源监控预警模块420可以对各虚拟资源进行监控，例如包括监控各虚拟机的性能参数，虚拟机的资源状态信息，虚拟机群的负载情况等，当监控到上述虚拟资源状态异常时，就发出针对虚拟资源的监控预警。当监控到第二虚拟资源发生状态异常时，物理资源监控预警模块410可以将第二虚拟资源发生监控预警的信息通知资源对应关系查找模块430，以便资源对应关系查找模块430获取与第二虚拟资源对应的第二物理资源。在其他实施例中，虚拟资源监控预警模块420可以与对应虚拟资源监控预警模块440实现于同一模块中。

进一步的，所述资源故障管理装置还可以包括：故障处理模块460，用于基于所述物理资源与虚拟资源之间的资源对应关系，针对所述发生监控预警的虚拟资源和/或发生监控预警的物理资源进行故障处理。具体的，故障处理模块460可以通过建立一个监控预警故障处理的规则库，当监控预警产生时，故障处理模块460在监控预警故障处理的规则库中匹配该监控预警，确定故障处理策略，并调用其他相关模块或系统执行此对策，对与发生监控预警的虚拟资源无关的物理资源不进行动作。故障处理模块460在预设的监控预警故障处理的规则库中对物理资源的监控预警和/或虚拟资源的监控预警进行匹配，确定故障处理策略，基于所述物理资源与虚拟资源的资源对应关系和/或所述虚拟资源与物理资源的资源对应关系，对物理资源和/或虚拟资源进行故障处理，包括针对发生监控预警的虚拟资源指定替换资源、增减资源、虚拟机备份、停机或迁移等对策，其中替换、增减资源以及虚拟机迁移等可以根据所述物理资源与虚拟资源两者之间的资源对应关系查找可用的物理资源；针对发生监控预警的物理资源制定如隔离、下线、复位、散热调节、修复等处理对策，还包括根据所述物理资源与虚拟资源两者之间的资源对应关系进行负载均衡调节，例如因负载过高将发生监控预警的物理资源对应的其他虚拟资源迁移出去或因负载较低可以将其他的虚拟资源迁移至所述物理资源上。本发明实施例，根据虚拟资源与物理资源的两者之间的资源对应关系，实现了对发生监控预警的物理资源和/或发生监控预警的虚拟资源进行有效精确的故障处理。

进一步的，所述资源故障管理装置还可以包括：资源对应关系更新模块470，用于实时更新所述物理资源与虚拟资源之间的资源对应关系，包括物理资源与虚拟资源的资源对应关系和/或虚拟资源与物理资源的资源对应关系。资源对应关系更新模块470，可以根据故障处理模块460对所述虚拟资源和/或物理资源进行故障处理的结果更新虚拟资源与物理资源之间的资源对应关系，具体实现中，可以为在故障处理模块460对发生监控预警的虚拟资源和/或物理资源进行故障处理的过程中或完成后，触发对发生了变化的资源对应关系进行更新，从而实现了虚拟资源与物理资源的资源对应关系的及时有效更新。资源对应关系更新模块470可以实时跟踪到服务器系统的资源对应关系因其他原因发生了变化，实时更新所述物理资源与虚拟资源的资源对应关系和/或所述虚拟资源与物理资源的资源对应关系。若所述资源对应关系记录在资源故障管理装置中，则资源对应关系更新模块470可对其进行更新，若所述资源对应关系记录在服务器系统中，则资源对应关系更新模块470可触发服务器系统对其进行更新。

进一步的，所述资源故障管理装置还可以包括：

虚拟资源管理模块480，用于在物理资源上构建逻辑资源，在所述逻辑资源上构建虚拟资源；

资源对应关系模块490，用于建立所述物理资源与虚拟资源之间的资源对应关系和/或虚拟资源与物理资源之间的资源对应关系。

所述虚拟资源管理模块480和资源对应关系模块490可以实现在资源故障管理装置中，这时的服务器系统可以只用作提供物理资源，在其他实施例中所述虚拟资源管理模块可以在服务器系统中实现。

图5是本发明的一种资源故障管理方法的第四实施例的方法流程图。如图所示本实施例的方法流程包括：

步骤S501，对物理资源进行实时监控。具体的，资源故障管理装置可以对服务器系统中的各物理资源进行实时监控预警：例如各物理资源的温度、电压、寄存器故障值等状态，并根据上述状态产生对应的监控信息，当监控到物理资源发生状态异常时，就可以针对物理资源发出监控预警。在其他实施例中，资源故障管理装置在对服务器系统的物理资源进行实时监控的同时还可以对服务器系统的各虚拟资源进行监控，例如包括监控各虚拟机的性能参数，虚拟机的资源状态信息，虚拟机群的负载情况等，当监控到虚拟资源状态异常时，就针对虚拟资源发出监控预警。

步骤S502，当检测到第一物理资源发生监控预警时，根据物理资源与虚拟资源的资源对应关系，获取与第一物理资源对应的第一虚拟资源。具体可以为：从物理资源与虚拟资源的资源对应关系中查找第一物理资源与第一虚拟资源的资源对应关系，获取与第一物理资源对应的第一虚拟资源。本实施例中物理资源与虚拟资源的资源对应关系如图6所示，初始时服务器系统中的所有主机已经虚拟化为逻辑资源池，在逻辑资源池上已经构建并运行虚拟机群，并在此基础上建立物理资源与虚拟资源的资源对应关系：主机1中的物理资源CPU1和CPU2对应到虚拟资源中的VM0，CPU3对应到VM1，CPU4对应到VM2，主机2中的CPU1、CPU2以及CPU4空闲，CPU3对应到VM3和VM4。本实施例中检测到主机1中的CPU4发生监控预警，从物理资源与虚拟资源的资源对应关系中查找得到，主机1中的CPU4对应的虚拟资源为VM2。

步骤S503，发出针对第一虚拟资源的监控预警，即发出针对VM2的监控预警。

步骤S504，基于物理资源与虚拟资源的资源对应关系，对第一物理资源和/或第一虚拟资源进行故障处理。资源故障管理装置可以通过建立一个监控预警故障处理的规则库，当监控预警产生时，资源故障管理装置在监控预警故障处理的规则库中匹配该监控预警，确定故障处理策略，并调用其他相关模块或系统执行此对策，对与发生监控预警的虚拟资源无关的物理资源不进行动作。具体的，资源故障管理装置可以在预设的监控预警故障处理的规则库中对第一物理资源的监控预警和/或第一虚拟资源的监控预警进行匹配，确定故障处理策略，基于物理资源与虚拟资源的资源对应关系，对第一物理资源和/或第一虚拟资源进行故障处理，包括针对发生监控预警的第一虚拟资源确定故障处理对策，如替换资源、增减资源、虚拟机备份、停机或迁移等，其中替换、增减资源以及虚拟机迁移等可以根据物理资源与虚拟资源的资源对应关系查找可用的物理资源；针对发生监控预警的第一物理资源制定如隔离、下线、复位、散热调节或修复等处理对策，还包括根据物理资源与虚拟资源的资源对应关系进行负载均衡调节，例如因负载过高将第一物理资源对应的其他虚拟资源迁移出去或因负载较低可以将其他的虚拟资源迁移至所述第一物理资源上。在本实施例中，资源故障管理装置从图6中显示的物理资源与虚拟资源的资源对应关系进行分析，发现主机1中已没有其他可用的CPU资源，而相邻的主机2有满足VM2需要的空余CPU1，并且主机2的负载处在能够接受VM2的水平，遂做出将发生监控预警的主机1的CPU4隔离，将VM2迁移到主机2使用其CPU1的决策，然后调用服务器系统中其它相关模块或系统执行此决策；对于建于主机1上而未受CPU4预警影响的VM0和VM1，不需做出额外处理。

进一步的，故障管理装置可以实时跟踪到服务器系统的资源对应关系因故障处理或其他原因发生了变化，更新物理资源与虚拟资源的资源对应关系。若资源对应关系记录在资源故障管理装置中，则进行自行更新，若资源对应关系记录在服务器系统中，则故障管理装置可以触发服务器系统对其进行更新。

本实施例基于物理资源与虚拟资源的资源对应关系，可以在物理资源发生故障预警时，对与物理资源对应的虚拟资源进行预警，实现了虚拟资源及早准确进行故障预警，而仅针对可能受影响的虚拟资源进行预警及处理，提高了虚拟机故障预警与处理的精确度，同时降低了处理的复杂度，对整个业务系统的影响降低到最小。

图7是本发明的一种资源故障管理方法的第五实施例的方法流程图。如图所示本实施例的方法流程包括：

步骤S701，对虚拟资源进行实时监控。具体的，资源故障管理装置可以对服务器系统中各虚拟资源进行监控，例如包括监控各虚拟机的性能参数，虚拟机的资源状态信息，虚拟机群的负载情况等，当监控到虚拟资源状态异常时，就发出针对虚拟资源的监控预警。在其他实施例中，资源故障管理装置在对服务器系统的虚拟资源进行实时监控的同时还可以对服务器系统的包括服务器物理整机在内的各物理资源进行实时监控预警：例如，物理整机的散热状况，风扇，电源状态，各物理资源的温度、电压、寄存器故障值等状态，并根据上述状态产生对应的监控信息，当监控到物理资源发生状态异常时，就可以针对物理资源发出监控预警。

步骤S702，当检测到第二虚拟资源发生监控预警时，根据虚拟资源与物理资源的资源对应关系，获取与第二虚拟资源对应的第二物理资源。具体可以为：从虚拟资源与物理资源的资源对应关系中查找第二虚拟资源与第二物理资源的资源对应关系，获取与第二虚拟资源对应的第二物理资源。本实施例中虚拟资源与物理资源的资源对应关系如图8所示，初始时服务器系统中的所有主机已经虚拟化为逻辑资源池，在逻辑资源池上已经构建并运行虚拟机群，并在此基础上建立虚拟资源与物理资源的资源对应关系：VM0对应到主机1中的CPU1和CPU2，VM1对应到主机1中的CPU3和CPU4，VM2和VM3都对应到主机2中的CPU4。本实施例中检测到VM0因需要进行高精度海量运算，其计算资源将会出现瓶颈，因此发生VM0的监控预警。此时根据虚拟资源与物理资源的资源对应关系，VM0对应到主机1中的CPU1和CPU2，又由于CPU1和CPU2属于主机1，因此实际上当VM0进行高精度海量运算时很可能影响到整个主机1，例如使其出现资源不足或超负载的情况，因此本实施例中根据虚拟资源与物理资源的资源对应关系，VM0对应到的物理资源可以为整个主机1。

步骤S703，发出针对所述第二物理资源的监控预警。本实施例中，因VM0进行高精度海量运算可能导致主机1负载过大，VM0对应到的物理资源为整个主机1，因此发出针对物理资源主机1的监控预警。

步骤S704，基于虚拟资源与物理资源的资源对应关系，对第二物理资源和/或第二虚拟资源进行故障处理。资源故障管理装置可以通过制定一个监控预警故障处理的规则库，当监控预警产生时，资源故障管理装置在监控预警故障处理的规则库中匹配该监控预警，确定故障处理策略，并调用其他相关模块或系统执行此对策，对与发生监控预警的虚拟资源无关的物理资源不进行动作。具体的，资源故障管理装置可以在预设的监控预警故障处理的规则库中对第二物理资源的监控预警和/或第二虚拟资源的监控预警进行匹配，确定故障处理策略，基于虚拟资源与物理资源的资源对应关系，对第二物理资源和/或第二虚拟资源进行故障处理，包括针对发生监控预警的第二虚拟资源确定故障处理对策，如替换资源、增减资源、虚拟机备份、停机或迁移等，其中替换、增减资源以及虚拟机迁移等可以根据虚拟资源与物理资源的资源对应关系查找可用的物理资源；针对发生监控预警的第二物理资源制定如隔离、下线、复位、散热调节或修复等处理对策，还包括根据虚拟资源与物理资源的资源对应关系进行负载均衡调节，例如因负载过高将第二物理资源对应的其他虚拟资源迁移出去或因负载较低可以将其他的虚拟资源迁移至第二物理资源上。在本实施例中，本实施例中需要同时处理的有两个问题，一是VM0计算资源不足的问题，二是主机1可能负载过大的问题。资源故障管理装置从虚拟资源与物流资源的资源对应关系进行分析，发现与CPU1和CPU2相邻的CPU3已被VM1使用，根据虚拟机级别与任务级别，决策就近将CPU3分配给VM0，而为了解决主机1负载可能过大的问题，决策将CPU4做暂时离线，并为VM0保留，以此作为负载调节。同时因为VM1原先对应的物理资源主机1的CPU3和CPU4都不能继续使用，导致VM1计算资源出现不足，决策将VM1迁移至有空闲且相连的CPU资源的主机2，将主机2的CPU1和CPU2分配给VM1。

进一步的，故障管理装置可以实时跟踪到服务器系统的资源对应关系因故障处理或其他原因发生了变化，更新虚拟资源与物理资源的资源对应关系。若资源对应关系记录在资源故障管理装置中，则进行自行更新，若资源对应关系记录在服务器系统中，则资源故障管理装置可以触发服务器系统对其进行更新。

本实施例基于虚拟资源与物理资源的资源对应关系，可以实现根据虚拟资源的预警对与预警的虚拟资源对应的物理资源进行预警，实现了虚拟资源与物理资源的相互预警，从而可以及时的对两种相关联的资源进行预警处理，并进一步针对发生监控预警的虚拟资源和/或物理资源进行处理，降低了处理的复杂度，对整个业务系统的影响降低到最小。并能够更新虚拟资源与物理资源的资源对应关系，为最优化虚拟资源性能以及调节物理资源负载的决策提供必要信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种资源故障管理方法，其特征在于，所述方法包括：

当检测到第一物理资源发生监控预警时，根据物理资源与虚拟资源的资源对应关系，获取与所述第一物理资源对应的第一虚拟资源，所述物理资源是构成服务器系统的物理资源池中的实际物理资源，所述虚拟资源包括构成虚拟机的各虚拟硬件；

发出针对所述第一虚拟资源的监控预警。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

发出针对所述第二物理资源的监控预警。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述物理资源与虚拟资源的资源对应关系，对所述第一物理资源和/或所述第一虚拟资源进行故障处理。

4.如权利要求3所述的方法，其特征在于，所述对所述第一物理资源和/或所述第一虚拟资源进行故障处理，包括：

对所述第一物理资源进行负载均衡调节；和/或

为所述第一虚拟资源查找可用的物理资源。

5.如权利要求3或4所述的方法，其特征在于，所述方法还包括：

根据所述故障处理的结果，更新所述物理资源与虚拟资源的资源对应关系。

6.如权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述虚拟资源与物理资源的资源对应关系，对所述第二物理资源和/或所述第二虚拟资源进行故障处理。

7.如权利要求6所述的方法，其特征在于，所述对所述第二物理资源和/或所述第二虚拟资源进行故障处理包括：

对所述第二物理资源进行负载均衡调节；和/或

为所述第二虚拟资源查找可用的物理资源。

8.如权利要求6或7所述的方法，其特征在于，所述方法还包括：

根据所述故障处理的结果，更新所述虚拟资源与物理资源的资源对应关系。

9.一种资源故障管理方法，其特征在于，所述方法包括：

当检测到第二虚拟资源发生监控预警时，根据虚拟资源与物理资源的资源对应关系，获取与所述第二虚拟资源对应的第二物理资源，所述物理资源是构成服务器系统的物理资源池中的实际物理资源，所述虚拟资源包括构成虚拟机的各虚拟硬件；

发出针对所述第二物理资源的监控预警。

10.如权利要求9所述的方法，其特征在于，所述方法还包括：

11.如权利要求10所述的方法，其特征在于，所述对所述第二物理资源和/或所述第二虚拟资源进行故障处理，包括：

对所述第二物理资源进行负载均衡调节；和/或

为所述第二虚拟资源查找可用的物理资源。

12.如权利要求10或11所述的方法，其特征在于，所述方法还包括：

13.一种资源故障管理装置，其特征在于，所述装置包括：

资源对应关系查找模块，用于当第一物理资源发生监控预警时，根据物理资源与虚拟资源的资源对应关系，获取与所述第一物理资源对应的第一虚拟资源，所述物理资源是构成服务器系统的物理资源池中的实际物理资源，所述虚拟资源包括构成虚拟机的各虚拟硬件；

14.如权利要求13所述的装置，其特征在于，所述装置还包括：

所述资源对应关系查找模块，还用于当第二虚拟资源发生监控预警时，根据虚拟资源与物理资源的资源对应关系，获取与所述第二虚拟资源对应的第二物理资源；

15.如权利要求13所述的装置，其特征在于，所述装置还包括：

故障处理模块，用于基于所述物理资源与虚拟资源的资源对应关系，对所述第一虚拟资源和/或所述第一物理资源进行故障处理。

16.如权利要求15所述的装置，其特征在于，所述故障处理模块，用于基于所述物理资源与虚拟资源的资源对应关系，对所述第一虚拟资源和/或所述第一物理资源进行故障处理，具体为：

所述故障处理模块，用于基于所述物理资源与虚拟资源的资源对应关系为所述第一物理资源进行负载均衡调节；和/或

用于基于所述物理资源与虚拟资源的资源对应关系为所述第一虚拟资源查找可用的物理资源。

17.如权利要求15或16所述的装置，其特征在于，所述装置还包括：

资源对应关系更新模块，用于根据所述故障处理模块对所述第一虚拟资源和/或所述第一物理资源进行故障处理的结果更新所述物理资源与虚拟资源的资源对应关系。

18.如权利要求14所述的装置，其特征在于，所述装置还包括：

故障处理模块，用于基于所述虚拟资源与物理资源的资源对应关系，对所述第二虚拟资源和/或所述第二物理资源进行故障处理。

19.如权利要求18所述的装置，其特征在于，所述故障处理模块用于基于所述虚拟资源与物理资源的资源对应关系，对所述第二虚拟资源和/或所述第二物理资源进行故障处理，具体为：

所述故障处理模块，用于基于所述虚拟资源与物理资源的资源对应关系为所述第二物理资源进行负载均衡调节；和/或

用于基于所述虚拟资源与物理资源的资源对应关系为所述第二虚拟资源查找可用的物理资源。

20.如权利要求18或19所述的装置，其特征在于，所述装置还包括：

资源对应关系更新模块，用于根据所述故障处理模块对所述第二虚拟资源和/或所述第二物理资源进行故障处理的结果更新所述虚拟资源与物理资源的资源对应关系。

21.一种资源故障管理装置，其特征在于，所述装置包括：

资源对应关系查找模块，用于当第二虚拟资源发生监控预警时，根据虚拟资源与物理资源的资源对应关系，获取与所述第二虚拟资源对应的第二物理资源，所述物理资源是构成服务器系统的物理资源池中的实际物理资源，所述虚拟资源包括构成虚拟机的各虚拟硬件；

22.如权利要求21所述的装置，其特征在于，所述装置还包括：

23.如权利要求22所述的装置，其特征在于，所述故障处理模块用于基于所述虚拟资源与物理资源的资源对应关系，对所述第二虚拟资源和/或所述第二物理资源进行故障处理，具体为：

所述故障处理模块，用于基于所述虚拟资源与物理资源的资源对应关系对所述第二物理资源进行负载均衡调节；和/或

24.如权利要求22或23所述的装置，其特征在于，所述装置还包括：

25.一种资源故障管理系统，其特征在于，包括服务器系统和如权利要求13～24中任一项所述的资源故障管理装置，所述资源故障管理系统用于对所述服务器系统中的物理资源及虚拟资源进行监控预警。