CN103873516A

CN103873516A - 提高云计算资源池中物理服务器使用率的ha方法和系统

Info

Publication number: CN103873516A
Application number: CN201210541413.1A
Authority: CN
Inventors: 卜继贤
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2012-12-14
Filing date: 2012-12-14
Publication date: 2014-06-18
Anticipated expiration: 2032-12-14
Also published as: EP2908465B1; EP2908465A4; CN103873516B; EP2908465A1; WO2014089990A1; US9760454B2; US20150293823A1

Abstract

本发明提供了一种提高云计算资源池中物理服务器使用率的HA方法和系统，其中，所述方法包括：当云计算资源池中的物理服务器发生故障时，判断正常运行的物理服务器的空闲内存是否能够支持所有发生故障的物理服务器上的虚拟机运行，当正常运行的物理服务器的空闲内存能够支持所有发生故障的物理服务器上的虚拟机运行时，将所述所有发生故障的物理服务器上的虚拟机在正常运行的物理服务器上重新启动。本发明提高了物理服务器内存资源的使用率。

Description

提高云计算资源池中物理服务器使用率的HA方法和系统

技术领域

本发明涉及保证云计算资源池中物理服务器的高可用性(HighAvailability，HA)技术，尤其涉及一种提高云计算资源池中物理服务器使用率的HA方法和系统。

背景技术

云计算作为一种具有扩展性和弹性的计算方式，与传统IT环境比有明显的优势。随着近几年云计算概念和技术的大力推广，越来越多的企业开始使用云计算系统代替传统的IT系统，其中包括中小企业在企业内部部署的私有云。使用云计算可以实现资源调度按需分配，环境部署自动化，降低人工运维成本，减少潜在错误，提高生产效率，实现节能减排，打造绿色IT。

云计算的一个基本使用场景是将多台相同架构的物理服务器组成一个资源池，并对这些物理服务器进行虚拟化，从而形成更多的虚拟机。为了防止某一台或几台物理服务器发生故障，会给资源池提供HA机制，保证在物理服务器故障发生后，业务可以自动恢复。

目前，资源池中服务器的HA机制为：若资源池中某一台或几台物理服务发生了故障，将发生故障的物理服务器上运行的虚拟机重新在其他物理服务器上启动。而为了保证在部分物理服务器发生故障后，其他正常运行的物理服务器有足够的内存接管所有的虚拟机，对所有物理服务器，均会保留其部分内存不分配。

内存是物理服务器支持虚拟机台数的一个重要瓶颈，如果使用目前的HA策略，物理服务器的内存资源浪费严重。在资源池中物理服务器台数较少的情况下，该浪费问题更为突出，如一个资源池中只有两台物理服务器时，为了配置HA，那么每台物理服务器只能将一半的可用内存分配给虚拟机，这样内存的浪费就达到50％。可以认为，现有保证物理服务器HA的机制以宝贵的内存换取业务的健壮性。

发明内容

本发明提供了一种提高云计算资源池中物理服务器使用率的HA方法和系统，以解决如何提高HA机制中物理服务器内存资源利用率的技术问题。

为解决上述技术问题，本发明提供了一种提高云计算资源池中物理服务器使用率的高可用性(HA)方法，所述方法包括：

当云计算资源池中的物理服务器发生故障时，判断正常运行的物理服务器的空闲内存是否能够支持所有发生故障的物理服务器上的虚拟机运行，当正常运行的物理服务器的空闲内存能够支持所有发生故障的物理服务器上的虚拟机运行时，将所述所有发生故障的物理服务器上的虚拟机在正常运行的物理服务器上重新启动。

进一步地，所述方法包括：

当云计算资源池中的物理服务器发生故障时，判断正常运行的物理服务器的空闲内存是否能够支持所有发生故障的物理服务器上的虚拟机以保留内存运行，并当正常运行的物理服务器的空闲内存能够支持所有发生故障的物理服务器上的虚拟机以保留内存运行时，将所述所有发生故障的物理服务器上的虚拟机以保留内存在正常运行的物理服务器上重新启动。

进一步地，所述方法还包括：

当正常运行的物理服务器的空闲内存不能够支持所有发生故障的物理服务器上的虚拟机运行时，减少正常运行的物理服务器上的虚拟机占用的内存，并将减少出的内存继续作为所述空闲内存。

进一步地，所述减少正常运行的物理服务器上的虚拟机占用的内存，包括：

减少正常运行的物理服务器上配置的内存保留率为0的虚拟机占用的内存，和/或，减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存。

进一步地，

所述减少正常运行的物理服务器上配置的内存保留率为0的虚拟机占用的内存，包括：

关闭正常运行的物理服务器上配置的内存保留率为0的虚拟机；

所述减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存，包括：

将正常运行的物理服务器上内存保留率小于1并且大于0的虚拟机从占用配置内存运行改为占用保留内存运行。

进一步地，所述方法还包括：

当发生故障的物理服务器恢复正常时，在恢复正常的物理服务器上以配置内存运行未运行且配置的保留内存为0的虚拟机；和/或，将正在以保留内存运行的内存保留率小于1的虚拟机转移到该恢复正常的物理服务器上，并以配置内存运行所述转移的虚拟机。

为解决上述技术问题，本发明还提供了一种提高云计算资源池中物理服务器使用率的高可用性(HA)系统，所述系统包括判断模块、虚拟机重启模块，其特征在于，

所述判断模块，用于在云计算资源池中的物理服务器发生故障时，判断正常运行的物理服务器的空闲内存是否能够支持所有发生故障的物理服务器上的虚拟机运行，并将判断结果通知所述虚拟机重启模块；

所述虚拟机重启模块，用于从所述判断模块获知判断结果为正常运行的物理服务器的空闲内存能够支持所有发生故障的物理服务器上的虚拟机运行时，将所述所有发生故障的物理服务器上的虚拟机在正常运行的物理服务器上重新启动。

进一步地，所述系统包括：

所述判断模块，用于在云计算资源池中的物理服务器发生故障时，判断正常运行的物理服务器的空闲内存是否能够支持所有发生故障的物理服务器上的虚拟机以保留内存运行；

所述虚拟机重启模块，用于从所述判断模块获知判断结果为正常运行的物理服务器的空闲内存能够支持所有发生故障的物理服务器上的虚拟机以保留内存运行时，将所述所有发生故障的物理服务器上的虚拟机以保留内存在正常运行的物理服务器上重新启动。

进一步地，

所述虚拟机重启模块，还用于从所述判断模块获知判断结果为正常运行的物理服务器的空闲内存不能够支持所有发生故障的物理服务器上的虚拟机运行时，减少正常运行的物理服务器上的虚拟机占用的内存，并将减少出的内存继续作为所述空闲内存。

进一步地，所述虚拟机重启模块，用于减少正常运行的物理服务器上的虚拟机占用的内存，包括：

所述虚拟机重启模块，用于减少正常运行的物理服务器上配置的内存保留率为0的虚拟机占用的内存，和/或，减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存。

进一步地，

所述虚拟机重启模块，用于减少正常运行的物理服务器上配置的内存保留率为0的虚拟机占用的内存，包括：

所述虚拟机重启模块，用于关闭正常运行的物理服务器上配置的内存保留率为0的虚拟机；

所述虚拟重启模块，用于减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存，包括：

所述虚拟机重启模块，用于将正常运行的物理服务器上内存保留率小于1并且大于0的虚拟机从占用配置内存运行改为占用保留内存运行。

进一步地，

所述虚拟重启模块，还用于当发生故障的物理服务器恢复正常时，在恢复正常的物理服务器上以配置内存运行未运行且配置的保留内存为0的虚拟机；和/或，将正在以保留内存运行的内存保留率小于1的虚拟机转移到该恢复正常的物理服务器上，并以配置内存运行所述转移的虚拟机。

上述技术方案，对云计算资源池中的物理服务器不再预先保留部分内存，而是当云计算资源池中的物理服务器发生故障时，再计算正常运行的物理服务器是否有足够的空闲内存用于HA机制，并在有足够的空闲内存用于HA机制的情况下，直接用所述空闲内存启动故障物理服务器上的虚拟机。由于云计算资源池中的物理服务器不再预先保留部分内存，避免了因保留内存造成的内存资源使用率低的问题。

附图说明

图1为本实施例的提高云计算资源池中物理服务器使用率的HA方法流程图；

图2为本实施例的提高云计算资源池中物理服务器使用率的HA系统组成图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在说明本发明实施例之前，将本实施例出现的技术术语在此作一简要说明：

配置内存：在物理服务器上创建虚拟机时，为虚拟机分配的内存，该内存为虚拟机高效运行所需的内存；在资源池无物理服务器发生故障时，虚拟机以配置内存运行；

保留内存：虚拟机运行所需的最小内存，通常该值小于或等于配置内存；特别的，虚拟机的保留内存可配置为0，表示该虚拟机允许直接关机；

节省内存：配置内存减去保留内存的值，该值大于或等于0；

内存保留率：保留内存除以配置内存，小数点两位数有效；

保留内存是否有效参数：该参数用于表示基于保留内存的HA策略是否启动，该参数为1表示启动，该参数为0表示不启动。

为实施HA策略，需要对资源池和资源池中的虚拟机进行配置，配置过程如下：

首先，在创建一个资源池的时候，将资源池配置文件中的相关参数设置为默认值：

●保留内存是否有效参数设置为默认值0，表示未启用保留内存的HA策略；

●虚拟机保留内存大小设置为和其配置内存大小一致；

●虚拟机节省内存设置为默认值0；

●虚拟机内存保留率设置为默认值1。

第二，将资源池内各虚拟机的配置文件中相关的参数设置为默认值：

●虚拟机保留内存大小设置为和其配置内存大小一致；

●虚拟机节省内存大小设置为默认值0；

●虚拟机内存保留率设置为默认值1；

第三，对资源池进行HA配置；

●配置虚拟机内存保留率是否生效：如果配置内存保留率不生效，则屏蔽每个虚拟机的保留内存配置；如果配置内存保留率生效，继续为每个虚拟机配置保留内存；

第四，在第三步配置虚拟机内存保留率生效的情况下，为每个虚拟机配置保留内存大小，配置范围小于或等于配置内存，并且大于等于虚拟机操作系统要求的最小内存；或者将其配置为0；

第五，配置允许故障的物理服务器台数；配置范围大于或等于1，并且小于资源池内所有物理服务器的总台数；

第六，提交HA配置。

系统HA模块接收到HA配置后，首先计算允许台数的物理服务器发生故障时，剩余物理服务器的可用内存大小：在资源池中每台物理服务器内存大小相同的情况下，直接减去允许故障的物理服务器台数，剩余的物理服务器内存总大小即为需计算的剩余物理服务器的可用内存大小；在资源池中每台物理服务器内存大小不相同的情况下，减去内存大的物理服务器，剩余的物理服务器内存总大小即为需计算的剩余物理服务器的可用内存大小；

接着，计算所有虚拟机需要内存的最低大小；将每台虚拟机配置的保留内存大小相加，结果即是虚拟机需要内存的最低大小；

最后，比较剩余物理服务器的可用内存大小和虚拟机需要内存的最低大小，若剩余物理服务器的可用内存大于或等于虚拟机需要内存的最低大小，则将提交的HA配置设置为生效；否则，将提交的HA配置设置为无效，返回错误通知并提示重新配置。

本实施例给出的提高云计算资源池中物理服务器使用率的HA方法和系统均工作在HA配置生效状态。

图1为本实施例的提高云计算资源池中物理服务器使用率的HA方法流程图。

S101检测到云计算资源池中的物理服务器发生故障；

在其他实施例中，当检测到云计算资源池中的物理服务器发生故障后，还可判断发生故障的物理服务器的台数是否在HA策略运行所允许的故障物理服务器台数的范围内，若在该范围内，继续后续操作；否则，发出告警；

S102计算正常运行的物理服务器的空闲内存；

S103判断空闲内存是否能够支持所有发生故障的物理服务器上的虚拟机运行，如果能够支持，执行步骤S104；否则，执行步骤S105；

为减少重启虚拟机占有的内存空间，该步骤可判断空闲内存是否能够支持所有发生故障的物理服务器上的虚拟机以保留内存运行；

S104将所述所有发生故障的物理服务器上的虚拟机在正常运行的物理服务器上重新启动，执行步骤S107；

若所有发生故障的物理服务器上的虚拟机在正常运行的物理服务器上以保留内存重新启动，意味着发生故障的物理服务器上配置的保留内存为0的虚拟机不再在正常运行的物理服务器上重启；这不仅进一步减少了重启虚拟机占有的内存空间，也可在内存资源有限的情况下优先保证重要的虚拟机先使用内存进行重启操作；

S105判断是否可减少正常运行的物理服务器上的虚拟机占用的内存，若可减少，执行步骤S106；否则，执行步骤S107；

S106减少正常运行的物理服务器上的虚拟机占用的内存，减少出的内存继续作为所述空闲内存，执行步骤S104；

考虑到物理服务器上配置的虚拟机的特性，有的虚拟机需要以配置内存高效运行，有的虚拟机可以停止运行一段时间，有的虚拟机可以以保留内存运行，对此，本实施例在实施减少正常运行的物理服务器上的虚拟机占用的内存时，将从可以停止运行一段时间的虚拟机和可以以保留内存运行的虚拟机中获取内存作为空闲内存，即减少正常运行的物理服务器上配置的内存保留率为0的虚拟机占用的内存，和/或，减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存。如，先减少正常性的物理服务器上配置的内存保留率为0的虚拟机占用的内存，若增加的空闲内存仍不能够满足所有发生故障的物理服务器上的虚拟机运行时，再减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存；当然，也可以先减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存，再减少正常性的物理服务器上配置的内存保留率为0的虚拟机占用的内存；

上述减少正常运行的物理服务器上配置的内存保留率为0的虚拟机占用的内存的方式可包括：关闭正常运行的物理服务器上配置的内存保留率为0的虚拟机；减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存的方式可包括：将正常运行的物理服务器上内存保留率小于1并且大于0的虚拟机从占用配置内存运行改为占用保留内存运行。本实施例通过对配置的内存保留率不同的虚拟机采用不同的减少内存方式，降低了因减少内存而对正常运行的物理服务器上运行的业务产生的不利影响；

S107流程结束。

上述实施例中，当发生故障的物理服务器恢复正常时，可以在恢复正常的物理服务器上以配置内存运行配置的保留内存为0的虚拟机；和/或，将正在以保留内存运行的内存保留率小于1的虚拟机转移到该恢复正常的物理服务器上，并以配置内存运行所述转移的虚拟机，以充分利用物理服务器的内存资源。如，当发生故障的物理服务器恢复正常时，若发现有配置的保留内存为0的虚拟机未运行，则将该虚拟机在恢复正常的物理服务器上以配置内存运行；如果配置的保留内存为0的虚拟机全部启动后，恢复正常的物理服务器上仍有空闲内存，则将正在以保留内存运行的内存保留率小于1的虚拟机转移到该恢复正常的物理服务器上，并以配置内存运行所述转移的虚拟机

该系统包括判断模块、虚拟机重启模块，其中，

判断模块，用于在云计算资源池中的物理服务器发生故障时，判断正常运行的物理服务器的空闲内存是否能够支持所有发生故障的物理服务器上的虚拟机运行，并将判断结果通知所述虚拟机重启模块；

虚拟机重启模块，用于从所述判断模块获知判断结果为正常运行的物理服务器的空闲内存能够支持所有发生故障的物理服务器上的虚拟机运行时，将所述所有发生故障的物理服务器上的虚拟机在正常运行的物理服务器上重新启动。

为减少重启虚拟机占有的内存空间，待重启的虚拟机可仅用保留内存运行，此时，判断模块，需在云计算资源池中的物理服务器发生故障时，判断正常运行的物理服务器的空闲内存是否能够支持所有发生故障的物理服务器上的虚拟机以保留内存运行；虚拟机重启模块，需从所述判断模块获知判断结果为正常运行的物理服务器的空闲内存能够支持所有发生故障的物理服务器上的虚拟机以保留内存运行时，将所述所有发生故障的物理服务器上的虚拟机以保留内存在正常运行的物理服务器上重新启动。

上述实施例中，虚拟机重启模块，还用于从所述判断模块获知判断结果为正常运行的物理服务器的空闲内存不能够支持所有发生故障的物理服务器上的虚拟机运行时，减少正常运行的物理服务器上的虚拟机占用的内存，并将减少出的内存继续作为所述空闲内存；

其中，虚拟机重启模块用于减少正常运行的物理服务器上的虚拟机占用的内存的方式可包括：减少正常运行的物理服务器上配置的内存保留率为0的虚拟机占用的内存，和/或，减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存；如，先减少正常性的物理服务器上配置的内存保留率为0的虚拟机占用的内存，若增加的空闲内存仍不能够满足所有发生故障的物理服务器上的虚拟机运行时，再减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存；当然，也可以先减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存，再减少正常性的物理服务器上配置的内存保留率为0的虚拟机占用的内存；

上述虚拟机重启模块，用于减少正常运行的物理服务器上配置的内存保留率为0的虚拟机占用的内存的方式可包括：关闭正常运行的物理服务器上配置的内存保留率为0的虚拟机；

上述虚拟机重启模块，用于减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存的方式可包括：将正常运行的物理服务器上内存保留率小于1并且大于0的虚拟机从占用配置内存运行改为占用保留内存运行。

上述实施例中，虚拟重启模块，还用于当发生故障的物理服务器恢复正常时，在恢复正常的物理服务器上以配置内存运行未运行且配置的保留内存为0的虚拟机；和/或，将正在以保留内存运行的内存保留率小于1的虚拟机转移到该恢复正常的物理服务器上，并以配置内存运行所述转移的虚拟机。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种提高云计算资源池中物理服务器使用率的高可用性(HA)方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法进一步包括：

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述减少正常运行的物理服务器上的虚拟机占用的内存，进一步包括：

5.如权利要求4所述的方法，其特征在于，

所述减少正常运行的物理服务器上配置的内存保留率为0的虚拟机占用的内存，进一步包括：

所述减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存，进一步包括：

6.如权利要求1～5所述的方法，其特征在于，所述方法还包括：

7.一种提高云计算资源池中物理服务器使用率的高可用性(HA)系统，其特征在于，所述系统包括判断模块、虚拟机重启模块，其中，

8.如权利要求7所述的系统，其特征在于，所述系统进一步包括：

9.如权利要求8所述的系统，其特征在于，

10.如权利要求9所述的系统，其特征在于，所述虚拟机重启模块，用于减少正常运行的物理服务器上的虚拟机占用的内存，进一步包括：

11.如权利要求10所述的系统，其特征在于，

所述虚拟机重启模块，用于减少正常运行的物理服务器上配置的内存保留率为0的虚拟机占用的内存，进一步包括：

所述虚拟重启模块，用于减少正常运行的物理服务器上配置的内存保留率小于1并且大于0的虚拟机占用的内存，进一步包括：

12.如权利要求7～11所述的系统，其特征在于，