CN115292030A

CN115292030A - 一种云计算环境下物理内存自适应方法及系统

Info

Publication number: CN115292030A
Application number: CN202210747907.9A
Authority: CN
Inventors: 张金生; 肖雪; 申嘉童; 丁瑞; 余礼渊
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-11-04

Abstract

本发明涉及云计算IAAS领域，具体提供了一种云计算环境下物理内存自适应方法，虚机镜像内安装虚机负载分析服务，写入包含标记虚机活跃状态阈值的配置文件，安装虚机负载分析服务随虚机启动后，分析虚机CPU和内存的使用情况，对比阈值确定虚机活跃状态；发起带有内存限制参数的元数据服务请求；更新云平台元数据服务组件，添加请求API，所述API接收带有虚机内存强限制和软限制的参数，在接收到虚机内存限制参数，检查所述虚机是否满足可调节内存大小的限制，如果满足要求则发起RPC调用设置虚机内存占用大小。与现有技术相比，本发明以云平台计算节点配置的交换分区大小为物理内存比例0.75(即内存超配比为1.75)为例，理想情况下，每台虚机最高可节省约42.86％的物理内存占用。

Description

一种云计算环境下物理内存自适应方法及系统

技术领域

本发明涉及云计算IAAS领域，具体提供一种云计算环境下物理内存自适应方法及系统。

背景技术

随着云技术的发展，越来越多的企事业单位和个人将传统应用迁移到云数据中心，以Openstack作为云平台为广大用户提供IAAS层虚拟机管理功能已成为主流技术之一。使用云技术可以整合物理机资源，使得CPU、内存、磁盘可以充分利用，并保证其高可用性。如何提高资源利用率并减少能耗是云服务厂商不屑努力的方向之一。

目前提升物理机内存使用率的方案主要使用的是物理机内存超配方法，但仅使用内存超配时，当分配的虚拟机数量多，且大多数虚机都占用大量内存时，容易造成物理机内存压力过大，甚至触发OOM(Out-of-memory)导致物理机崩溃。

已存在的调节虚机物理机内存占用的方法主要包括气球驱动和通过虚拟机管理器hypervisor调节，但是两者均只提供了基础的调节功能，一般需要管理员手动管理，缺少根据虚机实际负载自动调节的功能，很难满足自动化运维管理的需求。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的云计算环境下物理内存自适应方法。

本发明进一步的技术任务是提供一种设计合理，安全适用的云计算环境下物理内存自适应系统。

本发明解决其技术问题所采用的技术方案是：

一种云计算环境下物理内存自适应方法，虚机镜像内安装虚机负载分析服务，写入包含标记虚机活跃状态阈值的配置文件，安装虚机负载分析服务随虚机启动后，分析虚机CPU和内存的使用情况，根据已写入的配置文件，对比阈值确定虚机活跃状态；

根据虚机活跃状态判定结果计算出合适的虚机内存占用大小限制参数，然后发起带有内存限制参数的元数据服务请求；

更新云平台元数据服务组件，添加请求API，所述API接收带有虚机内存强限制和软限制的参数，在接收到虚机内存限制参数，检查所述虚机是否满足可调节内存大小的限制，如果满足要求则发起RPC调用设置虚机内存占用大小。

进一步的，所述配置文件的参数包括cpu和内存的高使用率阈值、低使用率阈值、CPU和内存活跃度计算权重、单次内存最小调节粒度大小和最小减少内存发起请求时间间隔；

虚机负载分析服务可发起元数据服务请求，查询虚机所在物理机节点是否进行内存超配，根据返回数据获得并记录物理机内存超配参数，记为swap_ratio；

虚机负载分析服务还可以一定粒度的时间间隔，周期性获取至少包含CPU和内存使用率信息，并分析负载占用情况和趋势。

进一步的，虚机负载趋势计算规则为：

内存和cpu使用率高于高使用率阈值时，增加虚机物理内存占用；内存和CPU使用率低于低使用率时，减少虚机物理内存占用；

这里有两个指标：高使用率和低使用率指标，高于高使用率时代表业务繁忙，需要分配更多内存，低于低使用率指标时代表虚机空闲，进行内存回收。

若非所述两种状态时，计算虚机负载评估值。

进一步的，计算虚机负载评估值时，load＝cpu-weight*(cpu_usage/cpu_thres)+mem-weight*(mem_usage/mem_thres)；

其中，cpu-weight为CPU活跃度权重，mem_weight为内存活跃度权重,计算高使用率阈值、低使用率阈值为cpu_thres和mem_thres的负载load；

cpu核内存使用率高于低使用率阈值记为高负载，cpu核内存使用率低于高使用率阈值记为低负载；

高负载时loadhigh>＝cpu-weight+mem-weight则增加虚机物理内存占用，低负载时loadlow<＝cpu-weight+mem-weight则减少虚机物理内存占用；

高负载下load值与上次一段时间计算load值对比，差值高于load增长阈值则判定当前为负载增加趋势，低负载下load值与上次一段时间计算load值对比，差值高于load减少阈值则判定当前为负载减少趋势，根据获取的物理机内存超配参数和虚机负载占用趋势计算出合适的虚机内存占用大小。

进一步的，所述内存强限制和软限制计算规则为：

(1)减小虚机物理内存占用：

虚机的soft_limit对应超配比为：(3*swap_ratio+vm_ratio)/4，hard_limit对应超配比为(vm_ratio+swap_ratio)/2；

(2)增加虚机物理内存占用：

虚机的soft_limit对应超配比为：(1+vm_ratio)/swap_ratio，hard_limit对应超配比为(vm_ratio+0.9)/2，

其中vm_ratio为当前虚机内存调节状态，初始为1；

确定物理内存限制参数后，根据上次内存限制请求参数、结果、最小减少内存发起请求时间间隔、单次内存最小调节粒度，对比本次的计算的限制参数决定是否发起带有内存限制参数的元数据服务请求，请求为虚机设置指定大小限制的物理内存参数，请求发起后记录本次请求参数和结果。

进一步的，所述元数据服务处理时，更新Openstack组件元数据服务组件nova-api-metadata，添加请求API，所述API接收带有虚机内存强限制和软限制的参数；

所述API接口没有接收到虚机内存限制参数时返回虚机所在物理机节点配置的内存超配比；

所述API接口在接收到虚机内存限制参数后，检测该物理机是否开启足够的交换分区，即检查该虚机所在物理机节点是否满足可调节内存大小的条件即是否开启交换分区，然后进行内存限制参数校验。

进一步的，校验内存限制参数时，使虚机内存硬限制大小不小于内存规格的一定比例，如果满足则发起RPC调用设置虚机内存占用大小，虚机所在物理机的计算节点服务接收到所述RPC调用后，调用hypervisor提供的内存限制接口设置虚机物理内存占用大小，宿主机hypervisor会根据实际情况将虚机的部分内存页面交换到物理机的交换分区上。

进一步的，所述虚机所在物理机节点需配置NVME本地磁盘作为交换分区，并在计算服务上配置相应的内存超配比参数

swap_ratio<＝(swap_size/memory_size)+1；

其中，swap_size为物理机交换分区大小，memory_size为物理机总内存大小。

一种云计算环境下物理内存自适应系统，虚机内的负载分析服务和配置文件用于分析虚机运行时的负载占用趋势，判断虚机是否处于活跃运行状态，根据获得的结果和从元数据服务获得的物理机内存超配比，计算虚机物理内存的硬限制和软限制参数，并发起设置虚机内存限制请求到云平台元数据服务接口；

云平台管理侧的元数据服务新API接口提供虚机所在物理机内存超配比信息，同时接收虚机发起的设置虚机物理内存限制参数的请求，判断并在参数合法情况下发起设置虚机内存限制RPC请求，使得目标物理机节点hypervisor根据情况交换虚机内存页面，实现活跃的虚机减少虚机物理内存占用限制，非活跃的虚机增加物理内存大小占用限制。

本发明的一种云计算环境下物理内存自适应方法及装置和现有技术相比，具有以下突出的有益效果：

(1)本发明提供了一种能根据虚机负载主动调节虚机的物理内存占用，缓解物理机节点内存压力，该方法和装置的实际节省物理机内存效果与镜像中配置的虚机活跃状态阈值、虚机实际资源占用情况以及计算节点物理机内存超配比配置等参数有关。以云平台计算节点配置的交换分区大小为物理内存比例0.75(即内存超配比为1.75)为例，理想情况下，每台虚机最高可节省约42.86％的物理内存占用。

(2)使用物理机建立的本地磁盘创建的交换分区相比虚机自身开启的交换分区，虚机自身创建的交换分区位置基于其使用的磁盘，虚机使用的磁盘可以是远端磁盘或者节点块设备或者节点磁盘等，计算节点物理机则可以根据情况使用本地高性能NVME磁盘，，因此使用物理机建立的交换分区往往性能更高和延迟更低，带来的性能影响相对更小。而且通过调节内存限制参数带来的内存交换不影响虚机内的内存总大小，即此操作对虚机透明，在物理机交换分区磁盘性功能足够并且采用合适的交换比例，虚机内没有明显性能波动感知。

(3)本发明的虚机负载分析模块在虚机内部，采集的虚机负载信息不发送到虚机外部，只发送虚机自身对于内存的需求情况，相对带内采集监控数据更加安全且带宽占用极小；虚机自身可以选择性关闭负载分析服务，用户可以自行选择是否贡献内存，支持减少碳排放。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种云计算环境下物理内存自适应方法的流程示意图；

附图2是一种云计算环境下物理内存自适应方法的框架图；

附图3是一种云计算环境下物理内存自适应方法中获取虚机活跃状态并计算出虚机内存限制参数的流程图；

附图4是一种云计算环境下物理内存自适应方法中虚机内存限制请求设置虚机内存限制参数的流程图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1-4所述，本事实例中的一种云计算环境下物理内存自适应方法，虚机镜像内安装虚机负载分析服务，写入包含标记虚机活跃状态阈值的配置文件，安装虚机负载分析服务随虚机启动后，分析虚机CPU和内存的使用情况，根据已写入的配置文件，对比阈值确定虚机活跃状态；

具体方法为：

虚机镜像内安装虚机负载分析服务，写入包含标记虚机活跃状态阈值的配置文件。

配置文件中包含cpu和内存的高使用率阈值、低使用率阈值，CPU和内存活跃度计算权重，单次内存最小调节粒度大小，最小减少内存发起请求时间间隔等参数。

虚机负载分析服务可发起元数据服务请求，查询虚机所在物理机节点是否进行内存超配，根据返回数据获得并记录物理机内存超配参数，记为swap_ratio。

虚机负载分析服务可以一定粒度的时间间隔，周期性获取至少包含CPU和内存使用率信息，并分析负载占用情况和趋势。

虚机负载趋势计算规则和策略：

内存和cpu使用率高于高使用率阈值时，增加虚机物理内存占用，反之减少物理内存占用。

非上述两种状态时，计算虚机负载评估值。

load＝cpu-weight*(cpu_usage/cpu_thres)+mem-weight*(mem_usage/mem_thres)；

其中cpu-weight为CPU活跃度权重，mem_weight为内存活跃度权重,计算高使用率阈值、低使用率阈值为cpu_thres和mem_thres的负载load。

cpu核内存使用率高于低使用率阈值记为高负载。

cpu核内存使用率低于高使用率阈值记为低负载。

高负载时loadhigh>＝cpu-weight+mem-weight则增加虚机物理内存占用；

低负载时loadlow<＝cpu-weight+mem-weight则减少虚机物理内存占用；

高负载下load值与上次一段时间计算load值对比，差值高于load增长阈值则判定当前为负载增加趋势。

低负载下load值与上次一段时间计算load值对比，差值高于load减少阈值则判定当前为负载减少趋势。

根据获取的物理机内存超配参数和虚机负载占用趋势计算出合适的虚机内存占用大小，包括虚机的物理内存强限制hart_limit和软限制soft_limit等参数。

内存强限制和软限制计算规则：

减小虚机物理内存占用：

虚机的soft_limit对应超配比为：(3*swap_ratio+vm_ratio)/4；

hard_limit对应超配比为(vm_ratio+swap_ratio)/2；

增加虚机物理内存占用：

虚机的soft_limit对应超配比为：(1+vm_ratio)/swap_ratio；

hard_limit对应超配比为(vm_ratio+0.9)/2；

其中vm_ratio为当前虚机内存调节状态，初始为1。

确定物理内存限制参数后，根据上次内存限制请求参数、结果、最小减少内存发起请求时间间隔、单次内存最小调节粒度，对比本次的计算的限制参数决定是否发起带有上述内存限制参数的元数据服务请求，请求为虚机设置指定大小限制的物理内存参数。请求发起后记录本次请求参数和结果。

元数据服务处理时，更新Openstack组件元数据服务组件nova-api-metadata，添加请求API，该API接收带有虚机内存强限制和软限制等参数。

API接口没有接收到虚机内存限制参数时返回该虚机所在物理机节点配置的内存超配比；

API接口在接收到虚机内存限制参数后，检测该物理机是否开启足够的交换分区，即检查该虚机所在物理机节点是否满足可调节内存大小的条件即是否开启交换分区，然后进行内存限制参数校验。

校验内存限制参数，使虚机内存硬限制大小不小于内存规格的一定比例，如果满足则发起RPC调用设置虚机内存占用大小。

虚机所在物理机的计算节点服务接收到所述RPC调用后，调用hypervisor提供的内存限制接口设置虚机物理内存占用大小。宿主机hypervisor会根据实际情况将虚机的部分内存页面交换到物理机的交换分区上，达到降低虚机物理内存占用的目的。

虚机所在物理机节点需配置NVME本地磁盘作为交换分区，并在计算服务上配置相应的内存超配比参数swap_ratio<＝(swap_size/memory_size)+1。

虚拟机管理程序可以将虚机内存标记为锁定在内存的状态，同时物理机上可以定义虚机的内存使用巨页等，这些情况下，虚机的内存是不允许发生页面交换的，因此元数据服务接口返回值中添加相关标记位，虚机内负载服务获取到标记位为“不可交换内存”的状态时，服务自动停止。

一种云计算环境下物理内存自适应系统，虚机内的负载分析服务和配置文件用于分析虚机运行时的负载占用趋势，判断虚机是否处于活跃运行状态，根据获得的结果和从元数据服务获得的物理机内存超配比，计算虚机物理内存的硬限制和软限制参数，并发起设置虚机内存限制请求到云平台元数据服务接口。

云平台管理侧的元数据服务新接口提供虚机所在物理机内存超配比信息，同时接收虚机发起的设置虚机物理内存限制参数的请求，判断并在参数合法情况下发起设置虚机内存限制RPC请求，使得目标物理机节点hypervisor根据情况交换虚机内存页面，实现活跃的虚机减少虚机物理内存占用限制，非活跃的虚机增加物理内存大小占用限制，从而达到整体上减少虚机在物理机上的内存占用大小，缓解物理机内存紧张问题。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种云计算环境下物理内存自适应方法及装置权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种云计算环境下物理内存自适应方法，其特征在于，虚机镜像内安装虚机负载分析服务，写入包含标记虚机活跃状态阈值的配置文件，安装虚机负载分析服务随虚机启动后，分析虚机CPU和内存的使用情况，根据已写入的配置文件，对比阈值确定虚机活跃状态；

2.根据权利要求1所述的一种云计算环境下物理内存自适应方法，其特征在于，所述配置文件的参数包括cpu和内存的高使用率阈值、低使用率阈值、CPU和内存活跃度计算权重、单次内存最小调节粒度大小和最小减少内存发起请求时间间隔；

3.根据权利要求2所述的一种云计算环境下物理内存自适应方法，其特征在于，虚机负载趋势计算规则为：

若非所述两种状态时，计算虚机负载评估值。

4.根据权利要求3所述的一种云计算环境下物理内存自适应方法，其特征在于，计算虚机负载评估值时，load＝cpu-weight*(cpu_usage/cpu_thres)+mem-weight*(mem_usage/mem_thres)；

cpu和内存使用率高于低使用率阈值记为高负载，cpu核内存使用率低于高使用率阈值记为低负载；

5.根据权利要求4所述的一种云计算环境下物理内存自适应方法，其特征在于，所述内存强限制和软限制计算规则为：

(1)减小虚机物理内存占用：

(2)增加虚机物理内存占用：

虚机的soft_limit对应超配比为：(1+vm_ratio)/swap_ratio，

hard_limit对应超配比为(vm_ratio+0.9)/2，

其中vm_ratio为当前虚机内存调节状态，初始为1；

6.根据权利要求5所述的一种云计算环境下物理内存自适应方法，其特征在于，所述元数据服务处理时，更新Openstack组件元数据服务组件nova-api-metadata，添加请求API，所述API接收带有虚机内存强限制和软限制的参数；

7.根据权利要求6所述的一种云计算环境下物理内存自适应方法，其特征在于，校验内存限制参数时，使虚机内存硬限制大小不小于内存规格的一定比例，如果满足则发起RPC调用设置虚机内存占用大小，虚机所在物理机的计算节点服务接收到所述RPC调用后，调用hypervisor提供的内存限制接口设置虚机物理内存占用大小，宿主机hypervisor会根据实际情况将虚机的部分内存页面交换到物理机的交换分区上。

8.根据权利要求7所述的一种云计算环境下物理内存自适应方法，其特征在于，所述虚机所在物理机节点需配置NVME本地磁盘作为交换分区，并在计算服务上配置相应的内存超配比参数

swap_ratio<＝(swap_size/memory_size)+1；

9.一种云计算环境下物理内存自适应系统，其特征在于，虚机内的负载分析服务和配置文件用于分析虚机运行时的负载占用趋势，判断虚机是否处于活跃运行状态，根据获得的结果和从元数据服务获得的物理机内存超配比，计算虚机物理内存的硬限制和软限制参数，并发起设置虚机内存限制请求到云平台元数据服务接口；