CN112905343A

CN112905343A - 一种工业云环境下基于负载特性的资源调度系统

Info

Publication number: CN112905343A
Application number: CN202110183248.6A
Authority: CN
Inventors: 文俊浩; 龚春夏; 杨正益; 丁克勤; 陶俊铭; 陈乾坤
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-06-04
Anticipated expiration: 2041-02-09
Also published as: CN112905343B

Abstract

本发明公开一种工业云环境下基于负载特性的资源调度系统，包括负载数据监控器、负载特性分析器、资源调度决策器、资源调度执行器和数据库；本发明针对工业云环境负载的复杂性，结合机器学习和传统方法，设计了一种基于负载特性的资源调度系统，并将其应用于工业云平台中。

Description

一种工业云环境下基于负载特性的资源调度系统

技术领域

本发明涉及云计算领域，具体是一种工业云环境下基于负载特性的资源调度系统。

背景技术

自从2006年谷歌公司提出“云计算”的概念以来，云计算的模式已经逐步成为互联网时代的基础设施，为硬件资源之上的应用服务提供安全、可靠的计算和数据处理能力。工业云环境存在数据量大、服务类型冗余等特点，在监测和检测过程中，每台工业设备每天都会产生大量数据，对于数据的存储、处理和分析都将耗费大量的计算资源。对于工业云平台上的每一项服务，硬件条件有限的情况下，充分利用计算资源、实现“按需”分配和及时回收、保证服务数量持续增长的过程中云平台稳定运行、以及如何提高服务响应时间和服务质量是需要重点考虑的问题。

目前已经存在的服务资源调度模型中，基于阈值的伸缩机制在工业上应用最广泛。基于阈值的伸缩方式是一种响应式的机制，当系统监测到平台的负载量增大或减少的时候，会根据设定的阈值判断是否需要执行资源的伸缩和调度。得益于其实现方法简单且易于理解，大多数工业云平台中采用了这一模型。但是在负载量急剧变化的时候，模型本身存在响应不及时、容易发生抖动等缺陷，且模型的效率严重依赖阈值的设定，若阈值设定不合理，则无法全面地反应负载的变化。

现有的资源调度模型很难智能地调整分配的资源，难以实现最大化资源利用率的目标。

发明内容

本发明的目的是提供一种工业云环境下基于负载特性的资源调度系统，包括负载数据监控器、负载特性分析器、资源调度决策器、资源调度执行器和数据库。

所述负载数据监控器包括监控服务端和若干监控客户端。

所述监控客户端监测云平台工作节点的负载数据，并发送至监控服务端。

所述监控客户端周期性调用监控客户端对应接口，监测云平台工作节点负载数据。

所述监控服务端将接收到的负载数据存储在主节点持久化数据库的历史负载数据序列中，并将历史负载数据序列发送至负载特性分析器。

所述监控服务端设置在主节点上。

所述主节点在实时数据引擎中存储T时间内历史负载数据，并周期性将实时数据引擎中的历史负载写入持久化数据库的历史负载数据序列中。

所述负载特性分析器对历史负载数据序列进行处理，得到当前时间点的负载预测值，并发送至资源调度决策器。

所述负载特性分析器存储有XGBoost模型、卷积神经网络、支持向量回归模型。

所述负载特性分析器对历史负载数据序列进行处理的步骤包括：

1)获取历史负载数据序列，记为{X₁,X₂,X₃,…X_t-1}。

2)对历史负载数据序列中的连续特征进行数据重构，方法为：设置滑动窗口，以与当前时间点t邻近的窗口内的历史负载数据序列作为用于负载预测的历史负载连续数据序列，记为X-y。X为时间t之前的负载向量集合，y为时间t的负载值集合。

3)判断历史负载数据序列是否具有季节性趋势，若是，则进入步骤4)，否则进入步骤5)。判断历史负载数据序列是否具有季节性趋势的方法为STL时序分解方法。

4)利用XGBoost模型对步骤2)所述历史负载连续数据序列进行隐藏特征提取，得到隐藏离散特征I。

对原始离散特征和原始连续特征进行第一步融合，并作为训练集输入到卷积神经网络中进行隐藏特征提取，得到隐藏特征II。

对隐藏离散特征I和隐藏离散特征II进行融合，并过滤稀疏维度，得到融合向量，即支持向量回归模型的输入数据，然后进入步骤6)。

5)利用XGBoost模型对步骤2)所述历史负载连续数据序列进行隐藏特征提取，得到隐藏离散特征III。

利用卷积神经网络模型对步骤2)所述历史负载连续数据序列进行隐藏特征提取，得到隐藏特征Ⅳ。

对隐藏离散特征III和隐藏离散特征Ⅳ进行融合，并过滤稀疏维度，得到融合向量，即支持向量回归模型的输入数据，然后进入步骤6)。

6)将支持向量回归模型输入数据输入到支持向量回归模型中，得到当前时间点的负载预测值。

所述资源调度决策器根据当前时间点的负载预测值生成资源调度决策方案，并发送至资源调度执行器。

所述资源调度决策器生成资源调度决策方案的步骤包括：

1)判断当前时间点的负载预测值是否小于前一时间的负载数据，若是，则进入步骤2)，否则进入步骤3)。

2)判断当前时间点的负载预测值是否小于预设的阈值，若是，则将预设阈值作为目标资源数存储在资源调度决策方案中，将缩容作为执行手段存储在资源调度决策方案中。所述资源调度决策方案包括目标资源数和执行手段。所述目标资源为容器。

3)根据当前时间点的负载预测值和当前系统容量计算目标资源数量，若目标资源数大于当前可用资源数，则将计算出的目标资源数存储在资源调度决策方案中，将扩容作为执行手段存储在资源调度决策方案中。

所述资源调度执行器根据资源调度决策方案执行资源调度。

资源调度执行器执行资源调度决策方案的步骤包括：

1)资源调度执行器在主节点控制面板中列举所有物理节点和所有已经存在的容器列表。

2)判断当前容器类型。所述容器类型包括CPU密集型、内存密集型、IO密集型。

3)根据容器类型创建节点优先级列表。其中，节点优先级的衡量标准为当前容器类型对应的剩余可用资源数的大小。

4)取出节点优先级列表中优先级最高的节点用于分配资源，并删除已分配资源的节点。

5)判断当前目标资源数是否满足资源调度决策方案中的目标资源数，若是，则结束执行操作，否则，返回步骤3)。

所述数据库存储负载数据监控器、负载特性分析器、资源调度决策器、资源调度执行器的数据。

本发明的技术效果是毋庸置疑的，本发明针对工业云环境负载的复杂性，结合机器学习和传统方法，设计了一种基于负载特性的资源调度系统，并将其应用于工业云平台中。

本发明对资源调度的经典模型进行了扩展，将监控器部署到集群的每一个节点上，在平台主节点上部署监控器对应的存储引擎用于存储监测到的集群负载数据。在平台主节点中部署分析器、决策器和执行器，针对系统的历史负载变化，分析系统的负载特性，并根据此负载特性指定执行和决策的具体方案。比起现有的资源调度策略，本发明更有针对性且更智能。

本发明的负载特性分析模型中，针对历史负载特性特征提取不够的问题，提出一种更高效获取多维度特征的方法。仅仅通过与当前时间点邻近的少量历史数据来预测当前负载量，难以反映较长时间内的负载特征，尤其是对于具有季节性特征的时间序列而言。本发明考虑到不同类别的特征，一是通过集成学习的手段提取到短期历史数据中的隐藏信息，二是通过深度学习提取到季节性时序中的长期周期特征(离散特征)和短期连续特征中的隐藏特征，然后将两者进行融合，由此获取到更多的信息。

本发明的负载特性分析模型中，针对系统历史负载特征成分复杂、特征维度较高的问题，提出一种融合隐藏特征的两级模型融合方法。现有技术大多使用单一的回归模型，本方案采用融合的方式，先从初始数据中训练出一级模型，再用一级模型提取到的隐藏特征进行二级回归模型村联，最终得到的负载预测值与真实值更接近。

本发明的调度决策器中，决策器把分析模型得到的预测值范围作为扩容决策依据的策略，可以看成是预测式的调度策略，与基于阈值的响应式调度策略相比，此策略减少了响应时间，避免突然增大的负载压垮系统。大多数情况下预测值皆能大体反应负载量的变化幅度，所以可以作为决策器的重要决策依据之一。这项改进能显著提高云服务平台的服务质量。

附图说明

图1是本方案的总体流程图；

图2是本方案的总体架构图；

图3是负载特性分析系统的流程图；

图4是负载特性分析系统的结构示意图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1至图4，一种工业云环境下基于负载特性的资源调度系统，包括负载数据监控器、负载特性分析器、资源调度决策器、资源调度执行器和数据库。

所述负载数据监控器包括监控服务端和若干监控客户端。

所述监控服务端设置在主节点上。

监控器(包括客户端和服务端)本身作为应用程序不保存数据，监控服务端(部署在主节点上)通过客户端(部署在工作节点上)获取到工作节点负载数据，并存储在主节点的数据库中。

所述负载特性分析器存储有STL模型、XGBoost模型、卷积神经网络、支持向量回归模型。

1)获取历史负载数据序列，记为{X₁,X₂,X₃,…X_t-1}。

3)判断历史负载数据序列是否具有季节性趋势，若是，则进入步骤4)，否则进入步骤5)。判断历史负载数据序列是否具有季节性趋势的方法为STL时序分解方法。STL时序分解方法可以获得第一时间序列数据的季节分量、趋势分量以及残差分量，若历史负载数据序列存在季节分量和趋势分量，则判定历史负载数据序列具有季节性趋势。

STL时序分解方法基于局部加权回归将某时刻的负载量分成趋势分量和季节分量，整个模型大致分为内循环与外循环两层嵌套：外循环用于调节鲁棒性权重，然后在内循环完成趋势拟合与周期分量的计算。内循环的六个步骤如下所示：

I)去趋势，减去上一轮结果的趋势分量T_v；

II)周期子序列平滑，用局部加权回归对每个子序列做回归，并向前向后延展一个周期，平滑的结果组成C_v；

III)对步骤II)得到的序列C_v做低通量过滤，得到低通量序列L_v；

IV)对步骤II)的结果序列C_v去除步骤3提取到的序列L_v，得到S_v；

V)去周期，减去步骤IV)得到的周期分量S_v；

VI)趋势平滑，对去除周期之后的序列做局部加权回归，得到新的趋势分量T_v。

外循环主要用于调节robustness weight。如果数据序列中有异常值，则余项会较大，可以减小影响。

所述资源调度决策器生成资源调度决策方案的步骤包括：

所述资源调度执行器根据资源调度决策方案执行资源调度。

资源调度执行器执行资源调度决策方案的步骤包括：

3)根据容器类型创建节点优先级列表。优先级衡量标准为与当前容器类型对应的剩余可用资源数。例如，对于CPU密集型容器，根据每个工作节点剩余的可用CPU资源数排序，剩余量越多则优先级越高。

实施例2：

一种工业云环境下基于负载特性的资源调度系统，包括负载数据监控器、负载特性分析器、资源调度决策器、资源调度执行器和数据库。

负载数据监控器：

负载数据的监控器由主节点的监控服务端和工作节点的监控客户端共同构成。监控客户端以固定频率调用监控客户端对应接口，获取当前工作节点上容器的负载量，客户端将其传输到主节点的监控服务端上。

主节点在实时数据引擎中存储短期历史负载数据，并以固定频率将实时数据引擎中的数据写入持久化数据库中。资源调度任务开启时，监控器获取历史负载数据，并将其传输到分析器中，由分析器开始历史负载数据的分析和预测工作。

负载特性分析器：

将基于时间序列的负载特性分析问题定义为：根据历史负载序列{X₁,X₂,X₃,…X_t-1}预测目标序列{y_t,y_t+1,y_t+2,…y_t+n}的值。在进行隐藏特征提取之前，首先对负载量的历史时间序列的特性进行分析。时间序列中最典型的两个分量是趋势分量和季节分量，通过STL时序分解的方法可以检测到历史负载量时间序列{X₁,X₂,X₃,…X_t-1}是否具有趋势性或季节性。

输入当前时间点t对应的历史时间序列到STL模型之后，检测该序列是否具有季节性趋势，如果有则进入季节性隐藏特征提取的流程，否则进入非季节性序列的隐藏特征提取流程。

由于特征提取采用的时监督学习的模型，所以在进入季节性或非季节性特征提取流程之前，都需要进行数据重构。针对历史负载量中的连续特征，使用滑动窗口构建一个X-y的数据集，X为时间t之前的负载向量集合，y为时间t的负载值集合，其含义为使用与当前时间点t邻近的窗口大小内的历史负载序列预测当前时间点t的负载量。针对历史负载量中的离散特征，使用one-hot的编码方式，以区分不同离散特征的影响。

对于有季节性特征的历史负载序列：使用XGBoost模型对连续特征进行隐藏特征提取，XGBoost适合处理连续特征，并使用决策树集群从中提取出“离散特征”；使用卷积神经网络对离散特征和离散特征的融合向量进行隐藏特征提取。

对于没有季节性特征的历史负载序列，大体步骤和有季节特征的序列处理方法一致，只是在处理离散特征时，不包括序列的周期特征，即不需要对周期特征进行one-hot编码。

针对上文提到的所有特征进行融合，然后输入到支持向量回归模型中，最后训练得到当前时间点的负载预测值。

资源调度决策器：

针对扩容阶段，根据负载预测值和当前系统容量计算目标资源数量，若目标资源数大于当前可用资源数，立刻在集群管理面板中开启扩容操作。将目标资源数作为参数传递到资源调度执行器中，由执行器执行扩容操作。

针对缩容阶段，仍然使用响应式策略。当系统负载量持续降低时，唯一缺陷是计算资源浪费，而不会影响到系统的稳定运行或是服务质量。当负载降低到阈值之下时，立刻在集群管理面板中开启缩容操作。将阈值作为目标资源数传递到资源调度执行器中。

资源调度执行器：

获取资源调度决策器的调度策略，执行容器资源伸缩方案：在主节点控制面板中列举所有物理节点(硬件资源)和所有已经存在的容器列表，执行以下步骤直至达到资源伸缩方案设定容器个数(以扩容为例)：

1)判断当前容器类型，如CPU密集型、内存密集型、IO密集型等。

2)根据列举出的物理节点和已存在容器列表，衡量节点可用资源数，参照步骤1的容器类型判定，创建节点优先级列表。

3)取出节点优先级列表中优先级最高的节点用于分配资源，新的容器构造完成后回到步骤2，重构优先级列表。

缩容阶段以同样的方式进行，只是把增加容器操作更改为减少容器即可。

Claims

1.一种工业云环境下基于负载特性的资源调度系统，其特征在于：包括负载数据监控器、所述负载特性分析器、资源调度决策器、资源调度执行器和数据库。

所述负载数据监控器包括监控服务端和若干监控客户端；

所述监控客户端监测云平台工作节点的负载数据，并发送至监控服务端；

所述监控服务端将接收到的负载数据存储在主节点持久化数据库的历史负载数据序列中，并将历史负载数据序列发送至负载特性分析器；

所述负载特性分析器对历史负载数据序列进行处理，得到当前时间点的负载预测值，并发送至资源调度决策器；

所述资源调度决策器根据当前时间点的负载预测值生成资源调度决策方案，并发送至资源调度执行器；

所述资源调度执行器根据资源调度决策方案执行资源调度；

2.根据权利要求1所述的一种工业云环境下基于负载特性的资源调度系统，其特征在于：所述监控客户端周期性调用监控客户端对应接口，监测云平台工作节点负载数据。

3.根据权利要求1或2所述的一种工业云环境下基于负载特性的资源调度系统，其特征在于：所述监控服务端设置在主节点上；

4.根据权利要求1或3所述的一种工业云环境下基于负载特性的资源调度系统，其特征在于：所述负载特性分析器存储有XGBoost模型、卷积神经网络、支持向量回归模型。

5.根据权利要求4所述的一种工业云环境下基于负载特性的资源调度系统，其特征在于：所述负载特性分析器对历史负载数据序列进行处理的步骤包括：

1)获取历史负载数据序列，记为{X₁,X₂,X₃,…X_t-1}；所述历史负载数据序列具有原始离散特征和原始连续特征；

2)对历史负载数据序列中的原始连续特征进行数据重构，方法为：设置滑动窗口，以与当前时间点t邻近的窗口内的历史负载数据序列作为用于负载预测的历史负载连续数据序列，记为X-y；X为时间t之前的负载向量集合，y为时间t的负载值集合；

3)判断历史负载数据序列是否具有季节性趋势，若是，则进入步骤4)，否则进入步骤5)；

4)利用XGBoost模型对步骤2)所述历史负载连续数据序列进行隐藏特征提取，得到隐藏离散特征I；

对原始离散特征和原始连续特征进行第一步融合，并作为训练集输入到卷积神经网络中进行隐藏特征提取，得到隐藏特征II；

对隐藏离散特征I和隐藏离散特征II进行融合，并过滤稀疏维度，得到融合向量，即支持向量回归模型的输入数据，然后进入步骤6)；

5)利用XGBoost模型对步骤2)所述历史负载连续数据序列进行隐藏特征提取，得到隐藏离散特征III；

利用卷积神经网络模型对步骤2)所述历史负载连续数据序列进行隐藏特征提取，得到隐藏特征Ⅳ；

对隐藏离散特征III和隐藏离散特征Ⅳ进行融合，并过滤稀疏维度，得到融合向量，即支持向量回归模型的输入数据，然后进入步骤6)；

6.根据权利要求5所述的一种工业云环境下基于负载特性的资源调度系统，其特征在于，判断历史负载数据序列是否具有季节性趋势的方法为STL时序分解方法。

7.根据权利要求1所述的一种工业云环境下基于负载特性的资源调度系统，其特征在于，所述资源调度决策器生成资源调度决策方案的步骤包括：

1)判断当前时间点的负载预测值是否小于前一时间的负载数据，若是，则进入步骤2)，否则进入步骤3)；

2)判断当前时间点的负载预测值是否小于预设的阈值，若是，则将预设阈值作为目标资源数存储在资源调度决策方案中，将缩容作为执行手段存储在资源调度决策方案中；所述资源调度决策方案包括目标资源数和执行手段；所述目标资源为容器；

8.根据权利要求1所述的一种工业云环境下基于负载特性的资源调度系统，其特征在于，资源调度执行器执行资源调度决策方案的步骤包括：

1)资源调度执行器在主节点控制面板中列举所有物理节点和所有已经存在的容器列表；

2)判断当前容器类型；

3)根据列容器类型创建节点优先级列表；其中，节点优先级的衡量标准为当前容器类型对应的剩余可用资源数的大小；

4)取出节点优先级列表中优先级最高的节点用于分配资源，并删除已分配资源的节点；

9.根据权利要求8所述的一种工业云环境下基于负载特性的资源调度系统，其特征在于：所述容器类型包括CPU密集型、内存密集型、IO密集型。