CN112631750B

CN112631750B - 面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法

Info

Publication number: CN112631750B
Application number: CN202011521067.1A
Authority: CN
Inventors: 陈旭; 杨涵; 周知
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2024-04-09
Anticipated expiration: 2040-12-21
Also published as: CN112631750A

Abstract

本发明涉及一种面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法。包括以下步骤：S1.从云数据中心获取特定时间段内各服务器中在线服务器的资源信息；S2.分析资源信息的数据特征，基于压缩感知的方法对资源信息进行抽样和压缩；S3.调度器获取压缩后的资源信息进行恢复，并将其作为LSTM模型的输入来预测下一时间段在线服务器的资源使用信息；S4.从云数据中心获取下一时间段内将要处理的批处理作业调度需求的资源信息；S5.结合当前在线服务器可用资源信息和批处理作业调度所需的资源信息，构建基于cMAB的在线学习模型，来对批作业进行调度。能大幅提升调度效率和云数据中心的资源利用率。

Description

面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法

技术领域

本发明涉及压缩感知，在线学习和云计算领域，更具体地，涉及一种面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法。

背景技术

为了云数据中心资源传输带来的网络拥塞问题，现有的一些工作使用随机抽样的方法来缓解资源信息数据传输的压力，但这种方法可能会导致云资源感知不准确。其他方法如使用恢复模型并采用统计估算的方法在随机抽样后重建全部资源信息数据，如专利CN111782627A，公开日为2020.10.16，公开了一种面向广域高性能计算环境的任务与数据协同调度方法；然而，这些模型通常忽略了云资源信息数据中复杂的潜在关系。还有其他的一些方法通过回归方法来利用关联性，但是它们需要手动选择相关属性并假设已知的数据样本分布，这在复杂的真实数据中心几乎是不可能获得的，没有太大的实用性和应用价值。而当前比较流行的深度学习模型通常对云资源信息有很好的恢复效果，但它们需要大量的计算资源，并且需要耗费较长的时间来进行模型的训练和预测。

为了保证令人满意的在线服务性能，需要高效的细粒度调度方法。在之前的研究中，有许多启发式算法如公平调度、首次拟合和装箱策略。这些算法简单直观，但对于在线服务和批处理作业的混合部署可能效率低下。其他算法如减少持续时间和完成时间的和旨在避免浪费调度过程中产生的能源消耗，都是根据不同的目标来优化调度过程。然而，上面提到的方法仅考虑静态资源和用户需求，因此很难满足现实云数据中心中呈现的高资源动态性和任务到达的随机性这两个重要的特性。

发明内容

本发明为克服上述现有技术中的至少一个缺陷，提供一种面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法，能大幅提升调度效率和云数据中心的资源利用率。

为解决上述技术问题，本发明采用的技术方案是：一种面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法，包括以下步骤：

S1.从云数据中心获取特定时间段内各服务器中在线服务器的资源信息；

S2.分析资源信息的数据特征，基于压缩感知的方法对资源信息进行抽样和压缩；

S3.调度器获取压缩后的资源信息进行恢复，并将其作为LSTM模型的输入来预测下一时间段在线服务器的资源使用信息；

S4.从云数据中心获取下一时间段内将要处理的批处理作业调度需求的资源信息；

S5.结合当前在线服务器可用资源信息和批处理作业调度所需的资源信息，构建基于cMAB的在线学习模型，来对批作业进行调度。

在本发明公开的一种面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法，是一种利用在线服务信息主动调度批处理作业的新方法，同时它是一个带宽高效的混合任务部署框架，通过对真实环境中的在线服务资源状态数据进行深入分析，发现了其具有低秩的特征，其中有些资源如CPU利用率还有较强的时间关联性，因此可以使用压缩感知的方法对在线服务的资源信息进行压缩，从而能够缓解云数据中心的网络拥塞，并且减少了系统的开销。

为了主动缓解在线服务和批处理作业混合部署带来的资源冲突，本发明利用了长短期记忆模型LSTM来对在线服务的下一阶段需求进行预测，但由于在线服务具有资源请求波动大的特点，因此使用LSTM来预测的资源需求与实际情况往往会产生偏差，所以本发明在此基础上为在线服务需求预留了一个最大值，以应对需求洪峰的出现，有效防止了在线服务的需求波动对批处理作业调度性能的影响。另外，本发明使用基于上下文相关的多臂老虎机模型cMAB，提出了一种有效的在线学习模型，将当前系统的资源利用率作为模型的激励机制，所以能很好地适应云数据中心环境动态变化的特点，比基于深度强化学习的方法更加轻量级，能大幅提升调度效率和云数据中心的资源利用率。

进一步的，所述的步骤S2中，分析资源信息的数据特征包括是否具有矩阵重构的低秩特征和时间关联性，以此判断是否可以使用压缩感知的方法以及是否可以利用时间关联性来协助恢复CPU资源信息的重建过程。

进一步的，利用奇异值分解的方法确定矩阵是否低秩；具体步骤包括：假设一个奇异矩阵σ_i代表奇异矩阵对角线上的元素，如果存在一个r，使得满足公式(1)，那么则证明这个矩阵是低秩的：

r<<min(n,m) (1)

进一步的，判断是否具有时间关联性的步骤包括：假设x_i，j代表在t时间上第i台服务器的资源信息，以下公式(2)通过Δx_i,j来表示时间关联性：

进一步的，所述的步骤S2中，基于压缩感知的方法对资源信息进行抽样和压缩具体包括以下步骤：

S21.对云数据中心的资源信息进行建模，定义代表在时间t上所有n个服务器的资源信息，/>则为一个二值指标，取1代表在该服务器上进行抽样，取0代表未在该服务器上进行采样，那么当前抽样得到的在线服务资源信息就可以表示为这两者的点积，用ht来表示h_t＝b_t·x_t；

S22.定义代表在T时间段内在线服务的总资源信息，/>表示恢复的结果，B为二值指标b_t对应的矩阵，那么数据重构的问题就可以转化为以下目标函数的优化问题，如公式(3)：

S23.进一步通过奇异值分解SVD方法将此优化目标进行求解，因此优化问题可以转化为以下表示形式：

S24.为了求解(4)中这个带约束的优化问题，采用拉格朗日乘子法对此问题进行求解：

在公式(5)中，拉格朗日参数λ是可以调节约束和秩最小化折衷的控制参数；

S25.CPU资源信息跟时间有较强的关联性，所以在对CPU资源信息恢复的过程中从时间维度上进行求解，这里利用关于时间T的托普利兹矩阵最终的目标函数为：

其中，公式(6)中的为时间关系项。

进一步的，为了应对出现资源需求出现洪峰的情况，在通过长短期记忆模型LSTM预测下一阶段的在线服务需求信息后，再增加一个预测需求值

进一步的，在下一个周期{T₁,…,T_f}中，假设预测结果为其中f是周期的长度，对于每台云服务器i∈{1,…,n}，需要选择一个特殊的预测需求p_i,k满足以下条件：

p_i,k≥95％of max(p_i,k),k∈{T₁,…,T_f} (7)

当选择了一个合适的p_i,k值后，将其扩展到当前时间段内资源的预测需求值假设/>为云数据中心资源信息的原始值，那么用于下一时间段内批处理作业调度的可用资源U就可以表示为：

进一步的，所述的步骤S5中构建基于cMAB的在线学习模型具体包括：给定可用CPU资源U_c和可用内存资源U_m，在特定的时间t，当批处理作业h_t到达时，并且它对CPU和内存的需求分别为Y_c和Y_m，那么n(Y_c,Y_m,U_c,U_m)定义为满足批处理作业调度需求资源的次数，用Y来表示，μ(Y)则表示其期望值，那么最终的在线学习模型可以表示为：

I(Y)＝μ(Y)+R(Y) (9)

式中，代表的是在线学习模型的置信半径。

与现有技术相比，有益效果是：

1.本发明通过对在实际生产环境中的数据集进行深入分析，发现在线服务资源信息在真实环境中具有低秩和时间关联性的特征，因此可以用压缩感知的方法来对云服务资源信息进行恢复重建，比起传统方法使用随机抽样和统计估算的方法，会让云服务资源信息的恢复精度更高，并且利用了云资源信息数据中复杂的潜在关系。而比起当前恢复效果较好的深度学习模型，具有计算成本低和减少时间开销的特点；

2.本发明基于压缩感知的预测性在线调度算法CSPOS，是一种利用在线服务信息主动调度批处理作业的新方法，该方法能够有效缓解云数据中心的网络拥塞，改善数据中心的各种性能指标，基于cMAB的在线学习模型能够根据实时在线服务信息，自适应地调度新到达的批处理作业，由于数据中心环境具有高动态性，而此模型的激励机制完全基于当前的资源利用率，因此可以很适合在云数据中心进行高效部署，比传统的启发式算法如公平调度，首次拟合和装箱策略的调度效率有着明显的提升，并且比起当前基于深度强化学习的模型有着轻量级和易于部署的特点；

3.本发明显著提高了资源利用率，并且具有非常低的部署成本，运行的时间开销也非常小，对整体系统的影响可以忽略不计。

附图说明

图1是本发明公开的面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法流程图。

图2是在线服务资源信息的低秩特征图。

图3是在线服务资源信息的时间关联特征图。

图4是在不同任务完成时间(JCT<10,JCT<20,JCT<30)的批处理作业调度数量在不同调度方法下与本发明公开方法的对比图。

图5是在本发明公开方法CSPOS下CPU平均利用率提升效果图。

图6是在本发明公开方法CSPOS下批处理作业调度时间图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

一种面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法，包括以下步骤：

步骤1.从云数据中心获取特定时间段内各服务器中在线服务器的资源信息；

步骤2.分析资源信息的数据特征，基于压缩感知的方法对资源信息进行抽样和压缩。

首先通过数据分析的方法来验证压缩感知对于云数据中心资源传输的可行性，这里使用的是阿里巴巴开发的集群数据集v2018，使用压缩感知方法需要有两个先决条件，一个是随机采样，另外一个是矩阵重构的低秩特征，而奇异值分解是一种确定矩阵是否低秩的有效方法。

利用奇异值分解的方法确定矩阵是否低秩；具体包括：假设一个奇异矩阵σ_i代表奇异矩阵对角线上的元素如果存在一个r，使得满足公式(1)，那么则证明这个矩阵是低秩的：

r<<min(n,m) (1)

本发明在所有时间步长上选择了在线服务资源指标CPU利用率和内存，通过实验证明了在线服务需求的资源是符合低秩特征的，如图2所示，所以可以很好地利用压缩感知方法来恢复采样数据。

此外，在在线服务资源信息数据中发现的第二个特征是时间关联性，如图3所示，假设xi,j代表在t时间上第i台服务器的资源信息，以下公式(2)通过Δx_i,j来表示时间关联性：

其中，(2)中分母代表的是两个连续时间步长之间资源需求的最大差异；对于CPU资源信息，90％的数据在两个连续时间步长之间的差异小于20％，所以可以利用时间关联性来协助恢复CPU资源信息的重建过程。

通过数据分析之后，可以利用基于压缩感知地方法来对资源信息进行压缩，这一步的主要目的是缓解网络拥塞并大幅降低从云服务器传输到调度器的成本，利用压缩感知的核心思想，通过在每个调度周期随机抽样一小部分云服务器(本发明中随机抽样的概率为30％)，来恢复在线服务的资源使用信息。

基于压缩感知的方法对资源信息进行抽样和压缩具体包括以下步骤：

S25.通过前面的分析还可以得出CPU资源信息还跟时间有较强的关联性，所以在对CPU资源信息恢复的过程中从时间维度上进行求解，这里利用关于时间T的托普利兹矩阵最终的目标函数为：

其中，公式(6)中的为时间关系项；这是一个带有时间关系的矩阵重构优化问题，通过第一步我们得知这个是针对CPU资源信息重构的，而内存信息的重构则可以把托普利兹矩阵/>看成是一个零矩阵，优化求解过程大致相同。

步骤3.调度器获取压缩后的资源信息进行恢复，并将其作为LSTM模型的输入来预测下一时间段在线服务器的资源使用信息。

步骤2解决了基于压缩感知的信息重构问题，即解决了当前服务占用资源信息的获取和传输问题，但由于云数据中心有众多服务器，如果调度器需要在调度期间的每个时间步骤处理在线服务的需求资源信息，那么调度器的效率将会下降。因此，本发明的CSPOS方法使用预测模型来预测下一个时间段的在线服务的资源需求，在下一个阶段，调度器将不再需要接收和处理在线服务的需求信息。所以本发明利用长短期记忆模型LSTM来预测下一阶段的在线服务需求信息，但由于在线服务具有资源请求波动大的特点，因此使用LSTM来预测的资源需求与实际情况往往会产生偏差，比如可能在某个时间段上突然出现需求洪峰，这时候仅仅依赖预测结果来进行调度就是不可行的，资源需求洪峰在在线服务中是比较常见的，为了应对这种情况，本发明在预测后添加了一个预测需求值

在下一个周期{T₁,…,T_f}中，假设预测结果为其中f是周期的长度，对于每台云服务器i∈{1,…,n}，需要选择一个特殊的预测需求p_i,k满足以下条件：

p_i,k≥95％of max(p_i,k),k∈{T₁,…,T_f} (7)

步骤4.从云数据中心获取下一时间段内将要处理的批处理作业调度需求的资源信息。

步骤5.结合当前在线服务器可用资源信息和批处理作业调度所需的资源信息，构建基于cMAB的在线学习模型，来对批作业进行调度。

根据步骤3计算得到的可用资源U，利用基于cMAB的在线学习模型来进行批处理作业的调度了，cMAB是一种高效的在线学习机制，比深度强化学习方法更加轻量级，此外，cMAB可以利用动态可用的云资源的上下文信息来进行调度策略学习。由于数据中心有大量的服务器，如果调度器需要决定每个批处理作业需要放置在哪台服务器并计算其优先级，效率就会大幅降低。因此，CSPOS可以确定批处理作业与一定范围的资源量进行适配，基于这个想法，可以将可用资源信息划分为多个资源范围，因此可以按照百分比来划分空闲资源，对于所有类型资源可以划分为[2％,4％,6％,8％,16％,32％,64％,100％]。

构建基于cMAB的在线学习模型具体包括：给定可用CPU资源U_c和可用内存资源U_m，在特定的时间t，当批处理作业h_t到达时，并且它对CPU和内存的需求分别为Y_c和Y_m，那么n(Y_c,Y_m,U_c,U_m)定义为满足批处理作业调度需求资源的次数，用Y来表示，μ(Y)则表示其期望值，那么最终的在线学习模型可以表示为：

I(Y)＝ μ(Y)+ R(Y) (9)

式中，代表的是在线学习模型的置信半径。从公式(9)中可以看出基于cMAB的在线学习模型同时拥有剥削exploitation和探索exploration的机制，当Y的期望值小的时候，R(Y)会显著增加，这就是探索的机制；当Y的期望值大时，就会占据I(Y)的一大部分，这就是剥削的机制。

最后，以实验来验证本发明所提方案的可行性，如图4所示，显示的是在不同方法下不同任务完成时间(10，20，50)的批处理作业完成的数量，可以看出本发明所提出的方案比起其他方法能有效提升调度的效率，并且提高批处理作业完成的数量。然后，以系统的CPU平均利用率为例进行测试，如图5所示，可以看出本发明公开方案比起基准线有着明显的提升，所以CSPOS的调度方法能有效提升资源的利用率，同时还对本发明提出方法CSPOS的调度时间进行实验，如图6所示，可以看出CSPOS模型的时间开销非常小，对云数据中心的整体系统性能的影响可以忽略不计。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法，其特征在于，包括以下步骤：

S5.结合当前在线服务器可用资源信息和批处理作业调度所需的资源信息，构建基于cMAB的在线学习模型，来对批作业进行调度；

在步骤S2中，分析资源信息的数据特征包括是否具有矩阵重构的低秩特征和时间关联性，以此判断是否可以使用压缩感知的方法以及是否可以利用时间关联性来协助恢复CPU资源信息的重建过程；

其中，判断是否具有时间关联性的步骤包括：假设x_i,j代表在t时间上第i台服务器的资源信息，以下公式(1)通过Δx_i,j来表示时间关联性：

利用奇异值分解的方法确定矩阵是否低秩，具体步骤包括：假设一个奇异矩阵σ_i代表奇异矩阵对角线上的元素，如果存在一个r，使得满足公式(2)，那么则证明这个矩阵是低秩的：

2.根据权利要求1所述的面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法，其特征在于，所述的步骤S2中，基于压缩感知的方法对资源信息进行抽样和压缩具体包括以下步骤：

S21.对云数据中心的资源信息进行建模，定义代表在时间t上所有n个服务器的资源信息，/>则为一个二值指标，取1代表在该服务器上进行抽样，取0代表未在该服务器上进行采样，那么当前抽样得到的在线服务资源信息就可以表示为这两者的点积，用h_t来表示h_t＝b_t·x_t；

s.t.B·(LR^T)＝H (4)

S25.CPU资源信息跟时间有较强的关联性，所以在对CPU资源信息恢复的过程中从时间维度上进行求解，利用关于时间T的托普利兹矩阵最终的目标函数为：

其中，公式(6)中的为时间关系项。

3.根据权利要求2所述的面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法，其特征在于，为了应对出现资源需求出现洪峰的情况，在通过长短期记忆模型LSTM预测下一阶段的在线服务需求信息后，再增加一个预测需求值

4.根据权利要求3所述的面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法，其特征在于，在下一个周期{T₁,…,T_f}中，假设预测结果为其中f是周期的长度，对于每台云服务器i∈{1,…,n}，需要选择一个特殊的预测需求p_i,k满足以下条件：

p_i,k≥95％of max(p_i,k),k∈{T₁,…,T_f} (7)

5.根据权利要求4所述的面向云数据中心的基于压缩感知的预测性在线调度与混合任务部署方法，其特征在于，所述的步骤S5中构建基于cMAB的在线学习模型具体包括：给定可用CPU资源U_c和可用内存资源U_m，在特定的时间t，当批处理作业h_t到达时，并且它对CPU和内存的需求分别为Y_c和Y_m，那么n(Y_c,Y_m,U_c,U_m)定义为满足批处理作业调度需求资源的次数，用Y来表示，μ(Y)则表示其期望值，那么最终的在线学习模型可以表示为：

I(Y)＝μ(Y)+R(Y) (9)

式中，代表的是在线学习模型的置信半径。