CN109710404A

CN109710404A - 分布式系统中的任务调度方法

Info

Publication number: CN109710404A
Application number: CN201811564289.4A
Authority: CN
Inventors: 贾维嘉; 唐志清
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-05-03
Anticipated expiration: 2038-12-20
Also published as: CN109710404B

Abstract

本发明提供了一种分布式系统中的任务调度方法，通过将分布式系统中抽象的的任务、节点以及环境分别转换成可计算的向量，便于计算；基于深度强化学习的训练方法进行数据的训练，可以有效的克服传统语义训练中的样本不足、向量之间距离拉不开足够距离导致效果不好的问题；通过对分布式系统进行具体情况的分析，设定出有助于选择动作的回报函数，可以有效减少整个分布式系统的能耗和SLAV情况，有效提高系统性能；基于真实的数据集进行测试，并具有很强的泛化能力，可以适用于各种分布式系统中。

Description

分布式系统中的任务调度方法

技术领域

本发明涉及分布式系统技术领域，特别涉及一种分布式系统中的任务调度方法。

背景技术

分布式系统是最近几十年都很热门的研究领域，它提供了充足的计算资源，可以完成用户发送的各种任务。分布式系统将大规模的计算节点组织起来，并进行统一的管理，对外接受异构的任务，使得用户可以在不需要了解分布式系统内部结构的前提下，只需要任务的请求量即可顺利请求到所需的任务计算资源。分布式系统灵活可扩展，在调度的时候以节约能耗、最小化SLAV(Service Level Agreement Violation，服务水平协议违反程度)为目标，尽可能以最优或接近最优的策略进行任务调度。

现有的分布式系统中的任务调度方法均为传统调度方法，将任务调度这个NP-Hard问题通过启发式算法，转换为可以通过近似算法进行求解的问题。在任务到来时，通过统计所有节点的资源情况，然后根据节点资源的利用率或者均衡情况得到调度结果。得到的调度方案的方法主要是对资源需求进行预测的预分配方案，或者是基于历史信息，通过回归分析得到资源需求的一些启发式算法。现有的结合深度学习的任务调度算法主要考虑一个简单的全连接模型，简单的将任务和节点的状态输入全连接网络，然后得到输出的数值，并以此作为调度的依据，判断任务该调度到哪个节点。

但是，现有的任务调度算法会带来一系列问题，主要包括调度的不准确性，忽略历史信息导致的局部最优问题。将传统深度学习技术直接应用于分布式系统中的任务调度会同样导致环境信息的丢失以及不准确性，以及训练过程中的过拟合问题导致对于训练数据过度依赖。

发明内容

本发明的目的在于提供一种分布式系统中的任务调度方法，以解决使用现有技术中任务调度算法存在的问题。

为解决上述技术问题，本发明提供一种分布式系统中的任务调度方法，所述分布式系统中的任务调度方法包括：

S1：初始化分布式系统的环境、任务列表、节点列表及初始时间；

S2：获取当前时刻到达的任务和环境，所述环境包括任务请求资源列表和节点资源情况列表，并将当前时刻的任务请求资源列表和节点资源情况列表分别转化为任务请求资源分布和节点剩余资源分布；

S3：将获取的当前时刻到达的任务和环境分别进行语义向量嵌入，以得到任务向量和环境向量；

S4：将所述任务向量和所述环境向量相乘得到节点向量，并通过一全连接层转化为各个节点的回报函数值；

S5：基于所述任务向量和所述环境向量，根据贪心策略选择一个动作作为当前动作；

S6：更新分布式系统的环境，以得到分布式系统的下一个状态，并将更新前状态，选择的动作，下一个状态存入临时记忆空间；

S7：反复执行S2～S6，以获得各个时刻的临时记忆空间及回报函数值，并将各个时刻获得的临时记忆空间和对应的回报函数值共同存储于记忆空间中；

S8：对所述记忆空间进行深度强化学习训练，以训练结果进行任务调度。

可选的，在所述的分布式系统中的任务调度方法中，S3中，获得任务向量的过程如下：

根据任务的资源属性将任务拆分为CPU和内存，并将CPU和内存分别经过不同层向量嵌入层，以得到两个嵌入后的向量；

将两个嵌入后的向量合并后经过一全连接层，并通过一tanh激活函数激活，以得到任务向量。

可选的，在所述的分布式系统中的任务调度方法中，S3中，获得环境向量的过程如下：

构建分布式系统中任务集合，将所述任务结合转换为任务资源情况的分布，使用卷积网络对其特征进行抽样，抽样之后通过一全连接层变成任务分布的向量；

构建分布式系统中节点集合，使用另一卷积网络抽样出其中的节点剩余资源分布信息，然后将其经过一全连接层变成节点分布的向量；

将所述任务分布的向量和所述节点分布的向量相加的结果作为环境向量。

可选的，在所述的分布式系统中的任务调度方法中，在S4中，所述回报函数值基于回报函数计算获得，所述回报函数的计算公式如下：

R_k＝P(k-T)-P(k)；

其中，R_k为k时刻的回报函数值；P(k-T)为k-T时刻的能耗；P(k)为k时刻的能耗；k为表示时刻。

可选的，在所述的分布式系统中的任务调度方法中，所述回报函数每隔预定时间更新计算一次。

可选的，在所述的分布式系统中的任务调度方法中，在S2中，还包括根据分布式系统中节点的功耗和SLAV构建任务调度问题模型，所述任务调度问题模型采用公式表示如下：

minC＝P+K×SLAV

其中，C为所有开销总和；P为所有节点在某时刻总共的能耗开销；SLAV为所有节点的服务水平协议违反程度总和；M_i为第i个任务；N_j为第j个节点；N_j.mo为第j个节点的内存容量；M_i.m(k)为第i个任务在k时刻的内存请求。

可选的，在所述的分布式系统中的任务调度方法中，所有节点在某时刻总共的能耗开销的计算方式如下：

如果节点处于关闭或者睡眠状态，那么节点的能耗为0；

否则，节点的能耗由下面的公式计算得出：

其中，P_idle和P_max是指CPU利用率为0和100％时的功耗；Uj(t)是节点的资源利用率，定义如下：

可选的，在所述的分布式系统中的任务调度方法中，所有节点的服务水平协议违反程度总和计算公式如下：

其中，M_i.a为实际分配给任务M_i的CPU资源；M_i.c为任务M_i的CPU请求。

可选的，在所述的分布式系统中的任务调度方法中，S6中，以分布式系统的环境以及当前时刻到来的任务作为状态空间，以节点集合作为动作空间，设立的更新函数如下：

其中，S_T-1为T-1时刻的状态；A_T-1为T-1时刻采取的动作；S_T为T时刻的状态；A_T为T时刻采取的动作；α为学习率；γ为折扣因子；R_T-1为T-1的时刻的回报函数值；Q(S_T-1，A_T-1)为T-1时刻的Q值；Q(S_T，A_T)为T时刻的Q值。

在本发明所提供的分布式系统中的任务调度方法中，通过将分布式系统中抽象的的任务、节点以及环境分别转换成可计算的向量，便于计算；基于深度强化学习的训练方法进行数据的训练，可以有效的克服传统语义训练中的样本不足、向量之间距离拉不开足够距离导致效果不好的问题；通过对分布式系统进行具体情况的分析，设定出有助于选择动作的回报函数，可以有效减少整个分布式系统的能耗和SLAV情况，有效提高系统性能；基于真实的数据集进行测试，并具有很强的泛化能力，可以适用于各种分布式系统中。

附图说明

图1是本发明一实施例的分布式系统中的任务调度方法的流程图；

图2是本发明一实施例的分布式系统中的任务调度方法的原理示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的分布式系统中的任务调度方法作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

为使本发明的目的、特征更明显易懂，下面结合附图对本发明的具体实施方式作进一步的说明，然而，本发明可以用不同的形式实现，不应认为只是局限在所述的实施例。

请参考图1，其为本发明的分布式系统中的任务调度方法的流程图。如图1所示，所述分布式系统中的任务调度方法包括如下步骤：

首先，执行步骤S1，初始化分布式系统的环境、任务列表、节点列表及初始时间。

接着，执行步骤S2，获取当前时刻到达的任务和环境，所述环境包括任务请求资源列表和节点资源情况列表，并将当前时刻的任务请求资源列表和节点资源情况列表分别转化为任务请求资源分布和节点剩余资源分布。

进一步地，在S2中，还包括根据分布式系统中节点的功耗和SLAV构建任务调度问题模型，所述任务调度问题模型采用公式表示如下：

minC＝P+K×SLAV

所有节点在某时刻总共的能耗开销P的计算方式如下：

如果节点处于关闭或者睡眠状态，那么节点的能耗为零；

否则，节点的能耗由下面的公式计算得出：

所有节点的服务水平协议违反程度总和SLAV计算公式如下：

接着，执行步骤S3，将获取的当前时刻到达的任务和环境分别进行语义向量嵌入，以得到任务向量和环境向量。

具体的，S3中，获得任务向量的过程如下：

S3中，获得环境向量的过程如下：

构建分布式系统中任务集合M＝{M₁,M₂,…,M_m}，将所述任务结合转换为任务资源情况的分布，使用卷积网络对其特征进行抽样，抽样之后通过一全连接层变成任务分布的向量；

构建分布式系统中节点集合N＝{N₁,N₂,…,N_n}，使用另一卷积网络抽样出其中的节点剩余资源分布信息，然后将其经过一全连接层变成节点分布的向量；

具体的，任务由用户发出，最终会被分配到某个节点上被执行。任务不可分割，一个任务只能被分配到一个节点。任务到达时有先后顺序，按照任务的先后顺序依次进行分配。每个分布式系统中的节点N_i有资源容量，包括CPU资源N_i.c和内存资源N_i.m，实际情况中，CPU资源是可以进行超售的，也就是可以分配多于节点CPU资源的资源出去；而内存资源是不可超售的，也就是有多少内存资源就只能最多分配这么点内存资源。我们主要以CPU资源来衡量开销，以内存资源作为限制条件。对于每个任务M_j，都有CPU请求量M_j.c和内存请求量M_j.m。

接着，执行步骤S4，将所述任务向量和所述环境向量相乘得到节点向量，并通过一全连接层转化为各个节点的回报函数值。

S4中，所述回报函数值基于回报函数计算获得，所述回报函数每隔预定时间计算更新一次，优选的，所述预定时间为10个时刻。

接着，执行步骤S5，基于所述任务向量和所述环境向量，根据贪心策略选择一个动作作为当前动作。

接着，执行步骤S6，更新分布式系统的环境，以得到分布式系统的下一个状态，并将更新前状态，选择的动作，下一个状态存入临时记忆空间。

在S6中，以分布式系统的环境以及当前时刻到来的任务作为状态空间，以节点集合作为动作空间，设立的更新函数如下：

接着，执行步骤S7，反复执行S2～S6，以获得各个时刻的临时记忆空间及回报函数值，并将各个时刻获得的临时记忆空间和对应的回报函数值共同存储于记忆空间中。

接着，执行步骤S8，对所述记忆空间进行深度强化学习训练，以训练结果进行任务调度。

对于整个向量空间的训练，其过程如下的Algorithm 1所示。

在上面的Algorithm 1中，输入训练数据集S，实体集合E，关系集合L，向量维度k，输出网络参数θ。首先对l、e进行初始化，然后对于每一个循环，从训练数据集S中采样部分训练数据，并对每一组训练数据，生成对应的负样本，并加入到最终的集合T中。最后计算距离y，计算正样本的能量函数和负样本的能量函数，并计算损失函数L，最后对网络参数θ进行优化。

对于整个深度强化学习，其过程如下的Algorithm 2所示。

在上面的Algorithm 2中，输入权重为θ的策略网络，权重为θ′的目标网络，记忆回放空间D和临时存储空间D’，输出是t时刻的动作A_t。对于每一次训练，首先观察到初始状态S₀，然后根据预设的策略(即∈贪心策略)选取一个合适的动作；然后观察到下一个状态，并将当前状态、动作、下一个状态这三个信息存入临时存储空间D’。如果当前轮次正好是训练轮次，那么计算回报函数，从D’中取出临时记忆，加入回报函数值之后放入记忆回放空间，并清除D’，然后调用Algorithm 3对网络进行更新，以及输出动作，以此循环。

对于Q深度网络里的记忆回放模块的更新，如下的Algorithm 3所示。

在Algorithm 3中，输入当前时刻的状态S_t，动作A_t，回报函数值R_t，下一个状态S_t+4，以及整个记忆空间D，输出的是更新后的网络权重，也就是对网络进行更新。首先从记忆空间中进行抽样。对于每一个抽样出来的四元组，计算新的Q值，计算网络的输出y(t)，然后对Q深度网络进行梯度下降，并且每隔一定的时间，将Q神经网络的参数设置为目标Q深度网络的参数θ′。最后返回Q深度网络的参数。

请参考图2，其为分布式系统中的任务调度方法的原理示意图。如图2所示，图中包括三个主要部分：任务、环境和节点；其中，任务部分主要包括了CPU资源请求和内存资源请求信息，并进行相应的向量嵌入生成对应的任务向量。环境部分主要包括任务资源请求分布情况和节点资源分布情况，各自通过卷积网络和采样层(Linear层)，得到对应的环境向量。节点部分主要包括CPU资源请求和内存资源请求部分，各自通过语义嵌入得到向量，然后合并成为环境部分的向量。对于节点部分，对节点的剩余CPU资源和剩余内存资源分别进行向量嵌入，生成节点的语义向量。然后通过乘法进行映射，得到最后的节点向量。

为了验证本发明的分布式系统中的任务调度方法的有益效果。发明人使用Python进行编程，模拟了分布式系统的任务、节点进行性能方面的对比分析。节点类包含了初始化模块、能耗计算模块、CPU资源模块、内存资源模块等。任务类包含了任务的CPU资源请求模块、内存资源请求模块等。此外，还设计了环境类，包括了环境的初始化、环境的更新、环境的获取、状态的获取、状态的更新以及动作的选择等模块。核心部分为Q学习类，包括智能体Agent类，深度学习网络部分Net类，记忆回访存储Memory类。智能体Agent类包括获取最佳动作模块、获取当前的状态、动作、回报函数值、下一个状态四元组的模块、记忆回放模块、预处理模块以及神经网络参数更新、梯度下降模块。深度学习网络Net类包括了网络结构模块，主要包含了Embedding层、CNN层、Linear层以及tanh激活层。而Memory类包含了记忆的存储模块、提取模块、临时存放模块、存储表格模块等。

实验数据来自于谷歌的真实的数据中心集群的节点数据，数据集一共包含了1个月的数据，包含了任务的CPU请求、内存请求、CPU实际分配、内存实际分配、节点的容量、节点的剩余容量、任务的实际调度结果等信息。从其中抽取出任务的CPU请求、内存请求以及节点的容量信息，方便模拟真实的任务进行调度。此外，将数据集进行粒度化，将每5分钟作为一个时间片段，并统计出每5分钟里的任务和节点的变化情况。对于参数的设置，CPU的能耗由下表得到：

表1：CPU利用率和能耗关系表

CPU Utilization(％)	0％	10％	20％	30％	40％	50％
							HP ProLiant G4	86	89.4	92.6	96	99.5	102
CPU Utilization(％)	60％	70％	80％	90％	100％
							HP ProLiant G4	106	108	112	114	117

对于其他的参数，设置了100个节点，1000个时刻，并统计了结果。

为了对比实验效果，选取了两个基准算法。将本发明采用算法简称为TransDS，此外，将贪心算法作为最基础的基准算法，记作Greedy算法，将已有的一个在分布式系统里进行调度的算法PABFD(Power Aware Best Fit Decreasing)算法作为另一个基准算法，记作PABFD算法。不同的参数下的实验结果对比情况如表2、表3及表4所示。

表2：不同算法的能耗对比

表3：不同算法的SLAV对比

表4：不同算法的总开销对比

Cost
					K	1	10	100	1000
TransDS	476.714	485.1	548.6	1180
					Greedy	697.82	716.11	791.6	1480
PABFD	589.803	588.98	680.9	1376

综上，本发明所提供的分布式系统中的任务调度方法存在如下有益效果：

1)本方法首次将分布式系统嵌入到向量空间，可以有效的解决分布式系统中各种任务的调度问题，将任务转换为向量，可以非常便于计算。

2)本方法在任务、环境和节点的语义向量嵌入的基础上，提出了一套自己的语义向量推理模型，可以根据任务和环境的语义向量推断出节点的向量。

3)本方法提出的基于深度强化学习的训练方法，可以有效的克服传统语义训练中的样本不足、向量之间距离拉不开足够距离导致效果不好的问题。

4)本方法通过对分布式系统进行具体情况的分析，设定出有助于选择动作的回报收益函数，可以有效减少整个分布式系统的能耗和SLAV情况，提高系统性能。

5)本方法基于真实的数据集进行测试，并具有很强的泛化能力，可以适用于各种分布式系统中。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种分布式系统中的任务调度方法，其特征在于，包括：

2.如权利要求1所述的分布式系统中的任务调度方法，其特征在于，S3中，获得任务向量的过程如下：

3.如权利要求1所述的分布式系统中的任务调度方法，其特征在于，S3中，获得环境向量的过程如下：

4.如权利要求1所述的分布式系统中的任务调度方法，其特征在于，在S4中，所述回报函数值基于回报函数计算获得，所述回报函数的计算公式如下：

R_k＝P(k-T)-P(k)；

5.如权利要求4所述的分布式系统中的任务调度方法，其特征在于，所述回报函数每隔预定时间更新计算一次。

6.如权利要求1所述的分布式系统中的任务调度方法，其特征在于，在S2中，还包括根据分布式系统中节点的功耗和SLAV构建任务调度问题模型，所述任务调度问题模型采用公式表示如下：

minC＝P+K×SLAV

其中，C为所有开销总和；P为所有节点在某时刻总共的能耗开销；SLAV为所有节点的服务水平协议违反程度总和；M_i为第i个任务；N_j为第j个节点；N_j._mo为第j个节点的内存容量；M_i.m(k)为第i个任务在k时刻的内存请求。

7.如权利要求6所述的分布式系统中的任务调度方法，其特征在于，所有节点在某时刻总共的能耗开销的计算方式如下：

如果节点处于关闭或者睡眠状态，那么节点的能耗为0；

否则，节点的能耗由下面的公式计算得出：

8.如权利要求6所述的分布式系统中的任务调度方法，其特征在于，所有节点的服务水平协议违反程度总和计算公式如下：

9.如权利要求1所述的分布式系统中的任务调度方法，其特征在于，S6中，以分布式系统的环境以及当前时刻到来的任务作为状态空间，以节点集合作为动作空间，设立的更新函数如下：