CN115242796A

CN115242796A - 一种面向云-边-端场景的任务调度方法

Info

Publication number: CN115242796A
Application number: CN202210675831.3A
Authority: CN
Inventors: 赵力强; 赵春宇; 李因新
Original assignee: Xidian University; Guangzhou Institute of Technology of Xidian University
Current assignee: Xidian University; Guangzhou Institute of Technology of Xidian University
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-25
Anticipated expiration: 2042-06-15
Also published as: CN115242796B

Abstract

本发明公开了一种面向云‑边‑端场景的任务调度方法，包括以下步骤：步骤一，初始化DDQN神经网络的Q网络参数θ₁；步骤二，对任意一个接入点b，将所述接入点b的Q网络参数θ_i赋值给Q网络；步骤三，根据所述接入点b的状态s_i和接入点b的动作a_i进行训练并更新Q值；步骤四，确定使Q值最大的状态s_i作为目标状态；步骤五，将目标状态输入DDQN神经网络中，输出Pod选择部署在边缘服务器和云服务器的概率集；步骤六，选择概率集中概率最大值对应的动作的服务器作为目标部署服务器，将Pod部署在目标部署服务器上。本发明在满足系统负载均衡的条件下，以最大化吞吐量为优化目标，实现多维资源的合理分配。

Description

一种面向云-边-端场景的任务调度方法

技术领域

本发明属于通信技术领域，具体涉及一种面向云-边-端场景的任务调度方法。

背景技术

在数据流量的爆发式增长下，云-边协同受到了研究人员的广泛关注，Kubernetes(K8s)作为容器的编排管理工具，正在成为连接云-边的关键技术，但其默认的调度策略仅仅根据节点是否满足Pod部署的最低需求，因此不适合复杂的云-网-边系统。目前大多数任务请求调度方案依赖于服务响应时间、网络波动、请求到达模式等的准确建模或预测，但整个系统的负载均衡与系统的吞吐量是相关的。

现有技术中的一种保障边云负载比的边云协同多任务调度方法和系统，该方案以完成多任务同时调度并将边云负载比作为参数加入到目标函数中以保证调度结果的边云负载比，但该方案不能有效保证系统的吞吐量最大化，并且实施起来复杂度较高。现有技术中可以解决端边资源调度中应用无法在执行要求时限下完成以及能耗较大的问题，但该技术没有考虑负载均衡的条件，并且没有较好地实现端边任务的合理调度。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种面向云-边-端场景的任务调度方法。本发明要解决的技术问题通过以下技术方案实现：

一种面向云-边-端场景的任务调度方法，应用于云服务器端，将用户的任务请求部署成K8s中的Pod，包括以下步骤：

步骤一，初始化DDQN神经网络的Q网络参数θ₁；

步骤二，对任意一个接入点b，将所述接入点b的Q网络参数θ_i赋值给Q网络；接入点数量有M个，所述接入点的集合为P＝{1,2,3,…,b,…,M}；所述接入点包括基站和/或无线接入点；

步骤三，根据所述接入点b的状态s_i和接入点b的动作a_i进行训练并更新Q值，得到多个Q值；

其中，s_i＝[CPU,RAM,type]，CPU,RAM表示与所述接入点b所连接的边缘服务器当前可用的CPU资源和RAM资源，type表示Pod的类型，类型包括时延敏感型和非时延敏感型，动作a_i表示与所述接入点b相连接的服务器的索引；所述接入点b的动作集为：Actions_b＝[0,1,2,3,…,a_i,…,X-1,X]，[0～X-1]表示与接入点b相连接的边缘服务器的索引，X表示云服务器的索引；

步骤四，确定使Q值最大的状态s_i作为目标状态；

步骤五，将目标状态输入DDQN神经网络中，输出Pod选择部署在边缘服务器和云服务器的概率集；其中，概率集与所述动作集相对应；

步骤六，选择概率集中概率最大值对应的动作的服务器作为目标部署服务器，将Pod部署在目标部署服务器上。

在本发明的一个实施例中，所述步骤三的具体步骤包括：

输入训练选取的预设数据样本组数、预设最大训练步数，经验池的存储量，预设最大幕数和预设拷贝周期；

进行第一步训练，将所述接入点b的状态s_i输入到Q网络中得到接入点b的动作a_i：

将所述状态s_i和所述动作a_i输入到target Q网络中，根据奖励函数得到对应的奖励r_i和下一个状态s_i+1；

奖励函数为

其中，

BL_t表示服务器集群的负载均衡程度，且v＝0.5表示整个服务器集群的负载程度为0；

将(s_i,a_i,r_i,s_i+1)存储到经验池中；

当经验池中存储的数据的组数大于或等于p时，从经验池中随机抽取p组数据，否则进行第二步训练；

若训练步数等于预设最大训练步数K，且经验池中存储的数据的组数小于p，则执行步骤二进行幕数为2的训练，以此类推，直至经验池中存储的数据的组数大于或等于p；

当训练步数为预设拷贝周期L的整数倍时，将Q网络参数θ_i值赋给target Q网络的参数

并根据随机抽取的p组数据和公式(1)更新Q值；

α表示学习率；r_i+1表示下一个状态s_i+1对应的奖励；γ表示折扣因子，取值范围为[0,1]，折扣因子衡量奖励对状态的影响；a_i+1表示下一个动作，

根据随机抽取的p组数据和公式(2)更新Q网络参数θ_i得到任意一个接入点b的Q网络更新参数θ_i+1；

将Q网络更新参数θ_i+1上传到云服务器计算M个接入点的联邦平均参数θ'；

将联邦平均参数θ'赋值给Q网络，重复执行多轮训练，更新得到多个Q值。

本发明的有益效果：

本发明采用联邦学习和深度强化学习来实现云-网-边资源调度，构建负载均衡为约束条件，以完成任务调度的数量为优化目标，实现云-边-端任务的合理调度，提高多维资源的高效使用。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种面向云-边-端场景的任务调度方法的云-边-端场景系统示意图；

图2是本发明实施例提供的DDQN网络架构示意图；

图3是本发明实施例提供的DDQN中Q网络和target Q网络的结构；

图4是本发明实施例提供的云服务器和边缘服务器的定义的代码示例；

图5是对接入点进行单独的DDQN算法训练和将该接入点加入到本发明算法训练结果示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

资源调度即接入点(基站/无线接入点)将用户的任务请求派送到边缘节点和云计算节点。本发明将任务请求部署成K8s中的Pod，基于图1所示的系统模型，假设接入点有M个，记为P＝{1,2,3,…,b,…,M}；其中边缘服务器有N个，记为E＝{1,2,3,…,e,…,N}；与接入点b相连接的边缘服务器记为

云服务器记为C。接入点b等待派送的任务队列记为

边缘服务器e维护正在执行的任务队列记为：

云服务器C维护正在执行的任务队列记为

边缘服务器e所拥有的CPU和RAM资源记为R_e＝{CPU_e,RAM_e}，云服务器C所拥有的CPU和RAM资源记为R_C＝{CPU_C,RAM_C}。

本发明将如何调度的问题建模为对优化函数求解的问题，在整个集群负载均衡的情况下，最大化系统的吞吐量。其中吞吐量定义为：在时间[0,t]内，整个云-网-边集群完成Pod的部署数量。记边缘服务器e在时间t内处理的Pod部署数量为r_t(e)，云服务器处理的Pod部署数量为r_t(C)，则云-网-边系统在时间t内共处理的请求为：

相对于边缘服务器，云服务器的计算、存储以及网络资源是巨大的，所以本发明认为云服务器的CPU和RAM是无穷大的，云服务器的资源使用情况不被考虑在整体的负载均衡计算中。因此边缘服务器的CPU和RAM在时间t内的使用率

和

分别为：

其中，

和

分别表示在时刻t，边缘服务器目前剩余的CPU和RAM大小，CPU_e和RAM_e分别表示边缘服务器总的CPU和RAM资源。

整个云-网-边系统CPU和RAM使用率的均值分别为：

边缘服务器整体CPU和RAM使用率的均方误差为：

整个系统的负载均衡程度为：

BL_t＝α*StdU_t+β*StdI_t

其中，α和β分别表示CPU和RAM在负载均衡中所占的权重系数，且α+β＝1。

综上，可以得到目标优化函数：

s.t.BL_t≤0.7

其中，本发明认为当负载均衡程度高于0.7时，整个系统处于过载状态，所以限制条件是BL_t≤0.7。因此本发明在满足系统负载均衡的条件下，以最大化吞吐量为优化目标。

具体地，一种面向云-边-端场景的任务调度方法，应用于云服务器端，将用户的任务请求部署成K8s中的Pod，包括以下步骤：

步骤10，初始化DDQN神经网络的Q网络参数θ₁；输入训练参数：所需选取的预设数据样本组数batch_size为p、预设最大训练步数K，经验池的存储量Z，预设最大幕数D和预设拷贝周期L；幕数也即是训练的轮数。

步骤20，对于幕数为1，也即是开始第一轮迭代训练，初始化经验池大小，并获得初始化状态s₀，对任意一个接入点b，将接入点b的Q网络参数θ_i赋值给Q网络；接入点数量有M个，接入点的集合为P＝{1,2,3,…,b,…,M}；接入点包括基站和/或无线接入点；

步骤30，进行第一步迭代训练，将接入点b的状态s_i输入到Q网络中得到接入点b的动作a_i：

其中，s_i＝[CPU,RAM,type]，CPU,RAM表示与接入点b所连接的边缘服务器当前可用的CPU资源和RAM资源，type表示Pod的类型，类型包括时延敏感型和非时延敏感型，动作a_i表示与接入点b相连接的服务器的索引；接入点b的动作集为：Actions_b＝[0,1,2,3,…,a_i,…,X-1,X]，[0～X-1]表示与接入点b相连接的边缘服务器的索引，X表示云服务器的索引；

步骤40，将状态s_i和动作a_i输入到target Q网络中，根据奖励函数得到对应的奖励r_i和下一个状态s_i+1；

奖励函数为

其中，

步骤50，将(s_i,a_i,r_i,s_i+1)存储到经验池中；

步骤60，当经验池中存储的数据的组数大于或等于p时，从经验池中随机抽取p组数据，否则返回步骤30进行第二步训练；

若训练步数等于预设最大训练步数K，且经验池中存储的数据的组数小于p，则返回步骤20进行幕数为2的第二轮训练，以此类推，直至经验池中存储的数据的组数大于或等于p；

步骤70，当训练步数为预设拷贝周期L的整数倍时，将Q网络参数θ_i值赋给targetQ网络的参数

并根据随机抽取的p组数据和公式(1)更新Q值；

其中，α表示学习率；r_i+1表示下一个状态s_i+1对应的奖励；γ表示折扣因子，取值范围为[0,1]，折扣因子衡量奖励对状态的影响；a_i+1表示下一个动作，

步骤80，根据随机抽取的p组数据和公式(2)更新Q网络参数θ_i得到任意一个接入点b的Q网络更新参数θ_i+1；

其中，

为Q(s_i,a_i；θ_i)的梯度；

对M个接入点中的每个接入点进行并行执行步骤20-步骤80之后执行步骤90：

步骤90，将Q网络更新参数θ_i+1上传到云服务器计算M个接入点的联邦平均参数θ'；联邦平均参数θ'的计算公式为

步骤100，将联邦平均参数θ'赋值给Q网络，重复执行步骤20-步骤90进行多轮训练，更新得到多个Q值；

步骤110，确定使Q值最大的状态s_i作为目标状态；

步骤120，将目标状态输入DDQN神经网络中，输出Pod选择部署在边缘服务器和云服务器的概率集；其中，概率集与动作集相对应；

图2是接入点b部署的DDQN网络架构，其中有两个神经网络，分别是Q网络和targetQ网络，其中Q网络和target Q网络是一样的。图3表示DDQN中Q网络和target Q网络的结构。其由四层全连接网络组成，第一层表示输入层，其大小为[batch_size,input_dim]，其中input_dim表示目标状态，将目标状态输入DDQN神经网络中；第二层为全连接层，其大小为[input_dim,64]，其神经元有64个；第三层也为全连接层，其大小为[64,64]，其中神经元有64个；最后一层为输出层，其大小为[64,action_dim]，其中action_dim是概率集，为一个一维数组，数组中的值分别表示Pod选择服务器的概率，action_dim数组的大小表示可选服务器的个数。概率集与动作集Actions_b＝[0,1,2,3,…,a_i,…,X-1,X]对应，例如，action_dim＝[0.2,0.5,…,0.1]则表示Pod部署在索引为0的边缘服务器的概率为0.2，部署在索引为1的边缘服务器的概率为0.5，部署在索引为X的云服务器的概率为0.1。

步骤130，选择概率集中概率最大值对应的动作指示的服务器作为目标部署服务器，将Pod部署在目标部署服务器上。也即是选择概率最大值对应索引指示的服务器，将Pod部署在该服务器上，例如选择部署在概率为0.5索引为1的边缘服务器上。

本发明将联邦学习和DDQN算法相结合，通过引入联邦学习聚合不同接入点的强化学习网络，可以在整个系统集群的角度更好的提高强化学习的学习效率。同时，本发明构建负载均衡为约束条件，以完成任务调度的数量为优化目标，利用深度双Q网络(Double DeepQ Network，DDQN)算法，结合联邦学习实现云-边-端任务的合理调度，提高多维资源的高效使用。在满足系统负载均衡的条件下，以最大化吞吐量为优化目标，实现多维资源的合理分配。

其中，步骤10-步骤100通过以下算法流程实现：

本专利采用阿里巴巴于2018年公开的数据集。代码中每个服务器的CPU和RAM与服务器真实的CPU和RAM进行一一映射，图4是云服务器、边缘服务器的定义。其中边缘节点有两组CPU和RAM的记录，cpu_max和mem_max分别表示该节点配置的CPU和RAM的大小；cpu和mem分别表示当前节点剩余的CPU和RAM资源。由于云服务器的资源远远强于边缘节点，所以假设其CPU和RAM是无穷大的，因此就不再用两组数据记录。

接入点1的边缘服务器配置([CPU,RAM])为：[300,8],[200,8],[200,8]，其中[CPU,RAM]分别表示CPU的核数(其中100表示一核)和RAM的大小(单位是GB)。通过对接入点1进行单独的DDQN算法训练和将该接入点加入本发明算法FL-DDQN训练得到如图5所示的结果。从图中可以看出，基于DDQN算法部署得到的奖励少于基于联邦学习的DDQN算法部署得到的奖励。这是因为基于DDQN算法的接入点仅依靠本地数据进行训练，其探索的状态空间没有联邦学习过程探索的状态空间充分，因此相较于DDQN算法，基于联邦学习的DDQN算法可以更好地提高系统的吞吐量。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种面向云-边-端场景的任务调度方法，其特征在于，应用于云服务器端，将用户的任务请求部署成K8s中的Pod，包括以下步骤：

步骤一，初始化DDQN神经网络的Q网络参数θ₁；

步骤四，确定使Q值最大的状态s_i作为目标状态；

2.根据权利要求1所述的一种面向云-边-端场景的任务调度方法，其特征在于，所述步骤三的具体步骤包括：

进行第一步迭代训练，将所述接入点b的状态s_i输入到Q网络中得到接入点b的动作a_i：

奖励函数为

其中，

将(s_i,a_i,r_i,s_i+1)存储到经验池中；

当训练步数为预设拷贝周期L的整数倍时，将Q网络参数θ_i值赋给target Q网络的参数θ_i ^-，并根据随机抽取的p组数据和公式(1)更新Q值；