CN113296845A

CN113296845A - 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法

Info

Publication number: CN113296845A
Application number: CN202110619280.4A
Authority: CN
Inventors: 赵海涛; 姬昊; 王滨; 张晖; 夏文超; 朱洪波; 张峰; 王星
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd; Nanjing University of Posts and Telecommunications
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd; Nanjing University of Posts and Telecommunications
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-08-24
Anticipated expiration: 2041-06-03
Also published as: CN113296845B

Abstract

本发明公开一种边缘计算环境下基于深度强化学习的多小区任务卸载算法，提出了一种改进的双深度Q网络算法，并基于双深度Q网络算法进行任务卸载算法设计，并将MEC边缘控制平台作为智能体与车联网环境进行交互，旨在相同的资源下优化任务处理速率与任务执行时延，另外在复杂业务场景下，针对DQN算法中存在的过估计问题，对DQN算法中的Q值函数进行改进，提高模型选择最优卸载策略的能力，本方案可以显著的提高计算与存储资源的利用率、有效降低车辆终端的任务执行时延，大幅度提高边缘侧计算与存储资源的利用率，并且算法收敛效率高于传统的DQN算法，解决了任务的最佳卸载比例问题，能够更有效地降低任务的执行时延。

Description

一种边缘计算环境下基于深度强化学习的多小区任务卸载算法

技术领域

本发明涉及通信技术研究技术领域，尤其是涉及一种边缘计算环境下基于深度强化学习的多小区任务卸载算法。

背景技术

随着通信与计算机技术的发展，道路上联网的车辆终端数量正在迅速增加。预计至2025年，全世界约有一半的车辆终端将会接入到互联网，产生约100万艾字节的数据量。作为物联网(Internet of Things,IoT)技术的一个典型应用方向，车联网近年来逐步朝着智能化的方向发展，智能交通系统(Intelligent Transport System,ITS)的概念也随之应运而生。通过移植至车辆终端上的智能感知、通信单元、车载单元等设备，车联网可以对道路交通信息进行全方位的感知，同时能够在智能交通系统中实时分享其采集的全部交通状态信息。在当前的车联网场景中，车辆终端可以采用V2I(Vehicle to Instruments)方式与路侧设备进行信息交互，也可以采用V2V(Vehicle to Vehicle)方式与其他车辆终端进行信息交互，随着新的通信技术的研发以及V2X(Vehicle to Everything)通信技术的大规模应用，车联网实现了与无线互联网的全面接入，朝着更加智能、更加全面、更加多样化、更加安全的方向发展，从而能够为用户生活提供更好的服务。

MEC作为一种有前景的新兴技术手段，其概念于2014年被欧洲电信标准协会正式提出，并在2016年对其进行了规范化与标准化。MEC可以在无线网络的边缘侧为用户提供计算服务以及对应的IT服务环境。在传统云计算模式中，车辆终端需要将其携带的计算任务上传至云服务器，导致任务在执行过程产生了较大的上传时延。在MEC计算模式中，车辆终端可以将计算任务迁移至部署在边缘侧的MEC服务器执行，在避免较大上传时延的同时，边缘侧MEC服务器的可用资源也远超车辆终端，其任务执行时延远低于车辆终端本地执行，从而有效拓展了车辆终端的计算能力。专利号CN111641891A公开了一种多接入边缘计算系统中的任务对等卸载方法和装置，基于用户设备本地服务器中任务延迟值来确定需要对等卸载的任务；基于遗传算法为需要对等卸载的任务选择卸载目的MEC服务器并为需要对等卸载的任务分配路由资源和频谱资源；基于比例公平方法为需要对等卸载到所述目的MEC服务器的任务和在本地MEC服务器的任务分配计算资源。然而，由于车辆终端的移动性，车联网边缘网络拓扑结构也会产生动态变化，由于无线信道的复杂性，车辆终端任务卸载决策的合理性、长期有效性成为了MEC系统的两个关键问题，尤其需要解决系统的合理建模、精准的能耗估算以及多用户卸载决策的高效制定与管理等。

发明内容

为了解决上述问题，本发明针对多小区多车辆终端场景，考虑到边缘侧MEC服务器节点匮乏的挑战，提出了一种联合优化任务动态卸载与资源调度的算法。文中首先基于排队论，以车载边缘网络中所有计算任务的执行时延之和作为优化目标建立系统模型；然后探讨了DQN算法中的过估计问题，通过Double DQN算法来缓解该问题对卸载决策制定造成的影响。最后提出了一种基于Double DQN的计算资源分配及车辆终端任务动态卸载算法。

本发明主要目的在于大幅度提高边缘侧计算与存储资源的利用率、有效降低车辆终端的任务执行时延。本方案首先建立了多小区多终端的系统模型，其次引入双深度Q网络(Double DQN)解决深度强化学习中的过估计问题，并提出了多边缘服务器场景下的基于Double DQN的任务动态卸载算法，为每个车辆终端寻找合适的小区接入并分配计算资源，从而降低系统任务的执行总时延。

本发明解决其技术问题所采取的技术方案是：先对车联网场景下的多小区多终端建模，并将问题公式化为以任务的最小执行时延，其约束为任务执行过程中的能耗为目标的最优化问题，然后为了解决传统DQN算法中的过估计问题，提出了一种改进的双深度Q网络算法，并基于双深度Q网络(Double DQN)算法进行任务卸载算法设计，并将MEC边缘控制平台作为智能体与车联网环境进行交互。本方案可以显著的提高计算与存储资源的利用率、有效降低车辆终端的任务执行时延。

为实现上述技术目的，达到上述技术效果，本发明是通过以下技术方案实现的：一种边缘计算环境下基于深度强化学习的多小区任务卸载算法，其特征在于，所述算法包括如下步骤：

步骤1，基于排队论对任务到达与任务卸载建立包括车辆终端、边缘服务器和小区基站的车联网环境；

步骤2，将车联网环境中的任务执行分为本地执行模式和边缘计算模式，计算边缘计算模式中车辆终端任务卸载的比例总和、任务总量、任务执行延时，以及车辆终端将任务卸载至边缘服务器的上传时延，得到任务执行总时延；

步骤3，将任务的总执行延时最小为优化目标，任务执行过程中的能耗为约束，建立优化问题；

步骤4，设计了一种双深度Q网络算法，通过使用两个网络参数θ与θ^-，其中θ用来选择动作，θ^-用来估计Q值，缓解传统DQN算法中的过估计问题；

步骤5，基于双深度Q网络(Double DQN)算法进行任务卸载算法设计，并将MEC边缘控制平台作为智能体与车联网环境进行交互。

进一步地，所述步骤1中车辆终端表示为k∈{1,2...K}，并且每个车辆的任务到达率表示为λ_k bps，车辆携带的计算任务表示为C_k＝(V_k,D_k,Γ_k)，边缘服务器集合表示为m∈{1,2...M}，其中，车辆数量为k个，小区基站为m个，V_k表示任务的计算复杂度，单位为比特/轮；D_k表示任务的数据量大小,单位为比特，Γ_k表示任务的最大容忍时延，单位为毫秒。

进一步地，所述步骤2中，车辆终端k的任务卸载比例总和表示为

车辆终端k的本地执行任务总量表示为

车辆终端卸载至边缘服务器的任务量表示为

车辆终端k的任务执行时延表示为

车辆终端k将任务卸载至边缘服务器m的上传时延表示为

车辆终端k边缘计算模式下的任务执行总时延表示为

其中，x_km为将任务卸载至边缘服务器的比例。

进一步地，所述步骤3中的优化目标表示为：

其中，车辆终端k的本地计算能耗系数为β_loc焦/比特，上行传输能耗系数为β_upload焦/比特，边缘服务器计算能耗系数为β_mec焦/比特，系统最大能耗为E_constraint。

进一步地，所述步骤4中Q值的更新公示为：y_t＝r_t+γQ'(s_t+1,argmax_aQ(s_t+1,a；θ)；θ')，其中，γ为折扣因子，argmax_a表示为当前Q值网络中最大Q值对应的动作；θ为当前Q值网络的网络参数，θ'为目标Q值网络的网络参数。

进一步地，所述步骤5中的具体步骤包括如下:

步骤5-1，初始化经验池存储空间容量，随机初始化在线值网络参数θ与目标值网络参数θ'，其中θ＝θ'；

步骤5-2，初始化放缩因子α、折扣因子γ，设定在线值网络参数与目标值网络参数的更新步长为num1，一次epoch的步长为num2；

步骤5-3，对每个循环；

步骤5-4，对状态s1进行初始化处理，得到预处理序列φ₁＝φ(s₁)；

步骤5-5，对每个循环；

步骤5-6，生成一个(0,1)之间的随机数η，如果随机概率值ε大于η，随机选择一个动作执行，否则选择潜在回报最大的动作

步骤5-7，执行动作，观察得到的奖励值r_t以及下一步的状态s_t+1，并得到对应的预处理序列φ_t+1＝φ(s_t+1)；

步骤5-8，将向量(φ_t,a_t,r_t,φ_t+1)存放于经验池中；

步骤5-9，从经验池对样本数据进行随机抽取作为在线值网络的输入，并令其输出；

步骤5-10，基于反向传播算法，根据(y-Q(φ,a；θ))²构建误差函数更新网络参数θ，令s＝s'；

步骤5-11，如果状态是最终状态，重启开启一次episode。

步骤5-12，如果episode迭代次数到达上限，结束小循环；

步骤5-13，延迟更新目标网络参数，每num1步令目标值网络参数θ'＝θ；

步骤5-14，选择动作argmax_a执行；

步骤5-15，结束大循环。

进一步地，所述步骤5-9中，输出表示为：

Q_k+1(s_t,a_t；θ_t)＝Q_k(s_t,a_t；θ_t)+α_kE_k

进一步地，所述步骤5中MEC边缘控制平台作为智能体与车联网环境进行交互的建模为：

首先，将边缘服务器在每个时隙开始时具备的剩余计算资源设定为系统的当前状态，表示为S(t)＝{s₁(t),s₂(t),...s_m(t)}；

其次，任务卸载至边缘服务器的比例值是主要优化变量，因此动作向量定义为A(t)＝{x_1,m,x_1,m,...,x_K,m}；

最后，将瞬时奖励表示为

瞬时奖励值R_s,a越大，说明当前状态的执行总时延越小，即制定的卸载决策越合理；

其中，S(t)表示系统在第t个时隙的状态空间，s_m(t)表示边缘服务器m在第t个时隙的剩余计算资源，x_k,m＝{x_k,1,x_k,2,...,x_k,m}表示车辆终端k对所有边缘服务器的卸载比例，t_s,a其中表示当前状态下任务的执行总时延，t_all表示全部本地执行时的任务执行总时延。

本发明的有益效果是：

本发明提出了一种改进的双深度Q网络算法，并基于双深度Q网络(Double DQN)算法进行任务卸载算法设计，并将MEC边缘控制平台作为智能体与车联网环境进行交互。旨在相同的资源下优化任务处理速率与任务执行时延；另外在复杂业务场景下，针对DQN算法中存在的过估计问题，对DQN算法中的Q值函数进行改进，提高模型选择最优卸载策略的能力。本方案可以显著的提高计算与存储资源的利用率、有效降低车辆终端的任务执行时延，大幅度提高边缘侧计算与存储资源的利用率，并且算法收敛效率高于传统的DQN算法，解决了任务的最佳卸载比例问题，提出的算法较传统的DQN任务卸载算法能够更有效地降低任务的执行时延。

附图说明

图1为车辆终端的任务处理模型。

具体实施方式

下面结合附图1对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

考虑到车联网边缘环境中计算资源分布配置的情况，我们假定每个基站连接一个服务器用于执行车辆终端卸载的计算任务，基站与服务器之间可以通过有线通信的方式传输任务。另外，我们假定由MEC边缘控制平台来统一管理所有边缘服务器的网络与计算资源，并根据当前时刻每个边缘服务器的资源占用情况来做出合理的资源分配与卸载决策。最后在任务动态到达的背景下研究如何有效利用各小区的计算、存储与网络资源，从而使所有终端携带的任务执行总时延最小。

如图1所示，我们考虑一个包括K个车辆和M个小区基站的车联网环境，其中每个小区基站通过有线通信的方式连接一台高性能边缘服务器。车辆终端表示为k∈{1,2...K}，并且每个车辆的任务到达率表示为λ_k bps(bit per second，比特每秒)，车辆携带的计算任务表示为C_k＝(V_k,D_k,Γ_k)，其中V_k表示任务的计算复杂度，单位为比特/轮；D_k表示任务的数据量大小,单位为比特，Γ_k表示任务的最大容忍时延，单位为毫秒。

边缘服务器集合表示为m∈{1,2...M}，假定每个服务器的处理器核心数目为c_m，每个处理器核心的计算能力表示为f_m bps。车辆终端可以根据能耗与任务执行时延等情况做出对应的卸载决策，在此假设所有任务都是不可被切分的，并且只能在MEC服务器或者本地执行。

车辆终端有两种任务执行模式，分别是本地执行模式与边缘计算模式。本方案假定车辆终端在进行任务卸载时以单个任务为单位，即同一个任务车辆终端要么在本地执行，要么全部卸载至边缘服务器处理，每次卸载的数据量大小为D_k。

车辆终端k的本地处理能力表示为μ_k，将任务卸载至边缘服务器m的比例表示为x_km，本文设定同一小区覆盖范围内所有车辆的处理能力均相同。于是，车辆终端k的任务卸载比例总和可以表示为：

车辆终端k的本地执行任务总量表示为：

任务在车辆终端k本地执行时采用M/M/1模型，如图1所示。那么任务执行时延可以表示为：

当车辆终端的计算任务按照λ_k的到达率产生时，除了按一定比例在本地执行任务，其余的均可以卸载至边缘服务器处执行。由式2可知，车辆终端卸载至边缘服务器的任务量可以表示为：

如图1所示，本文将边缘服务器的任务处理模型表示M/M/C队列，则边缘服务器m的单位比特任务执行时延可以表示为：

其中

因此，在边缘计算模式中，车辆终端k的任务执行时延表示如下：

另外，本方案将从车辆终端k到边缘服务器m的上行数据传输速率定义为：

同时我们仍将任务上行传输定义为一个M/M/1队列，车辆终端k将任务卸载至边缘服务器m的上传时延可以表示为：

综上所述，车辆终端k边缘计算模式下的任务执行总时延可以表示为：

在本方案中，优化目标为任务的最小执行时延，其约束为任务执行过程中的能耗。假定车辆终端k的本地计算能耗系数为β_loc焦/比特，上行传输能耗系数为β_upload焦/比特，边缘服务器计算能耗系数为β_mec焦/比特，系统最大能耗为E_constraint。令x＝[x_k,m]为车辆终端卸载方案的决策向量，考虑多用户多小区场景下的动态卸载以及资源分配问题，本文的优化目标可以表示为：

其中约束c1.1表示任务卸载数据量大小不能超过其本身，约束c1.2、c1.3表示本地计算模式与边缘计算模式产生的时延均需要小于任务最大容忍时延，约束c1.4表示系统能耗不能超过额定值。与第三章的问题类似，式10依旧是一个NP-hard问题。在任务数量不大的时候，可以通过遍历寻找最优解。但是此问题的解空间会随着任务数量的增长而迅速增加。可以将此优化问题转化为马尔科夫决策问题，基于深度强化学习算法来解决。

目前神经网络值函数模型输出的只是一个估计值，无法准确地反映真实值，二者之间存在误差。另外由于目前的DQN算法采用的是贪婪策略来选取当前状态的最优动作，当真实值和估计值之间的误差分布均匀时，基于贪婪策略选取的动作有一定的概率不是系统当前状态下的最优动作，导致模型的收敛速度下降或者最终无法学习到一个最优的策略。

假定值函数模型在当前状态s下执行动作a后输出的估计Q值为Q^estimation(s,a)，目标Q值为Q^target(s,a)，

为目标Q值与估计Q值之间的误差，并假设其在[-η,η]为均匀分布，其中η表示为误差上限，我们可以得到：

另外，我们将当前状态s下执行动作a后的奖励值表示为

估计值与真实值的误差表示为

则可以得到：

因为

在

为均匀分布，所以可得

因此

我们由此可以得到一个结论：当

时，对于系统在状态s下执行的任何动作a来说，都不可避免地导致

,即Q^estimation(s,a)＞Q^target(s,a)，从而产生了过估计问题。下面我们针对该问题进行优化，以保证DQN算法的有效性。

传统DQN算法中主要是通过计算出最优状态-动作值函数Q^*(s,a)来选择当前状态s下的最优动作a。因此一旦值函数模型误差过大，就会导致次优动作的状态-动作值函数大于最优动作，从而导致系统学习到的策略不是最优策略。因此一种改进的方法是双深度Q网络算法，通过使用两个网络参数θ与θ^-，其中θ用来选择动作，θ^-用来估计Q值，缓解传统DQN算法中的过估计问题。

以下是双深度Q网络算法设计内容。

(1)激活函数与优化算法

双深度Q网络(Double DQN)隐藏层中的输入值由激活函数决定，从而对模型的性能产生直接影响。综合考虑Tanh(值范围为-1至1的双切函数)、整流线性单元(Relu)以及Sigmoid函数(生物学常见的S型函数)等三种激活函数，本方案最终采用Sigmoid函数作为网络的激活函数。

Double DQN中影响模型性能的另一个因素为优化算法。在传统的Double DQN中采用的是均方根投影(RMSProp)。目前部分新的优化算法得到了更广泛的应用，如梯度下降(Gradient Descent，GD)、Adam(动量和RMSProp相结合的优化算法)以及AdaGrad(自适应梯度)等，其中Adam方法在大部分场景中性能表现都比较优秀，相比于其他的随机优化算法具有更大的优势，因此本文采用Adam优化算法。

(2)双Q网络

作为Double DQN的核心技术，双Q网络不仅能够减少目标Q值和当前Q值的相关性，同时能将更新目标Q值的动作选择和目标Q值的计算相解耦，从而避免状态-动作值的过估计，加快算法的收敛速度。传统的Q-learning算法与DQN算法中都会出现不正常的高状态-动作值，Double DQN算法缓解过估计问题的具体原理描述如下：传统的DQN算法在目标Q网络中寻找每个动作对应的最大Q值，而Double DQN算法首先在当前Q网络中寻找最大Q值相对应的动作，接着利用该选出的动作在目标Q网络中计算对应的目标Q值。Double DQN算法的两个Q值网络的结构完全相同，但是目标Q网络的网络参数不必时刻更新，只需要间隔特定迭代次数，从当前Q网络将参数复制给目标Q网络即可。其中目标Q值的更新公式如下：

y_t＝r_t+γQ'(s_t+1,argmax_aQ(s_t+1,a；θ)；θ') (13)

其中，γ为折扣因子，argmax_a表示为当前Q值网络中最大Q值对应的动作；θ为当前Q值网络的网络参数，θ'为目标Q值网络的网络参数。

Double DQN算法的训练本质是经过大量迭代后，使得当前Q值能够无限接近目标Q值，从而使得两者之间的误差逐渐减小并接近于0。此时，算法迭代过程基本结束，即达到了最终收敛状态。损失函数可以定位为下式：

Loss(θ)＝E[(y_t-Q(s_t,a；θ))]² (14)

我们基于双深度Q网络(Double DQN)算法进行任务卸载算法设计，并将MEC边缘控制平台作为智能体与车联网环境进行交互。首先我们对强化学习三要素进行建模。

(1)状态

在本文中，由于边缘服务器剩余的计算资源是随着车辆终端卸载决策的变化而变化的，因此将边缘服务器在每个时隙开始时具备的剩余计算资源设定为系统的当前状态，表示为：

S(t)＝{s₁(t),s₂(t),...s_m(t)} (15)

S(t)表示系统在第t个时隙的状态空间，s_m(t)表示边缘服务器m在第t个时隙的剩余计算资源。

表1基于Double DQN的任务动态卸载算法流程说明

(2)动作DQN算法的核心迭代算法为Q学习算法。由式1可知，本方案的主要优化变量是任务卸载至边缘服务器的比例值，因此将动作向量定义为：

A(t)＝{x_1,m,x_1,m,...,x_K,m} (16)

其中x_k,m＝{x_k,1,x_k,2,...,x_k,m}，表示车辆终端k对所有边缘服务器的卸载比例。

(3)奖励

MEC边缘控制平台可以通过奖励值的累积期望来对未来动作进行规划，从而制定出合理的卸载决策，其目标是最大化当前奖励值。综合考虑本方案的应用场景，我们将瞬时奖励表示为：

t_s,a其中表示当前状态下任务的执行总时延，t_all表示全部本地执行时的任务执行总时延。瞬时奖励值R_s,a越大，说明当前状态的执行总时延越小，即制定的卸载决策越合理。

另外，Double DQN算法根据式18，在消除过估计问题的同时，可以实现对状态动作的更新。

基于Double DQN的任务动态卸载算法流程描述如表1所示。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种边缘计算环境下基于深度强化学习的多小区任务卸载算法，其特征在于，所述算法包括如下步骤：

2.根据权利要求1所述的一种边缘计算环境下基于深度强化学习的多小区任务卸载算法，其特征在于，所述步骤1中车辆终端表示为k∈{1,2...K}，并且每个车辆的任务到达率表示为λ_kbps，车辆携带的计算任务表示为C_k＝(V_k,D_k,Γ_k)，边缘服务器集合表示为m∈{1,2...M}，其中，车辆数量为k个，小区基站为m个，V_k表示任务的计算复杂度，单位为比特/轮；D_k表示任务的数据量大小,单位为比特，Γ_k表示任务的最大容忍时延，单位为毫秒。

3.根据权利要求1所述的一种边缘计算环境下基于深度强化学习的多小区任务卸载算法，其特征在于，所述步骤2中，车辆终端k的任务卸载比例总和表示为