CN113573363A

CN113573363A - 基于深度强化学习的mec计算卸载与资源分配方法

Info

Publication number: CN113573363A
Application number: CN202110853238.9A
Authority: CN
Inventors: 刘迪; 杨东; 李哲毓; 毕玉冰; 刘超飞; 王文庆; 崔逸群; 朱博迪; 肖力炀; 刘骁; 崔鑫
Original assignee: Xian Thermal Power Research Institute Co Ltd
Current assignee: Xian Thermal Power Research Institute Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-10-29
Anticipated expiration: 2041-07-27
Also published as: CN113573363B

Abstract

本发明公开了一种基于深度强化学习的移动边缘计算MEC的计算卸载与资源分配方法，为移动用户设备提供了一种最优的计算卸载与资源分配方案。在整体卸载条件下，对其构建处理计算移动用户设备计算任务的计算执行模型，然后根据最小化系统总开销的优化目标构建所有移动用户设备系统总开销的问题模型，利用深度强化学习方法确定最小的系统总开销。考虑到时变的MEC系统中实际的计算卸载与资源分配特性，任务时延阈值与系统计算资源的约束，本发明采用的是结合强化学习与深度学习的DQN算法，利用深度神经网络DNN来近似估计状态‑动作组的Q值，以确定最优的计算卸载与资源分配方案，达到最小的系统总开销。

Description

基于深度强化学习的MEC计算卸载与资源分配方法

技术领域

本发明属于移动通信技术领域，具体涉及一种基于深度强化学习的MEC计算卸载与资源分配方法。

背景技术

随着5G(5th Generation Mobile Communication Technology)网络技术的不断发展，未来网络中的应用，例如交互游戏、自动驾驶、增强现实、虚拟现实，这些应用都需要强大的计算能力，在极短的时间内完成大量的计算。受限于移动设备的计算能力与电池容量，使之无法获得良好的用户体验。在这种情况，计算卸载的概念被提出，指用户设备处理某些计算量庞大的应用时，在权衡延迟或者能耗等指标的情况下，将处理这些应用的数据通过无线信道上传到边缘服务器上，来减少任务完成时间和降低移动设备能耗。

5G应用推动了移动云计算MCC(Mobile Cloud Computing)概念的发展，移动用户设备可以利用强大的远程集中云的计算和存储资源来实现访问，但过多的使用可能会在数据交换时发生堵塞导致产生很长的等待时间。因此新的计算范式被提出—移动边缘计算MEC,它可以通过部署高性能服务器来提高移动网络边缘的计算能力。与MCC相比，它通过将云计算服务从集中式云扩展到网络边缘来延伸MCC的能力。通过计算卸载，移动用户可以显著地减少应用程序的延迟，提高服务质量,并且显著降低。

但是在卸载决策上，单靠一些简单的判断是无法做出最优的选择。机器学习作为近些年计算机领域的热点，研究者们将其尝试运用到计算卸载领域。强化学习作为机器学习的一个重要分支，他从环境的未来回报反馈考虑，通过调整其策略达到最佳的长期回报，与计算卸载策略尤为贴切。但在某些复杂场景下，其无法提供较好的效果，所以引入了深度学习，大大促进了高维度信息感知问题。

发明内容

本发明的目的在于针对MEC计算卸载与资源分配问题，提出了一种基于深度强化学习的移动边缘计算的计算卸载与资源分配方法，利用DQN算法，通过深度神经网络来近似估计状态-动作组的Q值，以确定最优的计算卸载与资源分配方案，达到最小的系统总开销。

为了达到上述目的，本发明采用如下技术方案：

一种基于深度强化学习的移动边缘计算的计算卸载与资源分配方法，包括如下步骤：

步骤1，建立多移动用户设备多MEC服务器的通信模型

该通信模型由一个演进式基站、多个MEC服务器和多个移动用户设备构成；其中移动用户设备以无线网络的方式连接到演进式基站，MEC服务器部署在演进式基站附近，为移动用户设备提供计算服务；每个移动用户设备的计算任务选择在本地终端进行计算处理，或选择通过演进式基站接入，然后再传给相应的MEC服务器进行计算处理；

步骤2，建立处理计算移动用户设备计算任务的计算执行模型

假设每个移动用户设备都有一个计算任务

其中A_n表示完成计算任务所需的输入数据的大小，其中包括了程序代码和输入参数。L_n表示完成计算任务所需的CPU周期总数，反映了完成计算任务R_n所需的计算资源数。

表示计算任务R_n的最大可容忍延迟，即完成每个计算任务的总用时不应超过最大可容忍延迟

对移动用户设备的计算任务建立计算执行模型，移动用户设备选择在本地终端处理任务或者选择计算卸载方式处理任务；

2.1移动用户设备选择本地终端处理计算任务的本地计算执行模型建立

移动用户设备选择本地终端处理计算任务R_n时，其本地计算执行的开销包含执行延迟

与能量消耗

定义

为移动用户设备的本地计算能力，其单位用每秒的CPU周期数来表示，不同移动用户设备的计算能力是有区别的；则本地终端处理计算任务R_n的执行延迟

如式(1)所示：

本地终端处理计算任务R_n的能量消耗

如式(2)所示：

上式中z_n是能耗密度，并且不同种设备之间的参数差距小；综合考虑本地计算执行的执行延迟和能量消耗，移动用户设备在本地计算执行的总开销

如式(3)所示：

式中0≤θ₁,θ₂≤1分别表示移动用户设备的执行延迟和能耗的权重参数；式(1)、式(2)、式(3)构成了移动用户设备选择本地终端处理计算任务的本地计算执行模型；

2.2移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型建立

移动用户设备选择计算卸载方式处理计算任务R_n时，整个过程包含三部分：首先移动用户设备需要传输完成计算任务的数据到演进式基站，再由演进式基站转给MEC服务器；其次是MEC服务器分配一定的计算资源来执行计算任务；最后再由MEC服务器将执行结果返还给移动用户设备；

移动用户设备能实现的数据上传速率r_m如式(4)所示：

其中Q为无线信道带宽，K代表移动用户设备数量，P_n为上传数据时移动用户设备的传输功率，h_n为分配给移动用户设备的无线信道增益，N₀为复杂高斯白噪声信道的方差；

由上所述第一部分是传输输入产生的传输延迟

如式(5)所示：

此过程所对应的能量消耗

如式(6)所示：

其中：A_n为完成计算任务R_n所需的输入数据的大小；

第二部分是MEC服务器处理计算任务的处理延迟，定义f_n,m是MEC服务器为移动用户设备分配的计算资源，其处理延迟

如式(7)所示：

在MEC服务器执行计算的这段时间内，移动用户设备处于等待接收的状态，设此状态下移动用户设备的闲置功率为

则这段时间内的能量消耗

如式(8)所示：

对于最后一部分，完整的卸载计算过程，计算卸载执行延迟

和计算卸载能量消耗

如式(9)和(10)所示：

综上所述，对于选择卸载计算的移动用户设备，其计算卸载执行延迟和计算卸载能量消耗的加权开销

如式(11)所示：

其中0≤θ₁,θ₂≤1分别表示移动用户设备的执行延迟与能耗的权重参数；式(4)、式(5)、式(6)、式(7)、式(8)、式(9)、式(10)、式(11)构成了移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型；

步骤3，建立优化目标为最小化所有移动用户设备系统总开销的问题模型

3.1最小化移动用户设备系统总开销的目标函数

优化目标是最小化所有移动用户设备的系统总开销V_all，所以目标函数如式(12)所示：

其中：V_all为移动用户设备的系统总开销，

为移动用户设备在本地计算执行的总开销，

为移动用户设备选择计算卸载方式进行处理计算任务R_n的系统总开销，N为移动用户设备的数量，M为MEC服务器的数量；

3.2所有移动用户设备系统总开销的问题模型

优化目标是使MEC系统中所有移动用户设备的执行延迟和能耗的总成本最小化，即系统总开销最小化；在最大可容忍延迟和计算能力的约束下，该问题模型如式(13)所示：

A代表决策向量，A＝{a₁,a₂,a₃,...,a_N}；f代表资源分配向量，f＝{f₁,f₂,f₃,...,f_N}，其中定义F_m为第m台MEC服务器的整体计算资源数；C1表示每个移动用户设备只能选择通过本地执行计算任务或者卸载计算来执行其计算任务；C2和C3表示为移动用户设备分配的计算资源为非负的，并且每个卸载至第m台MEC服务器的移动用户设备所分配的计算资源总和不应超过F_m；C4表示不论是本地执行计算任务产生的延迟还是卸载计算产生的延迟都不能超过最大容忍延迟

步骤4，利用深度强化学习DQN算法解决最小化移动用户设备系统总开销的问题

4.1定义深度强化学习的三个重要元素，即状态、动作与奖励

状态由整个系统的总开销和MEC服务器当前空闲资源数两部分组成；动作由卸载决策向量和资源分配向量组成，两者的可能值取值情况组合起来便得到动作向量；奖励就是得到移动用户设备最小的系统总开销；

4.2初始化DQN的记忆库、整个系统的总开销、MEC服务器当前空闲资源数

初始化DQN的记忆库，设其容量为N；DQN的记忆库用来学习之前的经验，又因为Qlearning是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历，所以在学习过程中随机的加入之前的经验会让神经网络更有效率；

初始化当前状态，也就是初始化整个系统的总开销和MEC服务器当前空闲资源数，设定初始状态为本地终端处理，即移动用户设备选择在本地终端处理计算任务；

4.3移动用户设备选择如何进行卸载决策与资源分配

将当前移动用户设备的状态作为Q-network的输入，然后输出所有移动用户设备的动作Q值；根据∈贪婪策略在所有Q值下选择如何进行卸载决策与资源分配；

4.4根据移动用户设备所需计算资源不能超过MEC服务器计算资源的约束条件，对移动用户设备所选动作进行分类，筛选有效的动作，提高DQN算法的学习效率；

4.5执行当前移动用户设备选择的卸载决策与资源分配方式

执行当前移动用户设备选择的卸载决策与资源分配方式，得到当前的奖励，也就是最小化的系统总开销；并且当前整个系统的总开销和MEC服务器当前空闲资源数也会随之更新；

4.6重复上述迭代过程，直至DQN算法曲线收敛

重复上述迭代过程，等到移动用户设备的系统总开销不再随着迭代步数增加而变化，即DQN算法曲线收敛时，整个DQN算法执行过程便结束。

和现有技术相比较，本发明具备如下优点：

(1)适用于高实时性的MEC系统

现有的传统优化算法对于解决MEC计算卸载与资源资源分配问题是可行的。但是MEC系统划分的时隙间隔非常小，而传统优化算法一般都需要经过复杂的操作和迭代才能得到优化结果，所以传统优化算法并不是很适用于高实时性的MEC系统。本发明所提出的深度强化学习DQN算法便很好地解决了上述传统优化算法所遇到的问题，可以适用于高实时性的MEC系统。

(2)与其他基准方法相比，本发明算法整体性能最优

从整体上来看，随着移动用户设备数量的增加、MEC服务器数量的增加、MEC服务器计算能力的增加，本发明提出的算法所得到的系统总开销总体上是小于其他两个基准算法的，即全部计算卸载和全本地卸载方法。从图像上来看，本发明算法的曲线整体上是低于其他基准方法的，处于最下方，所以说本发明所提出算法整体性能是优于其他基准方法的。

附图说明

图1为本发明方法流程图。

图2多移动用户设备多MEC服务器通信模型图。

图3移动用户设备数量的变化对系统总开销的影响。

图4MEC服务器数量的变化对系统总开销的影响。

图5MEC服务器计算能力的变化对系统总开销的影响。

具体实施方式

下面结合附图和实例对本发明进行详细描述。

如图1所示，本发明一种基于深度强化学习的MEC计算卸载与资源分配方法，包括如下步骤：

步骤1，建立多移动用户设备多MEC服务器的通信模型

本发明考虑了一个多移动用户设备多MEC服务器的通信模型，如图2所示，在通信模型中有一个演进式基站,它与M个MEC服务器部署在一起，可以为N个移动用户设备提供计算服务，其MEC服务器数可用集合M＝{1,2,…m}来表示，移动用户设备数可用集合N＝{1,2,…,n}来表示。移动用户设备以无线网络的方式连接到演进式基站，每个移动用户设备的计算任务可以选择在本地终端进行计算处理，也可以选择通过演进式基站接入，再传给相应的MEC服务器进行计算处理。

步骤2，建立处理计算移动用户设备计算任务的计算执行模型

假设每个移动用户设备都有一个计算任务

每一个移动用户设备都有一个计算密集型任务要完成，并且每一个移动用户设备都可以通过无线网络将计算任务整体卸载到MEC服务器，反之则完全在本地设备上执行计算。在这里用0-1变量a_n∈{0,1}表示移动用户设备的卸载决策，并定义A＝{a₁,a₂,a₃,...,a_N}为整个MEC系统的卸载决策向量。a_n＝0表示移动用户设备选择在本地执行计算，a_n＝1表示移动用户设备选择整体卸载到MEC服务器上进行计算。

对移动用户设备的计算任务建立计算执行模型，移动用户设备可以选择在本地终端处理任务或者选择计算卸载方式处理任务。

与能量消耗

定义

为移动用户设备的本地计算能力，其单位用每秒的CPU周期数来表示，不同移动用户设备的计算能力是有区别的。则本地终端处理计算任务R_n的执行延迟

如式(1)所示：

本地终端处理计算任务R_n的能量消耗

如式(2)所示：

上式中z_n是能耗密度，并且不同种设备之间的参数差距很小。综合考虑本地计算执行的执行延迟和能耗，移动用户设备在本地计算执行的总开销

如式(3)所示：

2.2移动用户设备选择计算卸载处理计算任务的卸载计算执行模型建立

移动用户设备选择计算卸载方式处理计算任务R_n时，整个过程包含三部分：首先移动用户设备需要传输完成计算任务的数据到演进式基站，再由演进式基站转给MEC服务器；其次是MEC服务器分配一定的计算资源来执行计算任务；最后再由MEC服务器将执行结果返还给移动用户设备。

移动用户设备可实现的数据上传速率r_m如式(4)所示：

其中Q为无线信道带宽，K代表移动用户设备数量，P_n为上传数据时移动用户设备的传输功率，h_n为分配给移动用户设备的无线信道增益，N₀为复杂高斯白噪声信道的方差。

由上所述第一部分是传输输入产生的传输延迟

如式(5)所示：

此过程所对应的能量消耗

如式(6)所示：

其中：A_n为完成计算任务R_n所需的输入数据的大小；

第二部分是MEC服务器处理计算任务的处理延迟，定义f_n,m是MEC服务器为移动用户设备分配的计算资源。其处理延迟

如式(7)所示：

则这段时间内的能量消耗

如式(8)所示：

对于最后一部分，无线网络的回传速率一般都远高于上传数据，且回传的执行结果远小于输入数据，因此其延迟和能量消耗一般会忽略掉。对于完整的卸载计算过程，计算卸载执行延迟

和计算卸载能量消耗

如式(9)和(10)所示：

如式(11)所示：

其中0≤θ₁,θ₂≤1分别表示移动用户设备的执行延迟与能耗的权重参数。式(4)、式(5)、式(6)、式(7)、式(8)、式(9)、式(10)、式(11)构成了移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型；

3.1最小化移动用户设备系统总开销的目标函数

其中：V_all为移动用户设备的系统总开销，

为移动用户设备在本地计算执行的总开销，

3.2所有移动用户设备系统总开销的问题模型

优化目标是使MEC系统中所有移动用户设备的执行延迟和能耗的总成本最小化，即系统总开销最小化。在最大可容忍延迟和计算能力的约束下，该问题模型如式(13)所示：

A代表决策向量，A＝{a₁,a₂,a₃,...,a_N}。f代表资源分配向量，f＝{f₁,f₂,f₃,...,f_N}，其中定义F_m为第m台MEC服务器的整体计算资源数。C1表示每个移动用户设备只能选择通过本地执行计算任务或者卸载计算来执行其计算任务。C2和C3表示为移动用户设备分配的计算资源为非负的，并且每个卸载至第m台MEC服务器的移动用户设备所分配的计算资源总和不应超过F_m。C4表示不论是本地执行计算任务产生的延迟还是卸载计算产生的延迟都不能超过最大容忍延迟

深度强化学习是将强化学习的决策能力和深度学习的感知能力两者相结合起来的，其经典算法DQN(Deep Q Network)采用了深度学习中的卷积神经网络作为状态－动作值函数的泛化模型；同时使用强化学习的经典算法Q-Learning更新状态－动作值函数的模型参数，使得模型最终可以学习到一个较好的策略。

4.1定义深度强化学习的三个重要元素，即状态、动作与奖励

状态由整个系统的总开销和MEC服务器当前空闲资源数两部分组成。动作由卸载决策向量和资源分配向量组成，两者的可能值取值情况组合起来便可以得到动作向量。奖励就是得到移动用户设备最小的系统总开销。

初始化DQN的记忆库，设其容量为N。DQN的记忆库用来学习之前的经验，又因为Qlearning是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历，所以在学习过程中随机的加入之前的经验会让神经网络更有效率。

初始化当前状态，也就是初始化整个系统的总开销和MEC服务器当前空闲资源数，设定初始状态为本地终端处理，即移动用户设备选择在本地终端处理计算任务。

4.3移动用户设备选择如何进行卸载决策与资源分配

将当前移动用户设备的状态作为Q-network的输入，然后输出所有移动用户设备的动作Q值。根据∈贪婪策略在所有Q值下选择如何进行卸载决策与资源分配。

MEC服务器的计算资源是有限的，每个移动用户设备所需要的计算资源都不能超过MEC服务器的最大限额，所以对移动用户设备所选动作进行分类，从中选取符合满足MEC服务器计算资源的动作，从而提高DQN算法的学习效率。

4.5执行当前移动用户设备选择的卸载决策与资源分配方式

执行当前移动用户设备选择的卸载决策与资源分配方式，得到当前的奖励，也就是最小化的系统总开销。并且当前整个系统的总开销和MEC服务器当前空闲资源数也会随之更新。

4.6重复上述迭代过程，直至DQN算法曲线收敛

下面探讨移动用户设备数量的变化对系统总开销的影响：

如图3，横坐标代表的是移动用户设备的数量，纵坐标代表的是系统总开销。这组实验讨论的是系统的系统总开销与移动用户设备数量之间的关系。该曲线图从整体上看，随着移动用户设备数量的不断增加，三种方法所产生的系统总开销都呈现上升趋势。在相同条件下，可以明显地看出DQN算法能够达到最好的效果。

下面探讨MEC服务器数量变化对系统总开销的影响：

如图4，图4中显示了MEC服务器数量与系统总开销的关系图。从图5可以清晰地看到全本地计算几乎没有任何变化，这是因为选择本地计算的移动用户设备不需要进行无线传输，与MEC服务器的数量是没有关联的。从整体上看，全卸载计算方法和DQN算法总开销都随着MEC服务器数量的增加而呈下降趋势，并且DQN算法效果最佳。

下面探讨MEC服务器计算能力对系统总开销的影响：

如图5，横坐标表示的是MEC服务器的计算能力，纵坐标表示的是移动用户设备的系统总开销。整体上来看，除了全本地计算方法基本保持不变外，其余两种方法均成下降趋势，并且DQN算法整体性能最优，效果最佳。