CN116489712B

CN116489712B - 一种基于深度强化学习的移动边缘计算任务卸载方法

Info

Publication number: CN116489712B
Application number: CN202310455144.5A
Authority: CN
Inventors: 任爽; 赵丽蕊
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2024-02-09
Anticipated expiration: 2043-04-25
Also published as: CN116489712A

Abstract

本发明提供了一种基于深度强化学习的移动边缘计算任务卸载方法。该方法包括：计算出移动边缘计算环境中用户设备终端卸载计算任务并将计算任务上传到移动边缘计算MEC服务器处理过程中消耗的时延消耗和能量消耗；在最大可容忍延迟和计算能力的约束下，以最小化移动边缘计算系统的能量消耗为目标建立目标函数；基于改进的深度强化学习算法求解目标函数，得到用户设备终端的计算任务卸载决策和资源分配方案。本发明方法建立了以最小化能耗为目标的数学模型，对所求卸载决策和资源分配方案进行多次迭代，最终有效求得在时延约束下能源消耗的最优值，从而实现更小的能耗目标，提高边缘计算服务器的利用效率，提高用户体验，实现设备能量节省。

Description

一种基于深度强化学习的移动边缘计算任务卸载方法

技术领域

本发明涉及移动边缘计算技术领域，尤其涉及一种基于深度强化学习的移动边缘计算任务卸载方法。

背景技术

近年来，随着物联网、云计算、大数据等技术的高速发展，数据规模呈爆炸式增长。传统云计算模式需要上传海量级数据到云服务器，但由于云服务器距离用户设备终端较远，传输过程中的传输速率、能量损耗、响应延迟、网络干扰和数据安全等问题都难以避免。尽管云计算拥有强大的计算能力，可以解决用户设备终端无法完成大量计算以及设备电池损耗的问题，但是随着智能终端、新型网络应用和服务日新月异的发展，用户更加追求流畅的体验感，对数据传输速率、低延迟和服务质量的要求变高，这就使得云计算难以满足许多技术和场景的需求。

随着5G的发展，用户设备终端和远程云服务器之间的数据交换可能会导致回程网络瘫痪，仅仅依靠云计算模式难以实现毫秒级的计算和通信延迟。为了解决因云计算数据中心离用户设备终端较远带来的延迟和能耗问题，学者们提出将云的功能向网络边缘端转移。在接近终端移动设备的网络边缘端，移动边缘计算(Mobile Edge Computing，MEC)作为提供信息技术服务且具有计算能力的一种新型网络结构和计算范式出现了。

移动边缘计算是指在移动网络边缘部署计算和存储资源，为移动网络提供IT服务环境和计算能力，用户可以将部分或全部计算任务交给边缘代理服务器进行处理，从而为用户提供超低时延的计算解决方案。其中，如何制定计算卸载策略是移动边缘计算的关键问题，卸载策略主要包括卸载决策和资源分配这两方面。卸载决策是指根据用户的任务负载、数据量等属性，综合考虑能耗、响应时间等因素，决定是否卸载、卸载目标、卸载任务量等策略；资源分配重点解决用户设备终端在卸载过程中的资源占用问题，主要包括设备的能量和计算资源的分配。

目前，现有技术中的针对移动边缘计算任务卸载和资源分配的联合策略设计主要基于全局优化方法，即假设网络中心节点已知全局信息，以最小化能耗或最小化延迟为目标，以移动终端的能量及计算资源、任务的延迟容忍等为约束建立优化问题并求解，从而获得最优策略。然而，这种决策优化问题通常是NP(Non-deterministic Polynomial，非确定性多项式)困难问题，随着用户数量的增加，问题的大小可能会迅速增大。尤其当网络规模较大时，即使通过启发式求解算法仍然需要通过较长的计算时间开销来获得最优策略。此外，网络的状态通常是动态变化的，这需要中心节点不断地求解复杂的优化问题，且难以自适应地跟踪网络的动态环境。

发明内容

本发明的实施例提供了一种基于深度强化学习的移动边缘计算任务卸载方法，以实现对移动边缘计算环境中用户设备终端的卸载计算任务决策和资源分配方案进行优化。

为了实现上述目的，本发明采取了如下技术方案。

一种基于深度强化学习的移动边缘计算任务卸载方法，包括：

计算出移动边缘计算环境中用户设备终端卸载计算任务并将计算任务上传到移动边缘计算MEC服务器处理过程中消耗的时延消耗和能量消耗；

在最大可容忍延迟和计算能力的约束下，以最小化移动边缘计算系统的能量消耗为目标建立目标函数；

基于改进的深度强化学习算法求解所述目标函数，得到用户设备终端的计算任务卸载决策和资源分配方案。

优选地，所述的计算出移动边缘计算环境中用户设备终端卸载计算任务并将计算任务上传到移动边缘计算MEC服务器处理过程中消耗的时延消耗和能量消耗，包括：

用户设备终端上传计算任务R_n数据到最近的基站，基站将计算任务数据传送到MEC服务器；MEC指派部分计算资源去执行计算任务，MEC服务器将计算任务的执行结果反馈给用户设备终端；

计算任务R_n数据传输到MEC服务器的传输时间为：

其中，r_n代表网络信道中的上传速率，B_n表示计算任务R_n数据的大小；

计算任务传输到MEC服务器的传输能耗为：

其中，P_n为传输功率；

MEC服务器的处理计算任务R_n数据的时延如下：

其中D_n指为了完成计算密集型任务R_n所需要的计算任务的个数，f_n代表MEC服务器分配的资源，F是MEC服务器的全部资源，需满足：

定义a_n∈{0，1}作为每个任务的执行位置，且最终的决策向量为A＝{a₁，a₂，…，a_n}。其中，0代表在本地执行任务，1代表在MEC服务器执行任务。

假设MEC服务器的能源消耗功率为则其处理计算任务R_n数据的能源消耗是：

忽略用户设备终端从MEC服务器下载计算任务的执行结果的时延，总的时延消耗为：

总的能量消耗为：

优选地，所述的方法还包括：当用户设备终端本地执行计算任务的时延消耗和能量消耗。

如果计算任务R_n在用户设备终端本地执行，定义为本地执行任务延时，/>由用户设备终端的CPU的处理延时产生，每个CPU的计算能力定义为/>任务R_n相关的能源消耗定义为/>

其中z_n是指每个CPU执行任务时的能源消耗：

优选地，所述的在最大可容忍延迟和计算能力的约束下，以最小化移动边缘计算系统的能量消耗为目标建立目标函数，包括：

在最大可容忍延迟和计算能力的约束下，以最小化移动边缘计算系统的能量消耗为目标建立如下的目标函数：

上式中，A＝{a₁，a₂…a_n}为卸载决策向量序列，f＝{f₁，f₂…f_n}为计算资源分配序列，目标函数表明：当用户设备终端在本地执行任务时，只计算本地执行任务产生的能耗；当用户设备终端在MEC服务器上执行任务时，只计算MEC服务器执行任务产生的能耗，C1表示每个用户设备终端选择通过本地计算或卸载计算来执行其计算任务，C2表明无论是通过本地计算执行还是卸载计算，时间开销都不超过最大可容忍延迟，C3确保为用户设备终端分配的计算资源不能超过MEC服务器的全部资源，C4保证分配给用户设备终端的计算资源总和不能超过MEC服务器的全部资源。

优选地，所述的基于改进的深度强化学习算法求解所述目标函数，得到用户设备终端的计算任务卸载决策和资源分配方案，包括：

假设每个任务都被切割为n个独立的任务，且每个任务都在本地执行或者卸载到MEC服务器上执行，定义a_n∈{0，1}作为每个任务的执行位置，且最终的决策向量为A＝{a₁，a₂，…，a_n}，其中，0代表在用户设备终端本地执行计算任务，1代表在MEC服务器执行计算任务；

假设f_i代表MEC服务器给第i个任务分配的资源，则n个任务的资源分配方案可以定义为f＝{f₁，f₂…f_n}。假设F是MEC服务器的全部资源，则需满足：

设置改进的深度强化学习方法中要素包括状态、动作和奖励：

状态：用s表示状态，系统的状态由两部分组成：s＝(tc，ac)，将tc定义为整个系统的能耗，即tc＝E_all，E_all由公式(11)求得，ac是MEC服务器可用的计算能力，表达式为：

动作：动作集包含两个部分，分别是n个用户设备终端的卸载决策A＝{a₁，a₂…a_n}和资源分配方案f＝{f₁，f₂…f_n}，动作向量将二者组合为{a₁，a₂…

a_n，f₁，f₂…f_n}；

奖赏：在一定的状态s下，执行每个可能的动作a后得到一个奖励r，优化问题的目标为最小化总能耗E_all，将-E_all作为回报，使得最小的能耗对应最大的回报；

设置改进的深度强化学习方法的损失函数为：

其中，表示当前网络MainNet的输出，用来计算当前状态动作对的Q值；表示目标网络TargetNet的输出，用来计算采取所有可能动作后的目标Q值；

将改进的深度强化学习算法网络的1个全连接层替换为长短期记忆网络LSTM层，改进的深度强化学习算法获取当前时间步的观察状态z_t以及动作a_t组成状态动作对，将状态动作对与LSTM中的输出值进行整合推导出真实环境状态s_t，导入深度神经网络进行训练，h_t表示LSTM层在当前时间步的输出值，其迭代为：

h_t+1＝LSTM(h_t,z_t,a_t)(16)

基于改进的深度强化学习将上一步所求结果存入经验池，在迭代过程中在时间步t时根据当前状态s_t和目标状态g得到的动作计算为：

a_t＝π(s_t，g) (17)

相应的即时奖励计算为

r_t＝Reward (s_t，a_t，g) (18)

将根据目标状态g计算得到的经验存入经验池中，每一条经验由5部分元素组成：当前状态s、动作a、及时奖励r、下一状态s’和当前目标g，根据式(15)计算损失函数并更新网络参数，直到迭代结束，得到用户设备终端的计算任务卸载决策和资源分配方案。

由上述本发明的实施例提供的技术方案可以看出，针对当前MEC系统任务卸载中存在的问题，本发明提出了一种基于深度强化学习的最小化能耗的移动边缘计算任务卸载方法，该方法建立了以最小化能耗为目标的数学模型，对所求卸载决策和资源分配方案进行多次迭代，最终有效求得在时延约束下能源消耗的最优值，从而实现更小的能耗目标，提高边缘计算服务器的利用效率，提高用户体验，实现设备能量节省。本发明方法还利用LSTM(Long Short-Term Memory，长短期记忆网络)和HER(HindsighExperienceReplay，事后经验回放)对DQN(经典深度强化学习，Deep Q-network)算法进行改进，可有效保证算法策略在MEC的任务卸载问题中具有更好的泛化性能和更快的收敛速度。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种移动边缘计算网络模型的示意图；

图2为本发明实施例提供的一种基于深度强化学习的移动边缘计算任务卸载方法的处理流程图；

图3为本发明实施例提供的一种基于深度强化学习算法的流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

深度强化学习通过结合深度学习和强化学习的优势，具有自学习和自适应等特征，需要提供的参数较少，有较好的全局搜索能力，能够解决较复杂、高维度且更加接近实际情况的任务场景。与传统的的优化求解方法相比，该方法不需要求解复杂的优化问题，可有效降低决策制定的时间开销，更具有可行性，此外，各设备能够自适应地跟踪网络环境变化，智能地自主制定策略。

本发明提供了一种基于深度强化学习的移动边缘计算中任务卸载和资源分配的能耗优化方法。图1为本发明实施例提供的一种移动边缘计算网络模型的示意图，MEC服务器的组成结构通常包含云数据中心层、边缘服务器层以及用户设备终端层3部分。考虑包含一个云数据中心、多个具有MEC服务器的基站和大量用户设备终端的MEC系统，每个MEC服务器的计算能力都是有限的，不能保证为所有的用户设备终端提交的计算任务进行服务。

假设每个用户设备终端都要完成一个计算密集型任务，该任务可以被定义为R_n＝(B_n，D_n，t_n)，其中B_n代表计算任务所需要的输入数据的大小，包括输入的元素种类和数量。D_n指为了完成计算密集型任务R_n所需要的计算任务的个数，反映了执行该计算任务所需要的计算资源的数量。假设无论是通过本地CPU或者是卸载任务到MEC服务器，D_n的值都是一样的。t_n是指该计算任务可以容忍的最大延时，这也将是求解最优化解时的一个重要的约束条件束，任务必须在[0，t_n]内完成。每个计算任务可以在用户设备终端本地执行，也可以通过计算卸载到基站的MEC服务器上执行。

由于所有参数都和任务类型有着紧密联系，因此在不同种类的任务中参数值可能是不一样的，我们也可以根据任务的描述配置信息对参数值进行估计。假设每个任务都可以被切割为n个独立的任务，且每个任务都可以在本地执行，也可以卸载到MEC服务器上执行，定义a_n∈{0，1}作为每个任务的执行位置，且最终的决策向量为A＝{a₁，a₂，…，a_n}。其中，0代表在用户设备终端本地执行计算任务，1代表在MEC服务器执行计算任务。

本发明所要解决的技术问题是提供一种基于深度强化学习的移动边缘计算任务卸载的节能优化方法。通过对卸载决策和资源分配方案进行优化，目标是在时延约束下最小化所有用户的能耗。

本发明提出的一种基于深度强化学习的最小化能耗的移动边缘计算任务卸载方法的处理流程如图2所示，包括如下的处理步骤：

步骤S10、构建移动边缘计算系统的数学模型，利用上述数学模型计算出移动边缘计算环境中用户设备终端卸载计算任务并将计算任务上传到MEC服务器处理过程中消耗的时延消耗和能量消耗。

1、用户设备终端本地执行计算任务的时延消耗和能量消耗。

如果计算任务在用户设备终端本地执行，定义为本地执行任务延时，假设该延时只由CPU的处理延时产生，每个CPU的计算能力定义为/>任务R_n相关的能源消耗定义为且：

其中z_n是指每个CPU执行任务时的能源消耗，一般将其设定为：

2、如果用户设备终端选择通过卸载来执行计算任务，那么整个任务卸载过程可以分为以下三步：

首先，用户设备终端利用无线接入网上传计算任务数据到最近的基站，然后基站将计算任务数据传送到MEC服务器；MEC指派部分计算资源去执行计算任务；最后，MEC服务器将计算任务的执行结果反馈给用户设备终端。根据上面的步骤，我们分别计算时延和能源消耗。

第一步的时延为传输时延，计算任务传输到MEC服务器的传输时间为：

其中，r_n代表网络信道中的上传速率。

计算任务传输到MEC服务器的传输能耗为：

其中，P_n为传输功率。

第二步的时延是MEC服务器的处理时延，定义公式如下：

其中f_n代表MEC服务器分配的资源，D_n指为了完成计算密集型任务R_n所需要的计算任务的个数，反映了执行该计算任务所需要的计算资源的数量。假设无论是通过本地CPU或者是卸载任务到MEC服务器，D_n的值都是一样的。

F是MEC服务器的全部资源。因此需满足：

也就说分配给计算任务的资源不能超过MEC服务器的总能量。定义a_n∈{0，1}作为每个任务的执行位置，且最终的决策向量为A＝{a₁，a₂，…，a_n}。其中，0代表在本地执行任务，1代表在MEC服务器执行任务。

此时假设MEC服务器的能源消耗功率为那么第二步的能源消耗是：

最后一步的时延就是任务执行结果的下载时延，定义公式如下：

其中，B_b是计算结果的大小，r_b是用户设备终端的下载速度。根据已有研究，该数据包与原有上传数据相比大小可忽略不计，并且下载速率也远大于上传速率。因此后续计算中，该部分不再计入。

综上，总的时延消耗为：

总的能量消耗为：

本发明考虑在时延约束下最小化能耗，因此将总消耗定义为能量消耗，因此移动边缘计算系统总的消耗为：

步骤S20、在最大可容忍延迟和计算能力的约束下，以最小化移动边缘计算系统的能量消耗为目标建立目标函数。

目标函数的表达式如下：

上式中，A＝{a₁，a₂…a_n}为卸载决策向量，f＝{f₁，f₂…f_n}为计算资源分配。目标函数表明，当用户设备终端在本地执行任务时，只计算本地执行任务产生的能耗；当用户设备终端在MEC服务器上执行任务时，只计算MEC服务器执行任务产生的能耗。C1表示每个用户设备终端选择通过本地计算或卸载计算来执行其计算任务。C2表明无论是通过本地计算执行还是卸载计算，时间开销都不应超过最大可容忍延迟。C3确保为用户设备终端分配的计算资源不能超过MEC服务器的全部资源。C4保证分配给用户设备终端的计算资源总和不能超过MEC服务器的全部资源。

步骤S30、基于改进的深度强化学习算法LSTM-DQN求解上述目标函数，得到用户设备终端的计算任务卸载决策和资源分配方案。

假设每个任务都可以被切割为n个独立的任务，且每个任务都可以在本地执行，也可以卸载到MEC服务器上执行，定义a_n∈{0，1}作为每个任务的执行位置，且最终的决策向量为A＝{a₁，a₂，…，a_n}。其中，0代表在用户设备终端本地执行计算任务，1代表在MEC服务器执行计算任务。

深度强化学习方法中有三个关键要素，即状态、动作、奖励，具体定义如下：

状态：用s表示状态，系统的状态由两部分组成：s＝(tc，ac)。将tc定义为整个系统的能耗，即tc＝E_all，其中E_all可由公式(11)求得，ac是MEC服务器可用的计算能力，表达式为：

动作：动作集包含两个部分，分别是n个用户设备终端的卸载决策A＝{a₁，a₂…a_n}和资源分配方案f＝{f₁，f₂…f_n}，所以动作向量可以将二者组合为{a₁，a₂…a_n，f₁，f₂…f_n}；

奖赏：一般来说，奖励函数应该与目标函数相关，在一定的状态s下，执行每个可能的动作a后得到一个奖励r，优化问题的目标为最小化总能耗E_all，因为奖励与总能耗的大小成负相关，因此将-E_all作为回报，使得最小的能耗对应最大的回报。

图3为本发明实施例提供的一种基于深度强化学习算法的流程图。DQN是一种基于值迭代的深度强化学习算法，其目标是估计最优策略的Q值，该算法利用深度神经网络计算近似值函数，把Q-Table的更新问题变成一个函数拟合问题，使其根据相近的状态得到相近的输出动作，以此解决传统Q-Learning算法在高维且连续问题方面的不足。

DQN通过更新参数θ使函数的计算结果逼近Q值：

其中，s_t+1表示状态s_t在时间步t采取动作a_t后的下一状态，r_t+1是采取动作a_t后的即时奖励，而a’为状态s_t+1能够采取的所有动作；γ为价值累积过程中的折扣系数，决定了未来回报相对于当前回报的重要程度；α为学习速率，该值越大，则保留之前训练的效果就越少。

DQN不仅利用函数拟合改进了Q-Learning算法的搜索速度，同时还通过目标网络提升了其多样性和稳定性。DQN使用另一个网络TargetNet生成训练过程的目标Q值，该网络的结构与DQN的神经网络MainNet保持一致，每经过C轮迭代，将MainNet的参数复制给TargetNet。因此通过在一段时间内保持2个网络参数的差异性，以此利用当前Q值和目标Q值的差值来计算损失函数，随后使用随机梯度下降等方法反向更新MainNet网络的参数。

DQN算法的损失函数计算为：

其中，表示当前网络MainNet的输出，用来计算当前状态动作对的Q值；表示目标网络TargetNet的输出，用来计算采取所有可能动作后的目标Q值。

在MEC的真实环境中，由于问题的复杂性和感知的局限性容易导致环境信息产生误差及缺失，造成算法生成的策略缺乏有效性和稳定性，系统很难直接获取到当前时间步所处的精确状态。在系统的状态信息部分可知的情况下，DQN并不能取得较好的结果，因此其很难直接用于解决实际的MEC问题。

鉴于MEC中资源随时间逐步进行变化，以及LSTM网络对于长时间状态的记忆能力，本发明将LSTM与DQN相结合用来处理实际MEC问题，对只有不完全状态信息的系统建模，依据当前的缺失信息做出决策，提高算法的泛化性能。

如图3所示，本发明通过将DQN网络的1个全连接层替换为LSTM层，利用循环结构使其能够整合长时间的历史数据，以更好地估计当前状态。改进后的LSTM-DQN算法获取当前时间步的观察状态z_t以及动作a_t组成状态动作对，将其与LSTM中的输出值进行整合可以推导出真实环境状态s_t，随后导入深度神经网络进行训练。因此相比较于DQN算法使用的LSTM-DQN更倾向于使用/>来进行函数拟合，其中h_t表示LSTM层在当前时间步的输出值，其迭代为：

h_t+1＝LSTM(h_t,z_t,a_t) (16)

步骤S40、基于HER-DQN算法将上一步所求结果存入经验池。

为提高深度强化学习算法的泛化性能，DQN算法通过经验回放对样本数据进行存储，将每个时间步智能体与环境交互得到的转移样本(s_t，a_t，r_t，s_t+1)储存到回放记忆单元，当进行训练时随机抽取一定数量的样本来解决数据之间的相关性及非静态分布问题，随后利用随机采样更新深度神经网络参数，以此实现数据之间的独立同分布以及降低其关联性，解决了经验数据的相关性和非平稳分布问题，提高了数据利用率并且降低了更新网络参数产生的方差。但是深度强化学习在解决实际问题时由于大部分情况下无法得到有效反馈，其模型很难学习到可用策略，造成求解复杂问题的决策无法收敛。因此本发明在经验回放的基础上，提出利用事后经验回放解决MEC中无法获取有效反馈，由于稀疏奖励导致的收敛速度变慢的问题。

HER是用来解决反馈奖励稀疏的一种样本数据存储结构，其通过渐进式学习方法调整任务目标以此提高模型的策略探索能力。现假设智能体将经历从初始状态s₀到达目标状态g的学习过程，但最终在学习结束时其终止状态为g’，则生成的真实学习轨迹可以表示为{(s₀，g，a₀，r₀，s₁)，(s₁，g，a₁，r₁，s₂)，…，(s_n，g，a_n，r_n，g’)}，其中，a_n表示智能体在时间步n时采取的动作，r_n表示智能体在时间步n时获取的奖励。基于以上假设，HER将目标状态g替换成终止状态g’，以此表示智能体在该学习过程中达成目标并获取到有效反馈，其生成的想象学习轨迹可以表示为{(s₀，g’，a₀，r₀，s₁)，(s₁，g’，a₁，r₁，s₂)，…，(s_n，g’，a_n，r_n，g’)}。因为每次迭代过程中模型的学习目标都是不同的，因此所选取的动作也将发生变化，则在时间步t时根据当前状态s_t和目标状态g得到的动作计算为

a_t＝π(s_t，g) (17)

相应的即时奖励计算为

r_t＝Reward (s_t，a_t，g) (18)

然后将根据目标状态g计算得到的经验存入经验池中，其中基于HER的每一条经验将由5部分元素组成：当前状态s、动作a、及时奖励r、下一状态s’、当前目标g。同时在训练过程中，基于HER的经验回放可以通过目标采样策略生成想象目标g’，并结合状态s_t和动作a_t来计算新的奖励并将其存入到经验池中，以此生成一些额外的训练经验，其计算为

r’＝Reward(s_t，a_t，g’) (19)

本发明对时间步t以后的状态进行随机采样，选取k个状态作为新的想象目标集合。基于HER的训练过程代码如算法1所示：

算法1基于HER的深度强化学习算法

输入：用于目标重采样的策略RSample、奖励函数Reward()。

/>

HER充分利用了人类从失败经历中获取有用经验的思想，通过想象轨迹在学习过程中达成想象目标而获取有效奖励，以此保证生成的任何策略都能利用反馈奖励进行学习。其中智能体首先在靠近初始状态的较小区域到达想象目标状态，随后逐渐向周围区域进行探索，利用渐进式学习满足难度逐渐增加的任务目标，最终使模型学习到实际目标状态。

步骤S50、训练评估网络与目标网络。

图3是基于LSTM和HER改进的深度强化学习算法LSTM-HER-DQN流程图。该算法首先将每个时间步智能体与环境交互得到的转移样本(z_t，a_t，r_t，z_t+1)储存到HER记忆单元，随后在训练过程中对样本进行随机采样，将其进行拆分后分别用于训练当前值网络和目标值网络的权重，其中这两个网络的结构一致，都是由一个单隐层的LSTM网络和2个全连接层组成，其中最后一个全连接层的节点数为动作空间大小。为保证在MEC真实环境中获取到更精确的状态，当前值网络和目标值网络通过LSTM网络的长时间序列观测值对当前时间步的状态s_t和下一时间步的状态s_t+1进行推导，然后利用全连接层分别求出2个网络对应状态的Q值，利用公式(15)求出误差并计算梯度反向更新当前值网络的权重，每经过c步后，将评估网络的权重更新到目标网络上。

步骤S60、判断算法迭代次数iter是否大于最大迭代次数I，如果iteration>I，则迭代结束，否则跳转至步骤S30在新的网络参数下继续迭代。

训练结束后，通过训练好的神经网络，输入当前任务就能得到卸载决策和资源分配策略，由此就可以得到当前的最优解以及对应的最小能耗。

综上所述，本发明实施例解决了一种基于深度强化学习的最小化能耗的移动边缘计算任务卸载方法，有效求得在时延约束下能源消耗的最优值，从而提高用户体验和设备能量节省。与现有技术相比，其优势在于：

1)本发明建立了以最小化能耗为目标的数学模型，对所求卸载决策和资源分配方案进行多次迭代，最终有效求得在时延约束下能源消耗的最优值，从而实现更小的能耗目标，提高边缘计算服务器的利用效率，提高用户体验，实现设备能量节省；

2)本发明利用LSTM和HER对经典深度强化学习算法DQN进行改进，可有效保证算法策略在MEC的任务卸载问题中具有更好的泛化性能和更快的收敛速度。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度强化学习的移动边缘计算任务卸载方法，其特征在于，包括：

基于改进的深度强化学习算法求解所述目标函数，得到用户设备终端的计算任务卸载决策和资源分配方案；

所述的计算出移动边缘计算环境中用户设备终端卸载计算任务并将计算任务上传到移动边缘计算MEC服务器处理过程中消耗的时延消耗和能量消耗，包括：

计算任务R_n数据传输到MEC服务器的传输时间为：

计算任务传输到MEC服务器的传输能耗为：

其中，P_n为传输功率；

MEC服务器的处理计算任务R_n数据的时延如下：

定义a_n∈{0，1}作为每个任务的执行位置，且最终的决策向量为A＝{a₁，a₂，…，a_n}，其中，0代表在本地执行任务，1代表在MEC服务器执行任务；

总的能量消耗为：

2.根据权利要求1所述的方法，其特征在于，所述的方法还包括：

如果计算任务R_n在用户设备终端本地执行，定义为本地执行任务延时，/>由用户设备终端的CPU的处理延时产生，每个CPU的计算能力定义为/>任务R_n相关的能源消耗定义为

其中z_n是指每个CPU执行任务时的能源消耗：

3.根据权利要求2所述的方法，其特征在于，所述的在最大可容忍延迟和计算能力的约束下，以最小化移动边缘计算系统的能量消耗为目标建立目标函数，包括：

4.根据权利要求3所述的方法，其特征在于，所述的基于改进的深度强化学习算法求解所述目标函数，得到用户设备终端的计算任务卸载决策和资源分配方案，包括：

假设f_i代表MEC服务器给第i个任务分配的资源，则n个任务的资源分配方案可以定义为f＝{f₁，f₂…f_n}，假设F是MEC服务器的全部资源，则需满足：

状态：用s表示状态，系统的状态由两部分组成：s＝(tc，ac)，将tc定义为整个系统的能耗，即tc＝E_all，E_all由公式(11)求得，

ac是MEC服务器可用的计算能力，表达式为：

a_n，f₁，f₂…f_n}；

奖赏：在一定的状态s下，执行每个动作a后得到一个奖励r，优化问题的目标为最小化总能耗E_all，将-E_all作为回报，使得最小的能耗对应最大的回报；

设置改进的深度强化学习方法的损失函数为：

其中，表示当前网络MainNet的输出，用来计算当前状态动作对的Q值；表示目标网络TargetNet的输出，用来计算采取所有动作后的目标Q值；

h_t+1＝LSTM(h_t,z_t,a_t)(16)

a_t＝π(s_t，g) (17)

相应的即时奖励计算为：

r_t＝Reward(s_t，a_t，g) (18)