CN116233927A

CN116233927A - 一种在移动边缘计算中负载感知的计算卸载节能优化方法

Info

Publication number: CN116233927A
Application number: CN202310249903.2A
Authority: CN
Inventors: 刘建明; 熊康
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-06-06

Abstract

本发明公开了一种在移动边缘计算中负载感知的计算卸载节能优化方法，包括如下步骤：1）构建MEC系统卸载模型；2）任务在本地计算建模；3）任务卸载处理建模；4）构建能耗成本模型。这种方法利用长短期记忆网络实现负载预测，并利用深度强化学习方法的特性实现了计算任务的高性能卸载，降低了用户的能耗，改善了用户的体验质量。

Description

一种在移动边缘计算中负载感知的计算卸载节能优化方法

技术领域

本发明涉及移动边缘计算、深度学习和强化学习等方法技术，具体是一种在移动边缘计算中负载感知的计算卸载节能优化方法。

背景技术

21世纪是互联网技术不断革新的时代，其中，无线通信技术和物联网(Internetof Things,简称IOT)技术的不断发展和应用，使得万物互联的时代已不再遥远。随着技术的进步和普及，智能手机、电动汽车、个人PC等智能移动设备(Mobile Device，简称MD)的数量急剧的增加，其消耗的数据流量更是呈指数增长。国际数字公司预估，全世界的联网设备在2025年将升至416亿台。而希捷预估，同年的数据流量消耗将达到163ZB。数据流量的巨量消耗，并不仅是移动设备增加的缘故。大量新兴应用的出现带给人们便利的同时，也带来了更多的消耗，例如，虚拟现实(Virtual Reality)、自然语言处理、语音识别和无人驾驶等。这些计算密集的新兴应用程序对服务质量(Quality of Service，简称QoS)总是有着较高的要求，这带来了比传统应用程序更高的资源消耗，但受制于自身体积和电池技艺，移动设备的计算资源是有限的。而且随着应用计算需求的增加，移动设备已经无法保障计算任务低能耗和低时延的需求，这将会影响任务的执行并降低应用程序的体验质量。

为了保障终端任务执行的服务质量，一种结合云计算和边缘计算的新范式应运而生，2014年欧洲电信标准化协会提出了移动边缘计算(Mobile Edge Computing，简称MEC)的概念。MEC通过将服务器由云端下沉至移动网络边缘，从而就近给移动终端提供充足的计算能力。这种架构模式避免了数据的长距离传输，降低了任务处理的传输延迟，并缓解了数据传输的压力。为了节省移动设备有限的计算资源，移动设备可将复杂任务卸载至边缘服务器。边缘服务器部署了丰富的计算、存储和通信资源，其可协助移动设备处理复杂的计算任务，并实现低延迟的用户体验。而且，它还可以减少任务处理能耗和时延，并且降低延迟敏感任务的丢弃率。然而，边缘结点的资源是有限的，因此移动设备分配到的计算资源取决于边缘节点的负载水平(即边缘节点需处理任务的数量)。一些现有的工作已经解决了边缘节点的负载水平，并提出了集中式任务卸载算法。Lyu在X.Lyu,H.Tian,W.Ni,Y.Zhang,P.Zhang,and R.P.Liu,“Energy efficient admission of delay-sensitive tasks formobile edge computing,”IEEE Trans.Commun.,vol.66,no.6,pp.2603–2616,Jun.2018.中提出了一种算法能保证任务延迟并最小化任务的卸载能耗。Zhang等人在D.Zhang,L.Tan,J.Ren,et al.,“Near-optimal and truthful online auction for computationoffloading in green edge-computing systems,”IEEE Trans.Mobile Comput.,earlyaccess,Feb.25,2019.中提出了一种在线奖励最优拍卖算法，优化了处理卸载任务的长期奖励总额。Wang等人在F.Wang and X.Zhang,“Dynamic interface-selection andresource allocation over heterogeneous mobile edge-computing wirelessnetworks with energy harvesting,”in Proc.IEEE Conf.Comput.Commun.Workshops,2018,pp.190–195.中考虑优化资源分配和卸载决策，旨在最大化移动设备的总节能，并开发了渐进最优方法和次优方案获取系统信息。

集中式算法可能需要完整的系统信息，但在实际环境中其不易获得，所以一些工作已经开始关注边缘节点负载的分布式任务卸载算法。Liu等人在J.Liu,J.Ren,Y.Zhang,X.Peng,Y.Zhang and Y.Yang,"Efficient Dependent Task Offloading for MultipleApplications in MEC-Cloud System,"in IEEE Transactions on Mobile Computing,doi:10.1109/TMC.2021.3119200.中考虑任务依赖约束，提出了一种基于启发式排序的算法，已最小化平均完工时间。Li等人在L.Li,T.Q.S.Quek,J.Ren,H.H.Yang,Z.Chen,andY.Zhang,“An incentive-aware job offloading control framework for multi-accessedge computing,”IEEE Trans.Mobile Comput.,early access,Sep.17,2019中引入了一种新的效用函数，并提出了一种激励感知的工作卸载框架。Yang等人在L.Yang,H.Zhang,X.Li,H.Ji,and V.Leung,“A distributed computation offloading strategy insmall-cell networks integrated with mobile edge computing,”IEEE/ACMTrans.Netw.,vol.26,no.6,pp.2762–2773,Dec.2018中提出了一种基于博弈论的分布式卸载算法，旨在优化移动设备的能耗和时延。Tang等人在M.Tang and V.W.S.Wong,“Deepreinforcement learning for task offloading in mobile edge computing systems,”IEEE Trans.Mobile Comput.,early access,Nov.10,2020中结合长短期存储器和强化学习技术提出了一种算法，以降低任务卸载中长期成本估计。

MEC卸载系统中，计算资源是有限的，任务完成是有时延限制的，通信资源也需要竞争。这些限制条件都会影响任务的卸载性能，但是用户在不同的卸载环境下会有不同的性能需求，那么不同的限制条件可能会带来更好的用户体验。现在已有的很多工作都考虑了不可分的任务，但任务中位依赖性普遍很强，所以可分割任务可能不现实。而且，大多数工作都默认任务能在一个时隙中完成，但是数据量大的任务执行可能会持续多个时隙，所有考虑设备底层的排队系统是很有必要的。考虑上述因素，在复杂的MEC环境中卸载任务，传统方法是很难实现高性能的计算卸载。而强化学习利用与环境交互，从而实现预设目的，这是很适合解决MEC环境的卸载问题。

发明内容

本发明的目的是针对现有的计算卸载优化算法的不足，提出一种在移动边缘计算中负载感知的计算卸载节能优化方法。这种方法利用长短期记忆网络实现负载预测，并利用深度强化学习方法的特性实现了计算任务的高性能卸载，降低了用户的能耗，改善了用户的体验质量。

实现本发明目的的技术方案是：

一种在移动边缘计算中负载感知的计算卸载节能优化方法，包括如下步骤：

1)构建MEC系统卸载模型：

以现实场景中一个存在大量移动设备的公共场景为基础，在移动设备网络边缘部署合理数量的MEC服务器，移动设备通过正交信道上的无线网络与MEC服务器通信，其中，设置移动设备的数量集合为

而边缘服务器的数量集合设置为

最后，定义

为整个系统卸载任务的时间集合，即一次卸载周期包含|T|时隙，其中每个时隙有Δ秒，在每个时隙

中，移动设备会以η∈[0,1]的概率随机生成新任务，其任务大小会从设定范围内选择，定义k_d(t)为任务的唯一索引标志，并描述任务为

其中s_d(t)表示移动设备在时隙t时生成新任务的数据大小，c_d(t)＝s_d(t)ρ_d反映完成该任务所需的计算资源量，能量化为处理任务所需的CPU周期总数，ρ_d表示处理一个单位数据所需的CPU周期数，

表示任务的最大容忍时间，即任务需要在该时间内完成任务否则任务会被丢弃；

为关注MEC系统中任务卸载的性能优化，移动设备端在每个时隙会产生新任务，当移动设备端的资源不足时，移动设备会将计算任务卸载边缘节点，边缘节点会协助终端完成任务计算，并将处理结果反馈至移动设备，具体地，当任务决定在本地被处理，任务会被分配到本地计算队列中等待资源分配，定义变量x_d(t)∈{0,1}表示任务是否在本地处理；若本地资源不足，任务需要卸载处理时，任务会被分配至传输队列中等待卸载，当任务传输完成到达边缘结点

后，也会在边缘节点中的计算队列中等待处理，设置y_d,n(t)∈{0,1}表示任务是否被卸载到边缘节点n进行处理；

2)任务在本地计算建模：

移动设备的调度器会决策任务的处理方式，当新任务数据量小，则任务在本地处理的概率大，当移动设备新到达的任务需要在本地计算x_d(t)＝1，任务会被放入计算队列等待资源分配，在时隙

新任务k_d(t)在计算队列等待处理，这会产生相应的时延，对应计算如下：

其中

表示时隙t之前放置在计算队列中的所有任务已被处

理或丢弃后，当前任务开始处理的时隙；

任务k_d(t)被放入计算队列后，任务被处理或丢弃该任务的时隙计算如下：

任务在本地被处理的总延迟成本和能耗成本分别计算如下：

其中κ是计算能力参数；

3)任务卸载处理建模：

3.1)通信模型：MEC系统中，移动设备通过无线网络与MEC服务器通信，当任务k_d(t)决策需要卸载至边缘节点x_d(t)＝0,y_d,n(t)＝1，任务被放入传输队列等待，移动设备会通过无线网络链路接口将任务传输至选定的边缘节点，|h_dn|²被设定为移动设备

和边缘节点

之间数据传输的信道增益，定义P为向边缘节点传输任务时的传输功率，当移动设备向边缘节点传输任务，两者之间的数据传输率计算如下：

其中W是任务传输时的信道带宽，δ²定义为边缘节点的接收噪声功率；

在时隙

任务都会被放入传输队列，但每个任务都需要等待队列中排在它前面的任务被处理后才能开始处理，计算任务等待的处理的时隙数计算如下：

任务被传输完成或丢弃的时隙数计算如下：

那么任务传输过程中的总延迟成本和能耗成本分别计算如下：

3.2)边缘端的计算模型：移动设备

决策计算任务卸载至边缘节点

y_d,n(t)＝1，任务会由本地传输队列到达边缘节点计算队列，在边缘节点中，每个节点

都有

队列，其中所有的移动设备

都对应着一个任务队列用于处理任务，在时隙t-1，任务k_d(t)卸载至边缘节点n，任务k_d(t)会在下一个时隙被放入相应的计算队列中，定义任务在边缘节点的唯一索引

等于任务

的任务量；

在时隙

当边缘节点中的计算队列仍有任务未处理时，边缘节点中仍需继续处理任务的队列数量为负载，定义B_n(t)为在时隙t时边缘节点的负载大小：

边缘节点的活动队列共享计算资源，定义

为边缘节点n拥有的可分配的计算资源，设

表示在时隙t之后被队列丢弃的任务的比特数量，

若移动设备的任务

被卸载到对应于边缘节点n的队列中，定义

为处理或丢弃任务

的时隙，由于边缘节点

的未知负载，在任务

被处理或丢弃之前，很难确定

的确切值，为了解决这个问题，定义

为任务

开始被处理的时隙；

在任务

被处理或丢弃之前，

的大小相当于处理时间内累计处理的数据量大小，即任务

的数据量不大于边缘节点分配给该任务的计算资源在时隙

到

之处理的数据量，并且大于从时隙

到

完成的数据量；

任务

在边缘结点被处理或丢弃时，任务的处理延迟总成本和能量消耗总成本分别定义为

和

4)构建能耗成本模型：

分析在MEC系统中任务卸载涉及的计算成本，目的是优化任务卸载决策，以最小化在时延限制下的能耗成本，其中卸载的总成本包含了本地计算能耗、传输能耗和边缘计算能耗；具体地，在每个时隙

时，移动设备

决策任务的处理方式，任务处理时延总成本表示如下：

同样，在每个时隙完成任务后产生的总能耗成本计算如下：

专注优化任务卸载的优化问题，其目标是使整个系统产生的平均能耗成本最小化，因此，具体的系统优化问题表示如下：

其中，约束条件C1表示移动设备上的计算任务只能选择在本地被处理或卸载处理，约束条件C2表示移动设备上的任务是否卸载至边缘节点

C3表示卸载任务产生的时延成本小于等于任务容忍时间；

本技术方案研究了时延限制下的任务卸载决策和资源分配问题，以往通过传统放求解任务的卸载决策，例如博弈论等一些传统算法，但是MEC中的任务卸载时动态且复杂，以往的传统方案很难解决问题；随着机器学习和神经网络的发展，一种强大的智能方法—深度强化学习带来了新的解决方案，为了解决上述提出的问题，本技术方案拟采用深度强化学习来解决MEC系统中多移动设备多边缘节点的卸载优化问题；

为了使用强化学习方法，需要定义马尔可夫决策模型(Markov DecisionProcess，简称MDP)，在MDP中，智能体与环境的交互过程被视作是一个序列决策过程，即智能体在每一步都会接收到环境的状态，并根据当前状态和先前的经验做出一个行动决策，这个行动决策不仅取决于当前状态，还取决于目标和以前的行动及其结果，在这个过程中，智能体旨在寻找一个最优策略，使其在长期内能获得最大的累积奖励；

马尔可夫决策模型：

(1)状态空间：

设

为每个边缘节点在前T^step时隙的历史负载水平，即仍有任务未完成的队列数量，具体来说，定义

为边缘节点j在前T^step时隙i的负载；

在每个时隙t开始时，移动设备需要决定任务如何被处理，任务大小、任务排队时间、队列信息和边缘节点负载都会影响任务的执行，因此，RL方法中观察到的状态信息被定义为：

(2)动作空间：

在MEC系统中，当移动设备d有一个新的任务k_d(t)到达时，移动设备需要决策任务的处理方式，因此，卸载决策被表述为动作空间如下：

(3)奖励空间：

在时隙

中，移动设备

在状态

下做出卸载决策

依据能耗成本模型，在最小化系统中任务卸载所产生的平均能量成本，但是，最小化的优化与RL方法中的奖励负相关，所以奖励空间表述为：

r_d(t)＝r(s_d(t),a_d(t))＝-E_total

依据MDP模型，设计了一种基于Double DQN的任务卸载与资源分配算法，其中，移动设备和边缘节点处分别执行不同的算法，具体地，边缘节点会协助移动设备训练对应的网络参数，以缓解终端的计算压力，而移动设备会将其卸载经验传输给边缘节点，以改善其算法性能；

(1)移动设备处的节能算法：

1.初始化移动设备

的初始卸载状态

2.从时隙t＝1至

遍历

3.若有任务产生时，发送参数请求至边缘节点

4.接收参数向量并以此选择动作a_d(t)

5.做出卸载后进入下一个状态s_d(t+1)

6.得到已完成任务的奖励集合{r_d(t)}

7.遍历集合{r_d(t)}中的经验

8.将所有卸载任务的经验(s_d(t),a_d(t),r_d(t),s_d(t+1))发送至边缘节点；

(2)边缘节点处的节能算法：

1.初始化边缘节点的经验重放器R_d和迭代次数Count＝0；

2.初始化评估网络Net_d的随机网络参数向量θ_d

3.初始化目标网络Target_Net_d的随机网络参数向量

4.Repeat：

5.若接收到移动设备的参数请求：

6.发送参数向量θ_d至移动设备；

7.若接收到移动设备的经验信息：

8.将卸载经验(s_d(t),a_d(t),r_d(t),s_d(t+1))存储至

9.从存储器

中随机采样一个经验集合(定义为

)；

10.遍历经验集合

中的所有经验：

11.计算经验对应的目标Q值

12.最小化RL方法中误差函数以更新参数向量

13.迭代次数增加一次Count＝count+1；

14.若迭代次数达到参数替换条件：

15.目标网络的网络参数被替换

16.Repeat。

与现有技术方案相比，本技术方案有如下特点：

1.考虑了更复杂的MEC环境：许多研究关注单MEC服务器中的任务卸载，但是现实的MEC系统环境是复杂的，多移动设备多MEC服务器是更现实的卸载环境。而且大多数研究都考虑任务能在一个时隙内完成，但是大数据量的任务往往需要耗费更多的时间，所以可能有任务的执行会持续多个时隙。本技术方案不仅考虑了多对多的任务卸载，而且考虑了任务的底层排队系统。

2.预测了边缘端的负载水平：复杂环境下利用传统方法实现计算卸载很难突破现有的性能瓶颈，但深度学习和强化学习的发展带来了强力的工具。本技术方案采用了深度强化学习方法，提出了一种基于DRL的分布式卸载算法。具体地，使用了长短期记忆网络(LSTM)完成边缘端负载水平的预测，并利用Dueling DQN提升了算法的性能。

3.实现了时延限制下的能耗优化：在复杂的MEC环境中，本技术方案仍然考虑了在时延限制下优化能耗性能，并建立了底层排队的二分卸载模型。根据任务不同的卸载方式，推导出了不同的卸载成本，包括本地计算能耗、传输能耗和卸载计算能耗，并依此制定了在时延限制下的能耗成本最小化问题。

附图说明

图1为实施例的神经网络结构图；

图2为实施例基于Double DQN方法的训练结构图。

图3为实施例中MEC系统模型图；

图4为实施例中MEC卸载系统模型图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

本实施例考虑了单小区通信的应用场景，其中存在大量移动设备和多个边缘服务器。因为新兴应用程序的兴起，移动设备有限的资源已难以满足密集的计算请求，例如增强现实、虚拟现实和云游戏等移动应用。智能手机或个人PC等设备因其体积的限制难以配置大量资源，所以移动边缘计算提供了一种有效的计算范式，移动设备可将任务卸载至边缘服务器。

针对计算密集型任务，本例制定了时延限制下的节能优化问题，并提出了一种基于深度强化学习方法来实现任务的卸载决策和资源分配。具体地，该方法考虑了不可分割和时延敏感任务的排队模型，分析了任务卸载的成本模型，并构建了能耗成本最小化模型，然后，将成本模型转述为MDP模型，最后利用DDQN方法实现了任务卸载的能耗最小化决策。

如图3所示，展示了现实场景中的系统模型，其中每个移动设备内部的卸载模型如图4所示，为了实现任务卸载的能耗最小化，提出了一种在移动边缘计算中负载感知的计算卸载节能优化方法，如图1所示，包括如下步骤：

1)构建MEC系统卸载模型：

如图3所示，以现实场景中一个存在大量智能移动设备的公共场景为基础，在移动设备网络边缘部署合理数量的MEC服务器，移动设备通过正交信道上的无线网络与MEC服务器通信，其中，设置智能手机的数量集合为

而边缘服务器的数量集合设置为

最后，设置系统中任务卸载持续110个时隙，定义

为整个系统卸载任务的时间集合，即一次卸载周期包含|T|时隙，其中每个时隙设为0.1秒，在每个时隙

中，智能手机会以η∈[0,1]的概率随机生成新任务，而任务得大小会从设定范围内选择，定义k_d(t)为任务的唯一索引标志，并描述任务为

如图4所示，智能手机端在每个时隙会产生新任务，当智能手机端的资源不足时，智能手机会将计算任务卸载边缘节点，边缘节点会协助设备完成任务计算，并将处理结果反馈至移动设备，具体地，当任务决定在本地被处理，任务会被分配到本地计算队列中等待资源分配，定义变量x_d(t)∈{0,1}表示任务是否在本地处理；若本地资源不足，任务需要卸载处理时，任务会被分配至传输队列中等待卸载，当任务传输完成到达边缘结点

后，任务也会在边缘节点中的计算队列中等待处理，设置y_d,n(t)∈{0,1}表示任务是否被卸载到边缘节点n进行处理；

2)任务在本地计算建模：

智能手机得处理器会决策任务的处理方式，当新任务数据量小，则任务在本地处理的概率大，当智能手机新到达的任务需要在本地计算x_d(t)＝1，任务会被放入计算队列等待资源分配，在时隙

其中

表示时隙t之前放置在计算队列中的所有任务已被处理或丢弃后，当前任务开始处理的时隙；

任务k_d(t)被放入计算队列后，k_d(t)被处理或丢弃该任务的时隙计算如下：

任务在本地被处理的总延迟成本和能耗成本分别计算如下：

其中κ是计算能力参数；

3)任务卸载处理建模：

3.1)通信模型：MEC系统中，智能手机通过无线网络与MEC服务器通信，当任务k_d(t)决策需要卸载至边缘节点x_d(t)＝0,y_d,n(t)＝1，任务被放入传输队列等待，智能手机会通过无线网络链路接口将任务传输至选定的边缘节点，

|h_dn|²被设定为智能手机

和边缘节点

之间数据传输的信道增益，定义P为向边缘节点传输任务时的传输功率，当智能手机向边缘节点传输任务，两者之间的数据传输率计算如下：

在时隙

任务被传输完成或丢弃的时隙数计算如下：

3.2)边缘端的计算模型：智能手机

决策计算任务卸载至边缘节点

都有

队列，其中所有的移动设备

等于任务

的任务量；

在时隙

边缘节点的活动队列共享计算资源，定义

为边缘节点n拥有的可分配的计算资源，设

表示在时隙t之后被队列丢弃的任务的比特数量，

若智能手机的任务

被卸载到对应于边缘节点n的队列中，定义

为处理或丢弃任务

的时隙，由于边缘节点

的未知负载，在任务

被处理或丢弃之前，很难确定

的值，为了解决这个问题，定义

为任务

开始被处理的时隙；

在任务

被处理或丢弃之前，

的大小相当于处理时间内累计处理的数据量大小，即任务

的数据量不大于边缘节点分配给该任务的计算资源在时隙

到

之处理的数据量，并且大于从时隙

到

完成的数据量；

任务

和

4)构建能耗成本模型：

时，智能手机

决策任务的处理方式，任务处理时延总成本表示如下：

同样，在每个时隙完成任务后产生的总能耗成本计算如下：

具体的系统优化问题表示如下：

其中，约束条件C1表示智能手机上的计算任务只能选择在本地被处理或卸载处理，约束条件C2表示智能手机上的任务是否卸载至边缘节点

C3表示卸载任务产生的时延成本小于等于任务容忍时间；

本例研究了时延限制下的任务卸载决策和资源分配问题，以往通过传统放求解任务的卸载决策，例如博弈论等一些传统算法，但是MEC中的任务卸载时动态且复杂的，以往的传统方案很难解决问题，随着机器学习和神经网络的发展，一种强大的智能方法—深度强化学习带来了新的解决方案，为了解决上述提出的问题，本例拟采用深度强化学习来解决MEC系统中多移动设备多边缘节点的卸载优化问题；

如图2所示，为了使用强化学习方法，需要定义马尔可夫决策模型MDP，在MDP中，智能体与环境的交互过程被视作是一个序列决策过程，即智能体在每一步都会接收到环境的状态，并根据当前状态和先前的经验做出一个行动决策，这个行动决策不仅取决于当前状态，还取决于目标和以前的行动及其结果，在这个过程中，智能体旨在寻找一个最优策略，使其在长期内能获得最大的累积奖励；

马尔可夫决策模型：

(1)状态空间：

设

为边缘节点j在前T^step时隙i的负载；

在每个时隙t开始时，智能手机需要决定任务如何被处理，任务大小、任务排队时间、队列信息和边缘节点负载都会影响任务的执行，因此，RL方法中观察到的状态信息被定义为：

(2)动作空间：

在MEC系统中，当移动设备d有一个新的任务k_d(t)到达时，智能手机需要决策任务的处理方式，因此，卸载决策被表述为行动空间如下：

(3)奖励空间：

在时隙

中，智能手机

在状态

下做出卸载决策

依据能耗成本模型，本例旨在最小化系统中任务卸载所产生的平均能量成本，但是，最小化的优化与RL方法中的奖励负相关，所以奖励空间表述为：

r_d(t)＝r(s_d(t),a_d(t))＝-E_total

依据MDP模型，设计了一种基于Double DQN的任务卸载与资源分配算法，其中，智能手机和边缘节点处分别执行不同的算法，具体地，边缘节点会协助移动设备训练对应的网络参数，以缓解终端的计算压力，而移动设备会将其卸载经验传输给边缘节点，以改善其算法性能；

(1)智能手机处的节能算法：

1.初始化智能手机

的初始卸载状态

2.从时隙t＝1至

遍历

3.如果有任务产生时，发送参数请求至边缘节点

4.接收参数向量并以此选择动作a_d(t)

5.做出卸载后进入下一个状态s_d(t+1)

6.得到已完成任务的奖励集合{r_d(t)}

7.遍历集合{r_d(t)}中的经验

8.将所有任务的经验(s_d(t),a_d(t),r_d(t),s_d(t+1))发送至边缘节点

(2)边缘节点处的节能算法：

1.初始化边缘节点的经验重放器R_d和迭代次数Count＝0；

2.初始化评估网络Net_d的随机网络参数向量θ_d

3.初始化目标网络Target_Net_d的随机网络参数向量

4.Repeat：

5.如果接收到智能手机的参数请求：

6.发送参数向量θ_d至移动设备；

7.如果接收到智能手机的经验信息：

8.将卸载经验(s_d(t),a_d(t),r_d(t),s_d(t+1))存储至

9.从存储器

中随机采样一个经验集合(定义为

10.遍历经验集合

中的所有经验：

11.计算经验对应的目标Q值12.最小化RL方法中误差函数以更新参数向量13.迭代次数增加一次Count＝count+1；14.如果迭代次数达到参数替换条件：

15.目标网络的网络参数被替换16.Repeat。

Claims

1.一种在移动边缘计算中负载感知的计算卸载节能优化方法，其特征在于，包括如下步骤：

1)构建MEC系统卸载模型：

以现实场景中一个存在移动设备的公共场景为基础，在移动设备网络边缘部署合理数量的MEC服务器，移动设备通过正交信道上的无线网络与MEC服务器通信，其中，设置移动设备的数量集合为

而边缘服务器的数量集合设置为

最后，定义

中，移动设备会以η∈[0，1]的概率随机生成新任务，其任务大小会从设定范围内选择，定义k_d(t)为任务的唯一索引标志，并描述任务为

移动设备端在每个时隙会产生新任务，当移动设备端的资源不足时，移动设备会将计算任务卸载边缘节点，边缘节点会协助终端完成任务计算，并将处理结果反馈至移动设备，具体地，当任务决定在本地被处理，任务会被分配到本地计算队列中等待资源分配，定义变量x_d(t)∈{0，1}表示任务是否在本地处理；若本地资源不足，任务需要卸载处理时，任务会被分配至传输队列中等待卸载，当任务传输完成到达边缘结点

后，也会在边缘节点中的计算队列中等待处理，设置y_d.n(t)∈{0，1}表示任务是否被卸载到边缘节点n进行处理；

2)任务在本地计算建模：

其中

任务在本地被处理的总延迟成本和能耗成本分别计算如下：

其中k是计算能力参数；

3)任务卸载处理建模：

3.1)通信模型：MEC系统中，移动设备通过无线网络与MEC服务器通信，当任务k_d(t)决策需要卸载至边缘节点x_d(t)＝0，y_d，n(t)＝1，任务被放入传输队列等待，移动设备会通过无线网络链路接口将任务传输至选定的边缘节点，|h_dn|²被设定为移动设备

和边缘节点

在时隙

任务被传输完成或丢弃的时隙数计算如下：

3.2)边缘端的计算模型：移动设备

决策计算任务卸载至边缘节点

y_d，n(t)＝1，任务会由本地传输队列到达边缘节点计算队列，在边缘节点中，每个节点

都有

队列，其中所有的移动设备

等于任务

的任务量；

在时隙

边缘节点的活动队列共享计算资源，定义

为边缘节点n拥有的可分配的计算资源，设

表示在时隙t之后被队列丢弃的任务的比特数量，

若移动设备的任务

被卸载到对应于边缘节点n的队列中，定义

为处理或丢弃任务

的时隙，由于边缘节点

的未知负载，在任务

被处理或丢弃之前，很难确定

的确切值，为了解决这个问题，定义

为任务

开始被处理的时隙；

在任务

被处理或丢弃之前，

的大小相当于处理时间内累计处理的数据量大小，即任务

的数据量不大于边缘节点分配给该任务的计算资源在时隙

到

之处理的数据量，并且大于从时隙

到

完成的数据量；

任务

和

4)构建能耗成本模型：

分析在MEC系统中任务卸载涉及的计算成本，目的是优化任务卸载决策，以最小化在时延限制下的能耗成本，其中卸载的总成本包含了本地计算能耗、传输能耗和边缘计算能耗；在每个时隙

时，移动设备

决策任务的处理方式，任务处理时延总成本表示如下：

同样，在每个时隙完成任务后产生的总能耗成本计算如下：

具体的系统优化问题表示如下：

C3表示卸载任务产生的时延成本小于等于任务容忍时间；

为了使用强化学习方法，需要定义马尔可夫决策模型MDP，在MDP中，智能体与环境的交互过程被视作是一个序列决策过程，即智能体在每一步都会接收到环境的状态，并根据当前状态和先前的经验做出一个行动决策，这个行动决策不仅取决于当前状态，还取决于目标和以前的行动及其结果，在这个过程中，智能体旨在寻找一个最优策略，使其在长期内能获得最大的累积奖励；

马尔可夫决策模型：

(1)状态空间：

设