CN110971706B

CN110971706B - Mec中近似最优化与基于强化学习的任务卸载方法

Info

Publication number: CN110971706B
Application number: CN201911300667.2A
Authority: CN
Inventors: 夏秋粉; 娄铮; 徐子川
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2021-07-16
Anticipated expiration: 2039-12-17
Also published as: CN110971706A

Abstract

本发明属于移动边缘计算卸载技术领域，提供了一种MEC中近似最优化与基于强化学习的任务卸载方法。本发明对问题建立数学模型，将待解决问题转化为整数线性规划问题。针对此问题，本发明中提出的离线算法对问题中的整数约束条件进行松弛操作，然后对求解结果依次进行过滤、舍入操作，以得到最终解。本发明同时也给出了解决此问题的在线算法，先基于强化学习理论使用线性回归方法预测并给出卸载策略，然后在此基础上结合深度神经网络进一步给出相应的最优资源分配策略。以上方法可以在有限的资源条件下为用户制定合理的任务卸载与资源分配策略，有效减少用户设备的应用程序执行延迟以及设备能耗，在提高服务质量的同时提高整个网络的利用率。

Description

MEC中近似最优化与基于强化学习的任务卸载方法

技术领域

本发明涉及在移动边缘计算(Mobile Edge Computing，简称MEC)框架中，为任务卸载给出高效的卸载策略和资源分配策略的方法，属于移动边缘计算卸载技术领域。该方法可以在有限的计算资源、网络资源条件下为移动设备用户合理制定任务卸载策略并分配边缘云计算资源，可以有效地减少用户设备的应用任务执行延迟以及用户设备能耗，在提高用户服务质量的同时提高整个边缘网络的利用率。

背景技术

移动边缘计算(Mobile Edge Computing简称MEC)，是近些年新提出的网络模型。有别于传统的云计算网络模型，移动边缘网络并不是将网络中的计算资源集中至网络中心；恰恰相反，移动边缘网络的数据处理节点都分布在网络的边缘。比如，将高性能的公用服务器架设在移动信号基站附近，使得移动用户的设备计算请求可以在第一时间被处理。移动边缘网络充分的利用了网络边缘距离用户较近，且分布广泛、分散的特点，与传统的以云服务器为中心的网络相比，客户的需求响应更快，占用网络带宽更少，网络的整体效率更高。

随着智能设备的发展和普及，越来越多的用户应用被投入使用。其中包括一些运行在移动设备上的大型游戏、用于专业工作的影音处理软件，一些使用了虚拟现实(VR)、增强现实(AR)的娱乐应用等等，都可以被称作是计算密集型应用。这些应用不同于其他普通应用，它们对用户设备的计算能力要求很高，在运行时不但会占用较高的系统资源，也会伴随着产生更高的电量消耗。而对于移动设备来说，这两点都应该是极力避免的。

近年来移动边缘网络的出现，使得一些关于计算密集型任务的难题可以被有效解决。当用户设备开始运行计算密集型任务并处于移动边缘网络中时，设备可以选择将计算任务发送到就近的公共服务器上，这一过程称作卸载(Offloading)。服务器接收到用户设备发来的计算请求后，会在服务器上进行计算，随后将计算结果发送回用户设备。在这个过程中，用户设备的计算资源和电量均未被消耗。同时由于公共服务器的计算能力远远强于个人移动设备，用户设备的任务请求时延也被大大降低。在用户的角度看，移动边缘计算可以有效地降低设备的资源占用、能量消耗，同时提供更快的响应速度。因此，在未来的移动网络发展趋势中，移动边缘网络将会更加普及。

尽管移动边缘网络可以通过计算卸载有效提高服务质量(QoS)，但在计算卸载的过程中我们还面临着种种限制。比如，有限的计算资源和带宽资源不能确保所有人的计算请求都能在第一时间被处理完成。有限的带宽使得同一时间内发送和接收数据的用户将会是有限的。如不采取一定的策略，直接将大量的用户分配到同一个网络接入点，将会导致所有人都无法以正常的速率进行任务的提交以及计算结果的接收。同样，如果大量用户的计算任务被同时分配到一处服务器，也会导致任务长时间滞留在服务器端，在用户的角度看来，应用程序将出现长时间的未响应，这与QoS的理念完全背道而驰。因此，如何将有限的计算和带宽资源分配给大量的卸载计算任务、为用户设备请求的计算任务规划出合理的卸载策略和资源分配策略是移动边缘网络技术中的一个亟待解决的问题。

发明内容

为了有效的解决移动边缘网络中的任务卸载问题，本发明提出了一种基于基于近似最优化的离线优化方法，以及一种基于深度强化学习理论的在线优化方法，用以实现对移动边缘计算卸载过程中的卸载策略和资源分配。

本发明的技术方案：

为了解决上述问题，本发明提供的MEC中近似最优化与基于强化学习的任务卸载方法的要点包括：

(1)建立移动边缘计算卸载模型。考虑移动边缘网络的结构，用户设备的分布情况以及边缘网络中各种设备的参数，建立出适合描述问题的移动边缘网络计算卸载模型。

(2)建立计算任务运行模型以及问题模型。考虑计算任务的计算量、延迟需求、用户设备以及边缘云服务器的性能和能耗，建立计算任务在两者上运行的模型。并结合1中的MEC卸载模型，将问题描述为由整数线性规划表述的数学模型。

(3)给出解决2中卸载策略问题和资源分配问题的离线算法。根据问题表述，首先对整数线性规划问题的整数约束条件进行松弛操作，以使其转化为可解的线性规划问题。然后对求解结果依次进行过滤、舍入操作，以得到最终解。最终解包含每一个用户的任务卸载策略与对应的资源分配策略。

(4)给出解决2中卸载策略问题的在线算法。首先根据每个用户上一次的计算任务历史，计算其累计收益的变化量。若累计收益的减少量超过预设的阈值，则执行卸载策略。卸载策略为，通过线性回归方法预测下一次的任务执行能耗，将其与任务卸载能耗比对。最后将二者中能耗较低者作为卸载策略加以执行。

(5)给出解决2中卸载资源分配问题的在线算法。为了将深度强化学习方法应用到问题上，首先对网络结构重新建模，将其转化为由点和边组成的图结构。然后使用structure2vec算法给出图中各节点的图嵌入值，再将嵌入值作为神经网络的输入，由神经网络输出最优的卸载资源分配策略。

MEC中近似最优化与基于强化学习的任务卸载方法，由两部分组成：一部分是基于整数线性规划的近似最优化方法，通过松弛-过滤-舍入的方法，给出近似最优的卸载策略与资源分配策略；另一部分是基于强化学习理论，使用线性回归方法预测并给出卸载策略，然后在此基础上通过深度神经网络进一步给出相应的最优资源分配策略；

(1)移动边缘计算卸载模型的具体建立过程如下：

(1.1)考虑一个由多个边缘云服务器组成的边缘计算网络

其中

分别代表一个边缘云服务器，一个数据中心，以及一个无线接入点。边缘云服务器和数据中心都可以用来卸载用户发送来的计算任务，而无线接入点负责连接用户与服务器并进行数据的传输。为了方便起见，使用L_h表示计算服务器，即

并且使用C(L_h)以及C(AP_k)分别代表服务器的计算能力和接入点的带宽容量，使用n_ap表示分配给每个用户的传输带宽；

(1.2)定义用户集合U＝{u_i|1≤i≤M}。一个用户可以连接到任何在他的通信范围之内的接入点AP，以此来连接到一个CL或是DC。在这里我们考虑一个较长的监控时期T，并将其细分为数个等长的短时期t∈T。假设每一次决策都是发生在一个短周期t中；

(1.3)定义一个待卸载的计算任务为τ_i,t＝<W_i,t,t,f_i,t,D(τ_i,t)>，其中W_i,t为任务的计算量，f_i,t为任务的大小，D(τ_i,t)为任务的延迟需求，即必须在此时间内完成这项任务；

(2)计算任务运行模型与问题模型的建立过程如下：

(2.1)当任务被卸载到某一个云计算服务器上时，它的运行时间为

其中，n_ap表示无线接入点为一项任务所分配的带宽，假设每个无线接入点为所有与其连接的设备所分配的带宽都为n_ap；y_i,t,h代表卸载指示变量。当其值为1时表示进行卸载，为0时表示在本地运行。p(L_h)表示L_h的计算速度。α为一个常数，表示计算结果与原始任务大小的比例；

(2.2)当计算任务在用户设备本地执行时，它的运行时间为

其中p(u_i)表示用户设备的计算速度；

(2.3)根据上述关系式，可得当任务被卸载到服务器上运行时的用户设备能耗：

其中z_i,t,k为指示变量，表示任务τ_i,t是否经由AP_k卸载。β_k为一常数，表示传输单位数据时的能耗。P_idle和P_t分别为用户设备的闲时功率和传输时功率；

(2.4)同样可得任务在用户设备本地运行时的用户设备能耗：

其中

表示用户设备的计算时功率；

(2.5)基于上述定义，以最小化所有用户设备的能耗为目标，制定整数线性规划问题如下：

相关约束如下：

y_i,t,h,z_i,t,k∈{0,1}#(12)

其中，(6)式确保每一个被卸载至云服务器的任务都必须被分配一个用来传输数据的无线接入点；(7)式确保所有在某台云服务器上运行的计算任务的计算量不能超过这台服务器的计算能力上限；(8)式确保所有经由某无线接入点进行传输的用户设备所分配的带宽资源之和不能超过这个无线接入点的带宽上限；(9)式中

表示设备i的剩余电量，此项约束确保在时期T内，用户设备所消耗的总能量不能超过设备自身剩余的电量；(10)式和(11)式确保所有任务在远程或是本地执行时不能超过它所规定的延迟要求，其中D(τ_i,t,MD)为在用户设备本地运行任务所需时间；(12)式确保y,z两个变量的取值必须是0或1。

(3)为了求解上述优化问题，首先对整数线性规划问题的整数约束条件进行松弛操作，以使其转化为可解的线性规划问题。然后对求解结果进行过滤操作，以去除其中不满足原约束条件的候选解。最后，比较各个候选解的执行性能，只保留性能最优的候选解作为最终解，舍去其余部分。最终解包含每一个用户的任务卸载策略与对应的资源分配策略。具体过程如下：

(3.1)首先对问题进行松弛处理，去除原问题中的约束(12)式，将其转化为线性规划问题求解，得到最优解(y^*,z^*)；

(3.2)接下来根据求得的最优解，对所有候选卸载地点进行过滤。为方便描述，将原问题的目标函数定义为两个函数之和F(y)+θ(z),其中:

为了将边缘云服务器和无线接入点中比在用户设备本地运行计算任务时会产生高于(1+∈)倍的能量消耗的候选解过滤掉，首先要定义两个值

和

分别代表候选解中任务计算量与边缘云服务器计算能力之比的最大值、候选解中计算任务数据量与无线接入点带宽容量之比的最大值：

再定义延迟所有计算任务在每个边缘云服务器的计算时间与计算任务的延迟要求之比的最大值，以及在用户设备本地的计算时间与计算任务的延迟要求之比最大值，取二者中的最小值记为

对于任务τ_i,t，将过滤后的候选运行地点与候选无线接入点记为L_i,t和AP_i,t，则过滤规则为：

其中

θ_i,t(z)与之同理。此外，∈、σ与φ为3个常量，用以控制过滤规则。通过对这三个常量的适当调整可以得到更加合理的过滤结果。

由此得到原问题(5)式对应的线性规划问题的可行解(y′,z′):

(3.3)下面对上一步中得到的可行解进行舍入操作。首先根据线性规划问题的最优解(y^*,z^*)选择计算消耗最小的任务τ_i,t，对于这个任务，我们拟将其放置在候选地点L_i,t中产生计算消耗最小的地点θ(h)，即令y_i,t,θ(h)＝1。对于此计算任务，如果在用户设备本地运行会产生更少的功耗，则令y_i,t,h＝0，其中L_h∈L_i,t。重复上述过程，直到所有的计算任务都被分配到一个指定的运行地点。此时，我们即可得到问题(5)式的一个最优可行解，即满足约束条件的、使得所有用户设备的能耗最低的计算任务卸载策略与资源分配策略；

(4)针对问题(5)式，给出另一种基于强化学习理论的在线解法。与上述离线解法不同，在线算法可以在每个时间段给出当前的最优解，而不需要在收集所有时间段的信息后再一一求解各时间段的最优解。原问题要求解的是使得所有用户设备的能耗最低的计算任务卸载策略与资源分配策略。首先给出基于强化学习理论的计算任务卸载策略的求解过程：

(4.1)首先根据强化学习理论，定义出待解决的问题中的几个重要部分。强化学习过程需要将原问题转化为一个马尔科夫决策过程，即由状态、动作、奖励三部分组成的过程。系统从所处的某一状态开始，根据当前状态选择动作并加以执行，而后到达新的状态，并取得新状态对应的奖励。这里我们定义每个用户设备在t时间段的剩余电量R_residual为其在t时间段所处的状态。在每个状态下，用户设备的可选动作为

其中三个决策动作分别代表无动作、将计算任务在本地运行、将计算任务卸载到边缘云服务器运行。每个状态的奖励信息R_t定义为到达此状态时的能量消耗的相反数-E_i；

(4.2)根据上述定义，从起始时刻t＝1起，对于用户i进行如下操作：计算当前状态下获得的奖励R_t与上一状态下的奖励R_t-1之差Δ。然后比较Δ与δ，其中δ为预定义的阈值。若Δ大于δ，则首先通过线性回归方法，通过过去p个状态下的计算任务能量消耗来预测时刻t的计算任务τ_i,t的能量消耗：

E(τ_i,t)＝a₁·E(τ_i,t-1)+a₂·E(τ_i,t-2)+…+a_p·E(τ_i,t-p)#(23)

接下来计算所处时刻的待执行计算任务τ_i,t卸载到边缘云服务器时产生的能耗，将其与预测值E(τ_i,t)比较。如果采取卸载动作产生的能耗更少，则将卸载至边缘云服务器作为计算任务τ_i,t的卸载策略，输出动作a＝1。否则将在用户设备本地运行作为卸载策略，输出动作a＝0，即不进行卸载。在每个时间段执行上述过程，即可在线地得到每个时间段中每个用户各自的卸载策略；

(5)由上述过程得到的卸载策略将决定哪些计算任务在用户设备本地运行，哪些计算任务将被卸载到边缘云服务器上运行。对于将要卸载到边缘云服务器上运行的任务，下面给出基于深度强化学习方法的在线资源分配策略，以决定卸载过程中所使用的无线接入点以及作为目标的边缘云服务器，具体过程如下：

(5.1)首先将边缘网络结构抽象为一个带权有向图G(V,E,w)。其中，V是顶点集合，E是边集合，w是边的权重集合。对于一条边(u,v)∈E，w(u,v)代表它的权重。集合V中包含一个用户顶点，数个无线接入点顶点，以及数个边缘服务器顶点。用户顶点与每个无线接入点顶点之间都有一条有向边，由前者指向后者。而每个无线接入点顶点都与至少一个边缘服务器顶点之间有一条有向边，同样由前者指向后者。两个顶点之间有有向边，代表源顶点可以沿此方向连接到目标顶点。每条有向边的权重所代表的含义由它所指向的顶点来决定：如果一条有向边指向一个无线接入点顶点，则它的权重代表这个无线接入点的带宽容量；如果一条有向边指向一个边缘云服务器顶点，则它的权重代表这个边缘云服务器的计算能力。也就是说，一个无线接入点的带宽或者边缘云服务器的计算能力越大，则指向它的边的权重也就越大。这样就得到了网络结构的图的表达形式，同时网络结构的参数也被以权重的方式体现在图中；

(5.2)然后使用structure2vec算法构建一个图嵌入网络，为图中的每一个顶点计算其对应的图嵌入值向量。这一步的目的是将图中每个顶点的结构信息转化为向量信息，以便于将其作为后续神经网络的输入。其中每个顶点的图嵌入值由多次迭代生成。具体图嵌入网络如下：

其中，

代表顶点v在第t次迭代后的图嵌入值，初始值默认为0；N(v)代表与顶点v相邻的顶点的集合；

为与顶点v相邻的顶点u在第t次迭代后的图嵌入值；relu为线性整流函数，θ为神经网络参数；x_v为指示器变量，代表顶点v是否属于局部解，初始化为0；可见经过数次迭代计算后，图中每一个顶点的特征值都会由其自身以及相邻顶点、相邻边的特征所共同决定。

(5.3)将上述的图嵌入网络结合深度强化学习模型，构建深度强化学习网络。网络的输入为上一步求得的图嵌入值，输出为对应输入顶点的状态-动作值

表达式为：

其中Θ为网络参数θ的集合。h(S)为当前整个系统的状态，由当整个图的图嵌入值

来表示。

(5.4)构建如上两个神经网络后，还需初始化经验重放缓存。当收到卸载请求时，将图中一个顶点v的信息作为输入，由式(24)迭代得到该顶点的图嵌入值后，将嵌入值作为式(25)的输入得到对应顶点的状态-动作值

对于所有顶点进行上述操作后将其中状态-动作值

最大的顶点作为卸载路径中的一个顶点，并记x_v＝1。对于图中每个顶点，重复上述步骤，直到将边缘云服务器顶点放置到卸载路径集合V_t中。此时，卸载路径中的顶点就是最优的资源分配决策，其中包括对于本次卸载任务所应连接的无线接入点以及边缘云服务器。至此，即可在线地得到每一次卸载请求对应的网络资源和计算资源分配策略。

(5.5)在得到神经网络输出的策略同时，获取此策略带来的奖励R_t，此处的收益定义为本分配策略所产生的能耗的相反数

然后将本次决策过程的状态信息S_t、决策结果V_t、奖励R_t，以及所到达的新的状态信息S_t+1存储至经验重放缓存中作为历史经验。在随后的的决策过程中，每隔N次决策过程，从缓存中随机抽取一批历史经验训练神经网络参数。方法为使用随机梯度下降法，沿使收益增加的方向调整神经网络参数

这样做的目的是，在增加训练样本的同时，消除了样本之间的相关性，能够使得神经网络的预测结果更为准确。

本发明的有益效果：

传统的云计算网络通过将所有用户的计算请求统一发送至同一个云端加以运行，再将结果返回给用户。与之相比，我们的边缘云网络结构中，服务器部署在网络的边缘部分，如无线接入点或信号基站附近。这样做可以在减轻网络传输压力、减少等待时间的同时，提升应用程序运行速度，节省用户设备能耗，改善用户体验。

上述的两种移动边缘计算卸载方案针对不同的使用情况各自给出了相应的解决方法。与直接将用户的计算请求发送至云服务器相比，我们的策略充分考虑了网络带宽资源、服务器计算资源的限制。以最小化用户设备的能耗为目标，在满足约束的条件下，给出了能够使所有用户设备的能耗达到最小值的卸载策略与资源分配策略，以此显著降低计算任务卸载过程中所产生的延迟与能耗，并使得移动边缘云技术的性能大幅提高。

附图说明

图1是技术方案(3)离线MEC卸载算法。

图2是技术方案(4)在线MEC卸载算法第一部分。

图3是技术方案(5)在线MEC卸载算法第二部分。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

(1)移动边缘计算卸载模型的具体建立过程如下：

(1.1)考虑一个由多个边缘云服务器组成的边缘计算网络

其中

分别代表一个边缘云服务器、一个数据中心以及一个无线接入点；边缘云服务器和数据中心都用来卸载用户发送来的计算任务，而无线接入点负责连接用户与服务器并进行数据的传输；为了方便起见，使用L_h表示计算服务器，即

(2)计算任务运行模型与问题模型的建立过程如下：

其中，n_ap表示无线接入点为一项任务所分配的带宽，假设每个无线接入点为所有与其连接的设备所分配的带宽都为n_ap；y_i,t,h代表卸载指示变量，当其值为1时表示进行卸载，为0时表示在本地运行。p(L_h)表示L_h的计算速度。α为一个常数，表示计算结果与原始任务大小的比例；

(2.2)当计算任务在用户设备本地执行时，它的运行时间为

其中p(u_i)表示用户设备的计算速度；

(2.4)同样可得任务在用户设备本地运行时的用户设备能耗：

其中

表示用户设备的计算时功率；

Claims

1.一种MEC中近似最优化与基于强化学习的任务卸载方法，由两部分组成：一部分是基于整数线性规划的近似最优化方法，通过松弛-过滤-舍入的方法，给出近似最优的卸载策略与资源分配策略；另一部分是基于强化学习理论，使用线性回归方法预测并给出卸载策略，然后在此基础上通过深度神经网络进一步给出相应的最优资源分配策略；其特征在于，

(1)移动边缘计算卸载模型的具体建立过程如下：

(1.1)考虑一个由多个边缘云服务器组成的边缘计算网络

其中

分别代表一个边缘云服务器、一个数据中心以及一个无线接入点；边缘云服务器和数据中心都用来卸载用户发送来的计算任务，无线接入点负责连接用户与服务器并进行数据的传输；使用L_h表示计算服务器，即

使用C(L_h)以及C(AP_k)分别代表服务器的计算能力和接入点的带宽容量，使用n_ap表示无线接入点分配给每个用户的传输带宽；

(1.2)定义用户集合U＝{u_i|1≤i≤M}；一个用户可连接到任何在他的通信范围之内的接入点AP，以此来连接到一个CL或DC；在这里，考虑一个较长的监控时期T，并将其细分为数个等长的短时期t∈T；假设每一次决策都是发生在一个短周期t中；

(2)计算任务运行模型与问题模型的建立过程如下：

其中，n_ap表示无线接入点分配给每个用户的传输带宽，y_i,t,h代表卸载指示变量，当其值为1时表示进行卸载，为0时表示在本地运行；p(L_h)表示L_h的计算速度；α为一个常数，表示计算结果与原始任务大小的比例；

(2.2)当计算任务在用户设备本地执行时，它的运行时间为

其中，p(u_i)表示用户设备的计算速度；

(2.3)根据上述关系式，得当任务被卸载到服务器上运行时的用户设备能耗：

其中，z_i,t,k为指示变量，表示任务τ_i,t是否经由AP_k卸载；β_k为一常数，表示传输单位数据时的能耗；P_idle和P_t分别为用户设备的闲时功率和传输时功率；

(2.4)同样得任务在用户设备本地运行时的用户设备能耗：

其中，

表示用户设备的计算时功率；

相关约束如下：

y_i,t,h,z_i,t,k∈{0,1}#(12)

表示设备i的剩余电量，此项约束确保在时期T内，用户设备所消耗的总能量不能超过设备自身剩余的电量；(10)式和(11)式确保所有任务在远程或是本地执行时不能超过它所规定的延迟要求，其中D(τ_i,t,MD)为在用户设备本地运行任务所需时间；(12)式确保y,z两个变量的取值必须是0或1；

(3)为了求解上述优化问题，首先对整数线性规划问题的整数约束条件进行松弛操作，以使其转化为可解的线性规划问题；然后对求解结果进行过滤操作，以去除其中不满足原约束条件的候选解；最后，比较各个候选解的执行性能，只保留性能最优的候选解作为最终解，舍去其余部分；最终解包含每一个用户的任务卸载策略与对应的资源分配策略；具体过程如下：

(3.2)接下来根据求得的最优解，对所有候选卸载地点进行过滤；将原问题的目标函数定义为两个函数之和F(y)+θ(z)，其中：

和

对于任务τ_i,t，将过滤后的候选运行地点与候选无线接入点分别记为L_i,t和AP_i,t，则过滤规则为：

其中

θ_i,t(z)与之同理；此外，ϵ 、σ与φ为3个常量，用以控制过滤规则；通过对这三个常量的调整得到更加合理的过滤结果；

由此得到原问题(5)式对应的线性规划问题的可行解(y′,z′):

(3.3)下面对上一步中得到的可行解进行舍入操作；首先根据线性规划问题的最优解(y^*,z^*)选择计算消耗最小的任务τ_i,t，对于这个任务，拟将其放置在候选地点L_i,t中产生计算消耗最小的地点θ(h)，即令y_i,t,θ(h)＝1；对于此计算任务，如果在用户设备本地运行会产生更少的功耗，则令y_i,t,h＝0，其中L_h∈L_i,t；重复上述过程，直到所有的计算任务都被分配到一个指定的运行地点；此时，即得到问题(5)式的一个最优可行解，即满足约束条件的、使得所有用户设备的能耗最低的计算任务卸载策略与资源分配策略；

(4)针对问题(5)式，给出另一种基于强化学习理论的在线解法；与上述步骤(3)解法不同，在线算法在每个时间段给出当前的最优解，而不需要在收集所有时间段的信息后再一一求解各时间段的最优解；原问题要求解的是使得所有用户设备的能耗最低的计算任务卸载策略与资源分配策略；首先给出基于强化学习理论的计算任务卸载策略的求解过程：

(4.1)首先根据强化学习理论，定义出待解决的问题中的几个重要部分；强化学习过程需要将原问题转化为一个马尔科夫决策过程，即由状态、动作、奖励三部分组成的过程；系统从所处的某一状态开始，根据当前状态选择动作并加以执行，而后到达新的状态，并取得新状态对应的奖励；定义每个用户设备在t时间段的剩余电量R_residual为其在t时间段所处的状态；在每个状态下，用户设备的可选动作为

其中三个决策动作分别代表无动作、将计算任务在本地运行、将计算任务卸载到边缘云服务器运行；每个状态的奖励信息R_t定义为到达此状态时的能量消耗的相反数-E_i；

(4.2)根据上述定义，从起始时刻t＝1起，对于用户i进行如下操作：计算当前状态下获得的奖励R_t与上一状态下的奖励R_t-1之差Δ；然后比较Δ与δ，其中δ为预定义的阈值；若Δ大于δ，则首先通过线性回归方法，通过过去p个状态下的计算任务能量消耗来预测时刻t的计算任务τ_i,t的能量消耗：

E(τ_i,t)＝a₁·E(τ_i，t-1)+a₂·E(τ_i，t-2)+…+a_p·E(τ_i，t-p)#(23)

接下来计算所处时刻的待执行计算任务τ_i,t卸载到边缘云服务器时产生的能耗，将其与预测值E(τ_i,t)比较；如果采取卸载动作产生的能耗更少，则将卸载至边缘云服务器作为计算任务τ_i,t的卸载策略，输出动作a＝1；否则将在用户设备本地运行作为卸载策略，输出动作a＝0，即不进行卸载；在每个时间段执行上述过程，即在线地得到每个时间段中每个用户各自的卸载策略；

(5)由上述过程得到的卸载策略将决定哪些计算任务在用户设备本地运行，哪些计算任务将被卸载到边缘云服务器上运行；对于将要卸载到边缘云服务器上运行的任务，下面给出基于深度强化学习方法的在线资源分配策略，以决定卸载过程中所使用的无线接入点以及作为目标的边缘云服务器，具体过程如下：

(5.1)首先将边缘网络结构抽象为一个带权有向图Graph(V,Eb,w)；其中，V是顶点集合，Eb是边集合，w是边的权重集合；对于一条边(u,v)∈Eb，w(u,v)代表它的权重；集合V中包含一个用户顶点、数个无线接入点顶点以及数个边缘服务器顶点；用户顶点与每个无线接入点顶点之间都有一条有向边，由前者指向后者；而每个无线接入点顶点都与至少一个边缘服务器顶点之间有一条有向边，同样由前者指向后者；两个顶点之间有有向边，代表源顶点沿此方向连接到目标顶点；每条有向边的权重所代表的含义由它所指向的顶点来决定：如果一条有向边指向一个无线接入点顶点，则它的权重代表这个无线接入点的带宽容量；如果一条有向边指向一个边缘云服务器顶点，则它的权重代表这个边缘云服务器的计算能力；也就是说，一个无线接入点的带宽或边缘云服务器的计算能力越大，则指向它的边的权重也就越大；这样得到网络结构的图的表达形式，同时网络结构的参数也被以权重的方式体现在图中；

(5.2)然后使用structure2vec算法构建一个图嵌入网络，为图中的每一个顶点计算其对应的图嵌入值向量，目的是将图中每个顶点的结构信息转化为向量信息，以便于将其作为后续神经网络的输入；其中每个顶点的图嵌入值由多次迭代生成；具体图嵌入网络如下：

其中，

为与顶点v相邻的顶点u在第t次迭代后的图嵌入值；relu为线性整流函数，θ为神经网络参数；x_v为指示器变量，代表顶点v是否属于局部解，初始化为0；可见经过数次迭代计算后，图中每一个顶点的特征值都会由其自身以及相邻顶点、相邻边的特征所共同决定；

(5.3)将上述的图嵌入网络结合深度强化学习模型，构建深度强化学习网络；网络的输入为上一步求得的图嵌入值，输出为对应输入顶点的状态-动作值

表达式为：

其中，Θ为网络参数θ的集合；h(S)为当前整个系统的状态，由当整个图的图嵌入值

来表示；

(5.4)构建如上两个神经网络后，还需初始化经验重放缓存；当收到卸载请求时，将图中一个顶点v的信息作为输入，由式(24)迭代得到该顶点的图嵌入值后，将嵌入值作为式(25)的输入得到对应顶点的状态-动作值

对于所有顶点进行上述操作后，将其中状态-动作值

最大的顶点作为卸载路径中的一个顶点，并记x_v＝1；对于图中每个顶点，重复上述步骤，直到将边缘云服务器顶点放置到卸载路径集合V_t中；此时，卸载路径中的顶点就是最优的资源分配决策，其中包括对于本次卸载任务所应连接的无线接入点以及边缘云服务器；至此，即可在线地得到每一次卸载请求对应的网络资源和计算资源分配策略；

然后将本次决策过程的状态信息S_t、决策结果V_t、奖励R_t，以及所到达的新的状态信息S_t+1存储至经验重放缓存中作为历史经验；在随后的决策过程中，每隔N次决策过程，从缓存中随机抽取一批历史经验训练神经网络参数；方法为使用随机梯度下降法，沿使收益增加的方向调整神经网络参数