CN112667406A

CN112667406A - 一种云边融合异构网络中任务卸载与数据缓存方法

Info

Publication number: CN112667406A
Application number: CN202110027374.2A
Authority: CN
Inventors: 邝祝芳; 陈清林; 高坚
Original assignee: Central South University of Forestry and Technology
Current assignee: Central South University of Forestry and Technology
Priority date: 2021-01-10
Filing date: 2021-01-10
Publication date: 2021-04-16

Abstract

本发明公开一种云边融合异构网络中任务卸载与数据缓存方法。主要步骤包括：1、生成任务描述集合I＝{H_i|1≤i≤η},H_i＝(S_i,W_i),S_i＝(D_i,U_i)，构建云边融合异构网络中任务卸载、数据缓存和资源分配的数学模型P1。2、在给定传输功率和CPU频率

的情况下构造数学模型P2。基于深度学习DQN算法求解问题P2，求得任务卸载和数据缓存决策向量

求得目标值Val_old。3、基于求得的卸载和缓存决策

构造数学模型P3。采用序列二次规划法求得传输功率和CPU频率

求得目标值Val_new。4、比较目标值Val_old和Val_new的差值，如果Val_old‑Val_new＜δ，则退出，否则重复步骤2和步骤3。应用本发明，解决了云边融合异构网络中任务卸载、数据缓存和资源分配优化问题，有效地降低了任务的执行时延和能耗。

Description

一种云边融合异构网络中任务卸载与数据缓存方法

技术领域

本发明属于无线网络技术领域，涉及一种云边融合异构网络中任务卸载与数据缓存方法。

背景技术

在物联网(IoT)迅猛发展的推动下，各种移动应用(如远程医疗系统，监视和安全监控系统)的数据量爆炸性增长，以及对超低延迟和高可靠性的严格要求，给物联网设备带来了沉重的处理负担。移动云计算允许移动设备将本地计算任务部分或全部迁移到远程云服务器上，减少移动设备的能源消耗，但是，将任务卸载到核心网络的云服务器上需要消耗回程链路资源，产生额外的延迟或者能耗开销，无法满足5G场景的低延迟、高可靠性要求。

移动边缘计算是一项在近距离为移动用户提供云服务和IT服务的新兴技术。在移动边缘计算中，移动边缘服务器部署在基站，移动边缘计算平台通过为边缘设备提供计算和存储能力来减少网络延迟。移动设备和物联网设备常利用移动边缘计算服务为计算密集型应用程序执行计算卸载，例如图像处理，移动游戏等。但是，移动边缘计算忽略了云服务器中巨大的计算资源。而云边融合(计算)异构网络系统是集中式云计算和移动边缘计算并存的形式，通过计算卸载、数据缓存和资源分配来提高用户体验以及能量和网络资源利用率。因此，在云边计算异构网络系统中充分利用云和边缘处的强大资源特别必要和重要。经查阅相关文献，未见有关针对云边计算异构网络中卸载、缓存决策和资源分配迭代优化问题的报道。

鉴于以上考虑，本发明提出了一种云边计算异构网络中任务卸载、数据缓存和资源分配方法：1、先初始用户的传输功率和CPU频率，在对应功率和频率下求能达到最小完成时间的任务卸载决策与缓存决策。2、在求得卸载决策和缓存决策的情况下求最优传输功率和CPU频率。反复进行这两步迭代直到求得最优解。

发明内容

本发明所要解决的技术问题是提出一种云边计算异构网络中任务卸载和数据缓存方法。通过对卸载决策、缓存决策、传输功率和CPU频率进行联合优化，目标是最小化执行延迟和能耗。

发明的技术解决方案如下：

一种云边计算异构网络中任务卸载、数据缓存和资源分配方法，首先构建云边计算异构网络场景，当前网络环境由具有单个天线的η个移动用户、

个AP和1个云服务器组成，其中I＝{1,…,η}表示移动用户的集合，

表示AP的集合。每个移动用户通过无线链接到其关联的AP，而AP和云服务器通过光纤有线链接。每个AP都配备了具有缓存空间的边缘服务器，在其无线覆盖范围内向移动用户提供计算服务。云服务器可以视为计算和数据中心。每一个移动用户(边缘设备)有一个计算任务，边缘设备i∈I的任务为H_i＝(S_i,W_i)，其中S_i为任务的数据量大小，单位为比特。W_i为完成任务所需的CPU周期数。S_i分成D_i和U_i两部分，其中D_i为在本地采集的动态变化的数据，U_i为计算任务需要的相关数据，存储在云服务器的数据库中，该部分数据属于不变的数据。

本发明提出的云边计算异构网络中任务卸载与数据缓存方法，步骤如下：

1、构建云边计算异构网络中系统的数学模型，步骤如下：

每个任务可以在本地，边缘服务器或运算能力更强的云服务器上执行计算。令a_i,m∈{0,1}表示是否用户i的任务卸载到MEC服务器，a_i,m＝1表示卸载用户i的任务到MEC服务器m∈M上进行计算，并且用集合

表示对应于用户i的卸载决策。令b_i,m∈{0,1}表示是否卸载用户i的任务到云服务器上进行计算，b_i,m＝1表示用户i的任务通过MEC服务器m∈M卸载到云服务器上进行计算，集合

表示相应的决策。令c_i,m∈{0,1}表示数据U_i是否在边缘服务器m∈M上进行缓存，c_i,m＝1表示用户i的所需远程数据库数据U_i缓存到MEC服务器上，集合

表示相应的缓存决策。相应地，每个用户的任务只能选择在本地执行、卸载到边缘服务器执行或卸载到云服务器执行，因此，用户i的任务卸载缓存决策满足下面的约束条件：

∑_m∈M(a_i,m+b_i,m)≤1,i∈I (1)

每个AP的计算资源为O_m，每个AP的缓存容量为C_m，需满足如下约束：

∑_i∈Ia_i,mW_i≤O_m,m∈M (2)

∑_i∈Ic_i,mU_i≤C_m,m∈M (3)

用户i与边缘服务器m的上行/下行链路传输速率为

和

公式如下：

其中，

为信道增益；g_i,m为信道功率增益；d_i,m为AP与用户的距离；α为通道损失系数；p_i为用户i到AP(MEC服务器m∈M)的上行链路传输功率，单位为W；q_i为MEC服务器m∈M到用户i的下行链路传输功率，单位为W；B为信道带宽，单位为Hz，N₀表示噪声功率谱密度。

用户i的任务H_i在本地执行的时延表示为

公式如下：

其中，

表示把数据U_i从AP下行传输到用户i的传输时间；

为计算任务需要的相关数据从云服务器到AP的传输时间，r^MC为云服务器到AP的传输速率；

为用户i的任务H_i在本地的计算时间，f_i ^L为本地计算的CPU频率，单位为周期/S；c_i,m∈{0,1}为缓存决策，c_i,m＝1表示用户i任务H_i的U_i缓存到边缘服务器m∈M，c_i,m＝0表示用户i的任务H_i的U_i没有缓存到边缘服务器m∈M。

用户i的任务H_i在边缘服务器执行的时延表示为

公式如下：

其中，

表示把数据D_i从用户i上行传输到AP的传输时间；

为用户i的任务H_i在卸载到边缘服务器计算的时间，f_i ^M表示边缘服务器m∈M给用户i的任务分配的CPU频率，单位为周期/S。

用户i的任务H_i在云服务器执行的时延表示为

公式如下：

其中，

为计算把数据D_i从AP上行传输到云服务器的传输时间；

为用户i的任务H_i通过边缘服务器m∈M卸载到云服务器计算的时间，f_i ^C表示云服务器给用户i的任务分配的CPU频率，单位为周期/S。

用户i的任务H_i在本地执行能耗表示为

公式如下：

其中，

表示把数据U_i从AP下行传输到用户i的传输时间；ε是能量消耗参数；f_i ^L为本地计算的CPU频率。

用户i的任务H_i在边缘服务器m∈M执行能耗表示为

公式如下：

其中，

表示把数据D_i从用户i上行传输到AP的传输时间；f_i ^M表示边缘服务器m∈M给用户i的任务分配的CPU频率。

用户i的任务H_i通过边缘服务器m∈M卸载到云服务器执行能耗表示为

公式如下：

其中，f_i ^C表示云服务器给用户i的任务分配的CPU频率。

定义数学模型Ρ1的目标函数，在满足MEC边缘服务器缓存约束的情况下，最小化执行时延和最小化能量消耗，如下所示：

其中τ＝(a_i,b_i,c_i,p_i,q_i,f_i ^L,f_i ^M,f_i ^C)，为优化变量，a_i,m,b_i,m为卸载决策，表示用户i的任务是否卸载到边缘服务器或云服务器执行，c_i,m为缓存决策，表示U_i是否缓存到边缘服务器，p_i为用户i到AP(MEC服务器m∈M)的上行链路传输功率，q_i为MEC服务器m∈M到用户i的下行链路传输功率，f_i ^L为本地计算的CPU频率，f_i ^M表示边缘服务器m∈M给用户i的任务分配的CPU频率，f_i ^C表示云服务器给用户i的任务分配的CPU频率。

数学模型的约束条件如下：

(1)，(2)，(3)，

公式(1)表示卸载决策约束，用户i的任务只能卸载到边缘服务器或云服务器，或者本地执行。

公式(2)表示每个MEC服务器的计算资源约束。

公式(3)表示边缘服务器m∈M的缓存约束。

公式(12b)表示在本地、边缘服务器或云服务器执行的时间不应超过最大延迟T。

公式(12c)表示在本地、边缘服务器或云服务器执行的能耗不应超过最大能耗E。

公式(12d)表示用户i的上行传输功率不应超过最大上行传输

公式(12f)表示边缘服务器m∈M的下行传输功率不应超过最大下行传输

公式(12f)表示用户i的最大CPU频率约束，F^L表示本地用户的最大CPU频率。

公式(12g)表示边缘服务器m∈M的最大CPU频率约束，F^M表示边缘服务器m的最大CPU频率。

公式(12h)表示云服务器的最大CPU频率约束，F^C表示云服务器的最大CPU频率。

2、基于深度强化学习DQN算法求卸载和缓存决策向量，步骤如下：

1)构造给定传输功率和CPU频率情况下的数学模型，在给定传输功率和CPU频率

的情况下，优化所有用户的卸载决策和缓存决策，采用DQN算法进行求解。求解用户的卸载决策和缓存决策的目标与问题P1一致，为最小化所有任务的能量消耗和执行时间的加权和。优化问题的数学模型P2可写成如下所示：

(1)，(2)，(3)

其中(13a)为目标函数，(1)，(2)，(3)，(13b)，(13c)为约束条件，τ'＝(a_i,m,b_i,m,c_i,m)是优化变量，a_i,m，b_i,m为卸载决策，表示用户i的任务是否边缘服务器或者云服务器执行。c_i,m为缓存决策，表示U_i是否缓存到边缘服务器。

2)基于深度强化学习DQN算法的卸载决策和缓存决策的三个关键要素定义，深度强化学习方法中有三个关键要素，即状态、动作、奖励，具体定义如下：

(1)系统状态S：用S表示系统状态，S＝{cost，om，cm}，其中cost表示问题P2的目标值(总效益值)，om表示所有边缘服务器的剩余可用计算资源，其中

i∈I是用户集合I＝{1,…,η}，m∈M是AP集合

cm表示边缘服务器m的剩余可用缓存容量，

(2)系统动作A：用A表示系统动作，系统动作包括卸载决策和缓存决策，卸载决策包括向量Λ＝(a₁,...,a_i,...,a_η)和向量Π＝(b₁,...,b_i,...,b_η)，其中

表示用户i的任务是否卸载到边缘服务器m计算的决策向量，

表示用户i的任务所需数据是否卸载到云服务器计算的决策向量，向量Υ＝(c₁,...,c_i,...,c_η)表示缓存决策，其中

表示用户i的任务所需数据是否缓存到边缘服务器m的决策向量。结合向量Λ、Π和Υ，系统动作可设为A＝{a₁,...,a_m,...,a_η,b₁,...,b_m,...,b_η,c₁,...,c_m,...,c_η}。

(3)系统奖励R：每一步，代理agent在执行完每一个可能的动作后，都会得到一个奖励R，强化学习的目标是获得最大的累计奖励，将立即奖励定义为：R＝(c1-c2)/c1，其中c1表示所有任务在本地执行，计算得到的效益；c2表示任务在执行当前策略的情况下，计算得到的效益。如果c1＞c2，则R＞0，说明执行当前策略会得到更大的奖励，反之，R为负值，说明执行当前策略不会得到比本地执行更大的奖励。

3)基于深度强化学习DQN算法，求解所有用户的任务的卸载决策和缓存决策。为了解决大空间问题，DQN使用深度神经网络来估计动作价值函数Q(S,A)，该函数值可视为累计奖励，如下所示:

Q(S,A)＝R+βmax_A'Q(S',A') (14)

其中R为奖励，β为衰减因子，S',A'表示下一个状态和动作，下一时刻的Q值可更新公式为：

Q(S,A)←Q(S,A)+γ(R'+βmax_A'Q(S',A')-Q(S,A)) (15)

在给出基于深度强化学习DQN算法求解所有用户的任务的卸载决策和缓存决策的步骤之前，首先给出相关参数的含义和相应的初始化值，初始化经验池容量为N，初始化评估Q网络，随机生成网络参数θ，初始化目标Q网络，网络参数θ^-＝θ，初始化训练轮数z＝0，每轮训练步数t＝0。其中训练最大轮数为Z，每轮到达终止状态的步数为Γ，经验池采样前的元组存储条数Φ，评估网络与目标网络参数同步的步数

。整个神经网络的总步数step＝Z×Γ，初始step＝0。

下来给出DQN算法求解所有用户的任务的卸载决策和缓存决策的具体步骤：

①如果z＝Z，结束训练，否则跳转至步骤②。

②取初始状态S_t。

③选择当前动作，将S_t输入评估Q网络中，以ε的概率随机选择当前动作A_t，以1-ε的概率选择最大Q值对应的动作为当前动作A_t，即

根据选择的动作A_t计算其对应的奖励R_t，以及对应的下一步状态S_t+1。

④将元组(S_t,A_t,R_t,S_t+1)存储进经验池中，经验池的大小有限，当数据记录满了之后，下一个数据会覆盖经验回放中的第一个数据。

⑤step＝step+1，t＝t+1，如果t＝Γ，则z＝z+1，t＝0，跳转至步骤①；如果t<Γ且step<Φ，跳转至步骤③，否则跳转至步骤⑥。

⑥随机从经验池中选择一组数据(S_j,A_j,R_j,S_j+1)，将S_j输入评估Q网络中，得到估计值Q_θ(S_j,A_j)；将S_j+1输入目标Q网络中，得到

则目标Q网络的Q值为

计算Q_θ(S_j,A_j)与

之间的误差，使用梯度下降法更新评估Q网络的参数θ。使用均方误差(mean-squared error,MSE)来定义损失函数，公式如下：

利用梯度下降方法来对网络参数θ进行更新，公式如下：

θ＝θ-Δθ (18)

⑦如果

则将评估Q网络的参数θ赋值给目标Q网络的参数θ^-，即θ^-＝θ。跳转至步骤②。

训练结束以后，累计奖励达到最大，通过训练好的神经网络可以得到任务的卸载决策和缓存决策

4)根据以上求解的卸载和缓存决策

和已给定的传输功率和CPU频率的代入目标式(13a)求得目标值Val_old。

3、根据步骤2求得的卸载和缓存决策向量

求解用户集合I中所有任务的传输功率和CPU频率，采用序列二次规划法SQP进行求解，任务传输功率和CPU频率的求解步骤如下：

1)联合功率分配和CPU频率分配问题的目标是最小化所有任务的能量消耗和完成时间，优化问题的数学模型P3可写成如下所示：

其中τ”＝(p_i,q_i,f_i ^L,f_i ^M,f_i ^C)，数学模型的约束条件如下：

2)根据步骤2求得卸载决策向量之后，可以确定卸载决策，所有任务是在本地执行、边缘服务器执行或云服务器执行都可得知。当任务在边缘服务器执行时，

令var_i＝(p_i,f_i ^M)，约束条件

g₄(var_i)＝F^M-f_i ^M，则对步骤1)的数学模型P3转换为数学模型P4：

s.t.

g_j(var_i)≥0,(j＝1,...,4，i＝1,...,I) (20b)

3)将数学模型P4中的优化变量传输功率p_i进变量替换，令

进行变量替换之后的问题如P5：

F^M-f_i ^M＞0 (21e)

其中

是P5的优化变量。约束条件

4)采用二次规划方法求解任务在边缘服务器执行时的传输功率和CPU频率，具体步骤如下：

i)给定初始点

收敛精度

令H⁰＝I(I为单位矩阵)，置k＝0，k为迭代次数。

ii)利用泰勒展开式把目标函数(21a)在迭代点

处简化成二次函数，将单个任务的约束函数简化成线性函数后得到如下的二次规划问题P6：

iii)对问题P6中的r_i、f_i ^M求导，可得：

将公式(23)、(24)、(25)、(26)和(27)代入问题P6，得到二次规划问题P7：

s.t.

A^kd+B^k≤0 (28b)

其中

H^k为

以拟牛顿法计算的二次偏导近似值。

iv)求解二次规划问题，引入拉格朗日乘子向量λ＝[λ₁,...,λ_j]，问题P7的对偶问题如下所示：

其中

为目标式的二次泰勒展开式，A^kd+B^k为不等式约束式的一次泰勒展开式。

v)利用KKT条件求解对偶问题，令▽L(d,λ)＝0得：

H^kd+C^kd+(A^k)^Tλ＝0 (30)

A^kd+B^k＝0 (31)

写成矩阵形式，即：

利用消元变换求出该方程的唯一解，记作[d^k λ^k]^T。

vi)根据KKT条件，若此解中的乘子向量λ^k不全为0，则d^*＝d^k，为二次规划问题(28)的最优解。

vii)在搜索方向d^*上对目标函数(21a)进行约束一维搜索，求得

α为搜索步长。若

满足给定精度的终止准则

则求得目标式(21a)的最优解为

最优值为

求得最优传输功率

和CPU频率f_i ^M*，终止计算；否则转至下一步骤。

viii)令k＝k+1，按照拟牛顿法近似修正H^k+1，转至步骤v)继续迭代求解。

5)同样可通过步骤2)、3)和步骤4)求得任务在本地执行和云服务器执行时的最优传输功率和CPU频率

f_i ^L*、f_i ^C*。

6)将步骤2)、3)、4)、5)求得的所有任务最优解

f_i ^L*、f_i ^M*、f_i ^C*代入目标式(19a)求得目标值Val_new。

4、计算Val_old和Val_new之间的差值，如果差值小于阈值δ，即Val_old-Val_new＜δ，则循环迭代结束，否则重复步骤2和步骤3。

有益效果

本发明解决了一种云边计算异构网络中任务卸载与数据缓存方法。有效求得能源消耗和执行延迟的最优值，从而提高用户体验和降低设备能耗。

附图说明

下面结合附图对本发明作进一步的详细描述

图1为本发明场景模型示意图；

图2为本发明任务卸载、缓存决策和功率、频率分配方法流程图；

图3为本发明DQN算法求解任务卸载决策和缓存决策的流程图；

图4为本发明基于SQP优化的卸载任务传输功率和CPU频率优化求解流程图；

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：

本实施例中，图1所示为移动边缘计算场景模型示意图，含有

个AP，每个AP配备边缘服务器，有η＝7个移动边缘设备，每一个边缘设备有一个独立的任务，边缘服务器的缓存容量C_m为10Mb，计算资源O_m为5Gcycles。设计算任务的集合为I＝{H₁，H₂，H₃，H₄，H₅，H₆，H₇}。每个任务H_i所需处理的数据量分成用户收集的数据D_i和相应的计算任务数据库数据U_i，每个任务H_i的处理每单位数据所需CPU周期为W_i。移动设备的最大CPU频率为F^L＝4GHz，移动设备的最大传输功率P_i ^max＝0.5W；边缘服务器的最大CPU频率为F^M＝5GHz，边缘服务器的最大传输功率

云服务器的最大CPU频率为F^C＝8GHz。设每个任务的最大执行时延T＝1.5s，最大执行能耗E＝1J。

S1-1初始化任务集合，任务H_i的W_i和D_i、U_i如表1所示，初始化每个任务对应的上行/下行传输功率为p_i、q_i，单位W。移动设备的CPU频率为f_i ^L，边缘服务器的CPU频率为f_i ^M，云服务器的CPU频率为f_i ^C，单位MHz。用户与AP之间的距离为d_i，m，单位m。w值为1/2，初始化的值如表1和表2所示。

表1各个任务的参数表

H<sub>i</sub>	H<sub>1</sub>	H<sub>2</sub>	H<sub>3</sub>	H<sub>4</sub>	H<sub>5</sub>	H<sub>6</sub>	H<sub>7</sub>
								W<sub>i</sub>	1463.1	1046.8	511	731.6	988.9	1124.1	1379.1
D<sub>i</sub>	3288.2	2827.1	1960.4	807.6	1840.4	1419	955
								U<sub>i</sub>	3677.2	643.2	1746.2	707.8	937.1	4205.6	3626.7
p<sub>i</sub>	0.4902	0.1321	0.3642	0.2406	0.109	0.382	0.1688
								q<sub>i</sub>	0.5305	0.2441	1.0	0.9799	0.4047	0.99	0.1877
f<sub>i</sub><sup>L</sup>	799.3	1418.7	3303.6	602.3	3751	3056.2	2210.1
								f<sub>i</sub><sup>M</sup>	2669.1	1198.6	4610.9	4779.1	2963.5	2957	2350.9
f<sub>i</sub><sup>C</sup>	6441.0	5889.0	7234.1	5566.9	7060.3	5550.5	6105.5

表2用户与3个AP之间的距离

d<sub>i，m</sub>(m)	i＝1	i＝2	i＝3	i＝4	i＝5	i＝6	i＝7
								AP1	150	140	110	145	194	196	158
AP2	149	105	145	131	122	151	110
								AP3	143	118	190	198	144	102	126

S1-2根据深度学习中的DQN算法求卸载、缓存决策向量：

S2-1在给定传输功率和CPU频率

的情况下，将优化问题P1转化为优化问题P2，利用DQN算法对优化问题P2进行求解。

S2-2深度强化学习方法中有三个关键要素，即状态、动作、奖励，如下所示

(1)系统状态S：S＝{cost，om，cm}，其中cost表示整个系统的总效益值也就是目标值；om表示所有边缘服务器m的剩余可用计算资源，其中

cm表示边缘服务器m的剩余可用缓存容量，

(2)系统动作A：A＝{a1，...，a_m，...，a_η，b₁，...，b_m，...，b_η，c₁，...，c_m，...，c_η}

系统动作包括卸载决策和缓存决策。卸载决策包括向量Λ＝(a₁,...,a_i,...,a_η)和向量Π＝(b₁,...,b_i,...,b_η)，缓存决策向量Υ＝(c₁,...,c_i,...,c_η)。结合向量Λ、Π和Υ，A＝{a₁,...,a_m,...,a_η,b₁,...,b_m,...,b_η,c₁,...,c_m,...,c_η}。

(3)系统奖励：将立即奖励定义为：R＝(c1-c2)/c1，其中c1表示所有任务在本地执行，计算得到的效益；c2表示任务在执行当前策略的情况下，计算得到的效益。通过表1和表2的数据计算c1＝5.5345。则R＝(5.5345-c2)/5.5345。

S2-3初始化经验池容量为N＝500。初始化训练轮数z＝1，每轮训练步数t＝1。训练最大轮数为Z＝500，ε每轮到达终止状态的步数为Γ＝7。整个神经网络的总步数step＝500*7，初始step＝1。为选择当前动作的概率。

DQN算法求卸载、缓存决策的具体步骤如下：

①z＝1，进入步骤②。

②取初始状态S₁，将S_t输入评估Q网络中。

③以ε＝0.1的概率随机选择当前动作A_t，否则选择最大Q值对应的动作，即

计算A₁对应的奖励R₁，以及对应的下一步状态S₂。

④将(S_t,A_t,R_t,S_t+1)存储进经验池中。

⑤step＝2，t＝2，此时若t<7且step<200，跳转至步骤③，若t＝7，则z＝2，t＝0，跳转至步骤①；若step>200，跳转至步骤⑥。

⑥经过200步之后，随机从经验池中取一组元组进行训练，使用梯度下降法更新评估Q网络的参数θ。

⑦若(step-200)％5＝＝0，将评估Q网络的参数θ赋值给目标Q网络的参数θ^-，即θ^-＝θ。跳转至步骤②。

最终，通过训练好的神经网络得到所有任务的最终策略，如表3所示。

表3卸载决策a_i

表4卸载决策b_i

表5缓存决策c_i

S2-4根据表3、4和表5的卸载决策缓存决策求得目标函数值Val_old＝4.31。

S1-3集合I中所有的上行/下行传输功率和CPU频率采用序列二次规划法进行求解：

S3-1将步骤S1-2求得的卸载决策和缓存决策

代入目标式(12a)中，构造优化问题P3。

S3-2根据步骤S1-2求得卸载决策向量之后，可以确定卸载决策，所有任务在本地执行、边缘服务器执行或云服务器执行都可得知。当任务在边缘服务器执行时，将问题转换为P4。由于目标式为凸函数，故可采用序列二次规划法对其进行求解。

S3-3将表1中任务参数的p_i、f_i ^M设置为初始点

收敛精度

令H⁰＝I(I为单位矩阵)，置k＝1(k为迭代次数)。

S3-4利用泰勒展开式把目标函数在迭代点

处简化成二次函数，将单个任务的约束函数简化成线性函数后，得到数学模型P7。

S3-5根据KKT条件求解P7的对偶问题，若此解中的乘子向量λ^k不全为0，则d^k为二次规划问题(28)的最优解d^*。

S3-6此时d^k＝d^*，在方向d^*上对目标函数(21a)进行约束一维搜索，得点

若

满足给定的精度的终止准则

则目标式(21a)最优解

最优值

输出最优解，求得最优传输功率

和和CPU频率f_i ^M*，终止计算，否则转至下一步骤。

S3-7按照拟牛顿法近似修正H^k+1，令k＝k+1，转至步骤S3-5继续迭代求解。则由上步骤求得最优传输功率和CPU频率最优值，如表6所示，

表6

f_i ^M*最优解

S3-8同样可通过步骤S3-2至S3-7求得任务在本地执行和云服务器执行时的最优传输功率和CPU频率

f_i ^L*、f_i ^C*，如表7所示。

表7

f_i ^L*f_i ^C*最优解

S3-9根据式(19a)和表6、表7的最优解计算目标值Val_new＝4.0989。

S1-4重复步骤S1-2至步骤S1-3，比较Val_old和Val_new，如果经过步骤S1-2的DQN优化策略之后的目标值与步骤S1-3求解的目标值的差值小于阈值δ＝10^-4，即Val_old Val_new<δ，则迭代结束。经过多次迭代优化之后，此时最终目标值为3.6392，最终卸载决策和缓存决策向量如表8、9和表10所示，各任务的传输功率和处理频率如表11所示。

表8卸载决策a_i

表9卸载决策b_i

表10缓存决策c_i

表11最终传输功率和CPU频率

Claims

1.一种云边融合异构网络中任务卸载与数据缓存方法，其特征在于，包括以下步骤：

步骤1：构造云边融合异构网络中任务卸载、数据缓存和资源分配的数学模型P1，

步骤2：在给定传输功率和CPU频率的情况下，构造给定传输功率和CPU频率情况下的数学模型P2。基于深度学习DQN算法求解问题P2，求得任务卸载和数据缓存决策向量，求得目标值Val_old，

步骤3：基于步骤3求得的优化变量，构造数学模型P3，采用序列二次规划法对传输功率和CPU频率进行求解，求得目标值Val_new，

步骤4：比较目标值Val_old和Val_new的差值，如果差值小于阈值，则循环迭代结束，否则重复步骤2至步骤4；

步骤1中云边融合异构网络中任务卸载、数据缓存和资源分配的数学模型P1，定义数学模型的优化变量，包括任务计算卸载向量

a_i,m∈{0,1}表示是否将用户i的任务卸载到MEC服务器，a_i,m＝1表示卸载用户i的任务到MEC服务器m∈M上进行计算；计算卸载向量

b_i,m∈{0,1}表示是否卸载用户i的任务到云服务器上进行计算，b_i,m＝1表示用户i的任务通过MEC服务器m∈M卸载到云服务器上进行计算；任务数据缓存向量

c_i,m∈{0,1}表示数据U_i是否在边缘服务器m∈M上进行缓存，c_i,m＝1表示用户i的所需远程数据库数据U_i缓存到MEC服务器上，边缘设备的传输功率变量p_i，表示第i个用户的上行传输功率，边缘设备最大传输功率为P_i ^max，边缘服务器的传输功率变量q_i，表示第i个用户所需相应数据通过边缘服务器传输的下行传输功率，边缘服务器最大传输功率为