CN114513855B

CN114513855B - 基于无线携能通信的边缘计算卸载决策与资源分配方法

Info

Publication number: CN114513855B
Application number: CN202210169172.6A
Authority: CN
Inventors: 林霏; 刘洁梅; 刘开旭; 赵映雪
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2024-04-19
Anticipated expiration: 2042-02-23
Also published as: CN114513855A

Abstract

本发明涉及一种基于无线携能通信的边缘计算卸载决策与资源分配方法，包括如下步骤:服务器发送射频信号，中继转发至设备处进行能量收集和信息传输；在能量约束和时间约束下分别推导出本地计算和卸载计算的计算速率；利用深度强化学习算法为多用户寻找最优的卸载决策，使计算速率最大化；在给出卸载决策后对时间帧进行资源分配；利用深度强化学习进行选择决策，为所得卸载数据流在边缘服务器处理数据价格发生波动时寻找最佳服务器进行卸载处理，实现成本最小化。本发明方法利用无线携能通信技术实现能源收集，不额外消耗能量；有效提高能源利用率，合理分配时间资源，提高资源调度效率，减少时间消耗，使传输速率最大化，成本最小化。

Description

基于无线携能通信的边缘计算卸载决策与资源分配方法

技术领域

本发明涉及通信技术研究领域，具体涉及将无线携能通信和边缘计算相结合的时，采用的基于深度强化学习的任务卸载算法和服务器选择方法。

背景技术

随着5G的应用，越来越多智能通信终端和设备接入物联网，给人们带来大量信息流的同时也带来了巨大的资源能耗问题。一方面，由于长期不合理的使用方式和使用效率过低等原因，能源存储量急剧减少。另一方面，物联网中的部分设备面临存储空间不足，计算性能有限的问题，不能承担繁重计算任务。由此我们提出此项专利，引入深度强化学习、无线携能通信和边缘计算。

MEC作为一种新型的技术手段，其概念于2014年被正式提出。MEC指的是设备的部分或全部计算任务卸载到网络的边缘，用更大规模的边缘平台服务器进行数据处理，降低设备自身的计算压力和能量消耗，相较于之前提出的云计算，其物理方向上更靠近终端设备，这使得数据处理更及时，在部分服务器发生故障时能及时使用其他服务器进行数据处理，拥有更大的容错率。而在能源有限的情况下，使用收集到的能量进行优化卸载和选择决策、合理分配资源是很有必要的。

发明内容

针对上述问题，本发明方法利用无线携能通信技术实现能源收集，不额外消耗能量。并与深度强化学习相结合，在收集能量有限的情况下，从多用户多服务器单中继系统中，选择计算速率最大化的卸载决策、资源分配和计算成本最小化的选择决策，有效提高能源利用率，合理分配时间资源，提高资源调度效率，减少时间消耗，使传输速率最大化，成本最小化。

本发明提供如下技术方案：基于无线携能通信的边缘计算卸载决策与资源分配方法，包括如下步骤:服务器发送射频信号，中继转发至设备处进行能量收集和信息传输；在能量约束和时间约束下分别推导出本地计算和卸载计算的计算速率；利用深度强化学习算法为多用户寻找最优的卸载决策，使计算速率最大化；在给出卸载决策后对时间帧进行资源分配；利用深度强化学习进行选择决策，为所得卸载数据流在边缘服务器处理数据价格发生波动时寻找最佳服务器进行卸载处理，实现成本最小化；得到最优卸载决策，选择决策，时间分配，最优卸载决策下的最大计算速率，最优选择决策下的最小计算成本,相较于传统遍历算法所得到的最优值，本算法的运行时间大大降低且相较于其他决策方案，更接近最优值。

每个用户的卸载决策和对服务器的选择策略是基于深度强化学习算法获得的，时间帧的资源分配采用一维双截面搜索的凸优化算法求解凸优化问题得到，从终端用户到中继，从中继到边缘服务器的信道增益和边缘服务器价格在每段时间帧内都是波动不定的。

包含多用户、单中继和多边缘计算服务器的系统中，服务器发送射频信号和接收卸载任务并进行数据处理，中继转发信号和任务，用户端利用可充电电池存储收集到的能量，用户为N个，每个用户对应一个终端设备，服务器为N个，系统时间被划分为等长的时间帧T，每个时间帧需要完成一个计算任务；

时间帧T分为无线携能通信时间sT和终端设备计算时间ξ_iT，i∈N，设备计算时间内存在两种时间，一种是卸载计算时间：将处理任务上传到服务器的时间,务器计算任务时间约为0，因此这里只剩了任务上传到服务器的时间；另一种为本地计算时间：在设备本地处理任务，由于设备可同时进行无线携能通信swipt和本地计算，本地计算时间在时帧中约为0，无线携能通信时间又分为能量收集时间βsT和信息传输时间(1-β)sT，其中s∈[0,1]，β∈(0,1)；

设备需在一个时间帧内完成一个计算任务，服务器计算任务和下传任务时间不计入，即存在时间约束：

s为时帧内用于无线携能通信的时间，ξ_i为时帧内用于计算的时间，N为终端设备数量，每个终端设备选择本地计算或者是卸载计算,N个设备共同的计算时间+无线携能通信时间＝一个时间帧代表的时间,备处使用时分复用电路避免两个时间段内不同工作的相互干扰。

一个卸载动作控制一个终端设备，N个卸载动作(因为有N个终端设备)组成本文的卸载决策，一个选择动作控制一个服务器是否进行卸载计算，N个选择动作(因为有N个服务器)组成本文的选择决策；卸载动作为1表示此设备的任务卸载到边缘服务器计算，卸载动作为0表示任务本地计算；选择动作为1表示任务选择此服务器进行卸载计算，选择动作为0表示任务不选择此服务器进行卸载计算。卸载动作是指终端设备的不同状态：将任务卸载到服务器计算或者设备自己本地计算。选择动作指设备选择此服务器进行卸载计算或者不选择此服务器进行卸载计算.

无线携能通信的能量收集时，服务器发射射频信号到达中继端，再由中继将信号以放大转发方式转发至用户设备处，计算中继转发的信号功率P_r，计算中继转发后的信号功率是为了计算上传的信干噪比，从而计算卸载速率；

服务器发送功率为P_a的具有归一化功率的射频信号d₁，则服务器的发送信号可表示为

经中继进行放大转发后传递至终端设备，放大转发系数K_r，中继处发送信号为

其中h_j为第j个服务器到中继之间的信道增益，j∈(1,2,...,N)，n_r为中继处的加性高斯白噪声；

中继处的发射功率为

P_r＝k_r ²P_ah_j ²+k_r ²N_r

N_r为中继处的噪声功率，

用户将收集到的信号按照时隙切换模式进行划分，一段时间内信号进行能量收集，另一段时间内信号进行信息解码。同时考虑设备进行能量收集的效率，由此得到所收集到的能量E_i，则第i个设备所收集到的能量为

E_i＝βP_rh_isT

其中sT为用于无线携能通信的时间，s∈[0,1]，β为时隙切换模式中的切换因子，β∈(0,1)，βsT是能量收集的时间，(1-β)sT是服务器处理数据的时变价格表的信息解码时间，h_i为中继到第i个终端设备间的信道增益，i∈(1,2,...,N)，

对于终端设备存在能量约束：所消耗能量不得超过E_i。

终端设备存在两种计算模式：本地计算和卸载计算；

(1)本地计算

处于本地计算状态的终端设备可以同时采集能量和计算任务，因此本地计算时间可忽略不计；设定f_i为处理器每秒运算的总周期数，t_i表示运算时间，0≤t_i≤T，f_it_i为运算工作量，表示处理1bit数据所需的周期数，则设备处理的比特量为/>设备的能量总消耗为

E_loc＝k_if_i ³t_i

其中k_i是有效的开关电容，

存在能量约束：E_loc≤E_i，同时，为提高能源利用率，将所有收集能量消耗殆尽，则最佳运算时间t_i ^*＝T，处理器每秒运算的最佳总周期数f_i ^*为

本地计算的计算速率r_loc为

(2)卸载计算

处于计算卸载状态的终端将自身的计算任务上传到服务器进行运算，由于服务器计算速率远大于终端设备，因此我们忽略了任务计算时间和任务接收时间，此时时间帧分为两部分，一部分是SWIPT阶段，另一部分是计算阶段，

存在能量约束：E_loc≤E_i，为提高能源利用率，将所有收集能量消耗殆尽，则终端设备的最佳发送功率p_i ^*为

其中ξ_i为第i个设备的卸载时间，存在时间约束：

设备端发送上传信号为

达到服务器的上传信号为

n₀为接收器的加性高斯白噪声；

服务器的接收信号，在上传过程中的信干噪比为

其中N₀为接收器的噪声功率；

则上传到服务器的卸载速率r_mec为

r_mec＝Blog₂(1+SINR)。

系统的总计算速率Q包括本地计算速率r_loc和卸载计算速率r_mec，表示为

其中x_i为二进制卸载动作，当x_i＝1表示第i个终端设备进行计算卸载，当x_i＝0表示第i个终端设备进行本地计算；

最大计算速率为

Q^*(h_i,h_j)＝maximize(Q)

s≥0,ξ_i≥0,i∈{0,1,...,N}

x_i∈{0,1},i∈{0,1,...,N}

最大计算速率需要根据时变的两段信道增益，对s,ξ_i,x_i三个变量进行求解，最终得到最大速率Q^*，最大计算速率为难以求解的混合整数规划非凸问题，需要将其分解为终端卸载算法和时间分配两部分。

卸载算法利用深度强化学习DRL，为多用户寻找最优的卸载动作x_i ^*，在缩短决策时间的前提下使计算速率最大化。

时间分配部分在获得卸载策略所得的最优卸载动作x_i ^*后，将最大计算速率混合整数规划非凸问题变为可求解的最大化计算速率凸问题。采用一维双截面搜索，可以有效地求解最大化计算速率凸问题，即对时间帧中的能量收集时间和计算卸载时间进行分配。对s,ξ_i,x_i三个变量进行求解，最终得到最大化计算速率

Q^*(h_i,h_j,x_i ^*)＝maximize(Q)

s≥0,ξ_i≥0,i∈{0,1,...,N}

x_i ^*为多用户最优的卸载动作。

系统计算成本和服务器选择包括：

对于卸载数据流，在服务器处理数据价格发生波动时，寻找最优选择决策，实现成本最小化，以变化价格为状态，选择不同服务器为动作，得到最小价格成本为强化目标，成本公式为：

其中，为随时间连续变化的不同服务器的价格，在无线携能通信SWIPT阶段随射频信号d₁到达用户处，r_mec是系统经二进制卸载决策部署后得到的卸载速率，/>表示单个时间帧内用于卸载数据的时间，总卸载数据流按照允许服务器按照进行数据处理的服务器个数l进行平分，平分后的数据被传送至对应服务器进行处理，x_j为二进制选择策略，x_j＝1表示用户允许第j个服务器对卸载信息流进行处理，x_j＝0表示用户拒绝第j个服务器对卸载信息流进行处理，

将时变的两段信道增益和数据处理价格输入深度神经网络中，根据当前选择策略得到多个选择动作，选择动作指在多个服务器中选择至少一个服务器进行数据处理，形成模式的数据对，确定所述时变价格、选择动作与对应Ω值之间的相关性，将多个选择动作代入成本公式，通过公式运算得到多个最终成本，从中选择最小成本所对应的选择动作。引入经验回放机制，将更新后的数据对/>放入回访存储器中，回放存储器容量有限，当第t个时间帧存放数据内存已满时，选择存放新生成的数据对，丢弃旧数据对，从存储器中随机提取数据样本，每隔一定的时间帧对全连接神经网络DNN进行训练，采用Adam优化算法，Adam优化算法结合了Momentum和RMSprop梯度下降法，利用自适应的学习率以减少平均交叉熵损失为目的，对初始化参数使用mini-batch梯度下降法进行迭代，再用Momentum梯度下降法计算指数加权平均数，再用RMSprop更新，最后计算Momentum和RMSprop的偏差修正，更新深度神经网络参数，如此反复直到达到设定的训练次数，神经网络与当前环境不断交互进而训练完整，神经网络不断更新选择策略至最优，最终当信道和服务器价格在需要的状态时，根据深度强化学习训练的神经网络选择当前状态下对应计算成本最小的动作，就得到最小计算成本。

在经过卸载决策后，成本公式中只有选择策略和进行计算的服务器个数是未知的，通过DNN网络得到多种选择策略，同时也得到了对应的进行计算的服务器个数，此时只要带入即可获得对应选择决策的多个成本，选择成本最小的即可，同时也可以得到最小成本的最佳选择决策了。

通过上述描述可以看出，本方案利用无线携能通信技术实现能源收集，不额外消耗能量，本方案先通过DNN获得多个卸载策略，对P2计算速率问题分别代入卸载策略，用双截面搜索的凸优化算法进行求解，得到对应卸载策略的时间分配。再将对应的时间分配和卸载策略代入p1问题(求解最大计算速率问题)得到多个传输速率，从中找到最大的传输速率，和对应的卸载决策，时间分配；有效提高能源利用率，合理分配时间资源，提高资源调度效率，减少时间消耗，使传输速率最大化，成本最小化，具有一定的应用意义。

附图说明

图1为多用户多服务器单中继的系统图。

图2为时间帧划分情况示意图。

图3为最大化计算速率问题步骤。

图4为有无添加中继设备的总计算速率对比图。

图5为利用深度强化学习得到终端设备卸载决策时损失函数变化图。

图6为深度强化学习的卸载方案、贪婪卸载方案、贪婪本地计算方案、随机卸载方案与遍历方案的计算速率比值对比图。

图7为深度强化学习中不同学习率的计算速率比值变化图。

图8为深度强化学习中不同神经元个数和不同神经网络层数下的损失函数值对比。

图9为利用深度强化学习得到边缘服务器选择决策时损失函数变化图。

图10为深度强化学习的选择方案、贪婪选择方案、随机选择方案与基准方案的计算速率比值对比图。

图11为深度强化学习算法和遍历算法的运行时间对比图。

具体实施方式

下面将结合本发明具体实施方式中的附图，对本发明具体实施方式中的技术方案进行清楚、完整地描述，显然，所描述的具体实施方式仅仅是本发明一种具体实施方式，而不是全部的具体实施方式。基于本发明中的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

通过附图可以看出，本发明基于无线携能通信的边缘计算卸载决策与资源分配方法，基于系统计算速率最大化，成本最小化的目标，采用深度强化学习算法确定每个终端用户的卸载决策、对时间帧的资源分配和对边缘服务器的选择策略，并且要求时间帧和所消耗能量满足约束条件；包括如下步骤:服务器发送射频信号，中继转发至设备处进行能量收集和信息传输；在能量约束和时间约束下分别推导出本地计算和卸载计算的计算速率；利用深度强化学习算法为多用户寻找最优的卸载决策，使计算速率最大化；在给出卸载决策后对时间帧进行资源分配；利用深度强化学习进行选择决策，为所得卸载数据流在边缘服务器处理数据价格发生波动时寻找最佳服务器进行卸载处理，实现成本最小化；得到最优卸载决策，选择决策，时间分配，最优卸载决策下的最大计算速率，最优选择决策下的最小计算成本。

在包含多用户、单中继和多边缘计算服务器的系统中，如图1所示，服务器发送射频信号和接收卸载任务并进行数据处理，中继转发信号和任务，用户端利用可充电电池存储收集到的能量，用户为N个，每个用户对应一个终端设备，服务器为N个，系统时间被划分为等长的时间帧T，每个时间帧需要完成一个计算任务；

如图2所示，时间帧T分为无线携能通信时间sT和终端设备计算时间ξ_iT，i∈N，设备计算时间内存在两种时间，一种是卸载计算时间：将处理任务上传到服务器的时间(服务器计算任务时间约为0，因此这里只剩了任务上传到服务器的时间)；另一种为本地计算时间：在设备本地处理任务，由于设备可同时进行无线携能通信swipt和本地计算，本地计算时间在时帧中约为0，无线携能通信时间又分为能量收集时间βsT和信息传输时间(1-β)sT，其中s∈[0,1]，β∈(0,1)；

s为时帧内用于无线携能通信的时间，ξ_i为时帧内用于计算的时间，N为终端设备数量，每个终端设备选择本地计算或者是卸载计算；设备处使用时分复用电路避免两个时间段内不同工作的相互干扰。

一个卸载动作控制一个终端设备，N个卸载动作组成本文的卸载决策，一个选择动作控制一个服务器是否进行卸载计算，N个选择动作组成本文的选择决策；卸载动作为1表示此设备的任务卸载到边缘服务器计算，卸载动作为0表示任务本地计算；选择动作为1表示任务选择此服务器进行卸载计算，选择动作为0表示任务不选择此服务器进行卸载计算。

在能量收集时，服务器发射射频信号到达中继端，再由中继将信号以放大转发方式转发至用户设备处，计算中继转发的信号功率P_r；

中继处的发射功率为

P_r＝k_r ²P_ah_j ²+k_r ²N_r

N_r为中继处的噪声功率，

E_i＝βP_rh_isT

对于终端设备存在能量约束：所消耗能量不得超过E_i。

终端设备存在两种计算模式：本地计算和卸载计算；

(1)本地计算

E_loc＝k_if_i ³t_i

其中k_i是有效的开关电容，

本地计算的计算速率r_loc为

(2)卸载计算

其中ξ_i为第i个设备的卸载时间，存在时间约束：

设备端发送上传信号为

达到服务器的上传信号为

n₀为接收器的加性高斯白噪声；

服务器的接收信号，在上传过程中的信干噪比为

其中N₀为接收器的噪声功率；

则上传到服务器的卸载速率r_mec为

r_mec＝Blog₂(1+SINR)。

其中x_i为二进制卸载动作，当x_i＝1表示第i个终端设备进行计算卸载，当x_i＝0表示第i个终端设备进行本地计算；卸载和本地计算速率均与信道增益h_i,h_j有关；

最大计算速率为

Q^*(h_i,h_j)＝maximize(Q)

s≥0,ξ_i≥0,i∈{0,1,...,N}

x_i∈{0,1},i∈{0,1,...,N}

对s,ξ_i,x_i三个变量进行求解，最终得到最大化计算速率

Q^*(h_i,h_j,x_i ^*)＝maximize(Q)

s≥0,ξ_i≥0,i∈{0,1,...,N}

x_i ^*为多用户最优的卸载动作。

由于P1(最大计算速率问题)是一个难以求解的混合整数规划非凸问题，我们通过深度强化学习(DRL)算法给出卸载动作后，将其转化为凸优化问题，得到对于时间帧的资源分配。如图3所示。

将两段信道的时变信道增益输入深度神经网络中，根据初始化的网络参数得到深度神经网络的输出：多个卸载动作。将多个卸载动作分别代入P2(最大化计算速率)问题，用一维双截面搜索分别得到对应动作的资源分配情况，将卸载动作和对应动作的分配情况代入P1问题中，得到多个计算速率，选择使计算速率最大的卸载动作和对应时间资源分配，形成信道增益与卸载动作间的联系，确定所述时变信道增益、卸载动作与对应Q值之间的相关性。

将加入中继所得的计算速率与未加入中继时计算速率做对比，如图4所示，可以看到加入中继后，设备计算速率明显增大，证明中继通过放大转发的方式，有效提高了系统性能。

神经网络在单时间帧内得到多个卸载动作，卸载动作选择终端设备在本地计算或上传服务器卸载计算。将多个卸载动作分别代入P2问题，用一维双截面搜索分别得到对应动作的资源分配情况，将卸载动作和对应动作的分配情况代入P1问题中，得到多个计算速率，选择使计算速率最大的卸载动作和对应时间资源分配。将速率最大的动作作为最优动作。引入经验回放机制，将(h1,h2,x^*)模式的数据对放入内存中，x^*为使计算速率最大的最优动作。从内存中随机采样样本更新深度神经网络参数，采用Adam优化算法，利用自适应的学习率减少平均交叉熵损失。如此反复直到达到足够多的训练次数，经过足够多的迭代次数后，神经网络与当前环境不断交互进而训练完整，卸载策略不断更新优化。最终当信道在某个随机状态时，根据深度强化学习训练的神经网络选择当前状态下对应计算速率最大的动作，得到最大计算速率及时间资源分配情况。损失函数越小，模型的鲁棒性就越好，如图5所示，训练损失值通过大量时间帧的训练逐渐减小，终端设备卸载策略最终达到最佳的优化状态。

图6将利用深度强化学习所得的卸载方案、贪婪卸载方案、贪婪本地计算方案、随机决策方案与遍历方案的计算速率比值对比。贪婪卸载方案指不论信道增益，卸载动作皆为卸载到云端计算，贪婪本地计算方案指不论信道增益，卸载动作皆为本地计算。随机决策方案指不论信道增益，卸载动作皆为随机选择。将4种方案分别与遍历方案做比值进行对比，图中曲线从上到下依次为：深度强化学习方案、随机决策方案、贪婪本地计算方案、贪婪卸载方案与遍历方案的计算速率比值对比，由图6可知深度强化学习效果最优，能达到理想计算状态，实现最大速率。

图7、图8分别调整强化学习中不同学习率，不同神经元个数和不同神经网络层数下的损失函数值对比，经由不同的参数对比得到最佳的神经网络参数设置。图7中曲线从上到下分别为学习率0.001，0.01，0.1，0.0001，由此可见，我们选择学习率0.001。图8折线从左侧0处开始从上到下分别问20层，6层，4层，8层，10层，2层。经对比，选择神经网络层数为4层。

系统计算成本和服务器选择包括：对于卸载数据流，在服务器处理数据价格发生波动时，寻找最优选择决策，实现成本最小化，以变化价格为状态，选择不同服务器为动作，得到最小价格成本为强化目标，成本公式为：

将时变的两段信道增益和数据处理价格输入深度神经网络中，根据当前选择策略得到多个选择动作，选择动作指在多个服务器中选择至少一个服务器进行数据处理，形成模式的数据对，确定所述时变价格、选择动作与对应Ω值之间的相关性，将多个选择动作代入成本公式，通过公式运算得到多个最终成本，从中选择最小成本所对应的选择动作。引入经验回放机制，将更新后的数据对/>放入回访存储器中，回放存储器容量有限，当第t个时间帧存放数据内存已满时，选择存放新生成的数据对，丢弃旧数据对，从存储器中随机提取数据样本，每隔一定的时间帧对全连接神经网络DNN进行训练，采用Adam优化算法，Adam优化算法结合了Momentum和RMSprop梯度下降法，利用自适应的学习率以减少平均交叉熵损失为目的，对初始化参数使用mini-batch梯度下降法进行迭代，再用Momentum梯度下降法计算指数加权平均数，再用RMSprop更新，最后计算Momentum和RMSprop的偏差修正，更新深度神经网络参数，如此反复直到达到设定的训练次数，神经网络与当前环境不断交互进而训练完整，神经网络不断更新选择策略至最优，最终当信道和服务器价格在需要的状态时，根据深度强化学习训练的神经网络选择当前状态下对应计算成本最小的动作，就得到最小计算成本。如图9所示，训练损失值通过大量时间帧的训练逐渐减小，服务器选择策略达到最佳的优化状态。

图10为将深度强化学习方案、贪婪选择方案、随机选择方案与基准方案的计算速率比值对比。贪婪卸载方案指不论信道增益、时变价格，卸载动作皆为卸载到云端计算，此处没有与贪婪本地计算方案对比，因此时处于大量数据流需要卸载上传时期，至少须选择一个服务器进行数据处理。随机决策方案指不论信道增益、时变价格，卸载动作皆为随机选择。将4种方案与基准方案做比值进行对比，图10的曲线从上到下分别为深度强化学习方案、贪婪选择方案、随机选择方案与基准方案对比，由图10可知深度强化学习效果最优，能达到理想计算状态，实现最小成本。

图11为深度强化学习算法和遍历算法的运行时间对比。由图中表格可以看出，深度强化学习所消耗的时间远远小于遍历算法，但深度强化学习通过一定量的训练却能获得与遍历算法近似的相同性能。由此进一步验证本专利的有效性。

尽管已经示出和描述了本发明的具体实施方式，对于本领域的普通技术人员而言，可以理解在不脱离发明的原理和精神的情况下可以对这些具体实施方式进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于无线携能通信的边缘计算卸载决策与资源分配方法，其特征在于包括如下步骤:服务器发送射频信号，中继转发至设备处进行能量收集和信息传输；

在能量约束和时间约束下分别推导出本地计算和卸载计算的计算速率；

利用深度强化学习算法为多用户寻找最优的卸载决策，使计算速率最大化；

在给出卸载决策后对时间帧进行资源分配；

利用深度强化学习进行选择决策，为所得卸载数据流在边缘服务器处理数据价格发生波动时寻找最佳服务器进行卸载处理，实现成本最小化；

得到最优卸载决策，选择决策，时间分配，最优卸载决策下的最大计算速率，最优选择决策下的最小计算成本；

时间帧T分为无线携能通信时间sT和终端设备计算时间ξ_iT，i∈N，设备计算时间内存在两种时间，一种是卸载计算时间：将处理任务上传到服务器的时间；另一种为本地计算时间：在设备本地处理任务，由于设备可同时进行无线携能通信swipt和本地计算，无线携能通信时间又分为能量收集时间βsT和信息传输时间(1-β)sT，其中s∈[0 ,1]，β∈(0 ,1)；

s为时帧内用于无线携能通信的时间，ξ_i为时帧内用于计算的时间，N为终端设备数量，每个终端设备选择本地计算或者是卸载计算；终端设备处使用时分复用电路避免两个时间段内不同工作的相互干扰；

终端设备存在两种计算模式：本地计算和卸载计算；

(1)本地计算

处于本地计算状态的终端设备可以同时采集能量和计算任务，因此本地计算时间可忽略不计；设定f_i为处理器每秒运算的总周期数，t_i表示运算时间，0≤t_i≤T，f_it_i为运算工作量，表示处理1bit数据所需的周期数，则设备处理的比特量为/>，设备的能量总消耗为

E_loc＝k_if_i ³t_i

其中k_i是有效的开关电容，

本地计算的计算速率r_loc为

(2)卸载计算

处于计算卸载状态的终端将自身的计算任务上传到服务器进行运算，此时时间帧分为两部分，一部分是SWIPT阶段，另一部分是计算阶段，

存在能量约束：E_loc≤E_i，E_i为第i个设备所收集到的能量；为提高能源利用率，将所有收集能量消耗殆尽，则终端设备的最佳发送功率p_i ^*为

其中ξ_i为第i个设备的卸载时间，存在时间约束：

设备端发送上传信号为

达到服务器的上传信号为

n₀为接收器的加性高斯白噪声；

服务器的接收信号，在上传过程中的信干噪比为

其中N₀为接收器的噪声功率；

则上传到服务器的卸载速率r_mec为

r_mec＝Blog₂(1+SINR)；

最大计算速率为

Q^*(h_i ,h_j)＝max imize(Q)

s≥0，ξ_i≥0，i∈{0 ,1 ,...,N}

x_i∈{0 ,1}，i∈{0 ,1 ,...,N}

对s，ξ_i，x_i三个变量进行求解，最终得到最大化计算速率

Q^*(h_i ,h_j,x_i ^*)＝max imize(Q)

s≥0，ξ_i≥0，i∈{0 ,1 ,...,N}

x_i ^*为多用户最优的卸载动作；

系统计算成本和服务器选择包括：

将时变的两段信道增益和数据处理价格输入深度神经网络中，根据当前选择策略得到多个选择动作，选择动作指在多个服务器中选择至少一个服务器进行数据处理，形成模式的数据对，确定时变价格、选择动作与对应Ω值之间的相关性，将多个选择动作代入成本公式，通过公式运算得到多个最终成本，从中选择最小成本所对应的选择动作；引入经验回放机制，将更新后的数据对/>放入回访存储器中，回放存储器容量有限，当第t个时间帧存放数据内存已满时，选择存放新生成的数据对，丢弃旧数据对，从存储器中随机提取数据样本，每隔一定的时间帧对全连接神经网络DNN进行训练，采用Adam优化算法，Adam优化算法结合了Momentum和RMSprop梯度下降法，利用自适应的学习率以减少平均交叉熵损失为目的，对初始化参数使用mini-batch梯度下降法进行迭代，再用Momentum梯度下降法计算指数加权平均数，再用RMSprop更新，最后计算Momentum和RMSprop的偏差修正，更新深度神经网络参数，如此反复直到达到设定的训练次数，神经网络与当前环境不断交互进而训练完整，神经网络不断更新选择策略至最优，最终当信道和服务器价格在需要的状态时，根据深度强化学习训练的神经网络选择当前状态下对应计算成本最小的动作，就得到最小计算成本。

2.根据权利要求1所述基于无线携能通信的边缘计算卸载决策与资源分配方法，其特征在于，

3.根据权利要求1所述基于无线携能通信的边缘计算卸载决策与资源分配方法，其特征在于，

一个卸载动作控制一个终端设备，N个卸载动作组成本文的卸载决策，一个选择动作控制一个服务器是否进行卸载计算，N个选择动作组成本文的选择决策；

卸载动作为1表示此设备的任务卸载到边缘服务器计算，卸载动作为0表示任务本地计算；选择动作为1表示任务选择此服务器进行卸载计算，选择动作为0表示任务不选择此服务器进行卸载计算。

4.根据权利要求1或3所述基于无线携能通信的边缘计算卸载决策与资源分配方法，其特征在于，

能量收集时，服务器发射射频信号到达中继端，再由中继将信号以放大转发方式转发至用户设备处，计算中继转发的信号功率P_r；

其中h_j为第j个服务器到中继之间的信道增益，j∈(1 ,2 ,...,N)，n_r为中继处的加性高斯白噪声；

中继处的发射功率为

Pr＝k_r ²P_ah_j ²+k_r ²N_r

N_r为中继处的噪声功率，

用户将收集到的信号按照时隙切换模式进行划分，一段时间内信号进行能量收集，另一段时间内信号进行信息解码；同时考虑设备进行能量收集的效率，由此得到所收集到的能量E_i，则第i个设备所收集到的能量为

E_i＝βP_rh_isT

其中sT为用于无线携能通信的时间，s∈[0 ,1]，β为时隙切换模式中的切换因子，β∈(0 ,1)，βsT是能量收集的时间，是服务器处理数据的时变价格表的信息解码时间，h_i为中继到第i个终端设备间的信道增益，i∈(1 ,2 ,...,N)，

对于终端设备存在能量约束：所消耗能量不得超过E_i。