CN113727362A

CN113727362A - 一种基于深度强化学习的无线供电系统的卸载策略方法

Info

Publication number: CN113727362A
Application number: CN202110600956.5A
Authority: CN
Inventors: 余雪勇; 江腾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-11-30
Anticipated expiration: 2041-05-31
Also published as: CN113727362B

Abstract

一种基于深度强化学习的无线供电系统的卸载策略方法，能够最优化地适应任务卸载决策和无线资源分配，在保证电池寿命的基础上实现系统计算速率和任务成功率的最大化。本方法通过构建一个基于深度强化学习的在线卸载框架将优化问题分解；利用动态自适应调整DROO算法参数的方法解决卸载子问题；通过将双段搜索算法和拉格朗日乘子法结合求解得到最优值；通过设置电池电量的门限值对设备发射功率和用户设备计算能力作出预估计，将四变量优化问题转化为二变量优化问题，结合双段搜索算法和拉格朗日乘子法得到最优值，降低了计算复杂度。

Description

一种基于深度强化学习的无线供电系统的卸载策略方法

技术领域

本发明涉及计算机无线通信技术领域，具体涉及一种基于深度强化学习的无线供电系统的卸载策略方法。

背景技术

物联网设备如传感器、摄像机和可穿戴设备等，由于计算能力、电源和存储器的限制，在支持交互式在线游戏和人脸识别等先进应用方面存在着计算瓶颈。这个挑战可以通过移动边缘计算(MEC)技术来解决。在MEC技术中，移动设备将计算任务卸载到物联网设备的无线接入中的MEC设备，如基站、接入点(Access Point,AP)、笔记本电脑和智能手机。通过利用MEC设备的计算、缓存和功率资源，计算卸载可以减少计算延迟，节省电池寿命，甚至提高计算密集型物联网应用的安全性。能量收集元件是另一种有希望延长电池寿命并为物联网设备提供满意质量体验的技术。由于无线功率传输(Wireless PowerTransmission,WPT)技术的最新进展，无线设备(Wireless Device,WD) 的电池可以在空中连续充电，而无需更换电池。同时随着移动边缘计算技术的发展，可以将无线设备中一些高运算力的任务卸载到边缘服务器。这两种技术的发展，使无线设备突破了其使用时间短和计算能力低的限制。

MEC使得任务处理变得高效，有大量文献研究了MEC技术。这些文献大多通过优化任务分配或资源分配来最小化能耗或最大化计算效率，如Dynamic Task Offloading andScheduling for Low-Latency IoT Services in Multi-Access Edge Computing；Dynamic Resource and TaskAllocation for Energy Minimization in Mobile CloundSystems； Mobile Edge Computing:A survey)，并没有考虑平衡用户设备的计算量，会导致信道资源较差的用户设备无法完成计算任务，造成任务成功率的下降，同时并没有考虑电池损耗问题，在计算密集型系统中，频繁的深度充放电会对电池造成较大伤害，使电池的寿命极低。

发明内容

针对上述问题，本发明提出一种基于深度强化学习的无线供电系统的卸载策略方法，以无线信道的时变性为基础对边缘无线网络进行建模。构建在保证智能终端电池寿命基础下的网络计算速率和任务成功率最大化问题。采用基于深度强化学习理论框架下的在线卸载算法，并将联合优化问题转化为二进制卸载等子问题，设计联合优化任务卸载决策和无线资源分配方案。通过利用合理的无线资源分配和卸载决策，实现了在保证电池寿命的基础上达到网络计算速率和任务成功率的最大化。

基于深度强化学习的无线供电系统的卸载策略方法，具体步骤包括如下：

步骤1，建立能量采集环境下的多用户MEC系统模型；

步骤2，将多用户MEC系统模型转化为优化问题；

步骤3，将优化问题根据能量采集模式、本地计算模式和MEC 卸载计算模式分解成三个子问题用以后续求解；

步骤4，构建深度强化学习框架，根据信道增益判断请求设备是否在本地完成计算任务，若是，则选择本地计算模式，计算完成后流程结束；若否，则继续执行后续步骤；

步骤5，选择卸载计算模式，再解决卸载计算模式下的资源分配优化问题。

步骤6，将获得的结果添加到深度强化学习框架的重放存储器中进行迭代。

进一步地，在步骤1中，所建立能量采集环境下的多用户MEC 系统模型包括一个集成无线供电传输功能和边缘服务器的混合接入点、N个请求设备。

进一步地，在步骤2中，所述建立的优化问题具体包括目标函数和约束条件；

其中，所述目标函数是：

式(1)为求出无线系统中计算的最大收益值，其中，p_o,i为卸载计算产生的收益；p_L,i为本地计算产生的收益；h表示信道增益；x_i表示设备i的卸载动作，x_i＝1表示将任务卸载至边缘服务器，此时设备 i∈M₁，x_i＝0表示将任务在本地进行计算，此时设备i∈M₀；a表示设备i能量采集的时间；τ_i表示卸载情况下设备i的卸载时间；f_i表示本地计算时设备i计算速度；p_i表示卸载计算时设备设备i的发射功率；

所述约束条件具体包括：

WD_i在MEC卸载计算模式下的时间约束条件：

式中，i∈M₁表示选择卸载计算的用户设备的序号，τ_i表示选择卸载计算的用户设备WD_i卸载任务所花费的时间，a表示能量采集所花时间；设信道相干时间T为1，由于采用时分复用方式所以各部分时间之和小于信道相干时间；

WD_i在本地计算模式下的能耗约束条件：

式中k_i为处理器芯片的计算能效系数，f_i代表本地处理器的处理速度，t_i为执行本地计算任务所需时间，E_i为用户设备在能量采集阶段获得的能量，b_i,p为电池在时隙开始时的电量，i∈M₀表示选择本地计算的用户设备，此时x_i＝0；

WD_i在MEC卸载计算模式下的能耗约束条件：

p_i为用户设备WD_i的发射功率，E_i为用户设备在能量采集阶段获得的能量，b_i,p为电池在时隙开始时的电量，时隙结束后电池电量表示为b_i,n，其中p,n用于区分时隙开始时电池电量和时隙结束后的电池电量，i∈M₁表示选择卸载计算的用户设备，此时x_i＝1；

WD_i的模式选择约束：

x_i＝{0,1} (5)

x_i＝1时无线用户设备将任务卸载到边缘服务器，x_i＝0时无线用户设备进行本地计算。

进一步地，在步骤4中，卸载行为的产生依赖于DNN的使用， DNN的特征是其嵌入的参数θ，θ为连接隐藏神经元的权重；在第t 个时间帧中，DNN以信道增益h_t作为输入，根据θ_t参数化的当前卸载策略

θ_t为t时刻连接隐藏神经元的权重，输出一个松弛的卸载动作

每个条目松弛到0到1之间的连续值，然后将松弛的动作量化为K个二进制卸载动作，当卸载动作为0时代表设备在本地完成计算，否则代表设备将任务卸载至边缘服务器计算。

进一步地，在步骤5中，解决卸载计算模式下的资源分配优化问题具体为：通过设置电池电量的门限值对设备发射功率和用户设备计算能力作出预估计，将四变量优化问题转化为二变量优化问题，结合双段搜索算法和拉格朗日乘子法得到最优值。

进一步地，在步骤6中，将获得的结果添加到深度强化学习框架的重放存储器中，从存储器中提取一批训练样本来训练，相应地更新其参数，生成新的卸载决策，此后，随着新的信道实现被观察到，通过该种迭代重复以改进卸载策略。

本发明的有益效果是：将WPT技术应用于卸载策略，充分考虑了系统计算效率，任务成功率和电池电量的变化以及无线用户和边缘服务器之间的无线通信环境，提出了一个基于深度强化学习的联合卸载调度解决方案；通过设置电池电量的门限值对设备发射功率和用户设备计算能力作出预估计，将四变量优化问题转化为二变量优化问题，结合双段搜索算法和拉格朗日乘子法得到最优值，降低了计算复杂度；利用了深度强化学习和拆分成子问题的方法提升所提算法的收敛性能和训练效率。首先，使用基于深度强化学习的在线算法框架来设计和训练算法，保证算法的可靠性和稳定性。其次，将原始问题转化为三个子问题，降低了计算的收敛时间同时避免了维数灾难问题。

附图说明

图1是本发明实施例中的流程示意图。

图2是本发明实施例中关于MEC卸载和资源分配算法框架图。

图3是本发明实施例中不同用户设备在不同计算模式下的计算速率图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：如图1所述；对于步骤1：图1展示了本发明的系统模型，模型中存在着两种设备分别是：一个集成无线供电传输功能和边缘服务器的混合接入点，N个请求设备。在一个 MEC无线网络中包含N个无线可充电设备WD_i和一个混合接入点AP, 其中N表示为集合N＝{1,…,N}。AP是一个带有稳定电源和充足计算能力的服务器，可以向每个WD广播能量。每个WD都携带有电池装置，可以存储服务器的射频能量，将其用于自身的计算和传输。WD_i根据信道条件和自身能源决定将任务卸载到AP端计算还是在本地计算。使用两个互斥集M₀和M₀来表示分别在模式0和模式1中运行的 WD_S(s表示复数，表示多个用户设备)的索引，因此M＝M₀∪M₁＝ {1,…,N}是所有WD_S的集合。

将AP对每个设备执行一次操作的时间设置为T，T为固定的时间长度，但T必须小于信道的相干时间以保证在每个T时间内无线信道的信道增益都不会改变。为了避免相互干扰，每个WD的通信和能量收集电路以时分多路复用(Time-Division-Multiplexing，TDD)方式运行。电路结构也采用了类似的TDD电路，实现了与WD_S的能量传输和通信分离。时隙T可以分为三个部分，分别是aT，a∈[0,1]，为 AP将能量广播到WD的时间，τ_iT为WD_i将任务卸载到AP的时间， σ_iT为AP将处理后的任务传回WD_i的时间，σ₂T为AP将处理后的任务传回WD₂的时间。由于AP处理后的数据量很小所以σ₁T，σ₂T (σ₁T是AP将处理后的任务传回WD₁的时间)可以忽略不记。此外，考虑到深度充放电对电池造成的损害，应该尽量使电池中的电量不低于最大电量的20％。

进一步的，在步骤2中，所述建立的优化问题具体包括目标函数和约束条件；

其中，所述的目标函数是：

式(1)为求出无线系统中计算的最大收益值，其中p_o,i为卸载计算产生的收益，p_L,i为本地计算产生的收益。

h,x_i,a,τ_i,f_i,p_i分别表示信道增益；设备i的卸载动作，x_i＝1表示将任务卸载至边缘服务器，此时设备i∈M₁，x_i＝0表示将任务在本地进行计算，此时设备i∈M₀；设备i能量采集的时间；卸载情况下设备i的卸载时间；本地计算时设备i计算频率和卸载计算时设备设备i 的发射功率。

所述的约束条件具体包括：

一、WD_i在MEC卸载计算模式下的时间约束条件是：

式中，i∈M₁表示选择卸载计算的用户设备，τ_i表示选择卸载计算的用户设备WD_i卸载任务所花费的时间，a表示能量采集所花时间。假设信道相干时间T为1，由于采用时分复用方式所以各部分时间之和小于信道相干时间。

二、WD_i在本地计算模式下的能耗约束条件是：

式中k_i为处理器芯片的计算能效系数，f_i代表本地处理器的处理速度，t_i为执行本地计算任务所需时间，E_i为用户设备在能量采集阶段获得的能量，b_i,p为电池的在时隙开始时的电量，i∈M₀表示选择本地计算的用户设备。

三、WD_i在MEC卸载计算模式下的能耗约束条件是：

p_i为用户设备WD_i的发射功率，E_i为用户设备在能量采集阶段获得的能量，b_i,p为电池的在时隙开始时的电量。

三、WD_i的模式选择约束是：

x_i＝{0,1} (5)

对于步骤2：目标函数是为卸载计算产生的收益和本地计算产生的收益之和。

具体的，能量采集阶段本地设备获得的能量为：

E_i＝μph_iaT (6)

其中μ∈(0,1)表示能量收获效率，P表示AP发射功率。利用收集的能量，每个WD需要在一个时间框架结束之前完成一个优先级计算任务。h_i对应代表第i个设备的信道增益，T为信道相干时间。

本地计算时本地计算速度为：

WD在本地执行计算任务的同时，也能收到AP广播给它的能量 E_i。假设当前设备中电池电量表示为b_i,p,电池的最大容量为b_max，l_i表示为WD_i在当前时隙开始时产生的任务比特数，f_i≤f_max代表本地处理器的处理速度，可以表示为1秒钟CPU的周期数，0≤t_i≤t为执行本地计算任务所需时间，

为处理1bit任务所需周期数。所以t_i时间内本地计算处理的任务量为

当

时任务被视为丢弃，消耗的能量为

其中k_i为处理器芯片的计算能效系数。

本地计算产生的收益为：

本地计算产生的收益为本地计算速率与为了防止电池深度放电产生的惩罚之和，当电池电量小于20％时，系统会产生一个惩罚，惩罚因子为γ。式中β也为惩罚因子，代表任务被丢弃产生的惩罚。

卸载计算时系统的传输速率为：

其中B表示通信带宽，N₀表示接收器噪声功率。v_u>1表示任务分流中的通信开销，例如数据包头和加密。p_i表示第i个WD的发射功率。

卸载计算产生的收益是：

式(6)中，

为卸载计算时的传输速率，ρI(l_o,i<l_i) 为当设备没有成功完成任务产生的惩罚，γI(p_i>0.8((E_i+b_i,p))为当电池消耗的电量超过总电量80％时产生的惩罚，其中惩罚因子分别为 λ，γ。

综上，本发明优化问题表述为：

p_i≤(E_i+b_i,p) (11d)

c_i＝{0,1} (11e)

进一步的，在步骤4中目标是设计一个卸载策略函数π，一旦在每个时间框架的开始接收到信道信息

就能快速产生最优卸载行为x^*∈{0,1}^N。这项政策为:

π:h→x^* (12)

如图3所示，该框架由卸载动作生成和卸载策略更新两个交替阶段组成。卸载行为的产生依赖于DNN的使用，DNN的特征是其嵌入的参数θ，例如连接隐藏神经元的权重。在第t个时间帧中，DNN以信道增益h_t作为输入，根据θ_t参数化的当前卸载策略

输出一个松弛的卸载动作

(每个条目松弛到0到1之间的连续值)，然后将松弛的动作量化为K个二进制卸载动作，最后通过计算资源分配方案的可实现计算速率选择一个最佳动作

相应的

作为h_t的解输出，网络采取卸载动作

接收奖励，并将新获得的状态动作对

添加到重放存储器中。

在第t时间帧的策略更新阶段，从存储器中提取一批训练样本来训练DNN，DNN相应地将其参数从θ_t更新为θ_t+1(相当于卸载策略

)。在下一时间帧中使用新的卸载策略

根据观测到的新信道h_t+1生成卸载决策

此后，随着新的信道实现被观察到，这样的迭代重复，并且DNN的策略

被逐渐改进。

进一步的，在步骤5中，解决卸载计算模式下的资源分配优化问题使用的方法是通过设置电池电量的门限值对设备发射功率和用户设备计算能力作出预估计，将四变量优化问题转化为二变量优化问题，结合双段搜索算法和拉格朗日乘子法得到最优值，具体操作步骤如下。

考虑到

(

为最优的f_i,p_i)取值的可预估计性和五变量优化算法的复杂性，可以先将P2中的f_i,p_i确定。若不考虑电池电量和任务成功率的因素，系统总收益为：

s.t(11b)(11c)(11d)(11f)

参考文献(Computation Rate Maximization for Wireless Powered Mobile-Edge Computing With Binary Computation Offlfloading)可知

时取得本地计算最优值，

时取得卸载计算最优值，则系统总收益变为：

s.t(11b)(11c)(11d)(11f)

其中

利用拉格朗日乘子法将拉格朗日乘子引入约束，形成部分拉格朗日乘子：

式中v为拉格朗日乘子。

对应的对偶函数为：

凸优化问题转化为:

计算得到：

其中，

W(x)为Lambert-W函数，

是v的递减函数，当v→0时

v→∞时

将式(17)代入

得到a^*作为τ^*函数的半闭形式，a^*为a的最优解，τ^*为τ的最优解，v^*为v的最优解：

给定

的单调性，可以得到p₁(v)是v中的一个增函数，当v→ 0时p₁(v)→0，v→∞时p₁(v)→1，可以得到关于v^*的最优值：

在式(21)中，通过对

进行双段搜索，可以有效地得到最优的v，从而找到满足条件的唯一v，其中

是一个足够大的值。既然获得了最优v^*，那么可以使用(18)和(20)直接计算最优{a^*,τ^*}。由于凸性，原始最优值和对偶最优值是相同的。

若考虑电池电量和任务成功率的因素，当由于设置了电池消耗电量的最高门限值为0.8b_max，因此可以将

取值框定在电池耗能的 [0.8-1.0]之间然后取分辨率为0.01均匀遍历电池耗能[0.8-1.0]的值得到m个候选取值f_m和p_m。将f_m,p_m代入式(18)的

通过双段搜索算法得出最佳值。

具体所述：如图3所述，图3总共展示了3种不同数量的设备在 3种不同方案下的计算速率的仿真结果比较，三种方案为：1)、本地计算模式，2)、卸载计算模式，3)、本发明提出的计算方案。

仿真的参数设置如下所示：AP的发射功率为3w，能量转换效率为0.7，AP发送能量的能量转化效率μ＝0.51。信道在一个时隙内保持静态，在不同时间段遵循自由空间路径损耗模型

其中A_d＝4.11为天线增益，f_c＝915MHZ表示载波频率，d_e＝2.8表示路径损耗指数，电池最大电量b^max＝15，电池的初始值为最大电量的一半。假设处理器芯片的计算能效系数相等，为k_i＝10^-26,i＝ 1…N。对于所有的用户，处理1bit任务所需周期数

为100，数据卸载时的传输带宽B为2MHZ，接收端的噪声功率为N₀＝10^-10，V_u＝ 1.1。仿真平台为一台带有2.1GHZ的处理器和16GB内存的笔记本电脑。

图3比较了不同卸载算法在不同无线用户设备数目下的计算速率性能，实验结果表明，该算法具有近似最优的性能，明显优于边缘计算和局部计算算法。

综上所述本发明研究了多用户二进制卸载计算结构下的卸载策略与资源分配联合优化方案，考虑了系统吞吐量、任务丢弃率与电池损耗，提出了以最大化系统总收益为目标的优化问题，并使用深度强化学习为计算框架实现了对该优化问题的求解。首先根据信道增益通过DNN神经网络算法得出卸载松弛变量，并采用保序量化算法得出一组卸载方案，然后对卸载发送功率和本地处理速率作预估计得出一组候选值并通过二分搜索算法得出最佳资源分配方案，最后迭代比较不同卸载方案下的系统收益值，确定出系统最大收益值和最佳卸载方案。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.基于深度强化学习的无线供电系统的卸载策略方法，其特征在于：具体步骤包括如下：

步骤1，建立能量采集环境下的多用户MEC系统模型；

步骤2，将多用户MEC系统模型转化为优化问题；

步骤3，将优化问题根据能量采集模式、本地计算模式和MEC卸载计算模式分解成三个子问题用以后续求解；

2.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法，其特征在于：在步骤1中，所建立能量采集环境下的多用户MEC系统模型包括一个集成无线供电传输功能和边缘服务器的混合接入点、N个请求设备。

3.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法，其特征在于：在步骤2中，所述建立的优化问题具体包括目标函数和约束条件；

其中，所述目标函数是：

式(1)为求出无线系统中计算的最大收益值，其中，p_o,i为卸载计算产生的收益；p_L,i为本地计算产生的收益；h表示信道增益；x_i表示设备i的卸载动作，x_i＝1表示将任务卸载至边缘服务器，此时设备i∈M₁，x_i＝0表示将任务在本地进行计算，此时设备i∈M₀；a表示设备i能量采集的时间；τ_i表示卸载情况下设备i的卸载时间；f_i表示本地计算时设备i计算速度；p_i表示卸载计算时设备i的发射功率；

所述约束条件具体包括：

WD_i在MEC卸载计算模式下的时间约束条件：

WD_i在本地计算模式下的能耗约束条件：

WD_i在MEC卸载计算模式下的能耗约束条件：

WD_i的模式选择约束：

x_i＝{0,1} (5)

4.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法，其特征在于：在步骤4中，卸载行为的产生依赖于DNN的使用；DNN的特征是其嵌入的参数θ，θ为连接隐藏神经元的权重；在第t个时间帧中，DNN以信道增益h_t作为输入，根据θ_t参数化的当前卸载策略

5.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法，其特征在于：在步骤5中，解决卸载计算模式下的资源分配优化问题具体为：通过设置电池电量的门限值对设备发射功率和用户设备计算能力作出预估计，将四变量优化问题转化为二变量优化问题，结合双段搜索算法和拉格朗日乘子法得到最优值。

6.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法，其特征在于：在步骤6中，将获得的结果添加到深度强化学习框架的重放存储器中，从存储器中提取一批训练样本来训练，相应地更新其参数，生成新的卸载决策，此后，随着新的信道实现被观察到，通过该种迭代重复以改进卸载策略。