CN113727362A - 一种基于深度强化学习的无线供电系统的卸载策略方法 - Google Patents

一种基于深度强化学习的无线供电系统的卸载策略方法 Download PDF

Info

Publication number
CN113727362A
CN113727362A CN202110600956.5A CN202110600956A CN113727362A CN 113727362 A CN113727362 A CN 113727362A CN 202110600956 A CN202110600956 A CN 202110600956A CN 113727362 A CN113727362 A CN 113727362A
Authority
CN
China
Prior art keywords
unloading
time
reinforcement learning
task
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110600956.5A
Other languages
English (en)
Other versions
CN113727362B (zh
Inventor
余雪勇
江腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110600956.5A priority Critical patent/CN113727362B/zh
Publication of CN113727362A publication Critical patent/CN113727362A/zh
Application granted granted Critical
Publication of CN113727362B publication Critical patent/CN113727362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0203Power saving arrangements in the radio access network or backbone network of wireless communication networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0209Power saving arrangements in terminal devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于深度强化学习的无线供电系统的卸载策略方法,能够最优化地适应任务卸载决策和无线资源分配,在保证电池寿命的基础上实现系统计算速率和任务成功率的最大化。本方法通过构建一个基于深度强化学习的在线卸载框架将优化问题分解;利用动态自适应调整DROO算法参数的方法解决卸载子问题;通过将双段搜索算法和拉格朗日乘子法结合求解得到最优值;通过设置电池电量的门限值对设备发射功率和用户设备计算能力作出预估计,将四变量优化问题转化为二变量优化问题,结合双段搜索算法和拉格朗日乘子法得到最优值,降低了计算复杂度。

Description

一种基于深度强化学习的无线供电系统的卸载策略方法
技术领域
本发明涉及计算机无线通信技术领域,具体涉及一种基于深度强 化学习的无线供电系统的卸载策略方法。
背景技术
物联网设备如传感器、摄像机和可穿戴设备等,由于计算能力、 电源和存储器的限制,在支持交互式在线游戏和人脸识别等先进应用 方面存在着计算瓶颈。这个挑战可以通过移动边缘计算(MEC)技术来 解决。在MEC技术中,移动设备将计算任务卸载到物联网设备的无 线接入中的MEC设备,如基站、接入点(Access Point,AP)、笔记本电 脑和智能手机。通过利用MEC设备的计算、缓存和功率资源,计算 卸载可以减少计算延迟,节省电池寿命,甚至提高计算密集型物联网 应用的安全性。能量收集元件是另一种有希望延长电池寿命并为物联 网设备提供满意质量体验的技术。由于无线功率传输(Wireless PowerTransmission,WPT)技术的最新进展,无线设备(Wireless Device,WD) 的电池可以在空中连续充电,而无需更换电池。同时随着移动边缘计 算技术的发展,可以将无线设备中一些高运算力的任务卸载到边缘服 务器。这两种技术的发展,使无线设备突破了其使用时间短和计算能 力低的限制。
MEC使得任务处理变得高效,有大量文献研究了MEC技术。这 些文献大多通过优化任务分配或资源分配来最小化能耗或最大化计 算效率,如Dynamic Task Offloading andScheduling for Low-Latency IoT Services in Multi-Access Edge Computing;Dynamic Resource and TaskAllocation for Energy Minimization in Mobile CloundSystems; Mobile Edge Computing:A survey),并没有考虑平衡用户设备的计算 量,会导致信道资源较差的用户设备无法完成计算任务,造成任务成 功率的下降,同时并没有考虑电池损耗问题,在计算密集型系统中, 频繁的深度充放电会对电池造成较大伤害,使电池的寿命极低。
发明内容
针对上述问题,本发明提出一种基于深度强化学习的无线供电系 统的卸载策略方法,以无线信道的时变性为基础对边缘无线网络进行 建模。构建在保证智能终端电池寿命基础下的网络计算速率和任务成 功率最大化问题。采用基于深度强化学习理论框架下的在线卸载算 法,并将联合优化问题转化为二进制卸载等子问题,设计联合优化任 务卸载决策和无线资源分配方案。通过利用合理的无线资源分配和卸 载决策,实现了在保证电池寿命的基础上达到网络计算速率和任务成 功率的最大化。
基于深度强化学习的无线供电系统的卸载策略方法,具体步骤包 括如下:
步骤1,建立能量采集环境下的多用户MEC系统模型;
步骤2,将多用户MEC系统模型转化为优化问题;
步骤3,将优化问题根据能量采集模式、本地计算模式和MEC 卸载计算模式分解成三个子问题用以后续求解;
步骤4,构建深度强化学习框架,根据信道增益判断请求设备是 否在本地完成计算任务,若是,则选择本地计算模式,计算完成后流 程结束;若否,则继续执行后续步骤;
步骤5,选择卸载计算模式,再解决卸载计算模式下的资源分配 优化问题。
步骤6,将获得的结果添加到深度强化学习框架的重放存储器中 进行迭代。
进一步地,在步骤1中,所建立能量采集环境下的多用户MEC 系统模型包括一个集成无线供电传输功能和边缘服务器的混合接入 点、N个请求设备。
进一步地,在步骤2中,所述建立的优化问题具体包括目标函数 和约束条件;
其中,所述目标函数是:
Figure BDA0003092685070000031
式(1)为求出无线系统中计算的最大收益值,其中,po,i为卸载计 算产生的收益;pL,i为本地计算产生的收益;h表示信道增益;xi表示 设备i的卸载动作,xi=1表示将任务卸载至边缘服务器,此时设备 i∈M1,xi=0表示将任务在本地进行计算,此时设备i∈M0;a表示 设备i能量采集的时间;τi表示卸载情况下设备i的卸载时间;fi表示本 地计算时设备i计算速度;pi表示卸载计算时设备设备i的发射功率;
所述约束条件具体包括:
WDi在MEC卸载计算模式下的时间约束条件:
Figure BDA0003092685070000032
式中,i∈M1表示选择卸载计算的用户设备的序号,τi表示选择卸 载计算的用户设备WDi卸载任务所花费的时间,a表示能量采集所花 时间;设信道相干时间T为1,由于采用时分复用方式所以各部分时 间之和小于信道相干时间;
WDi在本地计算模式下的能耗约束条件:
Figure BDA0003092685070000041
式中ki为处理器芯片的计算能效系数,fi代表本地处理器的处理 速度,ti为执行本地计算任务所需时间,Ei为用户设备在能量采集阶 段获得的能量,bi,p为电池在时隙开始时的电量,i∈M0表示选择本地 计算的用户设备,此时xi=0;
WDi在MEC卸载计算模式下的能耗约束条件:
Figure BDA0003092685070000042
pi为用户设备WDi的发射功率,Ei为用户设备在能量采集阶段获 得的能量,bi,p为电池在时隙开始时的电量,时隙结束后电池电量表 示为bi,n,其中p,n用于区分时隙开始时电池电量和时隙结束后的电池 电量,i∈M1表示选择卸载计算的用户设备,此时xi=1;
WDi的模式选择约束:
xi={0,1} (5)
xi=1时无线用户设备将任务卸载到边缘服务器,xi=0时无线 用户设备进行本地计算。
进一步地,在步骤4中,卸载行为的产生依赖于DNN的使用, DNN的特征是其嵌入的参数θ,θ为连接隐藏神经元的权重;在第t 个时间帧中,DNN以信道增益ht作为输入,根据θt参数化的当前卸 载策略
Figure BDA0003092685070000051
θt为t时刻连接隐藏神经元的权重,输出一个松弛的卸载 动作
Figure BDA0003092685070000052
每个条目松弛到0到1之间的连续值,然后将松弛的动作量 化为K个二进制卸载动作,当卸载动作为0时代表设备在本地完成 计算,否则代表设备将任务卸载至边缘服务器计算。
进一步地,在步骤5中,解决卸载计算模式下的资源分配优化问 题具体为:通过设置电池电量的门限值对设备发射功率和用户设备计 算能力作出预估计,将四变量优化问题转化为二变量优化问题,结合 双段搜索算法和拉格朗日乘子法得到最优值。
进一步地,在步骤6中,将获得的结果添加到深度强化学习框架 的重放存储器中,从存储器中提取一批训练样本来训练,相应地更新 其参数,生成新的卸载决策,此后,随着新的信道实现被观察到,通 过该种迭代重复以改进卸载策略。
本发明的有益效果是:将WPT技术应用于卸载策略,充分考虑了 系统计算效率,任务成功率和电池电量的变化以及无线用户和边缘服 务器之间的无线通信环境,提出了一个基于深度强化学习的联合卸载 调度解决方案;通过设置电池电量的门限值对设备发射功率和用户设 备计算能力作出预估计,将四变量优化问题转化为二变量优化问题, 结合双段搜索算法和拉格朗日乘子法得到最优值,降低了计算复杂 度;利用了深度强化学习和拆分成子问题的方法提升所提算法的收敛 性能和训练效率。首先,使用基于深度强化学习的在线算法框架来设 计和训练算法,保证算法的可靠性和稳定性。其次,将原始问题转化为三个子问题,降低了计算的收敛时间同时避免了维数灾难问题。
附图说明
图1是本发明实施例中的流程示意图。
图2是本发明实施例中关于MEC卸载和资源分配算法框架图。
图3是本发明实施例中不同用户设备在不同计算模式下的计算 速率图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的 技术方案做进一步的详细说明:如图1所述;对于步骤1:图1展示 了本发明的系统模型,模型中存在着两种设备分别是:一个集成无线 供电传输功能和边缘服务器的混合接入点,N个请求设备。在一个 MEC无线网络中包含N个无线可充电设备WDi和一个混合接入点AP, 其中N表示为集合N={1,…,N}。AP是一个带有稳定电源和充足计 算能力的服务器,可以向每个WD广播能量。每个WD都携带有电池 装置,可以存储服务器的射频能量,将其用于自身的计算和传输。WDi根据信道条件和自身能源决定将任务卸载到AP端计算还是在本地计 算。使用两个互斥集M0和M0来表示分别在模式0和模式1中运行的 WDS(s表示复数,表示多个用户设备)的索引,因此M=M0∪M1= {1,…,N}是所有WDS的集合。
将AP对每个设备执行一次操作的时间设置为T,T为固定的时 间长度,但T必须小于信道的相干时间以保证在每个T时间内无线 信道的信道增益都不会改变。为了避免相互干扰,每个WD的通信和 能量收集电路以时分多路复用(Time-Division-Multiplexing,TDD)方式 运行。电路结构也采用了类似的TDD电路,实现了与WDS的能量传 输和通信分离。时隙T可以分为三个部分,分别是aT,a∈[0,1],为 AP将能量广播到WD的时间,τiT为WDi将任务卸载到AP的时间, σiT为AP将处理后的任务传回WDi的时间,σ2T为AP将处理后的 任务传回WD2的时间。由于AP处理后的数据量很小所以σ1T,σ2T (σ1T是AP将处理后的任务传回WD1的时间)可以忽略不记。此外, 考虑到深度充放电对电池造成的损害,应该尽量使电池中的电量不低 于最大电量的20%。
进一步的,在步骤2中,所述建立的优化问题具体包括目标函数 和约束条件;
其中,所述的目标函数是:
Figure BDA0003092685070000071
式(1)为求出无线系统中计算的最大收益值,其中po,i为卸载计算 产生的收益,pL,i为本地计算产生的收益。
h,xi,a,τi,fi,pi分别表示信道增益;设备i的卸载动作,xi=1表 示将任务卸载至边缘服务器,此时设备i∈M1,xi=0表示将任务在 本地进行计算,此时设备i∈M0;设备i能量采集的时间;卸载情况下 设备i的卸载时间;本地计算时设备i计算频率和卸载计算时设备设备i 的发射功率。
所述的约束条件具体包括:
一、WDi在MEC卸载计算模式下的时间约束条件是:
Figure BDA0003092685070000081
式中,i∈M1表示选择卸载计算的用户设备,τi表示选择卸载计算 的用户设备WDi卸载任务所花费的时间,a表示能量采集所花时间。 假设信道相干时间T为1,由于采用时分复用方式所以各部分时间之 和小于信道相干时间。
二、WDi在本地计算模式下的能耗约束条件是:
Figure BDA0003092685070000082
式中ki为处理器芯片的计算能效系数,fi代表本地处理器的处理 速度,ti为执行本地计算任务所需时间,Ei为用户设备在能量采集阶 段获得的能量,bi,p为电池的在时隙开始时的电量,i∈M0表示选择本 地计算的用户设备。
三、WDi在MEC卸载计算模式下的能耗约束条件是:
Figure BDA0003092685070000083
pi为用户设备WDi的发射功率,Ei为用户设备在能量采集阶段获 得的能量,bi,p为电池的在时隙开始时的电量。
三、WDi的模式选择约束是:
xi={0,1} (5)
xi=1时无线用户设备将任务卸载到边缘服务器,xi=0时无线 用户设备进行本地计算。
对于步骤2:目标函数是为卸载计算产生的收益和本地计算产生 的收益之和。
具体的,能量采集阶段本地设备获得的能量为:
Ei=μphiaT (6)
其中μ∈(0,1)表示能量收获效率,P表示AP发射功率。利用收 集的能量,每个WD需要在一个时间框架结束之前完成一个优先级计 算任务。hi对应代表第i个设备的信道增益,T为信道相干时间。
本地计算时本地计算速度为:
Figure BDA0003092685070000091
WD在本地执行计算任务的同时,也能收到AP广播给它的能量 Ei。假设当前设备中电池电量表示为bi,p,电池的最大容量为bmax,li表示为WDi在当前时隙开始时产生的任务比特数,fi≤fmax代表本地 处理器的处理速度,可以表示为1秒钟CPU的周期数,0≤ti≤t为执行本地计算任务所需时间,
Figure BDA0003092685070000092
为处理1bit任务所需周期数。所以ti时 间内本地计算处理的任务量为
Figure BDA0003092685070000093
Figure BDA0003092685070000094
时任务被视为丢弃,消耗 的能量为
Figure BDA0003092685070000095
其中ki为处理器芯片的计算能效系数。
本地计算产生的收益为:
Figure BDA0003092685070000096
本地计算产生的收益为本地计算速率与为了防止电池深度放电 产生的惩罚之和,当电池电量小于20%时,系统会产生一个惩罚,惩 罚因子为γ。式中β也为惩罚因子,代表任务被丢弃产生的惩罚。
卸载计算时系统的传输速率为:
Figure BDA0003092685070000097
其中B表示通信带宽,N0表示接收器噪声功率。vu>1表示任务 分流中的通信开销,例如数据包头和加密。pi表示第i个WD的发射 功率。
卸载计算产生的收益是:
Figure BDA0003092685070000101
式(6)中,
Figure BDA0003092685070000102
为卸载计算时的传输速率,ρI(lo,i<li) 为当设备没有成功完成任务产生的惩罚,γI(pi>0.8((Ei+bi,p))为当 电池消耗的电量超过总电量80%时产生的惩罚,其中惩罚因子分别为 λ,γ。
综上,本发明优化问题表述为:
Figure BDA0003092685070000103
Figure BDA0003092685070000104
Figure BDA0003092685070000105
pi≤(Ei+bi,p) (11d)
ci={0,1} (11e)
Figure BDA0003092685070000106
进一步的,在步骤4中目标是设计一个卸载策略函数π,一旦在 每个时间框架的开始接收到信道信息
Figure BDA0003092685070000107
就能快速产生最优卸载 行为x*∈{0,1}N。这项政策为:
π:h→x* (12)
如图3所示,该框架由卸载动作生成和卸载策略更新两个交替阶 段组成。卸载行为的产生依赖于DNN的使用,DNN的特征是其嵌入 的参数θ,例如连接隐藏神经元的权重。在第t个时间帧中,DNN以 信道增益ht作为输入,根据θt参数化的当前卸载策略
Figure BDA0003092685070000111
输出一个松 弛的卸载动作
Figure BDA0003092685070000112
(每个条目松弛到0到1之间的连续值),然后将松 弛的动作量化为K个二进制卸载动作,最后通过计算资源分配方案 的可实现计算速率选择一个最佳动作
Figure BDA0003092685070000113
相应的
Figure BDA0003092685070000114
作为ht的解 输出,网络采取卸载动作
Figure BDA0003092685070000115
接收奖励,并将新获得的状态动作对
Figure BDA0003092685070000116
添加到重放存储器中。
在第t时间帧的策略更新阶段,从存储器中提取一批训练样本来 训练DNN,DNN相应地将其参数从θt更新为θt+1(相当于卸载策略
Figure BDA0003092685070000117
)。在下一时间帧中使用新的卸载策略
Figure BDA0003092685070000118
根据观测到的新信 道ht+1生成卸载决策
Figure BDA0003092685070000119
此后,随着新的信道实现被观察到,这样 的迭代重复,并且DNN的策略
Figure BDA00030926850700001110
被逐渐改进。
进一步的,在步骤5中,解决卸载计算模式下的资源分配优化问 题使用的方法是通过设置电池电量的门限值对设备发射功率和用户 设备计算能力作出预估计,将四变量优化问题转化为二变量优化问 题,结合双段搜索算法和拉格朗日乘子法得到最优值,具体操作步骤 如下。
考虑到
Figure BDA00030926850700001111
(
Figure BDA00030926850700001112
为最优的fi,pi)取值的可预估计性和五变量 优化算法的复杂性,可以先将P2中的fi,pi确定。若不考虑电池电量 和任务成功率的因素,系统总收益为:
Figure BDA00030926850700001113
s.t(11b)(11c)(11d)(11f)
参考文献(Computation Rate Maximization for Wireless Powered Mobile-Edge Computing With Binary Computation Offlfloading)可知
Figure BDA0003092685070000121
时取得本地计算最优值,
Figure BDA0003092685070000122
时取得卸载计算最优值, 则系统总收益变为:
Figure BDA0003092685070000123
s.t(11b)(11c)(11d)(11f)
其中
Figure BDA0003092685070000124
利用拉格朗日乘子法将拉格朗日乘子引 入约束,形成部分拉格朗日乘子:
Figure BDA0003092685070000125
式中v为拉格朗日乘子。
对应的对偶函数为:
Figure BDA0003092685070000126
凸优化问题转化为:
Figure BDA0003092685070000127
计算得到:
Figure BDA0003092685070000128
其中,
Figure BDA0003092685070000129
W(x)为Lambert-W函数,
Figure BDA00030926850700001210
是v的递减函数,当v→0时
Figure BDA0003092685070000131
v→∞时
Figure BDA0003092685070000132
将式(17)代入
Figure BDA0003092685070000133
得到a*作为τ*函数的半闭形式,a*为a的最优解,τ*为τ的最优解,v*为v的最优解:
Figure BDA0003092685070000134
给定
Figure BDA0003092685070000135
的单调性,可以得到p1(v)是v中的一个增函数,当v→ 0时p1(v)→0,v→∞时p1(v)→1,可以得到关于v*的最优值:
Figure BDA0003092685070000136
在式(21)中,通过对
Figure BDA0003092685070000137
进行双段搜索,可以有效地得到最优 的v,从而找到满足条件的唯一v,其中
Figure BDA0003092685070000138
是一个足够大的值。既然获 得了最优v*,那么可以使用(18)和(20)直接计算最优{a**}。由于凸 性,原始最优值和对偶最优值是相同的。
若考虑电池电量和任务成功率的因素,当由于设置了电池消耗电 量的最高门限值为0.8bmax,因此可以将
Figure BDA0003092685070000139
取值框定在电池耗能的 [0.8-1.0]之间然后取分辨率为0.01均匀遍历电池耗能[0.8-1.0]的值得 到m个候选取值fm和pm。将fm,pm代入式(18)的
Figure BDA00030926850700001310
通过双段搜 索算法得出最佳值。
具体所述:如图3所述,图3总共展示了3种不同数量的设备在 3种不同方案下的计算速率的仿真结果比较,三种方案为:1)、本 地计算模式,2)、卸载计算模式,3)、本发明提出的计算方案。
仿真的参数设置如下所示:AP的发射功率为3w,能量转换效率 为0.7,AP发送能量的能量转化效率μ=0.51。信道在一个时隙内保持 静态,在不同时间段遵循自由空间路径损耗模型
Figure BDA0003092685070000141
其中Ad=4.11为天线增益,fc=915MHZ表示载波频率,de=2.8表示路径损耗指数,电池最大电量bmax=15,电池的初始值为最大 电量的一半。假设处理器芯片的计算能效系数相等,为ki=10-26,i= 1…N。对于所有的用户,处理1bit任务所需周期数
Figure BDA0003092685070000142
为100,数据卸 载时的传输带宽B为2MHZ,接收端的噪声功率为N0=10-10,Vu= 1.1。仿真平台为一台带有2.1GHZ的处理器和16GB内存的笔记本电 脑。
图3比较了不同卸载算法在不同无线用户设备数目下的计算速 率性能,实验结果表明,该算法具有近似最优的性能,明显优于边缘 计算和局部计算算法。
综上所述本发明研究了多用户二进制卸载计算结构下的卸载策 略与资源分配联合优化方案,考虑了系统吞吐量、任务丢弃率与电池 损耗,提出了以最大化系统总收益为目标的优化问题,并使用深度强 化学习为计算框架实现了对该优化问题的求解。首先根据信道增益通 过DNN神经网络算法得出卸载松弛变量,并采用保序量化算法得出 一组卸载方案,然后对卸载发送功率和本地处理速率作预估计得出一 组候选值并通过二分搜索算法得出最佳资源分配方案,最后迭代比较 不同卸载方案下的系统收益值,确定出系统最大收益值和最佳卸载方 案。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以 上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容 所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (6)

1.基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:具体步骤包括如下:
步骤1,建立能量采集环境下的多用户MEC系统模型;
步骤2,将多用户MEC系统模型转化为优化问题;
步骤3,将优化问题根据能量采集模式、本地计算模式和MEC卸载计算模式分解成三个子问题用以后续求解;
步骤4,构建深度强化学习框架,根据信道增益判断请求设备是否在本地完成计算任务,若是,则选择本地计算模式,计算完成后流程结束;若否,则继续执行后续步骤;
步骤5,选择卸载计算模式,再解决卸载计算模式下的资源分配优化问题。
步骤6,将获得的结果添加到深度强化学习框架的重放存储器中进行迭代。
2.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:在步骤1中,所建立能量采集环境下的多用户MEC系统模型包括一个集成无线供电传输功能和边缘服务器的混合接入点、N个请求设备。
3.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:在步骤2中,所述建立的优化问题具体包括目标函数和约束条件;
其中,所述目标函数是:
Figure FDA0003092685060000011
式(1)为求出无线系统中计算的最大收益值,其中,po,i为卸载计算产生的收益;pL,i为本地计算产生的收益;h表示信道增益;xi表示设备i的卸载动作,xi=1表示将任务卸载至边缘服务器,此时设备i∈M1,xi=0表示将任务在本地进行计算,此时设备i∈M0;a表示设备i能量采集的时间;τi表示卸载情况下设备i的卸载时间;fi表示本地计算时设备i计算速度;pi表示卸载计算时设备i的发射功率;
所述约束条件具体包括:
WDi在MEC卸载计算模式下的时间约束条件:
Figure FDA0003092685060000021
式中,i∈M1表示选择卸载计算的用户设备的序号,τi表示选择卸载计算的用户设备WDi卸载任务所花费的时间,a表示能量采集所花时间;设信道相干时间T为1,由于采用时分复用方式所以各部分时间之和小于信道相干时间;
WDi在本地计算模式下的能耗约束条件:
Figure FDA0003092685060000022
式中ki为处理器芯片的计算能效系数,fi代表本地处理器的处理速度,ti为执行本地计算任务所需时间,Ei为用户设备在能量采集阶段获得的能量,bi,p为电池在时隙开始时的电量,i∈M0表示选择本地计算的用户设备,此时xi=0;
WDi在MEC卸载计算模式下的能耗约束条件:
Figure FDA0003092685060000023
pi为用户设备WDi的发射功率,Ei为用户设备在能量采集阶段获得的能量,bi,p为电池在时隙开始时的电量,时隙结束后电池电量表示为bi,n,其中p,n用于区分时隙开始时电池电量和时隙结束后的电池电量,i∈M1表示选择卸载计算的用户设备,此时xi=1;
WDi的模式选择约束:
xi={0,1} (5)
xi=1时无线用户设备将任务卸载到边缘服务器,xi=0时无线用户设备进行本地计算。
4.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:在步骤4中,卸载行为的产生依赖于DNN的使用;DNN的特征是其嵌入的参数θ,θ为连接隐藏神经元的权重;在第t个时间帧中,DNN以信道增益ht作为输入,根据θt参数化的当前卸载策略
Figure FDA0003092685060000031
θt为t时刻连接隐藏神经元的权重,输出一个松弛的卸载动作
Figure FDA0003092685060000032
每个条目松弛到0到1之间的连续值,然后将松弛的动作量化为K个二进制卸载动作,当卸载动作为0时代表设备在本地完成计算,否则代表设备将任务卸载至边缘服务器计算。
5.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:在步骤5中,解决卸载计算模式下的资源分配优化问题具体为:通过设置电池电量的门限值对设备发射功率和用户设备计算能力作出预估计,将四变量优化问题转化为二变量优化问题,结合双段搜索算法和拉格朗日乘子法得到最优值。
6.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:在步骤6中,将获得的结果添加到深度强化学习框架的重放存储器中,从存储器中提取一批训练样本来训练,相应地更新其参数,生成新的卸载决策,此后,随着新的信道实现被观察到,通过该种迭代重复以改进卸载策略。
CN202110600956.5A 2021-05-31 2021-05-31 一种基于深度强化学习的无线供电系统的卸载策略方法 Active CN113727362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110600956.5A CN113727362B (zh) 2021-05-31 2021-05-31 一种基于深度强化学习的无线供电系统的卸载策略方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110600956.5A CN113727362B (zh) 2021-05-31 2021-05-31 一种基于深度强化学习的无线供电系统的卸载策略方法

Publications (2)

Publication Number Publication Date
CN113727362A true CN113727362A (zh) 2021-11-30
CN113727362B CN113727362B (zh) 2022-10-28

Family

ID=78672829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110600956.5A Active CN113727362B (zh) 2021-05-31 2021-05-31 一种基于深度强化学习的无线供电系统的卸载策略方法

Country Status (1)

Country Link
CN (1) CN113727362B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114513855A (zh) * 2022-02-23 2022-05-17 齐鲁工业大学 基于无线携能通信的边缘计算卸载决策与资源分配方法
CN114615261A (zh) * 2022-01-25 2022-06-10 浙江工业大学 基于神经网络的无线供能边缘计算网络的任务卸载方法
CN114915627A (zh) * 2022-04-15 2022-08-16 浙江工业大学 一种基于fdma接入的无线供能边缘计算网络卸载决策方法
CN115086316A (zh) * 2022-06-13 2022-09-20 西安电子科技大学 联合优化车辆边缘网络中计算卸载的安全与资源分配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108632860A (zh) * 2018-04-17 2018-10-09 浙江工业大学 一种基于深度强化学习的移动边缘计算速率最大化方法
CN111245651A (zh) * 2020-01-08 2020-06-05 上海交通大学 一种基于功率控制和资源分配的任务卸载方法
US20200296609A1 (en) * 2019-03-12 2020-09-17 Samsung Electronics Co., Ltd. Methods and systems for optimizing processing of application requests

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108632860A (zh) * 2018-04-17 2018-10-09 浙江工业大学 一种基于深度强化学习的移动边缘计算速率最大化方法
US20200296609A1 (en) * 2019-03-12 2020-09-17 Samsung Electronics Co., Ltd. Methods and systems for optimizing processing of application requests
CN111245651A (zh) * 2020-01-08 2020-06-05 上海交通大学 一种基于功率控制和资源分配的任务卸载方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114615261A (zh) * 2022-01-25 2022-06-10 浙江工业大学 基于神经网络的无线供能边缘计算网络的任务卸载方法
CN114615261B (zh) * 2022-01-25 2024-03-26 浙江工业大学 基于神经网络的无线供能边缘计算网络的任务卸载方法
CN114513855A (zh) * 2022-02-23 2022-05-17 齐鲁工业大学 基于无线携能通信的边缘计算卸载决策与资源分配方法
CN114513855B (zh) * 2022-02-23 2024-04-19 齐鲁工业大学 基于无线携能通信的边缘计算卸载决策与资源分配方法
CN114915627A (zh) * 2022-04-15 2022-08-16 浙江工业大学 一种基于fdma接入的无线供能边缘计算网络卸载决策方法
CN114915627B (zh) * 2022-04-15 2024-04-02 浙江工业大学 一种基于fdma接入的无线供能边缘计算网络卸载决策方法
CN115086316A (zh) * 2022-06-13 2022-09-20 西安电子科技大学 联合优化车辆边缘网络中计算卸载的安全与资源分配方法
CN115086316B (zh) * 2022-06-13 2023-03-14 西安电子科技大学 联合优化车辆边缘网络中计算卸载的安全与资源分配方法

Also Published As

Publication number Publication date
CN113727362B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN113727362B (zh) 一种基于深度强化学习的无线供电系统的卸载策略方法
CN110928654B (zh) 一种边缘计算系统中分布式的在线任务卸载调度方法
CN111586696B (zh) 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN110798858B (zh) 基于代价效率的分布式任务卸载方法
Liu et al. Energy-efficient space–air–ground integrated edge computing for internet of remote things: A federated DRL approach
CN109767117B (zh) 移动边缘计算中联合任务调度的功率分配方法
CN111726826A (zh) 一种基站密集型边缘计算网络中的在线任务卸载方法
CN111132191A (zh) 移动边缘计算服务器联合任务卸载、缓存及资源分配方法
CN109756912B (zh) 一种多用户多基站联合任务卸载及资源分配方法
CN110856259A (zh) 移动边缘计算环境中自适应数据块大小的资源分配和卸载方法
CN113286317B (zh) 一种基于无线供能边缘网络的任务调度方法
CN110401936A (zh) 一种基于d2d通信的任务卸载与资源分配方法
CN112416603B (zh) 一种基于雾计算的联合优化系统和方法
CN115396953B (zh) 移动边缘计算中一种基于改进粒子群算法的计算卸载方法
CN114025359B (zh) 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质
Zhang et al. A deep reinforcement learning approach for online computation offloading in mobile edge computing
CN115119234A (zh) 一种无线供能边缘计算网络中无线设备任务处理优化方法
CN114096006B (zh) 移动边缘计算系统中资源分配和数据压缩联合优化方法
CN114521023A (zh) Swipt辅助noma-mec系统资源分配建模方法
CN116761218A (zh) 一种云边端协同系统中的联合优化方法、系统及存储介质
CN115460710B (zh) 基于深度强化学习的车辆边缘计算场景中的智能计算卸载方法
CN116405979A (zh) 一种毫米波移动边缘计算组网资源分配方法
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN113784372B (zh) 一种面向终端多业务模型的联合优化方法
CN113207150B (zh) 一种基于背向散射通信的主被动混合卸载方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant