CN113727362A - 一种基于深度强化学习的无线供电系统的卸载策略方法 - Google Patents
一种基于深度强化学习的无线供电系统的卸载策略方法 Download PDFInfo
- Publication number
- CN113727362A CN113727362A CN202110600956.5A CN202110600956A CN113727362A CN 113727362 A CN113727362 A CN 113727362A CN 202110600956 A CN202110600956 A CN 202110600956A CN 113727362 A CN113727362 A CN 113727362A
- Authority
- CN
- China
- Prior art keywords
- unloading
- time
- reinforcement learning
- task
- deep reinforcement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002787 reinforcement Effects 0.000 title claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 31
- 238000013468 resource allocation Methods 0.000 claims abstract description 13
- 238000010845 search algorithm Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 14
- 238000003306 harvesting Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000005265 energy consumption Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000002040 relaxant effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000004088 simulation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 101150091111 ACAN gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/22—Traffic simulation tools or models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44594—Unloading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0203—Power saving arrangements in the radio access network or backbone network of wireless communication networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0209—Power saving arrangements in terminal devices
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种基于深度强化学习的无线供电系统的卸载策略方法,能够最优化地适应任务卸载决策和无线资源分配,在保证电池寿命的基础上实现系统计算速率和任务成功率的最大化。本方法通过构建一个基于深度强化学习的在线卸载框架将优化问题分解;利用动态自适应调整DROO算法参数的方法解决卸载子问题;通过将双段搜索算法和拉格朗日乘子法结合求解得到最优值;通过设置电池电量的门限值对设备发射功率和用户设备计算能力作出预估计,将四变量优化问题转化为二变量优化问题,结合双段搜索算法和拉格朗日乘子法得到最优值,降低了计算复杂度。
Description
技术领域
本发明涉及计算机无线通信技术领域,具体涉及一种基于深度强 化学习的无线供电系统的卸载策略方法。
背景技术
物联网设备如传感器、摄像机和可穿戴设备等,由于计算能力、 电源和存储器的限制,在支持交互式在线游戏和人脸识别等先进应用 方面存在着计算瓶颈。这个挑战可以通过移动边缘计算(MEC)技术来 解决。在MEC技术中,移动设备将计算任务卸载到物联网设备的无 线接入中的MEC设备,如基站、接入点(Access Point,AP)、笔记本电 脑和智能手机。通过利用MEC设备的计算、缓存和功率资源,计算 卸载可以减少计算延迟,节省电池寿命,甚至提高计算密集型物联网 应用的安全性。能量收集元件是另一种有希望延长电池寿命并为物联 网设备提供满意质量体验的技术。由于无线功率传输(Wireless PowerTransmission,WPT)技术的最新进展,无线设备(Wireless Device,WD) 的电池可以在空中连续充电,而无需更换电池。同时随着移动边缘计 算技术的发展,可以将无线设备中一些高运算力的任务卸载到边缘服 务器。这两种技术的发展,使无线设备突破了其使用时间短和计算能 力低的限制。
MEC使得任务处理变得高效,有大量文献研究了MEC技术。这 些文献大多通过优化任务分配或资源分配来最小化能耗或最大化计 算效率,如Dynamic Task Offloading andScheduling for Low-Latency IoT Services in Multi-Access Edge Computing;Dynamic Resource and TaskAllocation for Energy Minimization in Mobile CloundSystems; Mobile Edge Computing:A survey),并没有考虑平衡用户设备的计算 量,会导致信道资源较差的用户设备无法完成计算任务,造成任务成 功率的下降,同时并没有考虑电池损耗问题,在计算密集型系统中, 频繁的深度充放电会对电池造成较大伤害,使电池的寿命极低。
发明内容
针对上述问题,本发明提出一种基于深度强化学习的无线供电系 统的卸载策略方法,以无线信道的时变性为基础对边缘无线网络进行 建模。构建在保证智能终端电池寿命基础下的网络计算速率和任务成 功率最大化问题。采用基于深度强化学习理论框架下的在线卸载算 法,并将联合优化问题转化为二进制卸载等子问题,设计联合优化任 务卸载决策和无线资源分配方案。通过利用合理的无线资源分配和卸 载决策,实现了在保证电池寿命的基础上达到网络计算速率和任务成 功率的最大化。
基于深度强化学习的无线供电系统的卸载策略方法,具体步骤包 括如下:
步骤1,建立能量采集环境下的多用户MEC系统模型;
步骤2,将多用户MEC系统模型转化为优化问题;
步骤3,将优化问题根据能量采集模式、本地计算模式和MEC 卸载计算模式分解成三个子问题用以后续求解;
步骤4,构建深度强化学习框架,根据信道增益判断请求设备是 否在本地完成计算任务,若是,则选择本地计算模式,计算完成后流 程结束;若否,则继续执行后续步骤;
步骤5,选择卸载计算模式,再解决卸载计算模式下的资源分配 优化问题。
步骤6,将获得的结果添加到深度强化学习框架的重放存储器中 进行迭代。
进一步地,在步骤1中,所建立能量采集环境下的多用户MEC 系统模型包括一个集成无线供电传输功能和边缘服务器的混合接入 点、N个请求设备。
进一步地,在步骤2中,所述建立的优化问题具体包括目标函数 和约束条件;
其中,所述目标函数是:
式(1)为求出无线系统中计算的最大收益值,其中,po,i为卸载计 算产生的收益;pL,i为本地计算产生的收益;h表示信道增益;xi表示 设备i的卸载动作,xi=1表示将任务卸载至边缘服务器,此时设备 i∈M1,xi=0表示将任务在本地进行计算,此时设备i∈M0;a表示 设备i能量采集的时间;τi表示卸载情况下设备i的卸载时间;fi表示本 地计算时设备i计算速度;pi表示卸载计算时设备设备i的发射功率;
所述约束条件具体包括:
WDi在MEC卸载计算模式下的时间约束条件:
式中,i∈M1表示选择卸载计算的用户设备的序号,τi表示选择卸 载计算的用户设备WDi卸载任务所花费的时间,a表示能量采集所花 时间;设信道相干时间T为1,由于采用时分复用方式所以各部分时 间之和小于信道相干时间;
WDi在本地计算模式下的能耗约束条件:
式中ki为处理器芯片的计算能效系数,fi代表本地处理器的处理 速度,ti为执行本地计算任务所需时间,Ei为用户设备在能量采集阶 段获得的能量,bi,p为电池在时隙开始时的电量,i∈M0表示选择本地 计算的用户设备,此时xi=0;
WDi在MEC卸载计算模式下的能耗约束条件:
pi为用户设备WDi的发射功率,Ei为用户设备在能量采集阶段获 得的能量,bi,p为电池在时隙开始时的电量,时隙结束后电池电量表 示为bi,n,其中p,n用于区分时隙开始时电池电量和时隙结束后的电池 电量,i∈M1表示选择卸载计算的用户设备,此时xi=1;
WDi的模式选择约束:
xi={0,1} (5)
xi=1时无线用户设备将任务卸载到边缘服务器,xi=0时无线 用户设备进行本地计算。
进一步地,在步骤4中,卸载行为的产生依赖于DNN的使用, DNN的特征是其嵌入的参数θ,θ为连接隐藏神经元的权重;在第t 个时间帧中,DNN以信道增益ht作为输入,根据θt参数化的当前卸 载策略θt为t时刻连接隐藏神经元的权重,输出一个松弛的卸载 动作每个条目松弛到0到1之间的连续值,然后将松弛的动作量 化为K个二进制卸载动作,当卸载动作为0时代表设备在本地完成 计算,否则代表设备将任务卸载至边缘服务器计算。
进一步地,在步骤5中,解决卸载计算模式下的资源分配优化问 题具体为:通过设置电池电量的门限值对设备发射功率和用户设备计 算能力作出预估计,将四变量优化问题转化为二变量优化问题,结合 双段搜索算法和拉格朗日乘子法得到最优值。
进一步地,在步骤6中,将获得的结果添加到深度强化学习框架 的重放存储器中,从存储器中提取一批训练样本来训练,相应地更新 其参数,生成新的卸载决策,此后,随着新的信道实现被观察到,通 过该种迭代重复以改进卸载策略。
本发明的有益效果是:将WPT技术应用于卸载策略,充分考虑了 系统计算效率,任务成功率和电池电量的变化以及无线用户和边缘服 务器之间的无线通信环境,提出了一个基于深度强化学习的联合卸载 调度解决方案;通过设置电池电量的门限值对设备发射功率和用户设 备计算能力作出预估计,将四变量优化问题转化为二变量优化问题, 结合双段搜索算法和拉格朗日乘子法得到最优值,降低了计算复杂 度;利用了深度强化学习和拆分成子问题的方法提升所提算法的收敛 性能和训练效率。首先,使用基于深度强化学习的在线算法框架来设 计和训练算法,保证算法的可靠性和稳定性。其次,将原始问题转化为三个子问题,降低了计算的收敛时间同时避免了维数灾难问题。
附图说明
图1是本发明实施例中的流程示意图。
图2是本发明实施例中关于MEC卸载和资源分配算法框架图。
图3是本发明实施例中不同用户设备在不同计算模式下的计算 速率图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
为了更清楚地说明本发明的技术方案,下面结合附图对本发明的 技术方案做进一步的详细说明:如图1所述;对于步骤1:图1展示 了本发明的系统模型,模型中存在着两种设备分别是:一个集成无线 供电传输功能和边缘服务器的混合接入点,N个请求设备。在一个 MEC无线网络中包含N个无线可充电设备WDi和一个混合接入点AP, 其中N表示为集合N={1,…,N}。AP是一个带有稳定电源和充足计 算能力的服务器,可以向每个WD广播能量。每个WD都携带有电池 装置,可以存储服务器的射频能量,将其用于自身的计算和传输。WDi根据信道条件和自身能源决定将任务卸载到AP端计算还是在本地计 算。使用两个互斥集M0和M0来表示分别在模式0和模式1中运行的 WDS(s表示复数,表示多个用户设备)的索引,因此M=M0∪M1= {1,…,N}是所有WDS的集合。
将AP对每个设备执行一次操作的时间设置为T,T为固定的时 间长度,但T必须小于信道的相干时间以保证在每个T时间内无线 信道的信道增益都不会改变。为了避免相互干扰,每个WD的通信和 能量收集电路以时分多路复用(Time-Division-Multiplexing,TDD)方式 运行。电路结构也采用了类似的TDD电路,实现了与WDS的能量传 输和通信分离。时隙T可以分为三个部分,分别是aT,a∈[0,1],为 AP将能量广播到WD的时间,τiT为WDi将任务卸载到AP的时间, σiT为AP将处理后的任务传回WDi的时间,σ2T为AP将处理后的 任务传回WD2的时间。由于AP处理后的数据量很小所以σ1T,σ2T (σ1T是AP将处理后的任务传回WD1的时间)可以忽略不记。此外, 考虑到深度充放电对电池造成的损害,应该尽量使电池中的电量不低 于最大电量的20%。
进一步的,在步骤2中,所述建立的优化问题具体包括目标函数 和约束条件;
其中,所述的目标函数是:
式(1)为求出无线系统中计算的最大收益值,其中po,i为卸载计算 产生的收益,pL,i为本地计算产生的收益。
h,xi,a,τi,fi,pi分别表示信道增益;设备i的卸载动作,xi=1表 示将任务卸载至边缘服务器,此时设备i∈M1,xi=0表示将任务在 本地进行计算,此时设备i∈M0;设备i能量采集的时间;卸载情况下 设备i的卸载时间;本地计算时设备i计算频率和卸载计算时设备设备i 的发射功率。
所述的约束条件具体包括:
一、WDi在MEC卸载计算模式下的时间约束条件是:
式中,i∈M1表示选择卸载计算的用户设备,τi表示选择卸载计算 的用户设备WDi卸载任务所花费的时间,a表示能量采集所花时间。 假设信道相干时间T为1,由于采用时分复用方式所以各部分时间之 和小于信道相干时间。
二、WDi在本地计算模式下的能耗约束条件是:
式中ki为处理器芯片的计算能效系数,fi代表本地处理器的处理 速度,ti为执行本地计算任务所需时间,Ei为用户设备在能量采集阶 段获得的能量,bi,p为电池的在时隙开始时的电量,i∈M0表示选择本 地计算的用户设备。
三、WDi在MEC卸载计算模式下的能耗约束条件是:
pi为用户设备WDi的发射功率,Ei为用户设备在能量采集阶段获 得的能量,bi,p为电池的在时隙开始时的电量。
三、WDi的模式选择约束是:
xi={0,1} (5)
xi=1时无线用户设备将任务卸载到边缘服务器,xi=0时无线 用户设备进行本地计算。
对于步骤2:目标函数是为卸载计算产生的收益和本地计算产生 的收益之和。
具体的,能量采集阶段本地设备获得的能量为:
Ei=μphiaT (6)
其中μ∈(0,1)表示能量收获效率,P表示AP发射功率。利用收 集的能量,每个WD需要在一个时间框架结束之前完成一个优先级计 算任务。hi对应代表第i个设备的信道增益,T为信道相干时间。
本地计算时本地计算速度为:
WD在本地执行计算任务的同时,也能收到AP广播给它的能量 Ei。假设当前设备中电池电量表示为bi,p,电池的最大容量为bmax,li表示为WDi在当前时隙开始时产生的任务比特数,fi≤fmax代表本地 处理器的处理速度,可以表示为1秒钟CPU的周期数,0≤ti≤t为执行本地计算任务所需时间,为处理1bit任务所需周期数。所以ti时 间内本地计算处理的任务量为当时任务被视为丢弃,消耗 的能量为其中ki为处理器芯片的计算能效系数。
本地计算产生的收益为:
本地计算产生的收益为本地计算速率与为了防止电池深度放电 产生的惩罚之和,当电池电量小于20%时,系统会产生一个惩罚,惩 罚因子为γ。式中β也为惩罚因子,代表任务被丢弃产生的惩罚。
卸载计算时系统的传输速率为:
其中B表示通信带宽,N0表示接收器噪声功率。vu>1表示任务 分流中的通信开销,例如数据包头和加密。pi表示第i个WD的发射 功率。
卸载计算产生的收益是:
式(6)中,为卸载计算时的传输速率,ρI(lo,i<li) 为当设备没有成功完成任务产生的惩罚,γI(pi>0.8((Ei+bi,p))为当 电池消耗的电量超过总电量80%时产生的惩罚,其中惩罚因子分别为 λ,γ。
综上,本发明优化问题表述为:
pi≤(Ei+bi,p) (11d)
ci={0,1} (11e)
π:h→x* (12)
如图3所示,该框架由卸载动作生成和卸载策略更新两个交替阶 段组成。卸载行为的产生依赖于DNN的使用,DNN的特征是其嵌入 的参数θ,例如连接隐藏神经元的权重。在第t个时间帧中,DNN以 信道增益ht作为输入,根据θt参数化的当前卸载策略输出一个松 弛的卸载动作(每个条目松弛到0到1之间的连续值),然后将松 弛的动作量化为K个二进制卸载动作,最后通过计算资源分配方案 的可实现计算速率选择一个最佳动作相应的作为ht的解 输出,网络采取卸载动作接收奖励,并将新获得的状态动作对添加到重放存储器中。
在第t时间帧的策略更新阶段,从存储器中提取一批训练样本来 训练DNN,DNN相应地将其参数从θt更新为θt+1(相当于卸载策略 )。在下一时间帧中使用新的卸载策略根据观测到的新信 道ht+1生成卸载决策此后,随着新的信道实现被观察到,这样 的迭代重复,并且DNN的策略被逐渐改进。
进一步的,在步骤5中,解决卸载计算模式下的资源分配优化问 题使用的方法是通过设置电池电量的门限值对设备发射功率和用户 设备计算能力作出预估计,将四变量优化问题转化为二变量优化问 题,结合双段搜索算法和拉格朗日乘子法得到最优值,具体操作步骤 如下。
s.t(11b)(11c)(11d)(11f)
参考文献(Computation Rate Maximization for Wireless Powered Mobile-Edge Computing With Binary Computation Offlfloading)可知时取得本地计算最优值,时取得卸载计算最优值, 则系统总收益变为:
s.t(11b)(11c)(11d)(11f)
式中v为拉格朗日乘子。
对应的对偶函数为:
计算得到:
其中,
在式(21)中,通过对进行双段搜索,可以有效地得到最优 的v,从而找到满足条件的唯一v,其中是一个足够大的值。既然获 得了最优v*,那么可以使用(18)和(20)直接计算最优{a*,τ*}。由于凸 性,原始最优值和对偶最优值是相同的。
若考虑电池电量和任务成功率的因素,当由于设置了电池消耗电 量的最高门限值为0.8bmax,因此可以将取值框定在电池耗能的 [0.8-1.0]之间然后取分辨率为0.01均匀遍历电池耗能[0.8-1.0]的值得 到m个候选取值fm和pm。将fm,pm代入式(18)的通过双段搜 索算法得出最佳值。
具体所述:如图3所述,图3总共展示了3种不同数量的设备在 3种不同方案下的计算速率的仿真结果比较,三种方案为:1)、本 地计算模式,2)、卸载计算模式,3)、本发明提出的计算方案。
仿真的参数设置如下所示:AP的发射功率为3w,能量转换效率 为0.7,AP发送能量的能量转化效率μ=0.51。信道在一个时隙内保持 静态,在不同时间段遵循自由空间路径损耗模型其中Ad=4.11为天线增益,fc=915MHZ表示载波频率,de=2.8表示路径损耗指数,电池最大电量bmax=15,电池的初始值为最大 电量的一半。假设处理器芯片的计算能效系数相等,为ki=10-26,i= 1…N。对于所有的用户,处理1bit任务所需周期数为100,数据卸 载时的传输带宽B为2MHZ,接收端的噪声功率为N0=10-10,Vu= 1.1。仿真平台为一台带有2.1GHZ的处理器和16GB内存的笔记本电 脑。
图3比较了不同卸载算法在不同无线用户设备数目下的计算速 率性能,实验结果表明,该算法具有近似最优的性能,明显优于边缘 计算和局部计算算法。
综上所述本发明研究了多用户二进制卸载计算结构下的卸载策 略与资源分配联合优化方案,考虑了系统吞吐量、任务丢弃率与电池 损耗,提出了以最大化系统总收益为目标的优化问题,并使用深度强 化学习为计算框架实现了对该优化问题的求解。首先根据信道增益通 过DNN神经网络算法得出卸载松弛变量,并采用保序量化算法得出 一组卸载方案,然后对卸载发送功率和本地处理速率作预估计得出一 组候选值并通过二分搜索算法得出最佳资源分配方案,最后迭代比较 不同卸载方案下的系统收益值,确定出系统最大收益值和最佳卸载方 案。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以 上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容 所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
Claims (6)
1.基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:具体步骤包括如下:
步骤1,建立能量采集环境下的多用户MEC系统模型;
步骤2,将多用户MEC系统模型转化为优化问题;
步骤3,将优化问题根据能量采集模式、本地计算模式和MEC卸载计算模式分解成三个子问题用以后续求解;
步骤4,构建深度强化学习框架,根据信道增益判断请求设备是否在本地完成计算任务,若是,则选择本地计算模式,计算完成后流程结束;若否,则继续执行后续步骤;
步骤5,选择卸载计算模式,再解决卸载计算模式下的资源分配优化问题。
步骤6,将获得的结果添加到深度强化学习框架的重放存储器中进行迭代。
2.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:在步骤1中,所建立能量采集环境下的多用户MEC系统模型包括一个集成无线供电传输功能和边缘服务器的混合接入点、N个请求设备。
3.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:在步骤2中,所述建立的优化问题具体包括目标函数和约束条件;
其中,所述目标函数是:
式(1)为求出无线系统中计算的最大收益值,其中,po,i为卸载计算产生的收益;pL,i为本地计算产生的收益;h表示信道增益;xi表示设备i的卸载动作,xi=1表示将任务卸载至边缘服务器,此时设备i∈M1,xi=0表示将任务在本地进行计算,此时设备i∈M0;a表示设备i能量采集的时间;τi表示卸载情况下设备i的卸载时间;fi表示本地计算时设备i计算速度;pi表示卸载计算时设备i的发射功率;
所述约束条件具体包括:
WDi在MEC卸载计算模式下的时间约束条件:
式中,i∈M1表示选择卸载计算的用户设备的序号,τi表示选择卸载计算的用户设备WDi卸载任务所花费的时间,a表示能量采集所花时间;设信道相干时间T为1,由于采用时分复用方式所以各部分时间之和小于信道相干时间;
WDi在本地计算模式下的能耗约束条件:
式中ki为处理器芯片的计算能效系数,fi代表本地处理器的处理速度,ti为执行本地计算任务所需时间,Ei为用户设备在能量采集阶段获得的能量,bi,p为电池在时隙开始时的电量,i∈M0表示选择本地计算的用户设备,此时xi=0;
WDi在MEC卸载计算模式下的能耗约束条件:
pi为用户设备WDi的发射功率,Ei为用户设备在能量采集阶段获得的能量,bi,p为电池在时隙开始时的电量,时隙结束后电池电量表示为bi,n,其中p,n用于区分时隙开始时电池电量和时隙结束后的电池电量,i∈M1表示选择卸载计算的用户设备,此时xi=1;
WDi的模式选择约束:
xi={0,1} (5)
xi=1时无线用户设备将任务卸载到边缘服务器,xi=0时无线用户设备进行本地计算。
5.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:在步骤5中,解决卸载计算模式下的资源分配优化问题具体为:通过设置电池电量的门限值对设备发射功率和用户设备计算能力作出预估计,将四变量优化问题转化为二变量优化问题,结合双段搜索算法和拉格朗日乘子法得到最优值。
6.根据权利要求1所述的基于深度强化学习的无线供电系统的卸载策略方法,其特征在于:在步骤6中,将获得的结果添加到深度强化学习框架的重放存储器中,从存储器中提取一批训练样本来训练,相应地更新其参数,生成新的卸载决策,此后,随着新的信道实现被观察到,通过该种迭代重复以改进卸载策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110600956.5A CN113727362B (zh) | 2021-05-31 | 2021-05-31 | 一种基于深度强化学习的无线供电系统的卸载策略方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110600956.5A CN113727362B (zh) | 2021-05-31 | 2021-05-31 | 一种基于深度强化学习的无线供电系统的卸载策略方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113727362A true CN113727362A (zh) | 2021-11-30 |
CN113727362B CN113727362B (zh) | 2022-10-28 |
Family
ID=78672829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110600956.5A Active CN113727362B (zh) | 2021-05-31 | 2021-05-31 | 一种基于深度强化学习的无线供电系统的卸载策略方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113727362B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114513855A (zh) * | 2022-02-23 | 2022-05-17 | 齐鲁工业大学 | 基于无线携能通信的边缘计算卸载决策与资源分配方法 |
CN114615261A (zh) * | 2022-01-25 | 2022-06-10 | 浙江工业大学 | 基于神经网络的无线供能边缘计算网络的任务卸载方法 |
CN114915627A (zh) * | 2022-04-15 | 2022-08-16 | 浙江工业大学 | 一种基于fdma接入的无线供能边缘计算网络卸载决策方法 |
CN115086316A (zh) * | 2022-06-13 | 2022-09-20 | 西安电子科技大学 | 联合优化车辆边缘网络中计算卸载的安全与资源分配方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108632860A (zh) * | 2018-04-17 | 2018-10-09 | 浙江工业大学 | 一种基于深度强化学习的移动边缘计算速率最大化方法 |
CN111245651A (zh) * | 2020-01-08 | 2020-06-05 | 上海交通大学 | 一种基于功率控制和资源分配的任务卸载方法 |
US20200296609A1 (en) * | 2019-03-12 | 2020-09-17 | Samsung Electronics Co., Ltd. | Methods and systems for optimizing processing of application requests |
-
2021
- 2021-05-31 CN CN202110600956.5A patent/CN113727362B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108632860A (zh) * | 2018-04-17 | 2018-10-09 | 浙江工业大学 | 一种基于深度强化学习的移动边缘计算速率最大化方法 |
US20200296609A1 (en) * | 2019-03-12 | 2020-09-17 | Samsung Electronics Co., Ltd. | Methods and systems for optimizing processing of application requests |
CN111245651A (zh) * | 2020-01-08 | 2020-06-05 | 上海交通大学 | 一种基于功率控制和资源分配的任务卸载方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615261A (zh) * | 2022-01-25 | 2022-06-10 | 浙江工业大学 | 基于神经网络的无线供能边缘计算网络的任务卸载方法 |
CN114615261B (zh) * | 2022-01-25 | 2024-03-26 | 浙江工业大学 | 基于神经网络的无线供能边缘计算网络的任务卸载方法 |
CN114513855A (zh) * | 2022-02-23 | 2022-05-17 | 齐鲁工业大学 | 基于无线携能通信的边缘计算卸载决策与资源分配方法 |
CN114513855B (zh) * | 2022-02-23 | 2024-04-19 | 齐鲁工业大学 | 基于无线携能通信的边缘计算卸载决策与资源分配方法 |
CN114915627A (zh) * | 2022-04-15 | 2022-08-16 | 浙江工业大学 | 一种基于fdma接入的无线供能边缘计算网络卸载决策方法 |
CN114915627B (zh) * | 2022-04-15 | 2024-04-02 | 浙江工业大学 | 一种基于fdma接入的无线供能边缘计算网络卸载决策方法 |
CN115086316A (zh) * | 2022-06-13 | 2022-09-20 | 西安电子科技大学 | 联合优化车辆边缘网络中计算卸载的安全与资源分配方法 |
CN115086316B (zh) * | 2022-06-13 | 2023-03-14 | 西安电子科技大学 | 联合优化车辆边缘网络中计算卸载的安全与资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113727362B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113727362B (zh) | 一种基于深度强化学习的无线供电系统的卸载策略方法 | |
CN110928654B (zh) | 一种边缘计算系统中分布式的在线任务卸载调度方法 | |
CN111586696B (zh) | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 | |
CN110798858B (zh) | 基于代价效率的分布式任务卸载方法 | |
Liu et al. | Energy-efficient space–air–ground integrated edge computing for internet of remote things: A federated DRL approach | |
CN109767117B (zh) | 移动边缘计算中联合任务调度的功率分配方法 | |
CN111726826A (zh) | 一种基站密集型边缘计算网络中的在线任务卸载方法 | |
CN111132191A (zh) | 移动边缘计算服务器联合任务卸载、缓存及资源分配方法 | |
CN109756912B (zh) | 一种多用户多基站联合任务卸载及资源分配方法 | |
CN110856259A (zh) | 移动边缘计算环境中自适应数据块大小的资源分配和卸载方法 | |
CN113286317B (zh) | 一种基于无线供能边缘网络的任务调度方法 | |
CN110401936A (zh) | 一种基于d2d通信的任务卸载与资源分配方法 | |
CN112416603B (zh) | 一种基于雾计算的联合优化系统和方法 | |
CN115396953B (zh) | 移动边缘计算中一种基于改进粒子群算法的计算卸载方法 | |
CN114025359B (zh) | 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质 | |
Zhang et al. | A deep reinforcement learning approach for online computation offloading in mobile edge computing | |
CN115119234A (zh) | 一种无线供能边缘计算网络中无线设备任务处理优化方法 | |
CN114096006B (zh) | 移动边缘计算系统中资源分配和数据压缩联合优化方法 | |
CN114521023A (zh) | Swipt辅助noma-mec系统资源分配建模方法 | |
CN116761218A (zh) | 一种云边端协同系统中的联合优化方法、系统及存储介质 | |
CN115460710B (zh) | 基于深度强化学习的车辆边缘计算场景中的智能计算卸载方法 | |
CN116405979A (zh) | 一种毫米波移动边缘计算组网资源分配方法 | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 | |
CN113784372B (zh) | 一种面向终端多业务模型的联合优化方法 | |
CN113207150B (zh) | 一种基于背向散射通信的主被动混合卸载方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |