CN116321181A - 一种多无人机辅助边缘计算的在线轨迹及资源优化方法 - Google Patents
一种多无人机辅助边缘计算的在线轨迹及资源优化方法 Download PDFInfo
- Publication number
- CN116321181A CN116321181A CN202310068530.9A CN202310068530A CN116321181A CN 116321181 A CN116321181 A CN 116321181A CN 202310068530 A CN202310068530 A CN 202310068530A CN 116321181 A CN116321181 A CN 116321181A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- user
- aerial vehicle
- dqn
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000005457 optimization Methods 0.000 title claims abstract description 49
- 238000005265 energy consumption Methods 0.000 claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 230000007774 longterm Effects 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 27
- 230000002787 reinforcement Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 230000033001 locomotion Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 239000003990 capacitor Substances 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000004148 unit process Methods 0.000 abstract 2
- 230000008901 benefit Effects 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 239000010432 diamond Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 241000284212 Euproctis actor Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010420 art technique Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/02—Resource partitioning among network components, e.g. reuse partitioning
- H04W16/10—Dynamic resource partitioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
- H04B7/18506—Communications with or from aircraft, i.e. aeronautical mobile service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/22—Traffic simulation tools or models
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出了一种多无人机辅助边缘计算的在线轨迹及资源优化方法,根据用户关联约束条件,无人机飞行约束条件,子信道分配约束条件以及任务完成总时延约束条件,在动态环境马尔可夫模型下,使用所提出的HDRT算法处理优化变量,其中DDPG单元处理无人机轨迹,DQN单元处理用户决策和子信道分配,以获得最小的长期平均用户加权能耗;本发明提高了用户的上传链路速率,进而降低了用户的能耗和时延,解决了众多参数难以同时在线优化的问题,容易扩展到各种系统场景,用户可以灵活地进行卸载决策,同时无人机进行轨迹优化,为用户更好地提供服务。
Description
技术领域
本发明涉及一种在线轨迹及资源优化方法,特别是一种多无人机辅助边缘计算的在线轨迹及资源优化方法。
背景技术
移动边缘计算技术弥补了移动设备有限的资源与移动应用程序爆炸式增长的计算需求之间的差距。移动设备能够将其计算任务卸载到与基站关联的MEC服务器上,从而降低延迟和功耗,延长移动设备的电池寿命,这解决了移动设备在延时约束下的资源受限问题,从而获得更好的用户体验。然而,在通信设施稀疏分布或发生突发自然灾害的情况下,固定基础设施提供的MEC服务不能有效地工作,这看出MEC系统的灵活性较差。
最近,无人机通信由于其在高度可控机动性方面的优势和飞行灵活性,在军事和民用应用中得到了广泛的研究。此外,无人机可以很好地配备MEC服务器。因此,无人机辅助MEC系统已被提出以弥补固定基站MEC系统的缺陷。在具有计算密集型任务的场景中,该系统为用户提供边缘计算服务以提高能源效率。在实际场景中,通过优化无人机的轨迹,可以提升相应卸载用户的上行链路数据速率,进而减少用户的能耗和延迟。论文“JointOffloading and Trajectory Design for UAV-Enabled Mobile Edge ComputingSystems”(IEEE Internet of Things Journal,vol.6,no.2,pp.1879-1892,April2019)联合优化无人机的飞行轨迹,计算卸载和用户调度,开发了一种基于惩罚的双重分解优化框架的算法,实验减少了无人机辅助MEC系统中用户的处理时延。但该论文只在场景中考虑了一架无人机,而没有考虑多无人机的场景。而论文“Optimization of Task Schedulingand Dynamic Service Strategy for Multi-UAV-Enabled Mobile-Edge ComputingSystem”(IEEE Transactions on Cognitive Communications and Networking,vol.7,no.3,pp.970-984,Sept.2021)基于传统优化方法,考虑了多无人机辅助的MEC系统中的任务调度和动态服务策略的两层优化,以最大限度地减少用户的总能耗。
对于无人机辅助的MEC系统下的问题,多无人机相较单无人机,状态和动作空间更大,采用传统优化方法处理,在状态和动作空间维度较大的情况下,导致求解比较难,也不容易收敛,并且基于凸优化的方法不能动态地卸载。因此,受到人工智能技术应用的启发,论文“Deep Reinforcement Learning based dynamic trajectory control for UAV-assisted Mobile Edge Computing”(IEEE Transactions on Mobile Computing,vol.21,no.10,pp.3536-3550,1 Oct.2022)利用DDPG算法和匹配算法分别处理无人机的轨迹、用户决策和无人机计算资源分配问题,但是该论文并没有将离散变量和连续变量同时用深度强化学习处理,同时没有考虑信道的分配。
现有研究大多基于传统优化的方法,使用了复杂的数学公式和数值优化技术,难以真正解决多变量实时联合优化问题。而在动态环境下,单一的强化学习算法又很难解决混合决策的多无人机辅助MEC场景中的问题,因此,亟需开发一种可以处理多无人机辅助的MEC系统中的动态轨迹优化和计算卸载问题的方案。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种多无人机辅助边缘计算的在线轨迹及资源优化方法。
为了解决上述技术问题,本发明公开了一种多无人机辅助边缘计算的在线轨迹及资源优化方法,包括如下步骤:
步骤1,构建多用户多无人机的移动边缘计算模型;
所述模型中包含N个用户和M个无人机,每个无人机都配备基站;用户的计算任务在用户本地或卸载到无人机上进行处理;
步骤2,根据无人机的运动轨迹,获取无人机的位置,并且计算任意两架无人机的位置,避免碰撞;
步骤3,根据不同的卸载方案,分别构建卸载计算模型和本地计算模型;
步骤4,构建优化问题,优化目标是最小化长期平均用户加权能耗;得到用户的加权能耗;
步骤5,在所述多用户多无人机的移动边缘计算模型中,根据无人机的位置,用户的计算任务,用户的卸载决策和子信道分配以及获取的用户加权能耗,建立马尔可夫过程;
步骤6,根据步骤5中建立的马尔可夫过程,利用混合决策深度强化学习算法优化所述多用户多无人机的移动边缘计算模型,利用DDPG和DQN分别处理优化问题中的连续变量和离散变量,得到无人机的飞行动作以及用户的卸载决策和子信道的分配;
步骤7,判断混合决策深度强化学习算法是否收敛,若是,则执行步骤8,否则,增加训练迭代次数并继续训练所述多用户多无人机的移动边缘计算模型;
步骤8,测试混合决策深度强化学习算法收敛后的性能,完成多无人机辅助边缘计算的在线轨迹及资源优化。
有益效果:
第一,固定基站的MEC的系统性能难以获得保证,本发明将无人机引入MEC系统,提高了MEC系统的灵活性,提高了用户的上传链路速率,进而降低了用户的能耗和时延。
第二,本发明首次在无人机辅助的MEC系统中引入混合深度强化学习算法(HDRT算法)的框架,相比于传统的优化方法,解决了众多参数难以同时在线优化的问题,提出的HDRT算法不需要使用复杂的数学公式和数值优化技术,很容易扩展到各种系统场景。
第三,本发明在无人机辅助的MEC系统中考虑所有用户的加权能耗和,考虑联合优化用户决策,子信道分配,无人机轨迹优化和资源分配,用户可以灵活地进行卸载决策,同时无人机进行轨迹优化,为用户更好地提供服务。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的流程示意图。
图2是本发明的系统模型示意图。
图3是本发明的算法结构示意图。
图4是本发明的HDRT算法中DDPG单元和DQN单元的收敛示意图。
图5是本发明算法收敛后的无人机轨迹示意图。
图6是本发明和现有其他技术在不同任务量下的用户加权能耗对比示意图。
图7是本发明和现有其他技术在不同无人机计算资源下的用户加权能耗对比示意图。
图8是本发明和现有其他技术在不同子信道个数下的用户加权能耗对比示意图。
具体实施方式
本发明提出了一种多无人机辅助边缘计算的在线轨迹及资源优化方法,如图1所示,包括如下步骤:
步骤1,构建多用户多无人机的移动边缘计算模型。
如图2所示,模型中包含N个用户和M个无人机,由集合n∈Ns={1,2,...,N}和m∈Ms={1,2,...,M}表示。每个无人机配备移动边缘计算(Mobile Edge Computing,MEC)基站。设置T个时隙,由集合t∈Ts={1,2,...,T}表示,设置N个用户和M个无人机的初始位置。N个用户和M个无人机的分布进行如下定义:所有通信节点建立三维笛卡尔坐标系,部署N个地面用户,设置用户n在时隙t产生任务
An(t)={Dn(t),Fn(t)}
其中Dn(t)表示当用户选择卸载任务时需要传输到无人机的数据的大小,Fn(t)表示执行此任务所需的CPU周期的总数。an,m(t)={0,1},其中,an,m(t)=1,m≠0表示在第t个时隙,第n个用户决定将任务卸载到第m个无人机上,an,m(t)=1,m=0和an,m(t)=0表示在第t个时隙,第n个用户决定本地执行任务。
步骤2,根据无人机的运动轨迹,获取无人机的位置,并且计算任意两架无人机的位置,以避免碰撞。
固定高度的无人机配备MEC基站可以接收信号,第m个无人机的初始坐标为[Xm(0),Ym(0),Zm],在时隙t,第m个UAV的飞行动作由飞行角度θm(t)∈[0,θmax)和飞行距离dm(t)∈[0,dmax]决定,其中θmax表示无人机可转动的最大角度,dmax表示无人机可飞行的最大距离,则第m个UAV的坐标表示为
和
在时隙t,第m个UAV和第m′个UAV的距离表达式为
步骤3,根据不同的卸载方案,分别构建卸载计算模型和本地计算模型。
第n个用户的坐标表示为[xn,yn],如果在时隙t,第n个用户选择卸载任务到第m个无人机上,则用户n与对应无人机m的水平距离表示为
在计算卸载过程中,本发明应用正交频分复用(Orthogonal Frequency DivisionMultiplexing,OFDM)方案,将信道分为若干带宽相同的个子信道,子信道分配指示变量用δn,k(t)∈{0,1}表示,δn,k(t)=1表示第k个子信道被分配给第n个用户,否则δn,k(t)=0,然后得到第n个用户对应第m个无人机的上行数据速率,可表示为
如果在时隙t,第n个用户选择卸载计算到第m个无人机上,花费的总时间表示为
其中fmax是每个时隙无人机可提供给用户的最大计算资源。忽略了无人机将计算结果返回给用户的时间。则第n个用户卸载数据到第m个无人机的卸载计算总的能耗表示为
如果在时隙t,第n个用户选择本地计算,则本地计算花费的时间表示为
为了便于统计,卸载总时间表示为
步骤4,目标是最小化长期平均用户加权能耗,构建优化问题。
长期平均用户加权能耗最小化表示为:
约束条件为:
其中,Cmax表示每架无人机可服务的最大用户数量。θmax表示无人机可转动的最大角度。dmax表示无人机可飞行的最大距离。Rmax表示限定的矩形区域最大边界值。Rmin表示任意两架无人机之间的最小距离。K表示每个用户可占用的最大子信道个数。Tmax表示每个任务完成的最大时延允许。
步骤5,根据无人机辅助的MEC系统中的无人机的位置,用户的计算任务,用户的卸载决策和子信道分配以及获取的用户加权能耗,建立马尔可夫过程。
建立马尔可夫过程为:
状态空间S:环境中的状态分为输入深度确定性策略梯度(Deep DeterministicPolicy Gradient,DDPG)的状态和输入深度Q网络(Deep Q Network,DQN)的状态/>输入DDPG的状态包含了无人机位置,输入DQN的状态包含了无人机位置和用户的任务量。
即时奖励r:考虑到用户的加权上传能耗和无人机的碰撞,DDPG单元奖励定义为
步骤6,如图3所示,利用所提出的混合决策深度强化学习算法(HDRT算法),利用DDPG(参考:论文“Deep Reinforcement Learning based dynamic trajectory controlfor UAV-assisted Mobile Edge Computing”(IEEE Transactions on MobileComputing,vol.21,no.10,pp.3536-3550,1 Oct.2022))和DQN(参考:论文“Semi-Distributed Resource Management in UAV-Aided MEC Systems:A Multi-AgentFederated Reinforcement Learning Approach”(IEEE Transactions on VehicularTechnology,vol.70,no.12,pp.13162-13173,Dec.2021))分别处理优化问题中的连续变量和离散变量;
步骤6.2,初始化DDPG单元中的actor网络即演员网络π(st;μ)和目标actor网络即目标演员网络π(st;μ-)和critic网络即评论家网络Q(st,at;θ)和目标critic网络即目标评论家网络Q(st,at;θ-);
步骤6.3,初始化DQN单元中的估计网络Q(st,at;χ)和目标网络Q(st,at;χ-);
步骤6.4,初始化迭代次数Episode为1;
步骤6.5,初始化迭代时隙为1;
步骤6.7,预设暂存DQN单元中的状态、动作和奖励的值dqn_s,dqn_a,dqn_r;
步骤6.14,判断训练过程是否开始,若是则进入(6.15),若不是则t=t+1;
步骤6.16,DDPG单元的Actor估计网络根据状态得到动作/>将状态和得到的动作/>输入Critic估计网络,获得/>根据来对Actor估计网络参数μ进行更新,结合奖励/>利用/>对Critic估计网络参数进行更新,其中γ1是折扣因子;
更新网络参数,其中γ2是折扣因子;
步骤6.18,每间隔W步将DQN估计网络参数的值赋给DQN目标网络参数;
步骤6.19,采用软更新的方式,利用Actor估计网络参数μ更Actor目标网络中参数μ-,利用Critic估计网络参数θ更新Critic目标网络中参数θ-;
步骤6.20,判断是否满足轮小于kmax,若是,则Episode+1,返回(6.5),若不是,则优化结束,得到优化后的多用户多无人机的移动边缘计算模型。
步骤7,判断算法是否收敛,若是,则继续执行后续步骤,否则,增加训练迭代次数并继续训练网络;所述判断算法是否收敛的具体方法包括:算法收敛后的输出结果也不是唯一的,在奖励上升至一定程度后,之后每个回合相较上个回合的变化不大则可认为收敛,可详见附图4(a)和4(b),即和预期最大可能达到的奖励相差不大即可。
下面结合仿真实验对本发明的效果做进一步说明。
1、仿真条件:
本发明的仿真实验在Python3.7,Tensorflow1.14的仿真平台上进行的。计算机CPU型号为因特尔酷睿i5,显卡型号为英伟达GeForce GTX960M。本发明中用户个数N设置为3,无人机个数M设置为2,无人机高度为Zm=75m,可服务于目标区域边长为Rmax=400m。每回合的时隙长度为T=60,最大时延允许为Tmax=1s。子信道个数为K=3,子信道带宽为B=2Mhz。用户n在时隙t中生成的每个计算任务的大小Dn(t)均匀分布在10KB与12.5KB之间,所需的CPU周期Fn(t)均匀分布在2×109cycles与2.5×109cycles之间。每架无人机每个时隙可服务的最大用户数量为Cmax=2。每个无人机每时隙可飞行的最大近距离dmax=30m,可转动的最大角度θmax=2π。两架无人机应该保持的最小距离Rmin=1m。对于卸载计算,发射功率PTr=0.1W,天线增益G0=2.2846,噪声功率σ2=-90dBm,无人机计算资源为fmax=50GHz,参考距离1m处的信道功率增益g0=1.42×10-4。对于本地计算,用户的计算资源为 有效电容系数kn=10-28,芯片体系结构而预先配置的模型参数vn=3。
本发明提出的混合深度强化学习算法(HDRT算法)中,DDPG单元的actor和critic的估计网络和目标网络都包含了两个全连接的隐藏层,分别有256和128个神经元。actor网络和critic网络的学习率分别为0.0001和0.001。AdamOptimizer优化器用于更新actor和critic的估计网络。惩罚值为ρ=0.01,随机噪声为N′(0,2),噪声的衰减率为0.99995。折扣因子γ1=0.99,软更新的参数为τ=0.001。DQN单元的估计网络和目标网络都包含了两个全连接的隐藏层,分别有100和20个神经元。AdamOptimizer优化器用于更新DQN的估计网络,学习率为0.001。折扣因子γ2=0.9,在开始训练后每个时隙增加0.0001,直至增加到0.99。DQN目标网络更新间隔W=100。
2、仿真内容:
参照附图4(a)、4(b),显示了在本发明算法下,不同智能体在每回合内的平均奖励。横坐标表示回合数,纵坐标表示环境返回的平均奖励。整个训练设置为3000个回合,每回合包含60个时隙。在每一回合中,每个智能体不断地进行决策和与环境的交互,并根据环境反馈更新网络模型。可以看出,DDPG单元和DQN单元的奖励随着训练次数的增加而不断增加,并最终趋于收敛。可以看出,DDPG单元在300个回合后奖励急剧增加,并在1000个回合后逐渐趋于稳定。此外,DQN单元在学习过程开始后开始收敛,在300个回合后逐渐趋于稳定。原因是,在训练开始之前,DQN单元的输出动作不稳定。当无人机向用户密集区域飞行时,DQN单元在一个相对稳定的状态下做出决策。同时,收到无人机相对固定的轨迹影响,DQN单元获得的奖励也趋于稳定。然后,通过DQN单元的稳定输出,基本确定了无人机的运动轨迹。在那之后,DDPG单元也获得了一个稳定的奖励。
参照附图5,可以观察到本发明下的无人机轨迹图。横纵坐标分别表示二维坐标系中的x轴和y轴。用户在固定的位置,在几个时隙内,无人机从初始坐标飞到用户密集型的地方提供服务,这是由于本发明提出的HDRT算法可以指导无人机做出正确的决策。具体来说,为了降低用户的传输能耗,获得更高的奖励,DDPG单元可以做出适当的决策,在算法收敛后,动态地优化无人机轨迹,短时间内即可指挥无人机到其适当的区域。
附图6采用了本发明和现有技术在不同平均任务大小的用户加权能耗性能对比图。以正三角形和圆形标示的折线分别表示采用本发明方法控制的一架和两架无人机在不同平均任务大小的用户加权能耗,以矩形和倒三角形标示的折线分别表示采用随机方法控制的一架和两架无人机在不同平均任务大小的用户加权能耗,以五角星和菱形标示的折线分别表示采用DQN方法控制的一架和两架无人机在不同平均任务大小的用户加权能耗。通过比较几种方法得到的用户加权能耗,可以看出,在不同平均任务大小的情况下,无论是在一架无人机还是多架无人机的场景下,本发明方法的用户加权能耗明显低于其他几种方法,并且随着平均用户任务量的增加,本发明方法的性能优势与其他几种方法相比更明显。
附图7采用了本发明和现有技术在不同无人机计算资源下的用户加权能耗性能对比图。以正三角形和圆形标示的折线分别表示采用本发明方法控制的一架和两架无人机在不同无人机计算资源下的用户加权能耗,以矩形和倒三角形标示的折线分别表示采用随机方法控制的一架和两架无人机在不同无人机计算资源下的用户加权能耗,以五角星和菱形标示的折线分别表示采用DQN方法控制的一架和两架无人机在不同无人机计算资源下的用户加权能耗。通过比较几种方法得到的用户加权能耗,可以看出,在无人机计算资源较低时,本发明方法在降低用户加权能耗方面有更好的表现。本发明方法控制的一架无人机的方案性能更优于随机方法控制的两架无人机方案。当无人机计算资源的增加到一定程度时,本发明方法控制的两架无人机方案的用户加权能耗明显低于其他几种方法,具有更好的性能优势。
附图8采用了本发明和现有技术在不同子信道个数下的用户加权能耗性能对比图。以正三角形和圆形标示的折线分别表示采用本发明方法控制的一架和两架无人机在不同子信道个数下的用户加权能耗,以矩形和倒三角形标示的折线分别表示采用随机方法控制的一架和两架无人机在不同子信道个数下的用户加权能耗,以五角星和菱形标示的折线分别表示采用DQN方法控制的一架和两架无人机在不同子信道个数下的用户加权能耗。通过比较几种方法得到的用户加权能耗,可以看出,当子信道个数为2时,系统不足以服务所有用户,本发明方法控制的两架无人机方案性能略优于其他方法。当子信道个数增加到一定程度,并且可以覆盖到所有用户时,本发明方法控制的两架无人机方案在减小用户加权能耗方面对比其他方法有显著的提高,体现了性能优势。
综合上述仿真结果和分析,本发明所提出的用于最小化长期平均用户加权能耗的最佳轨迹控制和资源优化方法,可以动态进行卸载,并且可以保证系统获得最小的用户加权能耗,节省了用户的能量开销,提升了服务质量,这使得本发明在实际中能更好的得到应用。
具体实现中,本申请提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种多无人机辅助边缘计算的在线轨迹及资源优化方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机,MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种多无人机辅助边缘计算的在线轨迹及资源优化方法。的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (10)
1.一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,包括如下步骤:
步骤1,构建多用户多无人机的移动边缘计算模型;
所述模型中包含N个用户和M个无人机,每个无人机都配备基站,分别用集合n∈Ns={1,2,…,N}和m∈Ms={1,2,…,M}表示;用户的计算任务在用户本地或卸载到无人机上进行处理;
步骤2,根据无人机的运动轨迹,获取无人机的位置,并且计算任意两架无人机的位置,避免碰撞;
步骤3,根据不同的卸载方案,分别构建卸载计算模型和本地计算模型;
步骤4,构建优化问题,优化目标是最小化长期平均用户加权能耗;
步骤5,在所述多用户多无人机的移动边缘计算模型中,根据无人机的位置,用户的计算任务,用户的卸载决策和子信道分配以及获取的用户加权能耗,建立马尔可夫过程;
步骤6,根据步骤5中建立的马尔可夫过程,利用混合决策深度强化学习算法优化所述多用户多无人机的移动边缘计算模型,利用DDPG和DQN分别处理优化问题中的连续变量和离散变量,得到无人机的飞行动作以及用户的卸载决策和子信道的分配;
步骤7,判断混合决策深度强化学习算法是否收敛,若是,则执行步骤8,否则,增加训练迭代次数并继续训练所述多用户多无人机的移动边缘计算模型;
步骤8,测试混合决策深度强化学习算法收敛后的性能,完成多无人机辅助边缘计算的在线轨迹及资源优化。
2.根据权利要求1所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤1所述的构建多用户多无人机的移动边缘计算模型,具体包括:
设置T个时隙,集合为t∈Ts={1,2,…,T},设置N个用户和M个无人机的初始位置,每个无人机配备MEC基站;获取用户和无人机的间的相对位置;每个时隙中,用户产生一个计算任务,根据卸载决策确定用户的任务执行方式;所述任务执行方式包括用户本地计算和用户卸载计算,具体如下:
采用用户本地计算时,计算本地计算时延和本地计算能耗;采用用户卸载计算时,根据子信道分配指示器获取每个用户分配到的子信道个数,计算采用用户卸载计算方式的用户的上传速率,并计算卸载计算上传时延和任务执行时延,计算卸载计算能耗。
3.根据权利要求2所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤3所述的分别构建卸载计算模型和本地计算模型,具体方法如下:
步骤3-1,构建卸载计算模型并进行计算,计算用户n与对应无人机m的水平距离,结合分配给用户n的子信道个数,得到用户n与对应无人机m的上传速率,计算相应的传输时延、卸载计算时延以及卸载计算能耗;
步骤3-2,构建本地计算模型并进行计算,计算本地计算时延以及本地计算能耗。
4.根据权利要求3所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤3-1所述构建卸载计算模型并进行计算,具体方法包括:
第n个用户的坐标表示为[xn,yn],如果在时隙t,第n个用户选择卸载任务到第m个无人机上,则用户n与对应无人机m的水平距离ln,m(t)表示为:
其中,Xm(t)表示无人机m二维坐标系中的横坐标,Ym(t)表示无人机m二维坐标系中的纵坐标;
在计算卸载过程中,将信道分为K个带宽相同的个子信道,用集合k∈Ks={1,2,…,K}表示,子信道分配指示变量用δn,k(t)∈{0,1}表示,δn,k(t)=1表示第k个子信道被分配给第n个用户,否则δn,k(t)=0,得到第n个用户对应第m个无人机的上行数据速率rn,m(t),表示为:
其中,Dn(t)表示户n选择卸载计算时需要传输到无人机的数据大小;
其中,fmax是每个时隙无人机提供给用户的最大计算资源,an,m(t)表示用户决策,an,m(t)={0,1},其中,an,m(t)=1,m≠0表示在第t个时隙,第n个用户决定将任务卸载到第m个无人机上,an,m(t)=1,m=0和an,m(t)=0表示在第t个时隙,第n个用户决定本地执行任务;忽略无人机将计算结果返回给用户的时间,则第n个用户卸载数据到第m个无人机的卸载计算总的能耗表示为:
6.根据权利要求5所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤4所述的构建优化问题,具体方法包括:
通过优化无人机轨迹、用户关联与子信道分配,构建优化问题,目标是最小化长期平均用户加权能耗,即:
约束条件为:
其中,an,m(t)表示用户决策,表示用户卸载计算能耗,En(t)表示用户本地计算能耗,Cmax表示每架无人机服务的最大用户数量,θm(t)表示第m架无人机的转动角度,θmax表示无人机转动的最大角度,θm(t)表示第m架无人机的飞行距离,dmax表示无人机飞行的最大距离,Xm(t)和Ym(t)表示第m架无人机二维坐标系中的横坐标和纵坐标,Rmax表示限定的矩形区域最大边界值,Rm,m,(t)表示第m架无人机和第m’架无人机之间的距离,Rmin表示任意两架无人机之间的最小距离,δn,k(t)表示子信道分配指示器,K表示每个用户占用的最大子信道个数,Ttotal(t)表示每个时隙任务完成花费的时间,Tmax表示每个时隙任务全部完成的最大时延允许。
7.根据权利要求6所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤5所述的建立马尔可夫过程,具体方法如下:
8.根据权利要求7所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤6所述的利用混合决策深度强化学习算法优化所述多用户多无人机的移动边缘计算模型,即引入DDPG算法和DQN算法,构建混合决策深度强化学习算法,在每个时隙开始时,采用DDPG算法的DDPG单元处理无人机的轨迹优化问题,即处理连续变量,并得到无人机的轨迹,获取新的无人机位置,结合用户的计算任务,作为状态输入采用DQN算法的DQN单元,并输出离散动作,得到用户决策和子信道分配策略;根据得到的用户决策和子信道分配策略计算相应的用户能耗,用户能耗包括本地计算能耗和卸载计算能耗,并根据无人机位置的约束条件判断是否触发惩罚项,即无人机是否飞出目标区域以及任意两架无人机的相对位置是否小于规定阈值,获取更新所述多用户多无人机的移动边缘计算模型的奖励。
9.根据权利要求8所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤6中所述的利用DDPG和DQN分别处理优化问题中的连续变量和离散变量,具体方法包括:
步骤6-1,初始化经验池D;
步骤6-2,初始化DDPG单元中的actor网络π(st;μ)、目标actor网络π(st;μ-)、critic网络Q(st,at;θ)和目标critic网络Q(st,at;θ-);其中,st表示在第t个时隙输入DDPG单元的状态,μ表示actor网络的参数,μ-表示目标actor网络的参数,at表示在第t个时隙DDPG单元输出的动作,θ表示critic网络的参数,θ-表示目标critic网络的参数;
步骤6-3,初始化DQN单元中的估计网络Q(st,at;χ)和目标网络Q(st,at;χ-);其中,χ表示DQN单元中估计网络的参数,χ-表示DQN单元中目标网络的参数;
步骤6-4,初始化迭代次数Episode为1;
步骤6-5,初始化迭代时隙为1;
步骤6-7,预设暂存DQN单元中的状态dqn_s、动作dqn_a和奖励的值dqn_r;
步骤6-14,判断训练过程是否开始,若是则进入步骤6-15,否则t=t+1;
步骤6-15,从经验池中随机采样数量为/>的样本构成数据集(si,ai,ri,si+1),发送给DDPG单元和DQN单元;其中,si表示样本的状态,ai表示样本的动作,ri表示样本的奖励,si+1表示样本的下一状态,i表示样本的索引;
其中,L(θ)表示损失函数,γ1是折扣因子;
其中,γ2是折扣因子;
步骤6-18,每间隔W步将DQN估计网络参数的值赋给DQN目标网络参数;
步骤6-19,采用软更新的方式,即利用Actor估计网络参数μ更新Actor目标网络中参数μ-,利用Critic估计网络参数θ更新Critic目标网络中参数θ-;
步骤6-20,判断是否满足轮数小于阈值kmax,若是,则回合数Episode+1,返回步骤6-5,否则优化结束,得到优化后的多用户多无人机的移动边缘计算模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310068530.9A CN116321181A (zh) | 2023-02-06 | 2023-02-06 | 一种多无人机辅助边缘计算的在线轨迹及资源优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310068530.9A CN116321181A (zh) | 2023-02-06 | 2023-02-06 | 一种多无人机辅助边缘计算的在线轨迹及资源优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116321181A true CN116321181A (zh) | 2023-06-23 |
Family
ID=86829557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310068530.9A Pending CN116321181A (zh) | 2023-02-06 | 2023-02-06 | 一种多无人机辅助边缘计算的在线轨迹及资源优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116321181A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117793805A (zh) * | 2024-02-27 | 2024-03-29 | 厦门宇树康信息技术有限公司 | 动态用户随机接入的移动边缘计算资源分配方法与系统 |
-
2023
- 2023-02-06 CN CN202310068530.9A patent/CN116321181A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117793805A (zh) * | 2024-02-27 | 2024-03-29 | 厦门宇树康信息技术有限公司 | 动态用户随机接入的移动边缘计算资源分配方法与系统 |
CN117793805B (zh) * | 2024-02-27 | 2024-04-26 | 厦门宇树康信息技术有限公司 | 动态用户随机接入的移动边缘计算资源分配方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377353B (zh) | 计算任务卸载系统与方法 | |
CN111405568B (zh) | 基于q学习的计算卸载和资源分配方法及装置 | |
Huang et al. | Joint computation offloading and resource allocation for edge-cloud collaboration in internet of vehicles via deep reinforcement learning | |
CN113032904B (zh) | 模型构建方法、任务分配方法、装置、设备及介质 | |
CN111405569A (zh) | 基于深度强化学习的计算卸载和资源分配方法及装置 | |
CN114615265B (zh) | 边缘计算环境下基于深度强化学习的车载任务卸载方法 | |
CN113254188B (zh) | 调度优化方法和装置、电子设备及存储介质 | |
CN115278729B (zh) | 一种海洋物联网中无人机协作数据收集与数据卸载方法 | |
CN113543342B (zh) | 基于noma-mec强化学习资源分配与任务卸载方法 | |
CN115827108B (zh) | 基于多目标深度强化学习的无人机边缘计算卸载方法 | |
CN115640131A (zh) | 一种基于深度确定性策略梯度的无人机辅助计算迁移方法 | |
CN117499867A (zh) | 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法 | |
Sha et al. | DRL-based task offloading and resource allocation in multi-UAV-MEC network with SDN | |
CN116723548A (zh) | 一种基于深度强化学习的无人机辅助计算卸载方法 | |
CN116321181A (zh) | 一种多无人机辅助边缘计算的在线轨迹及资源优化方法 | |
CN116367231A (zh) | 基于ddpg算法的边缘计算车联网资源管理联合优化方法 | |
CN117858015A (zh) | 基于深度强化学习的空中边缘计算数据安全传输及资源分配方法 | |
CN117573383B (zh) | 一种基于分布式多智能体自主决策的无人机资源管理方法 | |
Hwang et al. | Deep reinforcement learning approach for uav-assisted mobile edge computing networks | |
CN116582836B (zh) | 一种任务卸载与资源分配方法、设备、介质和系统 | |
CN115967430A (zh) | 一种基于深度强化学习的成本最优空地网络任务卸载方法 | |
Sharma et al. | Feel-enhanced edge computing in energy constrained uav-aided iot networks | |
CN114513814A (zh) | 基于无人机辅助节点的边缘网络计算资源动态优化方法 | |
CN114520991A (zh) | 基于无人机集群的边缘网络自适应部署方法 | |
Cheng et al. | An O-MAPPO scheme for joint computation offloading and resources allocation in UAV assisted MEC systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |