CN114896072A - 基于深度强化学习的无人机辅助移动边缘计算优化方法 - Google Patents

基于深度强化学习的无人机辅助移动边缘计算优化方法 Download PDF

Info

Publication number
CN114896072A
CN114896072A CN202210624096.3A CN202210624096A CN114896072A CN 114896072 A CN114896072 A CN 114896072A CN 202210624096 A CN202210624096 A CN 202210624096A CN 114896072 A CN114896072 A CN 114896072A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
time slot
function network
drone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210624096.3A
Other languages
English (en)
Inventor
鲁霖
鲁鹏飞
莫木新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xinzhongxin Technology Co Ltd
Original Assignee
Shenzhen Xinzhongxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xinzhongxin Technology Co Ltd filed Critical Shenzhen Xinzhongxin Technology Co Ltd
Priority to CN202210624096.3A priority Critical patent/CN114896072A/zh
Publication of CN114896072A publication Critical patent/CN114896072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明提供了一种基于深度强化学习的无人机辅助移动边缘计算优化方法,构造了考虑地面障碍物的多无人机辅助移动边缘计算模型,计算无人机和用户的总能耗,并且考虑了障碍物导致的风险,将风险数字化为风险系数,目标函数为系统总能耗与风险系数之和;以最小化系统总能耗与风险系数之和为目的,建立深度强化学习模型;使用DDPG算法联合优化卸载决策与无人机轨迹;在有效避开地面障碍物并保证用户服务质量的同时,最小化无人机和用户设备总能耗。

Description

基于深度强化学习的无人机辅助移动边缘计算优化方法
技术领域
本发明涉及无人机辅助移动边缘计算技术领域,特别是涉及一种基于深度强化学习的考虑地面障碍物的无人机辅助移动边缘计算卸载决策和轨迹联合优化方法。
背景技术
在过去的十几年里,云计算已经成为了一种新的计算范式。它的愿景是云计算,存储和网络管理的集中化,具体指的是数据中心,骨干IP网络和蜂窝核心网络。然后可以利用云中的大量资源提供弹性计算能力和存储,以支持资源受限的终端用户设备,云计算一直在支持许多互联网公司的快速增长。近年来,随着云的功能越来越靠近网络边缘,计算领域出现了一种新的趋势。据估计,在不久的将来,数以百亿记的边缘设备将被部署,它们的处理器速度将呈指数增长,遵循摩尔定律。收集分布在网络边缘的大量空闲计算能力和存储空间,可以产生足够的能量在移动设备上执行计算密集型和延迟关键型任务。这种模式被称为移动边缘计算(MEC)。虽然长时间的传播延迟仍然是云计算的一个关键缺陷,但是近距离接入的MEC被广泛认为是实现下一代互联网各种愿景的关键技术,例如触觉互联网和物联网。目前,学术界和工业界的研究人员都在积极推广MEC技术,致力于移动计算和无线通信两个学科的技术和理论的融合。
虽然MEC有很多的优点,但是它不能避免地面静态基站的局限性,因此,在任何时间任何地点部署MEC是一个很大的挑战。此外,就如前文所说,地面基础设施在面临自然灾害的时候被毁坏的可能性很大,在山区等地区建造地面基础设施难度大,成本也高。在上述场景下,物联网设备将无法为用户服务。由于无人机的灵活性,无人机辅助的MEC被引入,作为灵活的移动用户的计算服务器,无人机辅助MEC通过在无人机MEC上提供额外的计算资源,可以延长移动设备的工作寿命,加快计算速度,此外,将任务转移到临近的MEC 服务器可以避免移动用户频繁地与云通信或将任务上传到云,从而减轻通信阻塞。
与传统的MEC系统不同,在使用无人机作为MEC服务器时,由于无人机与用户的距离影响用户卸载任务的卸载延迟与卸载能耗,无人机的飞行轨迹将显著影响用户设备端的能耗以及任务处理的延迟。
由于无人机的机载能量有限,同时还要分出一部分为机载MEC服务器提供能量,所以要尽量节约无人机的飞行能耗,但是节约无人机的飞行能耗与降低用户的延迟与能量时矛盾的。想要权衡这两者,在降低用户能耗,延迟的同时尽可能降低无人机的能耗,就必须要对无人机的飞行轨迹进行优化。
因此,亟需一种基于深度强化学习的无人机辅助移动边缘计算优化方法,能够解决现有无人机辅助移动边缘计算中的耗能问题。
发明内容
本发明的目的是提供一种基于深度强化学习的无人机辅助移动边缘计算优化方法,以解决上述现有无人机辅助移动边缘计算中的耗能问题。
为实现上述目的,本发明提供了如下方案:
本发明提供一种基于深度强化学习的无人机辅助移动边缘计算优化方法,包括以下步骤:
S1:构造考虑地面障碍物的多无人机辅助移动边缘计算模型,无人机作为空中边缘计算服务器,为地面的移动用户设备提供服务;
S2:根据S1模型计算系统总能耗,并考虑无人机避障问题,计算出目标函数;
S3:以最小化目标函数为目标,建立深度强化学习模型;
S4:使用深度强化学习算法联合优化卸载决策和无人机轨迹。
优选地,在S1中,构造考虑地面障碍物的多无人机辅助移动边缘计算模型具体为:
在系统模型中,设定在一边长为lmax的方形区域上随机分布着N个用户设备,用户设备集记作
Figure RE-GDA0003742581220000021
在该方形区域上空有M个无人机以高度H飞行,为地面设备提供服务,无人机集记作
Figure RE-GDA0003742581220000022
任务周期为T个连续的时隙,
Figure RE-GDA0003742581220000023
每个时隙的持续时间为Δ;
设定每个用户设备在每个时隙都会产生一个需要执行的任务,采用二元卸载方式定义一个卸载决策变量zn,m,t={0,1};当zn,m,t=1,m≠0时,表示在t时隙,用户n将任务卸载到无人机m;当zn,m,t=1,m=0时,表示在t时隙,用户n在本地执行计算;当zn,m,t=0时,表示其他情况;由于任务只能在一个地方执行,所以有
Figure RE-GDA0003742581220000031
设定用户n在时隙t有一个任务Sn,t需要执行,则
Figure RE-GDA0003742581220000032
其中Dn,t代表需要处理的数据量,Fn,t代表执行此任务所需要的CPU周期数,Tmax表示用户设备最大容忍执行时间;
当时隙的持续时间Δ足够小时,在时隙内无人机的位置看作不变;设定在时隙t中,每个无人机都沿着方向αm,t∈[0,2π)前进dm,t∈[0,dmax]距离;则在时隙 t时,无人机m的位置为
Figure RE-GDA0003742581220000033
其中,0≤Xm,t≤lmax,0≤Ym,t≤lmax,在时隙t时,无人机m和无人机UAVm’之间的距离为:
Figure RE-GDA0003742581220000034
为了防止碰撞以及相互干扰,无人机和无人机之间设定最小距离Ru,则有:Rm,m′,t≥Ru;在时隙t时,用户设备n和无人机之间的距离为:
Figure RE-GDA0003742581220000035
设定无人机有固定的覆盖范围,只有当用户在无人机覆盖范围之内时,用户才能向无人机卸载数据,则有:zn,m,tRn,m,t≤Rmax
设定在该方形区域上存在着I个障碍物,记作
Figure RE-GDA0003742581220000041
障碍物i 的中心位置为:
Figure RE-GDA0003742581220000042
为了防止无人机撞到这些障碍物,设定一个风险系数
Figure RE-GDA0003742581220000043
该风险系数表示在t时隙,障碍物i对无人机m存在的风险;设定所有障碍物的风险系数都符合高斯分布,但是不同的障碍物拥有不同的变量σi,则得到
Figure RE-GDA0003742581220000044
其中
Figure RE-GDA0003742581220000045
优选地,计算系统总能耗以及目标函数具体为:
在t时隙中,无人机m的飞行能耗为:
Figure RE-GDA0003742581220000046
其中
Figure RE-GDA0003742581220000047
表示无人机m在t时隙内的飞行速度,
Figure RE-GDA0003742581220000048
G是无人机的质量;则在t时隙,所有无人机的飞行能耗为:
Figure RE-GDA0003742581220000049
在t时隙中,当用户设备n决定将任务卸载至无人机m执行时,用户设备和无人机之间的信道增益为:
Figure RE-GDA00037425812200000410
其中β0表示参考距离 d0=1m时的信道增益;用户设备的卸载速率为:
Figure RE-GDA00037425812200000411
其中,B是带宽,Pn是用户设备卸载任务的传输功率,σ2是无人机的噪声功率;卸载时间为:
Figure RE-GDA00037425812200000412
用户设备n产生的卸载能量为:
Figure RE-GDA00037425812200000413
则在t时隙,所有用户产生的卸载能耗为:
Figure RE-GDA00037425812200000414
在t时隙中,当用户设备n决定本地执行任务时,用户设备n所产生的本地计算能耗为:
Figure RE-GDA00037425812200000415
其中,
Figure RE-GDA00037425812200000416
代表计算任务所需时间, fn,0,t代表用户设备n的CPU频率,kn是与处理器芯片有关的正系数;则在t时隙,所有用户设备的本地计算能耗为:
Figure RE-GDA0003742581220000051
在t时隙中,当用户设备n将任务卸载至无人机m时,无人机m产生的计算能耗为:
Figure RE-GDA0003742581220000052
其中,
Figure RE-GDA0003742581220000053
代表计算任务所需的时间,fn,m,t代表在t时隙无人机m分配给来自用户设备n的任务的CPU频率,km是与处理器芯片有关的正系数。在t时隙,所有的无人机计算能耗为:
Figure RE-GDA0003742581220000054
在t时隙中,所有无人机避障的风险系数为:
Figure RE-GDA0003742581220000055
综合以上,在一个任务周期内,系统总能耗为:
Figure RE-GDA0003742581220000056
最终目标函数为:
Figure RE-GDA0003742581220000057
优选地,在S3中,建立深度强化学习模型具体为:
将该卸载决策和轨迹联合优化问题建模为马尔可夫决策过程<S,A,R>,其中S为系统状态集,A是卸载决策以及轨迹动作集,R是奖励函数集,采用 DDPG算法解决该问题;
状态集
Figure RE-GDA0003742581220000058
表示所有无人机在t时隙的位置;
动作集
Figure RE-GDA0003742581220000059
即所有无人机在t时隙的轨迹;
将奖励函数R设为目标函数的负值,即
Figure RE-GDA0003742581220000061
优逸地,在S4中,使用深度强化学习算法联合优化卸载决策和轨迹具体为:
建立价值函数网络Q和策略函数网络μ,为了稳定学习过程,创建两个价值函数网络:价值函数网络Q(s,a|θQ)和目标价值函数网络Q′(s,a|θQ′);创建两个策略函数网络:策略函数网络μ(s|θμ)和目标策略函数网络μ′(s|θμ′);引入UO 随机过程作为噪声增加智能体的探索性,行为策略β为策略μ加入OU噪声产生,使用策略β进行环境探索;
初始化价值函数网络参数θQ和策略价值网络参数θμ,将两个网络参数拷贝给与其相对应的目标价值函数网络和目标策略函数网络,即θQ′←θQ,θμ′←θμ,初始化记忆回放库D;
遍历所有的episode,初始化UO随机过程,即噪声Nt,从环境中接收起始状态s1,对于每个episode,遍历所有步;在状态st时,智能体根据行为策略β选择一个at,即at=μ(stμ)+Nt;环境执行at,得到奖励rt+1和下一个状态st+1;将(st,at,rt+1,st+1)存储到记忆回放库D中,作为训练网络的数据集;
从记忆回放库D中,随机采样N个(si,ai,ri+1,si+1)作为价值函数网络和策略函数网络的一个mini-batch训练数据;
更新价值函数网络,yi=ri+1+γQ′(si+1,μ′(si+1μ′)|θQ′),定义Loss函数为 MSE,
Figure RE-GDA0003742581220000071
使用梯度下降算法更新价值函数网络的参数θQ
更新策略函数网络,策略梯度为:
Figure RE-GDA0003742581220000072
使用梯度下降算法更新策略函数网络的参数θμ
软更新目标价值函数网络和目标策略函数网络的参数θQ′,θμ′,其中,θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′
不断更新价值函数网络和策略函数网络,最终会收敛至最优策略,使用收敛了的策略函数网络即获得最优的卸载决策和轨迹联合优化方案。
本发明相对于现有技术取得了以下有益技术效果:
1、本发明提供的基于深度强化学习的无人机辅助移动边缘计算优化方法,构造了考虑地面障碍物的多无人机辅助移动边缘计算模型,计算无人机和用户的总能耗,并且考虑了障碍物导致的风险,将风险数字化为风险系数,目标函数为系统总能耗与风险系数之和。
2、本发明提供的基于深度强化学习的无人机辅助移动边缘计算优化方法,以最小化系统总能耗与风险系数之和为目的,建立深度强化学习模型。
3、本发明提供的基于深度强化学习的无人机辅助移动边缘计算优化方法,使用DDPG算法联合优化卸载决策与无人机轨迹。
该基于深度强化学习的考虑地面障碍物的无人机辅助移动边缘计算卸载决策和轨迹联合优化方法,在有效避开地面障碍物并保证用户服务质量的同时,最小化无人机和用户设备总能耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于深度强化学习的无人机辅助移动边缘计算优化方法流程图;
图2为本发明中多无人机为多用户提供移动边缘计算服务的场景图;
图3为本发明中所经历episode次数与奖励reward之间的关系;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于深度强化学习的无人机辅助移动边缘计算优化方法,以解决现有无人机辅助移动边缘计算中的耗能问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
本实施例提供一种基于深度强化学习的无人机辅助移动边缘计算优化方法,如图1-3所示,包括以下步骤:
S1:构造考虑地面障碍物的多无人机辅助移动边缘计算模型,无人机作为空中边缘计算服务器,为地面的移动用户设备提供服务;
S2:根据S1模型计算系统总能耗,并考虑无人机避障问题,计算出目标函数;
S3:以最小化目标函数为目标,建立深度强化学习模型;
S4:使用深度强化学习算法联合优化卸载决策和无人机轨迹。
具体地,在S1中,构造考虑地面障碍物的多无人机辅助移动边缘计算模型具体为:
在系统模型中,设定在一边长为lmax的方形区域上随机分布着N个用户设备,用户设备集记作
Figure RE-GDA0003742581220000091
在该方形区域上空有M个无人机以高度H飞行,为地面设备提供服务,无人机集记作
Figure RE-GDA0003742581220000092
任务周期为T个连续的时隙,
Figure RE-GDA0003742581220000093
每个时隙的持续时间为Δ;
设定每个用户设备在每个时隙都会产生一个需要执行的任务,采用二元卸载方式定义一个卸载决策变量zn,m,t={0,1},即任务要么在用户设备执行,要么卸载到无人机移动边缘计算服务器上执行;当zn,m,t=1,m≠0时,表示在t时隙,用户n将任务卸载到无人机m;当zn,mt=1,m=0时,表示在t时隙,用户n在本地执行计算;当zn,m,t=0时,表示其他情况;由于任务只能在一个地方执行,所以确
Figure RE-GDA0003742581220000094
设定用户n在时隙t有一个任务Sn,t需要执行,则
Figure RE-GDA0003742581220000095
其中Dn,t代表需要处理的数据量,Fn,t代表执行此任务所需要的CPU周期数,Tmax表示用户设备最大容忍执行时间;
当时隙的持续时间Δ足够小时,在时隙内无人机的位置看作不变;设定在时隙t中,每个无人机都沿着方向αm,t∈[0,2π)前进dm,t∈[0,dmax]距离;则在时隙 t时,无人机m的位置为
Figure RE-GDA0003742581220000101
其中,0≤Xm,t≤lmax,0≤Ym,t≤lmax,在时隙t时,无人机m和无人机UAVm’之间的距离为:
Figure RE-GDA0003742581220000102
为了防止碰撞以及相互干扰,无人机和无人机之间设定最小距离Ru,则有:Rm,m′,t≥Ru;在时隙t时,用户设备n和无人机之间的距离为:
Figure RE-GDA0003742581220000103
设定无人机有固定的覆盖范围,只有当用户在无人机覆盖范围之内时,用户才能向无人机卸载数据,则有:zn,m,tRn,m,t≤Rmax
设定在该方形区域上存在着I个障碍物,记作
Figure RE-GDA0003742581220000104
障碍物i 的中心位置为:
Figure RE-GDA0003742581220000105
为了防止无人机撞到这些障碍物,设定一个风险系数
Figure RE-GDA0003742581220000106
该风险系数表示在t时隙,障碍物i对无人机m存在的风险;设定所有障碍物的风险系数都符合高斯分布,但是不同的障碍物拥有不同的变量σi,则得到
Figure RE-GDA0003742581220000107
其中
Figure RE-GDA0003742581220000108
进一步地,在S2中,计算系统总能耗以及目标函数具体为:
系统总能耗主要包括四个部分:无人机飞行能耗;当用户设备选择将任务卸载至无人机执行时,用户设备产生的卸载能耗;当用户设备选择本地执行时,用户设备产生的本地计算能耗;当用户设备选择将任务卸载至无人机执行时,无人机产生的无人机计算能耗;
在t时隙中,无人机m的飞行能耗为:
Figure RE-GDA0003742581220000111
其中
Figure RE-GDA0003742581220000112
表示无人机m在t时隙内的飞行速度,
Figure RE-GDA0003742581220000113
G是无人机的质量;则在t时隙,所有无人机的飞行能耗为:
Figure RE-GDA0003742581220000114
在t时隙中,当用户设备n决定将任务卸载至无人机m执行时,用户设备和无人机之间的信道增益为:
Figure RE-GDA0003742581220000115
其中β0表示参考距离 d0=1m时的信道增益;用户设备的卸载速率为:
Figure RE-GDA0003742581220000116
其中,B是带宽,Pn是用户设备卸载任务的传输功率,σ2是无人机的噪声功率;卸载时间为:
Figure RE-GDA0003742581220000117
用户设备n产生的卸载能量为:
Figure RE-GDA0003742581220000118
则在t时隙,所有用户产生的卸载能耗为:
Figure RE-GDA0003742581220000119
在t时隙中,当用户设备n决定本地执行任务时,用户设备n所产生的本地计算能耗为:
Figure RE-GDA00037425812200001110
其中,
Figure RE-GDA00037425812200001111
代表计算任务所需时间, fn,0,t代表用户设备n的CPU频率,kn是与处理器芯片有关的正系数;则在t时隙,所有用户设备的本地计算能耗为:
Figure RE-GDA00037425812200001112
在t时隙中,当用户设备n将任务卸载至无人机m时,无人机m产生的计算能耗为:
Figure RE-GDA00037425812200001113
其中,
Figure RE-GDA00037425812200001114
代表计算任务所需的时间,fn,m,t代表在t时隙无人机m分配给来自用户设备n的任务的CPU频率,km是与处理器芯片有关的正系数。在t时隙,所有的无人机计算能耗为:
Figure RE-GDA00037425812200001115
在执行任务的同时,无人机还需要考虑避障问题,因此,需要在最终目标函数里添加危险系数;在t时隙中,所有无人机避障的风险系数为:
Figure RE-GDA0003742581220000121
综合以上,在一个任务周期内,系统总能耗为:
Figure RE-GDA0003742581220000122
最终目标函数为:
Figure RE-GDA0003742581220000123
进一步地,在S3中,建立深度强化学习模型具体为:
将该卸载决策和轨迹联合优化问题建模为马尔可夫决策过程<S,A,R>,其中S为系统状态集,A是卸载决策以及轨迹动作集,R是奖励函数集,采用 DDPG算法解决该问题;
状态集
Figure RE-GDA0003742581220000124
表示所有无人机在t时隙的位置;
动作集
Figure RE-GDA0003742581220000125
即所有无人机在t时隙的轨迹;
将奖励函数R设为目标函数的负值,即
Figure RE-GDA0003742581220000126
进一步地,在S4中,使用深度强化学习算法联合优化卸载决策和轨迹具体为:
建立价值函数网络Q和策略函数网络μ,为了稳定学习过程,创建两个价值函数网络:价值函数网络Q(s,a|θQ)和目标价值函数网络Q′(s,a|θQ′);创建两个策略函数网络:策略函数网络μ(s|θμ)和目标策略函数网络μ′(s|θμ′);引入UO 随机过程作为噪声增加智能体的探索性,行为策略β为策略μ加入OU噪声产生,使用策略β进行环境探索;
初始化价值函数网络参数θQ和策略价值网络参数θμ,将两个网络参数拷贝给与其相对应的目标价值函数网络和目标策略函数网络,即θQ′←θQ,θμ′←θμ,初始化记忆回放库D;
遍历所有的episode,初始化UO随机过程,即噪声Nt,从环境中接收起始状态s1,对于每个episode,遍历所有步;在状态st时,智能体根据行为策略β选择一个at,即at=μ(stμ)+Nt;环境执行at,得到奖励rt+1和下一个状态st+1;将(st,at,rt+1,st+1)存储到记忆回放库D中,作为训练网络的数据集;
从记忆回放库D中,随机采样N个(si,αi,ri+1,si+1)作为价值函数网络和策略函数网络的一个mini-batch训练数据;
更新价值函数网络,yi=ri+1+γQ′(si+1,μ′(st+1μ′)|θQ′),定义Loss函数为 MSE,
Figure RE-GDA0003742581220000131
使用梯度下降算法更新价值函数网络的参数θQ
更新策略函数网络,策略梯度为:
Figure RE-GDA0003742581220000141
使用梯度下降算法更新策略函数网络的参数θμ
软更新目标价值函数网络和目标策略函数网络的参数θQ′,θμ′,其中,θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′
不断更新价值函数网络和策略函数网络,最终会收敛至最优策略,使用收敛了的策略函数网络即获得最优的卸载决策和轨迹联合优化方案。
本发明应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.基于深度强化学习的无人机辅助移动边缘计算优化方法,其特征在于:包括以下步骤:
S1:构造考虑地面障碍物的多无人机辅助移动边缘计算模型,无人机作为空中边缘计算服务器,为地面的移动用户设备提供服务;
S2:根据S1模型计算系统总能耗,并考虑无人机避障问题,计算出目标函数;
S3:以最小化目标函数为目标,建立深度强化学习模型;
S4:使用深度强化学习算法联合优化卸载决策和无人机轨迹。
2.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法,其特征在于:在S1中,构造考虑地面障碍物的多无人机辅助移动边缘计算模型具体为:
在系统模型中,设定在一边长为lmax的方形区域上随机分布着N个用户设备,用户设备集记作
Figure RE-FDA0003742581210000011
在该方形区域上空有M个无人机以高度H飞行,为地面设备提供服务,无人机集记作
Figure RE-FDA0003742581210000012
任务周期为T个连续的时隙,
Figure RE-FDA0003742581210000013
每个时隙的持续时间为Δ;
设定每个用户设备在每个时隙都会产生一个需要执行的任务,采用二元卸载方式定义一个卸载决策变量zn,m,t={0,1};当zn,m,t=1,m≠0时,表示在t时隙,用户n将任务卸载到无人机m;当zn,m,t=1,m=0时,表示在t时隙,用户n在本地执行计算;当zn,m,t=0时,表示其他情况;由于任务只能在一个地方执行,所以有
Figure RE-FDA0003742581210000014
设定用户n在时隙t有一个任务Sn,t需要执行,则
Figure RE-FDA0003742581210000021
其中Dn,t代表需要处理的数据量,Fn,t代表执行此任务所需要的CPU周期数,Tmax表示用户设备最大容忍执行时间;
当时隙的持续时间Δ足够小时,在时隙内无人机的位置看作不变;设定在时隙t中,每个无人机都沿着方向αm,t∈[0,2π)前进dm,t∈[0,dmax]距离;则在时隙t时,无人机m的位置为
Figure RE-FDA0003742581210000022
其中,0≤Xm,t≤lmax,0≤Ym,t≤lmax,在时隙t时,无人机m和无人机UAVm’之间的距离为:
Figure RE-FDA0003742581210000023
为了防止碰撞以及相互干扰,无人机和无人机之间设定最小距离Ru,则有:Rm,m′,t≥Ru;在时隙t时,用户设备n和无人机之间的距离为:
Figure RE-FDA0003742581210000024
设定无人机有固定的覆盖范围,只有当用户在无人机覆盖范围之内时,用户才能向无人机卸载数据,则有:zn,m,tRn,m,t≤Rmax
设定在该方形区域上存在着I个障碍物,记作
Figure RE-FDA0003742581210000025
障碍物i的中心位置为:
Figure RE-FDA0003742581210000026
为了防止无人机撞到这些障碍物,设定一个风险系数
Figure RE-FDA0003742581210000027
该风险系数表示在t时隙,障碍物i对无人机m存在的风险;设定所有障碍物的风险系数都符合高斯分布,但是不同的障碍物拥有不同的变量σi,则得到
Figure RE-FDA0003742581210000028
其中
Figure RE-FDA0003742581210000029
3.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法,其特征在于:在S2中,计算系统总能耗以及目标函数具体为:
在t时隙中,无人机m的飞行能耗为:
Figure RE-FDA0003742581210000031
其中
Figure RE-FDA0003742581210000032
表示无人机m在t时隙内的飞行速度,
Figure RE-FDA0003742581210000033
G是无人机的质量;则在t时隙,所有无人机的飞行能耗为:
Figure RE-FDA0003742581210000034
在t时隙中,当用户设备n决定将任务卸载至无人机m执行时,用户设备和无人机之间的信道增益为:
Figure RE-FDA0003742581210000035
其中β0表示参考距离d0=1m时的信道增益;用户设备的卸载速率为:
Figure RE-FDA0003742581210000036
其中,B是带宽,Pn是用户设备卸载任务的传输功率,σ2是无人机的噪声功率;卸载时间为:
Figure RE-FDA0003742581210000037
用户设备n产生的卸载能量为:
Figure RE-FDA0003742581210000038
则在t时隙,所有用户产生的卸载能耗为:
Figure RE-FDA0003742581210000039
在t时隙中,当用户设备n决定本地执行任务时,用户设备n所产生的本地计算能耗为:
Figure RE-FDA00037425812100000310
其中,
Figure RE-FDA00037425812100000311
代表计算任务所需时间,fn,0,t代表用户设备n的CPU频率,kn是与处理器芯片有关的正系数;则在t时隙,所有用户设备的本地计算能耗为:
Figure RE-FDA00037425812100000312
在t时隙中,当用户设备n将任务卸载至无人机m时,无人机m产生的计算能耗为:
Figure RE-FDA00037425812100000313
其中,
Figure RE-FDA00037425812100000314
代表计算任务所需的时间,fn,m,t代表在t时隙无人机m分配给来自用户设备n的任务的CPU频率,km是与处理器芯片有关的正系数。在t时隙,所有的无人机计算能耗为:
Figure RE-FDA00037425812100000315
在t时隙中,所有无人机避障的风险系数为:
Figure RE-FDA0003742581210000041
综合以上,在一个任务周期内,系统总能耗为:
Figure RE-FDA0003742581210000042
最终目标函数为:
Figure RE-FDA0003742581210000043
4.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法,其特征在于:在S3中,建立深度强化学习模型具体为:
将该卸载决策和轨迹联合优化问题建模为马尔可夫决策过程<S,A,R>,其中S为系统状态集,A是卸载决策以及轨迹动作集,R是奖励函数集,采用DDPG算法解决该问题;
状态集
Figure RE-FDA0003742581210000044
表示所有无人机在t时隙的位置;
动作集
Figure RE-FDA0003742581210000045
即所有无人机在t时隙的轨迹;
将奖励函数R设为目标函数的负值,即
Figure RE-FDA0003742581210000046
5.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法,其特征在于:在S4中,使用深度强化学习算法联合优化卸载决策和轨迹具体为:
建立价值函数网络Q和策略函数网络μ,为了稳定学习过程,创建两个价值函数网络:价值函数网络Q(s,a|θQ)和目标价值函数网络Q′(s,a|θQ′);创建两个策略函数网络:策略函数网络μ(s|θμ)和目标策略函数网络μ′(s|θμ′);引入UO随机过程作为噪声增加智能体的探索性,行为策略β为策略μ加入OU噪声产生,使用策略β进行环境探索;
初始化价值函数网络参数θQ和策略价值网络参数θμ,将两个网络参数拷贝给与其相对应的目标价值函数网络和目标策略函数网络,即θQ′←θQ,θμ′←θμ,初始化记忆回放库D;
遍历所有的episode,初始化UO随机过程,即噪声Nt,从环境中接收起始状态s1,对于每个episode,遍历所有步;在状态st时,智能体根据行为策略β选择一个at,即at=μ(stμ)+Nt;环境执行at,得到奖励rt+1和下一个状态st+1;将(st,at,rt+1,st+1)存储到记忆回放库D中,作为训练网络的数据集;
从记忆回放库D中,随机采样N个(si,ai,ri+1,si+1)作为价值函数网络和策略函数网络的一个mini-batch训练数据;
更新价值函数网络,yi=ri+1+γQ′(si+1,μ′(si+1μ′)|θQ′),定义Loss函数为MSE,
Figure RE-FDA0003742581210000061
使用梯度下降算法更新价值函数网络的参数θQ
更新策略函数网络,策略梯度为:
Figure RE-FDA0003742581210000062
使用梯度下降算法更新策略函数网络的参数θμ
软更新目标价值函数网络和目标策略函数网络的参数θQ′,θμ′,其中,θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′
不断更新价值函数网络和策略函数网络,最终会收敛至最优策略,使用收敛了的策略函数网络即获得最优的卸载决策和轨迹联合优化方案。
CN202210624096.3A 2022-06-02 2022-06-02 基于深度强化学习的无人机辅助移动边缘计算优化方法 Pending CN114896072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210624096.3A CN114896072A (zh) 2022-06-02 2022-06-02 基于深度强化学习的无人机辅助移动边缘计算优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210624096.3A CN114896072A (zh) 2022-06-02 2022-06-02 基于深度强化学习的无人机辅助移动边缘计算优化方法

Publications (1)

Publication Number Publication Date
CN114896072A true CN114896072A (zh) 2022-08-12

Family

ID=82725760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210624096.3A Pending CN114896072A (zh) 2022-06-02 2022-06-02 基于深度强化学习的无人机辅助移动边缘计算优化方法

Country Status (1)

Country Link
CN (1) CN114896072A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116208968A (zh) * 2022-12-30 2023-06-02 北京信息科技大学 基于联邦学习的轨迹规划方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116208968A (zh) * 2022-12-30 2023-06-02 北京信息科技大学 基于联邦学习的轨迹规划方法及装置
CN116208968B (zh) * 2022-12-30 2024-04-05 北京信息科技大学 基于联邦学习的轨迹规划方法及装置

Similar Documents

Publication Publication Date Title
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN114051254B (zh) 一种基于星地融合网络的绿色云边协同计算卸载方法
Hamidouche et al. Collaborative artificial intelligence (AI) for user-cell association in ultra-dense cellular systems
CN113377533A (zh) 无人机协助移动边缘计算中的动态计算卸载和服务器部署方法
CN113645273B (zh) 基于业务优先级的车联网任务卸载方法
CN114884949B (zh) 基于maddpg算法的低轨卫星物联网任务卸载方法
Fragkos et al. Artificial intelligence enabled distributed edge computing for Internet of Things applications
CN113115344B (zh) 基于噪声优化的无人机基站通信资源分配策略预测方法
CN114896072A (zh) 基于深度强化学习的无人机辅助移动边缘计算优化方法
Li et al. Unmanned aerial vehicle‐aided edge networks with ultra‐reliable low‐latency communications: A digital twin approach
Hwang et al. Deep reinforcement learning approach for uav-assisted mobile edge computing networks
CN113613301A (zh) 一种基于dqn的空天地一体化网络智能切换方法
CN116321293A (zh) 基于多智能体强化学习的边缘计算卸载和资源分配方法
Luo et al. Federated deep reinforcement learning for RIS-assisted indoor multi-robot communication systems
Fontanesi et al. A transfer learning approach for uav path design with connectivity outage constraint
Nasr-Azadani et al. Distillation and ordinary federated learning actor-critic algorithms in heterogeneous UAV-aided networks
CN113973113A (zh) 一种面向移动边缘计算的分布式服务迁移方法
Abdalla et al. Aerial base station positioning and power control for securing communications: A deep Q-network approach
CN116366127A (zh) 无人机辅助多mec服务器的任务完成率最大化方法
CN116684851A (zh) 基于mappo的多ris辅助车联网吞吐量提升方法
CN116321181A (zh) 一种多无人机辅助边缘计算的在线轨迹及资源优化方法
CN116137724A (zh) 一种基于移动边缘计算的任务卸载及资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination