CN116321181A - 一种多无人机辅助边缘计算的在线轨迹及资源优化方法 - Google Patents

一种多无人机辅助边缘计算的在线轨迹及资源优化方法 Download PDF

Info

Publication number
CN116321181A
CN116321181A CN202310068530.9A CN202310068530A CN116321181A CN 116321181 A CN116321181 A CN 116321181A CN 202310068530 A CN202310068530 A CN 202310068530A CN 116321181 A CN116321181 A CN 116321181A
Authority
CN
China
Prior art keywords
unmanned aerial
user
aerial vehicle
dqn
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310068530.9A
Other languages
English (en)
Inventor
胡晗
沈乐
朱晨鸣
王强
魏贤虎
彭凤强
周旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Information Consulting and Designing Institute Co Ltd
Original Assignee
China Information Consulting and Designing Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Information Consulting and Designing Institute Co Ltd filed Critical China Information Consulting and Designing Institute Co Ltd
Priority to CN202310068530.9A priority Critical patent/CN116321181A/zh
Publication of CN116321181A publication Critical patent/CN116321181A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种多无人机辅助边缘计算的在线轨迹及资源优化方法,根据用户关联约束条件,无人机飞行约束条件,子信道分配约束条件以及任务完成总时延约束条件,在动态环境马尔可夫模型下,使用所提出的HDRT算法处理优化变量,其中DDPG单元处理无人机轨迹,DQN单元处理用户决策和子信道分配,以获得最小的长期平均用户加权能耗;本发明提高了用户的上传链路速率,进而降低了用户的能耗和时延,解决了众多参数难以同时在线优化的问题,容易扩展到各种系统场景,用户可以灵活地进行卸载决策,同时无人机进行轨迹优化,为用户更好地提供服务。

Description

一种多无人机辅助边缘计算的在线轨迹及资源优化方法
技术领域
本发明涉及一种在线轨迹及资源优化方法,特别是一种多无人机辅助边缘计算的在线轨迹及资源优化方法。
背景技术
移动边缘计算技术弥补了移动设备有限的资源与移动应用程序爆炸式增长的计算需求之间的差距。移动设备能够将其计算任务卸载到与基站关联的MEC服务器上,从而降低延迟和功耗,延长移动设备的电池寿命,这解决了移动设备在延时约束下的资源受限问题,从而获得更好的用户体验。然而,在通信设施稀疏分布或发生突发自然灾害的情况下,固定基础设施提供的MEC服务不能有效地工作,这看出MEC系统的灵活性较差。
最近,无人机通信由于其在高度可控机动性方面的优势和飞行灵活性,在军事和民用应用中得到了广泛的研究。此外,无人机可以很好地配备MEC服务器。因此,无人机辅助MEC系统已被提出以弥补固定基站MEC系统的缺陷。在具有计算密集型任务的场景中,该系统为用户提供边缘计算服务以提高能源效率。在实际场景中,通过优化无人机的轨迹,可以提升相应卸载用户的上行链路数据速率,进而减少用户的能耗和延迟。论文“JointOffloading and Trajectory Design for UAV-Enabled Mobile Edge ComputingSystems”(IEEE Internet of Things Journal,vol.6,no.2,pp.1879-1892,April2019)联合优化无人机的飞行轨迹,计算卸载和用户调度,开发了一种基于惩罚的双重分解优化框架的算法,实验减少了无人机辅助MEC系统中用户的处理时延。但该论文只在场景中考虑了一架无人机,而没有考虑多无人机的场景。而论文“Optimization of Task Schedulingand Dynamic Service Strategy for Multi-UAV-Enabled Mobile-Edge ComputingSystem”(IEEE Transactions on Cognitive Communications and Networking,vol.7,no.3,pp.970-984,Sept.2021)基于传统优化方法,考虑了多无人机辅助的MEC系统中的任务调度和动态服务策略的两层优化,以最大限度地减少用户的总能耗。
对于无人机辅助的MEC系统下的问题,多无人机相较单无人机,状态和动作空间更大,采用传统优化方法处理,在状态和动作空间维度较大的情况下,导致求解比较难,也不容易收敛,并且基于凸优化的方法不能动态地卸载。因此,受到人工智能技术应用的启发,论文“Deep Reinforcement Learning based dynamic trajectory control for UAV-assisted Mobile Edge Computing”(IEEE Transactions on Mobile Computing,vol.21,no.10,pp.3536-3550,1 Oct.2022)利用DDPG算法和匹配算法分别处理无人机的轨迹、用户决策和无人机计算资源分配问题,但是该论文并没有将离散变量和连续变量同时用深度强化学习处理,同时没有考虑信道的分配。
现有研究大多基于传统优化的方法,使用了复杂的数学公式和数值优化技术,难以真正解决多变量实时联合优化问题。而在动态环境下,单一的强化学习算法又很难解决混合决策的多无人机辅助MEC场景中的问题,因此,亟需开发一种可以处理多无人机辅助的MEC系统中的动态轨迹优化和计算卸载问题的方案。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种多无人机辅助边缘计算的在线轨迹及资源优化方法。
为了解决上述技术问题,本发明公开了一种多无人机辅助边缘计算的在线轨迹及资源优化方法,包括如下步骤:
步骤1,构建多用户多无人机的移动边缘计算模型;
所述模型中包含N个用户和M个无人机,每个无人机都配备基站;用户的计算任务在用户本地或卸载到无人机上进行处理;
步骤2,根据无人机的运动轨迹,获取无人机的位置,并且计算任意两架无人机的位置,避免碰撞;
步骤3,根据不同的卸载方案,分别构建卸载计算模型和本地计算模型;
步骤4,构建优化问题,优化目标是最小化长期平均用户加权能耗;得到用户的加权能耗;
步骤5,在所述多用户多无人机的移动边缘计算模型中,根据无人机的位置,用户的计算任务,用户的卸载决策和子信道分配以及获取的用户加权能耗,建立马尔可夫过程;
步骤6,根据步骤5中建立的马尔可夫过程,利用混合决策深度强化学习算法优化所述多用户多无人机的移动边缘计算模型,利用DDPG和DQN分别处理优化问题中的连续变量和离散变量,得到无人机的飞行动作以及用户的卸载决策和子信道的分配;
步骤7,判断混合决策深度强化学习算法是否收敛,若是,则执行步骤8,否则,增加训练迭代次数并继续训练所述多用户多无人机的移动边缘计算模型;
步骤8,测试混合决策深度强化学习算法收敛后的性能,完成多无人机辅助边缘计算的在线轨迹及资源优化。
有益效果:
第一,固定基站的MEC的系统性能难以获得保证,本发明将无人机引入MEC系统,提高了MEC系统的灵活性,提高了用户的上传链路速率,进而降低了用户的能耗和时延。
第二,本发明首次在无人机辅助的MEC系统中引入混合深度强化学习算法(HDRT算法)的框架,相比于传统的优化方法,解决了众多参数难以同时在线优化的问题,提出的HDRT算法不需要使用复杂的数学公式和数值优化技术,很容易扩展到各种系统场景。
第三,本发明在无人机辅助的MEC系统中考虑所有用户的加权能耗和,考虑联合优化用户决策,子信道分配,无人机轨迹优化和资源分配,用户可以灵活地进行卸载决策,同时无人机进行轨迹优化,为用户更好地提供服务。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的流程示意图。
图2是本发明的系统模型示意图。
图3是本发明的算法结构示意图。
图4是本发明的HDRT算法中DDPG单元和DQN单元的收敛示意图。
图5是本发明算法收敛后的无人机轨迹示意图。
图6是本发明和现有其他技术在不同任务量下的用户加权能耗对比示意图。
图7是本发明和现有其他技术在不同无人机计算资源下的用户加权能耗对比示意图。
图8是本发明和现有其他技术在不同子信道个数下的用户加权能耗对比示意图。
具体实施方式
本发明提出了一种多无人机辅助边缘计算的在线轨迹及资源优化方法,如图1所示,包括如下步骤:
步骤1,构建多用户多无人机的移动边缘计算模型。
如图2所示,模型中包含N个用户和M个无人机,由集合n∈Ns={1,2,...,N}和m∈Ms={1,2,...,M}表示。每个无人机配备移动边缘计算(Mobile Edge Computing,MEC)基站。设置T个时隙,由集合t∈Ts={1,2,...,T}表示,设置N个用户和M个无人机的初始位置。N个用户和M个无人机的分布进行如下定义:所有通信节点建立三维笛卡尔坐标系,部署N个地面用户,设置用户n在时隙t产生任务
An(t)={Dn(t),Fn(t)}
其中Dn(t)表示当用户选择卸载任务时需要传输到无人机的数据的大小,Fn(t)表示执行此任务所需的CPU周期的总数。an,m(t)={0,1},其中,an,m(t)=1,m≠0表示在第t个时隙,第n个用户决定将任务卸载到第m个无人机上,an,m(t)=1,m=0和an,m(t)=0表示在第t个时隙,第n个用户决定本地执行任务。
步骤2,根据无人机的运动轨迹,获取无人机的位置,并且计算任意两架无人机的位置,以避免碰撞。
固定高度的无人机配备MEC基站可以接收信号,第m个无人机的初始坐标为[Xm(0),Ym(0),Zm],在时隙t,第m个UAV的飞行动作由飞行角度θm(t)∈[0,θmax)和飞行距离dm(t)∈[0,dmax]决定,其中θmax表示无人机可转动的最大角度,dmax表示无人机可飞行的最大距离,则第m个UAV的坐标表示为
Figure BDA0004062969640000041
Figure BDA0004062969640000042
在时隙t,第m个UAV和第m′个UAV的距离表达式为
Figure BDA0004062969640000043
步骤3,根据不同的卸载方案,分别构建卸载计算模型和本地计算模型。
第n个用户的坐标表示为[xn,yn],如果在时隙t,第n个用户选择卸载任务到第m个无人机上,则用户n与对应无人机m的水平距离表示为
Figure BDA0004062969640000051
在计算卸载过程中,本发明应用正交频分复用(Orthogonal Frequency DivisionMultiplexing,OFDM)方案,将信道分为若干带宽相同的个子信道,子信道分配指示变量用δn,k(t)∈{0,1}表示,δn,k(t)=1表示第k个子信道被分配给第n个用户,否则δn,k(t)=0,然后得到第n个用户对应第m个无人机的上行数据速率,可表示为
Figure BDA0004062969640000052
其中B是子信道带宽,PTr表示第n个用户的发射功率,
Figure BDA0004062969640000053
g0表示参考距离1m处的信道功率增益,G0表示天线增益,σ2表示噪声功率。
如果在时隙t,第n个用户选择卸载计算到第m个无人机上,花费的总时间表示为
Figure BDA0004062969640000054
其中
Figure BDA0004062969640000055
是在时隙t,第n个用户卸载数据到第m个无人机的上传时间,为
Figure BDA0004062969640000056
Figure BDA0004062969640000057
是无人机计算第n个用户的任务所需的计算时间,表示为
Figure BDA0004062969640000058
其中
Figure BDA0004062969640000059
指在时隙t,第m个无人机提供给相对应用户的计算资源,表示为
Figure BDA00040629696400000510
其中fmax是每个时隙无人机可提供给用户的最大计算资源。忽略了无人机将计算结果返回给用户的时间。则第n个用户卸载数据到第m个无人机的卸载计算总的能耗表示为
Figure BDA00040629696400000511
如果在时隙t,第n个用户选择本地计算,则本地计算花费的时间表示为
Figure BDA00040629696400000512
其中
Figure BDA00040629696400000513
表示第n个用户本地执行任务用到的计算资源,本地计算花费的能耗表示为
Figure BDA0004062969640000061
其中kn是有效电容系数,
Figure BDA0004062969640000062
是功耗,vn是根据芯片体系结构而预先配置的模型参数。
为了便于统计,卸载总时间表示为
Figure BDA0004062969640000063
步骤4,目标是最小化长期平均用户加权能耗,构建优化问题。
长期平均用户加权能耗最小化表示为:
Figure BDA0004062969640000064
约束条件为:
Figure BDA0004062969640000065
Figure BDA0004062969640000066
Figure BDA0004062969640000067
Figure BDA0004062969640000068
Figure BDA0004062969640000069
Figure BDA00040629696400000610
Figure BDA00040629696400000611
Figure BDA00040629696400000612
Figure BDA00040629696400000613
Figure BDA00040629696400000614
Figure BDA00040629696400000615
Figure BDA00040629696400000616
其中,Cmax表示每架无人机可服务的最大用户数量。θmax表示无人机可转动的最大角度。dmax表示无人机可飞行的最大距离。Rmax表示限定的矩形区域最大边界值。Rmin表示任意两架无人机之间的最小距离。K表示每个用户可占用的最大子信道个数。Tmax表示每个任务完成的最大时延允许。
步骤5,根据无人机辅助的MEC系统中的无人机的位置,用户的计算任务,用户的卸载决策和子信道分配以及获取的用户加权能耗,建立马尔可夫过程。
建立马尔可夫过程为:
状态空间S:环境中的状态分为输入深度确定性策略梯度(Deep DeterministicPolicy Gradient,DDPG)的状态
Figure BDA0004062969640000071
和输入深度Q网络(Deep Q Network,DQN)的状态/>
Figure BDA0004062969640000072
输入DDPG的状态包含了无人机位置,输入DQN的状态包含了无人机位置和用户的任务量。
动作空间A:DDPG单元的输出动作
Figure BDA0004062969640000073
由无人机的运动轨迹构成,DQN的输出动作/>
Figure BDA0004062969640000074
由用户决策和子信道分配构成。
即时奖励r:考虑到用户的加权上传能耗和无人机的碰撞,DDPG单元奖励定义为
Figure BDA0004062969640000075
其中
Figure BDA0004062969640000076
表示用户卸载计算能耗,ρ表示无人机惩罚,即无人机飞出目标区域或者任意两架无人机的间距小于指定最小距离。DQN奖励被定义为所有用户在各时隙的加权能耗和,写作
Figure BDA0004062969640000077
其中an,m(t)表示用户卸载决策,
Figure BDA0004062969640000078
表示用户卸载计算能耗,En(t)表示用户本地计算能耗。
步骤6,如图3所示,利用所提出的混合决策深度强化学习算法(HDRT算法),利用DDPG(参考:论文“Deep Reinforcement Learning based dynamic trajectory controlfor UAV-assisted Mobile Edge Computing”(IEEE Transactions on MobileComputing,vol.21,no.10,pp.3536-3550,1 Oct.2022))和DQN(参考:论文“Semi-Distributed Resource Management in UAV-Aided MEC Systems:A Multi-AgentFederated Reinforcement Learning Approach”(IEEE Transactions on VehicularTechnology,vol.70,no.12,pp.13162-13173,Dec.2021))分别处理优化问题中的连续变量和离散变量;
步骤6.1,初始化经验池
Figure BDA00040629696400000826
步骤6.2,初始化DDPG单元中的actor网络即演员网络π(st;μ)和目标actor网络即目标演员网络π(st;μ-)和critic网络即评论家网络Q(st,at;θ)和目标critic网络即目标评论家网络Q(st,at;θ-);
步骤6.3,初始化DQN单元中的估计网络Q(st,at;χ)和目标网络Q(st,at;χ-);
步骤6.4,初始化迭代次数Episode为1;
步骤6.5,初始化迭代时隙为1;
步骤6.6,初始化DDPG单元和DQN单元的状态
Figure BDA0004062969640000081
和/>
Figure BDA0004062969640000082
步骤6.7,预设暂存DQN单元中的状态、动作和奖励的值dqn_s,dqn_a,dqn_r;
步骤6.8,DDPG单元根据
Figure BDA0004062969640000083
获取动作,其中N′中表示一个服从正态分布的随机噪声,获取/>
Figure BDA0004062969640000084
并更新/>
Figure BDA0004062969640000085
步骤6.9,判断时隙数是否大于1,如果是,将
Figure BDA0004062969640000086
将存入经验池;
步骤6.10,DQN单元根据贪婪策略选取动作
Figure BDA0004062969640000087
如果概率小于或等于ε,则选择DQN单元的估计网络输出的动作,否则随机选择一个动作;
步骤6.11,DDPG单元与DQN单元分别与环境进行交互获得奖励
Figure BDA0004062969640000088
步骤6.12,根据输入的状态
Figure BDA0004062969640000089
Actor在线网络获得连续动作/>
Figure BDA00040629696400000810
步骤6.13,将
Figure BDA00040629696400000811
将存入经验池/>
Figure BDA00040629696400000812
中;
步骤6.14,判断训练过程是否开始,若是则进入(6.15),若不是则t=t+1;
步骤6.15,从经验池
Figure BDA00040629696400000813
中随机采样一批数量/>
Figure BDA00040629696400000814
的样本构成数据集(si,ai,ri,si+1),发送给DDPG单元和DQN单元;
步骤6.16,DDPG单元的Actor估计网络根据状态
Figure BDA00040629696400000815
得到动作/>
Figure BDA00040629696400000816
将状态
Figure BDA00040629696400000817
和得到的动作/>
Figure BDA00040629696400000818
输入Critic估计网络,获得/>
Figure BDA00040629696400000819
根据
Figure BDA00040629696400000820
来对Actor估计网络参数μ进行更新,结合奖励/>
Figure BDA00040629696400000821
利用/>
Figure BDA00040629696400000822
对Critic估计网络参数进行更新,其中γ1是折扣因子;
步骤6.17,DQN单元的估计网络根据状态
Figure BDA00040629696400000823
和动作/>
Figure BDA00040629696400000824
得到对应的/>
Figure BDA00040629696400000825
目标DQN网络根据状态/>
Figure BDA0004062969640000091
得到对应的/>
Figure BDA0004062969640000092
结合奖励/>
Figure BDA0004062969640000093
在线DQN网络通过最小化损失函数:
Figure BDA0004062969640000094
更新网络参数,其中γ2是折扣因子;
步骤6.18,每间隔W步将DQN估计网络参数的值赋给DQN目标网络参数;
步骤6.19,采用软更新的方式,利用Actor估计网络参数μ更Actor目标网络中参数μ-,利用Critic估计网络参数θ更新Critic目标网络中参数θ-
步骤6.20,判断是否满足轮小于kmax,若是,则Episode+1,返回(6.5),若不是,则优化结束,得到优化后的多用户多无人机的移动边缘计算模型。
步骤7,判断算法是否收敛,若是,则继续执行后续步骤,否则,增加训练迭代次数并继续训练网络;所述判断算法是否收敛的具体方法包括:算法收敛后的输出结果也不是唯一的,在奖励上升至一定程度后,之后每个回合相较上个回合的变化不大则可认为收敛,可详见附图4(a)和4(b),即和预期最大可能达到的奖励相差不大即可。
根据训练完成后的混合深度强化学习模型获得优化的解,得到系统的加权用户能耗。输入当前的系统状态
Figure BDA0004062969640000095
深度强化学习可以根据模型学习到最优的动作/>
Figure BDA0004062969640000096
得到最优无人机的轨迹,用户决策和子信道分配。
下面结合仿真实验对本发明的效果做进一步说明。
1、仿真条件:
本发明的仿真实验在Python3.7,Tensorflow1.14的仿真平台上进行的。计算机CPU型号为因特尔酷睿i5,显卡型号为英伟达GeForce GTX960M。本发明中用户个数N设置为3,无人机个数M设置为2,无人机高度为Zm=75m,可服务于目标区域边长为Rmax=400m。每回合的时隙长度为T=60,最大时延允许为Tmax=1s。子信道个数为K=3,子信道带宽为B=2Mhz。用户n在时隙t中生成的每个计算任务的大小Dn(t)均匀分布在10KB与12.5KB之间,所需的CPU周期Fn(t)均匀分布在2×109cycles与2.5×109cycles之间。每架无人机每个时隙可服务的最大用户数量为Cmax=2。每个无人机每时隙可飞行的最大近距离dmax=30m,可转动的最大角度θmax=2π。两架无人机应该保持的最小距离Rmin=1m。对于卸载计算,发射功率PTr=0.1W,天线增益G0=2.2846,噪声功率σ2=-90dBm,无人机计算资源为fmax=50GHz,参考距离1m处的信道功率增益g0=1.42×10-4。对于本地计算,用户的计算资源为
Figure BDA0004062969640000101
Figure BDA0004062969640000102
有效电容系数kn=10-28,芯片体系结构而预先配置的模型参数vn=3。
本发明提出的混合深度强化学习算法(HDRT算法)中,DDPG单元的actor和critic的估计网络和目标网络都包含了两个全连接的隐藏层,分别有256和128个神经元。actor网络和critic网络的学习率分别为0.0001和0.001。AdamOptimizer优化器用于更新actor和critic的估计网络。惩罚值为ρ=0.01,随机噪声为N′(0,2),噪声的衰减率为0.99995。折扣因子γ1=0.99,软更新的参数为τ=0.001。DQN单元的估计网络和目标网络都包含了两个全连接的隐藏层,分别有100和20个神经元。AdamOptimizer优化器用于更新DQN的估计网络,学习率为0.001。折扣因子γ2=0.9,在开始训练后每个时隙增加0.0001,直至增加到0.99。DQN目标网络更新间隔W=100。
最大回合数kmax=3000,经验池大小为
Figure BDA0004062969640000103
经验池抽取的尺寸为S=64。
2、仿真内容:
参照附图4(a)、4(b),显示了在本发明算法下,不同智能体在每回合内的平均奖励。横坐标表示回合数,纵坐标表示环境返回的平均奖励。整个训练设置为3000个回合,每回合包含60个时隙。在每一回合中,每个智能体不断地进行决策和与环境的交互,并根据环境反馈更新网络模型。可以看出,DDPG单元和DQN单元的奖励随着训练次数的增加而不断增加,并最终趋于收敛。可以看出,DDPG单元在300个回合后奖励急剧增加,并在1000个回合后逐渐趋于稳定。此外,DQN单元在学习过程开始后开始收敛,在300个回合后逐渐趋于稳定。原因是,在训练开始之前,DQN单元的输出动作不稳定。当无人机向用户密集区域飞行时,DQN单元在一个相对稳定的状态下做出决策。同时,收到无人机相对固定的轨迹影响,DQN单元获得的奖励也趋于稳定。然后,通过DQN单元的稳定输出,基本确定了无人机的运动轨迹。在那之后,DDPG单元也获得了一个稳定的奖励。
参照附图5,可以观察到本发明下的无人机轨迹图。横纵坐标分别表示二维坐标系中的x轴和y轴。用户在固定的位置,在几个时隙内,无人机从初始坐标飞到用户密集型的地方提供服务,这是由于本发明提出的HDRT算法可以指导无人机做出正确的决策。具体来说,为了降低用户的传输能耗,获得更高的奖励,DDPG单元可以做出适当的决策,在算法收敛后,动态地优化无人机轨迹,短时间内即可指挥无人机到其适当的区域。
附图6采用了本发明和现有技术在不同平均任务大小的用户加权能耗性能对比图。以正三角形和圆形标示的折线分别表示采用本发明方法控制的一架和两架无人机在不同平均任务大小的用户加权能耗,以矩形和倒三角形标示的折线分别表示采用随机方法控制的一架和两架无人机在不同平均任务大小的用户加权能耗,以五角星和菱形标示的折线分别表示采用DQN方法控制的一架和两架无人机在不同平均任务大小的用户加权能耗。通过比较几种方法得到的用户加权能耗,可以看出,在不同平均任务大小的情况下,无论是在一架无人机还是多架无人机的场景下,本发明方法的用户加权能耗明显低于其他几种方法,并且随着平均用户任务量的增加,本发明方法的性能优势与其他几种方法相比更明显。
附图7采用了本发明和现有技术在不同无人机计算资源下的用户加权能耗性能对比图。以正三角形和圆形标示的折线分别表示采用本发明方法控制的一架和两架无人机在不同无人机计算资源下的用户加权能耗,以矩形和倒三角形标示的折线分别表示采用随机方法控制的一架和两架无人机在不同无人机计算资源下的用户加权能耗,以五角星和菱形标示的折线分别表示采用DQN方法控制的一架和两架无人机在不同无人机计算资源下的用户加权能耗。通过比较几种方法得到的用户加权能耗,可以看出,在无人机计算资源较低时,本发明方法在降低用户加权能耗方面有更好的表现。本发明方法控制的一架无人机的方案性能更优于随机方法控制的两架无人机方案。当无人机计算资源的增加到一定程度时,本发明方法控制的两架无人机方案的用户加权能耗明显低于其他几种方法,具有更好的性能优势。
附图8采用了本发明和现有技术在不同子信道个数下的用户加权能耗性能对比图。以正三角形和圆形标示的折线分别表示采用本发明方法控制的一架和两架无人机在不同子信道个数下的用户加权能耗,以矩形和倒三角形标示的折线分别表示采用随机方法控制的一架和两架无人机在不同子信道个数下的用户加权能耗,以五角星和菱形标示的折线分别表示采用DQN方法控制的一架和两架无人机在不同子信道个数下的用户加权能耗。通过比较几种方法得到的用户加权能耗,可以看出,当子信道个数为2时,系统不足以服务所有用户,本发明方法控制的两架无人机方案性能略优于其他方法。当子信道个数增加到一定程度,并且可以覆盖到所有用户时,本发明方法控制的两架无人机方案在减小用户加权能耗方面对比其他方法有显著的提高,体现了性能优势。
综合上述仿真结果和分析,本发明所提出的用于最小化长期平均用户加权能耗的最佳轨迹控制和资源优化方法,可以动态进行卸载,并且可以保证系统获得最小的用户加权能耗,节省了用户的能量开销,提升了服务质量,这使得本发明在实际中能更好的得到应用。
具体实现中,本申请提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种多无人机辅助边缘计算的在线轨迹及资源优化方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机,MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种多无人机辅助边缘计算的在线轨迹及资源优化方法。的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,包括如下步骤:
步骤1,构建多用户多无人机的移动边缘计算模型;
所述模型中包含N个用户和M个无人机,每个无人机都配备基站,分别用集合n∈Ns={1,2,…,N}和m∈Ms={1,2,…,M}表示;用户的计算任务在用户本地或卸载到无人机上进行处理;
步骤2,根据无人机的运动轨迹,获取无人机的位置,并且计算任意两架无人机的位置,避免碰撞;
步骤3,根据不同的卸载方案,分别构建卸载计算模型和本地计算模型;
步骤4,构建优化问题,优化目标是最小化长期平均用户加权能耗;
步骤5,在所述多用户多无人机的移动边缘计算模型中,根据无人机的位置,用户的计算任务,用户的卸载决策和子信道分配以及获取的用户加权能耗,建立马尔可夫过程;
步骤6,根据步骤5中建立的马尔可夫过程,利用混合决策深度强化学习算法优化所述多用户多无人机的移动边缘计算模型,利用DDPG和DQN分别处理优化问题中的连续变量和离散变量,得到无人机的飞行动作以及用户的卸载决策和子信道的分配;
步骤7,判断混合决策深度强化学习算法是否收敛,若是,则执行步骤8,否则,增加训练迭代次数并继续训练所述多用户多无人机的移动边缘计算模型;
步骤8,测试混合决策深度强化学习算法收敛后的性能,完成多无人机辅助边缘计算的在线轨迹及资源优化。
2.根据权利要求1所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤1所述的构建多用户多无人机的移动边缘计算模型,具体包括:
设置T个时隙,集合为t∈Ts={1,2,…,T},设置N个用户和M个无人机的初始位置,每个无人机配备MEC基站;获取用户和无人机的间的相对位置;每个时隙中,用户产生一个计算任务,根据卸载决策确定用户的任务执行方式;所述任务执行方式包括用户本地计算和用户卸载计算,具体如下:
采用用户本地计算时,计算本地计算时延和本地计算能耗;采用用户卸载计算时,根据子信道分配指示器获取每个用户分配到的子信道个数,计算采用用户卸载计算方式的用户的上传速率,并计算卸载计算上传时延和任务执行时延,计算卸载计算能耗。
3.根据权利要求2所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤3所述的分别构建卸载计算模型和本地计算模型,具体方法如下:
步骤3-1,构建卸载计算模型并进行计算,计算用户n与对应无人机m的水平距离,结合分配给用户n的子信道个数,得到用户n与对应无人机m的上传速率,计算相应的传输时延、卸载计算时延以及卸载计算能耗;
步骤3-2,构建本地计算模型并进行计算,计算本地计算时延以及本地计算能耗。
4.根据权利要求3所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤3-1所述构建卸载计算模型并进行计算,具体方法包括:
第n个用户的坐标表示为[xn,yn],如果在时隙t,第n个用户选择卸载任务到第m个无人机上,则用户n与对应无人机m的水平距离ln,m(t)表示为:
Figure FDA0004062969630000021
其中,Xm(t)表示无人机m二维坐标系中的横坐标,Ym(t)表示无人机m二维坐标系中的纵坐标;
在计算卸载过程中,将信道分为K个带宽相同的个子信道,用集合k∈Ks={1,2,…,K}表示,子信道分配指示变量用δn,k(t)∈{0,1}表示,δn,k(t)=1表示第k个子信道被分配给第n个用户,否则δn,k(t)=0,得到第n个用户对应第m个无人机的上行数据速率rn,m(t),表示为:
Figure FDA0004062969630000022
其中,B是子信道带宽,PTr表示第n个用户的发射功率,参数
Figure FDA0004062969630000023
g0表示参考距离1m处的信道功率增益,G0表示天线增益,σ2表示噪声功率;
在时隙t,第n个用户选择卸载计算到第m个无人机上,则花费的总时间
Figure FDA0004062969630000024
表示为:
Figure FDA0004062969630000025
其中,
Figure FDA0004062969630000026
是在时隙t,第n个用户卸载数据到第m个无人机的上传时间,为:
Figure FDA0004062969630000031
其中,Dn(t)表示户n选择卸载计算时需要传输到无人机的数据大小;
Figure FDA0004062969630000032
是无人机计算第n个用户的任务所需的计算时间,表示为:
Figure FDA0004062969630000033
其中,Fn(t)表示用户n执行任务所需的CPU周期的总数,
Figure FDA0004062969630000034
指在时隙t,第m个无人机提供给相对应用户的计算资源,表示为:
Figure FDA0004062969630000035
其中,fmax是每个时隙无人机提供给用户的最大计算资源,an,m(t)表示用户决策,an,m(t)={0,1},其中,an,m(t)=1,m≠0表示在第t个时隙,第n个用户决定将任务卸载到第m个无人机上,an,m(t)=1,m=0和an,m(t)=0表示在第t个时隙,第n个用户决定本地执行任务;忽略无人机将计算结果返回给用户的时间,则第n个用户卸载数据到第m个无人机的卸载计算总的能耗
Figure FDA0004062969630000036
表示为:
Figure FDA0004062969630000037
5.根据权利要求4所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤3-2,构建本地计算模型并进行计算,具体方法包括:
如果在时隙t,第n个用户选择本地计算,则本地计算花费的时间
Figure FDA0004062969630000038
表示为:
Figure FDA0004062969630000039
其中,
Figure FDA00040629696300000310
表示第n个用户本地执行任务用到的计算资源,本地计算花费的能耗/>
Figure FDA00040629696300000311
表示为:
Figure FDA00040629696300000312
其中,kn是有效电容系数,
Figure FDA00040629696300000313
是功耗,vn是预先配置的模型参数;
则任务完成时间Ttotal(t)表示为:
Figure FDA00040629696300000314
6.根据权利要求5所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤4所述的构建优化问题,具体方法包括:
通过优化无人机轨迹、用户关联与子信道分配,构建优化问题,目标是最小化长期平均用户加权能耗,即:
Figure FDA0004062969630000041
约束条件为:
Figure FDA0004062969630000042
Figure FDA0004062969630000043
Figure FDA0004062969630000044
Figure FDA0004062969630000045
Figure FDA0004062969630000046
Figure FDA0004062969630000047
Figure FDA0004062969630000048
Figure FDA0004062969630000049
Figure FDA00040629696300000410
Figure FDA00040629696300000411
Figure FDA00040629696300000412
Figure FDA00040629696300000413
其中,an,m(t)表示用户决策,
Figure FDA00040629696300000414
表示用户卸载计算能耗,En(t)表示用户本地计算能耗,Cmax表示每架无人机服务的最大用户数量,θm(t)表示第m架无人机的转动角度,θmax表示无人机转动的最大角度,θm(t)表示第m架无人机的飞行距离,dmax表示无人机飞行的最大距离,Xm(t)和Ym(t)表示第m架无人机二维坐标系中的横坐标和纵坐标,Rmax表示限定的矩形区域最大边界值,Rm,m,(t)表示第m架无人机和第m’架无人机之间的距离,Rmin表示任意两架无人机之间的最小距离,δn,k(t)表示子信道分配指示器,K表示每个用户占用的最大子信道个数,Ttotal(t)表示每个时隙任务完成花费的时间,Tmax表示每个时隙任务全部完成的最大时延允许。
7.根据权利要求6所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤5所述的建立马尔可夫过程,具体方法如下:
状态空间S:环境中的状态分为输入DDPG单元的状态
Figure FDA0004062969630000051
和输入DQN单元的状态/>
Figure FDA0004062969630000052
输入DDPG单元的状态/>
Figure FDA0004062969630000053
包括无人机的位置,输入DQN单元的状态/>
Figure FDA0004062969630000054
包括无人机的位置和用户的任务量;
动作空间A:DDPG单元的输出动作
Figure FDA0004062969630000055
由无人机的运动轨迹构成,DQN的输出动作/>
Figure FDA0004062969630000056
由用户决策和子信道分配构成;
即时奖励r:考虑用户加权能耗和无人机的碰撞,DDPG单元的奖励
Figure FDA0004062969630000057
定义为:
Figure FDA0004062969630000058
其中,ρ表示无人机惩罚,即无人机飞出目标区域或者任意两架无人机的间距小于指定最小距离;DQN单元的奖励
Figure FDA0004062969630000059
定义为所有用户在各时隙的加权能耗和,表示为:
Figure FDA00040629696300000510
8.根据权利要求7所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤6所述的利用混合决策深度强化学习算法优化所述多用户多无人机的移动边缘计算模型,即引入DDPG算法和DQN算法,构建混合决策深度强化学习算法,在每个时隙开始时,采用DDPG算法的DDPG单元处理无人机的轨迹优化问题,即处理连续变量,并得到无人机的轨迹,获取新的无人机位置,结合用户的计算任务,作为状态输入采用DQN算法的DQN单元,并输出离散动作,得到用户决策和子信道分配策略;根据得到的用户决策和子信道分配策略计算相应的用户能耗,用户能耗包括本地计算能耗和卸载计算能耗,并根据无人机位置的约束条件判断是否触发惩罚项,即无人机是否飞出目标区域以及任意两架无人机的相对位置是否小于规定阈值,获取更新所述多用户多无人机的移动边缘计算模型的奖励。
9.根据权利要求8所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤6中所述的利用DDPG和DQN分别处理优化问题中的连续变量和离散变量,具体方法包括:
步骤6-1,初始化经验池D;
步骤6-2,初始化DDPG单元中的actor网络π(st;μ)、目标actor网络π(st;μ-)、critic网络Q(st,at;θ)和目标critic网络Q(st,at;θ-);其中,st表示在第t个时隙输入DDPG单元的状态,μ表示actor网络的参数,μ-表示目标actor网络的参数,at表示在第t个时隙DDPG单元输出的动作,θ表示critic网络的参数,θ-表示目标critic网络的参数;
步骤6-3,初始化DQN单元中的估计网络Q(st,at;χ)和目标网络Q(st,at;χ-);其中,χ表示DQN单元中估计网络的参数,χ-表示DQN单元中目标网络的参数;
步骤6-4,初始化迭代次数Episode为1;
步骤6-5,初始化迭代时隙为1;
步骤6-6,初始化DDPG单元和DQN单元的状态
Figure FDA0004062969630000061
和/>
Figure FDA0004062969630000062
步骤6-7,预设暂存DQN单元中的状态dqn_s、动作dqn_a和奖励的值dqn_r;
步骤6-8,DDPG单元根据
Figure FDA0004062969630000063
获取动作,其中N′中表示一个服从正态分布的随机噪声,获取t+1时隙输入DDPG单元的状态/>
Figure FDA0004062969630000064
并更新t时隙输入DQN单元的状态/>
Figure FDA0004062969630000065
步骤6-9,判断时隙数是否大于1,如果是,将数据
Figure FDA0004062969630000066
存入经验池;
步骤6-10,DQN单元根据贪婪策略选取动作
Figure FDA0004062969630000067
如果概率小于或等于阈值ε,则选择DQN单元的估计网络输出的动作,否则随机选择一个动作;
步骤6-11,DDPG单元与DQN单元分别与环境进行交互获得DDPG单元的奖励
Figure FDA0004062969630000068
和DQN单元的奖励/>
Figure FDA0004062969630000069
步骤6-12,根据输入的状态
Figure FDA00040629696300000610
Actor在线网络获得连续动作/>
Figure FDA00040629696300000611
步骤6-13,将数据
Figure FDA00040629696300000612
将存入经验池/>
Figure FDA00040629696300000615
中;
步骤6-14,判断训练过程是否开始,若是则进入步骤6-15,否则t=t+1;
步骤6-15,从经验池
Figure FDA00040629696300000613
中随机采样数量为/>
Figure FDA00040629696300000614
的样本构成数据集(si,ai,ri,si+1),发送给DDPG单元和DQN单元;其中,si表示样本的状态,ai表示样本的动作,ri表示样本的奖励,si+1表示样本的下一状态,i表示样本的索引;
步骤6-16,DDPG单元的Actor网络根据状态
Figure FDA0004062969630000071
得到动作/>
Figure FDA0004062969630000072
将状态/>
Figure FDA0004062969630000073
和得到的动作/>
Figure FDA0004062969630000074
输入Critic网络,获得/>
Figure FDA0004062969630000075
对Actor网络参数μ进行更新,方法如下:
Figure FDA0004062969630000076
结合奖励
Figure FDA0004062969630000077
对Critic网络参数进行更新,方法如下:
Figure FDA0004062969630000078
其中,L(θ)表示损失函数,γ1是折扣因子;
步骤6-17,DQN单元的估计网络根据状态
Figure FDA0004062969630000079
和动作/>
Figure FDA00040629696300000710
得到对应的/>
Figure FDA00040629696300000711
目标DQN网络根据状态/>
Figure FDA00040629696300000712
得到对应的/>
Figure FDA00040629696300000713
结合奖励/>
Figure FDA00040629696300000714
在线DQN网络通过最小化损失函数L(χ)更新网络参数,方法如下:
Figure FDA00040629696300000715
其中,γ2是折扣因子;
步骤6-18,每间隔W步将DQN估计网络参数的值赋给DQN目标网络参数;
步骤6-19,采用软更新的方式,即利用Actor估计网络参数μ更新Actor目标网络中参数μ-,利用Critic估计网络参数θ更新Critic目标网络中参数θ-
步骤6-20,判断是否满足轮数小于阈值kmax,若是,则回合数Episode+1,返回步骤6-5,否则优化结束,得到优化后的多用户多无人机的移动边缘计算模型。
10.根据权利要求9所述的一种多无人机辅助边缘计算的在线轨迹及资源优化方法,其特征在于,步骤8中所述的完成多无人机辅助边缘计算的在线轨迹及资源优化,即根据优化后的混合深度强化学习模型获得优化的解,得到系统的加权用户能耗;输入当前的系统状态
Figure FDA00040629696300000716
深度强化学习根据模型学习到最优的动作/>
Figure FDA00040629696300000717
得到无人机的轨迹,用户决策和子信道分配。
CN202310068530.9A 2023-02-06 2023-02-06 一种多无人机辅助边缘计算的在线轨迹及资源优化方法 Pending CN116321181A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310068530.9A CN116321181A (zh) 2023-02-06 2023-02-06 一种多无人机辅助边缘计算的在线轨迹及资源优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310068530.9A CN116321181A (zh) 2023-02-06 2023-02-06 一种多无人机辅助边缘计算的在线轨迹及资源优化方法

Publications (1)

Publication Number Publication Date
CN116321181A true CN116321181A (zh) 2023-06-23

Family

ID=86829557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310068530.9A Pending CN116321181A (zh) 2023-02-06 2023-02-06 一种多无人机辅助边缘计算的在线轨迹及资源优化方法

Country Status (1)

Country Link
CN (1) CN116321181A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117793805A (zh) * 2024-02-27 2024-03-29 厦门宇树康信息技术有限公司 动态用户随机接入的移动边缘计算资源分配方法与系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117793805A (zh) * 2024-02-27 2024-03-29 厦门宇树康信息技术有限公司 动态用户随机接入的移动边缘计算资源分配方法与系统
CN117793805B (zh) * 2024-02-27 2024-04-26 厦门宇树康信息技术有限公司 动态用户随机接入的移动边缘计算资源分配方法与系统

Similar Documents

Publication Publication Date Title
CN110377353B (zh) 计算任务卸载系统与方法
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
Huang et al. Joint computation offloading and resource allocation for edge-cloud collaboration in internet of vehicles via deep reinforcement learning
CN113032904B (zh) 模型构建方法、任务分配方法、装置、设备及介质
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN114615265B (zh) 边缘计算环境下基于深度强化学习的车载任务卸载方法
CN113254188B (zh) 调度优化方法和装置、电子设备及存储介质
CN115278729B (zh) 一种海洋物联网中无人机协作数据收集与数据卸载方法
CN113543342B (zh) 基于noma-mec强化学习资源分配与任务卸载方法
CN115827108B (zh) 基于多目标深度强化学习的无人机边缘计算卸载方法
CN115640131A (zh) 一种基于深度确定性策略梯度的无人机辅助计算迁移方法
CN117499867A (zh) 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法
Sha et al. DRL-based task offloading and resource allocation in multi-UAV-MEC network with SDN
CN116723548A (zh) 一种基于深度强化学习的无人机辅助计算卸载方法
CN116321181A (zh) 一种多无人机辅助边缘计算的在线轨迹及资源优化方法
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN117858015A (zh) 基于深度强化学习的空中边缘计算数据安全传输及资源分配方法
CN117573383B (zh) 一种基于分布式多智能体自主决策的无人机资源管理方法
Hwang et al. Deep reinforcement learning approach for uav-assisted mobile edge computing networks
CN116582836B (zh) 一种任务卸载与资源分配方法、设备、介质和系统
CN115967430A (zh) 一种基于深度强化学习的成本最优空地网络任务卸载方法
Sharma et al. Feel-enhanced edge computing in energy constrained uav-aided iot networks
CN114513814A (zh) 基于无人机辅助节点的边缘网络计算资源动态优化方法
CN114520991A (zh) 基于无人机集群的边缘网络自适应部署方法
Cheng et al. An O-MAPPO scheme for joint computation offloading and resources allocation in UAV assisted MEC systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination