CN114520991A - 基于无人机集群的边缘网络自适应部署方法 - Google Patents

基于无人机集群的边缘网络自适应部署方法 Download PDF

Info

Publication number
CN114520991A
CN114520991A CN202210100522.3A CN202210100522A CN114520991A CN 114520991 A CN114520991 A CN 114520991A CN 202210100522 A CN202210100522 A CN 202210100522A CN 114520991 A CN114520991 A CN 114520991A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
user
vehicle cluster
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210100522.3A
Other languages
English (en)
Other versions
CN114520991B (zh
Inventor
鲍宁海
高鹏雷
陈奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210100522.3A priority Critical patent/CN114520991B/zh
Publication of CN114520991A publication Critical patent/CN114520991A/zh
Application granted granted Critical
Publication of CN114520991B publication Critical patent/CN114520991B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0226Traffic management, e.g. flow control or congestion control based on location or mobility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0925Management thereof using policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • H04W28/0967Quality of Service [QoS] parameters
    • H04W28/0975Quality of Service [QoS] parameters for reducing delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/08Trunked mobile radio systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Traffic Control Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明请求保护一种基于无人机集群的边缘网络自适应部署方法,属于通信技术领域。针对地面网络设施受损或故障,导致边缘网络资源缺失的问题,提出一种面向地面移动用户的无人机边缘节点自适应部署方法。根据各无人机的有效覆盖范围、地面用户位置分布以及任务卸载需求,采用深度强化学习方法自适应规划无人机集群的巡航轨迹,并动态调整用户的卸载任务调度,最大化巡航过程中的用户连通性和机载资源利用率,有效降低平均任务卸载时延。

Description

基于无人机集群的边缘网络自适应部署方法
技术领域
本发明属于通信技术领域,具体涉及一种基于无人机集群的边缘网络自适应部署方法。
背景技术
无人机作为下一代网络的重要组成部分,在应对复杂场景下的应急通信问题具有显著优势。当地面网络设施遭受破坏或出现故障时,可利用无人机快速建立低空边缘网络平台,有效地为地面移动用户提供必要的通信与计算服务。由于地面移动用户的分布与任务卸载请求具有明显的动态时变特征,低空无人机网络的资源部署也应具备自适应动态调整的能力。近年来,机器学习技术迅速发展,为解决无人机的移动性问题提供了新的途径。机器学习算法能够根据无人机当前的用户分布,无人机自身位置信息自适应巡航,有效解决无人机的路径规划问题。
本发明针对地面网络设施受损或故障,导致边缘网络资源缺失的问题,提出一种面向地面移动用户的无人机边缘节点自适应部署方法。根据各无人机的有效覆盖范围、地面用户位置分布以及任务卸载需求,采用深度强化学习方法自适应规划无人机集群的巡航轨迹,并动态调整用户的卸载任务调度,最大化巡航过程中的用户连通性和机载资源利用率,有效降低平均任务卸载时延。
发明内容
本发明旨在解决以上现有技术的问题。提出一种基于无人机集群的边缘网络自适应部署方法。本发明的技术方案如下:
一种基于无人机集群的边缘网络自适应部署方法,其具体包括以下步骤:
101、设立无人机集群I={i},地面用户集J={j},i、j分别表示无人机i和用户j,将无人机集群巡航时间离散为时隙,设立时隙变量k,构造无人机集群与用户状态向量sk、无人机集群动作向量ak、无人机集群动作收益函数rk,其中,sk,ak,rk均随时隙数k的增加发生相应的转移和变化,初始化时隙变量k=0;
102、在无人机集群控制智能体中,基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块;
103、令k=k+1,如果无人机集群I在连续n个时隙内未发生三维坐标位置变化,跳转到步骤106,否则,根据每架无人机i的有效覆盖范围及剩余可用计算资源,确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集
Figure BDA0003492241120000021
其中
Figure BDA0003492241120000022
为k时隙用户j卸载到无人机i的任务量,跳转到104;
104、根据
Figure BDA0003492241120000023
执行用户任务卸载,通过无人机集群动作收益模块获得相应的收益rk,通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1,将[sk,ak,rk,sk+1]存入经验样本存储池;
105、通过样本集随机抽样模块从经验样本存储池中获得随机样本集X,并将X分别输入无人机集群巡航动作发生模块、无人机集群动作评估模块进行学习训练,跳转到103;
106、算法结束。
进一步的,所述步骤101中构造k时隙无人机集群与用户状态向量sk、无人机集群三维动作向量ak、无人机集群动作收益函数rk,分别如公式(1)、(2)、(3)所示:
Figure BDA0003492241120000024
Figure BDA0003492241120000031
Figure BDA0003492241120000032
公式(1)中,
Figure BDA0003492241120000033
表示无人机i在时隙k的三维坐标位置,
Figure BDA0003492241120000034
表示用户j在时隙k的二维坐标位置;公式(2)中,
Figure BDA0003492241120000035
表示无人机i在k时隙的水平运动方向,
Figure BDA0003492241120000036
表示无人机i在k时隙的垂直运动距离;公式(3)中,ω表示无人机动作奖励函数权重因子,ω∈(0,1),
Figure BDA0003492241120000037
表示用户j在k时隙能够进行任务卸载,否则,
Figure BDA0003492241120000038
如公式(4)所示,
Figure BDA0003492241120000039
表示k时隙用户j的平均单位任务时延,如公式(5)所示:
Figure BDA00034922411200000310
Figure BDA00034922411200000311
公式(4)中,
Figure BDA00034922411200000312
表示用户j与无人机i的连接状态,若用户j在k时隙将任务卸载到无人机i执行,则
Figure BDA00034922411200000313
否则
Figure BDA00034922411200000314
公式(5)中,Δt表示时隙大小,ξ表示时隙,ξ∈[1,k]。
进一步的,所述步骤102中基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块,具体包括:
无人机集群巡航动作发生模块包含主网络π(skπ)和目标网络π′(skπ′),通过将无人机集群与用户状态sk输入π(skπ),并将π(skπ)的输出导入无人机集群动作扰动模块,获得无人机集群三维动作向量ak;无人机集群动作扰动模块用于无人机集群对周边空域的随机性探索;无人机集群动作评估模块包含主网络
Figure BDA0003492241120000041
Figure BDA0003492241120000042
以及目标网络
Figure BDA0003492241120000043
Figure BDA0003492241120000044
用于生成在无人机集群与用户状态sk下执行无人机集群三维动作ak的动作评估值q;其中,π(skπ),π′(skπ′),
Figure BDA0003492241120000045
Figure BDA0003492241120000046
均为神经网络,分别包含若干层隐藏层,每层隐藏层包含若干个神经元,θπ,θπ′
Figure BDA0003492241120000047
为相应神经网络结构参数;目标网络π′(skπ′)、目标网络
Figure BDA0003492241120000048
Figure BDA0003492241120000049
分别用于增强主网络π(skπ)、主网络
Figure BDA00034922411200000410
Figure BDA00034922411200000411
在训练过程的稳定性;
环境参数采集模块用于收集地面用户的二维坐标位置
Figure BDA00034922411200000412
用户的任务卸载请求、无人机集群的三维坐标位置
Figure BDA00034922411200000413
和无人机集群的剩余可用计算资源;无人机集群机载资源分配与任务卸载调度模块用于生成k时隙用户卸载策略,获得任务卸载决策变量集
Figure BDA00034922411200000414
无人机集群动作收益模块用于在完成k时隙的卸载任务后,生成无人机集群I在k时隙的动作收益值rk;无人机集群I执行ak动作后,无人机集群与用户状态由sk转移到sk+1;经验样本存储池中增加k时隙经验样本[sk,ak,rk,sk+1];样本集随机抽样模块通过从经验样本存储池中随机抽取相同数量样本,用于无人机集群巡航动作发生模块和无人机集群动作评估模块的学习训练。
进一步的,所述步骤103中确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集
Figure BDA00034922411200000415
的方法如下:
1)将J中所有用户j放入集合V中,根据
Figure BDA00034922411200000416
对集合V降序排列;
2)如果
Figure BDA00034922411200000417
依次针对V中的每一个用户j,根据用户j可接入的无人机剩余可用计算资源
Figure BDA0003492241120000051
和用户j所需的计算资源,通过多属性排序法分配无人机i的计算资源
Figure BDA0003492241120000052
给用户j,令
Figure BDA0003492241120000053
把V中用户j移入无人机i的用户对象集Ji,并根据
Figure BDA0003492241120000054
降序排列,跳转到2),否则,跳转到3);
3)对集合I中
Figure BDA0003492241120000055
的无人机,依次为Ji中的每个用户j分配最小单位计算资源并更新
Figure BDA0003492241120000056
直到
Figure BDA0003492241120000057
得到用户j的计算资源分配集合
Figure BDA0003492241120000058
并根据用户j的任务卸载时延,计算用户j卸载到无人机i的任务量
Figure BDA0003492241120000059
最终得到用户集J的任务卸载决策变量集
Figure BDA00034922411200000510
进一步的,所述步骤2)中根据多属性排序法分配无人机i的计算资源
Figure BDA00034922411200000511
给用户j的方法,具体包括:
首先根据
Figure BDA00034922411200000512
对集合I中的无人机降序排列,再根据
Figure BDA00034922411200000513
Figure BDA00034922411200000514
相同的无人机降序排列,最后根据
Figure BDA00034922411200000515
Figure BDA00034922411200000516
Figure BDA00034922411200000517
均相同的无人机升序排列,选择排序中的第一个无人机i并分配计算资源
Figure BDA00034922411200000518
给用户j,其中,
Figure BDA00034922411200000519
为无人机i与用户j的距离,计算资源
Figure BDA00034922411200000520
的计算方式如公式(6)、(7)所示:
Figure BDA00034922411200000521
Figure BDA00034922411200000522
公式(6)中Fi表示无人机i的计算资源总量,ρ表示无人机i的用户对象集Ji中除用户j之外的其他用户,ρ∈(Ji-j);公式(7)中U表示任务单元大小,τj表示用户j的平均单位任务容忍时延,
Figure BDA00034922411200000523
表示用户j的任务复杂度,
Figure BDA00034922411200000524
表示k时隙用户j到无人机i上行传输速率,η表示时隙,η∈[1,k-1]。
进一步的,所述步骤3)中用户j卸载到无人机i的任务量
Figure BDA0003492241120000061
的计算方法如公式(8)所示:
Figure BDA0003492241120000062
进一步的,所述步骤3)中用户j的任务卸载时延如公式(9)所示:
Figure BDA0003492241120000063
公式(9)中,
Figure BDA0003492241120000064
表示k时隙用户j卸载到无人机i的任务卸载时延,
Figure BDA0003492241120000065
表示k时隙用户j卸载任务到无人机i的传输时延,如公式(10)所示;
Figure BDA0003492241120000066
表示用户j卸载任务到无人机i的卸载任务计算时延,如公式(11)所示;
Figure BDA0003492241120000067
Figure BDA0003492241120000068
公式(10)中,
Figure BDA0003492241120000069
表示k时隙用户j到无人机i的上行传输速率,如公式(12)所示:
Figure BDA00034922411200000610
公式(12)中,W为用户信道带宽,pj为用户发射功率,σ2为噪声功率,
Figure BDA00034922411200000611
表示k时隙用户j到无人机i的通信信道增益。
进一步的,所述步骤104中通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1具体包括:
将k时隙无人机集群与用户状态向量
Figure BDA00034922411200000612
输入无人机集群巡航动作发生模块,并经由无人机集群动作扰动模块得到无人机集群三维动作向量
Figure BDA0003492241120000071
计算获得
Figure BDA0003492241120000072
其中,
Figure BDA0003492241120000073
L为k时隙无人机i的水平移动距离。
进一步的,所述步骤105中无人机集群巡航动作发生模块、无人机集群动作评估模块学习训练方法为:
对无人机集群动作评估模块中的主网络
Figure BDA0003492241120000074
其网络参数
Figure BDA0003492241120000075
采用最速下降法进行更新,如公式(13)所示,其中,
Figure BDA0003492241120000076
表示
Figure BDA0003492241120000077
Figure BDA0003492241120000078
Figure BDA0003492241120000079
其中
Figure BDA00034922411200000710
Figure BDA00034922411200000711
的学习率,损失函数
Figure BDA00034922411200000712
如公式(14)所示:
Figure BDA00034922411200000713
其中,a′k+1=ak+1+ε,ε~clip(N(0,σ),-κ,κ),clip(·)表示修剪函数,N表示均值为0,方差为σ的高斯噪声,κ表示修剪参数,γ表示折扣因子,X表示通过样本集随机抽样模块从经验样本存储池中获得随机样本集X={xk},xk=[sk,ak,rk,sk+1];
巡航动作发生模块中π(skπ)网络参数θπ更新如公式(15)所示:
Figure BDA00034922411200000714
其中μπ为π(skπ)的学习率,π(skπ)的策略梯度
Figure BDA00034922411200000715
如公式(16)所示:
Figure BDA00034922411200000716
目标网络
Figure BDA00034922411200000717
和π′(skπ′)中网络参数
Figure BDA00034922411200000718
和θπ′的更新分别如公式(17)、(18)所示,其中,
Figure BDA0003492241120000081
表示
Figure BDA0003492241120000082
Figure BDA0003492241120000083
更新因子
Figure BDA0003492241120000084
Figure BDA0003492241120000085
Figure BDA0003492241120000086
本发明的优点及有益效果如下:
本发明针对地面网络设施受损或故障,导致边缘网络资源缺失的问题,提出一种面向地面移动用户的无人机边缘节点自适应部署方法。现有解决方案通常根据当前用户分布最优化目标位置,通过最短路径巡航完成低空无人机网络的部署,忽略了地面移动用户分布及任务卸载请求的动态时变特征,易造成网络服务质量不稳定,资源利用率下降的问题。本发明根据无人机的有效覆盖范围、地面用户的实时位置分布与任务卸载需求,采用深度强化学习方法自适应规划无人机集群的巡航轨迹,动态调整用户的卸载任务调度,最大化巡航过程中的用户连通性和机载资源利用率,并有效降低平均任务卸载时延。
附图说明
图1是本发明提供优选实施例一种基于无人机集群的边缘网络自适应部署方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明内容所涉及的概念和模型如下:
1.系统模型:
假设边缘网络小区内用户随机分布,地面网络设施受损或故障,边缘网络资源缺失。小区内配置多架无人机辅助边缘节点,可为其有效覆盖范围内的用户提供任务卸载服务,采用深度强化学习方法自适应规划无人机集群的巡航轨迹,并动态调整用户的卸载任务调度,最大化巡航过程中的用户连通性和机载资源利用率,有效降低平均任务卸载时延。
2.本发明内容所涉及的其他符号说明如下:
sk:系统状态向量
ak:无人机集群动作向量
rk:收益函数
π(skπ):无人机集群动作策略网络
Figure BDA0003492241120000091
无人机集群状态-动作值网络
θ:神经网络结构参数
Figure BDA0003492241120000092
用户j在k时隙平均单位任务时延
Figure BDA0003492241120000093
用户j在k时隙是否被服务
Figure BDA0003492241120000094
无人机i在时隙k为用户j分配的计算资源
Figure BDA0003492241120000095
用户j在k时隙卸载到无人机i任务单元数
Figure BDA0003492241120000096
无人机i在k时隙的水平移动方向
Figure BDA0003492241120000097
无人机i在k时隙的垂直移动距离
Figure BDA0003492241120000098
用户j在k时隙与无人机i的连接状态
Figure BDA0003492241120000099
表示k时隙用户j卸载到无人机i的任务卸载时延
Figure BDA00034922411200000910
表示k时隙用户j卸载任务到无人机i的传输时延
Figure BDA00034922411200000911
表示用户j卸载任务到无人机i的卸载任务计算时延
Fi:无人机i的计算资源总量
Figure BDA00034922411200000912
表示k时隙用户j到无人机i的上行传输速率
W:用户信道带宽
pj:用户j发射功率
σ2:噪声功率
Figure BDA0003492241120000101
表示k时隙用户j到无人机i的通信信道增益
本发明的技术方案说明如下:
1、任务卸载时延
用户j的任务卸载时延如公式(1)所示:
Figure BDA0003492241120000102
公式(1)中,
Figure BDA0003492241120000103
表示k时隙用户j卸载到无人机i的任务卸载时延,
Figure BDA0003492241120000104
表示k时隙用户j卸载任务到无人机i的传输时延,如公式(2)所示;
Figure BDA0003492241120000105
表示用户j卸载任务到无人机i的卸载任务计算时延,如公式(3)所示。
Figure BDA0003492241120000106
Figure BDA0003492241120000107
其中,
Figure BDA0003492241120000108
表示用户j与无人机i的连接状态,若用户j在k时隙将任务卸载到无人机i执行,则
Figure BDA0003492241120000109
否则
Figure BDA00034922411200001010
U表示任务单元大小,
Figure BDA00034922411200001011
表示k时隙用户j卸载到无人机i的任务量,
Figure BDA00034922411200001012
表示k时隙无人机i为用户j分配的计算资源,
Figure BDA00034922411200001013
表示用户j的任务复杂度,
Figure BDA00034922411200001014
表示k时隙用户j到无人机i的上行传输速率,如公式(4)所示:
Figure BDA00034922411200001015
公式(4)中,W为用户信道带宽,pj为用户发射功率,σ2为噪声功率,
Figure BDA00034922411200001016
表示k时隙用户j到无人机i的通信信道增益。
2、MDP模型的状态向量、动作向量、收益函数
k时隙无人机集群与用户状态向量sk、无人机集群动作向量ak、无人机集群动作收益函数rk,分别如公式(5)、(6)、(7)所示:
Figure BDA0003492241120000111
Figure BDA0003492241120000112
Figure BDA0003492241120000113
公式(5)中,
Figure BDA0003492241120000114
表示无人机i在时隙k的三维坐标位置,
Figure BDA0003492241120000115
表示用户j在时隙k的二维坐标位置,I表示无人机集合,J表示用户集合,公式(6)中,
Figure BDA0003492241120000116
表示无人机i在k时隙的水平运动方向,
Figure BDA0003492241120000117
表示无人机i在k时隙的垂直运动距离。公式(7)中,ω表示无人机动作奖励函数权重因子,ω∈(0,1),
Figure BDA0003492241120000118
表示用户j在k时隙被无人机i服务,否则,
Figure BDA0003492241120000119
如公式(8)所示,
Figure BDA00034922411200001110
表示k时隙用户j的平均单位任务时延如公式(9)所示:
Figure BDA00034922411200001111
Figure BDA00034922411200001112
公式(9)中ξ表示时隙,ξ∈[1,k]。
3、基于双延时深度确定性策略梯度算法思想构建的深度强化学习模型
将无人机集群的巡航过程划分为若干个大小相等的时隙,且在任意时隙k(∈K)内,无人机集群与地面用户的相对位置关系与连接状态不变。
将无人机集群控制器作为智能体,基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,其中,双延时深度确定性策略梯度算法思想源于文献Fujimoto S,HoofH V,Meger D.Addressing Function Approximation Error in Actor-CriticMethods.35th International Conference on Machine Learning,ICML2018,July 10,2018-July 15,2018。该深度强化学习模型包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块。
无人机集群巡航动作发生模块包含主网络π(skπ)和目标网络π′(skπ′),通过将无人机集群与用户状态sk输入π(skπ),并将π(skπ)的输出导入无人机集群动作扰动模块,获得无人机集群三维动作向量ak。π(skπ)和π′(skπ′)可采用两层隐藏层,分别配置256、128个神经元的神经网络,神经元激活函数可采用Relu函数;无人机集群动作扰动模块用于无人机集群对周边空域的随机性探索;无人机集群动作评估模块包含主网络
Figure BDA0003492241120000121
Figure BDA0003492241120000122
以及目标网络
Figure BDA0003492241120000123
Figure BDA0003492241120000124
用于生成在无人机集群与用户状态sk下执行无人机集群三维动作ak的动作评估值q;其中,无人机集群动作评估模块中的主网络和目标网络可采用三层隐藏层,分别配置256、128、128个神经元的神经网络,神经元激活函数可采用Relu函数;θπ,θπ′
Figure BDA0003492241120000125
为相应神经网络结构参数;目标网络π′(skπ′)、目标网络
Figure BDA0003492241120000126
Figure BDA0003492241120000127
分别用于增强主网络π(skπ)、主网络
Figure BDA0003492241120000128
Figure BDA0003492241120000129
在训练过程的稳定性;
环境参数采集模块用于收集地面用户的二维坐标位置
Figure BDA00034922411200001210
用户的任务卸载请求、无人机集群的三维坐标位置
Figure BDA00034922411200001211
和无人机集群的剩余可用计算资源;无人机集群机载资源分配与任务卸载调度模块用于生成k时隙用户卸载策略,获得任务卸载决策变量集
Figure BDA00034922411200001212
无人机集群动作收益模块用于在完成k时隙的卸载任务后,生成无人机集群I在k时隙的动作收益值rk;无人机集群I执行ak动作后,无人机集群与用户状态由sk转移到sk+1;经验样本存储池中增加k时隙经验样本[sk,ak,rk,sk+1];样本集随机抽样模块通过从经验样本存储池中随机抽取相同数量样本,用于无人机集群巡航动作发生模块和无人机集群动作评估模块的学习训练。
4、多属性排序法
多属性排序法分配无人机i的计算资源
Figure BDA0003492241120000131
给用户j的方法:
首先根据
Figure BDA0003492241120000132
对集合I中的无人机降序排列,再根据
Figure BDA0003492241120000133
Figure BDA0003492241120000134
相同的无人机降序排列,最后根据
Figure BDA0003492241120000135
Figure BDA0003492241120000136
Figure BDA0003492241120000137
均相同的无人机升序排列,选择排序中的第一个无人机i并分配计算资源
Figure BDA0003492241120000138
给用户j,其中,
Figure BDA0003492241120000139
为无人机i与用户j的距离,计算资源
Figure BDA00034922411200001310
的计算方式如公式(10)、(11)所示:
Figure BDA00034922411200001311
Figure BDA00034922411200001312
公式(10)中
Figure BDA00034922411200001313
表示无人机i剩余计算资源,Fi表示无人机i的计算资源总量,ρ表示无人机i的用户对象集Ji中除用户j之外的其他用户,ρ∈(Ji-j);公式(11)中τj表示用户j的平均单位任务容忍时延,η表示时隙,η∈[1,k-1]。
5、用户卸载任务量计算
用户j卸载到无人机i的任务量
Figure BDA00034922411200001314
的计算方法如公式(12)所示:
Figure BDA00034922411200001315
6、获得用户集J的任务卸载决策变量集
Figure BDA0003492241120000141
的方法
1)将J中所有用户j放入集合V中,根据
Figure BDA0003492241120000142
对集合V降序排列;
2)如果
Figure BDA0003492241120000143
依次针对V中的每一个用户j,根据用户j可接入的无人机剩余可用计算资源
Figure BDA0003492241120000144
和用户j所需的计算资源,通过多属性排序法分配无人机i的计算资源
Figure BDA0003492241120000145
给用户j,令
Figure BDA0003492241120000146
把V中用户j移入无人机i的用户对象集Ji,并根据
Figure BDA0003492241120000147
降序排列,跳转到2),否则,跳转到3);
3)对集合I中
Figure BDA0003492241120000148
的无人机,依次为Ji中的每个用户j分配最小单位计算资源并更新
Figure BDA0003492241120000149
直到
Figure BDA00034922411200001410
得到用户j的计算资源分配集合
Figure BDA00034922411200001411
并根据用户j的任务卸载时延,计算用户j卸载到无人机i的任务量
Figure BDA00034922411200001412
最终得到用户集J的任务卸载决策变量集
Figure BDA00034922411200001413
7、无人机集群与用户状态向量sk与无人机集群动作向量ak计算获得sk+1方法
将k时隙无人机集群与用户状态向量
Figure BDA00034922411200001414
输入无人机集群巡航动作发生模块,并经由无人机集群动作扰动模块得到无人机集群三维动作向量
Figure BDA00034922411200001415
计算获得
Figure BDA00034922411200001416
其中,
Figure BDA00034922411200001417
L为k时隙无人机i的水平移动距离。
8、无人机集群巡航动作发生模块、无人机集群动作评估模块学习训练方法
对无人机集群动作评估模块中的主网络
Figure BDA00034922411200001418
其网络参数
Figure BDA00034922411200001419
采用最速下降法进行更新,如公式(13)所示,其中,
Figure BDA00034922411200001420
表示
Figure BDA00034922411200001421
Figure BDA00034922411200001422
Figure BDA00034922411200001423
其中
Figure BDA00034922411200001424
Figure BDA00034922411200001425
的学习率,损失函数
Figure BDA00034922411200001426
如公式(14)所示:
Figure BDA0003492241120000151
其中,a′k+1=ak+1+ε,ε~clip(N(0,σ),-κ,κ),clip(·)表示修剪函数,N表示均值为0,方差为σ的高斯噪声,κ表示修剪参数,γ表示折扣因子,X表示通过样本集随机抽样模块从经验样本存储池中获得随机样本集X={xk},xk=[sk,ak,rk,sk+1];
巡航动作发生模块中π(skπ)网络参数θπ更新如公式(15)所示:
Figure BDA0003492241120000152
其中μπ为π(skπ)的学习率,π(skπ)的策略梯度
Figure BDA0003492241120000153
如公式(16)所示:
Figure BDA0003492241120000154
目标网络
Figure BDA0003492241120000155
和π′(skπ′)中网络参数
Figure BDA0003492241120000156
和θπ′的更新如公式(17)、(18)所示,其中,
Figure BDA0003492241120000157
表示
Figure BDA0003492241120000158
Figure BDA0003492241120000159
更新因子
Figure BDA00034922411200001510
Figure BDA00034922411200001511
Figure BDA00034922411200001512
一种基于深度强化学习的无人机边缘网络自适应部署方法,其具体实施方法包括以下步骤:
步骤1:设立无人机集群I={i},地面用户集J={j},i、j分别表示无人机i和用户j,将无人机集群巡航时间离散为时隙,设立时隙变量k,构造无人机集群与用户状态向量sk、无人机集群动作向量ak、无人机集群动作收益函数rk,其中,sk,ak,rk均随时隙数k的增加发生相应的转移和变化,初始化时隙变量k=0;
步骤2:在无人机集群控制智能体中,基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块;
步骤3:令k=k+1,如果无人机集群I在连续n个时隙内未发生三维坐标位置变化,跳转到步骤6,否则,根据每架无人机i的有效覆盖范围及剩余可用计算资源,确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集
Figure BDA0003492241120000161
其中
Figure BDA0003492241120000162
为k时隙用户j卸载到无人机i的任务量,跳转到步骤4;
步骤4:根据
Figure BDA0003492241120000163
执行用户任务卸载,通过无人机集群动作收益模块获得相应的收益rk,通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1,将[sk,ak,rk,sk+1]存入经验样本存储池;
步骤5:通过样本集随机抽样模块从经验样本存储池中获得随机样本集X,并将X分别输入无人机集群巡航动作发生模块、无人机集群动作评估模块进行学习训练,跳转到步骤3;
步骤6:算法结束。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (9)

1.一种基于无人机集群的边缘网络自适应部署方法,其特征在于,具体包括以下步骤:
101、设立无人机集群I={i},地面用户集J={j},i、j分别表示无人机i和用户j,将无人机集群巡航时间离散为时隙,设立时隙变量k,构造无人机集群与用户状态向量sk、无人机集群动作向量ak、无人机集群动作收益函数rk,其中,sk,ak,rk均随时隙数k的增加发生相应的转移和变化,初始化时隙变量k=0;
102、在无人机集群控制智能体中,基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块;
103、令k=k+1,如果无人机集群I在连续n个时隙内未发生三维坐标位置变化,跳转到步骤106,否则,根据每架无人机i的有效覆盖范围及剩余可用计算资源,确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集
Figure FDA0003492241110000011
其中
Figure FDA0003492241110000014
Figure FDA0003492241110000012
为k时隙用户j卸载到无人机i的任务量,跳转到104;
104、根据
Figure FDA0003492241110000013
执行用户任务卸载,通过无人机集群动作收益模块获得相应的收益rk,通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1,将[sk,ak,rk,sk+1]存入经验样本存储池;
105、通过样本集随机抽样模块从经验样本存储池中获得随机样本集X,并将X分别输入无人机集群巡航动作发生模块、无人机集群动作评估模块进行学习训练,跳转到103;
106、算法结束。
2.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤101中构造k时隙无人机集群与用户状态向量sk、无人机集群三维动作向量ak、无人机集群动作收益函数rk,分别如公式(1)、(2)、(3)所示:
Figure FDA0003492241110000021
Figure FDA0003492241110000022
Figure FDA0003492241110000023
公式(1)中,
Figure FDA0003492241110000024
表示无人机i在时隙k的三维坐标位置,
Figure FDA0003492241110000025
表示用户j在时隙k的二维坐标位置;公式(2)中,
Figure FDA0003492241110000026
表示无人机i在k时隙的水平运动方向,
Figure FDA0003492241110000027
表示无人机i在k时隙的垂直运动距离;公式(3)中,ω表示无人机动作奖励函数权重因子,ω∈(0,1),
Figure FDA0003492241110000028
表示用户j在k时隙能够进行任务卸载,否则,
Figure FDA0003492241110000029
如公式(4)所示,
Figure FDA00034922411100000210
表示k时隙用户j的平均单位任务时延,如公式(5)所示:
Figure FDA00034922411100000211
Figure FDA00034922411100000212
公式(4)中,
Figure FDA00034922411100000213
表示用户j与无人机i的连接状态,若用户j在k时隙将任务卸载到无人机i执行,则
Figure FDA00034922411100000214
否则
Figure FDA00034922411100000215
公式(5)中,Δt表示时隙大小,ξ表示时隙,ξ∈[1,k]。
3.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤102中基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块,具体包括:
无人机集群巡航动作发生模块包含主网络π(skπ)和目标网络π′(skπ′),通过将无人机集群与用户状态sk输入π(skπ),并将π(skπ)的输出导入无人机集群动作扰动模块,获得无人机集群三维动作向量ak;无人机集群动作扰动模块用于无人机集群对周边空域的随机性探索;无人机集群动作评估模块包含主网络
Figure FDA0003492241110000031
Figure FDA0003492241110000032
以及目标网络
Figure FDA0003492241110000033
Figure FDA0003492241110000034
用于生成在无人机集群与用户状态sk下执行无人机集群三维动作ak的动作评估值q;其中,π(skπ),π′(skπ′),
Figure FDA0003492241110000035
Figure FDA00034922411100000314
均为神经网络,分别包含若干层隐藏层,每层隐藏层包含若干个神经元,θπ,θπ′
Figure FDA0003492241110000036
为相应神经网络结构参数;目标网络π′(skπ′)、目标网络
Figure FDA0003492241110000037
Figure FDA0003492241110000038
分别用于增强主网络π(skπ)、主网络
Figure FDA0003492241110000039
Figure FDA00034922411100000310
在训练过程的稳定性;
环境参数采集模块用于收集地面用户的二维坐标位置
Figure FDA00034922411100000311
用户的任务卸载请求、无人机集群的三维坐标位置
Figure FDA00034922411100000312
和无人机集群的剩余可用计算资源;无人机集群机载资源分配与任务卸载调度模块用于生成k时隙用户卸载策略,获得任务卸载决策变量集
Figure FDA00034922411100000313
无人机集群动作收益模块用于在完成k时隙的卸载任务后,生成无人机集群I在k时隙的动作收益值rk;无人机集群I执行ak动作后,无人机集群与用户状态由sk转移到sk+1;经验样本存储池中增加k时隙经验样本[sk,ak,rk,sk+1];样本集随机抽样模块通过从经验样本存储池中随机抽取相同数量样本,用于无人机集群巡航动作发生模块和无人机集群动作评估模块的学习训练。
4.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤103中确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集
Figure FDA0003492241110000041
的方法如下:
1)将J中所有用户j放入集合V中,根据
Figure FDA0003492241110000042
对集合V降序排列;
2)如果
Figure FDA0003492241110000043
依次针对V中的每一个用户j,根据用户j可接入的无人机剩余可用计算资源
Figure FDA0003492241110000044
和用户j所需的计算资源,通过多属性排序法分配无人机i的计算资源
Figure FDA0003492241110000045
给用户j,令
Figure FDA0003492241110000046
把V中用户j移入无人机i的用户对象集Ji,并根据
Figure FDA0003492241110000047
降序排列,跳转到2),否则,跳转到3);
3)对集合I中
Figure FDA0003492241110000048
的无人机,依次为Ji中的每个用户j分配最小单位计算资源并更新
Figure FDA0003492241110000049
直到
Figure FDA00034922411100000410
得到用户j的计算资源分配集合
Figure FDA00034922411100000411
并根据用户j的任务卸载时延,计算用户j卸载到无人机i的任务量
Figure FDA00034922411100000412
最终得到用户集J的任务卸载决策变量集
Figure FDA00034922411100000413
5.根据权利要求4所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤2)中根据多属性排序法分配无人机i的计算资源
Figure FDA00034922411100000414
给用户j的方法,具体包括:
首先根据
Figure FDA00034922411100000415
对集合I中的无人机降序排列,再根据
Figure FDA00034922411100000416
Figure FDA00034922411100000417
相同的无人机降序排列,最后根据
Figure FDA00034922411100000418
Figure FDA00034922411100000419
Figure FDA00034922411100000420
均相同的无人机升序排列,选择排序中的第一个无人机i并分配计算资源
Figure FDA00034922411100000421
给用户j,其中,
Figure FDA00034922411100000422
为无人机i与用户j的距离,计算资源
Figure FDA00034922411100000423
的计算方式如公式(6)、(7)所示:
Figure FDA00034922411100000424
Figure FDA0003492241110000051
公式(6)中Fi表示无人机i的计算资源总量,ρ表示无人机i的用户对象集Ji中除用户j之外的其他用户,ρ∈(Ji-j);公式(7)中U表示任务单元大小,τj表示用户j的平均单位任务容忍时延,
Figure FDA0003492241110000052
表示用户j的任务复杂度,
Figure FDA0003492241110000053
表示k时隙用户j到无人机i上行传输速率,η表示时隙,η∈[1,k-1]。
6.根据权利要求4所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤3)中用户j卸载到无人机i的任务量
Figure FDA0003492241110000054
的计算方法如公式(8)所示:
Figure FDA0003492241110000055
7.根据权利要求4所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤3)中用户j的任务卸载时延如公式(9)所示:
Figure FDA0003492241110000056
公式(9)中,
Figure FDA0003492241110000057
表示k时隙用户j卸载到无人机i的任务卸载时延,
Figure FDA0003492241110000058
表示k时隙用户j卸载任务到无人机i的传输时延,如公式(10)所示;
Figure FDA0003492241110000059
表示用户j卸载任务到无人机i的卸载任务计算时延,如公式(11)所示;
Figure FDA00034922411100000510
Figure FDA00034922411100000511
公式(10)中,
Figure FDA00034922411100000512
表示k时隙用户j到无人机i的上行传输速率,如公式(12)所示:
Figure FDA0003492241110000061
公式(12)中,W为用户信道带宽,pj为用户发射功率,σ2为噪声功率,
Figure FDA0003492241110000062
表示k时隙用户j到无人机i的通信信道增益。
8.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤104中通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1具体包括:
将k时隙无人机集群与用户状态向量
Figure FDA0003492241110000063
输入无人机集群巡航动作发生模块,并经由无人机集群动作扰动模块得到无人机集群三维动作向量
Figure FDA0003492241110000064
计算获得
Figure FDA0003492241110000065
其中,
Figure FDA0003492241110000066
L为k时隙无人机i的水平移动距离。
9.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤105中无人机集群巡航动作发生模块、无人机集群动作评估模块学习训练方法为:
对无人机集群动作评估模块中的主网络
Figure FDA0003492241110000067
其网络参数
Figure FDA0003492241110000068
采用最速下降法进行更新,如公式(13)所示,其中,
Figure FDA0003492241110000069
表示
Figure FDA00034922411100000610
Figure FDA00034922411100000611
Figure FDA00034922411100000612
其中
Figure FDA00034922411100000613
Figure FDA00034922411100000614
的学习率,损失函数
Figure FDA00034922411100000615
如公式(14)所示:
Figure FDA00034922411100000616
其中,a′k+1=ak+1+ε,ε~clip(N(0,σ),-κ,κ),clip(·)表示修剪函数,N表示均值为0,方差为σ的高斯噪声,κ表示修剪参数,γ表示折扣因子,X表示通过样本集随机抽样模块从经验样本存储池中获得随机样本集X={xk},xk=[sk,ak,rk,sk+1];
巡航动作发生模块中π(skπ)网络参数θπ更新如公式(15)所示:
Figure FDA0003492241110000071
其中μπ为π(skπ)的学习率,π(skπ)的策略梯度
Figure FDA0003492241110000072
如公式(16)所示:
Figure FDA0003492241110000073
目标网络
Figure FDA0003492241110000074
和π′(skπ′)中网络参数
Figure FDA0003492241110000075
和θπ′的更新分别如公式(17)、(18)所示,其中,
Figure FDA0003492241110000076
表示
Figure FDA0003492241110000077
Figure FDA0003492241110000078
更新因子
Figure FDA0003492241110000079
Figure FDA00034922411100000710
Figure FDA00034922411100000711
CN202210100522.3A 2022-01-27 2022-01-27 基于无人机集群的边缘网络自适应部署方法 Active CN114520991B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210100522.3A CN114520991B (zh) 2022-01-27 2022-01-27 基于无人机集群的边缘网络自适应部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210100522.3A CN114520991B (zh) 2022-01-27 2022-01-27 基于无人机集群的边缘网络自适应部署方法

Publications (2)

Publication Number Publication Date
CN114520991A true CN114520991A (zh) 2022-05-20
CN114520991B CN114520991B (zh) 2023-07-28

Family

ID=81597300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210100522.3A Active CN114520991B (zh) 2022-01-27 2022-01-27 基于无人机集群的边缘网络自适应部署方法

Country Status (1)

Country Link
CN (1) CN114520991B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995917A (zh) * 2022-07-15 2022-09-02 南京邮电大学 一种基于车辆聚类的车联网边缘计算任务卸载方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766159A (zh) * 2019-09-29 2020-02-07 南京理工大学 基于改进遗传算法的多uav服务边缘计算的任务分配方法
CN111787509A (zh) * 2020-07-14 2020-10-16 中南大学 边缘计算中基于强化学习的无人机任务卸载方法及系统
US20200359297A1 (en) * 2018-12-28 2020-11-12 Beijing University Of Posts And Telecommunications Method of Route Construction of UAV Network, UAV and Storage Medium thereof
CN112835715A (zh) * 2021-02-01 2021-05-25 哈尔滨工业大学(深圳) 基于强化学习的无人机任务卸载策略的确定方法和装置
CN112911618A (zh) * 2021-01-29 2021-06-04 重庆邮电大学 一种基于资源退出场景的无人机服务器任务卸载调度方法
CN112995913A (zh) * 2021-03-08 2021-06-18 南京航空航天大学 一种无人机轨迹、用户关联和资源分配联合优化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200359297A1 (en) * 2018-12-28 2020-11-12 Beijing University Of Posts And Telecommunications Method of Route Construction of UAV Network, UAV and Storage Medium thereof
CN110766159A (zh) * 2019-09-29 2020-02-07 南京理工大学 基于改进遗传算法的多uav服务边缘计算的任务分配方法
CN111787509A (zh) * 2020-07-14 2020-10-16 中南大学 边缘计算中基于强化学习的无人机任务卸载方法及系统
CN112911618A (zh) * 2021-01-29 2021-06-04 重庆邮电大学 一种基于资源退出场景的无人机服务器任务卸载调度方法
CN112835715A (zh) * 2021-02-01 2021-05-25 哈尔滨工业大学(深圳) 基于强化学习的无人机任务卸载策略的确定方法和装置
CN112995913A (zh) * 2021-03-08 2021-06-18 南京航空航天大学 一种无人机轨迹、用户关联和资源分配联合优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
M. MUKHERJEE: "Distributed Deep Learning-based Task Offloading for UAV-enabled Mobile Edge Computing", 《IEEE INFOCOM 2020 - IEEE CONFERENCE ON COMPUTER COMMUNICATIONS WORKSHOPS (INFOCOM WKSHPS)》 *
姚叶;崔岩;: "空地协同下移动边缘计算系统的联合多无人机轨迹和卸载策略优化", 通信技术, no. 09 *
谭俊杰;梁应敞;: "面向智能通信的深度强化学习方法", 电子科技大学学报, no. 02 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114995917A (zh) * 2022-07-15 2022-09-02 南京邮电大学 一种基于车辆聚类的车联网边缘计算任务卸载方法
CN114995917B (zh) * 2022-07-15 2022-10-25 南京邮电大学 一种基于车辆聚类的车联网边缘计算任务卸载方法

Also Published As

Publication number Publication date
CN114520991B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN111786713B (zh) 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
Seid et al. Collaborative computation offloading and resource allocation in multi-UAV-assisted IoT networks: A deep reinforcement learning approach
CN113346944B (zh) 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN112351503A (zh) 基于任务预测的多无人机辅助边缘计算资源分配方法
CN110730031A (zh) 一种用于多载波通信的无人机轨迹与资源分配联合优化方法
CN113485409B (zh) 一种面向地理公平性的无人机路径规划分配方法及系统
CN113660681B (zh) 一种应用于无人机集群辅助传输的多智能体资源优化方法
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
Zhou et al. QoE-driven adaptive deployment strategy of multi-UAV networks based on hybrid deep reinforcement learning
CN113359480A (zh) 基于mappo算法多无人机与用户协同通信优化方法
CN116893861A (zh) 基于空地协同边缘计算的多智能体协作依赖任务卸载方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN116451934A (zh) 多无人机边缘计算路径优化与依赖任务调度优化方法及系统
Hua et al. Drl-based energy efficient communication coverage control in hierarchical hap-lap network
Wei et al. Joint UAV trajectory planning, DAG task scheduling, and service function deployment based on DRL in UAV-empowered edge computing
CN114520991A (zh) 基于无人机集群的边缘网络自适应部署方法
Parvaresh et al. A continuous actor–critic deep Q-learning-enabled deployment of UAV base stations: Toward 6G small cells in the skies of smart cities
CN114339842A (zh) 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
Zhu et al. Fairness-aware task loss rate minimization for multi-UAV enabled mobile edge computing
CN116208968B (zh) 基于联邦学习的轨迹规划方法及装置
CN117499867A (zh) 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法
CN116887355A (zh) 一种多无人机公平协作和任务卸载优化方法及系统
CN117119489A (zh) 一种基于多无人机辅助的无线供能网络的部署和资源优化方法
CN114513814A (zh) 基于无人机辅助节点的边缘网络计算资源动态优化方法
CN116321181A (zh) 一种多无人机辅助边缘计算的在线轨迹及资源优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant