CN114980126A - 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法 - Google Patents

基于深度确定性策略梯度算法的无人机中继通信系统的实现方法 Download PDF

Info

Publication number
CN114980126A
CN114980126A CN202210544445.0A CN202210544445A CN114980126A CN 114980126 A CN114980126 A CN 114980126A CN 202210544445 A CN202210544445 A CN 202210544445A CN 114980126 A CN114980126 A CN 114980126A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
relay node
communication system
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210544445.0A
Other languages
English (en)
Inventor
田峰
石东森
姜寅秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210544445.0A priority Critical patent/CN114980126A/zh
Publication of CN114980126A publication Critical patent/CN114980126A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Radio Relay Systems (AREA)

Abstract

基于深度确定性策略梯度算法的无人机中继通信系统的实现方法,首先根据应用场景在仿真软件pycharm上构建无人机中继通信系统模型;再分析多无人机中继通信系统中的约束问题;然后以地面终端用户的位置和无人机中继节点的位置作为状态空间,以无人机中继节点的速度、功率和链路调度的集合作为动作空间,采用深度确定性策略梯度算法计算优化问题;最后构建DDPG网络,将参数输入到DDPG网络中对目标函数进行优化,获取DDPG网络的参数。本发明不仅能够最大化地面终端用户及其链路的吞吐量,而且能够实现无人机的飞行轨迹优化和通信资源的合理分配,同时能够减少算法迭代次数,并加速收敛过程。

Description

基于深度确定性策略梯度算法的无人机中继通信系统的实现 方法
技术领域
本发明属于无人机通信技术领域,具体涉及一种基于深度确定性策略梯度算法的无人机中继通信系统的实现方法。
背景技术
无线移动通信技术的快速发展,促进了各种各样的新型业务场景的产生,从最初的第一代移动通信(The First Generation Mobile Communication,1G)到现在普及的第五代移动通信(The Fifth Generation Mobile Communication,5G),移动通信的快速发展极大地便捷了人们的工作和生活,逐渐改变着社会的生产方式。但是,当前移动通信技术的发展也面临着诸多挑战,其中最为严峻的是海量的终端用户、网络业务场景的差异化和多样化。根据思科报告显示,截止至2023年,将会有53亿用户接入网络,与2018年39亿的网络用户相比,每年的网络用户增长率达到了6%。2020年被认为是5G商用的元年,基于5G通信技术的物联网、车联网、视频传输等新型产业也得到了迅猛的发展。此外, 5G与人工智能技术的结合,如无人驾驶技术、智能工厂、智能物流等技术,将会与工业互联网技术深度融合,进一步推进各领域向着智能化、自动化的方向发展。
目前,虽然5G商用化还在不断地普及当中,但国内外学术界已经开始研究第六代移动通信的潜在关键技术。通过对6G关键技术的需求来看,6G不仅要在传输速率、容量和时延超越5G标准,还要求空天地海一体化网络,实现不同通信体制的无缝连接。在6G标准化演进过程中,开始定义了一些面向空中用户的服务。因此,这将会对无人机通信技术的研究有很大的推动力。
与传统的地面基站通信和卫星通信相比,无人机通信具有以下优势:第一、无人机具有高移动性、操作简单、自身完全可控的特点,其动态调度和部署更加方便,因此无人机通信可实现对流量密集热点区域的快速覆盖和业务分流并降低通信开销;第二、与通信卫星相比,无人机距离地面终端更近,其通信往返延迟短、自由空间衰耗少;第三、无人机通信系统对地面的基础设施依赖比较小,建设成本低;第四、无人机通信系统由于受到地面建筑物、地形遮挡的影响较小,通常为视距链路,因此通信质量好,可实现高速率、高可靠、低时延通信。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于深度确定性策略梯度算法的无人机中继通信系统的实现方法,不仅能最大化地面终端用户及其链路的吞吐量,并能实现无人机的飞行轨迹优化和通信资源的合理分配。
本发明提供一种基于深度确定性策略梯度算法的无人机中继通信系统的实现方法,包括如下步骤,
步骤S1.根据应用场景在仿真软件pycharm上构建无人机中继通信系统模型,包括地面基站、无人机中继节点和地面终端用户的表示;
步骤S2.分析多无人机中继通信系统中的约束问题,包括无人机的移动性问题及能量消耗问题、全双工模式下的干扰和链路调度问题、信息速率问题,将物理模型转化为数学优化问题;
步骤S3.以地面终端用户的位置和无人机中继节点的位置作为状态空间,以无人机中继节点的速度、功率和链路调度的集合作为动作空间,采用深度确定性策略梯度算法计算优化问题;
步骤S4.构建DDPG网络,将上述参数输入到DDPG网络中对目标函数进行优化,获取DDPG网络的参数。
作为本发明的进一步技术方案,步骤S2中,无人机的移动性约束公式为
Figure BDA0003649333010000021
Figure BDA0003649333010000022
无人机的能量消耗约束公式为
Figure BDA0003649333010000031
Etrans[n]=puav[n]·Δt, (4)
E[n]=E[n-1]-Efly[n]-Etrans[n]; (5)
其中,
Figure BDA0003649333010000032
为无人机中继节点m在时隙n的位置坐标,
Figure BDA0003649333010000033
为无人机中继节点m在时隙n的速度矢量,Δt为时间间隔,Dmin为两个无人机节点之间应满足的最小距离,puav[n]为无人机中继节点的发射功率,m为无人机的质量。公式(1)表示无人机在相邻两个时隙内的速度、位置约束,公式(2)表示不同无人机之间应满足的最小距离约束,公式(3)表示无人机在时隙n内的飞行耗能Efly[n],公式(4)表示无人机在时隙n内的通信耗能Etrans[n],公式(5) 表示无人机在时隙n末所剩的总能量E[n]。
进一步的,步骤S2中,全双工模式下无人机之间的干扰和链路调度的约束公式为
Figure BDA0003649333010000034
Figure 3
Figure 2
其中,公式(6)为无人机i与无人机j之间的可达链路容量,W为带宽,
Figure BDA0003649333010000037
为无人机i的发射功率,
Figure BDA0003649333010000038
为无人机i与无人机j之间的路径增益,η为高斯噪声功率谱密度,θ为自干扰消除系数,θ值越小,表示无人机中继节点的自干扰越小;公式(7)和公式(8)为无人机在会话l在时隙n内地面终端i与无人机节点j或者无人机中继节点i到无人机中继节点j的调度情况,
Figure BDA0003649333010000039
代表会话l在时隙n内地面终端i与无人机节点j或者无人机中继节点i到无人机中继节点j的调度情况。
进一步的,步骤S3中,无人机中继节点采用解码转发中继策略的情况下信息速率约束公式为
Figure BDA0003649333010000041
Figure BDA0003649333010000042
Figure BDA0003649333010000043
Figure BDA0003649333010000044
其中,公式(9)-(11)为在多跳会话中,后一跳的信息速率不大于前一跳的信息速率,
Figure BDA0003649333010000045
为会话l在时隙n内第一跳的可达速率,即源节点到第一个无人机中继节点可达速率,
Figure BDA0003649333010000046
为会话l在时隙n内第m跳无人机中继节点的可达速率,
Figure BDA0003649333010000047
为会话l在时隙n内目的节点的可达速率;公式(12) 为会话l期间源节点到目的节点端到端的吞吐量。
进一步的,步骤S3中,深度确定性策略梯度算法的具体步骤为,
步骤S31.根据环境初始化当前状态为s,特征向量为φ(s);
步骤S32.在Actor当前网络中,根据策略函数a=πθ(φ(s))+N选择动作;
步骤S33.在状态s下,执行动作a,获得下一步状态s′和奖励r,是否终止状态isEnd;
步骤S34.将{φ(s),a,r,φ(s')}组成的四元组放入经验回放池D中;
步骤S35.进行状态转移:s=s';
步骤S36.从经验回放池D中随机采样m个不相关的样本 {φ(sj),aj,rj,φ(s'j)},计算目标Q值yj:yj=rj+γQ'(φ(s'j),πθ'(φ(s'j)),ω');
步骤S37.计算均方差损失函数
Figure BDA0003649333010000048
利用神经网络的梯度反向传播更新Critic当前网络的参数ω;
步骤S38.计算
Figure BDA0003649333010000051
利用神经网络的梯度反向传播更新Actor当前网络的所有参数θ;
步骤S39.算法是否满足终止条件,若满足,结束迭代,否则转到步骤S32 重新学习。
本发明的优点在于,
1.通过分析无人机节点的移动性、能量消耗、干扰、链路调度和信息速率约束问题,将物理模型转化为数学优化问题,采用深度确定性策略梯度算法对该优化问题进行求解,本方法能够最大化地面终端用户及其链路的吞吐量,而且能实现无人机的飞行轨迹的优化。
2.本发明在满足最大化会话的吞吐量的前提下,通过DDPG算法的优化,能够实现远程终端用户之间以多跳的方式进行通信,同时实现多跳无人机的节点选择和通信资源的合理分配。
3.本发明采用深度确定性策略梯度算法,将Actor-Critic网络和深度学习网络融合,可以突破Q-learning、DQN算法在高维度连续状态空间的局限性,同时能够减少算法迭代次数,并加速收敛过程。
附图说明
图1为本发明的多跳无人机中继通信系统的场景图;
图2为本发明的DDPG算法的网络架构图;
图3为本发明依据场景图在pycharm软件上构建的仿真场景图;
图4为本发明基于DDPG算法优化的系统会话平均吞吐量的变化趋势图;
图5为会话1中无人机最优运行轨迹图;
图6为会话1中无人机运行轨迹对比图;
图7为会话2中无人机与终端用户发射方的轨迹运行图;
图8为会话2中无人机与终端用户接收方的轨迹运行图;
图9为会话1中终端用户时隙分配图;
图10为会话2中多跳无人机中继示意图;
图11为在探索率为0.1时无人机功率控制仿真图;
图12为在探索率为0.05时无人机功率控制仿真图;
图13为在不同算法下的吞吐量变化趋势仿真图。
具体实施方式
本实施例采用pycharm软件作为仿真平台,编程语言是python,运用 TensorFlow框架对物理模型进行仿真,研究应用强化学习算法解决无人机中继通信系统中无人机的轨迹优化和通信资源分配的问题,实现了地面终端用户及其链路的吞吐量最大化,而且能实现无人机的飞行轨迹的优化和通信资源的合理分配,有效地保证了终端用户的通信质量。
本实施例应用pycharm软件作为仿真平台,来构建和验证基于强化学习的无人机中继通信系统的轨迹优化和通信资源的合理分配。请参阅图1和图2,具体实施包括如下,
(一)无人机中继通信系统的构建
本实施例根据实际的无人机中继通信的应用场景在仿真平台上构建无人机中继通信系统的物理模型,其中包括地面基站、无人机中继节点、地面终端用户、高大建筑物等障碍物。依据实际情况,终端用户在地面上随机移动并且位置信息是已知的,终端用户之间的通信存在两种方式:端到端的直接通信和利用无人机中继通信。当终端之间距离近且信道条件比较好时,终端优先选择端到端的直接通信。在终端用户之间距离较远时或者存在障碍物、没有直达通路时的情况下,终端之间只能通过无人机中继节点进行中继通信。另外,地面终端设备也可以与基站进行信息传输,在信道条件比较差的时候,终端设备优先选择通过无人机中继节点与基站进行通信。假设该系统存在L组会话,可表示为
Figure BDA0003649333010000061
每组会话l的源节点s(l)(l∈L)和目的节点d(l)(l∈L)无法端到端通信,只能通过无人机中继节点以多跳的方式进行数据传输。
(二)无人机中继通信系统模型的描述
针对实施(一)中构建的无人机中继通信系统模型,本实施例分析了无人机的移动性问题、能量消耗问题、全双工模式下的干扰和链路调度问题、信息速率问题。
(1)移动性问题
本实施例中,将系统整个数据传输周期T分为N个相等的时隙,每个时隙的长度用Δt表示,即Δt=T/N。假设在同一时隙期间,系统中无人机中继节点和地面终端的状态不会发生变化,则会话l的源节点s在时隙n的坐标表示为:
Figure BDA0003649333010000071
会话l的目的节点d在时隙n的坐标表示为:
Figure BDA0003649333010000072
无人机中继节点m在时隙n的位置坐标可以表示为:
Figure BDA0003649333010000073
下一个时隙n+1无人机节点m的位置坐标表示为:
Figure BDA0003649333010000074
Figure BDA0003649333010000075
Figure BDA0003649333010000076
应满足如下条件:
Figure BDA0003649333010000077
Figure BDA0003649333010000078
其中,
Figure BDA0003649333010000079
表示无人机中继节点m在时隙n的速度矢量,Dmin表示两个无人机节点之间应满足的最小距离。
(2)能量消耗问题
本实施例中,无人机在数据传输期间是处于飞行状态的,在能量耗尽之前需要到达指定位置,因此无人机中继节点的能耗问题是需要考虑的。因此,无人机在整个飞行过程中的能耗主要是由两部分组成:通信产生的能量消耗和飞行产生的能量消耗。无人机在开始飞行之前的总能量为E,用E[n]表示无人机在飞行完第n个时隙之后剩余的能量。
用Efly[n]表示UAV在第n个时隙内飞行产生的能耗,UAV在第n个时隙内的飞行速度为
Figure BDA0003649333010000081
因此有如下关系。
Figure BDA0003649333010000082
其中,m表示无人机的质量。
然后,用Etrans[n]表示UAV在第n个时隙内通信产生的能耗。UAV在时隙n 内的功率分配表示为:
Figure BDA0003649333010000083
因此,有:
Etrans[n]=puav[n]·Δt, (4)
E[n]=E[n-1]-Efly[n]-Etrans[n]; (5)
在无人机到达目的地(运行完最后一个时隙)之后,应该有E[N]≥0。
(3)干扰和链路调度问题
在本实施例中,无人机中继采用全双工模式进行信息传输。用
Figure BDA0003649333010000084
代表会话l在时隙n内地面终端i与无人机节点j或者无人机中继节点i到无人机中继节点j的调度情况。若会话l在时隙n内,节点i到节点j有传输数据,则
Figure BDA0003649333010000085
否则,
Figure BDA0003649333010000086
则存在如下约束:
Figure 5
Figure 4
在本实施例中,令
Figure BDA0003649333010000089
为会话l在时隙t时无人机中继节点i到中继节点j 的可达链路容量。在全双工的工作模式下,无人机中继节点的自干扰是不可忽略的,因此,无人机中继节点j受到的干扰由系统中其他中继节点产生的互干扰和来自节点j的自干扰组成。可以通过香农公式来计算节点i与节点j之间的可达链路容量
Figure BDA0003649333010000091
如公式(8)所示。
Figure BDA0003649333010000092
其中,第一个部分表示系统中其他无人机中继节点对节点j产生的干扰(互干扰),第二部分表示无人机中继节点j产生的自干扰,第三个部分表示噪声功率。
(4)信息速率约束问题
在本实施例中,无人机中继节点采用解码转发(Decode-and-Forward,DF) 中继策略,不考虑时延的情况下有以下约束:
Figure BDA0003649333010000093
Figure BDA0003649333010000094
Figure BDA0003649333010000095
Figure BDA0003649333010000096
其中,公式(9)-(11)表示在多跳会话中,后一跳的信息速率应不大于前一跳的信息速率,
Figure BDA0003649333010000097
表示会话l在时隙n内第一跳(源节点到第一个无人机中继节点)的可达速率,
Figure BDA0003649333010000098
表示会话l在时隙n内第m跳无人机中继节点的可达速率,
Figure BDA0003649333010000099
表示会话l在时隙n内目的节点的可达速率;公式(12) 表示会话l期间源节点到目的节点端到端的吞吐量。
(三)基于强化学习的无人机中继通信系统的优化
本实施例使用改进的深度确定性策略梯度算法求解该优化问题,实现系统会话的吞吐量最大化。首先,定义了模型的智能体、状态空间、行为空间、奖励方式。在本实施例中,智能体是无人机中继节点集合,状态空间由地面终端用户位置、无人机中继节点的位置构成,表示为:
Figure BDA0003649333010000101
行为空间定义为无人机中继节点的速度、无人机中继节点的功率、链路调度的集合,表示为:
Figure BDA0003649333010000102
在本实施例中,设计奖励函数从两个方面进行考虑,在有限的资源内最大化会话的吞吐量和在飞行燃料用尽之前到达目的地。因此,可以设计得出总的奖励函数:
rn=r(sn,an)=(1-κend)(rc+rloc),
其中,κend为二进制变量,表示无人机是否燃料耗尽。κend=1表示无人机燃料耗尽,奖励为0,反之,无人机状态正常。rc表示系统会话的吞吐量,rloc表示不同状态下无人机位置变化带来的奖励。
DDPG算法分为训练阶段和实施阶段。在每一次训练中,无人机能源充足从起始位置出发到能源耗尽或者是到达目的地结束。在训练阶段,具体实现步骤如下:
(1)智能体根据环境初始化当前状态为s,特征向量为φ(s);
(2)在Actor当前网络中,根据策略函数a=πθ(φ(s))+N选择动作a;
(3)在状态s下,执行动作a,获得下一步状态s′和奖励r,是否终止状态 isEnd;
(4)将{φ(s),a,r,φ(s')}组成的四元组放入经验回放池D中;
(5)进行状态转移:s=s';
(6)从经验回放池D中随机采样m个不相关的样本{φ(sj),aj,rj,φ(s'j)},计算目标Q值yj
yj=rj+γQ'(φ(s'j),πθ'(φ(s'j)),ω');
(7)计算均方差损失函数
Figure BDA0003649333010000111
利用神经网络的梯度反向传播更新Critic当前网络的参数ω;
(8)计算
Figure BDA0003649333010000112
利用神经网络的梯度反向传播更新 Actor当前网络的所有参数θ;
(9)算法是否满足终止条件,若满足,结束迭代,否则转到步骤b)重新学习。
在实施阶段,无人机会根据当前状态通过训练好的Actor网络采取适当的行为。
实验验证如下:
(1)实验参数设置,如表1所示
Figure BDA0003649333010000113
表1.仿真参数设置
(2)实验环境设置
在本发明中,我们根据实际应用场景在pycharm软件上进行仿真,仿真场景图如图3所示。假设该系统由20个无人机中继节点构成,地面终端用户通过多跳无人机中继节点实现与地面基站或者是其他用户的通信。在该中继系统中构建两组会话,会话1:4个终端用户通过同无人机中继节点18与BS进行通信,无人机中继节点18运行在以坐标[-0.21,-14.25,0.5]为中心的边长为2km的正方形区域内;会话2:一个终端通过多跳无人机中继节点与另一个终端进行通信。地面基站位于坐标原点[0,0,0.05],无人机中继节点18的起始位置为[-1.21,-14.25,0.5],终止坐标为[0.79,-14.25,0.5],无人机飞行高度固定在500m,无人机覆盖范围内的地面终端随机分布在1km*1km的正方形区域内,且地面终端处于随机运动状态。
(2)实验结果验证
图4展示了本发明中该无人机中继通信系统中会话的平均吞吐量的变化趋势,可以看到,经过DDPG算法的优化,系统会话的吞吐量有了明显的提升。
图5展示了会话1中无人机最优运行轨迹图,图6展示了在不同迭代次数下,会话1中无人机运行轨迹对比图,随着迭代次数的不断增加,DDPG网络参数的不断更新,无人机的学习行为在逐步优化。当迭代次数为8000时,DDPG 网络参数趋于稳定,无人机的运行轨迹开始平稳。图7、8分别展示了会话2 中无人机与终端用户发射方、终端用户接收方的轨迹运行图,在智能体进行学习优化的过程中,为了使会话的吞吐量最大化,无人机会向着用户方向运行,此时无人机与终端用户的距离变近,通信速率会不断提升。在会话周期末,无人机会朝着设定的终点飞行。
图9展示了终端用户时隙分配图,每个终端可利用的通信时隙数均匀分配,通信资源能够得到了合理利用。图10展示了会话2中无人机中继节点路由图,通过无人机多跳中继节点,两个远程终端能够实现高速率的通信。图11展示了在图10会话路由选择和调度的情况下,无人机中继节点总的功率消耗图。在满足终端之间最大化通信速率的前提下,对无人机中继节点功率控制进行优化。通过不断地学习迭代,整个系统的功耗有了显著地减少。
图12和图13展示了当探索率取值为0.05时无人机中继节点的功率消耗趋势图。与探索率取值为0.05相比,当探索率取值为0.1时,DDPG网络收敛性更好并且功率控制的效果更优。通过对比,当探索率取值为0.05时,功率消耗远远多于探索率为0.1时的DDPG网络,DDPG算法陷入局部最优。当探索率取值为0.1时,无人机中继节点消耗的平均功率为3.25W,当探索率取值为0.05 时,无人机中继节点消耗的平均功率为4.97W,当采用最大功率进行发送时,无人机中继节点消耗的平均功率为20W。通过对比可以发现,探索率取值为0.1 时会话的功率消耗比探索率取值为0.05时减少了34.6%,探索率取值为0.1时会话的功率消耗比以最大功率发送时减少了83.75%。
(3)实验结果总结
本实施例根据实际应用场景在仿真软件pycharm上构建了一个无人机中继通信系统模型,通过对无人机中继节点的飞行轨迹、节点选择和通信资源进行联合优化,采用改进的深度确定性策略梯度算法对该问题进行求解,可以实现地面终端用户及其链路的吞吐量最大化,而且能够实现无人机的飞行轨迹优化和通信资源的合理分配,同时能够减少算法迭代次数,并加速收敛过程。
以上显示和描述了本实施例的基本原理、主要特征和优点。本领域的技术人员应该了解,本实施例不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本实施例的原理,在不脱离本实施例精神范围的前提下,本实施例还会有各种变化和改进,这些变化和改进都落入要求保护的本实施例范围内。本实施例要求保护的范围由权利要求书及其等效物界定。

Claims (5)

1.基于深度确定性策略梯度算法的无人机中继通信系统的实现方法,其特征在于,包括如下步骤,
步骤S1.根据应用场景在仿真软件pycharm上构建无人机中继通信系统模型,包括地面基站、无人机中继节点和地面终端用户的表示;
步骤S2.分析多无人机中继通信系统中的约束问题,包括无人机的移动性问题及能量消耗问题、全双工模式下的干扰和链路调度问题、信息速率问题,将物理模型转化为数学优化问题;
步骤S3.以地面终端用户的位置和无人机中继节点的位置作为状态空间,以无人机中继节点的速度、功率和链路调度的集合作为动作空间,采用深度确定性策略梯度算法计算优化问题;
步骤S4.构建DDPG网络,将上述参数输入到DDPG网络中对目标函数进行优化,获取DDPG网络的参数。
2.根据权利要求1所述的基于深度确定性策略梯度算法的无人机中继通信系统的实现方法,其特征在于,所述步骤S2中,无人机的移动性约束公式为
Figure FDA0003649331000000011
Figure FDA0003649331000000012
无人机的能量消耗约束公式为
Figure FDA0003649331000000013
Etrans[n]=puav[n]·Δt, (4)
E[n]=E[n-1]-Efly[n]-Etrans[n]; (5)
其中,
Figure FDA0003649331000000014
为无人机中继节点m在时隙n的位置坐标,
Figure FDA0003649331000000015
为无人机中继节点m在时隙n的速度矢量,Δt为时间间隔,Dmin为两个无人机节点之间应满足的最小距离,puav[n]为无人机中继节点的发射功率,m为无人机的质量。公式(1)表示无人机在相邻两个时隙内的速度、位置约束,公式(2)表示不同无人机之间应满足的最小距离约束,公式(3)表示无人机在时隙n内的飞行耗能Efly[n],公式(4)表示无人机在时隙n内的通信耗能Etrans[n],公式(5)表示无人机在时隙n末所剩的总能量E[n]。
3.根据权利要求1所述的基于深度确定性策略梯度算法的无人机中继通信系统的实现方法,其特征在于,所述步骤S2中,全双工模式下无人机之间的干扰和链路调度的约束公式为
Figure FDA0003649331000000021
Figure FDA0003649331000000022
Figure FDA0003649331000000023
其中,公式(6)为无人机i与无人机j之间的可达链路容量,W为带宽,
Figure FDA0003649331000000024
为无人机i的发射功率,
Figure FDA0003649331000000025
为无人机i与无人机j之间的路径增益,η为高斯噪声功率谱密度,θ为自干扰消除系数,θ值越小,表示无人机中继节点的自干扰越小;公式(7)和公式(8)为无人机在会话l在时隙n内地面终端i与无人机节点j或者无人机中继节点i到无人机中继节点j的调度情况,
Figure FDA0003649331000000026
代表会话l在时隙n内地面终端i与无人机节点j或者无人机中继节点i到无人机中继节点j的调度情况。
4.根据权利要求1所述的基于深度确定性策略梯度算法的无人机中继通信系统的实现方法,其特征在于,所述步骤S3中,无人机中继节点采用解码转发中继策略的情况下信息速率约束公式为
Figure FDA0003649331000000027
Figure FDA0003649331000000028
Figure FDA0003649331000000029
Figure FDA00036493310000000210
其中,公式(9)-(11)为在多跳会话中,后一跳的信息速率不大于前一跳的信息速率,
Figure FDA0003649331000000031
为会话l在时隙n内第一跳的可达速率,即源节点到第一个无人机中继节点可达速率,
Figure FDA0003649331000000032
为会话l在时隙n内第m跳无人机中继节点的可达速率,
Figure FDA0003649331000000033
为会话l在时隙n内目的节点的可达速率;公式(12)为会话l期间源节点到目的节点端到端的吞吐量。
5.根据权利要求1所述的基于深度确定性策略梯度算法的无人机中继通信系统的实现方法,其特征在于,所述步骤S3中,深度确定性策略梯度算法的具体步骤为,
步骤S31.根据环境初始化当前状态为s,特征向量为φ(s);
步骤S32.在Actor当前网络中,根据策略函数a=πθ(φ(s))+N选择动作;
步骤S33.在状态s下,执行动作a,获得下一步状态s′和奖励r,是否终止状态isEnd;
步骤S34.将{φ(s),a,r,φ(s')}组成的四元组放入经验回放池D中;
步骤S35.进行状态转移:s=s';
步骤S36.从经验回放池D中随机采样m个不相关的样本{φ(sj),aj,rj,φ(s'j)},计算目标Q值yj:yj=rj+γQ'(φ(s'j),πθ'(φ(s'j)),ω');
步骤S37.计算均方差损失函数
Figure FDA0003649331000000034
利用神经网络的梯度反向传播更新Critic当前网络的参数ω;
步骤S38.计算
Figure FDA0003649331000000035
利用神经网络的梯度反向传播更新Actor当前网络的所有参数θ;
步骤S39.算法是否满足终止条件,若满足,结束迭代,否则转到步骤S32重新学习。
CN202210544445.0A 2022-05-18 2022-05-18 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法 Pending CN114980126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210544445.0A CN114980126A (zh) 2022-05-18 2022-05-18 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210544445.0A CN114980126A (zh) 2022-05-18 2022-05-18 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法

Publications (1)

Publication Number Publication Date
CN114980126A true CN114980126A (zh) 2022-08-30

Family

ID=82985433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210544445.0A Pending CN114980126A (zh) 2022-05-18 2022-05-18 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法

Country Status (1)

Country Link
CN (1) CN114980126A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115914045A (zh) * 2022-11-11 2023-04-04 南通智大信息技术有限公司 一种无人机中继系统吞吐量优化方法及系统
CN117560677A (zh) * 2024-01-11 2024-02-13 国网冀北电力有限公司 一种用户与电力巡检无人机间的安全通信方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115914045A (zh) * 2022-11-11 2023-04-04 南通智大信息技术有限公司 一种无人机中继系统吞吐量优化方法及系统
CN115914045B (zh) * 2022-11-11 2023-09-26 南通智大信息技术有限公司 一种无人机中继系统吞吐量优化方法及系统
CN117560677A (zh) * 2024-01-11 2024-02-13 国网冀北电力有限公司 一种用户与电力巡检无人机间的安全通信方法
CN117560677B (zh) * 2024-01-11 2024-03-29 国网冀北电力有限公司 一种用户与电力巡检无人机间的安全通信方法

Similar Documents

Publication Publication Date Title
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
Zhang et al. Beyond D2D: Full dimension UAV-to-everything communications in 6G
Challita et al. Interference management for cellular-connected UAVs: A deep reinforcement learning approach
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Challita et al. Deep reinforcement learning for interference-aware path planning of cellular-connected UAVs
Challita et al. Cellular-connected UAVs over 5G: Deep reinforcement learning for interference management
CN111132258B (zh) 一种基于虚拟势场法的无人机集群协同机会路由方法
CN112737837B (zh) 一种高动态网络拓扑下无人机群带宽资源分配方法
CN111193536A (zh) 一种多无人机基站轨迹优化和功率分配方法
CN114980126A (zh) 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法
CN114025330B (zh) 一种空地协同的自组织网络数据传输方法
CN113660681B (zh) 一种应用于无人机集群辅助传输的多智能体资源优化方法
Wu et al. 3D aerial base station position planning based on deep Q-network for capacity enhancement
Jianmin et al. Ardeep: Adaptive and reliable routing protocol for mobile robotic networks with deep reinforcement learning
CN115640131A (zh) 一种基于深度确定性策略梯度的无人机辅助计算迁移方法
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN116436512A (zh) 一种ris辅助通信的多目标优化方法、系统及设备
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN114020024A (zh) 基于蒙特卡洛树搜索的无人机路径规划方法
CN111741520B (zh) 一种基于粒子群的认知水声通信系统功率分配方法
CN116737391A (zh) 一种联邦模式下基于混合策略的边缘计算协作方法
Zhang et al. Machine learning driven UAV-assisted edge computing
CN112995924B (zh) 一种面向集群间通信的u2u集中式动态资源分配方法
Zhao et al. Adaptive Multi-UAV Trajectory Planning Leveraging Digital Twin Technology for Urban IIoT Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination