CN116400728A - 一种基于深度确定性策略梯度算法的无人机路径规划方法 - Google Patents

一种基于深度确定性策略梯度算法的无人机路径规划方法 Download PDF

Info

Publication number
CN116400728A
CN116400728A CN202310310925.5A CN202310310925A CN116400728A CN 116400728 A CN116400728 A CN 116400728A CN 202310310925 A CN202310310925 A CN 202310310925A CN 116400728 A CN116400728 A CN 116400728A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
model
representing
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310310925.5A
Other languages
English (en)
Inventor
唐杰
周以恒
张家莹
李帅君
范峻媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202310310925.5A priority Critical patent/CN116400728A/zh
Publication of CN116400728A publication Critical patent/CN116400728A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于深度确定性策略梯度算法的无人机路径规划方法,该方法包括下述步骤:构建无人机辅助的通信感知一体化系统模型,包括地面传感器模型、无人机模型、信道模型以及雷达探测模型;基于无人机任务的优化目标,构建无人机任务多目标优化函数;基于深度确定性策略梯度算法训练无人机,根据无人机任务的多目标优化函数构建DDPG算法的状态空间、动作空间以及奖励函数;根据所构建的状态空间、动作空间以及奖励函数对无人机进行训练,输出最优的无人机路径规划结果。本发明提高了无人机飞行的自主性,并且能够使得无人机以更低的能耗服务更多的目标地面传感器。

Description

一种基于深度确定性策略梯度算法的无人机路径规划方法
技术领域
本发明涉及无人机路径规划技术领域,具体涉及一种基于深度确定性策略梯度算法的无人机路径规划方法。
背景技术
随着无线通信技术的发展,新一代移动通信的数据传输速率不断提高。未来第六代移动通信网络将交叉融合物联网、人工智能、大数据、区块链等技术,使得通信与感知进行深度融合,此外,未来空天地一体化通信要求通信网络能够支持全方位用户的高速率以及超可靠低时延通信,并能提供强大的环境感知和计算能力,因此对新一代移动通信技术的信息传输以及数据处理能力有了更高的要求。
通信感知一体化技术为通信和感知使用同一无线传输信号,得系统进行端到端通信的同时可利用无线信号的反馈信息对目标物体进行感知,提高了系统的频谱效率。此外,通信感知一体化系统通过共享频谱资源和硬件平台资源以及进行统一的信号波形及星座设计,可以降低硬件成本开销,减小体积与功耗并提升系统整体效率。因此,通信感知一体化技术逐步成为了学术界与工业界的研究热点,其研究方向主要包括通信感知一体化架构研究、信号波形设计、干扰消除和组网融合技术等。
由于无人机的高移动性以及物联网平台具有随机部署的特点,因此无人机的路径规划问题成为了无人机辅助的通信一体化网络的重点研究方向之一。无人机在面对复杂环境时应具有自主决策能力,以实时调整和控制无人机的飞行路径。然而,传统决策优化算法在面对复杂环境时具有求解效率低、适应性差且计算量大的缺点,导致无人机路径规划的自主性受到很大影响。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于深度确定性策略梯度算法(DDPG)的无人机路径规划方法,本发明通过深度确定性策略梯度算法对无人机进行训练,实现在最小能耗的同时探测到最多的地面传感器设备并收集传感器中的数据。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于深度确定性策略梯度算法的无人机路径规划方法,包括下述步骤:
构建无人机辅助的通信感知一体化系统模型,包括地面传感器模型、无人机模型、信道模型以及雷达探测模型;
所述地面传感器模型的构建包括:在地面上随机建立多个传感器设备,传感器设备实时监测收集最新环境状态的数据信息,数据信息存储在传感器缓冲区内以待无人机收集;
所述无人机模型包括无人机的飞行动力学模型和无人机在飞行时的功耗模型,基于无人机的飞行动力学模型得到无人机的坐标位置;
所述信道模型的构建包括:基于NLoS链路和LoS链路构建空对地信道模型;
所述雷达探测模型的构建包括:基于雷达检测信息构建雷达探测模型,所述雷达检测信息包括雷达发射功率、天线增益、有效接收面积、雷达截面积和最小可检测信号,根据雷达探测模型和无人机的坐标位置得到传感器设备的具体坐标位置,将其加入到无人机的已知信息集合中作为收集信息的候选目标传感器;
基于无人机任务的优化目标,构建无人机任务多目标优化函数;
基于深度确定性策略梯度算法训练无人机,根据无人机任务的多目标优化函数构建DDPG算法的状态空间、动作空间以及奖励函数;
无人机选定目标传感器设备,并移动至目标传感器设备正上方悬停进行数据采集,数据采集完成后再选定新的目标传感器设备并继续执行数据采集任务,在整个任务执行过程中无人机探测新的地面传感器设备并加入无人机已知信息合集中作为数据采集的候选目标;
根据所构建的状态空间、动作空间以及奖励函数对无人机进行训练,输出最优的无人机路径规划结果。
作为优选的技术方案,所述传感器设备采用时分多址协议进行传输,不同传感器设备的数据传输优先级表示如下:
Figure BDA0004148451080000031
其中,fk(t)表示t时刻在传感器数据缓冲区中等待被收集的数据,ak表示传感器k在t时刻的数据生成速率,ak服从泊松分布且不同传感器设备的泊松分布参数不相同,fmax为数据缓存区的最大容量。
作为优选的技术方案,所述无人机的飞行动力学模型表示为:
Figure BDA0004148451080000032
其中,(xu,yu,zu)代表无人机的坐标位置,v代表无人机的飞行速度,
Figure BDA0004148451080000033
代表无人机的偏航角,h代表无人机的固定飞行飞行高度。
作为优选的技术方案,所述无人机在飞行时的功耗模型表示为:
P(V)=Pb(V)+Pi(V)+Pa(V)
Figure BDA0004148451080000034
Figure BDA0004148451080000041
Figure BDA0004148451080000042
其中,Pb为叶片剖面功率,P0为无人机悬停时的叶片剖面功率,U为无人机旋翼的叶尖转速,Pi(V)表示无人机的诱导功率,Pd为无人机悬停时的诱导功率,v0为无人机悬停时的平均旋翼空气诱导速度,Pa(V)为无人机的寄生功率,b0、ρ、m、S分别表示机身阻力系数、空气密度、旋翼实度以及旋翼盘面积。
作为优选的技术方案,所述空对地信道模型的损耗模型表示如下:
Figure BDA0004148451080000043
其中,η表示信道功率增益,
Figure BDA0004148451080000048
表示无人机与传感器设备k之间的传播距离,β表示路径损耗系数,μNLoS是NLoS链路的衰减系数。
作为优选的技术方案,对于传感器设备k,在t时刻的LoS概率表示为:
Figure BDA0004148451080000044
Figure BDA0004148451080000045
其中,c和d是取决于载波频率和环境的两个常量,θk表示无人机和传感器设备之间的仰角,dk表示无人机与传感器设备之间的距离,H表示无人机所在高度;
无人机和传感器设备k之间的信道功率增益为:
Figure BDA0004148451080000046
作为优选的技术方案,所述雷达探测模型表示为:
Figure BDA0004148451080000047
其中,Pt为雷达发射功率,G为天线增益,Ae为有效接收面积,σ为雷达截面积,smin为最小可检测信号。
作为优选的技术方案,所述无人机任务多目标优化函数表示为:
max(Rtotal,Dtotat,-Etotal)
其中,Rtotal表示无人机收集地面传感器设备的总数据传输速率,Dtotal表示无人机执行任务过程中发现的地面传感器设备数量,Etotal表示无人机执行任务过程中的总能耗。
作为优选的技术方案,所述状态空间构建为五元组S={Xu,Xd,Xf,Xl,Xt},其中,Xu表示无人机的坐标,Xd表示目标传感器设备的坐标,Xf表示无人机超出地图范围的次数,Xl表示无人机探测到产生数据溢出的传感器数量,Xt表示无人机所探测到的传感器设备数量;
所述动作空间表示为:
Figure BDA0004148451080000051
其中,v代表无人机的飞行速度,/>
Figure BDA0004148451080000052
代表无人机的偏航角;
所述奖励函数表示为:R=10Dtotal-P-Df-Dl+Dt+Dd
其中,Dtotal为信息传输率的总和,P为无人机的能量消耗,Df为无人机飞行时超出地图范围的惩罚项,Dl为地面传感器设备发生数据溢出时的惩罚项,Dt为无人机探测到地面传感器设备的奖励项,Dd表示无人机和目标传感器设备之间距离的奖励项。
作为优选的技术方案,深度确定性策略梯度算法基于Actor-Critic框架,分别用μ网络和Q网络表示负责拟合策略函数的Actor网络以及负责拟合价值函数的Critic网络,采用了固定网络技术,Actor网络和Critic网络都各自增加了一个目标神经网络,将新的参数用软更新的方法更新到目标神经网络上,软更新的方法表示为:
τθμ+(1-τ)θμ′→θμ′
τθQ+(1-τ)θQ′→θQ′
其中,θμ、θμ′表示Actor神经网络的评估神经网络参数、目标神经网络参数,θQ、θQ′表示Critic神经网络的评估神经网络参数、目标神经网络参数,τ表示更新率。
本发明与现有技术相比,具有如下优点和有益效果:
本发明构建了无人机辅助的通信感知一体化系统模型,对系统下无人机的任务进行建模并分析了优化目标,通过分析无人机的能耗以及无人机发现地面传感器目标数目以及采集地面传感器目标数据的数据传输率得到了优化目标函数,并设计了算法的奖励函数以指导算法进行训练;
相较于传统路径规划方法,本发明所提出的方法灵活性及可移植性高,对环境变化的适应能力强;相较于普通强化学习方法,本发明所提出方法能够针对多个不同的优化目标进行优化,并且通过合理的设计奖励函数以及训练时引入分布奖赏、平滑更新等技巧能够使算法更快地收敛并且得到比传统方法更好的性能指标。
附图说明
图1为基于深度确定性策略梯度算法的无人机路径规划方法的流程示意图;
图2为本发明无人机辅助的通信感知一体化系统模型的架构示意图;
图3为本发明DDPG算法的实现流程框架示意图;
图4为本发明无人机进行数据采集传感器设备总数随训练回合增加的曲线示意图;
图5为本发明无人机探测到传感器设备总数随训练回合增加的曲线示意图;
图6为本发明无人机执行数据采集任务总数据传输率随训练回合增加的曲线示意图;
图7为本发明无人机能耗随训练回合增加的曲线示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
如图1所示,本实施例提供一种基于深度确定性策略梯度算法的无人机路径规划方法,包括下述步骤:
S1:构建无人机辅助的通信感知一体化系统模型,包括地面传感器模型、无人机模型、信道模型以及雷达探测模型;
假定在一定区域的空间内分布着若干传感器用于采集环境信息,传感器所收集的信息需要进行采集汇总并进行下一步处理分析。由于自然条件等环境因素以及便利性的考虑,使用无人机探测传感器位置并收集传感器中的信息。
如图2所示,利用Python3.6进行建模,模拟无人机辅助的通信感知一体化系统环境,本实施例包括一个无人机以及100个随机分布在500×500米范围内的地面传感器设备,无人机在固定高度15米执行任务。无人机通信覆盖半径15米,感知覆盖半径30米。地面传感器设备中的数据每秒更新一次。传感器设备的数据缓冲区容量上限为5000个数据包,而每个数据包大小为10兆字节。
S11:构建地面传感器模型的步骤如下:
在地面上随机建立个(本实施例优选为100个)传感器设备,传感器k的位置用表示。传感器能实时监测并收集最新环境状态的数据信息,将其存储在传感器缓冲区内以待无人机收集。传感器设备采用时分多址协议进行传输。不同传感器设备的数据传输优先级表示如下:
Figure BDA0004148451080000071
其中,fk(t)表示t时刻在传感器数据缓冲区中等待被收集的数据,ak表示传感器k在t时刻的数据生成速率,ak服从泊松分布且不同传感器设备的泊松分布参数不相同,fmax为数据缓存区的最大容量。假定每个传感器设备的数据缓存区容量相同。当数据缓冲区中的数据容量达到最大值时,新数据会直接覆盖旧数据。
S12:构建无人机模型的步骤如下:
在三维坐标系中对系统进行建模,地面建模为OXY平面,将无人机以及地面传感器设备等效为质点,无人机在固定高度执行任务,则无人机的飞行动力学模型表示为:
Figure BDA0004148451080000081
其中,(xuyu,zu)代表无人机的坐标位置,v代表无人机的飞行速度,
Figure BDA0004148451080000082
代表无人机的偏航角,h代表无人机的固定飞行飞行高度。v受到最大飞行速度vmax=20m/s的限制,偏航角
Figure BDA0004148451080000083
的范围为[-π,π]。
无人机在飞行时的功耗模型表示为:
P(V)=Pb(V)+Pi(V)+Pa(V)
其中,
Figure BDA0004148451080000084
为叶片剖面功率,P0为无人机悬停时的叶片剖面功率,U为无人机旋翼的叶尖转速。/>
Figure BDA0004148451080000085
为无人机的诱导功率,其中Pd为无人机悬停时的诱导功率,v0为无人机悬停时的平均旋翼空气诱导速度。
Figure BDA0004148451080000086
为无人机的寄生功率,其中b0、ρ、m、S分别表示机身阻力系数、空气密度、旋翼实度以及旋翼盘面积。
S13:构建信道模型的步骤如下:
空对地信道的损耗模型表示如下:
Figure BDA0004148451080000091
其中,η表示参考距离d0=1m时的信道功率增益,
Figure BDA0004148451080000092
表示无人机与传感器设备k之间的传播距离,β表示路径损耗系数。μNLoS是NLoS链路的衰减系数。
对于传感器设备k,在t时刻的LoS概率表示为:
Figure BDA0004148451080000093
其中,c和d是取决于载波频率和环境的两个常量,主要取决于载波频率以及无人机所在的环境类型,
Figure BDA0004148451080000094
表示无人机和传感器设备之间的仰角,dk表示无人机与传感器设备之间的距离,H表示无人机所在高度。
则无人机和传感器设备k之间的信道功率增益为:
Figure BDA0004148451080000095
S14:构建雷达探测模型的步骤如下:
无人机搭载雷达用以探测地面传感器设备,雷达探测模型建模为:
Figure BDA0004148451080000096
其中,Rmax为雷达可探测最大距离,Pt为雷达发射功率,G为天线增益,Ae为有效接收面积,σ为雷达截面积由具体目标大小决定,Smin为最小可检测信号。根据Rmax以及无人机的坐标位置得出传感器设备k的具体坐标位置,将其加入到无人机的已知信息集合中作为收集信息的候选目标传感器。
S2:无人机任务建模与分析;
基于无人机任务的优化目标,无人机任务多目标优化函数可以表示为:
max(Rtotal,Dtotal,-Etotal)
其中,Rtotal表示无人机收集地面传感器设备的总数据传输速率,Dtotal表示无人机执行任务过程中发现的地面传感器设备数量,Etotal表示无人机执行任务过程中的总能耗。
S3:利用基于深度确定性策略梯度算法(DDPG)训练无人机;
根据无人机任务的多目标优化函数设计DDPG算法的状态空间、动作空间以及奖励函数;
无人机选定目标传感器设备,并移动至目标传感器设备正上方悬停进行数据采集,数据采集完成后再选定新的目标传感器设备并继续执行数据采集任务。在整个任务执行过程中无人机不断探测新的地面传感器设备并加入无人机已知信息合集中作为数据采集的候选目标。
状态空间设计为一个五元组S={Xu,Xd,Xf,Xl,Xt},其中Xu表示无人机的坐标,Xd表示目标传感器设备的坐标,Xf表示无人机超出地图范围的次数,当无人机超出模型所规定的地图范围时,奖励函数会给予负面的奖励。Xl表示无人机探测到产生数据溢出的传感器数量,Xt表示无人机所探测到的传感器设备数量,避免强化学习算法陷入局部飞行作业。
无人机在三维空间上的连续动作空间被定义为
Figure BDA0004148451080000101
其中v代表无人机的飞行速度,/>
Figure BDA0004148451080000102
代表无人机的偏航角。
奖励函数设计如下:
R=10Dtotal-P-Df-Dl+Dt+Dd
其中,Dtotal为信息传输率的总和,计算公式为Dtotal=∑Di,Di由香农定理
Figure BDA0004148451080000103
得出,P为无人机的能量消耗。当无人机在飞行时,P为一个随速度变化的变量。当无人机悬停并与地面传感器设备进行通信时,P为一个常量。Df为无人机飞行时超出地图范围的惩罚项,Dl为地面传感器设备发生数据溢出时的惩罚项,Dt为无人机探测到地面传感器设备的奖励项,Dd表示无人机和目标传感器设备之间距离的奖励项。
根据所设计的状态空间、动作空间以及奖励函数对无人机进行训练,通过自适应调整学习率和动态调整探索因子等方法调整了训练补偿、增加动作选择的随机性以防止算法陷入局部最优,进一步加快了算法的收敛速度。最终使得经过算法训练的无人机能够完成目标任务。
本实施例所采用的DDPG算法是基于Actor-Critic框架的强化学习算法,能够解决在很多场景下连续动作空间的决策问题。DDPG算法是一种离线策略的无模型深度强化学习算法,可以很好地提高样本的利用率。如图3所示,展示了DDPG算法的框架,分别用μ网络和Q网络表示负责拟合策略函数的Actor网络以及负责拟合价值函数的Critic网络。由于Actor-Critic框架中两个神经网络的更新是相互依赖的,因此可能导致两个神经网络难以收敛。基于此,本实施例的DDPG算法采用了固定网络技术,其中两个神经网络都各自增加了一个目标神经网络,这样,算法更新时可对网络参数进行固定,进一步将新的参数用软更新的方法更新到目标网络上。软更新的公式如下:
τθμ+(1-τ)θμ′→θμ′
τθQ+(1-τ)θQ′→θQ′
其中,θμ、θμ′表示Actor神经网络的评估神经网络参数以及目标神经网络参数,θQ、θQ′表示Critic神经网络的评估神经网络参数以及目标神经网络参数。τ表示更新率,其使得更新以较为平缓的方式进行,保证神经网络的参数变化不大。
在本实施例中,无人机路径规划算法具体流程如下:
(1)预设迭代次数M,随机初始化评估网络和目标网络,初始化网络参数θQ、θμ
(2)初始化replay buffer以及探索因子σ;
(3)根据策略以及探索因子选择下一步要执行的动作at
(4)执行动作at,得到奖励rt和下一个状态st+1
(5)将(st,at,rt,st+1)存入到replay buffer中;
(6)从replay buffer中选出一批数据进行更新;
(7)计算ri+γQ′(si+1,μ′(si+1μ′)|θQ′);
(8)最小化
Figure BDA0004148451080000121
更新Critic网络;
(9)通过策略梯度
Figure BDA0004148451080000122
更新Actor网络;
(10)软更新目标网络:
τθμ+(1-τ)θμ′→θμ′
τθQ+(1-τ)θQ′→θQ′
减小探索因子,循环迭代直至满足预设的迭代次数M;
算法中,replay buffer为经验回放缓存区,用于存放智能体与环境之间交互的信息,可以减少智能体与环境之间交互的次数,使算法更快地收敛。si、ai、ri、si+1表示从replay buffer中抽样的样本i的当前时刻状态、动作、奖励以及下一时刻状态,N表示从replay buffer中抽样的数量,γ表示折扣因子,用于调整未来时刻奖励对总累积奖励的重要性。
在本实施例中,还给出仿真参数设置以及部分仿真结果的分析,具体如下:
本实施例采用Python3.6以及Pycharm搭建仿真环境,使用Tensorflow完成算法部分,具体仿真参数表如下表所示:
表1仿真参数表
Figure BDA0004148451080000123
Figure BDA0004148451080000131
如图4、图5所示,展示了获得数据采集服务的传感器数量随着训练回合增加的曲线图以及无人机探测到传感器数量随着训练回合增加的曲线图。从图中可以看出,随着训练次数的增加,被采集数据的传感器设备总数及无人机探测到的传感器设备总数均逐渐增多并最终趋于稳定。无人机经过训练后能够探测到70%以上的传感器设备并且能够为40%以上的传感器设备提供数据收集服务。
如图6、图7所示,展示了无人机执行任务的总数据传输率以及无人机执行任务时的总能耗随着训练回合增加的曲线图。从图中可以看出,随着训练次数的增加,总数据传输率逐渐增大并最终趋于稳定。无人机能量消耗随着训练次数增加呈现先减小后增大并最终趋于稳定的趋势。这证明了奖励函数可以有效地指导智能体向着低能耗的方向进行学习。为了适应通信以及感知的任务,经过一段时间的训练后,无人机的能耗会逐渐增多并趋于稳定。这进一步证明了所设计的奖励函数的有效性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度确定性策略梯度算法的无人机路径规划方法,其特征在于,包括下述步骤:
构建无人机辅助的通信感知一体化系统模型,包括地面传感器模型、无人机模型、信道模型以及雷达探测模型;
所述地面传感器模型的构建包括:在地面上随机建立多个传感器设备,传感器设备实时监测收集最新环境状态的数据信息,数据信息存储在传感器缓冲区内以待无人机收集;
所述无人机模型包括无人机的飞行动力学模型和无人机在飞行时的功耗模型,基于无人机的飞行动力学模型得到无人机的坐标位置;
所述信道模型的构建包括:基于NLoS链路和LoS链路构建空对地信道模型;
所述雷达探测模型的构建包括:基于雷达检测信息构建雷达探测模型,所述雷达检测信息包括雷达发射功率、天线增益、有效接收面积、雷达截面积和最小可检测信号,根据雷达探测模型和无人机的坐标位置得到传感器设备的具体坐标位置,将其加入到无人机的已知信息集合中作为收集信息的候选目标传感器;
基于无人机任务的优化目标,构建无人机任务多目标优化函数;
基于深度确定性策略梯度算法训练无人机,根据无人机任务的多目标优化函数构建DDPG算法的状态空间、动作空间以及奖励函数;
无人机选定目标传感器设备,并移动至目标传感器设备正上方悬停进行数据采集,数据采集完成后再选定新的目标传感器设备并继续执行数据采集任务,在整个任务执行过程中无人机探测新的地面传感器设备并加入无人机已知信息合集中作为数据采集的候选目标;
根据所构建的状态空间、动作空间以及奖励函数对无人机进行训练,输出最优的无人机路径规划结果。
2.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法,其特征在于,所述传感器设备采用时分多址协议进行传输,不同传感器设备的数据传输优先级表示如下:
Figure FDA0004148451070000021
其中,fk(t)表示t时刻在传感器数据缓冲区中等待被收集的数据,ak表示传感器k在t时刻的数据生成速率,ak服从泊松分布且不同传感器设备的泊松分布参数不相同,fmax为数据缓存区的最大容量。
3.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法,其特征在于,所述无人机的飞行动力学模型表示为:
Figure FDA0004148451070000022
其中,(xu,yu,zu)代表无人机的坐标位置,v代表无人机的飞行速度,
Figure FDA0004148451070000023
代表无人机的偏航角,h代表无人机的固定飞行飞行高度。
4.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法,其特征在于,所述无人机在飞行时的功耗模型表示为:
P(V)=Pb(V)+Pi(V)+Pa(V)
Figure FDA0004148451070000024
Figure FDA0004148451070000025
Figure FDA0004148451070000026
其中,Pb为叶片剖面功率,P0为无人机悬停时的叶片剖面功率,U为无人机旋翼的叶尖转速,Pi(V)表示无人机的诱导功率,Pd为无人机悬停时的诱导功率,v0为无人机悬停时的平均旋翼空气诱导速度,Pa(V)为无人机的寄生功率,b0、ρ、m、S分别表示机身阻力系数、空气密度、旋翼实度以及旋翼盘面积。
5.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法,其特征在于,所述空对地信道模型的损耗模型表示如下:
Figure FDA0004148451070000031
其中,η表示信道功率增益,ak β表示无人机与传感器设备k之间的传播距离,β表示路径损耗系数,μNLoS是NLoS链路的衰减系数。
6.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法,其特征在于,对于传感器设备k,在t时刻的LoS概率表示为:
Figure FDA0004148451070000032
Figure FDA0004148451070000033
其中,c和d是取决于载波频率和环境的两个常量,θk表示无人机和传感器设备之间的仰角,dk表示无人机与传感器设备之间的距离,H表示无人机所在高度;
无人机和传感器设备k之间的信道功率增益为:
Figure FDA0004148451070000034
7.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法,其特征在于,所述雷达探测模型表示为:
Figure FDA0004148451070000035
其中,Pt为雷达发射功率,G为天线增益,Ae为有效接收面积,σ为雷达截面积,Smin为最小可检测信号。
8.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法,其特征在于,所述无人机任务多目标优化函数表示为:
max(Rtotal,Dtotal,-Etotal)
其中,Rtotal表示无人机收集地面传感器设备的总数据传输速率,Dtotal表示无人机执行任务过程中发现的地面传感器设备数量,Etotal表示无人机执行任务过程中的总能耗。
9.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法,其特征在于,所述状态空间构建为五元组S={Xu,Xd,Xf,XlXt},其中,Xu表示无人机的坐标,Xd表示目标传感器设备的坐标,Xf表示无人机超出地图范围的次数,Xl表示无人机探测到产生数据溢出的传感器数量,Xt表示无人机所探测到的传感器设备数量;
所述动作空间表示为:
Figure FDA0004148451070000041
其中,v代表无人机的飞行速度,/>
Figure FDA0004148451070000042
代表无人机的偏航角;
所述奖励函数表示为:R=10Dtotal-P-Df-Dl+Dt+Dd
其中,Dtotal为信息传输率的总和,P为无人机的能量消耗,Df为无人机飞行时超出地图范围的惩罚项,Dl为地面传感器设备发生数据溢出时的惩罚项,Dt为无人机探测到地面传感器设备的奖励项,Dd表示无人机和目标传感器设备之间距离的奖励项。
10.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法,其特征在于,深度确定性策略梯度算法基于Actor-Critic框架,分别用μ网络和Q网络表示负责拟合策略函数的Actor网络以及负责拟合价值函数的Critic网络,采用了固定网络技术,Actor网络和Critic网络都各自增加了一个目标神经网络,将新的参数用软更新的方法更新到目标神经网络上,软更新的方法表示为:
τθμ+(1-τ)θμ′→θμ′
τθQ+(1-τ)θQ′→θQ′
其中,θμ、θμ′表示Actor神经网络的评估神经网络参数、目标神经网络参数,θQ、θQ′表示Critic神经网络的评估神经网络参数、目标神经网络参数,τ表示更新率。
CN202310310925.5A 2023-03-27 2023-03-27 一种基于深度确定性策略梯度算法的无人机路径规划方法 Pending CN116400728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310310925.5A CN116400728A (zh) 2023-03-27 2023-03-27 一种基于深度确定性策略梯度算法的无人机路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310310925.5A CN116400728A (zh) 2023-03-27 2023-03-27 一种基于深度确定性策略梯度算法的无人机路径规划方法

Publications (1)

Publication Number Publication Date
CN116400728A true CN116400728A (zh) 2023-07-07

Family

ID=87008425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310310925.5A Pending CN116400728A (zh) 2023-03-27 2023-03-27 一种基于深度确定性策略梯度算法的无人机路径规划方法

Country Status (1)

Country Link
CN (1) CN116400728A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117835463A (zh) * 2023-12-27 2024-04-05 武汉大学 基于深度强化学习的空地自组通信网络时空动态部署方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117835463A (zh) * 2023-12-27 2024-04-05 武汉大学 基于深度强化学习的空地自组通信网络时空动态部署方法

Similar Documents

Publication Publication Date Title
CN113190039B (zh) 一种基于分层深度强化学习的无人机采集路径规划方法
CN109286913B (zh) 基于蜂窝网联的无人机移动边缘计算系统能耗优化方法
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN113433967B (zh) 一种可充电无人机路径规划方法及系统
CN116405111B (zh) 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN112511250A (zh) 一种基于drl的多无人机空中基站动态部署方法及系统
CN113406965A (zh) 一种基于强化学习的无人机能耗优化方法
CN116400728A (zh) 一种基于深度确定性策略梯度算法的无人机路径规划方法
CN113242563A (zh) 一种无线传感器网络覆盖率优化方法及系统
CN116627162A (zh) 基于多智能体强化学习的多无人机数据采集位置优化方法
CN111367315A (zh) 一种应用于无人机收集信息的轨迹规划方法及装置
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
Kurunathan et al. Deep reinforcement learning for persistent cruise control in UAV-aided data collection
Chen et al. Energy-aware path planning for obtaining fresh updates in UAV-IoT MEC systems
CN116700343A (zh) 一种无人机路径规划方法、设备和存储介质
CN115494732A (zh) 一种基于近端策略优化的无人机轨迹设计和功率分配方法
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
CN117556979B (zh) 基于群体智能搜索的无人机平台与载荷一体化设计方法
CN117580105B (zh) 一种面向电网巡检的无人机任务卸载优化方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法
CN115097861A (zh) 一种基于cel-maddpg的多无人机围捕策略方法
CN114610070A (zh) 一种无人机协同的风电场智能巡检方法
CN117369485A (zh) 无人机路径协同规划方法、装置、电子设备及存储介质
CN116774584A (zh) 一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination