CN116400728A

CN116400728A - 一种基于深度确定性策略梯度算法的无人机路径规划方法

Info

Publication number: CN116400728A
Application number: CN202310310925.5A
Authority: CN
Inventors: 唐杰; 周以恒; 张家莹; 李帅君; 范峻媛
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-07-07

Abstract

本发明公开了一种基于深度确定性策略梯度算法的无人机路径规划方法，该方法包括下述步骤：构建无人机辅助的通信感知一体化系统模型，包括地面传感器模型、无人机模型、信道模型以及雷达探测模型；基于无人机任务的优化目标，构建无人机任务多目标优化函数；基于深度确定性策略梯度算法训练无人机，根据无人机任务的多目标优化函数构建DDPG算法的状态空间、动作空间以及奖励函数；根据所构建的状态空间、动作空间以及奖励函数对无人机进行训练，输出最优的无人机路径规划结果。本发明提高了无人机飞行的自主性，并且能够使得无人机以更低的能耗服务更多的目标地面传感器。

Description

一种基于深度确定性策略梯度算法的无人机路径规划方法

技术领域

本发明涉及无人机路径规划技术领域，具体涉及一种基于深度确定性策略梯度算法的无人机路径规划方法。

背景技术

随着无线通信技术的发展，新一代移动通信的数据传输速率不断提高。未来第六代移动通信网络将交叉融合物联网、人工智能、大数据、区块链等技术，使得通信与感知进行深度融合，此外，未来空天地一体化通信要求通信网络能够支持全方位用户的高速率以及超可靠低时延通信，并能提供强大的环境感知和计算能力，因此对新一代移动通信技术的信息传输以及数据处理能力有了更高的要求。

通信感知一体化技术为通信和感知使用同一无线传输信号，得系统进行端到端通信的同时可利用无线信号的反馈信息对目标物体进行感知，提高了系统的频谱效率。此外，通信感知一体化系统通过共享频谱资源和硬件平台资源以及进行统一的信号波形及星座设计，可以降低硬件成本开销，减小体积与功耗并提升系统整体效率。因此，通信感知一体化技术逐步成为了学术界与工业界的研究热点，其研究方向主要包括通信感知一体化架构研究、信号波形设计、干扰消除和组网融合技术等。

由于无人机的高移动性以及物联网平台具有随机部署的特点，因此无人机的路径规划问题成为了无人机辅助的通信一体化网络的重点研究方向之一。无人机在面对复杂环境时应具有自主决策能力，以实时调整和控制无人机的飞行路径。然而，传统决策优化算法在面对复杂环境时具有求解效率低、适应性差且计算量大的缺点，导致无人机路径规划的自主性受到很大影响。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于深度确定性策略梯度算法(DDPG)的无人机路径规划方法，本发明通过深度确定性策略梯度算法对无人机进行训练，实现在最小能耗的同时探测到最多的地面传感器设备并收集传感器中的数据。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于深度确定性策略梯度算法的无人机路径规划方法，包括下述步骤：

构建无人机辅助的通信感知一体化系统模型，包括地面传感器模型、无人机模型、信道模型以及雷达探测模型；

所述地面传感器模型的构建包括：在地面上随机建立多个传感器设备，传感器设备实时监测收集最新环境状态的数据信息，数据信息存储在传感器缓冲区内以待无人机收集；

所述无人机模型包括无人机的飞行动力学模型和无人机在飞行时的功耗模型，基于无人机的飞行动力学模型得到无人机的坐标位置；

所述信道模型的构建包括：基于NLoS链路和LoS链路构建空对地信道模型；

所述雷达探测模型的构建包括：基于雷达检测信息构建雷达探测模型，所述雷达检测信息包括雷达发射功率、天线增益、有效接收面积、雷达截面积和最小可检测信号，根据雷达探测模型和无人机的坐标位置得到传感器设备的具体坐标位置，将其加入到无人机的已知信息集合中作为收集信息的候选目标传感器；

基于无人机任务的优化目标，构建无人机任务多目标优化函数；

基于深度确定性策略梯度算法训练无人机，根据无人机任务的多目标优化函数构建DDPG算法的状态空间、动作空间以及奖励函数；

无人机选定目标传感器设备，并移动至目标传感器设备正上方悬停进行数据采集，数据采集完成后再选定新的目标传感器设备并继续执行数据采集任务，在整个任务执行过程中无人机探测新的地面传感器设备并加入无人机已知信息合集中作为数据采集的候选目标；

根据所构建的状态空间、动作空间以及奖励函数对无人机进行训练，输出最优的无人机路径规划结果。

作为优选的技术方案，所述传感器设备采用时分多址协议进行传输，不同传感器设备的数据传输优先级表示如下：

其中，f_k(t)表示t时刻在传感器数据缓冲区中等待被收集的数据，a_k表示传感器k在t时刻的数据生成速率，a_k服从泊松分布且不同传感器设备的泊松分布参数不相同，f_max为数据缓存区的最大容量。

作为优选的技术方案，所述无人机的飞行动力学模型表示为：

其中，(x_u，y_u，z_u)代表无人机的坐标位置，v代表无人机的飞行速度，

代表无人机的偏航角，h代表无人机的固定飞行飞行高度。

作为优选的技术方案，所述无人机在飞行时的功耗模型表示为：

P(V)＝P_b(V)+P_i(V)+P_a(V)

其中，P_b为叶片剖面功率，P₀为无人机悬停时的叶片剖面功率，U为无人机旋翼的叶尖转速，P_i(V)表示无人机的诱导功率，P_d为无人机悬停时的诱导功率，v₀为无人机悬停时的平均旋翼空气诱导速度，P_a(V)为无人机的寄生功率，b₀、ρ、m、S分别表示机身阻力系数、空气密度、旋翼实度以及旋翼盘面积。

作为优选的技术方案，所述空对地信道模型的损耗模型表示如下：

其中，η表示信道功率增益，

表示无人机与传感器设备k之间的传播距离，β表示路径损耗系数，μ^NLoS是NLoS链路的衰减系数。

作为优选的技术方案，对于传感器设备k，在t时刻的LoS概率表示为：

其中，c和d是取决于载波频率和环境的两个常量，θ_k表示无人机和传感器设备之间的仰角，d_k表示无人机与传感器设备之间的距离，H表示无人机所在高度；

无人机和传感器设备k之间的信道功率增益为：

作为优选的技术方案，所述雷达探测模型表示为：

其中，P_t为雷达发射功率，G为天线增益，A_e为有效接收面积，σ为雷达截面积，s_min为最小可检测信号。

作为优选的技术方案，所述无人机任务多目标优化函数表示为：

max(R_total，D_totat，-E_total)

其中，R_total表示无人机收集地面传感器设备的总数据传输速率，D_total表示无人机执行任务过程中发现的地面传感器设备数量，E_total表示无人机执行任务过程中的总能耗。

作为优选的技术方案，所述状态空间构建为五元组S＝{X_u，X_d，X_f，X_l，X_t}，其中，X_u表示无人机的坐标，X_d表示目标传感器设备的坐标，X_f表示无人机超出地图范围的次数，X_l表示无人机探测到产生数据溢出的传感器数量，X_t表示无人机所探测到的传感器设备数量；

所述动作空间表示为：

其中，v代表无人机的飞行速度，/>

代表无人机的偏航角；

所述奖励函数表示为：R＝10D^total-P-D_f-D_l+D_t+D_d；

其中，D^total为信息传输率的总和，P为无人机的能量消耗，D_f为无人机飞行时超出地图范围的惩罚项，D_l为地面传感器设备发生数据溢出时的惩罚项，D_t为无人机探测到地面传感器设备的奖励项，D_d表示无人机和目标传感器设备之间距离的奖励项。

作为优选的技术方案，深度确定性策略梯度算法基于Actor-Critic框架，分别用μ网络和Q网络表示负责拟合策略函数的Actor网络以及负责拟合价值函数的Critic网络，采用了固定网络技术，Actor网络和Critic网络都各自增加了一个目标神经网络，将新的参数用软更新的方法更新到目标神经网络上，软更新的方法表示为：

τθ^μ+(1-τ)θ^μ′→θ^μ′

τθ^Q+(1-τ)θ^Q′→θ^Q′

其中，θ^μ、θ^μ′表示Actor神经网络的评估神经网络参数、目标神经网络参数，θ^Q、θ^Q′表示Critic神经网络的评估神经网络参数、目标神经网络参数，τ表示更新率。

本发明与现有技术相比，具有如下优点和有益效果：

本发明构建了无人机辅助的通信感知一体化系统模型，对系统下无人机的任务进行建模并分析了优化目标，通过分析无人机的能耗以及无人机发现地面传感器目标数目以及采集地面传感器目标数据的数据传输率得到了优化目标函数，并设计了算法的奖励函数以指导算法进行训练；

相较于传统路径规划方法，本发明所提出的方法灵活性及可移植性高，对环境变化的适应能力强；相较于普通强化学习方法，本发明所提出方法能够针对多个不同的优化目标进行优化，并且通过合理的设计奖励函数以及训练时引入分布奖赏、平滑更新等技巧能够使算法更快地收敛并且得到比传统方法更好的性能指标。

附图说明

图1为基于深度确定性策略梯度算法的无人机路径规划方法的流程示意图；

图2为本发明无人机辅助的通信感知一体化系统模型的架构示意图；

图3为本发明DDPG算法的实现流程框架示意图；

图4为本发明无人机进行数据采集传感器设备总数随训练回合增加的曲线示意图；

图5为本发明无人机探测到传感器设备总数随训练回合增加的曲线示意图；

图6为本发明无人机执行数据采集任务总数据传输率随训练回合增加的曲线示意图；

图7为本发明无人机能耗随训练回合增加的曲线示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种基于深度确定性策略梯度算法的无人机路径规划方法，包括下述步骤：

S1：构建无人机辅助的通信感知一体化系统模型，包括地面传感器模型、无人机模型、信道模型以及雷达探测模型；

假定在一定区域的空间内分布着若干传感器用于采集环境信息，传感器所收集的信息需要进行采集汇总并进行下一步处理分析。由于自然条件等环境因素以及便利性的考虑，使用无人机探测传感器位置并收集传感器中的信息。

如图2所示，利用Python3.6进行建模，模拟无人机辅助的通信感知一体化系统环境，本实施例包括一个无人机以及100个随机分布在500×500米范围内的地面传感器设备，无人机在固定高度15米执行任务。无人机通信覆盖半径15米，感知覆盖半径30米。地面传感器设备中的数据每秒更新一次。传感器设备的数据缓冲区容量上限为5000个数据包，而每个数据包大小为10兆字节。

S11：构建地面传感器模型的步骤如下：

在地面上随机建立个(本实施例优选为100个)传感器设备，传感器k的位置用表示。传感器能实时监测并收集最新环境状态的数据信息，将其存储在传感器缓冲区内以待无人机收集。传感器设备采用时分多址协议进行传输。不同传感器设备的数据传输优先级表示如下：

其中，f_k(t)表示t时刻在传感器数据缓冲区中等待被收集的数据，a_k表示传感器k在t时刻的数据生成速率，a_k服从泊松分布且不同传感器设备的泊松分布参数不相同，f_max为数据缓存区的最大容量。假定每个传感器设备的数据缓存区容量相同。当数据缓冲区中的数据容量达到最大值时，新数据会直接覆盖旧数据。

S12：构建无人机模型的步骤如下：

在三维坐标系中对系统进行建模，地面建模为OXY平面，将无人机以及地面传感器设备等效为质点，无人机在固定高度执行任务，则无人机的飞行动力学模型表示为：

其中，(x_uy_u，z_u)代表无人机的坐标位置，v代表无人机的飞行速度，

代表无人机的偏航角，h代表无人机的固定飞行飞行高度。v受到最大飞行速度v_max＝20m/s的限制，偏航角

的范围为[-π，π]。

无人机在飞行时的功耗模型表示为：

P(V)＝P_b(V)+P_i(V)+P_a(V)

其中，

为叶片剖面功率，P₀为无人机悬停时的叶片剖面功率，U为无人机旋翼的叶尖转速。/>

为无人机的诱导功率，其中P_d为无人机悬停时的诱导功率，v₀为无人机悬停时的平均旋翼空气诱导速度。

为无人机的寄生功率，其中b₀、ρ、m、S分别表示机身阻力系数、空气密度、旋翼实度以及旋翼盘面积。

S13：构建信道模型的步骤如下：

空对地信道的损耗模型表示如下：

其中，η表示参考距离d₀＝1m时的信道功率增益，

表示无人机与传感器设备k之间的传播距离，β表示路径损耗系数。μ^NLoS是NLoS链路的衰减系数。

对于传感器设备k，在t时刻的LoS概率表示为：

其中，c和d是取决于载波频率和环境的两个常量，主要取决于载波频率以及无人机所在的环境类型，

表示无人机和传感器设备之间的仰角，d_k表示无人机与传感器设备之间的距离，H表示无人机所在高度。

则无人机和传感器设备k之间的信道功率增益为：

S14：构建雷达探测模型的步骤如下：

无人机搭载雷达用以探测地面传感器设备，雷达探测模型建模为：

其中，R_max为雷达可探测最大距离，P_t为雷达发射功率，G为天线增益，A_e为有效接收面积，σ为雷达截面积由具体目标大小决定，S_min为最小可检测信号。根据R_max以及无人机的坐标位置得出传感器设备k的具体坐标位置，将其加入到无人机的已知信息集合中作为收集信息的候选目标传感器。

S2：无人机任务建模与分析；

基于无人机任务的优化目标，无人机任务多目标优化函数可以表示为：

max(R_total，D_total，-E_total)

S3：利用基于深度确定性策略梯度算法(DDPG)训练无人机；

根据无人机任务的多目标优化函数设计DDPG算法的状态空间、动作空间以及奖励函数；

无人机选定目标传感器设备，并移动至目标传感器设备正上方悬停进行数据采集，数据采集完成后再选定新的目标传感器设备并继续执行数据采集任务。在整个任务执行过程中无人机不断探测新的地面传感器设备并加入无人机已知信息合集中作为数据采集的候选目标。

状态空间设计为一个五元组S＝{X_u，X_d，X_f，X_l，X_t}，其中X_u表示无人机的坐标，X_d表示目标传感器设备的坐标，X_f表示无人机超出地图范围的次数，当无人机超出模型所规定的地图范围时，奖励函数会给予负面的奖励。X_l表示无人机探测到产生数据溢出的传感器数量，X_t表示无人机所探测到的传感器设备数量，避免强化学习算法陷入局部飞行作业。

无人机在三维空间上的连续动作空间被定义为

其中v代表无人机的飞行速度，/>

代表无人机的偏航角。

奖励函数设计如下：

R＝10D^total-P-D_f-D_l+D_t+D_d

其中，D^total为信息传输率的总和，计算公式为D^total＝∑D_i，D_i由香农定理

得出，P为无人机的能量消耗。当无人机在飞行时，P为一个随速度变化的变量。当无人机悬停并与地面传感器设备进行通信时，P为一个常量。D_f为无人机飞行时超出地图范围的惩罚项，D_l为地面传感器设备发生数据溢出时的惩罚项，D_t为无人机探测到地面传感器设备的奖励项，D_d表示无人机和目标传感器设备之间距离的奖励项。

根据所设计的状态空间、动作空间以及奖励函数对无人机进行训练，通过自适应调整学习率和动态调整探索因子等方法调整了训练补偿、增加动作选择的随机性以防止算法陷入局部最优，进一步加快了算法的收敛速度。最终使得经过算法训练的无人机能够完成目标任务。

本实施例所采用的DDPG算法是基于Actor-Critic框架的强化学习算法，能够解决在很多场景下连续动作空间的决策问题。DDPG算法是一种离线策略的无模型深度强化学习算法，可以很好地提高样本的利用率。如图3所示，展示了DDPG算法的框架，分别用μ网络和Q网络表示负责拟合策略函数的Actor网络以及负责拟合价值函数的Critic网络。由于Actor-Critic框架中两个神经网络的更新是相互依赖的，因此可能导致两个神经网络难以收敛。基于此，本实施例的DDPG算法采用了固定网络技术，其中两个神经网络都各自增加了一个目标神经网络，这样，算法更新时可对网络参数进行固定，进一步将新的参数用软更新的方法更新到目标网络上。软更新的公式如下：

τθ^μ+(1-τ)θ^μ′→θ^μ′

τθ^Q+(1-τ)θ^Q′→θ^Q′

其中，θ^μ、θ^μ′表示Actor神经网络的评估神经网络参数以及目标神经网络参数，θ^Q、θ^Q′表示Critic神经网络的评估神经网络参数以及目标神经网络参数。τ表示更新率，其使得更新以较为平缓的方式进行，保证神经网络的参数变化不大。

在本实施例中，无人机路径规划算法具体流程如下：

(1)预设迭代次数M，随机初始化评估网络和目标网络，初始化网络参数θ^Q、θ^μ；

(2)初始化replay buffer以及探索因子σ；

(3)根据策略以及探索因子选择下一步要执行的动作a_t；

(4)执行动作a_t，得到奖励r_t和下一个状态s_t+1；

(5)将(s_t，a_t，r_t，s_t+1)存入到replay buffer中；

(6)从replay buffer中选出一批数据进行更新；

(7)计算r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)；

(8)最小化

更新Critic网络；

(9)通过策略梯度

更新Actor网络；

(10)软更新目标网络：

τθ^μ+(1-τ)θ^μ′→θ^μ′

τθ^Q+(1-τ)θ^Q′→θ^Q′

减小探索因子，循环迭代直至满足预设的迭代次数M；

算法中，replay buffer为经验回放缓存区，用于存放智能体与环境之间交互的信息，可以减少智能体与环境之间交互的次数，使算法更快地收敛。s_i、a_i、r_i、s_i+1表示从replay buffer中抽样的样本i的当前时刻状态、动作、奖励以及下一时刻状态，N表示从replay buffer中抽样的数量，γ表示折扣因子，用于调整未来时刻奖励对总累积奖励的重要性。

在本实施例中，还给出仿真参数设置以及部分仿真结果的分析，具体如下：

本实施例采用Python3.6以及Pycharm搭建仿真环境，使用Tensorflow完成算法部分，具体仿真参数表如下表所示：

表1仿真参数表

如图4、图5所示，展示了获得数据采集服务的传感器数量随着训练回合增加的曲线图以及无人机探测到传感器数量随着训练回合增加的曲线图。从图中可以看出，随着训练次数的增加，被采集数据的传感器设备总数及无人机探测到的传感器设备总数均逐渐增多并最终趋于稳定。无人机经过训练后能够探测到70％以上的传感器设备并且能够为40％以上的传感器设备提供数据收集服务。

如图6、图7所示，展示了无人机执行任务的总数据传输率以及无人机执行任务时的总能耗随着训练回合增加的曲线图。从图中可以看出，随着训练次数的增加，总数据传输率逐渐增大并最终趋于稳定。无人机能量消耗随着训练次数增加呈现先减小后增大并最终趋于稳定的趋势。这证明了奖励函数可以有效地指导智能体向着低能耗的方向进行学习。为了适应通信以及感知的任务，经过一段时间的训练后，无人机的能耗会逐渐增多并趋于稳定。这进一步证明了所设计的奖励函数的有效性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度确定性策略梯度算法的无人机路径规划方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法，其特征在于，所述传感器设备采用时分多址协议进行传输，不同传感器设备的数据传输优先级表示如下：

3.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法，其特征在于，所述无人机的飞行动力学模型表示为：

代表无人机的偏航角，h代表无人机的固定飞行飞行高度。

4.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法，其特征在于，所述无人机在飞行时的功耗模型表示为：

P(V)＝P_b(V)+P_i(V)+P_a(V)

5.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法，其特征在于，所述空对地信道模型的损耗模型表示如下：

其中，η表示信道功率增益，a_k ^β表示无人机与传感器设备k之间的传播距离，β表示路径损耗系数，μ^NLoS是NLoS链路的衰减系数。

6.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法，其特征在于，对于传感器设备k，在t时刻的LoS概率表示为：

无人机和传感器设备k之间的信道功率增益为：

7.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法，其特征在于，所述雷达探测模型表示为：

8.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法，其特征在于，所述无人机任务多目标优化函数表示为：

max(R_total，D_total，-E_total)

9.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法，其特征在于，所述状态空间构建为五元组S＝{X_u，X_d，X_f，X_lX_t}，其中，X_u表示无人机的坐标，X_d表示目标传感器设备的坐标，X_f表示无人机超出地图范围的次数，X_l表示无人机探测到产生数据溢出的传感器数量，X_t表示无人机所探测到的传感器设备数量；

所述动作空间表示为：

其中，v代表无人机的飞行速度，/>

代表无人机的偏航角；

所述奖励函数表示为：R＝10D^total-P-D_f-D_l+D_t+D_d；

10.根据权利要求1所述的基于深度确定性策略梯度算法的无人机路径规划方法，其特征在于，深度确定性策略梯度算法基于Actor-Critic框架，分别用μ网络和Q网络表示负责拟合策略函数的Actor网络以及负责拟合价值函数的Critic网络，采用了固定网络技术，Actor网络和Critic网络都各自增加了一个目标神经网络，将新的参数用软更新的方法更新到目标神经网络上，软更新的方法表示为：

τθ^μ+(1-τ)θ^μ′→θ^μ′

τθ^Q+(1-τ)θ^Q′→θ^Q′