CN116698037A

CN116698037A - 一种无人机航迹规划方法

Info

Publication number: CN116698037A
Application number: CN202310631500.4A
Authority: CN
Inventors: 高敬鹏; 赵鹏杰; 叶方; 张天然; 宋夏; 胡欣瑜; 毛新蕊; 王国轩
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-09-05
Anticipated expiration: 2043-05-31
Also published as: CN116698037B

Abstract

本发明公开了一种无人机航迹规划方法，无人机获取自身和目标信息，获取每个时刻状态，将每个时刻状态输入至预先训练好的DDPG网络，DDPG网络包括Actor网络和Critic网络，利用Actor在线网络决策每个时刻无人机飞行动作，形成最终航迹；DDPG网络的训练过程包括：对无人机航迹规划场景进行建模，设计无人机航迹规划模型状态空间、动作空间、奖励函数以及网络训练参数；采用融合沙丘噪声灵敏度和萤火因子的改进蜣螂算法优化奖励函数的奖励系数，获取最优系数组合，根据最优系数组合和网络训练参数对DDPG网络进行训练，得到训练好的网络。本发明解决了模型适配场景有限、收敛效果不佳问题，提高航迹规划可靠性。

Description

一种无人机航迹规划方法

技术领域

本发明属于无人机飞行控制技术领域，涉及一种无人机航迹规划方法，特别是一种基于改进蜣螂算法优化奖励的无人机航迹规划方法。

背景技术

无人机因体积小、机动性高等优势，在军事和民用等多个领域应用广泛。航迹规划是无人机控制系统的重要一环，形成可靠的航迹是确保无人机完成飞行任务的前提。

近年来，以机器学习为代表的人工智能技术飞速发展，实现与多种航迹规划场景的深度融合。其中，深度强化学习算法具有较强的感知能力，运算速度快、实时性强，通过训练能够实现端到端的航迹规划映射，广泛应用于规划领域，但其奖励函数主要依靠人为设计，往往存在局部奖励设计不够全面，各局部奖励占比分配不佳，进而导致模型应用场景有限、收敛速度慢的问题。以上问题可以通过综合考虑实际环境中的各方面因素，进而构建各项局部奖励函数，用以全面描述环境对智能体交互的反馈，用以提高模型应用场景范围，并通过优化各局部奖励函数的占比来提高收敛速度。群智能优化算法通过模拟大自然的某种现象或生物群体的自组织行为，在优化参数方面具有出色的效果，能够用于对局部奖励函数的占比进行优化。

通过对现有技术文献的检索发现，池海红等人在《控制理论与应用》(2022.39(05):847-856)上发表的“融合强化学习和进化算法的高超声速飞行器航迹规划”，提出了一种利用交叉熵提高强化学习模型在航迹规划前期探索速度的算法，但其构建的场景以及设定的奖励函数，仅能在二维平面进行航迹规划，无法扩展至三维。谭志平等人在发明(专利号：CN202211195962.8)中发明的“一种基于强化学习差分算法的无人机动态航迹规划方法”，将差分进化算法融入到强化学习模型的动作和奖励中，提高了模型收敛速度，但规划的路线由多个离散区域构成，奖励函数由离散的差分算法收敛效果决定，仅能保证在训练的环境下，实现有效的无人机航迹规划，并不适用于动态可变的环境。本人在发明(专利号：CN202110632549.2)中发明的“一种基于联合优化的无人机航迹规划方法”，考虑实际环境中自然干扰因素的影响，建立了应用场景更广泛的模型，但并未考虑如何加快模型的收敛速度。已有文献的检索结果表明，全面考虑影响航迹规划的重要因素，构建复杂、动态的模型，设计更加客观、全面的奖励函数，是提高航迹规划模型应用场景范围，使其更贴近实际环境的关键，但与此同时，改善奖励函数的构成，会减缓模型收敛速度。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种基于改进蜣螂算法优化奖励的无人机航迹规划方法，在构建环境时考虑多方面影响因素，并将其设定在奖励函数中，结合群智能优化算法对各局部奖励函数的占比进行优化，在有效提高模型应用场景范围的基础上，加快模型收敛速度。

为解决上述技术问题，本发明的一种无人机航迹规划方法，包括：

无人机获取自身和目标信息，获取每个时刻状态s，将每个时刻状态s分别输入至预先训练好的DDPG网络，所述DDPG网络包括Actor网络和Critic网络，利用Actor在线网络决策每个时刻无人机飞行动作a，形成最终航迹；所述DDPG网络的训练过程包括：

步骤1：对无人机航迹规划场景进行建模，设计无人机航迹规划模型的状态空间、动作空间、奖励函数以及网络训练参数，所述网络训练参数包括Actor网络学习率η_actor，Critic网络学习率η_critic，软更新系数η_soft，折扣因子η_dis，记忆池尺寸χ_me，采集经验数据的批量尺寸χ_exp，训练回合数I，每个回合的时间步总数；所述奖励函数为：

其中，r_dis为到达奖励，r_angle为航偏奖励，r_obs为威胁奖励，r_s为时间奖励，λ₁、λ₂、λ₃和λ₄分别为到达奖励、航偏奖励、威胁奖励和时间奖励的奖励系数，计为Λ＝[λ₁,λ₂,λ₃,λ₄]，λ₁+λ₂+λ₃+λ₄＝4，其中：

r_s＝-0.2·d₄

其中，d₁为距离因子，nor(·)表示归一化处理，d₂为航偏因子，dis_safe为无人机与威胁障碍物之间的安全距离，dis_min为无人机与最近威胁之间的距离，d₃为威胁因子，d₄为时间因子；

设置回合奖励集合SR^I：

SR^I＝[R¹,R²,...,Rⁱ,...,R^I]

其中，为第i个回合的回合奖励；

步骤2：采用融合沙丘噪声灵敏度和萤火因子的改进蜣螂算法优化步骤1中奖励函数的各项奖励系数，获取最优系数组合，根据最优系数组合和网络训练参数对DDPG网络进行训练，获得无人机从飞行状态到飞行动作端到端的决策映射。

进一步的，步骤1所述状态空间为：

其中，(x,y,z)为无人机在场景坐标系的位置信息，(x′,y′,z′)为目标在场景坐标系的位置信息，(v_x,v_y,v_z)为速度分量，β为行为角，为无人机与目标之间的直线距离，μ＝[μ₁,μ₂,…,μ_q,…,μ_Q]为Q个传感器的射线长度，ρ＝[ρ₁,ρ₂,...,ρ_q,...,ρ_Q]为对μ的独热编码；第q个传感器的独热编码ρ_q为：其中，dis_hit为无人机与传感器探测点之间的距离，lasar为无人机可探测到的最大距离，q∈[1,Q]且q为正整数。

进一步的，步骤1所述动作空间为：

其中，f_Forward为前倾力，表示无人机在X方向上受到的力，f_Right为侧倾力，控制无人机在Y方向移动，f_Up为起降力，使无人机沿Z方向进行垂直起降运动，f_Rotation为航向力，控制无人机沿Z轴旋转角度的变化，f_∑表示前倾力、侧倾力、起降力和航向力的合力，为无人机连续飞行过程中的最大加速度，max{·}为求取最大值，g为重力加速度，h_f为水平过载、h_p为径向过载，m为无人机的质量。

进一步的，步骤2所述采用融合沙丘噪声灵敏度和萤火因子的改进蜣螂算法优化步骤1中奖励函数的各项奖励系数，获取最优系数组合包括：

步骤2.1、设置改进蜣螂算法的适应度函数fitness为：

其中，i_r为收敛回合，i_r∈[1,I]且i_r为正整数，var为收敛方差，R_M为最大回合奖励值；

i_r＝index[R_M-0.2·(R_M-R_W)]

其中，R_W为最小回合奖励值，index[R_*]表示最接近R_*的回合，R_*∈[R_W,R_M]；

其中，R^τ表示第τ个回合的回合奖励；

R_W＝min[SR^I]

R_M＝max[SR^I]

其中，min[·]表示求取最小值，max[·]表示求取最大值，SR^I为回合奖励集合；

步骤2.2、设定最大迭代次数N，优化空间维数D，优化区间最小值L，优化区间最大值U，种群大小P，包括雄性蜣螂p₁个、雌性蜣螂p₂个、沙丘蜣螂p₃个、萤火蜣螂p₄个，P＝p₁+p₂+p₃+p₄，初始化种群位置信息为：

θ_j＝L+ξ·(U-L)

其中，θ_j表示第j个蜣螂个体位置信息，j∈[1,P]且j为正整数，蜣螂个体按雄性蜣螂、雌性蜣螂、沙丘蜣螂、萤火蜣螂的顺序进行排列，ξ∈(0,1)，表示0至1之间的随机数，每次使用ξ均会产生新的随机数；

步骤2.3、获取蜣螂种群的位置信息对应的奖励系数[Λ₁，Λ₂，...,Λ_j，...,Λ_P]，其中，Λ_j＝[λ₁,λ₂,λ₃,λ₄]_j表示第j个蜣螂个体位置信息对应的奖励系数，将其并行输入至P个步骤1中搭建的DDPG网络，进行训练，获得每个蜣螂个体对应的回合奖励集合根据步骤2.1，计算每个蜣螂位置对应的适应度值，获取蜣螂个体的局部最优位置θ^*、全局最优位置θ^M和全局最差位置θ^W；

步骤2.4、更新雄性蜣螂位置信息且j₁为正整数：

其中，表示第j₁只雄性蜣螂在第n次迭代时的位置信息，n∈[1,N]且n为正整数，θ(0)＝0，ω表示雄性蜣螂的探索方向，为-π/2至π/2之间的随机数，tan(·)为正切函数，α为自然因子：

步骤2.5、更新雌性蜣螂位置信息且j₂为正整数：

其中，表示第j₂只雌性蜣螂在第n次迭代时的位置信息，L′表示雌性蜣螂位置探索下限，U′表示雌性蜣螂位置探索上限：

步骤2.6、更新沙丘蜣螂位置信息且j₃为正整数：

其中，表示第j₃只沙丘蜣螂在第n次迭代时的位置信息，表示沙丘噪声灵敏度；

步骤2.7、更新萤火蜣螂位置信息且j₄为正整数：

其中，表示第j₄只萤火蜣螂在第n次迭代时的位置信息，表示萤火因子；

步骤2.8、重复步骤2.3至步骤2.7，直至当前迭代次数到达最大迭代次数N时结束，得到全局最优位置θ^M及其对应的奖励系数Λ^M。

本发明有益效果：本发明针对现有无人机采用深度强化学习进行航迹规划时，构建模型以及设计奖励函数存在缺陷，使得适用场景受限且进一步导致模型收敛速度降低的问题，提出了一种新的基于改进蜣螂算法优化奖励的无人机航迹规划方法。本发明综合考虑了无人机在三维空间中飞行时长、方向、加速度、受力以及潜在威胁等多方面因素，设计适用于多种场景的状态空间、动作空间以及奖励函数，解决了模型适配场景有限的问题。改进蜣螂算法，将沙丘噪声灵敏度与种群位置更新机制相融合，加入萤火因子为个体增添吸引性，进一步优化深度强化学习奖励系数，解决了模型收敛效果不佳问题，提高了航迹规划可靠性。

附图说明

图1是本发明的总体流程示意图。

图2是本发明的无人机在场景坐标系下的飞行示意图。

图3是本发明的改进蜣螂算法的示意图。

具体实施方式

下面结合说明书附图和实施例对本发明做进一步说明。

本发明包括以下步骤：

步骤1：对无人机航迹规划场景进行建模，设计无人机航迹规划模型的状态空间、动作空间、奖励函数以及网络训练参数，搭建DDPG网络。

步骤2：设计改进蜣螂算法，优化步骤1中奖励函数的各项奖励系数，获取最优系数组合，训练DDPG网络。

步骤3：利用步骤2中训练好的DDPG网络，实时决策无人机的飞行动作，形成在线航迹规划方案。

本发明还包括一些结构特征：

步骤1包括：对无人机航迹规划场景进行建模，初始化无人机与航迹规划的环境信息，计算无人机与目标之间的直线距离dis₀，计算Q个传感器射线长度μ＝[μ₁,μ₂,...,μ_Q]并进行独热编码ρ＝[ρ₁,ρ₂,...,ρ_Q]，计算无人机连续飞行过程最大加速度Acc。

进一步地，考虑到无人机与环境交互信息和自身的运动状态，设置在第i个回合的第k个时间步，模型的状态为：

其中，[·]^T为矩阵转置运算，x、y、z分别表示无人机在场景坐标系中X、Y和Z三个轴的位置坐标点，x′、y′、z′分别表示目标点在场景坐标系中X、Y和Z三个轴的位置坐标点，v_x、v_y、v_z分别代表无人机在场景坐标系中X、Y和Z三个轴的速度分量，β为行为角，代表无人机第一视角方向与无人机同目标终点连接线之间的夹角。

进一步地，考虑到无人机在飞行中受最大加速度约束的情况，设置在第i个回合的第k个时间步，模型的动作为：

其中，f_Forward为前倾力，表示无人机在X方向上受到的力。f_Right为侧倾力，控制无人机在Y方向移动。f_Up为起降力，使无人机沿Z方向进行垂直起降运动。f_Rotation为航向力，控制无人机沿Z轴旋转角度的变化。f_∑表示前倾力、侧倾力、起降力和航向力的合力，m表示无人机质量。

Acc具体设计为：

其中，max{·}为求取最大值，g为重力加速度，h_f和h_p分别为无人机的水平过载和径向过载，和分别为无人机飞行的方向角和俯仰角，sin(·)和cos(·)分别表示正弦函数和余弦函数。

进一步地，考虑到无人机在飞行中，受飞行位置、飞行方向、未知威胁和飞行时长等因素的影响，设置第i个回合的第k个时间步的奖励函数为：

其中，r_dis为到达奖励，r_angle为航偏奖励，r_obs为威胁奖励，r_s为时间奖励，λ₁、λ₂、λ₃和λ₄分别为到达奖励、航偏奖励、威胁奖励和时间奖励的奖励系数，计为Λ＝[λ₁,λ₂,λ₃,λ₄]，λ₁+λ₂+λ₃+λ₄＝4。

为了引导无人机到达目的区域，r_dis具体设计为：

其中，d₁为距离因子，nor(·)表示归一化处理。

为了指引无人机沿自身与目标区域方向接近目标，r_angle具体设计为：

其中，d₂为航偏因子。

为了防止无人机靠近威胁，r_obs具体设计为：

其中，dis_safe为无人机与威胁障碍物之间的安全距离，dis_min为无人机与最近威胁之间的距离，d₃为威胁因子。

为了推动无人机尽快到达目标区域，r_s具体设计为：

r_s＝-0.2·d₄ (8)

其中d₄为时间因子。

进一步地，设置回合奖励集合SR^I为：

SR^I＝[R¹,R²,...,Rⁱ,...,R^I] (9)

其中，Rⁱ为第i个回合的回合奖励，具体设计为：

其中，K为第i个回合的时间步总数。

进一步地，结合设置的训练场景和训练的状态空间、动作空间、奖励函数，搭建DDPG网络，其中的Actor网络和Critic网络，均为3层全连接网络结构，Actor网络的输入层为36个神经元，输出层为4个神经元，Critic网络的输入层为40个神经元，输出层为1个神经元。初始化奖励系数Λ，设置训练参数，包括但不限于总训练回合数I和每个回合的时间步总数K。

步骤2包括：考虑到提升无人机航迹规划模型的收敛速度，在蜣螂算法的基础上，融合沙丘噪声灵敏度和萤火因子，改变种群位置更新机制，分别提高算法的全局性和局部性，利用回合奖励集合SR^I，设置改进蜣螂算法的适应度函数fitness：

其中，i_r为收敛回合，i_r∈[1,I]且i_r为正整数，var为收敛方差，R_M为最大回合奖励值。

i_r具体设计为：

i_r＝index[R_M-0.2·(R_M-R_W)] (12)

其中，R_W为最小回合奖励值，index[R_*]表示最接近R_*的回合，R_*∈[R_W,R_M]。

var具体设计为：

其中，R^τ表示第τ个回合的回合奖励。

R_W具体设计为：

R_W＝min[SR^I] (14)

其中，min[·]表示求取最小值。

R_M具体设计为：

R_M＝max[SR^I] (15)

进一步地，初始化改进蜣螂算法的种群参数及位置信息。设定最大迭代次数N，优化空间维数D，优化区间最小值L，优化区间最大值U，种群大小P，包括雄性蜣螂p₁个、雌性蜣螂p₂个、沙丘蜣螂p₃个、萤火蜣螂p₄个，P＝p₁+p₂+p₃+p₄，初始化种群位置信息为：

θ_j＝L+ξ·(U-L) (16)

其中，θ_j表示第j个蜣螂个体位置信息，j∈[1,P]且j为正整数，蜣螂个体按雄性蜣螂、雌性蜣螂、沙丘蜣螂、萤火蜣螂的顺序进行排列，ξ∈(0,1)，表示0至1之间的随机数，每次使用ξ均会产生新的随机数，包括初始化种群位置、更新雄性蜣螂位置信息、计算自然因子、更新雌性蜣螂位置信息、更新沙丘蜣螂位置信息和计算沙丘噪声灵敏度。

进一步地，获取蜣螂种群的位置信息对应的奖励系数[Λ₁，Λ₂，...,Λ_j，...,Λ_P]，其中，Λ_j＝[λ₁,λ₂,λ₃,λ₄]_j表示第j个蜣螂个体位置信息对应的奖励系数。将获得的P个奖励系数分别作为步骤1搭建的DDPG网络模型中奖励函数的奖励系数，结合步骤1设置的训练参数，对P个DDPG网络进行训练，获得每个蜣螂个体对应的回合奖励集合

进一步地，根据式(11)，计算每个蜣螂位置对应的适应度值，获取蜣螂个体的局部最优位置θ^*、全局最优位置θ^M和全局最差位置θ^W。

进一步地，更新雄性蜣螂位置信息且j₁为正整数：

其中，表示第j₁只雄性蜣螂在第n次迭代时的位置信息，n∈[1,N]且n为正整数，θ(0)＝0，ω表示雄性蜣螂的探索方向，为-π/2至π/2之间的随机数，tan(·)为正切函数，α为自然因子。

进一步地，更新雌性蜣螂位置信息且j₂为正整数：

其中，表示第j₂只雌性蜣螂在第n次迭代时的位置信息，L′表示雌性蜣螂位置探索下限，U′表示雌性蜣螂位置探索上限。

L′具体设计为：

U′具体设计为：

进一步地，考虑到沙丘噪声灵敏度能够提高个体全局搜索能力，更新沙丘蜣螂位置信息且j₃为正整数：

其中，表示第j₃只沙丘蜣螂在第n次迭代时的位置信息，c表示沙丘噪声灵敏度。

c具体设计为：

进一步地，考虑到萤火因子能够提高个体局部搜索能力，更新萤火蜣螂位置信息且j₄为正整数：

其中，表示第j₄只萤火蜣螂在第n次迭代时的位置信息，γ表示萤火因子。

γ具体设计为：

进一步地，重复式(17)至式(24)，迭代所有蜣螂个体位置信息，每迭代一次，便根据式(11)计算一次所有个体的适应度值，并更新θ^*、θ^M和置θ^W，直至当前迭代次数到达最大迭代次数N时结束，得到全局最优位置θ^M及其对应的奖励系数Λ^M。

进一步地，将Λ^M作为模型中奖励函数的奖励系数，结合步骤1设置的训练参数，对DDPG网络进行最终训练，获得无人机从飞行状态到飞行动作端到端的决策映射。

步骤3包括：利用步骤2中训练好的DDPG网络，实时决策无人机飞行动作，形成航迹。

下面结合具体参数给出实施例：

结合图1，本发明包括以下步骤：

步骤1.1：构建无人机航迹规划场景模型，初始化无人机与航迹规划的环境信息。

如图2所示，是无人机在场景坐标系下的飞行示意图，1是坐标系原点，2是坐标系的横轴X轴，3是坐标系的纵轴Y轴，4是坐标系的纵轴Z轴，5是无人机飞行速度方向v，6是无人机飞行的俯仰角7是无人机飞行的方向角无人机第一视线沿X轴方向，无人机所在平面垂直于Z轴。

在本场景中，无人机的质量m、水平过载h_f、径向过载h_p、传感器数量Q和无人机与环境威胁间的安全距离dis_safe均为定值。目标在场景坐标系的位置信息(x′,y′,z′)和未知的环境威胁Γ_threat，会在任意回合i中会发生变化。同时，无人机在场景坐标系的位置信息(x,y,z)、速度分量(v_x,v_y,v_z)、飞行方向角飞行俯仰角以及行为角β等属性，也会在任意回合i中的任意时间步k中连续变化。

步骤1.2：根据无人机在环境中的运动信息，设置在第i个回合的第k个时间步，模型的状态为：

其中，[·]^T为矩阵转置运算，dis₀为无人机与目标之间的直线距离，μ为Q个传感器的射线长度，ρ为对μ的独热编码。

dis₀具体设计为：

μ具体设计为：

μ＝[μ₁,μ₂,...,μ_q,...,μ_Q] (27)

ρ具体设计为：

ρ＝[ρ₁,ρ₂,...,ρ_q,...,ρ_Q] (28)

第q个传感器的独热编码ρ_q具体设计为：

其中，dis_hit为无人机与传感器探测点之间的距离，lasar为无人机可探测到的最大距离，q∈[1,Q]且q为正整数。

步骤1.3：根据无人机的加速度约束，设置模型的动作为：

其中，f_Forward为前倾力，表示无人机在X方向上受到的力。f_Right为侧倾力，控制无人机在Y方向移动。f_Up为起降力，使无人机沿Z方向进行垂直起降运动。f_Rotation为航向力，控制无人机沿Z轴旋转角度的变化。f_∑表示前倾力、侧倾力、起降力和航向力的合力，Acc为无人机连续飞行过程中的最大加速度。

Acc具体设计为：

其中，max{·}为求取最大值，g为重力加速度，sin(·)和cos(·)分别表示正弦函数和余弦函数。

步骤1.4：评价无人机在状态中的动作表现，设置模型的奖励函数为：

r_dis具体设计为：

其中，d₁为距离因子，在本示例中取1，nor(·)表示归一化处理。

r_angle具体设计为：

其中，d₂为航偏因子，在本示例中取0.05。

r_obs具体设计为：

其中，dis_safe为无人机与威胁障碍物之间的安全距离，dis_min为无人机与最近威胁之间的距离，d₃为威胁因子，在本示例中取1。

r_s具体设计为：

r_s＝-0.2·d₄ (36)

其中d₄为时间因子，在本示例中取1。

步骤1.5：利用步骤1.4每个时间步的奖励，设置回合奖励集合SR^I为：

SR^I＝[R¹,R²,...,Rⁱ,...,R^I] (37)

其中，Rⁱ为第i个回合的回合奖励，具体设计为：

其中，K为第i个回合的时间步总数。

步骤1.6：结合步骤1.1至步骤1.4设置的训练场景和训练的状态空间、动作空间、奖励函数，搭建DDPG网络，其中的Actor网络和Critic网络，均为3层全连接网络结构，Actor网络的输入层为36个神经元，输出层为4个神经元，Critic网络的输入层为40个神经元，输出层为1个神经元。设置训练参数，包括Actor网络学习率η_actor，Critic网络学习率η_critic，软更新系数η_soft，折扣因子η_dis，记忆池尺寸χ_me，采集经验数据的批量尺寸χ_exp，训练回合数I，每个回合的时间步总数K。在本发明实施例中，奖励系数Λ的初始化值均为1，训练参数如下：η_actor＝1×10^-3，η_critic＝1×10^-3，η_soft＝1×10^-2，η_dis＝0.99，χ_me＝51200，χ_exp＝256，I＝10000，K＝2000。

步骤2：本发明进一步设计改进蜣螂算法，对步骤1.4中的奖励系数Λ进行优化。改进蜣螂算法是在蜣螂算法的基础上，融合沙丘噪声灵敏度和萤火因子，改变种群位置更新机制，分别提高算法的全局性和局部性，得到最优系数组合，训练DDPG网络。

如图3所示，是本发明实施例一的改进蜣螂算法的示意图。

步骤2.1：设置改进蜣螂算法的适应度函数fitness：

i_r具体设计为：

i_r＝index[R_M-0.2·(R_M-R_W)] (40)

var具体设计为：

其中，R^τ表示第τ个回合的回合奖励。

R_W具体设计为：

R_W＝min[SR^I] (42)

其中，min[·]表示求取最小值。

R_M具体设计为：

R_M＝max[SR^I] (43)

步骤2.2：初始化改进蜣螂算法的种群参数及位置信息。设定最大迭代次数N，优化空间维数D，优化区间最小值L，优化区间最大值U，种群大小P，包括雄性蜣螂p₁个、雌性蜣螂p₂个、沙丘蜣螂p₃个、萤火蜣螂p₄个，P＝p₁+p₂+p₃+p₄，初始化种群位置信息为：

θ_j＝L+ξ·(U-L) (44)

步骤2.3：获取蜣螂种群的位置信息对应的奖励系数[Λ₁，Λ₂，...,Λ_j，...,Λ_P]，其中，Λ_j＝[λ₁,λ₂,λ₃,λ₄]_j表示第j个蜣螂个体位置信息对应的奖励系数。将其并行输入至P个步骤1中搭建的DDPG网络，进行训练，获得每个蜣螂个体对应的回合奖励集合根据步骤2.1，计算每个蜣螂位置对应的适应度值，获取蜣螂个体的局部最优位置θ^*、全局最优位置θ^M和全局最差位置θ^W。

步骤2.4：更新雄性蜣螂位置信息且j₁为正整数：

其中，表示第j₁只雄性蜣螂在第n次迭代时的位置信息，n∈[1,N]且n为正整数，θ0)＝0，ω表示雄性蜣螂的探索方向，为-π/2至π/2之间的随机数，tan(·)为正切函数，α为自然因子。

α具体设计为：

步骤2.5：更新雌性蜣螂位置信息且j₂为正整数：

L′具体设计为：

U′具体设计为：

步骤2.6：更新沙丘蜣螂位置信息且j₃为正整数：

c具体设计为：

步骤2.7：更新萤火蜣螂位置信息且j₄为正整数：

γ具体设计为：

步骤2.8：重复步骤2.3至步骤2.7，直至当前迭代次数到达最大迭代次数N时结束，得到全局最优位置θ^M及其对应的奖励系数Λ^M。

步骤2.9：将Λ^M作为步骤1.4中的奖励系数，结合步骤1.6设置的训练参数，对DDPG网络进行最终训练，获得无人机从飞行状态到飞行动作端到端的决策映射。

步骤3：利用步骤2.9中训练好的DDPG网络，实时决策无人机飞行动作，形成在线航迹规划方案。

步骤3.1：无人机获取自身和目标信息，根据步骤1.2，获取当前状态s。

步骤3.2：将获取的当前状态s，作为步骤2.9中训练好的DDPG网络的输入，利用其中的Actor在线网络，决策无人机飞行动作a。

步骤3.3：在无人机飞行中，实时执行步骤3.1和步骤3.2，实现每个时刻，无人机依据自身和目标信息，输出飞行的动作，完成航迹规划，形成最终航迹。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种无人机航迹规划方法，其特征在于，包括：

r_s＝-0.2·d₄

设置回合奖励集合SR^I：

SR^I＝[R¹,R²,...,Rⁱ,...,R^I]

其中，为第i个回合的回合奖励；

2.根据权利要求1所述的一种无人机航迹规划方法，其特征在于：步骤1所述状态空间为：

其中，(x,y,z)为无人机在场景坐标系的位置信息，(x′,y′,z′)为目标在场景坐标系的位置信息，(v_x,v_y,v_z)为速度分量，β为行为角，为无人机与目标之间的直线距离，μ＝[μ₁,μ₂,...,μ_q,...,μ_Q]为Q个传感器的射线长度，ρ＝[ρ₁,ρ₂,...,ρ_q,...,ρ_Q]为对μ的独热编码；第q个传感器的独热编码ρ_q为：其中，dis_hit为无人机与传感器探测点之间的距离，lasar为无人机可探测到的最大距离，q∈[1,Q]且q为正整数。

3.根据权利要求1所述的一种无人机航迹规划方法，其特征在于：步骤1所述动作空间为：

4.根据权利要求1所述的一种无人机航迹规划方法，其特征在于：步骤2所述采用融合沙丘噪声灵敏度和萤火因子的改进蜣螂算法优化步骤1中奖励函数的各项奖励系数，获取最优系数组合包括：

步骤2.1、设置改进蜣螂算法的适应度函数fitness为：

其中，i_r为收敛回合，i_r∈[1，I]且i_r为正整数，var为收敛方差，R_M为最大回合奖励值；

i_r＝index[R_M-0.2·(R_M-R_W)]

其中，R_W为最小回合奖励值，index[R_*]表示最接近R_*的回合，R_*∈[R_W，R_M]；

其中，R^τ表示第τ个回合的回合奖励；

R_W＝min[SR^I]

R_M＝max[SR^I]

θ_j＝L+ξ·(U-L)

其中，θ_j表示第j个蜣螂个体位置信息，j∈[1，P]且j为正整数，蜣螂个体按雄性蜣螂、雌性蜣螂、沙丘蜣螂、萤火蜣螂的顺序进行排列，ξ∈(0，1)，表示0至1之间的随机数，每次使用ξ均会产生新的随机数；

步骤2.3、获取蜣螂种群的位置信息对应的奖励系数[Λ₁，Λ₂，...，Λ_j，...，Λ_P]，其中，A_j＝[λ₁，λ₂，λ₃，λ₄]_j表示第j个蜣螂个体位置信息对应的奖励系数，将其并行输入至P个步骤1中搭建的DDPG网络，讲行训练，获得每个蜣螂个体对应的回合奖励集合根据步骤2.1，计算每个蜣螂位置对应的适应度值，获取蜣螂个体的局部最优位置θ^*、全局最优位置θ^M和全局最差位置θ^W；

步骤2.4、更新雄性蜣螂位置信息j₁∈[1，p₁]且j₁为正整数：

其中，表示第j₁只雄性蜣螂在第n次迭代时的位置信息，n∈[1，N]且n为正整数，θ(0)＝0，ω表示雄性蜣螂的探索方向，为-π/2至π/2之间的随机数，tan(·)为正切函数，α为自然因子：

步骤2.5、更新雌性蜣螂位置信息且j₂为正整数：

步骤2.6、更新沙丘蜣螂位置信息且j₃为正整数：

步骤2.7、更新萤火蜣螂位置信息且j₄为正整数：