CN110928329B

CN110928329B - 一种基于深度q学习算法的多飞行器航迹规划方法

Info

Publication number: CN110928329B
Application number: CN201911350476.7A
Authority: CN
Inventors: 张伸; 侯砚泽; 陈冲; 王开强; 李宪强; 付新卫; 刘昶秀; 陈润峰; 杨格
Original assignee: Beijing Space Technology Research and Test Center
Current assignee: Beijing Space Technology Research and Test Center
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-05-02
Anticipated expiration: 2039-12-24
Also published as: CN110928329A

Abstract

本发明涉及一种基于深度Q学习算法的多飞行器航迹规划方法，包括：S1.基于飞行器的性能构建所述飞行器的运动学模型；S2.根据待打击的目标并基于深度Q学习算法构建所述飞行器的任务模型；S3.根据所述运动学模型和所述任务模型构建所述飞行器的状态空间；S4.根据所述运动学模型和所述任务模型构建所述飞行器的动作空间；S5.基于所述状态空间和所述动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数；S6.基于所述奖赏函数对所述神经网络进行训练；S7.对完成训练的所述神经网络进行目标打击验证。通过深度Q学习算法完成多飞行器协同航迹规划，实现能量损失最小、打击时间最短、防空威胁区域规避等约束下的目标打击。

Description

一种基于深度Q学习算法的多飞行器航迹规划方法

技术领域

本发明涉及多飞行器协同航迹规划技术领域，尤其涉及一种基于深度Q学习算法的多飞行器航迹规划方法。

背景技术

未来战争中战场环境日趋复杂且各类防御体系性能日益提高，战争已从单个武器间的对抗过度到系统与体系间的对抗。在此背景下，多飞行器的协同作战成为一种新的作战形式。具体来讲，协同作战要求各飞行器间协同分享、分配与组织作战信息与作战资源，而后迅速准确地做出决策，完成协同侦查、协同攻击、协同拦截等任务。

从系统角度讲，实现多飞行器协同作战的关键在于有效地任务规划，而航迹规划属于任务规划的核心部分，最终规划的飞行航迹的质量高低将直接影响多飞行器协同作战的最终效果。对于单个飞行器而言，其航迹规划问题的实质就是在综合考虑到达时间、燃料消耗、防空威胁等因素条件下，规划出符合需求的飞行航迹。然而一旦问题扩展至多飞行器的航迹规划，其复杂度就会大幅增加。不仅要考虑单条航迹的各类约束，还需综合分析多条航迹存在时的安全性欲协同性问题，及多飞行器的资源分配。加之战场环境的复杂多变与各影响因素的关联耦合，使得多飞行器协同航迹规划建模复杂性、组合复杂性以及时间复杂性都大幅度增加。

发明内容

本发明的目的在于提供一种基于深度Q学习算法的多飞行器航迹规划方法，实现简单、计算量小。

为实现上述发明目的，本发明提供一种基于深度Q学习算法的多飞行器航迹规划方法，包括：

S1.基于飞行器的性能构建所述飞行器的运动学模型；

S2.根据待打击的目标并基于深度Q学习算法构建所述飞行器的任务模型；

S3.根据所述运动学模型和所述任务模型构建所述飞行器的状态空间；

S4.根据所述运动学模型和所述任务模型构建所述飞行器的动作空间；

S5.基于所述状态空间和所述动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数；

S6.基于所述奖赏函数对所述神经网络进行训练；

S7.对完成训练的所述神经网络进行目标打击验证。

根据本发明的一个方面，步骤S1中，所述运行学模型为所述飞行器的三自由度运动方程；

所述三自由度运动方程为：

其中，V表示飞行器速度，θ与Ψ分别表示弹道倾角与弹道偏角，D、L、Z分别表示飞行器所受的气动阻力、升力、侧向力，x、y、z为飞行器位置坐标。

根据本发明的一个方面，步骤S2中，所述任务模型用于所述飞行器的三维攻击航迹规划；

所述任务模型采用双层次规划设计，包括航迹水平面规划设计和轨迹铅垂面规划设计；其中，所述航迹水平面规划设计采用所述深度Q学习算法构建对地方防空区域的躲避和目标打击的第一方案，所述航迹铅垂面设计基于所述第一方案采用比例导引法构建铅垂面上飞行器对地方目标对准的第二方案。

根据本发明的一个方面，步骤S3中，所述状态空间用于表示所述飞行器当前飞行状态与目标状态，且所述状态空间为一个n维向量，其中各元素为所述飞行器通过直接传感器测量或由传感器测量信号间接计算获得的变量。

根据本发明的一个方面，步骤S4中，所述动作空间包含所有所述飞行器改变其飞行状态的动作决策。

根据本发明的一个方面，步骤S5中，基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中，分别设计所述神经网络的结构参数、训练方法、网络学习率、经验池、训练批数、网络替换迭代数。

构建所述奖赏函数的步骤中，根据能量损失约束，打击时间约束，对危险区域的规避约束，以及对所述目标的多方位打击约束设计所述奖赏函数。

根据本发明的一个方面，步骤S5中，基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中，所述神经网络为含两层隐层的全连接网络，各隐层包含50个神经元，训练方法采用RMS优化器，网络学习率为0.001，经验池为500，训练批数为200，网络替换迭代数为200；

构建所述奖赏函数的步骤中，所述奖赏函数为：

r＝α₁r_goa1+α₂r_obs+α₃r_V+α₄r_tran

其中，r_goal为飞行器到终点距离的归一化数值，r_obs为飞行器到危险区中心点距离的归一化数值，r_v为飞行器速度的归一化数值，r_tran为飞行器到预设目标距离的归一化数值，α₁、α₂、α₃、α₄分别为各部分奖赏函数权值。

根据本发明的一个方面，步骤S6包括：

S61.随机初始化所述神经网络的各权值与阈值；

S62.随机初始化飞行器状态、目标与威胁区、飞行航迹；

S63.取当前时刻飞行器状态向量s_t，输入所述神经网络，获取当前状态下的动作选择a_t，根据所述飞行器的运动学模型获得动作选择后下一时刻的飞行状态向量s_t+1，并根据所述奖赏函数得到当前动作选择获得奖赏值r_t；

S64.将a_t、a_t、s_t+1、r_t作为一组数据存入所述神经网络的经验池中，若经验池已满，则将数据从旧到新依次替换，并使所述神经网络完成一次学习训练；

S65.用下一时刻的状态向量s_t+1替换s_t。

S66.判断当前轨迹是否结束。若结束，则随机重置飞行器状态，目标与威胁区、飞行航迹，否则，重复S63-S65。

S67.根据收敛性是否满足要求或迭代次数是否达到最大值判断网络训练是否结束，若结束，则保存输出所述神经网络与全部权值与阈值；否则重复S63-S66。

根据本发明的一个方面，步骤S7包括：

S71.随机初始化飞行器状态、目标与威胁区、飞行轨迹。

S72.取当前时刻飞行器状态向量s_t，输入神经网络，得到当前状态下的动作选择a_t，以及动作选择后下一时刻的飞行器状态向量s_t+1；

S73.用下一时刻的状态向量s_t+1替换s_t。

S74.判断当前航迹是否结束，若结束，则保存当前完整飞行航迹，随机重置飞行器状态、目标与威胁、飞行航迹，否则，重复S72-S73；

S75.重复S72-S74，获得多条飞行航迹，并验证任务完成率。

根据本发明的一种方案，通过深度Q学习算法完成多飞行器协同航迹规划。利用深度Q学习的感知与决策能力，以一种通用范式进行端对端的学习。实现能量损失最小、打击时间最短、防空威胁区域规避等约束下的目标打击。该算法具有实时性高，结构简单，设计灵活的特点。

根据本发明的一种方案，本发明适用于巡航导弹、弹道导弹等的多飞行器协同目标打击任务的航迹规划问题，可以满足包括能量损失最小、打击(飞行)时间最短、防空威胁区域规避等约束条件下的各类飞行器自动航迹生成。

根据本发明的一种方案，能够通过设计有效地任务规划制定出各飞行器间的优化协同策略，不仅有效提高了飞行器突防与拦截能力、还有效提高对运动目标的搜捕与跟踪精度。同时对减少参战飞行器数量有利，大幅增强了飞行器的整体作战效果。

根据本发明的一种方案，本方案中将深度学习的感知能力与强化学习的决策能力相结合构建出具有深度强化学习的神经网络，进而能更好的适应多飞行器航迹规划问题带来的各种挑战，通过一种通用的范式实现端对端的学习，使得本方案可以根据输入的原始数据实现航迹规划，拥有极强的泛化能力以及解决高维感知决策的能力。

附图说明

图1示意性表示根据本发明的一种基于深度Q学习算法的多飞行器航迹规划方法的步骤框图。

具体实施方式

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在针对本发明的实施方式进行描述时，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”所表达的方位或位置关系是基于相关附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

下面结合附图和具体实施方式对本发明作详细地描述，实施方式不能在此一一赘述，但本发明的实施方式并不因此限定于以下实施方式。

如图1所示，根据本发明的一种实施方式，本发明的一种基于深度Q学习算法的多飞行器航迹规划方法，包括：

S1.基于飞行器的性能构建飞行器的运动学模型；

S3.根据运动学模型和任务模型构建飞行器的状态空间；

S4.根据运动学模型和任务模型构建飞行器的动作空间；

S5.基于状态空间和动作空间构建基于所述深度Q学习算法的神经网络和奖赏函数；

S6.基于奖赏函数对所述神经网络进行训练；

S7.对完成训练的神经网络进行目标打击验证。

根据本发明的一种实施方式，步骤S1中，运行学模型为所述飞行器的三自由度运动方程；在本实施方式中，三自由度运动方程为：

根据本发明的一种实施方式，步骤S2中，任务模型用于飞行器的三维攻击航迹规划。在本实施方式中，任务模型采用双层次规划设计，包括航迹水平面规划设计和轨迹铅垂面规划设计；其中，航迹水平面规划设计采用深度Q学习算法构建对地方防空区域的躲避和目标打击的第一方案，航迹铅垂面设计基于第一方案采用比例导引法构建铅垂面上飞行器对地方目标对准的第二方案。

在本实施方式中，本发明中水平面航迹规划设计采用深度Q学习算法，其奖赏函数会直接影响最终规划出的航迹性能。为了实现协同作战时对目标的多角度打击，在目标附近预设攻击点，通过调整攻击点的位置实现对目标的多角度打击。在水平面航迹规划设计结果(即第一方案)的基础上，进行铅垂面航迹规划设计。铅垂面航迹规划设计采用比例导引法，即将飞行器在铅垂面上的速度方向始终指向目标，飞行器在铅垂面上不做躲避防空区域的机动。

至此，可将任务模型模型简化为飞行器从指定目标，以随机弹道倾角与弹道偏角发射，绕过目标前方的威胁区域，并在能量损失最小且打击时间最短的条件下完成目标打击。

根据本发明的一种实施方式，步骤S3中，状态空间用于表示飞行器当前飞行状态与目标状态，且所述状态空间为一个n维向量，其中各元素为所述飞行器通过直接传感器测量或由传感器测量信号间接计算获得的变量，并且要求状态空间能够完备的表示出飞行器当前飞行状态与任务目标的状态。例如，可选取n＝15的状态空间，其中的元素包括：飞行器当前的三维坐标、飞行器当前速度在三坐标轴上的投影、任务目标的三维坐标、威胁区域中心点的三维坐标、攻击点的三维坐标。状态空间的设计选取可根据具体任务需求增加或减少元素。

根据本发明的一种实施方式，步骤S4中，动作空间包含所有飞行器改变其飞行状态的动作决策。在本实施方式中，动作空间的设计要求能包含飞行器所有可能改变其飞行状态的动作决策。在本实施方式中。纵平面(即铅垂面)采用比例导引方法，因此动作空间只需考虑改变飞行器的水平面航迹的动作决策，即横向过载。根据飞行器的实际性能，选取若干个离散数值作为动作选择空间。例如，可选取为-20m/s²至20m/s²且间隔为10的5个离散数值。

根据本发明的一种实施方式，步骤S5中，基于状态空间条件和动作空间条件构建基于深度Q学习算法的神经网络的步骤中，分别设计神经网络的结构参数、训练方法、网络学习率、经验池、训练批数、网络替换迭代数。在本实施方式中，神经网络可设计为含两层隐层的全连接网络，各隐层包含50个神经元，训练方法采用RMS优化器，网络学习率为0.001，经验池为500，训练批数为200，网络替换迭代数为200。网络的输入为飞行器的状态向量，输出为飞行器当前状态下的最优动作选择。

根据本发明的一种实施方式，步骤S5中，构建所述奖赏函数的步骤中，根据能量损失约束，打击时间约束，对危险区域的规避约束，以及对所述目标的多方位打击约束设计所述奖赏函数。在本实施方式中，根据飞行器航迹规划要求满足能量损失最小、打击时间最短等约束条件，且能实现对危险区域的有效规避以及对目标的多方位打击等任务需求，综合设计奖赏函数。在本实施方式中，可将奖赏函数选取为如下形式：

r＝α₁r_goa1+α₂r_obs+α₃r_V+α₄r_tran

根据本发明的一种实施方式，步骤S6包括：

S61.随机初始化神经网络的各权值与阈值；

S62.随机初始化飞行器状态、目标与威胁区、飞行航迹；其中，飞行器状态属于状态空间、目标与威胁区属于任务模型、飞行航迹属于动作空间；

S63.取当前时刻飞行器状态向量s_t，输入所述神经网络，获取当前状态下的动作选择a_t(即动作空间)，根据飞行器的运动学模型获得动作选择后下一时刻的飞行状态向量s_t+1，并根据奖赏函数得到当前动作选择获得奖赏值r_t；

S64.将a_t、a_t、s_t+1、r_t作为一组数据存入神经网络的经验池中，若经验池已满，则将数据从旧到新依次替换，并使神经网络完成一次学习训练；

S65.用下一时刻的状态向量s_t+1替换s_t。

S66.判断当前轨迹是否结束。若结束，则随机重置飞行器状态，目标与威胁区、飞行航迹，否则，重复S63-S65。在本实施方式中，判断当前轨迹是否结束的步骤中，若r_tran小于设定值，则当前轨迹结束。

S67.根据收敛性是否满足要求或迭代次数是否达到最大值判断网络训练是否结束，若结束，则保存输出神经网络与全部权值与阈值；否则重复S63-S66。

根据本发明的一种实施方式，步骤S7包括：

S71.随机初始化飞行器状态、目标与威胁区、飞行轨迹。

S73.用下一时刻的状态向量s_t+1替换s_t。

S74.判断当前航迹是否结束，若结束，则保存当前完整飞行航迹，随机重置飞行器状态、目标与威胁、飞行航迹，否则，重复S72-S73；在本实施方式中，判断当前轨迹是否结束的步骤中，若r_tran小于设定值，则当前轨迹结束。

S75.重复S72-S74，获得多条飞行航迹，并验证任务完成率。

根据本发明，通过深度Q学习算法完成多飞行器协同航迹规划，实现能量损失最小、打击时间最短、防空威胁区域规避等约束下的目标打击。

根据本发明，本发明适用于巡航导弹、弹道导弹等的多飞行器协同目标打击任务的航迹规划问题，可以满足包括能量损失最小、打击时间最短、防空威胁区域规避等约束条件下的自动航迹生成。

上述内容仅为本发明的具体方案的例子，对于其中未详尽描述的设备和结构，应当理解为采取本领域已有的通用设备及通用方法来予以实施。

以上所述仅为本发明的一个方案而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度Q学习算法的多飞行器航迹规划方法，包括：

S1.基于飞行器的性能构建所述飞行器的运动学模型；

S6.基于所述奖赏函数对所述神经网络进行训练；

S7.对完成训练的所述神经网络进行目标打击验证；

步骤S2中，所述任务模型用于所述飞行器的三维攻击航迹规划；

所述任务模型采用双层次规划设计，包括航迹水平面规划设计和轨迹铅垂面规划设计；其中，所述航迹水平面规划设计采用所述深度Q学习算法构建对地方防空区域的躲避和目标打击的第一方案，航迹铅垂面设计基于所述第一方案采用比例导引法构建铅垂面上飞行器对地方目标对准的第二方案；

步骤S5中，基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中，分别设计所述神经网络的结构参数、训练方法、网络学习率、经验池、训练批数、网络替换迭代数；

2.根据权利要求1所述的多飞行器航迹规划方法，其特征在于，步骤S1中，所述运动学模型为所述飞行器的三自由度运动方程；

所述三自由度运动方程为：

3.根据权利要求2所述的多飞行器航迹规划方法，其特征在于，步骤S3中，所述状态空间用于表示所述飞行器当前飞行状态与目标状态，且所述状态空间为一个n维向量，其中各元素为所述飞行器通过直接传感器测量或由传感器测量信号间接计算获得的变量。

4.根据权利要求3所述的多飞行器航迹规划方法，其特征在于，步骤S4中，所述动作空间包含所有所述飞行器改变其飞行状态的动作决策。

5.根据权利要求4所述的多飞行器航迹规划方法，其特征在于，步骤S5中，基于所述状态空间条件和所述动作空间条件构建基于所述深度Q学习算法的神经网络的步骤中，所述神经网络为含两层隐层的全连接网络，各隐层包含50个神经元，训练方法采用RMS优化器，网络学习率为0.001，经验池为500，训练批数为200，网络替换迭代数为200；

构建所述奖赏函数的步骤中，所述奖赏函数为：

r＝α₁r_goal+α₂r_obs+α₃r_V+α₄r_tran

6.根据权利要求1至5任一项所述的多飞行器航迹规划方法，其特征在于，步骤S6包括：

S61.随机初始化所述神经网络的各权值与阈值；

S62.随机初始化飞行器状态、目标与威胁区、飞行航迹；

S65.用下一时刻的状态向量s_t+1替换s_t；

S66.判断当前轨迹是否结束；若结束，则随机重置飞行器状态，目标与威胁区、飞行航迹，否则，重复S63-S65；

7.根据权利要求6所述的多飞行器航迹规划方法，其特征在于，步骤S7包括：

S71.随机初始化飞行器状态、目标与威胁区、飞行轨迹；

S73.用下一时刻的状态向量s_t+1替换s_t；

S75.重复S72-S74，获得多条飞行航迹，并验证任务完成率。