CN113342031A

CN113342031A - 一种导弹航迹在线智能规划方法

Info

Publication number: CN113342031A
Application number: CN202110538813.6A
Authority: CN
Inventors: 李红霞
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-09-03
Anticipated expiration: 2041-05-18
Also published as: CN113342031B

Abstract

本发明公开了一种导弹航迹在线智能规划方法，将传统航迹规划法APF与以深度强化学习为代表新一代人工智能法A3C相结合，二者优势互补，不但能够克服传统航迹规划方法中，易陷入局部极小缺点，而且能够有效解决人工智能方法网络收敛速度慢问题。拟建立算法具体为：在末制导初始阶段，运用离线和在线相结合地APF法对导弹航迹进行规划，同时，将产生航迹用于“暗地”训练A3C网络，得到稳定网络参数。由于在此阶段APF法航迹精度，远高于A3C算法所得航迹，因此能够大幅加快网络训练速度、提高算法运行效率。当A3C网络参数稳定时，经拟设计两阶段快速切换法，使得算法从APF自主快速切换至A3C，并运用网络稳定A3C算法提供导弹次优/最优规划航迹。

Description

一种导弹航迹在线智能规划方法

技术领域

本发明属于飞行器控制领域，尤其涉及一种飞行器航迹在线智能规划方法。

背景技术

近年来，各国导弹技术不断发展，使得导弹的可靠性、有效性、精确打击能力等大幅提升。此外，随着人工智能、云计算、大数据等技术广泛应用和融合发展，新技术持续涌入军事领域，使得战争朝智能化方向快速发展。可知，我国导弹性能以及智能化水平亟待提高。其中，导弹航迹规划是需要提升地关键技术之一。导弹航迹规划指在综合考虑导弹机动性能、作战环境、作战任务等条件，按照给定优化指标，寻找从起始点至目标点可行、最优运动轨迹。良好的导弹航迹规划算法能够优化导弹飞行航迹，使得导弹能够主动规避威胁、防止弹间碰撞以及减小被拦截概率。因此，研究导弹航迹在线智能规划方法具有现实意义。

航迹规划技术作为实现自主控制先决条件之一，已广泛运用于机器人、无人机等系统。目前，国内外航迹规划法研究主要有：A*法、人工势场法(Artificial PotentialField，APF)、随机路标图法(Probabilistic Roadmaps，PRM)、快速扩展随机树(RapidExploring Random Trees，RRT)以及各种仿生智能算法等。

A*法是一种启发式路径搜索算法，主要通过起点到目标点代价估计函数，引导算法搜索方向，从而找到两点间最短路径。这种算法具有较高搜索效率，以及在启发因子满足单调性条件时，一定能够找到最优路径。但是，当存在多个较短路径时，这种算法搜索结果不一定最优，并且随着搜索范围扩大，搜索速度会减弱。此外，运用这种方法规划路径与障碍物相对较近，存在碰撞风险。

APF法将环境表示为人工视场，其中目标点产生引力场，影响整个空间，不同位置引力值不同；障碍物产生斥力场，影响范围有限。物体在场内移动，视为在引力和斥力合力作用下，沿合力场梯度下降方向移动。这种算法具有简单直观，计算速度快以及规划航迹平滑等优点。但是，当障碍物环境比较复杂时，容易陷入视场局部最小值，导致无法到达目标位置。

PRM法随机生成一定数量节点，以及把各节点相互连线，如果连线与障碍物相交，则删除这条线，最终得到起点与终点间的避障路径。这种算法优势在于算法计算复杂度仅取决于节点个数、节点连接图复杂度，而与空间大小以及维度无关。但是，这种算法存在显著缺点，即节点随机生成，导致算法每次运行结果均不一样，所得规划路径质量无法保障，甚至可能出现无法搜索到路径情况。

RRT算法使用类似树生长方式进行节点扩展，采用随机节点引导树拓展方向。具体为：随机生成一个数，如果这个数小于给定值，则随机生成一个节点，否则将目标点定义为随机节点；在此基础上，从当前节点向随机节点方向前进固定长度，得到新节点，从而得到起点到目标点路径。这种算法优点在于算法计算量仅与路径扩展步长有关，与空间维度无关，即算法步长越小，搜索速度越慢；步长越大，搜索速度越快。但是，当环境中存在密集障碍物时，算法收敛速度变慢；以及当搜索步长较大时，可能存在搜索不到路径的问题。

仿生智能算法主要有遗传算法、蚁群算法、粒子群算法等，通过模拟生物体遗传过程或觅食行为等，利用较强寻优能力，解决一些传统算法难以解决地优化问题。但是，这类方法解决问题范围有限，以及存在收敛速度慢、易陷入局部最优等缺点。

可知，以上方法大多仅能解决针对已知静态/慢速障碍物的航迹规划问题。随着作战任务复杂性不断增大，需要导弹在强机动障碍目标突现等复杂作战环境下，对航迹进行快速、可靠规划。深度强化学习(Deep Reinforcement Learning，DRL)作为机器学习蓬勃发展代表，将深度学习对复杂环境较强感知能力与强化学习决策能力相结合，优势互补，为复杂系统感知决策问题提供解决思路，是当前解决航迹规划问题行之有效以及发展最快方法。

综上所述，已提出航迹规划方法存在以下缺点：

(1)大多仅能解决环境中存在地已知静态/慢速障碍物的航迹规划问题；

(2)规划航迹实时性、可靠性等无法得到良好保障，导致无法直接运用于复杂作战环境下的导弹航迹规划。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种导弹航迹在线智能规划方法，该方法能够对在导弹航迹进行实时、可靠、智能规划，使得导弹能够有效避免敌方拦截弹打击，实现成功突防。

本发明所采用的技术方案如下：

一种导弹航迹在线智能规划方法，包括如下步骤：

步骤1，采用APF法在末制导初始阶段进行导弹航迹规划，训练A3C网络，获得A3C稳定网络参数，即得到网络稳定的A3C算法；

步骤2，判断A3C网络稳定性；并基于A3C网络稳定性，实现从APF法快速切换至A3C算法进行导弹航迹规划；

步骤3，采用网络稳定的A3C算法进行导弹航迹规划。

进一步，所述步骤1中采用离线和在线相结合的APF法进行导弹航迹规划。

进一步，离线APF法航迹规划的过程为：建立弹目运动模型，采用离线APF规划算法规划导弹的参考航迹，并使用参考航迹的引力场代替目标引力场，使导弹飞向参考航迹。

进一步，在线APF法航迹规划的过程为：考虑到导弹以参考航迹飞向打击目标过程中，敌方防御系统为保护目标而发射拦截弹，当进入拦截弹影响范围时，需在参考航迹基础上，引入拦截弹斥力场，对导弹避障航迹进行在线规划。

进一步，所述步骤2中实现APF法和A3C算法快速切换的方法为：

步骤2.1，针对不同类型的网络参数，分别判断网络参数稳定性；

步骤2.2，当A3C网络达到稳定时，航迹规划算法从APF法快速自主切换至A3C算法，以便运用网络稳定的A3C算法，得到复杂飞行环境下次优/最优导弹避障航迹；

步骤2.3，若A3C网络未达到稳定时，则是继续采用APF法航迹，进行网络训练。

进一步，针对无期望值型网络参数，检测该网络参数是否收敛，即检测该网络参数是否收敛于某个值，收敛值为这个网络参数的最终训练值；如果该网络参数收敛，表明该网络参数已达到稳定。进一步，对于有期望值型网络参数，检测该网络参数与期望值之差，该差值是否在给定小正数邻域内，如果在此邻域内，表明该网络参数已达到稳定。

进一步，步骤3中进行导弹航迹规划的过程为：

首先，获得导弹和被保护目标之间的弹目距离、来袭拦截弹位置、速度、航迹角信息，实现作战环境探测；

基于上述作战环境信息，建立地威胁程度快速评估法，得到来袭拦截弹的目标威胁评估值；

将获得的目标威胁评估值通过颜色通道，转化为像素值，建立反映运动体、目标、障碍物三者之间相对运动关系的目标威胁态势图；

将目标威胁态势图作为A3C算法环境状态变量，即作为A3C算法的CNN网络输入，通过CNN网络对复杂作战环境进行特征提取，以及采用由单步Q-Learning法、单步Sarsa法、n步Q-Learning法以及优势行为评价法构成地多线程异步网络参数更新法，对Actor网络参数进行更新，从而得到连续形式次优/最优规划航迹。

进一步，将单步Q-Learning法、单步Sarsa法、n步Q-Learning法以及优势行为评价法这四种方法分别作为A3C每个线程所用方法，四种方法并行、异步对环境进行探索，并对A3C网络参数进行更新，使得观测数据间相关性减少，避免采用经验回放池策略，网络训练时间减少，以及有助于提高A3C算法稳定性。

本发明的有益效果：

与大多基于深度强化学习的航迹规划法相比，拟研究航迹规划法APF-A3C，将传统APF法与A3C方法相结合，运用APF进行初始航迹规划同时，将所得航迹用于提前训练A3C网络，采用网络参数基本稳定A3C，实现航迹快速可靠规划。可知，拟研究算法能够大大提高A3C运行效率，以及能够实现对导弹避障航迹在线智能规划。此外，与大多传统航迹规划法相比，拟研究算法仅在末制导初始阶段，采用APF进行航迹规划，以及设计时变参考航迹引力场中心，引入虚拟目标点，使得这种方法易陷入局部最小值缺点得到有效避免。综上所述，拟建立APF-A3C航迹规划法，不但能够提高A3C算法运行效率，而且能够有效避免APF算法易陷入局部最小值缺点。

附图说明

图1是本申请导弹航迹在线智能规划算法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示的一种导弹航迹在线智能规划方法，包括如下步骤：

步骤1，为避免APF法存在当运动体与目标相距较近时，这种算法易陷入局部最优，导致无法对航迹进行规划的缺点，以及考虑到在末制导初始阶段，导弹与目标相距较远，基于此，本发明拟在此阶段，采用离线和在线相结合的APF法对导弹航迹进行规划；并训练A3C网络，获得A3C稳定网络参数，即得到网络稳定的A3C算法。离线和在线两种导弹航迹规划方法如下：

步骤1.1，采用离线和在线相结合的APF法进行导弹航迹规划，具体过程如下：

步骤1.1.1，离线APF法航迹规划的过程：

首先，建立弹目运动模型，采用离线APF规划算法规划导弹的参考航迹，并使用参考航迹的引力场代替目标引力场，使导弹飞向参考航迹。为防止拟设计参考航迹在目标点附近陷入局部最小值，设计动态引力场中心，即引力场中心随飞行时间以及导弹位置变化而变化，或者引力场中心是导弹飞行时间以及弹目距离的函数，使得参考航迹能够随以上两参数变化而失去最小值特性。引力场是人为建立地目标点对导弹产生地吸引力场，对导弹起吸引作用。引力场中心为目标点。为避免导弹在目标点附近陷入局部最小，导致无法规划到达目标点航迹，算法建立了动态目标点，即将目标点位置设计为导弹飞行时间和弹目距离的函数，随着导弹飞行时间增大以及弹目距离减小，使得动态目标点位置不断变化，从而逃离最小值。

步骤1.1.2，在线APF法航迹规划的过程：

考虑到导弹以参考航迹飞向打击目标过程中，敌方防御系统为保护目标而发射拦截弹，当进入拦截弹影响范围时，需在参考航迹基础上，引入拦截弹斥力场，对导弹避障航迹进行在线规划；具体地，拦截弹斥力场是人为建立地障碍物对导弹产生斥力的场，对导弹产生排斥力。当障碍物即拦截弹从敌方防御基地发射后，对进攻弹产生斥力。为避免进攻弹、拦截弹以及目标共线时，导致在线规划航迹陷入局部最小或产生震荡，本发明拟建立虚拟目标。当规划航迹陷入局部最小时，用虚拟目标代替实际目标产生引力场，使导弹迅速离开最小值点，并到达虚拟目标点，之后由实际目标产生引力场，继续对导弹航迹进行规划。对于固定目标，导弹飞行前运用离线APF法进行航迹规划，并将规划航迹装订于弹载计算机，使得导弹按离线规划航迹飞向打击目标。当导弹飞行过程中，通过地基、空基雷达，以及弹载传感器等，发现敌方防御系统发射拦截弹，以及进攻弹进入拦截弹影响范围，此时运用在线APF法对进攻弹航迹进行规划。

步骤1.2，训练A3C网络，获得A3C稳定网络参数，即得到网络稳定的A3C算法，具体如下：

由于训练A3C网络需要大量数据，为提高网络精度，因此，需同时包含两种情况下飞行航迹。进一步，离线以及在线航迹分别表征无、有障碍物情况下导弹飞行情况，能够丰富网络训练数据多样性，这类数据能够提高网络鲁棒性。

因此，为提高A3C算法(Asynchronous Advantage Actor-Critic)运行效率，在此阶段拟运用上述步骤1中离线和在线相结合的APF法得到的航迹作为A3C算法的训练数据，对A3C网络进行训练，以便提前得到A3C网络参数，为使用这种算法快速得到有效导弹避障航迹做好准备。

步骤2，基于步骤1中的两种航迹规划规划算法，实现APF法和A3C算法快速切换的方法为：

在导弹飞行过程中，对步骤1中A3C网络参数的稳定性进行实时检测，具体为：

步骤2.1，网络参数有多个数值，分为无期望值型和有期望值型，故针对不同类型的网络参数，判断网络参数稳定性的方法如下：

对于无期望值型网络参数，检测该网络参数是否收敛，即检测该网络参数是否收敛于某个值，收敛值为这个网络参数的最终训练值；如果该网络参数收敛，则表明该网络参数已经稳定。

对于有期望值型网络参数，检测该网络参数与期望值之差，该差值是否在给定小正数邻域内，如果在此邻域内，表明该网络参数也已达到稳定。在本申请中，该小正数取值为0.1。

步骤2.2，当A3C网络达到稳定时，航迹规划算法从APF法快速自主切换至A3C算法，以便运用网络稳定的A3C算法，得到复杂飞行环境下次优/最优导弹避障航迹。

步骤3，采用网络稳定的A3C算法进行导弹航迹规划，具体过程如下：

当切换至A3C算法时，通过弹载传感器、地基雷达、空基雷达等方式，获得导弹和被保护目标之间的弹目距离、来袭拦截弹位置、速度、航迹角等信息，实现作战环境探测。基于上述信息，建立地威胁程度快速评估法，得到来袭拦截弹的目标威胁评估值。具体可采用文献1(张浩为,谢军伟,葛佳昂等，改进TOPSIS的多时刻融合直觉模糊威胁评估，《控制与决策》,2019,34(4):811-815.)所公开的内容建立地威胁程度快速评估法。

将获得的目标威胁评估值通过颜色通道，转化为像素值，建立反映运动体、目标、障碍物三者之间相对运动关系的目标威胁态势图。

将所得到的图像形式的目标威胁态势图，作为A3C算法环境状态变量，具体为A3C算法的CNN网络输入，通过CNN网络对复杂作战环境进行特征提取，以及采用由单步Q-Learning法、单步Sarsa法、n步Q-Learning法以及优势行为评价法构成地多线程异步网络参数更新法，对Actor网络参数进行更新，从而得到连续形式次优/最优规划航迹。由于A3C为多线程方法，故将以上单步Q-Learning法、单步Sarsa法、n步Q-Learning法以及优势行为评价法这四种方法分别作为A3C每个线程所用方法，四种方法并行、异步对环境进行探索，并对A3C网络参数进行更新，使得观测数据间相关性减少，避免采用经验回放池策略，网络训练时间减少，以及有助于提高A3C算法稳定性。

在得到规划航迹基础上，导弹沿此航迹飞行，即将得到地行为策略作用于环境，形成新作战环境。通过以上过程，不断对复杂动态环境进行感知，实现当前环境下导弹避障航迹规划。

本发明拟研究APF-A3C算法，对导弹规避来袭拦截弹航迹进行快速规划。由于APF方法具有解算快速、所得路径平滑、易于工程实现等优点，因此，采用这种算法能够使得规划航迹具有满意实时性。进一步，采用离线和在线相结合航迹规划思想，使得APF法规划航迹可靠性得到保证。此外，拟设计时变参考航迹引力场中心，以及引入虚拟目标点，使得APF法固有缺点，即易陷入局部最小值问题，得到有效避免。可知，在末制导初始阶段，采用APF法规划航迹的实时性、可靠性能够在理论上得到保障。

对于A3C方法，与其他深度强化学习方法相比，这种方法采用多种深度强化学习方法对环境不同部分进行观测，即能够得到更全面环境信息，因此，采用这种方法能够得到可靠规划航迹。此外，拟使用APF法航迹提前对A3C网络进行训练，使得A3C方法在复杂作战情况下，规划航迹实时性、可靠性得到进一步保证。由上可知，在理论上运用拟提出APF-A3C算法，对导弹主动规避式航迹进行在线智能规划是完全可行的。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种导弹航迹在线智能规划方法，其特征在于，包括如下步骤：

步骤3，采用网络稳定的A3C算法进行导弹航迹规划。

2.根据权利要求1所述的一种导弹航迹在线智能规划方法，其特征在于，步骤3中进行导弹航迹规划的过程为：

3.根据权利要求2所述的一种导弹航迹在线智能规划方法，其特征在于，将单步Q-Learning法、单步Sarsa法、n步Q-Learning法以及优势行为评价法这四种方法分别作为A3C每个线程所用方法，四种方法并行、异步对环境进行探索，并对A3C网络参数进行更新，使得观测数据间相关性减少，避免采用经验回放池策略，网络训练时间减少，以及有助于提高A3C算法稳定性。

4.根据权利要求1所述的一种导弹航迹在线智能规划方法，其特征在于，所述步骤1中采用离线和在线相结合的APF法进行导弹航迹规划。

5.根据权利要求4所述的一种导弹航迹在线智能规划方法，其特征在于，离线APF法航迹规划的过程为：建立弹目运动模型，采用离线APF规划算法规划导弹的参考航迹，并使用参考航迹的引力场代替目标引力场，使导弹飞向参考航迹。

6.根据权利要求4所述的一种导弹航迹在线智能规划方法，其特征在于，在线APF法航迹规划的过程为：考虑到导弹以参考航迹飞向打击目标过程中，敌方防御系统为保护目标而发射拦截弹，当进入拦截弹影响范围时，需在参考航迹基础上，引入拦截弹斥力场，对导弹避障航迹进行在线规划。

7.根据权利要求4所述的一种导弹航迹在线智能规划方法，其特征在于，所述步骤2中实现APF法和A3C算法快速切换的方法为：

8.根据权利要求7所述的一种导弹航迹在线智能规划方法，其特征在于，针对无期望值型网络参数，检测该网络参数是否收敛，即检测该网络参数是否收敛于某个值，收敛值为这个网络参数的最终训练值；如果该网络参数收敛，表明该网络参数已达到稳定。

9.根据权利要求7所述的一种导弹航迹在线智能规划方法，其特征在于，对于有期望值型网络参数，检测该网络参数与期望值之差，该差值是否在给定小正数邻域内，如果在此邻域内，表明该网络参数已达到稳定。