CN116011315A

CN116011315A - 一种基于k-稀疏自编码svm的导弹不可逃逸区快速解算

Info

Publication number: CN116011315A
Application number: CN202211404475.8A
Authority: CN
Inventors: 钱程; 韩博; 程昊宇; 唐上钦; 周欢; 王龙飞; 赵林; 龙澜波; 蒋琪; 唐悦
Original assignee: 93525 Troops Of Chinese Pla
Current assignee: 93525 Troops Of Chinese Pla
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-04-25

Abstract

本发明涉及一种基于K‑稀疏自编码SVM的导弹不可逃逸区快速解算，首先，搭建了敌机规避导弹的强化学习框架，将Guided采样和K‑mean方法融入到DQN算法中得到KGuided‑DQN算法，利用此算法求解出敌机最优规避机动策略，并基于最优规避机动策略解算出导弹不可逃逸区范围；其次，针对导弹不可逃逸区解算无法满足空战实时性问题，构建了K‑SAE‑SVM导弹攻击区拟合网络。该网络利用K‑稀疏自编码(K‑Sparse Auto‑Enconders，K‑SAE)网络的特征提取能力和支持向量机(Support Vector Machines，SVM)回归拟合能力，实现导弹不可逃逸区实时解算。仿真验证了所提出的导弹不可逃逸区解算方法有效，且实时性满足要求。

Description

一种基于K-稀疏自编码SVM的导弹不可逃逸区快速解算

技术领域

本发明属于无人作战飞机控制技术，涉及一种基于K-稀疏自编码SVM的导弹不可逃逸区快速解算。

背景技术

无人作战飞机(Uncommand Combat Aerial Vehicle,UCAV)在利比亚、叙利亚，以及纳卡战争中优异的作战效果，使其效费比低、可执行高风险作战任务，以及战时可大量部署等优点得到了世界各国广泛认可。现有UCAV在地面站控制下可执行侦察预警、中继通信，以及对地打击等任务，但这种“人在回路”的操作模式无法适应高烈度的空战任务。随着计算机科学、人工智能技术进一步发展，自主空战型UCAV必将成为未来战争中争夺制空权的重要作战力量。

传统导弹攻击区毁伤概率低，无法满足UCAV对敌攻击需求。

攻击区是指在载机附近一定区域内，导弹具有一定的概率击中敌方的远近界集合，而此区域范围的大小体现了导弹综合作战能力。在空战中敌我双方进行高动态机动的目的就是使敌方进入己方机载武器攻击区，在此过程中机载火控计算机根据空战中敌我的位置关系、速度、高度实时解算出攻击区边界，但为了保证实时性，传统攻击区解算是以敌机当前状态保持匀速直线运动得到的，只是理论上具有一定毁伤概率击中敌方。在真实空战中，当己方近距空空导弹锁定敌方后，敌机的告警雷达会发出警报，敌机会根据当前的态势迅速进行规避机动，有人机飞行员会结合自身经验，选择合适时机发射导弹，以确保击毁敌机。UCAV自主空战将是未来作战模式，在整个作战过程中，指挥员只下达具体作战任务，武器发射完全由UCAV决定，而飞行员在长期、高强度训练下的武器使用经验难以在UCAV中进行全面表征，因此攻击区的解算还应考虑敌机可能进行的各种规避机动，提高攻击区内导弹的毁伤概率。

在攻击区拟合方面，深度神经网络具有强大的非线性拟合能力，并已在多个领域得到有效应用，将是非线性攻击区拟合的有效解决方法。针对上述问题，本发明在构建载机、导弹的模型基础上，基于KGuided-DQN求解敌机的最优规避机动，并根据此解算出导弹不可逃逸区。同时利用K-稀疏自编码-SVM对导弹攻击区进行高精度拟合，经过仿真实验验证，基于敌机最优规避策略的导弹不可逃逸区具有对敌机非常高的毁伤概率，基于K-SAE-SVM的攻击区拟合网络在精度和实时性方面符合UCAV自主空战的要求。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于K-稀疏自编码SVM的导弹不可逃逸区快速解算。

技术方案

一种基于K-稀疏自编码SVM的导弹不可逃逸区快速解算，其特征在于步骤如下：

步骤1、构建载机、导弹的模型：

载机模型为：

式中，(x,y,h)表示UCAV的空间坐标位置；v表示UCAV速度；n_x、n_z分别表示水平和纵向过载；γ、ψ、μ分别表示俯仰角、偏航角、滚转角；g表示重力加速度。在该模型中，(x,y,h,v,γ,ψ)为状态量，(n_x,n_z,μ)为控制量；

空空导弹的动力学模型为：

式中，

为分别为导弹的加速度，俯仰角速度，偏航角速度，G_m为导弹自重，其随着导弹燃料的减少而减少。P_m为推力，Q_m为阻力，由参考文献[139]得到。n_mc，n_mh为导弹的侧向和法向过载；

空空导弹导引模型：

步骤2、基于KGuided-DQN求解敌机的最优规避机动：

基于强化学习的敌机最优规避决策框架：包括比例导引控制，决策网络和回报函数；导弹状态经过比例导引控制，敌机动作经过决策网络输出状态，两个分别经过各自的输出送至回报函数，回报函数的输出回报至敌机；

所述敌机动作为27种基本机动动作：在美国NASA学者提出的7种典型机动动作中增加了右侧爬升、左侧爬升、右侧俯冲、左侧俯冲，每一种基本动作都设计为匀速、最大加速、最大减速三种速度变化；

所述状态为完全描述敌机与导弹进行对抗时的状态信息；

所述回报函数为

敌机规避导弹决策回报函数为：

式中，r_A为每次机动动作选择后的角度回报函数，

为导弹提前角；

距离回报函数为

式中，r_R为距离回报因子，D_max表示为导弹攻击匀速直线运动目标的最远攻击距离；

步骤3、采用黄金分割法基于敌机最优规避策略的导弹不可逃逸区解算：

(1)以攻击机为中心，在导弹离轴角允许的范围内，确定目标初始位置相对于载机的方向，即目标离轴方位角a_asp；

(2)预估初始搜索距离为[a₀,b₀]，计算黄金分割点

(3)以分割点位置为目标初始位置，由所构建的目标机动预估系统实时输出目标飞行操控量u_t；导弹由初始位置对该目标进行追踪，根据导弹性能约束判断导弹是否命中目标；

(4)如命中目标，令

b₁＝b₀；如未命中，则令a₁＝a₀，b₁＝R_g0；重新循环计算，直到求出满足约束|b_i-a_i|＜δ的边界为止，其中δ为解算精度，最终

即为当前态势下可发射距离的最大值R_max。最小可发射距离R_min的搜索与R_max类似，在命中目标时，令a_i＝a_i-1，

否则令

b_i＝b_i-1；

当前可发射区间找到后，根据需求改变目标离轴方位角a_{asp_y}及a_{asp_z}，重新循环计算，直到导弹导引头可探测的角度搜索完毕为止，其中，当a_{asp_y}与a_{asp_z}同时改变时，解算结果为导弹三维可发射包络；保持当前a_{asp_z}，改变a_{asp_y}的情况下，解算结果为导弹的水平可发射区；同理，保持当前a_{asp_y}，仅改变a_{asp_z}的情况下，解算结果为导弹的垂直可发射区。

所述当a_off及导弹发射倾角

其中

所述状态量为：

Δx_i＝x_i,t-x_i,m,Δy_i＝yi_i,t-y_m,Δz_i＝z_i,t-z_i,m为导弹与敌机之间的相对位置。

有益效果

本发明提出的一种基于K-稀疏自编码SVM的导弹不可逃逸区快速解算，首先，搭建了敌机规避导弹的强化学习框架，将Guided采样和K-mean方法融入到DQN算法中得到KGuided-DQN算法，利用此算法求解出敌机最优规避机动策略，并基于最优规避机动策略解算出导弹不可逃逸区范围；其次，针对导弹不可逃逸区解算无法满足空战实时性问题，构建了K-SAE-SVM导弹攻击区拟合网络。该网络利用K-稀疏自编码(K-Sparse Auto-Enconders，K-SAE)网络的特征提取能力和支持向量机(Support Vector Machines，SVM)回归拟合能力，实现导弹不可逃逸区实时解算。仿真验证了所提出的导弹不可逃逸区解算方法有效，且实时性满足要求。

本发明针对传统导弹攻击区解算简单、毁伤概率低，无法满足UCAV空战对火控解算的需求，提出了基于敌机最优规避机动动作决策的导弹不可逃逸区解算，和基于K-SAE-SVM的导弹攻击区拟合模型。通过对敌机逃逸问题分析，利用KGuided-DQN算法求解敌机与导弹对抗过程的最优规避机动决策，并在基础上解算出导弹不可逃逸区。但由于不可逃逸区的解算耗时太久，无法满足UCAV的空战实时性要求，针对这个问题利用K-SAE网络对输入数据特征强大的提取能力，和SVM回归拟合能力，提出了基于K-SAE-SVM构建导弹攻击区拟合网络。通过仿真实验证明，基于KGuided-DQN算法的敌机最优轨迹机动决策方法体现出了敌机与导弹对抗过程的高动态性，符合实战场景。利用基于K-SAE-SVM的导弹攻击区拟合精度小于40m，完全满足UCAV的空战需求。

附图说明

图1：以我机为中心的导弹攻击区

图2：敌我双方相对角度关系

图3：平台质点模型示意图

图4：7种经典机动示意图

图5：扩展机动示意图

图6：基于强化学习的敌机最优规避决策框架

图7：导弹与敌机相对位置关系

图8：K-means DQN与DQN仿真结果

图9：不同算法的仿真结果

图10：基于KGuided-DQN算法的最优规避机动动作决策框架

图11：导弹不可逃逸区解算框架

图12：尾追态势下导弹弹道对比图

图13：尾追态势下回报函数变化曲线

图14：尾追态势下导弹攻击区

图15：侧向攻击下的弹道对比图

图16：侧向攻击下回报函数变化曲线

图17：侧向攻击态势下导弹攻击区

图18：自编码网络示意图

图19：K-SAE-SVM导弹攻击区拟合模型

图20：不同特征提取层误差曲线：(a)一层提取层；(b)两层提取层；(c)三层提取层

图21：不同隐藏层节点数误差曲线：(a)50-50节点数设置；(b)50-20节点数设置；(c)20-20节点数设置

图22：隐藏层不同K值误差曲线：(a)30-12；(b)20-8；(c)10-4

图23：SVM拟合绝对误差曲线

图24：BP拟合绝对误差曲线

图25：K-SAE-SVM拟合绝对误差曲线

图26：远界误差：(a)远界MSE误差曲线；(b)远界绝对误差曲线

图27：近界误差：(a)近界MSE误差曲线；(b)近界绝对误差曲线

图28：不同进入角攻击区拟合效果图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

针对现有技术，本章在构建载机、导弹的模型基础上，基于KGuided-DQN求解敌机的最优规避机动，并根据此解算出导弹不可逃逸区。同时利用K-稀疏自编码-SVM对导弹攻击区进行高精度拟合，经过仿真实验验证，基于敌机最优规避策略的导弹不可逃逸区具有对敌机非常高的毁伤概率，基于K-SAE-SVM的攻击区拟合网络在精度和实时性方面符合UCAV自主空战的要求。

§1攻击区的解算原理描述

导弹攻击区有两种，分别是以目标机和攻击机为中心[134]。在空战中研究中，更多是以攻击机为中心研究，其表示为最大离轴角范围内导弹攻击的最大边界R_max、最小边界R_min点的集合，如下图1所示：

攻击区解算的条件包含载机的飞行状态、导弹的性能、敌机的飞行状态和导弹与敌机的相对位置关系四部分，现有第四代空空导弹具有大离轴角发射能力，因此导弹攻击区是在边界集合，数学模型如下：

上式(1)中，最大攻击边界R_max和最小攻击边界R_min的计算条件相同，其中为载机的飞行状态包含速度

高度

倾角

敌机的状态包括速度

操纵量u_t。导弹与敌机位置关系包括离轴方位角a_asp和进入角a_off，由于发射时刻导弹与载机是同一个状态，因此方位角和进入角与敌我飞机的相对位置关系相同。

上式(2)中，β₀为导弹发射时刻的视线偏角，ε₀为导弹发射时刻的视线倾角。

§2飞行器机动动作库构建

§2.1飞行器平台质点模型

将飞行器视作空间可操纵质点，忽略刚体姿态，构建三自由度质点模型如下：

上式(3)中，(x,y,h)表示UCAV的空间坐标位置；v表示UCAV速度；n_x、n_z分别表示水平和纵向过载；γ、ψ、μ分别表示俯仰角、偏航角、滚转角；g表示重力加速度。在该模型中，(x,y,h,v,γ,ψ)为状态量，(n_x,n_z,μ)为控制量[136]。图3展示了三自由度的质点模型示意图。

§2.2飞行器机动动作库

由§2.1可知，飞行器机动动作由(n_x,n_z,μ)控制量实现。随着飞机的不断发展，有人机飞行员在实现和训练中的不断总结，现有的空战机动动作比较丰富，比如：高速摇摇、斤斗、滚动、剪式机动等，在不同的态势下已取得不可思议的空战效果。但将连续的机动动作分解成无数成小片段观察，任何复杂的机动都是由简单的机动构成。因此，美国NASA学者提出了7种典型机动动作，如图4中所示：

(1)匀速直线飞行；(2)最大加速度直线飞行；(3)最大减速直线飞行；(4)最大过载左转弯；(5)最大过载右转弯；(6)最大过载爬升；(7)最大过载俯冲。NASA学者从两个维度构建机动动作，无法满足飞行器在三维空间内的机动，使飞行器的机动性受到了极大的限制。因此，借鉴NASA思想，本节通过飞行器控制量，扩充了在三维空间内其他空间的机动动作，如图5所示：扩展机动综合7种基本机动，增加了右侧爬升、左侧爬升、右侧俯冲、左侧俯冲。其中每一种基本动作都设计为匀速、最大加速、最大减速三种速度变化。因此，飞行器基本动作库共27种，使飞行器能较完整地实现各种机动动作，飞行轨迹更加平滑，具有非常实用的工程价值。

§3空空导弹数学模型描述

§3.1空空导弹动力学模型

将导弹视为刚体，在惯性坐标系下构建三自由度质点模型如下：

上式(4)中，

为导弹在三个坐标轴上的位移，v_m为导弹速度，γ_m为俯仰角，ψ_m为偏航角，x_m，y_m，z_m为导弹的坐标位置。

将导弹视为刚体，导弹的动力学模型为：

上式(5)中，

为分别为导弹的加速度，俯仰角速度，偏航角速度，G_m为导弹自重，其随着导弹燃料的减少而减少。P_m为推力，Q_m为阻力，由参考文献[139]得到。n_mc，n_mh为导弹的侧向和法向过载。P_m、G_m的数学模型如下：

上式(6)和(7)中，t_w为导弹发动机工作时长，G_sec为燃料燃烧的速率，G₀为导弹全重。

§3.2空空导弹导引模型

当导弹与敌机之间的距离矢量为

其在惯性坐标系上的位置可以表示为(R，β，ε)，具体公式如下：

上式(4.8)中，R、β、ε为别为距离、视线倾角和视线偏角，其关于时间的变化率的求解为式(9)：

为了快速解算导弹攻击区，导弹导引模型采用比例导引法[140]，其中在水平和垂直空间内的导引系数为K，俯仰和偏航的控制过载为：

导弹在制导飞行过程中，受到自身性能、导引头、最大飞行时间、引信以及战斗部等多重影响因素，由于近距空空导弹的限制条件基本一样。

§4基于敌机最优规避策略的导弹不可逃逸区解算

载机发射导弹后，敌机必然会做相应的机动动作进行规避，因此敌机如何进行有效规避是一个决策问题。近年来强化学习方法在控制、规划和决策等方面取地了骄人的成绩，其中DQN(Deep Q Network)就是强化学习中的一个重要分支。DQN是在Q-Learning[143]的基础上发展而来，动作空间是离散的，但通过引入深度神经网络，实现了大规模状态空间与值函数的映射，在连续状态空间中取得了非常的效果。根据§2.2中载机的机动动作都可以由27中基本机动动作组合，因此，本节提出了基于KGuided-DQN的敌机最优规避策略。

§4.1最优规避决策的强化学习框架

构建敌机规避导弹的强化学习框架，由于导弹采用比例导引制导，具有固定的弹道解算方式，只将敌机视为智能体，在离线训练过程中，敌机不断从与导弹的对抗过程中进行学习，寻找最优规避方法。图6为基于强化学习的敌机最优规避决策框架：

(1)动作(Action)：动作空间选取§4.2.2中扩展的27种基本机动动作，满足敌机规避导弹时所做的机动。

(2)状态(State)：由于空战中状态剧烈变化，因此选取的量可完全描述敌机与导弹进行对抗时的状态信息，并不受坐标系的影响。

(3)回报函数(Rward)：回报是敌机在某一状态下，选择某一机动动作后，对敌机规避导弹所产生的影响，通常有利于规避则回报值较高。

(4)决策网络(Policy)：也称为策略网络，是状态空间到机动动作选择的一个映射关系，这种映射关系经过回报函数的不断修正，最终使每次决策的回报值最大，形成敌我相对状态与最优机动选择的最优策略。

(5)空战环境(Environment)：双方对抗环境一致，空战作战环境简单，假设近距空战中敌我双方均能感知对方信息。

§4.2敌机规避回报函数设计

回报函数对整个算法的趋势起到一个引导和评价的作用，对基于强化学习方法的求解敌机规避最优策略具有直接的影响。因此，本节将分析敌机在规避导弹过程的影响因子，并设计相对应的回报函数。

敌机规避导弹的过程，是一个高维空间内最优策略问题，每一次机动动作选择对规避结果都有直接的影响，而影响的主体为追击的导弹。导弹在发射初期，依靠自身发动机短时间内提供推力，使导弹高速追击敌机，不断缩小与敌机之间的距离，同时调整与敌机之间的提前角

因此敌机在规避导弹过程中，相对距离和相对角度是决定导弹是否能击中敌机的关键因素，本节也将以这两个因子构建敌机规避导弹的回报函数。

敌机与导弹对抗中的相对位置关系如图7：

表示为导弹与敌机之间的距离矢量；v_m表示导弹的速度，v_t表示目标速度；

为导弹和敌机的提前角，表示导弹和敌机自身速度方向与对方之间的夹角。

§4.2.1角度回报因子构建

视场角从导弹发射、追踪及击中都必须时刻满足，导弹的提前角即为视场角。某型导弹的最大视场角为±90°。敌机每个时刻都必须在视场内才能实现导弹稳定跟踪，一旦导弹脱离视场角外，则导弹攻击失败，同时在飞行过程中，增加提前角将使导弹消耗更多的机动性，增大导弹攻击的难度，因此敌机进行规避时要尽可能增大导弹提前角，敌机规避导弹决策回报函数为：

上式(4.22)中，r_A为每次机动动作选择后的角度回报函数，

为导弹提前角。

§4.4.2.2距离回报因子构建

导弹是否能击中敌机，除了满足视场角条件，还需要满足距离限制。一方面导弹在追击敌机过程中，发动机工作很短时间，两者相对距离越远，导弹追击的时间就越长，后期的机动性也就越差，将越有利于敌机的逃逸。另一方面只有当两者的距离小于战斗部杀伤范围，才能形成对敌机的有效杀伤，因此，针对近距空空导弹，增大于敌机与导弹之间的相对距离，也是逃逸策略中重要的因素。构建距离回报函数为：

上式(23)中，r_R为距离回报因子，D_max表示为导弹攻击匀速直线运动目标的最远攻击距离。

§3.2.3敌机规避决策总体回报函数

敌机规避决策回报函数依据导弹追击敌机角度和距离两个回报因子，引导敌机选择具有战术的规避决策，因此敌机规避决策总体回报函数为：

上式(4.24)中，因此角度因子需要时刻满足，因此角度因子的评估权重比距离因子大。

§4.3KGuided-DQN强化学习算法

§4.3.1强化学习理论

强化学习的本质可以描述为马尔可夫过程(Markov decision process,MDP)，其可以表示为(S,A,P,γ,R)，其中S＝{(x₁,...,x_n)∈Rⁿ}为空间状态，A为动作集合，

为回报函数，P:(S×R×S,Ω)→[0,1]为两个状态和一个动作a∈A之间的转移概率函数，Ω为一个S×R×S的代数函数，它可以从之前观测的(s,a)∈S×A推导出下一个状态t∈S空间上的条件概率P_sa(t)≡Prob(t|s,a)≡P(s,a,t)/P(s,a)。作用于初始状态s₀∈S的一系列动作导致了MDP的动态过程：

解决强化学习问题是基于值函数求解策略问题，其在一个确定策略π下，状态s下可映射出预期累计回报。值函数计算公式如下：

上式(11)中，Q^π(s,a)表示策略π下状态-动作值函数，最优指函数为Q^*(s,a)＝max_πQ^π(s,a)。最优策略表示为π*，可表示为π*(s)∈argmax_aQ^*(s,a)。

最开始解决的是智能体在离散时间步长(t＝0,1,...)内与环境相互作用的一个连续决策问题。在时间t时，智能体在状态为s_t∈S下选择动作a_t∈A,得到一个即时奖励r_t∈R,并计算出下一个时刻的状态s_t+1∈S。考虑到奖励随着时间存在衰减作用，因此强化学习的累计奖励如下式R_t：

上式(12)中，γ∈[0,1]是衰减系因子，降低未来奖励的影响，提供即时回报与未来回报之间的平衡，即短期反应和长期结果之间的平衡。最终使智能体目标寻找一个最优策略π：S→A,其获得最大的累计奖励。

§4.3.2Q-learning算法描述

Q-learning算法是强化学习中一种最重要的算法，其基于比较简单的值迭代，可以直接计算出最优函数值Q^*(s,a)。Q-learning的值函数表估计和更新计算公式如下：

Q(s,a)←Q(s,a)+α(r+γmax_a'Q(s',a')-Q(s,a)) (13)

上式(13)中，s’是在状态s中选择动作a的下一时刻状态。r是在状态s中选择动作a的即时奖励，γ是衰减因子，α是学习率。

当智能体的状态空间过大，利用查表法保存所有可能的状态-动作值函数是不可能的。解决大规模状态空间问题的方法之一就是使用θ参数化函数逼近，例如

Q(s,a)≈Q(s,a；θ)。

§4.3.3Deep Q Networks(DQN)算法描述

在Q-learning的基础上，为了解决大规模状态空间下的最优策略问题。Mnith etal.[145]提出了DQN算法。在每次迭代过程中，DQN算法利用监督学习方法去逼近值函数Q(s,a；θ)。这种方法是对函数逼近形式(Riedmiller,2005)的扩展。

随着S的不断增大，式(13)的计算会很快变得很麻烦。Google Deepmind提出一个解决方案[146-147]是使用DNNs、

监督训练值函数网络，其中θ_i是第i^th次迭代DNNs的权重，DNNs训练过程中最小化损失函数序列为：

上式(14)中，ρ是状态序列s和动作空间a下的概率分布，损失函数可以理解为

因此式(14)也可以表示为：

上式中(4.15)中，

基于深度神经网络的

总是与Y_i存在误差

损失函数为(15)。通过DNNs的运算和损失函数(15)逼近

可以推导证明近似等于

其收敛性已由压缩映射定义证明。因此，可以进一步证明

DQN利用DNNs去实现Q值函数的迭代，并利用经验重放机制和目标网络构建技术提高算法的稳定性。

目标值

使用指定的网络构建Q(s,a；θ_i-1)，其中θ_i-1为上一时刻的参数。DQN损失函数从经验回放池进行采样，利用随机梯度下降方法求解最小值(SGD)。

§4.3.4K-mean DQN算法

K-mean DQN算法是使用之前学习的K个Q值估计求解当前动作-值估计，其算法的核心是通过减少值函数误差的方法稳定训练过程。与DQN相比，通过Q值网络向前传递次数增加K倍，同时使用DQN损失最小化。算法的输出为过去K个Q值的平均值，计算公式如下。

上式中，Q(s,a；θ_i-K)为i-K时刻的Q值。

图8为DQN与K-mean DQN在Atari game of BREAKOUT的表现。图中结果为7次独立试验的结果，每epoch进行100次实验，算法都采用ε-greed方法，其中ε＝0.05，两个算法的参数都按照Mnih et al.(2015)设置。可以看出，K-mean DQN较DQN具有更高的收益和收敛性。

§4.3.5KGuided-DQN算法

DQN最常见的探索方法利用贪婪策略在动作空间中进行扰动，但这种随机动作方法会导致两种问题：

(1)大多数状态都集中在初始状态中间。

(2)大部分状态空间没有未被访问。

Guided采样的目标是在探索过程中，利用学习到的探索网络，选择具有更高概率到达智能体未出现的状态或稀有状态的动作。原理是在一个给定状态下，通过预测下一个状态来选择动作，并选择使下一个出现的状态不同于已出现的状态的动作。

与文献使用高斯核作为相似度测量的方法不同，本节建议通过概率方法评估一个状态与最近访问状态S_F的稀有性。为了计算简便性和通用性，将过去状态的分布建模成多元高斯分布，以S_F的经验均值和协方差作为参数：

根据该概率分布，算法在探索行为时，将选择出现概率最低的下一个状态。以过去状态作为多元分布的显式建模具有两个优点：

(1)考虑了状态维度之间的相关性。例如：在Mountain Car测试环境中，当汽车处于高处时，具有更好的势能，其出现较高的速度频率较高。

(2)这种方法考虑到了每一个元素的方法，从而无需进行归一化处理。

因此，依据该分布的方法与仅通过欧式距离来计算状态之间的相似性相比，具有更好的探索性。

图9为KGuided-DQN、K-mean-DQN，以及DQN在Enduro游戏中的表现，图中结果为每epoch为1000次实验。可以看出，KGuided-DQN具有更高的收益和收敛性。这是由于Guided采样方法拓展了更多的没有被发现的优质状态空间，增强了算法的全局探索能力，同时K-mean方法使DQN算法的收敛性和全局性进一步加强，仿真结果验证了KGuided-DQN算法的优越性。

§4.4基于KGuided-DQN的最优规避机动动作决策方法结构

本节利用KGuided-DQN方法进行最优规避策略研究，算法建立在连续状态量和离散动作库上。状态量的选择能反映导弹与敌机明确的相对位置关系，并满足回报函数的计算需要。

根据§4.3.3中相对位置计算公式，状态量为

其中，

Δx＝x_t-x_m,Δy＝y_t-y_m,Δz＝z_t-z_m为导弹与敌机之间的相对位置；θ_m为导弹的提前角。离散动作选用§2.2中构建的27种机动动作库。算法每次执行完后，获取敌机下一状态值s_t+1，并根据§3.3回报值。基于KGuided-DQN的敌机规避方法结构如图10所示：

§4.5导弹不可逃逸区求解方法

黄金分割法在求解导弹攻击区问题中具有广泛的应用，本文不再赘述。本节以文献中黄金分割法，结合图11中基于最优规避机动策略的导弹弹道解算逻辑求解导弹不可逃逸区。

采用黄金分割法基于敌机最优规避策略的导弹不可逃逸区解算：

(2)预估初始搜索距离为[a₀,b₀]，计算黄金分割点

(4)如命中目标，令

否则令

b_i＝b_i-1；

所述当a_off及导弹发射倾角

其中

所述状态量为：

§4.6敌机最优规避策略及导弹不可逃逸区仿真分析

为了验证本章提出的KGuided-DQN算法的有效性，以及对导弹攻击区的影响，本节对敌机规避导弹策略和导弹攻击区进行仿真研究，其中导弹攻击区借鉴文献中黄金分割策略。

§4.6.1KGuided-DQN网络参数设置

结合§3.4的KGuided-DQN规避机动动作决策方法，针对状态值

Q网络、目标Q网络、Guided网络的输入层为10个神经元，网络输出层为1个神经元(Q值)，具体网络结构如下表所示：

表1KGuided-DQN算法的超参数设置

表2Q网络、目标Q网络的参数

表3Guided网络的参数

§4.6.2敌机尾追态势下敌机规避策略及攻击区

根据场景设置，双方初始状态信息如下所示：

表4双机初始状态设置

图12(a)导弹追击过程轨迹平滑，导弹只需要6.5秒便击中敌机。图(b)从可以看出，在仿真开始后，敌机开始做大机动向下持续俯冲的规避机动，尽可能增大导弹提前角，但由于相对距离太近，到9.8s时导弹击中敌机，回报值为207.96。从实验结果证明逃逸策略是具有效果的。

KGuided-DQN训练完成后，利用策略网络决策敌机规避的策略共用时0.872s，完全满足空战实时性需求。算法在训练过程中，每个回合训练1000次，并求平均回报值。从图13回报函数曲线可以得出，由于敌机对环境从零开始进行试错，刚开始对环境的认知为零，回报值处于较低的状态。但由于导弹制导方式是固定的，强化学习只需要对敌机27中机动动作进行组合，经过300epoch，敌机规避策略便达收敛到最优。

从图14中可以看出，导弹尾追情况下，敌机的攻击区处于对称的分布。(a)中敌机一直处于匀速直线运动状态，攻击区的计算结果远近边界都很平滑。(b)是基于敌机最优规避策略的导弹攻击区。红色区域为可攻击区，绿色为攻击区近界，红色圆圈为攻击区远界，两侧黑色连线为攻击区侧向边界。(b)相比于(a)，攻击区范围明显减少，这是因此敌机规避过程中，不断增大相对距离或角度，增加了敌机规避的时间和导弹的控制难度，因此(b)为不可逃逸区，这与实际相符。计算时间为192.27s。

§4.6.3侧向攻击下敌机规避策略及攻击区

导弹在发射时刻，导弹正对敌机的侧方，初始状态下表

表5双机初始状态设置

从图15(b)可知，仿真开始时导弹指向敌机，敌机首先左转弯和爬升，减少与敌机的相对速度差，增加其相对距离。到9.2s时，高度到11083m，改加速平飞，到13.9s时，突然开始爬升，最终使在导弹控制时间内没有达到战斗部毁伤条件，导弹脱靶，回报值为341.23。比照组，导弹只用了8.2秒将敌机击落，证明了规避决策是有效的，可以成功规避导弹攻击。

图16为本次敌机规避导弹训练的回报值变化曲线，导弹侧向的敌机规避决策网络是在§4.3.5.2尾追基础上叠加进行训练的，从图中可以看出，在初始阶段，回报值较尾追情况下更高，且上升趋势更明显，这是由于在尾追情况下，网络对不同状态下都已经进行了探索，说明了KGuided-DQN决策网络的可扩展性。经过100epoch，每epoch为100次的训练，敌机规避策略回报函数收敛。

从图17可知，当敌机位于导弹离轴发射角为0-60°内，导弹侧向攻击敌机时，敌机进入角较大，导弹与敌机之间相对速度差较小，因此导弹攻击区远界明显大于尾追攻击。(b)相对于(a)在敌机最优规避策略下，导弹攻击区明显减少，此区域为不可逃逸区，计算用时220.93s。

§5基于K-SAE-SVM的导弹攻击区拟合

UCAV在近距空战中，双方态势剧烈变化，战机稍纵即逝，因此不可逃逸区解算的实时性至关重要。从§4.3.6中可知，基于敌机最优逃逸策略的导弹不可逃逸区计算复杂，解算时间大约200s左右，完全无法满足UCAV的空战需要。深度网络训练完成后具有非常好实时性。本节提出利用K-稀疏自编码结合SVM构建导弹不可逃逸区的快速解算网络。

§5.1K-稀疏自编码网络：自编码网络(Auto Encoder，AE)是一种无监督算法，其过程分编码和解码过程，两部分网络对称分布，其特点是将高维数据进行降维处理，实现对输入数据的重构，在编码-解码的过程中，隐藏层学习源数据最完整特征，已在预测和分类中都有较好的应用效果。其编码和解码可描述为：

h₁＝σ_e(W₁x+b₁) (25)

y＝σ_d(W₂h₁+b₂) (26)

上式(25)和(26)中，W₁、b₁为编码层的权重、偏置值。W₂、b₂为解码层的权重、偏置值。σ_e,σ_d为各层神经网络的非线性变换函数。自编码的输入应等于输出，因此，损失函数为最小化输入与输出之间的误差：

自编码的编码过程相当于对输入数据以一种确定方式进行映射，完成输入数据的凝练表达。解码过程则是将凝练表达的信息重新还原为原始输入信息。因此，在这个隐藏-还原的过程中，损失函数还可以表达为：

从上(28)式中可以看出，损失函数的计算只与输入、输出函数有关，无需传统神经网络的标签数据。因此，自编码网络是一种无监督学习，如18图所示。

基于§3.4中敌机最优规避中状态信息

导弹不可逃逸区的数据样本库为这10个输入量，输出为边界[R_min,R_max]。

高维稀疏隐藏层进行特征提取时的效果更好，因此K-稀疏自编码(K-SparseAutoencoder,K-SAE)网络对隐藏层进行稀疏性限制。K-稀疏自编码网络具有线性搜索功能和约束权重的功能。在前馈阶段，首先计算隐藏层所有的z＝Wx+b，利用Relu或者其他算法，选择其中值最大的K个神经元，其它均设为0，这个过程可视为正则化，防止在网络重构过程中过多的神经元造成不利影响。

当对网络进行测试时，根据文献中提出的训练和测试的网络不完全相等时，自编码网络会获取更好的效果。因此，在测试解算，隐藏层将激活前ρK个最大神经元，其中ρ≥1。

§5.2SVM：支持向量机是1995年基于统计学理论提出，可解决分类和回归预测问题。针对非线性问题，通过引入核函数，可将低维度数据映射到高维度空间，通过在高维度空间内求解最优回归平面，使数据集与最优回归平面距离最近。当输入数据为{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}。回归平面函数为：

f(x)＝ω·x+b (29)

上式(4.29)中，ω为权重，b为偏置。

根据最优化理论，f(x)可转化为求解最小值ω，则根据凸优化理论：

s.t.y_i-ωx_i-b≤ε+ξ_i

上式(30)利用对偶理论，转换为二次规划问题，建立拉格朗日方程：

当ω,b,ξ_i,

偏导都为0，则上式(32)为：

根据Karush-Kuhn-Tucker(KKT)定理，对上式(4.33)进一步优化可得到：

导弹攻击区求解是一个多维问题，因此上式还需进入核函数，将低维度数据映射到高维度空间内，因此高维度回归函数为：

上式(35)中，k(x_i,x)为核函数。

径向基核函数具有非线性映射，却参数较少，因此本节选用径向基核函数，其公式为：

§5.3构建K-SAE-SVM导弹攻击区拟合模型

K-SAE-SVM模型的结构如图19，其利用K-SAE对输入的数据进行特征提取，并将提取到的特征作为SVM的输入，利用SVM进行攻击区拟合，输出导弹攻击区边界。

K-SAE-SVM模型的训练过程分为两部分。首先利用K-SAE对输入数据进行特征提取训练，使自编码网络收敛。然后，利用训练完成的K-SAE网络对输入样本进行特征提取，作为SVM的输入进行回归拟合训练，并对整个网络进行微调，网络收敛后，则整个模型可用于对导弹攻击区拟合，如图19所示。

§5.4数据处理

利用§3.6中不可逃逸区设置的状态量参数为自变量，构建导弹不可逃逸区样本库，其中选取敌机的方位角、进入角，及高度这三个因素构建不可逃逸区的样本库，验证K-SAE-SVM网络拟合导弹攻击区的效果。

(1)自变量设置

导弹离轴方位角[-80°，80°]，采样间隔10°，共32组；

进入角选取[-180°，180°]，采样间隔5度，共72组；

敌机高度5、6、7、8、9、10km，共5组。

通过上述设置，可共采样11520组不可逃逸区样本库，其中随机取30％作为测试样本，70％作为训练样本。

(2)数据归一化

为了统一神经网络的输入格式，对所有的输入数据进行归一化处理，消除量纲带来的影响，使所有数据在[0,1]之间。

§5.5模型仿真及分析

§5.5.1网络参数设定：在深度学习领域，对最优网络结构还没有确定的理论支持，本节采用试凑法确定网络结构,其中K-SAE-SVM的Beachsize为3，学习率为0.02，采用均方误差(Mean Square Error,MSE)作为评价函数：

上式(38)中，

为拟合边界和近界，y_max、y_min为真实远界和近界。

根据§4.1中拟合网络的训练方法，每仿真验证都采用控制变量法，最大训练次数为800次，确保实验真实。

§5.5.2特征提取层数的影响

在深度学习领域，网络隐藏层数决定了对原始数据的提取深度，是构建网络中重要的参数。而根据实际问题，网络层数的选择也是各有不同，但通常与输入的数据维度有一定的关系。当网络层数过少时，无法提取到原始数据的深度特征，而网络层数过少时，则容易过拟合，且造成训练时间过长，因此，针对特定问题，网络层数的选择需要统筹误差与效率。

如图20所示，随着K-SAE特征提取层增加，误差并没有一味提高，其中当层数为2时，误差最小，学习效率最高。这是由于导弹不可逃逸区输入维度为10，相对其他图像处理领域的维度较小，通过2个特征提取层，已可以完全提取数据特征，再增加网络层数，并不能提高特征提取能力，而且层层累计误差，反而导致误差变大。综合此，K-SAE网络的最佳层数为2层。

§5.5.3隐藏层节点数

在网络构建中，特征提取层节点的数量也是影响网络性能重要的因素。当特征提取层节点越多，输入数据将映射到更高维度的空间，有利于提取特征，同时增大训练的难度。特征节点过少，则无法充分表达原始数据。因此，特征提取层的节点设置同样需要因地制宜。

如图21所示，图b的误差最小。通过对比图(a)与图(b)可以得出，并不是特征提取层节点数越多，对输入数据提取精度越高，反而节点数增大，提高了误差，并造成了过拟合现象，导致测试误差与训练误差存在较大差距。图(b)与图(c)可见，特征提取层节点的数量过少，同样会提高误差，这是节点数过小，无法提取到输入数据的深层特征，经过两层网络误差叠加，导致误差升高，不利于特征提取。因此，综合比较，K-SAE网络的特征提取层节点数分别为50、20个。

§5.5.4K值选取

稀疏自编码网络具有更好的特征提取性能。当K值过大，则导致稀疏性不够，网络容易过拟合，且增加计算负担。当K值过小，则可能带来与特征提取层节点过少相同的问题，导致误差变大。因此采用试凑法确定K值，考虑到两层特征提取层，K值的分别取各层数节点数量的60％，40％，20％。

如图22所示，图(b)的误差最小。通过横向对比三种取值，50％的取值有利于提高精度，降低过拟合风险。综合比较，K值分别为20、8。

§5.5.5不同网络的拟合效果

为了验证本发明提出的K-SAE-SVM对导弹不可逃逸区的拟合能力，仿真实验引入SVM、与BP神经网络两种拟合方法，分析三种方法拟合攻击区远近界时的测试集误差。为了避免出现偶然情况，三种方法的误差均取30次平均值，结果如图23-25所示。

图23为SVM算法拟合误差，其中远界为112.37m，近界为126.41m；图24为BP算法拟合误差，其中远界为60.37m，近界为135.73m。图4.25为K-SAE-SVM算法拟合误差，其中远界为22.18m，近界为23.81m。从结果可以得出所有算法的远界误差普遍小于近界，K-SAE-SVM算法的精度最高。这是因此远界在网络误差反向传导时误差值幅度较大，对网络调整具有较强的指向性，而近界由于误差值过小，传播过程中对网络调整作用性不强。通过对比SVM与K-SAE-SVM说明，原始数据特征提取对数据回归拟合具有显著作用，也证明了K-SAE方法的有效性。

以上所有实验网络构建中输出为2维，即攻击区的远近界。为了探索不同网络输入维度对精度的影响，本节本仿真实验组K-SAE-SVM内，将算法输出改为1维，即单独拟合攻击区远界或近界。其他实验条件不变。

从图26中可以看出，较图25，K-SAE-SVM的拟合精度得到了明显的提升，达到了10^-7数量级。远近界误差分别提高到1.81m和25.57m。从结果中证明，针对回归拟合问题，在同样输入维度的情况下，输出维度越少，越有利于网络参数对某一问题进行针对性调整。

综合以上实验结果，最终本节K-SAE-SVM的网络结构为2层网络；特征提取节点分别为50、20；K值分别为20、4；网络输出为1维，针对远近界训练专用网络。

图28为攻击区拟合图，此结果是利用本节构建的K-SAE-SVM模型，分别对攻击区远界和近界的拟合网络，从图中可以看出，本节提出的算法，与攻击区的远近界误差保持在[0,40]范围内，完全满足UCAV空战需求。