CN115903865A

CN115903865A - 一种飞行器近距空战机动决策实现方法

Info

Publication number: CN115903865A
Application number: CN202211126397.XA
Authority: CN
Inventors: 章胜; 黄江涛; 杜昕; 周攀; 何扬; 贾怀智; 唐骥罡; 钟世东; 单恩光; 陈宪; 余龙舟; 雷鹏轩; 朱许; 周晓雨
Original assignee: Institute of Aerospace Technology of China Aerodynamics Research and Development Center
Current assignee: Institute of Aerospace Technology of China Aerodynamics Research and Development Center
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2023-04-04

Abstract

本发明属于飞行器空战机动决策技术领域，公开了一种飞行器近距空战机动决策实现方法，方法架构包括机动决策层、运动控制层和被控对象层；确定近距空战对抗任务后，飞行器在机动决策层通过近距空战对抗机动决策机，在传感器设备与后端指挥控制系统的信息支援下，综合敌我双方状态信息，输出飞行器机动的航迹导引指令；在运动控制层，根据决策机给出的航迹指令，通过跟踪控制器最终输出气动舵面控制指令与发动机油门控制指令，驱动飞行器进行机动，占据优势地位，达到目标锁定与武器发射条件，实现有效消灭对方、同时保存自身的作战目的；本发明有效消除了理论模型与实际对象间误差带来的不利影响，确保了近距空战对抗中决策的品质。

Description

一种飞行器近距空战机动决策实现方法

技术领域

本发明涉及飞行器空战机动决策技术领域，具体为一种飞行器近距空战机动决策实现方法。

背景技术

现代空战中，空战智能决策将极大地改变战争的形态与模式，是世界各国竞相发展的技术前沿高地。空战智能决策模拟作战飞行员在各种空战态势下对飞行器操纵的决策，它是作战飞行器的“灵魂”和“大脑”。战场中具有决策能力的智能无人机可以更好地取得对抗主动权，它不仅在反应速度上快于人类，不用考虑飞行中的人类生理极限，而且其超算能力还可以更加准确地预测战斗态势的发展变化。但飞行器空战对抗问题十分复杂，具有高动态、强实时的特征与更大规模的状态空间，这些特点给空战博弈智能决策实现提出了巨大的挑战。根据交战范围，空战可划分为近距空战、中距空战和远距空战。虽然随着空基武器的不断发展，空战战场已从近距拓展到中远距，但随着飞行器隐身以及电子对抗技术的进步，未来仍有25％～40％的空战会在近距展开，因此近距空战的研究仍具有重要意义。近距空战中，飞行器需要做大量战术机动以规避敌机并构成武器发射条件，机动决策是近距空战决策的基础，也是近距空战智能决策研究中需要解决的关键问题。

国内外学者在空战机动决策领域开展了大量研究，国外学者开发的基于模糊树的“Alpha空战”系统在模拟空战中成功击败了拥有丰富经验的飞行员，引起世人广泛关注；在美国DAPPA举办的“AlphaDogfight”人机空战对抗赛中，苍鹭公司设计的基于深度强化学习的空战智能决策机以5:0完胜人类飞行员，更是吸引了全球各国的目光。在算法研究蓬勃开展的同时，以美国为代表的西方国家还大力推进空战智能决策从软件算法研究到工程技术实现的发展。比如在空战演进(Air Combat Evolution，ACE)项目的支持下，苍鹭公司已经开展了将人工智能系统整合到L-39“信天翁”喷气式飞机的研究，据报道目前已开展了70多次飞行试验。国内学者也开展了空战机动智能决策算法的大量研究，并进行了数值仿真验证。相较于国外，目前国内在空战决策工程实现方面的研究相对较少，许多决策机研究工作主要通过仿真进行验证，而如何将先进的理论算法研究与可靠的工程技术实现相结合，是推进空战智能决策技术落地应用中亟需解决的重要问题。

另一方面，经过多年的发展，飞行器空战机动决策已经发展形成了多种不同的实现方法，比如基于博弈理论的方法，又或者基于人工智能的方法等。不同决策方法给出的指令存在一定的区别，比如专家系统可能给出的是飞行器机动动作库中的标称机动动作，神经网络决策系统则可能直接给出飞行器舵偏层次的控制指令。因此，具体工程实现时，不同的决策系统带来了不同的实现方式，同时，对于在飞行器模型基础上获得的决策机，如强化学习决策机，直接利用决策机输出的动作指令达到期望的机动效果对建模的准确性要求较高，由于实际对象与模型之间总是存在一定的误差，可能会导致决策品质降低。

发明内容

本发明的目的是提供一种飞行器近距空战机动决策实现方法，本发明采用基于航迹导引指令的机动控制方案，即决策系统给出的指令最终将通过一定的方式转化为航迹导引指令，然后再由飞行器的控制器进行跟踪，从而消除理论模型与实际对象间误差带来的不利影响。

为了实现上述目的，本发明提供如下技术方案：

一种飞行器近距空战机动决策实现方法，包括机动决策层、运动控制层和被控对象层；在确定近距空战对抗任务后，飞行器在所述机动决策层根据近距空战对抗机动决策机，在机载雷达等传感器设备与后端指挥控制系统的信息支援下，综合敌我双方状态信息，决策机输出飞行器机动的航迹导引指令；在所述运动控制层，飞行器的跟踪控制器实现决策机给出的航迹指令，并根据该指令输出气动舵面控制指令与发动机油门控制指令，驱动所述被控对象层的飞行器进行机动，占据近距空战对抗中的优势地位，达到目标锁定与武器发射条件，实现有效消灭对方、同时保存自身的作战目的；

其中，所述决策机输出飞行器机动航迹导引指令的方法为：

对飞行器运动进行建模，根据飞行器的运动，建立飞行器的运动动力学模型；

基于一定算法进行决策机设计，通过机载传感器或后端指挥控制系统支援获得空战中对方飞行器的位置、速度信息，根据该信息并综合自身状态信息得到双机近距空战博弈问题的最优动作指令，最后将最优动作指令转换为航迹高度指令、速度幅值指令与滚转指令，即为决策机输出飞行器机动的航迹导引指令；

所述跟踪控制器对航迹指令的实现方法为：

根据决策机输出的机动航迹导引指令，设计适当的飞行器航迹控制器进行跟踪，得到高度控制、速度控制与滚转控制增益，通过配合滚转角实现协调转弯求得的指令偏航角速度，得到跟踪控制器实现决策机输出的机动航迹指令。

进一步地，所述决策机设计算法采用基于态势评估的方法或深度强化学习方法。

进一步地，飞行器的运动包括质心三自由度运动，其航迹层次的运动动力学方程为：

式中，r＝[x y h]^T为飞行器在地面坐标系下的位置矢量，x与y分别代表横坐标与纵坐标，h为高度，v＝[Vcosγcosχ Vcosγsinχ Vsinγ]^T为飞行器在地面坐标下系下的速度矢量，V为速度幅值，χ为航迹方位角，γ为航迹倾角，F为飞机上受到的所有外力，包括气动力、发动机推力与地球重力，m为飞机质量，上标“T”代表转置符号；根据运动学关系，可以写为：

由于飞行器推力沿着机体系的x轴方向，在假设飞行器侧滑角为零的前提下，变量V、χ与γ的微分方程为：

式中，α为迎角，μ为速度滚转角，为发动机油门，T为发动机推力，T_max为发动机最大推力，它是高度与马赫数的函数，g为重力加速度，D＝QSC_D与L＝QSC_L分别为飞行器受到的阻力与升力，S为飞机参考面积，为动压，ρ为大气密度，C_D与C_L分别为飞行器的阻力系数与升力系数，不考虑舵面偏角与侧滑角的影响，C_D与C_L是迎角的函数，可以分别写为C_D＝C_D(α)与C_L＝C_L(α)；综上，飞行器外环航迹运动模型中，状态量为：

X＝[x y h V γ χ]^T；

控制量为：

U＝[α η μ]^T；

对于完全信息博弈问题，根据博弈理论，一定的态势对应一定的最优价值函数与最优策略，理论上该最优策略可以数值求解得到；由于基于机器搜索的优化算法难以处理连续动作问题，为方便算法求解，将飞行器的动作U＝[αημ]^T进行离散得到针对离散动作问题，构建博弈搜索树，采用Minimax算法进行求解；同时，为保证算法的实时性，在一定的搜索深度后进行截断，通过截断状态飞行器的对抗态势信息，评估空战期间的态势优势，进而得到当前最优动作；

对近距空战的飞行器动态因素进行评估，通过考虑双方的位置与速度，建立自身相对于对方的攻击角度优势评估函数速度优势评估函数f_V、高度优势评估函数f_h和距离优势评估函数f_D，实现对空战对抗态势的量化，引入权重参数ω_V、ω_h和ω_D，最终的态势评估函数为：

开展基于态势评估的最优动作指令计算，假设预测时间步数为N，每一个时间步长为Δt，通过红蓝双机不断动作决策建立搜索树；对于第一个时间步Δt的预测计算，首先红机基于离散动作集合中所有可行动作与当前状态通过数值积分计算t+Δt时刻的状态在该时间段Δt期间假设蓝机一直保持当前飞行速度同样采用数值积分得到蓝机在t+Δt时刻的状态对于t+2Δt时刻的预测计算，则假设红机保持当前飞行速度数值积分计算红机在t+2Δt时刻的状态蓝机则根据可行离散动作与状态数值积分得到蓝机在t+2Δt时刻的状态依此计算不断扩展搜索树，直至得到t+NΔt时刻的状态与然后计算红机的对抗态势评估函数值与蓝机的对抗态势评估函数值按k＝N,N-1,...,1顺序对搜索树进行回溯，当k为奇数时候，由红机根据f^R进行极大化选择，当k为偶数的时候，由蓝机根据f^B进行极小化选择，直至当k＝1时候，红机得到具有最大态势优势的动作指令然后将计算得到的最优动作指令转换为航迹高度指令与速度幅值指令具体通过积分得到：

最后，得到决策机输出飞行器机动的航迹导引指令为：

进一步地，在所述决策机输出飞行器机动航迹导引指令的方法中，可以采用深度强化学习方法得到决策指令，即为一种基于深度强化学习的航迹导引指令计算方法，建立飞行器外环航迹运动动力学模型，方程为：

模型中，状态量为

X＝[x y h V γ χ]^T；

控制量为

U＝[α η μ]^T；

在获得飞行器完备的升力模型、阻力模型和推力模型的基础上，基于深度强化学习算法，构建基于态势评估函数的奖励函数，搭建准确可信的双机近距空战环境模型对飞行器近距空战机动智能决策机进行训练，最终基于习得的深度神经网络决策机，根据当前时刻t红机、蓝机的状态，得到红机的最优动作指令然后将计算得到的最优动作指令转换为航迹高度指令与速度幅值指令具体通过积分得到：

最后，得到决策机输出飞行器机动的航迹导引指令为：

进一步地，在所述决策机输出飞行器机动航迹导引指令的方法中，为提高准确性，可以建立飞行器的六自由度运动模型，然后计算机动航迹导引指令，飞行器六自由度模型包括外环质心运动模型与内环姿态运动模型，质心运动模型：

其中，变量V、χ与γ的微分方程需要考虑侧滑角β，为：

式中，Y＝QSC_Y为飞行器受到的侧力，C_Y为侧力系数；

姿态运动模型为：

式中，q＝[q₀ q₁ q₂ q₃]^T为姿态四元数，ω＝[p q r]^T为飞机体系下表示的角速度矢量，I为飞行器惯量张量，l_a＝QSbC_l、m_a＝QScC_m与n_a＝QSbC_n分别为飞机受到的滚转、俯仰与偏航力矩，b、c分别为飞行器横向参考长度(翼展)和纵向参考长度(平均空气动力弦长)，C_l、C_m与C_n分别是滚转力矩系数、俯仰力矩系数与偏航力矩系数；

气动力系数与气动力矩系数为迎角α、侧滑角β与舵偏角的函数，为：

式中，δ_e、δ_a、δ_r分别为升降舵、副翼、方向舵，C^s _l、C^s _m、C^s _n表示静态气动力矩系数，C_lp、C_lr、C_mq、C_np、C_nr为动导数；

飞行器六自由度模型中，迎角α、侧滑角β与速度滚转角μ通过姿态四元数q以及航迹倾角γ、方位角χ之间关系计算得到；综上，状态量为：

X＝[x y h V γ χ q₀ q₁ q₂ q₃ p q r]^T，

控制量为：

U＝[δ_e δ_a δ_r η]^T；

在建立的飞行器六自由度模型基础上，开展基于机器搜索的最优动作指令计算，将飞行器的动作U＝[δ_e δ_a δ_r η]^T进行离散得到针对离散动作问题，构建博弈搜索树，采用Minimax算法进行求解；同时，为保证算法的实时性，在一定的搜索深度后进行截断，针对截断状态飞行器的对抗态势信息以及本体状态信息进行评估，此处的评估函数为态势评估函数以及本体状态评估函数之和，分别为：

g＝ω_αg_α+ω_βg_β；

函数g_α、g_β分别与迎角、侧滑角相关，当迎角、侧滑角增大时其值减小，ω_α、ω_β为相应的权重参数；进而得到红机在当前时刻t的最优动作指令然后基于得到的最优动作指令数值积分计算航迹高度指令速度幅值指令与速度滚转角指令最后，得到决策机输出飞行器机动的航迹导引指令为：

进一步地，在所述决策机输出飞行器机动航迹导引指令的方法中，可以建立飞行器六自由度模型，其中飞行器的状态变量与控制变量分别为：

X＝[x y h V γ χ q₀ q₁ q₂ q₃ p q r]^T，

U＝[δ_e δ_a δ_r η]^T；

构建基于态势评估函数与本体状态评估函数的奖励函数，采用深度强化学习方法得到机动智能决策机，最终基于习得的深度神经网络决策机，根据当前时刻t红机、蓝机的状态，得到红机的最优动作指令：然后基于得到的最优动作指令数值积分计算航迹高度指令速度幅值指令与速度滚转角指令最后，得到决策机输出飞行器机动的航迹导引指令为：

进一步地，控制器的设计采用经典的PID方法：

对于高度指令h_cmd，通过升降舵δ_e进行调节，控制律为：

δ_e＝-k_qq-k_θ(θ-θ_cmd)；

式中，q为无人机俯仰角速度，θ为无人机俯仰角，θ_cmd为俯仰角指令，k_q与k_θ为相应的比例控制增益，俯仰角指令θ_cmd计算为：

式中，h为无人机高度，V_z为无人机纵向速度，k_h与分别为高度控制与纵向速度控制的比例增益，k_ih为高度控制的积分增益；

对于速度指令V_cmd，通过油门η进行调节，速度控制律为：

η＝-k_pV(V-V_cmd)-k_iV∫(V-V_cmd)dt；

式中，V为无人机速度幅值，k_pV与k_iV是相应的比例与积分控制增益；

当无人机侧滑角β＝0时候，无人机的速度滚转角μ与滚转角φ十分接近，在无人机侧滑角很小的情况下，μ与φ两者差别很小；因此，对于速度滚转角指令μ_cmd，直接采用对滚转角进行控制的方式予以实现，滚转角指令取为φ_cmd＝μ_cmd，通过副翼δ_a进行控制，无人机滚转角控制律为：

δ_a＝k_pp+k_pφ(φ-φ_cmd)+k_iφ∫(φ-φ_cmd)dt；

式中，p为无人机滚转角速度，k_p、k_pφ为相应变量的比例控制增益，k_iφ为积分控制增益；

此外，将飞行器方向舵δ_r用于偏航速率阻尼、侧滑消除与协调转弯，其控制律为：

δ_r＝k_r(r-r_cmd)-k_ββ-k_rφφ；

式中，r为无人机偏航角速度，k_r、k_β、k_rφ为相应变量的比例控制增益，r_cmd为通过配合滚转角实现协调转弯求得的指令偏航角速度；

由上，使得跟踪控制器实现航迹指令。

进一步地，决策机的设计可结合飞行器控制律进行计算，从而得到更能准确反映飞行器运动特性的指令；具体通过建立飞行器六自由度运动模型，然后考虑针对升降舵、副翼、方向舵与油门的PID控制律，此时决策指令直接取为航迹指令，包括高度指令h_c、速度幅值指令V_c与速度滚转角指令μ_c；开展基于机器搜索的最优动作指令计算，将指令[h_c V_c μ_c]^T进行离散得到针对离散动作问题，构建博弈搜索树，采用Minimax算法进行求解；同时，为保证算法的实时性，在一定的搜索深度后进行截断，针对截断状态飞行器的对抗态势信息以及本体状态信息进行评估，此处的评估函数包括态势评估函数以及本体状态评估函数，分别为：

g＝ω_αg_α+ω_βg_β；

进而得到红机在当前时刻t的最优航迹指令最后，得到决策机输出飞行器机动的航迹导引指令为：

进一步地，在所述决策机输出飞行器机动航迹导引指令的方法中，针对离散动作构建搜索树时，可采用无损的Alpha-Beta剪值算法来提高计算效率。

技术方案的有益效果是：

1.本发明采用基于航迹导引指令的机动控制方案，即决策系统给出的指令最终将通过一定的方式转化为航迹导引指令，然后再由飞行器的控制器进行跟踪，从而有效消除理论模型与实际对象间误差带来的不利影响，确保决策的品质；

2.本专利提出了一种便于工程应用的飞行器近距空战机动决策实现方法，它将近距空战机动实现分为三个层次，在工程实现方面具有一定的灵活性，可以支持具有相似功能的不同的算法运行，同时专利采用针对航迹指令的控制方案，得益于成熟的控制技术，由此获得的机动决策及控制方法具有更高的可靠性，可以有效消除理论模型与实际对象间误差带来的不利影响。

附图说明

图1为本发明一种飞行器近距空战机动决策及控制系统架构图；

图2为本发明实施例中红蓝双机近距空战对抗试验场景图；

图3为本发明实施例中近距空战对抗试验中红蓝双机的高度曲线图；

图4为本发明实施例中近距空战对抗试验中双方的态势评估结果图；

图5为本发明实施例中红机高度导引指令与实际高度曲线图；

图6为本发明实施例中红机速度导引指令与实际速度曲线图；

图7为本发明实施例中红机滚转角指令与实际滚转角曲线图。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明：

实施例1：

如图1所示，一种飞行器近距空战机动决策实现方法，机动决策包括机动决策层、运动控制层和被控对象层；确定近距空战对抗任务后，飞行器将在第3层的机动决策层根据近距空战对抗机动决策机，在机载雷达等传感器设备与后端指挥控制系统的信息支援下，综合敌我双方状态信息，决策机输出飞行器机动的航迹导引指令；在第2层的运动控制层，飞行器的跟踪控制器将实现决策机给出的航迹指令，并最终输出气动舵面控制指令与发动机油门控制指令，驱动第1层的被控对象层的飞行器进行机动，占据近距空战对抗中的优势地位，达到目标锁定与武器发射条件，实现有效消灭对方、同时保存自身的作战目的。

其中，决策机输出飞行器机动航迹导引指令的方法为：

进行飞行器运动建模，考虑飞行器的三自由度运动，其航迹层次的运动动力学方程为：

由于飞行器推力一般沿着机体系的x轴方向，在假设飞行器侧滑角为零的前提下，变量V、χ与γ的微分方程为：

式中，α为迎角，μ为速度滚转角，为发动机油门，T为发动机推力，T_max为发动机最大推力，它是高度与马赫数的函数，g为重力加速度，D＝QSC_D与L＝QSC_L分别为飞行器受到的阻力与升力，S为飞机参考面积，为动压，ρ为大气密度，C_D与C_L分别为飞行器的阻力系数与升力系数，不考虑舵面偏角与侧滑角的影响，C_D与C_L是迎角的函数，可以分别写为C_D＝C_D(α)与C_L＝C_L(α)；综上，飞行器外环航迹模型中，状态量为X＝[x y h V γ χ]^T，控制量为U＝[α η μ]^T；

进行基于态势评估的决策机设计，假设空战中对方飞行器的位置、速度信息可以通过机载传感器或后端指挥控制系统支援获得，因此对航迹运动层次而言，可以认为双机近距空战为完全信息博弈问题；对于完全信息博弈问题，根据博弈理论，一定的态势对应一定的最优价值函数与最优策略，理论上该最优策略可以数值求解得到；由于基于机器搜索的优化算法难以处理连续动作问题，为方便算法求解，将飞行器的动作U＝[αημ]^T进行离散得到针对离散动作问题，采用Minimax算法进行求解；同时，为保证算法的实时性，在一定的搜索深度后进行截断，通过截断状态飞行器的对抗态势信息，评估空战期间的态势优势，进而得到当前最优动作；

开展基于态势评估的最优动作指令计算，取N＝1，即仅进行一个时间步Δt的预测计算，对于红机，给定当前指令与状态积分计算下一时刻的状态采用改进的欧拉积分，根据飞行器航迹动力学方程计算为：

在该时间段Δt期间假设蓝机一直保持当前飞行速度仍然采用欧拉积分，可以得到蓝机下一时刻的状态为：

得到与后，根据计算红机的对抗态势评估函数通过比较离散动作集合中所有可行动作执行后对应的态势函数值，得到具有最大态势优势的动作指令然后将计算得到的最优动作指令转换为航迹高度指令与速度幅值指令具体通过积分得到：

最后，得到决策机输出飞行器机动的航迹导引指令为：

跟踪控制器对航迹指令的实现方法为：

根据决策机输出的机动航迹导引指令，设计飞行器控制器进行跟踪，控制器的设计采用经典的PID方法：

对于高度指令h_cmd，通过升降舵δ_e进行调节，控制律为：

δ_e＝-k_qq-k_θ(θ-θ_cmd)；

对于速度指令V_cmd，通过油门η进行调节，速度控制律为：

η＝-k_pV(V-V_cmd)-k_iV∫(V-V_cmd)dt；

δ_a＝k_pp+k_pφ(φ-φ_cmd)+k_iφ∫(φ-φ_cmd)dt；

δ_r＝k_r(r-r_cmd)-k_ββ-k_rφφ；

式中，r为无人机偏航角速度，k_r、k_β、k_rφ为相应变量的比例控制增益，r_cmd为通过配合滚转角实现协调转弯求得的指令偏航角速度，由此使得跟踪控制器实现航迹指令。

采用上述设计的基于态势评估的空战机动决策机与航迹指令跟踪控制律，开展智能无人机(红机)与人类“飞行员”遥控操控无人机(蓝机)的双机对抗飞行演示验证试验；两架无人机均采用Defender 180模型飞机，该飞机质量为2.8kg，翼展为180cm，参考面积为0.456，最大推力为T_max＝13.2N，气动力模型根据CFD方法计算得到。

由于决策计算对计算资源消耗很大，其中涉及到大量的循环计算，传统飞控计算机的性能可能无法满足要求，同时，为了增强智能决策机方案实现的灵活性，本实施例对智能无人机采用了”飞控计算机+外置决策计算机”的双硬件模式，其中飞控计算机采用使用PixHawk雷迅V5+飞控硬件，决策机采用NVIDIAJexton TX2嵌入式计算机。此外，GPS/Compass模块安装在飞行器顶部，通过CAN总线与飞控连接通讯。雷迅P900数传天线安装在飞行器顶部，通过串口与飞控连接通讯。对于人类“飞行员”遥控的蓝机，它采用PixHawk雷迅V5+飞控硬件，其余设备与红机一致。

试验中，为了使红机能实时获得蓝机的航迹数据，包括位置与速度，蓝机通过雷迅P900数传不断向红机发送自己的位置与速度信息。红机数传天线接收到相关信息后，先发送到飞控计算机，然后再由飞控计算机转发到决策计算机，决策计算机计算得到相应的机动航迹导引指令，最后再回传给飞控计算机，飞控计算机收到航迹导引指令后，通过飞行控制律实现相应指令，输出油门与舵偏控制指令，驱动无人机进行机动飞行。

飞机起飞后，从大约38.5s开始进行试验，对抗初始阶段，红机首先取得了态势优势，人类“飞行员”为摆脱智能机的攻击，操纵蓝机迅速进行机动转弯，红机针对蓝机动作进行相应机动，对抗试验期间(大约[38.5,159.5]s)始终在总体上处于优势态势。

如图2至图7所示：

图2给出了试验对抗中某个时刻的场景，此时红机正在进行转弯机动以对蓝机形成追击态势；

图3给出了试验期间红蓝双机的高度曲线，从图中可以看到，在空战对抗试验大约121秒的时间段中，红蓝双方不断交替变换高度进行缠斗；

图4给出了对抗期间红蓝双机的态势曲线，红机总体处于优势，它在对抗中能够迅速作出有利于己方的动作决策，通过机动占据对抗优势；

图5至图7给出了红机决策机给出的机动航迹导引指令与飞行器的实际状态曲线；其中图5给出了对抗过程中的红机高度指令跟踪曲线；图6给出了速度指令跟踪曲线，图7给出了滚转角跟踪曲线，从这些图中可以看到，飞行控制律工作良好，准确实现了决策机给出的航迹导引指令。

在本发明的上述实施例中，上述用于决策机设计的基于态势评估的方法还可以采用与其等同替换的深度强化学习等智能算法的设计方案。例如，决策机的实现采用深度强化学习技术，通过深度神经网络对决策机进行建模与训练，决策机可以基于飞行器三自由度模型的仿真环境进行开发，也可以基于飞行器六自由度模型的仿真环境进行训练，同时最终得到的指令也需要通过数值积分等手段转化为机动航迹导引指令。

并且，近距空中任务场景中，根据飞行器近距空战机动决策机的能力，除1vs 1的双机近距空战外，近距空战任务还可以包括多机场景，如2vs 1，2vs 2等场景。

在上述实施例中，上述基于态势评估的决策机设计及PID控制仅为本发明方案的其中的一个实现方式，用以说明本发明中实现决策控制的3层架构具有较好的灵活性与通用性。决策机的具体实现方式还可采用与上述实施例等同的实现方式。控制器的设计实现方式也有多种，本申请上述实施例仅以一种基于博弈理论的机器搜索方法以及PID控制为例，针对1vs 1双机近距空战场景，介绍飞行器近距空战机动决策实现。

以上所述的仅是本发明的实施例，方案中公知的具体技术方案或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明技术方案的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种飞行器近距空战机动决策实现方法，其特征在于：包括机动决策层、运动控制层和被控对象层；在确定近距空战对抗任务后，飞行器在所述机动决策层根据近距空战对抗机动决策机，在机载雷达等传感器设备与后端指挥控制系统的信息支援下，综合敌我双方状态信息，决策机输出飞行器机动的航迹导引指令；在所述运动控制层，飞行器的跟踪控制器实现决策机给出的航迹指令，并根据该指令输出气动舵面控制指令与发动机油门控制指令，驱动所述被控对象层的飞行器进行机动，占据近距空战对抗中的优势地位，达到目标锁定与武器发射条件，实现有效消灭对方、同时保存自身的作战目的；

其中，所述决策机输出飞行器机动航迹导引指令的方法为：

所述跟踪控制器对航迹指令的实现方法为：

2.根据权利要求1所述的一种飞行器近距空战机动决策实现方法，其特征在于：所述决策机设计算法采用基于态势评估的方法或深度强化学习方法。

3.根据权利要求1所述的一种飞行器近距空战机动决策实现方法，其特征在于：飞行器的运动包括质心三自由度运动，其航迹层次的运动动力学方程为：

式中，r＝[x y h]^T为飞行器在地面坐标系下的位置矢量，x与y分别代表横坐标与纵坐标，h为高度，v＝[Vcosγcosχ Vcosγsinχ Vsinγ]^T为飞行器在地面坐标系下的速度矢量，V为速度幅值，χ为航迹方位角，γ为航迹倾角，F为飞机上受到的所有外力，包括气动力、发动机推力与地球重力，m为飞机质量，上标“^T”代表转置符号；根据运动学关系，可以写为：

X＝[x y h Vγχ]^T；

控制量为：

U＝[αημ]^T；

最后，得到决策机输出飞行器机动的航迹导引指令为：

4.根据权利要求1所述的一种飞行器近距空战机动决策实现方法，其特征在于：在所述决策机输出飞行器机动航迹导引指令的方法中，可以采用深度强化学习方法得到决策指令，即为一种基于深度强化学习的航迹导引指令计算方法，建立飞行器外环航迹运动动力学模型，方程为：

模型中，状态量为

X＝[x y h Vγχ]^T；

控制量为

U＝[αημ]^T；

最后，得到决策机输出飞行器机动的航迹导引指令为：

5.根据权利要求1所述的一种飞行器近距空战机动决策实现方法，其特征在于：在所述决策机输出飞行器机动航迹导引指令的方法中，为提高准确性，可以建立飞行器的六自由度运动模型，然后计算机动航迹导引指令，飞行器六自由度模型包括外环质心运动模型与内环姿态运动模型，质心运动模型为：

其中，变量V、χ与γ的微分方程需要考虑侧滑角β，为：

式中，Y＝QSC_Y为飞行器受到的侧力，C_Y为侧力系数；

姿态运动模型为：

式中，q＝[q₀ q₁ q₂ q₃]^T为姿态四元数，ω＝[p q r]^T为飞机体系下表示的角速度矢量，I为飞行器惯量张量，l_a＝QSbC_l、m_a＝QScC_m与n_a＝QSbC_n分别为飞机受到的滚转、俯仰与偏航力矩，C_l、C_m与C_n分别是滚转力矩系数、俯仰力矩系数与偏航力矩系数，b、c分别为飞行器横向参考长度(翼展)和纵向参考长度(平均空气动力弦长)；

X＝[x y h Vγχq₀ q₁ q₂ q₃ p q r]^T，

控制量为：

U＝[δ_eδ_aδ_rη]^T；

在建立的飞行器六自由度运动模型基础上，开展基于机器搜索的最优动作指令计算，将飞行器的动作U＝[δ_eδ_aδ_rη]^T进行离散得到针对离散动作问题，构建博弈搜索树，采用Minimax算法进行求解；同时，为保证算法的实时性，在一定的搜索深度后进行截断，针对截断状态飞行器的对抗态势信息以及本体状态信息进行评估，此处的评估函数为态势评估函数以及本体状态评估函数之和，分别为：

g＝ω_αg_α+ω_βg_β；

6.根据权利要求1所述的一种飞行器近距空战机动决策实现方法，其特征在于：在所述决策机输出飞行器机动航迹导引指令的方法中，可以建立飞行器六自由度运动模型，其中飞行器的状态变量与控制变量分别为：

X＝[x y h Vγχq₀ q₁ q₂ q₃ p q r]^T，

U＝[δ_eδ_aδ_rη]^T；

7.根据权利要求1所述的一种飞行器近距空战机动决策实现方法，其特征在于：控制器的设计采用经典的PID方法：

对于高度指令h_cmd，通过升降舵δ_e进行调节，控制律为：

δ_e＝-k_qq-k_θ(θ-θ_cmd)；

对于速度指令V_cmd，通过油门η进行调节，速度控制律为：

η＝-k_pV(V-V_cmd)-k_iV∫(V-V_cmd)dt；

δ_a＝k_pp+k_pφ(φ-φ_cmd)+k_iφ∫(φ-φ_cmd)dt；

δ_r＝k_r(r-r_cmd)-k_ββ-k_rφφ；

由上，使得跟踪控制器实现航迹指令。

8.根据权利要求1所述的一种飞行器近距空战机动决策实现方法，其特征在于：决策机的设计结合飞行器控制律进行计算，从而得到更能准确反映飞行器运动特性的指令；具体通过建立飞行器六自由度运动模型，然后考虑针对升降舵、副翼、方向舵与油门的PID控制律，此时决策指令直接取为航迹指令，包括高度指令h_c、速度幅值指令V_c与速度滚转角指令μ_c；开展基于机器搜索的最优动作指令计算，将指令[h_c V_c μ_c]^T进行离散得到针对离散动作问题，构建博弈搜索树，采用Minimax算法进行求解；同时，为保证算法的实时性，在一定的搜索深度后进行截断，针对截断状态飞行器的对抗态势信息以及本体状态信息进行评估，此处的评估函数包括态势评估函数以及本体状态评估函数，分别为：

g＝ω_αg_α+ω_βg_β；

9.根据权利要求3、5或8所述的一种飞行器近距空战机动决策实现方法，其特征在于：在所述决策机输出飞行器机动航迹导引指令的方法中，针对离散动作构建搜索树时，可以采用无损的Alpha-Beta剪值算法来提高计算效率。