CN116858039A

CN116858039A - 一种高超声速飞行器博弈制导方法、系统、设备及介质

Info

Publication number: CN116858039A
Application number: CN202310892827.7A
Authority: CN
Inventors: 倪炜霖; 王剑颖; 刘九齐; 梁海朝
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-10
Anticipated expiration: 2043-07-19
Also published as: CN116858039B

Abstract

本发明提供了一种高超声速飞行器博弈制导方法、系统、设备及介质，所述方法包括：根据D3QN算法将飞行器中的防御飞行器和目标飞行器作为智能体，观测当前时刻智能体状态，根据收益函数计算所述当前时刻智能体状态的动作空间中各个动作的价值，所述飞行器还包括拦截飞行器；根据所述各个动作的价值通过ε‑greedy算法从所述动作空间中选择智能体动作；将所述智能体动作输入训练环境，得到下一时刻智能体状态，所述训练环境包括飞行器动力学模型和主动防御博弈场景运动学模型。本发明能够提高飞行器在机动能力不足情况下的博弈成功率。

Description

一种高超声速飞行器博弈制导方法、系统、设备及介质

技术领域

本发明涉及飞行器控制技术领域，特别是涉及一种高超声速飞行器博弈制导方法、系统、设备及介质。

背景技术

高超声速飞行器是指能以高超声速持续飞行器并完成指定任务的飞行器。为应对高超声速飞行器在军事方面的威胁，各类防御高超声速飞行器的方案愈发被各主要大国重视，并取得了可观的进展。面对高超声速飞行器防御系统的防御威胁，高超声速飞行器如何利用飞行器攻防博弈理论指导其在末制导阶段成功逃逸，具有重大研究价值。

末制导博弈对抗是一种典型的双边最优问题，很多学者开展了研究。针对逃逸方，通常采用阶跃机动、方波机动等周期性程序机动方式，利用拦截方反应时间短，过载不足等缺点进行对抗，具有成熟简单但轨迹容易被预测拦截的特点。针对拦截方，古典制导律如比例导引法及其一系列拓展形式是在目标无机动、燃料不受限、拦截时间不受约束下的最优导引，适用于简单博弈对抗场景，而在高超声速博弈这类强对抗场景中古典制导方法无法满足博弈场景需求。随着最优控制理论的成熟，基于最优控制理论的最优制导方法应运而生，其最优性使得最优制导律具有较高的制导精度和良好的收敛性能，但飞行器需要实时获取博弈成员的运动状态，且对状态估计误差较为敏感，在复杂场景下，对飞行器的探测能力、通讯能力提出了极高的要求，而在现实战场环境中往往难以达到。此外，上述方法本质上都仅为单边博弈制导方法，无法同时应用于逃逸方与拦截方。

微分对策方法的提出解决了传统最优制导方法对飞行器探测通讯能力要求高，且仅为单边最优控制方法的问题。一方面，微分对策方法是一种双边最优控制理论，可同时适用于拦截方与逃逸方；另一方面制导律解算主要基于参与方各自的最大机动能力，对加速度估计精度要求不高，因此是现阶段高超声速飞行器博弈问题的主要研究方向之一。Garcia给出了三维条件下的三方博弈制导律，并分析了主动防御飞行器的捕获半径对博弈结果的影响。采用微分对策方法解决飞行器博弈对抗问题仍存在以下几点不足，一是动力学模型需要以常微分方程形式描述，对于实际复杂应用场景而言建模难度大；二是计算量大，解算时间长，实际飞行器计算能力无法满足其对计算资源的需求；三是需要状态反馈量多，实际飞行器传感器可能无法完全得到其所需状态量。

发明内容

本发明的目的是提出一种高超声速飞行器博弈制导方法、系统、设备及介质，以提高飞行器在机动能力不足情况下的博弈成功率。

为了实现上述目的，第一方面，本发明实施例提供了一种高超声速飞行器博弈制导方法，所述方法包括：

根据D3QN算法将飞行器中的防御飞行器和目标飞行器作为智能体，观测当前时刻智能体状态，根据收益函数计算所述当前时刻智能体状态的动作空间中各个动作的价值，所述飞行器还包括拦截飞行器；

根据所述各个动作的价值通过ε-greedy算法从所述动作空间中选择智能体动作；

将所述智能体动作输入训练环境，得到下一时刻智能体状态，所述训练环境包括飞行器动力学模型和主动防御博弈场景运动学模型。

进一步地，所述将所述智能体动作输入训练环境，得到下一时刻智能体状态，包括：

根据所述下一时刻智能体状态得到与所述下一时刻智能体状态相对应的奖励；

将所述当前时刻智能体状态、所述智能体动作、所述奖励和所述下一时刻智能体状态输入回放记忆单元，重复流程直至智能体网络参数稳定收敛。

进一步地，所述将所述智能体动作输入训练环境，包括：

设置根据所述当前时刻智能体状态变化的离散奖励函数，所述离散奖励函数在防御飞行器与拦截飞行器拦截结束情况下，奖励值随着防御飞行器与拦截飞行器之间距离的减小而增大；

在目标飞行器与拦截飞行器拦截结束情况下，若目标飞行器与拦截飞行器之间的距离大于杀伤半径，则奖励值为正数，否则奖励值为负数。

进一步地，所述将所述智能体动作输入训练环境，还包括：

设置根据所述当前时刻智能体状态变化的连续奖励函数，所述连续奖励函数在当前时刻小于拦截飞行器与防御飞行器的拦截时刻的情况下，若拦截飞行器与防御飞行器的零控脱靶量小于杀伤半径，则奖励值为正数，否则为负数；

在当前时刻大于拦截飞行器与防御飞行器的拦截时刻且小于拦截飞行器与目标飞行器的拦截时刻的情况下，若拦截飞行器与目标飞行器的零控脱靶量小于杀伤半径，则奖励值为负数，否则为正数。

进一步地，所述收益函数为智能体动作价值函数与智能体动作优势函数的和，具体采用如下公式表示

Q(S,A,w,α,β)＝V(S,w,α)+A(S,A,w,β)

其中，Q()为收益函数，V()为智能体动作价值函数；A()为智能体动作优势函数；S为状态；A为动作空间；w为公共部分的网络参数；α和β分别为价值函数和优势函数独有部分的网络参数。

进一步地，所述观测当前时刻智能体状态，包括：

对所述状态所处的状态空间进行归一化操作。

第二方面，本发明实施例提供了一种高超声速飞行器博弈制导系统，所述系统包括：

智能体构建模块，用于根据D3QN算法将飞行器中的防御飞行器和目标飞行器作为智能体，观测当前时刻智能体状态，根据收益函数计算所述当前时刻智能体状态的动作空间中各个动作的价值，所述飞行器还包括拦截飞行器；

智能体探索模块，用于根据所述各个动作的价值通过ε-greedy算法从所述动作空间中选择智能体动作；

智能体训练模块，用于将所述智能体动作输入训练环境，得到下一时刻智能体状态，所述训练环境包括飞行器动力学模型和主动防御博弈场景运动学模型。

进一步地，所述智能体训练模块，还用于：

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明提供了一种高超声速飞行器博弈制导方法、系统、设备及介质，通过根据D3QN算法将飞行器中的防御飞行器和目标飞行器作为智能体，观测当前时刻智能体状态，根据收益函数计算所述当前时刻智能体状态的动作空间中各个动作的价值，所述飞行器还包括拦截飞行器；根据所述各个动作的价值通过ε-greedy算法从所述动作空间中选择智能体动作；将所述智能体动作输入训练环境，得到下一时刻智能体状态，所述训练环境包括飞行器动力学模型和主动防御博弈场景运动学模型。本发明能够提高飞行器在机动能力不足情况下的博弈成功率。

附图说明

图1是本发明实施例提供的一种高超声速飞行器博弈制导方法流程示意图；

图2本发明实施例提供的主动防御博弈对抗场景示意图；

图3本发明实施例提供的主动防御博弈对抗环境动作集示意图；

图4本发明实施例提供的博弈背景示意图；

图5本发明实施例提供的主动防御博弈对抗场景初始条件与约束示意图；

图6本发明实施例提供的D3QN算法参数示意图；

图7本发明实施例提供的目标飞行器程序机动策略示意图；

图8是本发明实施例提供的一种高超声速飞行器博弈制导系统的系统框图；

图9是本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案和有益效果更加清楚明白，下面结合附图及实施例，对本发明作进一步详细说明，显然，以下所描述的实施例是本发明实施例的一部分，仅用于说明本发明，但不用来限制本发明的范围。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一个实施例中，如图1所示，提供了一种高超声速飞行器博弈制导方法，所述方法包括：

S11、根据D3QN算法将飞行器中的防御飞行器和目标飞行器作为智能体，观测当前时刻智能体状态，根据收益函数计算所述当前时刻智能体状态的动作空间中各个动作的价值，所述飞行器还包括拦截飞行器；

在本实施例中，所述收益函数为智能体动作价值函数与智能体动作优势函数的和，具体采用如下公式表示

Q(S,A,w,α,β)＝V(S,w,α)+A(S,A,w,β)

其中，Q()为收益函数，V()为智能体动作价值函数；A()为智能体动作优势函数；S为状态；A为动作空间；w为公共部分的网络参数；α和β分别为价值函数和优势函数独有部分的网络参数。本实施例的收益函数综合考虑智能体的动作价值和动作优势，能够更准确地反映智能体价值。

在本实施例中，考虑一个典型主动防御博弈对抗场景，如图2所示，场景中包含三个成员：目标飞行器、防御飞行器、拦截飞行器，其中，目标飞行器与防御飞行器采取主动反拦截策略对抗迎面来袭的拦截器。博弈过程中，目标飞行器在场景中需要避免被拦截飞行器拦截，同时防御飞行器通过直接碰撞的方式主动攻击拦截飞行器，两者配合实现掩护目标飞行器逃逸的任务；而拦截飞行器在场景中需要避免被防御飞行器碰撞同时靠近目标。

其中，OXY坐标系是一惯性参考坐标系，原点O位于目标飞行器初始位置的地平面，OX轴指向飞行器初始视线方向，OY轴在俯仰平面内垂直于OX轴；T、I、D分别代表目标飞行器、拦截飞行器与防御飞行器；r_IT和r_ID代表各成员间的相对距离；λ_IT和λ_ID表示各成员间的视线角；V_I、V_T和V_D是各成员的速度；对应的侧向加速度为a_I、a_T和a_D；航向角为和/>纵向距离为y_I、y_D和y_T。

忽略重力影响，拦截飞行器和目标飞行器间的运动学模型如下：

其中，与/>分别代表拦截飞行器与目标飞行器间相对速度在视线方向与视线垂直方向上的分量，其计算公式如下

同理，拦截飞行器和防御飞行器间的运动模型如下

在所建立博弈对抗场景中，目标飞行器考虑为一主要依靠改变气动力进行机动的高超声速飞行器，在飞行过程中所受重力、气动力和控制力作用，其动力学方程在所建立参考标系中可表示为：

其中，a_xT和a_yT为目标飞行器的轴向和侧向加速度；C_xb、C_yb和C_x为目标飞行器的轴向力气动系数、侧向力气动系数和波阻系数；α_T为目标飞行器攻角；q_T＝1/2ρV²为目标飞行器动压；A_T为目标飞行器参考面积；g和m_T分别为重力加速度和飞行器质量；u_T为目标飞行器侧向控制加速度。

防御飞行器D与拦截飞行器I考虑采用直接力进行机动，其动力学方程在所建立参考坐标系中可表示为：

在本实施例中，深度强化学习是机器学习中的重要分支，结合了强化学习与机器学习，令智能体与环境交互，通过试错的方式学习做更好的决策，基于Q-Learning的深度强化学习方法又称为基于价值的深度强化学习算法，利用最优动作-价值函数通过观察智能体状态S_t，执行动作空间A中价值最大的动作。在DRL中，动作-价值函数/>可由神经网络Q(s,a；θ)表示，其中θ为模型参数，称为深度Q网络。则此时，动作执行策略可表示为

在智能体训练层面，DQN使用时序差分学习方法，通过用每次观测得到的奖励值，通过反向传播实时更新模型参数。智能体每次做动作得到的回报U_t和其状态价值函数V_π定义如下：

U_t＝R_t+γR_t+1+γ²R_t+2+γ³R_t+3+...+γⁿR_t+n+L

＝R_t+γU_t+1

其中

则可得

Q(s_t,a_t；θ)≈r_t+γQ(s_t+1,a_t+1；θ)

则网络的预期收益q_t和观察到当前状态的奖励r_t＝R_t之后的预期收益可表示为

根据式(2-6)可得TD误差计算公式

定义损失函数

假设其与θ无关，则对应的价值更新梯度为

则有

其中，α为学习率。

在本实施例中，双竞争深度Q学习网络是一种基于值函数的强化学习算法，在DQN的基础上结合了Dueling DQN和Double DQN两种算法的优点，一方面，参考Dueling DQN算法，D3QN算法引入优势函数A(S,A,w,β)和价值函数V(S,w,α)，有效提高动作价值估计的准确性，另一方面，D3QN算法参考Double DQN算法，建立当前收益函数Q和目标收益函数Q'两个动作价值函数有效避免了Q值过高估计的问题，是目前一种性能优越的离散动作空间DRL算法。

S12、根据所述各个动作的价值通过ε-greedy算法从所述动作空间中选择智能体动作；

在本实施例中，通过ε-greedy算法选择动作空间A中的动作a_t执行

For all a∈A(s):

其中，A^*为当前网络的最优动作；A(s)为在状态s情况下智能体可执行的动作集合，|A(s)|该动作集合的大小；π(·)为该智能体所采取的策略。本实施例令智能体有ε的概率选择非当前网络的最优动作，以给予智能体探索空间。

S13、将所述智能体动作输入训练环境，得到下一时刻智能体状态，所述训练环境包括飞行器动力学模型和主动防御博弈场景运动学模型。

为了解决训练过程中的稀疏奖励问题，本实施例设置根据所述当前时刻智能体状态变化的离散奖励函数，所述离散奖励函数在防御飞行器与拦截飞行器拦截结束情况下，奖励值随着防御飞行器与拦截飞行器之间距离的减小而增大；在目标飞行器与拦截飞行器拦截结束情况下，若目标飞行器与拦截飞行器之间的距离大于杀伤半径，则奖励值为正数，否则奖励值为负数。本实施例还设置根据所述当前时刻智能体状态变化的连续奖励函数，所述连续奖励函数在当前时刻小于拦截飞行器与防御飞行器的拦截时刻的情况下，若拦截飞行器与防御飞行器的零控脱靶量小于杀伤半径，则奖励值为正数，否则为负数；在当前时刻大于拦截飞行器与防御飞行器的拦截时刻且小于拦截飞行器与目标飞行器的拦截时刻的情况下，若拦截飞行器与目标飞行器的零控脱靶量小于杀伤半径，则奖励值为负数，否则为正数。在DRL中，智能体依据奖励信息进行策略优化，但在实际训练过程中，若仅在智能体达到特定目标状态下设置奖励，即仅设置稀疏奖励，一方面，智能体在初始化随机策略下难以获得奖励信息，导致搜索时间较长，也较不稳定；另一方面，在复杂训练环境中，智能体难以在缺乏奖励信息的情况下收敛至期望策略。在上述情况下，智能体会出现学习效率低、学习稳定性差、无法收敛到最优策略甚至收敛失败的现象，该现象称为强化学习中的高原现象，而这类因缺乏奖励信息而对智能体策略收敛带来负面影响的问题称为稀疏奖励问题。目前，解决稀疏奖励问题的方法主要有奖励塑造、模仿学习、课程学习、事后经验回放和分层强化学习等算法。其中，奖励函数塑造作为一种引入外部引导信息的算法，利用先验知识，通过塑造附加奖励函数来引导智能体完成期望任务使用，因为先验知识的引入，降低了强化学习模型的学习难度，具有实现简单、学习速度快的优点。

在本实施例中，基于主动防御博弈对抗场景建模所得到的拦截飞行器与目标飞行器之间的零控脱靶量Z_IT(t)和拦截飞行器与防御飞行器之间的零控脱靶量Z_ID(t)，塑造随智能体状态s(t)连续变化的奖励函数。具体塑造过程如下：

首先，定义函数R(Z,k)

其中，Z为零控脱靶量，k为杀伤半径。R函数的特点为，当脱靶量Z的绝对值小于判断距离k时，R值为负，大于k值时R值为正，且当△趋近于0时，函数梯度绝对值趋近于无穷，有利于智能体在期望策略处收敛。

然后，由主动防御博弈对抗先验知识可知，通常情况下，拦截飞行器会先和防御飞行器相遇，根据式(2-21)即可表示为

t_fIT>t_fID

在此情况下，主动防御博弈对抗场景会产生产生三种博弈结果：

(1)防御飞行器成功拦截拦截飞行器，目标飞行器成功逃逸，博弈回合结束；

(2)防御飞行器无法成功拦截拦截飞行器，博弈场景由三方博弈转化为双方博弈，但拦截飞行器无法拦截目标飞行器，目标飞行器成功逃逸，博弈回合结束；

(3)防御飞行器无法成功拦截拦截飞行器，且拦截飞行器成功拦截目标飞行器，目标飞行器逃逸失败，博弈回合结束。

针对上述博弈结果，设定离散奖励函数R_S(t)如下：

其中，dis_TI(t)、dis_DI(t)为t时刻各飞行器之间距离；k_TI为目标飞行器与拦截飞行器之间的杀伤半径；α和β为人工设定的超参数。由式(2-34)可知，当防御飞行器与拦截飞行器之间的博弈场景结束时，即t＝t_fID时，奖励值随着dis_DI的减小而增大，当dis_DI＝0时，奖励值为α；当目标飞行器与拦截飞行器之间的博弈场景结束时，即t＝t_fIT时，若此时dis_TI大于k_TI时，代表目标飞行器成功逃逸，奖励值为正，反之，奖励值为负，视为对智能体的“惩罚”。

而在博弈过程中，若防御飞行器与拦截飞行器间的博弈场景尚未结束，则目标飞行器应配合防御飞行器拦截拦截飞行器；当上述博弈场结束时，若防御飞行器反拦截失败，则三方博弈场景转变为双方博弈，目标飞行器的机动策略应转变为避免被拦截飞行器所拦截。基于上述先验知识，本文塑造对应的连续奖励函数R_C(t)如下：

综上，本文所采用的塑造后的奖励函数r(t)为

在智能体训练过程中，上述连续奖励函数将根据智能体实时状态向智能体提供奖励信息r_t，随后奖励信息将与其他系统状态信息一起放入记忆单元，并在智能学习过程中，通过网络反向传播，定期更新目标值网络与当前值网络参数θ。当智能体网络参数θ收敛且保持稳定，智能体训练结束。在博弈对抗过程中，智能体将依靠训练所得价值网络Q(s_t,a；θ)，根据式(2-1)所示机动策略，实时判断当前状态s_t下各动作的价值，并采取价值最大的动作以向飞行器提供制导控制信号。

为了实现网络参数的更新，本实施例根据所述下一时刻智能体状态得到与所述下一时刻智能体状态相对应的奖励；将所述当前时刻智能体状态、所述智能体动作、所述奖励和所述下一时刻智能体状态输入回放记忆单元，重复流程直至智能体网络参数稳定收敛。本实施例根据智能体在多个博弈回合中积累下的记忆，通过网络反向传播，实现定期更新目标值网络与当前值网络参数。

在本实施例中，针对飞行器三方攻防博弈场景所设计的状态空间S_t为：

为了将不同参数去量纲化并缩小数值差别，使网络快速收敛，需要对所述状态所处的状态空间进行归一化操作，S_max和S_min为状态空间预估最大值和最小值，S_t0为t时刻归一化前状态量，S_t为实际归一化后t时刻的状态量；t为时间；y_T0、y_D0和y_I0分别为初始时刻目标飞行器、防御飞行器和拦截飞行器在y方向的坐标。Z_IT(t)与Z_ID(t)分别为拦截飞行器相对目标飞行器与防御飞行器在t时刻的零控脱靶量，表示从当前时刻到制导结束，博弈双方均不再输出制导指令，在制导结束时脱靶量的大小，其具体计算方法如下：

首先，需要先对博弈对抗场景模型进行线性化与降阶，在本文所研究高超声速飞行器末制导阶段博弈场景通常考虑如下假设：

(1)飞行器的速度与最大过载为常值；

(2)末制导段飞行器视线角的变化量较小，因此飞行器的运动轨迹可在初始视线附近线性化；

(3)飞行器动力学环节可近似为一阶传递函数的形式；

(4)忽略重力的影响；

(5)忽略目标飞行器与防御飞行器间通讯的时延。

并考虑到在博弈对抗末段，由于场景中各成员间相对速度较大，场景时间较短，飞行器无法进行大范围机动，因此可以在视线方向进行线性化而不影响分析结果。假设各成员具有一阶动力学模型形式如下：

a_i＝x_i,i＝{I,T,D}

其中，u_i为飞行器归一化制导律，||u′_i||_max为最大过载。

设系统状态为：

则线性化的主动防御博弈对抗场景系统状态方程可表示为

将式(2-16)转化为矩阵形式

其中

C＝[0 0 |u′_I|_max/ε_I 0 0 0 0]^T

在线性化模型的基础上，博弈对抗场景存在两个拦截时间，即拦截飞行器与防御飞行器的拦截时间t_fID、拦截飞行器与目标飞行器的拦截时间t_fIT，分别表示如下：

并定义剩余时间如下：

则零控脱靶量Z_IT(t)与Z_ID(t)，可表示为：

Z_IT(t)＝D_ITΦ(t_go2)x(t)

Z_ID(t)＝D_IDΦ(t_go1)x(t)

其中，x(t)为由式(2-17)定义的t时刻的系统状态；D_IT与D_ID为各ZEM计算中的掩码矩阵，定义如下

D_IT＝[1 0 0 0 0 0 0]^T

D_ID＝[0 0 0 0 1 0 0]^T

Φ(·)为系统的状态转移矩阵，其定义如下

Φ(·)＝L^-1[(sI-A)^-1]^T

其中，L^-1[·]为拉普拉斯逆变换；I为单位矩阵；A由式(2-18)给出。至此，可得Z_IT(t)与Z_ID(t)的计算公式

其中

此外，针对飞行器三方攻防博弈场景所设计的动作空间a_t如下：

a_t＝[α_T u_D]^T

其中，α_T为目标飞行器的攻角，u_D为防御飞行器侧向机动信号。智能体动作集A如图3所示，α_T,max和α_T,min分别为目标飞行器攻角的最大值和最小值；u_D为防御飞行器的侧向控制量，a_D,max和a_D,min分别为防御飞行器侧向加速度的最大值和最小值。

为了验证所提出攻防博弈制导方法的有效性，并分析相比于传统微分对策博弈制导方法的优越性，本文在CPU Intel Core Xeon Platinum 8270@2.70GHz，GPU GTX2080的硬件环境下进行数值仿真验证。

考虑一枚携带有主动反拦截器的目标高超声速飞行器，博弈背景如图4所示，飞行器在高度为55km高度受到拦截飞行器的拦截威胁，拦截飞行器导引弹头探测距离为100km，因此博弈场景纵深距离为100km。在场景中，目标飞行器提前发现拦截飞行器的拦截威胁，释放防御飞行器进行反拦截，并保持防御飞行器相对目标飞行器纵向位置约500m、初始横向位置约5km的编队飞行。

考虑拦截飞行器采用微分对策制导方法进行躲避与拦截，基于上述机动策略与所建立的主动防御博弈对抗场景模型，结合微分对策理论，在主动防御博弈对抗场景中，拦截飞行器需要避免被反拦截器碰撞同时靠近目标，其具体实现为——拦截飞行器会实时判断其与目标飞行器和防御飞行器之间的零控脱靶量，若某时刻拦截飞行器与防御飞行器之间的零控脱靶量小于杀伤半径，则拦截飞行器判断其受到了防御飞行器的拦截威胁，执行躲避策略；其余情况下，拦截飞行器执行拦截策略。因此，考虑如下代价函数

其中，k为杀伤半径；Z_IT(t)与Z_ID(t)分别为拦截飞行器相对目标飞行器与防御飞行器在t时刻的零控脱靶量，计算方法如式(2-28)和(2-29)所示。当Z_ID(t)<k时，对式(3-1)对时间求导，可得

构造哈密顿函数，有

则其共轭方程为

横截条件为

由哈密顿函数取极值，可得到最优策略如下

u_I＝sgn(Z_ID(t))

当Z_ID(t)≥k时，拦截飞行器制导律推导同理，因此可得拦截飞行器微分对策制导律如下

场景中，敌方拦截飞行器具有6g机动过载能力，且拦截飞行器的控制响应优于目标高超声速飞行器，并采用如式(3-7)所示微分对策方法进行制导；防御飞行器具有3g机动过载能力，且敏捷能力强于拦截飞行器，并采用比例导引方法进行制导，制导律计算方法如下：

其中，N为比例系数；V_C为防御飞行器与拦截飞行器之间的相对速度；为防御飞行器的视线角角速度。

主动防御博弈对抗博数值仿真初始条件与约束具体设计如图5所示，设定在场景中双方飞行器具备相对完善的信息获取与探测手段，先验知识准确且均能够获知对方飞行器的状态参数，在此条件下采用D3QN算法对智能体进行博弈对抗训练，设定算法超参如图6所示，值函数网络及其对应目标网络的网络结构相同，均由三层全连接层构成，节点数为1024，并采用ReLU作为激活函数。设置奖励函数中的超参数如下：

其含义为，当反拦截场景结束时，防御飞行器与拦截飞行器距离为防御飞行器的杀伤半径，可视为防御飞行器成功对拦截飞行器产生拦截威胁，根据式(2-2)可得此时的奖励值回传t_fID前约1.5s时的值为0.1，大约为当时时刻奖励值的1％；当博弈回合结束时，若目标飞行器与拦截飞行器间距离为20米，可视为目标飞行器已经足够安全，此时的奖励值回传至t_fIT前约2s时的值为0.1，大约为当时时刻奖励值的1％。整个训练过程训练总回合数5000次。

随着训练进行，回合累计奖励值呈现稳定但缓慢上升的趋势，并在约4200回合之后奖励值稳定于2400上下，智能体在该模型下训练的收敛性得到验证。经过4973回合的训练平均回合累计奖励值曲线达到峰值2476.73。

取该时刻训练模型进行200次蒙特卡洛打靶，主飞行器逃逸成功率达到89.0％，脱靶量为1141.67m，初步证明所提出智能攻防博弈制导方法的有效性。由打靶结果可知，采用本文所设计的智能博弈制导方法，主飞行器在拦截飞行器机动能力与敏捷能力都占优的情况下可实现稳定逃逸；此外，由脱靶量量级可知，在部分情况下拦截飞行器被防御飞行器拦截，至使主飞行器逃逸成功，因而此时拦截飞行器与主飞行器之间的脱靶距离较大。

目前，程序式机动方法是一类应用广泛的飞行器逃逸机动方法，其具有技术成熟、计算量小和基本不受外界干扰等特点。程序式机动方法的原理为，当飞行器在探测到拦截方时，飞行器上的控制机构按照事先设定好的程序机动策略来躲避拦截，常见的程序式机动方法有正弦机动、方波机动、正弦机动和阶跃机动等。其中，周期性的程序式机动，如方波机动、正余弦机动，会使拦截器的预测命中点来回摆动，拦截器频繁地切换目标导致调整时间不足，同时最后一次的命中点预测可能与实际最终位置存在较大偏差；而类似单向阶跃机动，会使拦截器因为命中点预测的滞后性而无法追及目标。

为证明所提出智能攻防博弈制导方法相比传统攻防博弈制导方法，在逃逸方飞行器机动能力不足的情况下具有更强的反拦截能力，本节设计目标飞行器采用四种程序式机动方法——“正弦机动”、“方波机动”、“阶跃机动”和“随机机动”，具体机动策略如图7所示：其中，a_y为目标飞行器侧向加速度；θ_v为目标飞行器速度倾角；cosθ_vg为重力平衡项；rand(-1,1)表示-1～1内的随机数；arg_u2α(·)为过载控制量与攻角控制量之间的转换程序，基于目标飞行器气动特性搭建。正弦机动与方波机动的周期需要考虑到目标飞行器的最大攻角α_max、最小攻角α_min和最大攻角角速度具体计算关系如下：

根据式(3-10)设计此时正弦机动与方波机动周期为13s；由于飞行器向下机动能获得更大的气动力，进而获得更强的机动能力，因此阶跃机动考虑飞行器采用最小攻角向下机动；此外，基于先前仿真结果，目标飞行器机动能力在2g左右，因此正弦机动、方波机动和随机机动的非重力平衡项过载控制在±2g左右。

为了更全面地探究本发明所提出的智能攻防博弈制导方法在主动飞行器机动能力处于劣势时的效能，考虑拦截飞行器机动能为6g、7g和8g三种工况，采用蒙特卡洛打靶法分别进行200次打靶，对比每种工况下逃逸方飞行器采用传统方法与智能方法的目标飞行器逃逸成功率。当拦截飞行器机动能力为6g时，逃逸方飞行器采用传统博弈攻防制导律方法仅有采用“随机机动+比例导引”时实现了10％的逃逸成功率，而此时采用智能攻防博弈制导方法逃逸成功率达到89％；当拦截飞行器机动能力增强至7g时，逃逸方飞行器采用传统博弈制导方法的逃逸成功率仅剩下2％，而采用智能博弈制导方法的逃逸成功为72％，仍可保证稳定逃逸；当拦截飞行器制导能力达到目标飞行器的约4倍时，逃逸方飞行器采用传统博弈制导方法已无法成功逃逸，而采用本发明的博弈制导方法仍有28％的逃逸成功率。

与现有技术相比，本发明提出的一种高超声速飞行器博弈制导方法，为解决传统基于解析制导方法在弱机动情况下博弈成功率较低的问题，基于双竞争深度Q学习网络深度强化学习算法提出了一种高超声速飞行器主动防御博弈对抗智能制导方法，并利用奖励函数塑造方法，基于飞行器间零控脱靶量，设计了一种整型分数指数非稀疏奖励函数，提高强化学习算法收敛效率和训练稳定度。数值仿真结果表明，所提出的方法能够实现高超声速飞行器在机动能力不足情况下的博弈对抗成功，且相比于传统攻防博弈制导方法具有更高的博弈成功率。

基于上述一种高超声速飞行器博弈制导方法，本发明实施例还提供了一种高超声速飞行器博弈制导系统，如图8所示，所述系统包括：

智能体构建模块1，用于根据D3QN算法将飞行器中的防御飞行器和目标飞行器作为智能体，观测当前时刻智能体状态，根据收益函数计算所述当前时刻智能体状态的动作空间中各个动作的价值，所述飞行器还包括拦截飞行器；

智能体探索模块2，用于根据所述各个动作的价值通过ε-greedy算法从所述动作空间中选择智能体动作；

智能体训练模块3，用于将所述智能体动作输入训练环境，得到下一时刻智能体状态，所述训练环境包括飞行器动力学模型和主动防御博弈场景运动学模型。

在另一个实施例中，所述智能体训练模块3，还用于：

关于一种高超声速飞行器博弈制导系统的具体限定可以参见上文中对于一种高超声速飞行器博弈制导方法的限定，在此不再赘述。上述系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图9示出一个实施例中计算机设备的内部结构图，该计算机设备具体可以是终端或服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域普通技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体地计算设备可以包括比途中所示更多或更少的部件，或者组合某些部件，或者具有同样的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

综上，本发明提供了一种高超声速飞行器博弈制导方法、系统、设备及介质，通过根据D3QN算法将飞行器中的防御飞行器和目标飞行器作为智能体，观测当前时刻智能体状态，根据收益函数计算所述当前时刻智能体状态的动作空间中各个动作的价值，所述飞行器还包括拦截飞行器；根据所述各个动作的价值通过ε-greedy算法从所述动作空间中选择智能体动作；将所述智能体动作输入训练环境，得到下一时刻智能体状态，所述训练环境包括飞行器动力学模型和主动防御博弈场景运动学模型。本发明能够提高飞行器在机动能力不足情况下的博弈成功率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例直接相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。需要说明的是，上述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本申请的保护范围。因此，本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种高超声速飞行器博弈制导方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种高超声速飞行器博弈制导方法，其特征在于，所述将所述智能体动作输入训练环境，得到下一时刻智能体状态，包括：

3.根据权利要求1所述的一种高超声速飞行器博弈制导方法，其特征在于，所述将所述智能体动作输入训练环境，包括：

4.根据权利要求3所述的一种高超声速飞行器博弈制导方法，其特征在于，所述将所述智能体动作输入训练环境，还包括：

5.根据权利要求1所述的一种高超声速飞行器博弈制导方法，其特征在于，所述收益函数为智能体动作价值函数与智能体动作优势函数的和，具体采用如下公式表示

Q(S,A,w,α,β)＝V(S,w,α)+A(S,A,w,β)

6.根据权利要求1所述的一种高超声速飞行器博弈制导方法，其特征在于，所述观测当前时刻智能体状态，包括：

对所述状态所处的状态空间进行归一化操作。

7.一种高超声速飞行器博弈制导系统，其特征在于，所述系统包括：

8.根据权利要求7所述的一种高超声速飞行器博弈制导系统，其特征在于，所述智能体训练模块，还用于：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6所述方法的步骤。