CN116430900A

CN116430900A - 基于深度强化学习的高超声速弹头的博弈轨迹规划方法

Info

Publication number: CN116430900A
Application number: CN202310491577.6A
Authority: CN
Inventors: 江秀强; 李靖惠; 王可蕾; 蔡鑫宇; 季袁冬; 钟苏川; 孙国皓
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-07-14
Anticipated expiration: 2043-05-04
Also published as: CN116430900B

Abstract

本发明公开了一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法，包括以下步骤：S1、建立高超声速弹头的飞行模型；S2、基于飞行模型，通过高斯伪谱法建立高速弹头轨迹规划的最优控制方程；S3、基于高速弹头轨迹规划的最优控制方程，建立高速弹头博弈策略；S4、基于高速弹头博弈策略，通过DQN算法训练神经网络，获得训练好的神经网络；S5、通过训练好的神经网络对高超声速弹头进行轨迹规划，完成高超声速弹头的博弈轨迹规划。本发明为了满足高速弹头决策的准确性、实时性和有效性，设计一种基于深度强化学习方法研究高速弹头在遭遇拦截时的机动策略，开展轨迹规划博弈决策模型抽象及策略训练，实现在线轨迹规划方法。

Description

基于深度强化学习的高超声速弹头的博弈轨迹规划方法

技术领域

本发明属于导弹航迹规划领域，具体涉及基于深度强化学习的高超声速弹头的博弈轨迹规划方法。

背景技术

高速弹头作为高超声速飞行器的战斗部，其接近于战斗机的外形，在再入大气层后有独特的气动性能。随着高速弹头的不断发展，针对各类高超声速的新技术也不断涌现，所以研究高速弹头的博弈轨迹规划策略刻不容缓。

高速弹头的突防博弈场景有着典型的“信息-物理”分层特征，在弹头突防完成后，由于偏离了原本规划的轨迹，因此需要重新快速规划轨迹，以评估是否仍有不偏离预定目标的能力。随着任务环境的愈加复杂和多维化，高速弹头的拦截和逃逸策略都在从传统博弈转向智能博弈。强化学习方法是一种基于数据的智能学习控制方法，可以通过与环境不断交互来学习策略，根据双方的状态进行决策，因此在复杂任务环境中具有一定的优势。实现高速弹头高胜率博弈轨迹的高效规划，对于推进智能化作战和提高高速弹头作战能效具有重要的理论研究价值和实践意义。

目前，在研究突防策略时，较新颖的为使用微分对策来研究突防策略，微分对策是指两个飞行器或多个飞行器均能在已知情况下实现各自最优目标的对策过程，以达到脱靶量最大最小的目的。目前已有的微分对策研究包括在二维线性化运动条件下研究了躲避比例引导弹的最佳机动策略、有末端路径角约束和具有多个拦截器的最佳机动策略等。

微分对策制导一般很难获得解析解，求其数值解更依靠于大量弹载计算机资源，同时对探测设备的精准探测也有一定要求，而且该方法针对确定性问题的求解，逃逸方飞行器均不能根据战场环境的变化智能自主地做出决策，面对复杂多变且具有不确定信息较多的对抗场景则具有一定局限性。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法解决了现有微分对策进行高速弹头博弈轨迹规划成功率低的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于深度强化学习的高超声速弹头的博弈轨迹规划方法，包括以下步骤：

S1、建立高超声速弹头的飞行模型；

S2、基于飞行模型，通过高斯伪谱法建立高速弹头轨迹规划的最优控制方程；

S3、基于高速弹头轨迹规划的最优控制方程，建立高速弹头博弈策略；

S4、基于高速弹头博弈策略，通过DQN算法训练神经网络，获得训练好的神经网络；

S5、通过训练好的神经网络对高超声速弹头进行轨迹规划，完成高超声速弹头的博弈轨迹规划。

进一步地：所述S1包括以下分步骤：

S11、基于在位置坐标系下的高超声速弹头，建立面向制导算法的高速弹头质心动力学方程；

S12、求解高速弹头质心动力学方程，并对求解结果进行无量纲处理，得到飞行模型；

S13、根据飞行模型设置状态控制量和约束条件，完成高超声速弹头的飞行模型的建立。

进一步地：所述S12中，飞行模型的表达式具体为：

式中，r为地心距矢量，θ为经度，φ为纬度，V为飞行速度，γ为航迹角，ψ为航向角，σ为倾侧角，Ω为地球自转角速度，R₀为地球半径，R₀＝6378km，g₀为重力加速度，g₀＝9.81m/s²，

为r的一阶导数，/>

为θ的一阶导数，/>

为φ的一阶导数，/>

为V的一阶导数，/>

为γ的一阶导数，/>

为ψ的一阶导数。

进一步地：所述S13中，状态控制量包括状态变量和控制变量，所述状态变量[r，θ，φ，V，γ，ψ，α，σ]^T和控制变量

的取值具体为：

式中，α为攻角，

为攻角的变化率，/>

为倾侧角的变化率；

所述约束条件包括过载约束、动压约束和气动热约束；

所述过载约束的表达式具体为下式：

式中，n为高速弹头飞行过程中的过载，L为升力，D为阻力，n_max为最大过载，m为质量；

所述动压约束的表达式具体为下式：

式中，q_max为动压最大值，q为动压，ρ为当地的大气密度；

所述气动热约束的表达式具体为下式：

式中，

为热流，/>

为热流最大值，k_Q为第一参数，k_Q＝110310/(R_N ^0.5ρ₀ ^0.5V₁ ^3.15)，ρ₀为海平面大气密度，V₁为第一宇宙速度，R_N为飞行器驻点曲率半径。

进一步地：所述S2包括以下分步骤：

S21、建立高速弹头轨迹规划的控制方程；

S22、通过高斯伪谱法对高速弹头轨迹规划的控制方程进行求解，在满足状态变量和控制变量取值的约束下对轨迹进行规划，得到最短飞行时间下的控制方程，并将其作为高速弹头轨迹规划的最优控制方程。

进一步地：所述S21中，高速弹头轨迹规划的控制方程

的表达式具体为：

式中，t_f为飞行时间，t₀为初始时间，τ为时域变换后的时间、τ₀为时域变换后的初始时间、τ_f为时域变换后的飞行时间；

所述变换轨迹规划问题时域定义为：

式中，t₁为时域变换前的时间；

所述高速弹头轨迹规划的控制方程的目标函数J的表达式具体为：

J＝kt_f+(k-1)v_f

式中，v_f为打击速度，k为常系数。

进一步地：所述S3中，高速弹头博弈策略包括：建立高速弹头机动模型、建立拦截器行为模型、分析相对运动态势、设置奖励函数、设置深度强化学习算法的网络参数和设置观测噪声参数。

进一步地：所述S3中，高速弹头机动模型action的表达式具体为：

action＝[action₁，action₂，action₃]

式中，action₁为对攻角进行调整，action₂为对侧滑角进行调整，action₃为是否开启发动机，其表达式具体为：

action₁＝[-3，-1，0，1，3]

action₂＝[-3，-1，0，1，3]

action₃＝[0，20]

所述拦截器行为模型的导引方程具体为下式：

式中，

为拦截器矢量转动的角速度，k₁为比例导引系数，/>

为目标视线的转动角速度；

所述分析相对运动态势的方法为计算的态势信息，计算态势信息(R、Δx、Δy、Δz、Δv)的表达式具体为：

式中，(x_r、y_r、z_r)为高速弹头的坐标，(x_b、y_b、z_b)为拦截器的坐标，R为高速弹头与拦截器的距离，Δx为高速弹头与拦截器的x轴坐标差值，Δy为高速弹头与拦截器的y轴坐标差值，Δz为高速弹头与拦截器的z轴坐标差值，v_r为高速弹头的速度，v_b为拦截器的速度，Δv为高速弹头与拦截器的速度差值；

所述奖励函数包括第一～第六奖励子函数；

所述第一奖励子函数reward的表达式具体为：

式中，C为开启发动机的最多次数，h为高速弹头的飞行高度，h_min为最低飞行高度，fuel₁为消耗第一拦截器的燃料质量，fuel₂为消耗第二拦截器的燃料质量，time为开发动机的次数，distance为高速弹头与拦截器之间的相对距离；

所述第二奖励子函数reward_final的表达式具体为：

式中，v_final为规划出的飞行轨迹的终端速度值；

所述第三奖励子函数reward_fail1的表达式具体为：

reward_fail1＝-100000+(fuel₁+fuel₂)/120

所述第四奖励子函数reward_fail2的表达式具体为：

reward_fail2＝-1000+(fuel₁+fuel₂)/120

所述第五奖励子函数reward_fail3的表达式具体为：

reward_fail3＝-500+(fuel₁+fuel₂)/120

所述第六奖励子函数reward₅的表达式具体为：

reward₅＝v/100

式中，v为高速弹头的飞行速度；

所述设置深度强化学习算法的网络参数的方法具体为：

设置网络的输入层包括18个节点；

设置网络的隐含层包括线性变换层和100个节点，激活函数为Leaky ReLU；

设置网络的输出层包括线性变换层和1个节点；

设置网络的经验回放池容量为5000，设置网络的批量训练样本容量为128，设置网络的学习率为0.01；

所述观测噪声参数的表达式具体为：

X＝x₁+o(x₁)

其中，X表示对方获取到的姿态信息，x₁为真实的姿态信息，o(x₁)为该项信息的对应随机误差小量。

进一步地：所述S4中，通过DQN算法训练神经网络的方法具体为：

S41、设置损失函数；

S42、生成数据样本；

S43、根据数据样本计算损失函数；

S44、根据损失函数对神经网络参数进行梯度下降直至收敛，得到训练好的神经网络。

进一步地：所述S42中，数据样本包括若干组数据对；

所述S43中，计算损失函数的表达式具体为：

式中，

为第t次迭代的价值函数，n₁为数据对的组数，θ₂为网络参数，q_πk(s_t，a_t)为不动点迭代目标，其表达式具体为：

式中，

为用于计算不动点迭代的参数，{s_t，a_t，r(s_t，a_t)，s_t+1}为一组数据对，s_t，a_t，r(s_t，a_t)，s_t+1均为数据对中的数据，/>

为第t+1次迭代的价值函数。

本发明的有益效果为：

(1)本发明提供的基于深度强化学习的高超声速弹头的博弈轨迹规划方法为了满足高速弹头高胜率博弈决策的准确性、实时性和有效性，设计一种基于深度强化学习方法研究高速弹头在遭遇拦截时的机动策略，信息层根据突防弹和拦截弹的态势信息产生机动策略，物理层根据突防弹动力学进行轨迹规划和执行，将高速弹头的高速弹头博弈策略建模为马尔可夫决策过程，建立包含点火机动和姿态调整的高速弹头机动模型和拦截器行为模型，基于深度强化学习在未知环境下决策出最优策略，开展轨迹规划博弈决策模型抽象及策略训练，实现高胜率博弈的在线轨迹规划方法。

(2)本发明将高速弹头视为智能体进行深度强化学习训练，在仿真环境中对每个算例都进行了3000次的突防对抗，而随着训练的进行，高速弹头轨迹规划成功的概率逐渐增加并保持稳定，可以认为是在这种场景下的最佳概率，在不断迭代计算后，DQN算法下的成功突防概率达到了20％，相较于传统轨迹规划方法，可以更好的完成任务，实现高速弹头机动策略的高效执行。

(3)本发明创新性地将DQN算法加以改进应用在高超声速导弹轨迹规划中，探索系统离散决策和连续控制的耦合机理，开展攻防博弈决策模型的抽象及策略训练，构建智能突防策略，实现动态对抗条件下的灵活高效轨迹规划。

附图说明

图1为本发明的基于深度强化学习的高超声速弹头的博弈轨迹规划方法流程图。

图2为本发明的DQN算法结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

如图1所示，在本发明的一个实施例中，基于深度强化学习的高超声速弹头的博弈轨迹规划方法，包括以下步骤：

S1、建立高超声速弹头的飞行模型；

所述S1包括以下分步骤：

所述S12中，飞行模型的表达式具体为：

为r的一阶导数，/>

为θ的一阶导数，/>

为φ的一阶导数，/>

为V的一阶导数，/>

为γ的一阶导数，/>

为ψ的一阶导数。

获得飞行模型的原理具体为：

建立面向制导算法的三自由度质点运动方程，所述高速弹头质心动力学方程的表达式具体为下式：

求解上式，由于地球扁率引起的摄动力较小，因此忽略地球扁率引起的摄动力得到下式：

为减小求解过程中的数据规模，提高计算效率，对上式进行无量纲处理，得到飞行模型的表达式。

所述S13中，状态控制量包括状态变量和控制变量，所述状态变量[r，θ，φ，V，γ，ψ，α，σ]^T和控制变量

的取值具体为：

式中，α为攻角，

为攻角的变化率，/>

为倾侧角的变化率；

在高速弹头飞行过程中，需要考虑高速弹头本身的飞行性能约束，将状态变量和控制变量需在一定范围内。

所述约束条件包括过载约束、动压约束和气动热约束；

所述过载约束的表达式具体为下式：

所述动压约束的表达式具体为下式：

式中，q_max为动压最大值，q为动压，ρ为当地的大气密度；

所述气动热约束的表达式具体为下式：

式中，

为热流，/>

所述S2包括以下分步骤：

S21、建立高速弹头轨迹规划的控制方程；

所述S21中，高速弹头轨迹规划的控制方程

的表达式具体为：

式中，t_f为飞行时间，t₀为初始时间，τ为时域变换后的时间、τ₀为时域变换后的初始时间、σx为时域变换后的飞行时间；

所述变换轨迹规划问题时域定义为：

式中，t₁为时域变换前的时间；

J＝kt_f+(k-1)v_f

式中，v_f为打击速度，k为常系数。

得到高速弹头轨迹规划的控制方程的原理具体为：

建立高速弹头轨迹规划的状态方程，其表达式具体为下式：

设置初始和终端条件，所述初始条件和终端条件的表达式具体为：

[r(0)，θ(0)，φ(0)，V(0)，γ(0)，ψ(0)，α(0)，σ(0)]＝[r₀，θ₀，φ₀，V₀，γ₀，ψ₀，α₀，σ₀][r(t_f)，θ(t_f)，φ(t_f)，V(t_f)，γ(t_f)，ψ(t_f)，α(t_f)，σ(t_f)]

＝[r_f，θ_f，φ_f，V_f，γ_f，ψ_f，α_f，σ_f]

约束条件为下式：

目标函数为下式：

J＝k₁t_f+(k-1)v_f

根据高斯伪谱法即可得到高速弹头轨迹规划的控制方程。

在本实施例中，采用MATLAB2020b的GPOPS II工具包进行编程仿真，即可对控制方程进行求解。

所述S3中，高速弹头博弈策略包括：建立高速弹头机动模型、建立拦截器行为模型、分析相对运动态势、设置奖励函数、设置深度强化学习算法的网络参数和设置观测噪声参数。

所述S3中，高速弹头机动模型action的表达式具体为：

action＝[action₁，action₂，action₃]

action₁＝[-3，-1，0，1,3]

action₂＝[-3，-1，0，1,3]

action₃＝[0，20]

所述拦截器行为模型的导引方程具体为下式：

式中，

为拦截器矢量转动的角速度，k₁为比例导引系数，/>

为目标视线的转动角速度；

所述奖励函数包括第一～第六奖励子函数；

奖励函数设置是整个深度强化学习的关键，其目的是为了实现高速弹头躲避拦截器并打击目标的目的，同时避免高速弹头在飞行过程中做出一些超出实际情况的动作。

所述第一奖励子函数reward的表达式具体为：

所述第二奖励子函数reward_final的表达式具体为：

式中，v_final为规划出的飞行轨迹的终端速度值；

所述第三奖励子函数reward_fail1的表达式具体为：

reward_fail1＝-100000+(fuel₁+fuel₂)/120

所述第四奖励子函数reward_fail2的表达式具体为：

reward_fail2＝-1000+(fuel₁+fuel₂)/120

所述第五奖励子函数reward_fail3的表达式具体为：

reward_fail3＝-500+(fuel₁+fuel₂)/120

所述第六奖励子函数reward₅的表达式具体为：

reward₅＝v/100

式中，v为高速弹头的飞行速度；

所述设置深度强化学习算法的网络参数的方法具体为：

设置网络的输入层包括18个节点；

设置网络的输出层包括线性变换层和1个节点；

所述网络参数的设置具体如表1所示：

表1网络参数

所述观测噪声参数的表达式具体为：

X＝x₁+o(x₁)

在实际对抗过程中，由于观测误差，因此不能够准确地获得双方的姿态信息，会存在一些干扰，因此本发明在真实数据后增加了一部分随机误差小量的观测噪声参数，是使真实数据更加贴近真实环境。

如图2所示，所述S4中，通过DQN算法训练神经网络的方法具体为：

S41、设置损失函数；

S42、生成数据样本；

S43、根据数据样本计算损失函数；

所述S42中，数据样本包括若干组数据对，数据样本从经验回放缓存器中采样。

所述S43中，计算损失函数的表达式具体为：

式中，

为第t次迭代的价值函数，n₁为数据对的组数，θ₂为网络参数，/>

为不动点迭代目标，其表达式具体为：

式中，

为用于计算不动点迭代的参数，{s_t,a_t,r(s_t,a_t),s_t+1}为一组数据对，s_t,a_t,r(s_t,a_t),s_t+1均为数据对中的数据，/>

为第t+1次迭代的价值函数。

所述S44中，基于损失函数对网络参数θ₂进行梯度下降直至收敛，为了使参数快速收敛，在原神经网络的基础上引入一个目标网络，其网络结构相同。与原神经网络不同的是，目标网络每次迭代都会更新，但目标网络每隔一段时间才会更新；

此外，原神经网络和目标网络是通过ε-greedypolicies算法进行迭代更新的，在大于ε的时候选择最优策略进行迭代更新，否则就随机选择策略进行迭代更新；

其中，随机选择策略的表达式π(a|s)具体为：

式中，|A|为所有可能的动作数量，Q^π(s，a)为用于迭代网络参数的第一价值函数，maxQ^π(s，a)为最优动作价值函数、a为高速弹头在当前状态下可以做出的动作决策，ε为ε-greedy policies算法的参数，ε∈(0，1)。

最优策略的表达式π^*(a|s)具体为：

式中，argE_a～π(.|s)Q^*(s，a)、

分别表示最优状态价值函数对应的动作决策和最优动作价值函数对应的动作决策；

所述S4中，DQN算法还根据神经网络进行仿真训练，其方法具体为：

在开始每一轮训练时，高速弹头首先按照预定轨迹飞行，通过实时计算两者之间的距离从而判断是否进行突防，当两者间的距离大于某个阈值时，高速弹头按规划轨道飞行；而当两者间的距离小于某个阈值后，高速弹头使用深度强化学习进行突防博弈。突防是否成功也是通过计算两者的实时距离来判定的，当高速弹头在拦截弹的轨迹范围时，则突防失败，进行下一次训练；突防成功后开始规划到目标点的新轨迹，通过计算达到目的地用时来判断是否完成任务，当达到目的地用时小于阈值时可认为任务成功实施；否则认为打击失败。经过DQN算法不断迭代计算得到训练好的神经网络。

本发明的有益效果为：本发明提供的基于深度强化学习的高超声速弹头的博弈轨迹规划方法为了满足高速弹头高胜率博弈决策的准确性、实时性和有效性，设计一种基于深度强化学习方法研究高速弹头在遭遇拦截时的机动策略，信息层根据突防弹和拦截弹的态势信息产生机动策略，物理层根据突防弹动力学进行轨迹规划和执行，将高速弹头的高速弹头博弈策略建模为马尔可夫决策过程，建立包含点火机动和姿态调整的高速弹头机动模型和拦截器行为模型，基于深度强化学习在未知环境下决策出最优策略，开展轨迹规划博弈决策模型抽象及策略训练，实现高胜率博弈的在线轨迹规划。

本发明将高速弹头视为智能体进行深度强化学习训练，在仿真环境中对每个算例都进行了3000次的突防对抗，而随着训练的进行，高速弹头轨迹规划成功的概率逐渐增加并保持稳定，可以认为是在这种场景下的最佳概率，在不断迭代计算后，DQN算法下的成功突防概率达到了20％，相较于传统轨迹规划方法，可以更好的完成任务，实现高速弹头机动策略的高效执行。

本发明创新性地将DQN算法加以改进应用在高超声速导弹轨迹规划中，探索系统离散决策和连续控制的耦合机理，开展攻防博弈决策模型的抽象及策略训练，构建智能突防策略，实现动态对抗条件下的灵活高效轨迹规划。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。