CN115657711A

CN115657711A - 一种基于深度强化学习的高超声速飞行器规避制导方法

Info

Publication number: CN115657711A
Application number: CN202211227304.2A
Authority: CN
Inventors: 王宏伦; 武天才; 李娜; 刘一恒; 任斌; 杨志远
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-01-31
Anticipated expiration: 2042-10-09
Also published as: CN115657711B

Abstract

本发明一种基于深度强化学习的高超声速飞行器规避制导方法，属于飞行器导航、制导与控制领域；具体为：针对高超声速再入飞行器，建立面向制导算法的三自由度质点运动方程，以及该方程需要满足的再入飞行约束；然后，建立满足再入飞行约束的纵向和侧向制导方法；最后，将深度强化学习算法与纵向制导和侧向制导相结合，进行智能体训练，在线优化侧向制导方法中的切向反应系数σ_k和切向方向系数θ_k，提高飞行器在不同飞行环境中的规避性能和自适应能力。本发明通过采用深度强化学习方法进行算法参数的在线优化，提升了飞行器在不同飞行环境中的规避性能和自适应能力。

Description

一种基于深度强化学习的高超声速飞行器规避制导方法

技术领域

本发明属于飞行器导航、制导与控制领域，具体涉及一种基于深度强化学习的高超声速飞行器规避制导方法。

背景技术

高超声速再入飞行器因其航程远、速度快和机动灵活的特性而备受关注，已成为二十一世纪各国军事竞争的焦点。再入制导算法的作用是在满足多个约束条件的同时，将飞行器从初始再入点导引至末制导或终端区域能量管理段，对完成飞行任务起到至关重要的作用。近年来，随着飞行任务和飞行环境的日益复杂，对再入制导算法也提出了更严苛的要求。此外，由于政治敏感区域的存在和各国反导系统的发展，禁飞区的规避问题也应在制导算法设计中予以考虑。

对于飞行器的再入制导问题而言，制导方法一般由纵向和侧向制导两部分构成。其中，纵向制导用于倾侧角幅值和攻角的求取来满足飞行器的航程要求；侧向制导用于倾侧角符号的求取来满足飞行器的横侧向精度要求。因此，在侧向制导方法设计中增加有关禁飞区的规避逻辑，通过飞行器的横侧向机动来避开禁飞区，成为一种可行的禁飞区规避实现方法。

目前，研究人员通过离线设置参考航路点、动态调整航向角误差走廊、人工势场等方法进行侧向规避制导逻辑的设计。但是，这些方法存在需提前已知禁飞区信息、或无法同时考虑多个禁飞区、或算法适应能力较差等缺点。此外，高超声速飞行器再入过程中高度、速度变化范围较大，飞行器的气动特性和机动能力差异巨大；整个飞行过程中禁飞区分布复杂，甚至存在需在线探测的禁飞区；这些因素也导致目前规避制导算法仍存在规避性能较差的缺点。

因此，如何设计有效的规避制导方法，在不影响飞行器终端任务完成能力的前提下，实现对禁飞区的有效规避，成为学者们亟待解决的问题。

发明内容

本发明为了突破现有高超声速飞行器规避制导方法存在的规避性能差、自适应能力差等缺点，结合新一代人工智能的最新研究成果，提出一种基于深度强化学习的高超声速飞行器规避制导方法。

具体包括以下步骤：

步骤一、针对高超声速再入飞行器，建立面向制导算法的三自由度质点运动方程；

运动方程计算公式如下：

f_V,f_θ,

分别定义如下：

其中，r表示地心与飞行器质心之间的距离，V表示飞行器的速度，θ表示飞行器的弹道倾角，λ和φ分别表示经度和纬度，ψ_s表示飞行器的航向角，m表示飞行器的质量，g表示重力加速度，ω_e表示地球自转角速率，L和D分别表示飞行器的升力和阻力，γ_s表示飞行器的倾侧角，也是再入制导中的唯一控制量。

步骤二、建立三自由度方程质点运动方程需要满足的再入飞行约束；

再入飞行约束包括过程约束、终端约束和禁飞区约束。

过程约束包括：热流密度约束

动压约束Q、过载约束n和准平衡滑翔约束；

表示如下：

Q＝0.5ρV²≤Q_max (11)

Lcosγ_s/(mV)+(V/r-g/V)＝0 (13)

其中，K_Q为与飞行器相关的常值参数，ρ表示大气密度，

Q_max和n_max分别为热流密度约束、动压约束和过载约束的最大幅值。

终端约束包括终端高度、速度、经度和纬度约束；表示如下：

r(e_f)＝r_f,V(e_f)＝V_f,λ(e_f)＝λ_f,φ(e_f)＝φ_f (14)

其中，r_f,V_f,λ_f,φ_f分别为飞行器给定的终端高度、速度、经度和纬度，e_f＝1/r_f-V_f ²/2表示给定的终端能量。

禁飞区约束采用标准凸多面体进行建模，表示如下：

其中，

表示飞行器当前的经度、纬度和归一化的高度；

表示禁飞区地面中心的经度、纬度和归一化的高度；a,b,c和p,q,r均为大于零的数；

Γ(P)＝1表示飞行器在禁飞区包络表面，Γ(P)＞1表示禁飞区包络外部区域，Γ(P)＜1表示禁飞区包络内部区域。

步骤三、建立三自由度质点运动方程以及满足再入飞行约束的纵向制导方法；

纵向制导采用传统数值预测校正制导进行倾侧角幅值的求取；具体为：

步骤301、在每个制导周期内，给定一个初始倾侧角γ_s,i的幅值。

步骤302、从飞行器当前状态对运动方程进行积分，以飞行器能量e达到给定终端能量e_f为停止条件，进行飞行器终端状态的预测；得到给定倾侧角幅值|γ_s,i|作用下，飞行器的待飞航程偏差f_i(|γ_s,i|)；

计算公式为：

其中，S_pt,togo表示飞行器当前位置与预测的终端位置的星下点圆弧长度，

表示飞行器当前位置与给定的终端位置的星下点圆弧长度；表示如下：

S_pt,togo＝arccos(sinφsinφ_pt+cosφcosφ_ptcos(λ_pt-λ)) (17)

其中，λ_pt,φ_pt表示预测的飞行器终端的经度与纬度；

步骤303、由割线法快速求解当前制导周期内，使待飞航程偏差f_i(|γ_s,i|)为零的倾侧角幅值；

具体计算公式如下：

其中，i表示当前制导周期内的割线法迭代次数。

步骤304、借助准平衡滑翔约束，对热流密度约束、动压约束和过载约束进行转化，得到飞行器倾侧角的幅值约束|γ_s|_max；

具体表达如下：

其中，

分别表示由热流密度约束、动压约束和过载约束转化得到的倾侧角的幅值约束。

步骤四、建立三自由度质点运动方程以及满足再入飞行约束的侧向制导方法；

侧向制导采用扰动流体算法进行期望航向角的求取，然后结合航向角误差走廊，进行倾侧角符号的求取。

具体步骤如下：

步骤401，以汇流作为初始流场，其流速u(P)定义为：

式中，飞行器的速度V表示汇流速率；

表示飞行器给定的归一化高度；d(P,P_f)表示飞行器当前位置P与给定终端位置P_f的欧式距离。

步骤402，假设环境中有K个禁飞区，将禁飞区对初始流场的扰动影响用扰动矩阵M(P)量化表示：

其中，M_k(P)为第k个禁飞区的扰动矩阵，ω_k(P)表示第k个禁飞区的权重系数。

第k个禁飞区的扰动矩阵M_k(P)定义为：

其中，I表示单位矩阵，n_k(P)表示第k个禁飞区的径向法向量，Γ_k(P)表示第k个禁飞区的约束函数，σ_k表示切向反应系数，t_k(P)＝R_kt′_k(P)，t′_k(P)＝[cosθ_k sinθ_k 0]^T，θ_k∈[-π,π]为切向方向系数；R_k表示坐标旋转矩阵。

切向反应系数σ_k决定了飞行器的规避时机，值越大，规避禁飞区的时机越早；切向方向系数θ_k决定了飞行器遇到禁飞区后的规避方向。

步骤403，利用扰动矩阵

修正初始流场流速，得到扰动流场流速

步骤404，根据扰动流场流速

计算下一时刻飞行器的位置：

其中，

分别表示下一制导周期飞行器的经度、纬度和归一化的高度，ΔT表示制导周期。

步骤405，根据飞行器当前时刻的位置和下一时刻的位置，得出期望的航向角，进一步计算航向角误差Δψ；

期望的航向角ψ_N表示如下：

则可得航向角误差Δψ，表示如下：

Δψ＝ψ_s-ψ_N (27)

步骤406，根据航向角误差走廊，求得当前时刻的侧向制导指令，即倾侧角的符号。

其中，sgn(|γ_s,i|)表示当前时刻的倾侧角的符号，sgn(|γ_s,i-1|)表示上一制导时刻的倾侧角的符号，Δψ_up,Δψ_down分别表示航向角误差走廊的上界与下界。

步骤五、将深度强化学习算法与纵向制导和侧向制导相结合，进行智能体训练，在线优化优化切向反应系数σ_k和切向方向系数θ_k，提高飞行器在不同飞行环境中的规避性能和自适应能力。

具体步骤如下：

首先，分别构建飞行器再入规避制导的深度强化学习训练环境以及深度强化学习智能体；

构建的深度强化学习PPO智能体，包括智能体观测输入、动作输出、奖励函数的设计与网络结构的搭建。

PPO智能体所观测的输入设计为：

s＝[r,λ,φ,V,θ,ψ_s,Δλ₁,Δφ₁,…,Δλ_k,Δφ_k,…,Δλ_K,Δφ_K,Δλ_f,Δφ_f] (29)

其中，Δλ₁,Δφ₁,…,Δλ_k,Δφ_k,…,Δλ_K,Δφ_K表示飞行器当前位置和第k个禁飞区中心的经纬度之差，K表示禁飞区的个数，Δλ_f,Δφ_f表示飞行器与终端位置的经纬度之差。

PPO智能体的动作输出设计为：

a＝[σ_k θ_k] (30)

PPO智能体的奖励函数设计为：

r＝r₁(Γ₁(P))+…+r_k(Γ_k(P))+…+r_K(Γ_K(P))+r_f(Γ_f(P)) (31)

其中，r₁(Γ₁(P)),…,r_k(Γ_k(P)),…,r_K(Γ_K(P))表示与禁飞区相关的奖励函数，r_f(Γ_f(P))表示与终端位置相关的奖励函数，Γ_k(P)表示飞行器到第k个禁飞区的距离，Γ_f(P)表示飞行器和终端位置的距离。

奖励函数项r_k(Γ_k(P))设计如下：

其中，R_C表示禁飞区半径，-1000为强奖励项，

为弱激励项，引导飞行器远离禁飞区。

奖励函数项r_f(Γ_f(P))设计如下：

其中，R_f表示终端位置半径，1000为强奖励项，-Γ_f(P)为弱激励项，引导飞行器向终端位置飞行。

PPO智能体的网络结构搭建：PPO智能体包括1个策略网络和1个评价网络，均采用深度全连接网络进行构建。

然后，在所构建的训练环境和智能体的基础上，进行深度强化学习PPO算法的充分迭代，得到训练好的策略网络。

策略网络根据观测到的飞行器当前状态进行计算，在线输出侧向制导中的切向反应系数σ_k和切向方向系数θ_k，提高飞行器在不同飞行环境中的规避性能和自适应能力。

本发明的优点在于：

(1)一种基于深度强化学习的高超声速飞行器规避制导方法，通过采用扰动流体算法进行侧向规避制导逻辑设计，具有可以综合考虑所有已知禁飞区影响的优势；

(2)一种基于深度强化学习的高超声速飞行器规避制导方法，通过采用深度强化学习方法进行算法参数的在线优化，提升了飞行器在不同飞行环境中的规避性能和自适应能力；

(3)一种基于深度强化学习的高超声速飞行器规避制导方法，其侧向制导算法部分可以与其他多种纵向制导方法进行结合，具有极强的可拓展性。

附图说明

图1为本发明一种基于深度强化学习的高超声速飞行器规避制导方法的流程图；

图2为本发明一种基于深度强化学习的高超声速飞行器规避制导方法的总体框架图；

图3为本发明深度强化学习的训练结构图；

图4为本发明深度强化学习智能体的网络结构图；

图5为本发明与航向角误差走廊动态调整、人工势场方法的规避效果对比图；

图6为本发明与航向角误差走廊动态调整、人工势场方法的制导指令对比图；

图7为本发明深度强化学习输出的扰动流体算法参数曲线图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图和实施例对本发明作进一步的详细描述。

如图1和图2所示，具体描述如下：

考虑地球曲率和自转角速率，高超声速再入飞行器的三自由度质点运动方程计算公式如下：

f_V,f_θ,

分别定义如下：

f_θ＝2ω_eVcosφsinψ_s+ω_e ²rcosφ(cosθcosφ+sinθcosψ_ssinφ) (8)

其中，r表示地心与飞行器质心之间的距离(地心距)，V表示飞行器的速度，θ表示飞行器的弹道倾角，λ和φ分别表示经度和纬度，ψ_s表示飞行器的航向角，m表示飞行器的质量，g表示重力加速度，g＝μ/r²，μ表示地球引力常数；ω_e表示地球自转角速率，L和D分别表示飞行器的升力和阻力，L＝QSC_L和D＝QSC_D，Q表示动压，S表示飞行器的参考面积，C_L和C_D分别表示升力和阻力系数，γ_s表示飞行器的倾侧角，也是再入制导中的唯一控制量。

考虑禁飞区规避的再入制导问题，其再入飞行约束包括过程约束、终端约束和禁飞区约束。

过程约束包括：热流密度约束

动压约束Q、过载约束n和准平衡滑翔约束；

表示如下：

Q＝0.5ρV²≤Q_max (11)

Lcosγ_s/(mV)+(V/r-g/V)＝0 (13)

其中，K_Q为与飞行器相关的常值参数，ρ表示大气密度，

Q_max和n_max分别为热流密度约束、动压约束和过载约束的最大幅值，由飞行器本身的结构和材料所决定。

终端约束包括终端高度、速度、经度和纬度约束；定义能量e＝1/r-V²/2作为自变量，则终端约束表示如下：

r(e_f)＝r_f,V(e_f)＝V_f,λ(e_f)＝λ_f,φ(e_f)＝φ_f (14)

禁飞区是指飞行轨迹不能从其上方经过的区域，一般采用无限高的圆柱模型来描述禁飞区约束，本发明为方便所提制导方法设计，采用标准凸多面体进行禁飞区约束建模：

其中，

表示飞行器当前的经度、纬度和归一化的高度；

表示禁飞区地面中心的经度、纬度和归一化的高度；由于经度、纬度单位均为弧度，飞行器高度单位为m，为减轻因数值大小差异过大造成的对模型的影响，将高度进行归一化处理

R₀表示地球半径。

a,b,c和p,q,r均为大于零的数；它们分别决定了禁飞区的覆盖范围与形状，选取p＝q＝1,r＞1,a＝b＝R_c，c取较大的数即可表示禁飞区为无限高的圆柱，R_c表示禁飞区的半径。

计算公式为：

S_pt,togo＝arccos(sinφsinφ_pt+cosφcosφ_ptcos(λ_pt-λ)) (17)

其中，λ,φ表示飞行器当前的经度与纬度，λ_pt,φ_pt表示预测的飞行器终端的经度与纬度；λ_f,φ_f表示给定的飞行器终端的经度与纬度。

具体计算公式如下：

其中，i表示当前制导周期内的割线法迭代次数；由此，即可求得当前制导周期内倾侧角的幅值。

具体表达如下：

其中，

本发明采用扰动流体算法进行侧向制导指令的求取，扰动流体算法提取了自然界流水避石现象，与飞行器规避禁飞区问题有相似之处。当河流中没有石头时(飞行过程中没有需要躲避的禁飞区)，笔直的流水可看作初始流场，水流沿初始流场由当前位置向终端位置流去；当河流中存在石头时(飞行过程中存在需要躲避的禁飞区)，绕过石头的流水可等效为扰动流场，水流沿扰动流场由当前位置向终端位置流去。

具体步骤如下：

步骤401，以汇流作为初始流场，其流速u(P)定义为：

式中，V表示汇流速率，即飞行器速度；

λ_f，φ_f，

分别表示飞行器给定的终端经度、纬度和归一化的高度；λ，φ，

表示飞行器当前的经度、纬度和归一化的高度；d(P,P_f)表示飞行器当前位置P与给定终端位置P_f的欧式距离：

当环境中不存在禁飞区时，u(P)即可作为飞行器的飞行速度。

第k个禁飞区的扰动矩阵M_k(P)定义为：

其中，I表示单位矩阵，n_k(P)表示第k个禁飞区的径向法向量，Γ_k(P)表示第k个禁飞区的约束函数，σ_k表示切向反应系数，t_k(P)＝R_kt′_k(P)，t′_k(P)＝[cosθ_k sinθ_k 0]^T，θ_k∈[-π,π]为切向方向系数，表示任意切向量与向量t_k,1(P)的夹角，t_k,1(P)和t_k,2(P)为与第k个禁飞区径向法向量n_k(P)垂直的切平面S上，所互相垂直的两个切向量；

t_k,1(P)定义为：

t_k,2(P)定义为：

R_k表示由t_k,1(P)作为x′轴，t_k,2(P)作为y′轴，n_k(P)作为z′轴所建立的坐标系o′-x′y′z′和地面坐标系间的坐标旋转矩阵。

第k个禁飞区的权重系数ω_k(P)主要取决于飞行器与禁飞区包络表面的距离，通常距离越大权重系数越小，定义如下：

其中，Γ_i(P)禁飞区约束函数；由于

因此对权重系数进一步处理如下：

步骤403，利用扰动矩阵

修正初始流场流速，得到扰动流场流速

步骤404，根据扰动流场流速

计算下一时刻飞行器的位置：

其中，

步骤405，根据飞行器当前时刻的位置和下一时刻的位置，得出期望的航向角，进一步计算当前时刻的航向角误差Δψ；

期望的航向角ψ_N表示如下：

则可得航向角误差Δψ，表示如下：

Δψ＝ψ_s-ψ_N (30)

扰动流体算法中，决定飞行器规避成功与否以及规避性能的两个关键算法参数是：切向反应系数σ_k和切向方向系数θ_k。

由于在再入过程中高度、速度变化范围较大，飞行器的气动特性和机动能力差异巨大，因此，需要根据实际情况通过人工经验选取或采用优化策略来调整反应系数σ_k和方向系数θ_k，提升规避的性能。

本发明采用近端策略优化(Proximal Policy Optimization,PPO)深度强化学习算法进行智能体训练，以根据飞行器当前状态，进行扰动流体算法中的切向反应系数σ_k和切向方向系数θ_k的在线优化，提升飞行器在不同飞行环境中的规避性能和自适应能力。

具体步骤如下：

根据飞行器运动方程和再入飞行约束模型，以及高超声速飞行器再入规避制导方法进行深度强化学习的训练环境的构建，如图3所示。

PPO智能体所观测的输入设计为：

s＝[r,λ,φ,V,θ,ψ_s,Δλ₁,Δφ₁,…,Δλ_k,Δφ_k,…,Δλ_K,Δφ_K,Δλ_f,Δφ_f] (32)

其中，Δλ₁,Δφ₁,…,Δλ_k,Δφ_k,…,Δλ_K,Δφ_K表示飞行器当前位置和第k个禁飞区中心的经纬度之差，K表示禁飞区的个数，r,λ,φ,V,θ,ψ_s表示飞行器当前的飞行状态，Δλ_f,Δφ_f表示飞行器与终端位置的经纬度之差。

PPO智能体的动作输出设计为：

a＝[σ_k θ_k] (33)

σ_k,θ_k分别为扰动流体算法中的参数。

PPO智能体的奖励函数设计为：

r＝r₁(Γ₁(P))+…+r_k(Γ_k(P))+…+r_K(Γ_K(P))+r_f(Γ_f(P)) (34)

奖励函数项r_k(Γ_k(P))设计如下：

其中，R_C表示禁飞区半径，-1000为强奖励项，

为弱激励项，引导飞行器远离禁飞区。

奖励函数项r_f(Γ_f(P))设计如下：

PPO智能体的网络结构搭建：PPO智能体包括1个策略网络和1个评价网络，均采用深度全连接网络进行构建，如图4所示。

深度强化学习PPO算法流程如下所示：

(1)利用随机参数θ和θ_old初始化策略网络π_θ和旧策略网络

然后在每个训练回合中进行如下循环：

(2)初始化训练环境，执行策略π_θ(a|s)，交互获得整个训练回合的数据时间序列R_t,t＝1,2,…,T；

(3)根据获得的数据时间序列R_t计算优势函数

(4)对数据时间序列进行采样，然后计算目标函数

关于的θ梯度，进行参数θ的更新；

(5)将更新后的参数θ复制给旧策略网络θ_old。

将该训练好的策略网络与侧向制导及纵向制导结合，得到基于深度强化学习的高超声速飞行器规避制导方法；策略网络根据观测到的飞行器当前状态进行计算，在线输出侧向制导中的切向反应系数σ_k和切向方向系数θ_k，提高飞行器在不同飞行环境中的规避性能和自适应能力。

实施例：

为检验本发明一种基于深度强化学习的高超声速飞行器规避制导方法的有效性，以通用航天器为实施例，进行仿真验证。

飞行器初始状态设置为：

h₀＝80km,V₀＝7.1km/s,λ₀＝10°,φ₀＝-20°,θ₀＝-1°,ψ_s,0＝45°。路径约束的限幅值设置为：

q_max＝200kPa,n_max＝4.5。

飞行器终端状态设置为：h_f＝20km,V_f＝1.8km/s,λ₀＝90°,φ₀＝30°。

本发明所提规避制导方法与航向角误差走廊动态调整、人工势场方法的规避效果对比如图5所示，在复杂禁飞区分布的再入制导飞行场景中，在航向角误差走廊动态调整、人工势场方法作用下，飞行器均进入禁飞区，导致任务失败；只有在本发明所提规避制导方法作用下，飞行器可以成功规避所有禁飞区，成功抵达目标终端位置。

本发明所提规避制导方法与航向角误差走廊动态调整、人工势场方法的制导指令对比如图6所示，在飞行器规避性能提升的同时，本发明所提规避制导方法的倾侧角翻转次数并无明显提升，具有较强的易实现性。

图7给出了本发明深度强化学习输出的扰动流体算法参数曲线图，在整个飞行过程中，由于飞行器高度、速度变化范围巨大，导致飞行器气动特性和机动能力的变化也较为明显，深度强化学习可以根据当前状态进行算法参数的在线优化，以提升本发明所提规避制导算法的规避性能和自适应能力。

综合上述对实施例的仿真验证，证明了本发明一种基于深度强化学习的高超声速飞行器规避制导方法的有效性。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于深度强化学习的高超声速飞行器规避制导方法，其特征在于，具体包括以下步骤：

首先、针对高超声速再入飞行器，建立面向制导算法的三自由度质点运动方程；

运动方程计算公式如下：

f_V,f_θ,f_ψs分别定义如下：

f_V＝ω_e ²rcosφ(sinθcosφ-cosθsinφcosψ_s) (7)

f_θ＝2ω_eVcosφsinψ_s+ω_e ²rcosφ(cosθcosφ+sinθcosψ_ssinφ) (8)

其中，r表示地心与飞行器质心之间的距离，V表示飞行器的速度，θ表示飞行器的弹道倾角，λ和φ分别表示经度和纬度，ψ_s表示飞行器的航向角，m表示飞行器的质量，g表示重力加速度，ω_e表示地球自转角速率，L和D分别表示飞行器的升力和阻力，γ_s表示飞行器的倾侧角，也是再入制导中的唯一控制量；

然后、建立三自由度方程质点运动方程需要满足的再入飞行约束；并进一步分别建立三自由度质点运动方程以及满足再入飞行约束的纵向和侧向制导方法；

纵向制导采用传统数值预测校正制导进行倾侧角幅值的求取；侧向制导采用扰动流体算法进行期望航向角的求取，然后结合航向角误差走廊，进行倾侧角符号的求取；

最后、将深度强化学习算法与纵向制导和侧向制导相结合，进行智能体训练，在线优化优化切向反应系数σ_k和切向方向系数θ_k，提高飞行器在不同飞行环境中的规避性能和自适应能力。

2.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法，其特征在于，所述再入飞行约束包括过程约束、终端约束和禁飞区约束；

过程约束包括：热流密度约束

动压约束Q、过载约束n和准平衡滑翔约束；

表示如下：

Q＝0.5ρV²≤Q_max (11)

Lcosγ_s/(mV)+(V/r-g/V)＝0 (13)

其中，K_Q为与飞行器相关的常值参数，ρ表示大气密度，

Q_max和n_max分别为热流密度约束、动压约束和过载约束的最大幅值；

r(e_f)＝r_f,V(e_f)＝V_f,λ(e_f)＝λ_f,φ(e_f)＝φ_f (14)

其中，r_f,V_f,λ_f,φ_f分别为飞行器给定的终端高度、速度、经度和纬度，e_f＝1/r_f-V_f ²/2表示给定的终端能量；

禁飞区约束采用标准凸多面体进行建模，表示如下：

其中，

表示飞行器当前的经度、纬度和归一化的高度；

3.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法，其特征在于，所述纵向制导求取倾侧角幅值，具体为：

步骤301、在每个制导周期内，给定一个初始倾侧角γ_s,i的幅值；

计算公式为：

S_pt,togo＝arccos(sinφsinφ_pt+cosφcosφ_ptcos(λ_pt-λ)) (17)

其中，λ_pt,φ_pt表示预测的飞行器终端的经度与纬度；

具体计算公式如下：

其中，i表示当前制导周期内的割线法迭代次数；

具体表达如下：

其中，

γ_{s,max_Q},γ_{s,max_n}分别表示由热流密度约束、动压约束和过载约束转化得到的倾侧角的幅值约束。

4.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法，其特征在于，所述侧向制导取倾侧角符号，具体为：

步骤401，以汇流作为初始流场，其流速u(P)定义为：

式中，飞行器的速度V表示汇流速率；

表示飞行器给定的归一化高度；d(P,P_f)表示飞行器当前位置P与给定终端位置P_f的欧式距离；

步骤402，假设环境中有K个禁飞区，将禁飞区对初始流场的扰动影响用扰动矩阵

量化表示：

其中，M_k(P)为第k个禁飞区的扰动矩阵，ω_k(P)表示第k个禁飞区的权重系数；

第k个禁飞区的扰动矩阵M_k(P)定义为：

其中，I表示单位矩阵，n_k(P)表示第k个禁飞区的径向法向量，Γ_k(P)表示第k个禁飞区的约束函数，σ_k表示切向反应系数，t_k(P)＝R_kt′_k(P)，t′_k(P)＝[cosθ_k sinθ_k 0]^T，θ_k∈[-π,π]为切向方向系数；R_k表示坐标旋转矩阵；

切向反应系数σ_k决定了飞行器的规避时机，值越大，规避禁飞区的时机越早；切向方向系数θ_k决定了飞行器遇到禁飞区后的规避方向；

步骤403，利用扰动矩阵

修正初始流场流速，得到扰动流场流速

步骤404，根据扰动流场流速

计算下一时刻飞行器的位置：

其中，λ_t+1,φ_t+1,

分别表示下一制导周期飞行器的经度、纬度和归一化的高度，ΔT表示制导周期；

期望的航向角ψ_N表示如下：

则可得航向角误差Δψ，表示如下：

Δψ＝ψ_s-ψ_N (27)

步骤406，根据航向角误差走廊，求得当前时刻的侧向制导指令，即倾侧角的符号；

5.如权利要求1所述的一种基于深度强化学习的高超声速飞行器规避制导方法，其特征在于，所述深度强化学习算法与纵向制导和侧向制导相结合，在线优化优化切向反应系数σ_k和切向方向系数θ_k，具体为具体步骤如下：

构建的深度强化学习PPO智能体，包括智能体观测输入、动作输出、奖励函数的设计与网络结构的搭建；

PPO智能体所观测的输入设计为：

其中，Δλ₁,Δφ₁,…,Δλ_k,Δφ_k,…,Δλ_K,Δφ_K表示飞行器当前位置和第k个禁飞区中心的经纬度之差，K表示禁飞区的个数，Δλ_f,Δφ_f表示飞行器与终端位置的经纬度之差；

PPO智能体的动作输出设计为：

a＝[σ_k θ_k] (30)

PPO智能体的奖励函数设计为：

r＝r₁(Γ₁(P))+…+r_k(Γ_k(P))+…+r_K(Γ_K(P))+r_f(Γ_f(P)) (31)

其中，r₁(Γ₁(P)),…,r_k(Γ_k(P)),…,r_K(Γ_K(P))表示与禁飞区相关的奖励函数，r_f(Γ_f(P))表示与终端位置相关的奖励函数，Γ_k(P)表示飞行器到第k个禁飞区的距离，Γ_f(P)表示飞行器和终端位置的距离；

奖励函数项r_k(Γ_k(P))设计如下：

其中，R_C表示禁飞区半径，-1000为强奖励项，

为弱激励项，引导飞行器远离禁飞区；

奖励函数项r_f(Γ_f(P))设计如下：

其中，R_f表示终端位置半径，1000为强奖励项，-Γ_f(P)为弱激励项，引导飞行器向终端位置飞行；

PPO智能体的网络结构搭建：PPO智能体包括1个策略网络和1个评价网络，均采用深度全连接网络进行构建；

然后，在所构建的训练环境和智能体的基础上，进行深度强化学习PPO算法的充分迭代，得到训练好的策略网络；