CN114253296A

CN114253296A - 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质

Info

Publication number: CN114253296A
Application number: CN202111580724.4A
Authority: CN
Inventors: 王鹏; 鲍存余; 何睿智; 汤国建
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-03-29

Abstract

高超声速飞行器机载轨迹规划方法、装置、飞行器及介质，将高超声速飞行器的再入滑翔段运动方程作为其轨迹规划问题的训练环境；构建所述轨迹规划问题的状态空间和策略动作空间、环境动态转移函数、奖励函数以及折扣因子；利用深度强化学习算法对所述轨迹规划问题的神经网络进行训练。将飞行过程中获得的状态空间输入到训练好的Actor网络，获得策略动作空间，使高超声速飞行器将按照所述策略动作空间飞行至预定的目标区域，完成再入滑翔段飞行任务。本发明利用人工智能算法在实现了高超声速飞行器滑翔段机载实时轨迹规划，提高了飞行器的任务适应能力，有效解决高超声速变形飞行器再如滑翔飞行的轨迹在线规划困难的问题。

Description

高超声速飞行器机载轨迹规划方法、装置、飞行器及介质

技术领域

本发明属于飞行器控制技术领域，特别涉及一种高超声速飞行器机载轨迹规划方法、装置、飞行器及介质。

背景技术

高超声速滑翔飞行器的再入滑翔段的轨迹在线生成任务是在考虑复杂非线性、强耦合的动力学特性、强不确定的飞行环境和满足多约束限制的情况下，实时输出指令引导飞行器从当前位置精确飞抵预设目标区域。滑翔段轨迹效果不仅决定了飞行器能否在飞向目标区域，同时还影响俯冲段起始点的飞行状态。在传统的飞行器的轨迹规划中，假设飞行器的初始状态已知，并预先得到最优轨迹。然而，在高超声速滑翔实际飞行中，由于飞行不确定性和外部干扰，这一假设很难成立，这意味着再入滑翔段的初始状态可能偏离规定的起点。因此研究一种新型高效、稳定、计算量小的机载在线轨迹规划方法，从扰动初始状态自主生成最优轨迹，以保证更高的自主性、鲁棒性和实时性，具有重要意义。

近几年，随着RL、深度学习为代表的人工智能算法的发展，也为探索高超声速飞行器智能化飞行控制技术提供了新的技术方向。深度学习中的深度神经网络(DNN)在理论上可以无限逼近任何非线性系统，因此不仅可以用来学习最优控制问题的输入/输出映射，同时可以极高的精度学习优化模型的基本原理。强化学习被认为是设计智能系统的核心技术之一，通过赋予智能体自监督学习能力以及运用“尝试-试错”与平衡“探索与利用”等机制，实现智能体与环境的不断交互，根据环境给出的奖励或惩罚反馈，改进行动策略。相比于最优控制方法，尽管强化学习算法在训练时呈现出很高的计算成本，但它们在部署时以比最优控制低得多的计算成本实现了类似于最优控制的性能，同时还提出了一个更通用的设计框架。

强化学习本质上解决的是一个序贯决策问题，而高超声速飞行器在线轨迹规划正是根据当前状态实时解算最优控制量，因此，原理上强化学习是在线轨迹规划的有效技术途径。

发明内容

针对现有技术中高超声速飞行器再入滑翔段的轨迹规划问题，本发明的目的是提供一种高超声速飞行器机载轨迹规划方法、装置、飞行器及介质。本发明通过利用人工智能中的强化学习算法对高超声速飞行器再入滑翔段的轨迹进行机载在线规划，使得高超声速飞行器能够很好地实现再入飞行的任务需求。

为实现上述技术目的，本发明提出的技术方案为：

一方面，本发明提供一种高超声速飞行器机载轨迹规划方法，包括：

将高超声速飞行器的再入滑翔段运动方程作为高超声速飞行器再入滑翔段的轨迹规划问题的训练环境；

构建高超声速飞行器再入滑翔段的轨迹规划问题的状态空间和策略动作空间，状态空间包括高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角，策略动作空间为高超声速飞行器的倾侧角；

设计高超声速飞行器再入滑翔段的轨迹规划问题的环境动态转移函数、奖励函数以及折扣因子；

构建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络，神经网络包括Actor网络与Critic网络，利用深度强化学习算法对所述神经网络进行训练，得到训练好的Actor网络；

在飞行过程中，将高超声速飞行器的状态空间输入到训练好的Actor网络，获得高超声速飞行器的策略动作空间，使高超声速飞行器将按照所述策略动作空间飞行至预定的目标区域，完成再入滑翔段飞行任务。

另一方面，本发明提供一种高超声速飞行器机载轨迹规划装置，包括：

第一模块，用于构建训练环境，将高超声速飞行器的再入滑翔段运动方程作为高超声速飞行器再入滑翔段的轨迹规划问题的训练环境；

第二模块，用于构建高超声速飞行器再入滑翔段的轨迹规划问题的状态空间和策略动作空间，状态空间包括高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角，策略动作空间为高超声速飞行器的倾侧角；

第三模块，用于设计高超声速飞行器再入滑翔段的轨迹规划问题的环境动态转移函数、奖励函数以及折扣因子；

第四模块，用于构建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络，神经网络包括Actor网络与Critic网络，利用深度强化学习算法对所述神经网络进行训练，得到训练好的Actor网络；

第五模块，用于将高超声速飞行器飞行过程中获取的实时状态空间输入到训练好的Actor网络，获得高超声速飞行器的策略动作空间，使高超声速飞行器将按照所述策略动作空间飞行至预定的目标区域，完成再入滑翔段飞行任务。

另一方面，本发明提供一种高超声速飞行器，包括机体与设在机体内的机载电路板，所述机载电路板上设有处理器与存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述高超声速飞行器机载轨迹规划方法的步骤。

再一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述高超声速飞行器机载轨迹规划方法的步骤。

与现有技术相比，本发明的优点在于：

本发明针对高超声速飞行器再入滑翔段的轨迹规划问题，以DNN为模型，基于强化学习的ODPDAC算法，设置以目标终端精度最高为导向的奖励函数，通过端对端学习得到一个满足实时轨迹规划要求的机载轨迹生成网络，该网络可以直接根据在线观测的运动状态空间实时输出轨迹控制指令。该方法适用于高超声速飞行器再入滑翔段飞行任务的完成，工程应用意义重大，有效解决高超声速飞行器再入滑翔段的机载轨迹生成问题，同时保证了控制生成实现的实时性，具有实时机载高精度轨迹规划能力。

附图说明

图1是本发明一实施例的控制流程示意图；

图2是本发明一实施例中采用的ODPDAC算法结构示意图；

图3是本发明一实施例中强化学习终端奖励值随训练回合的变化曲线图；

图4是本发明一实施例中强化学习终端位置偏差随训练回合的变化曲线图；

图5是本发明一实施例中强化学习终端高度偏差随训练回合的变化曲线图；

图6是本发明一实施例中再入滑翔段飞行三维轨迹曲线图；

图7是本发明一实施例中再入滑翔段飞行高度经度、纬度变化曲线图；

图8是本发明一实施例中再入滑翔段飞行速度、速度倾角、航迹偏航角变化曲线图；

图9是本发明一实施例中再入滑翔段飞行热流密度、动压、过载变化曲线图；

图10是本发明一实施例中再入滑翔段飞行控制量倾侧角的变化曲线图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本发明所揭示内容的精神，任何所属技术领域技术人员在了解本发明内容的实施例后，当可由本发明内容所教示的技术，加以改变及修饰，其并不脱离本发明内容的精神与范围。本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

参照图1，本发明一实施例中，提供一种高超声速飞行器机载轨迹规划方法，包括：

本发明可以广泛适用于现有的各种高超声速飞行器。不失一般性，在本发明一实施例中，选取的高超声速飞行器为已公开的Common Aero Vehicle(CAV-H)飞行器，其高超声速飞行器的再入滑翔段运动方程如下式所示：

式中：r、λ、φ、V、θ、σ分别高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角，υ是高超声速飞行器的倾侧角；g＝μ/r²为地球引力加速度，其中μ为地球引力常数；L、D分别为高超声速飞行器的升力和阻力加速度大小；地球旋转对应的哥氏加速度项C_σ、C_θ以及牵连加速度项

和

分别为：

式中ω_e为地球旋转角速度，已知量。

L、D的表达式如下：

上式中，M为高超声速飞行器的质量；S_r为高超声速飞行器的参考面积，已知量；C_L、C_D分别为高超声速飞行器的升力系数和阻力系数，两者都是关于攻角α和马赫数Ma的函数，已知量；

为动压，其中ρ为大气密度，已知量。

对于不同的高超声速飞行器，其再入滑翔段运动方程有差别。但是本案的方法广泛适应于各种高超声速飞行器。对于高超声速飞行器，构建其对应的再入滑翔段运动方程，简记为：

结合高超声速飞行器的再入滑翔段运动方程，将高超声速飞行器再入滑翔段的轨迹规划问题表述如下：

P₀:min J

选取飞行器落点和期望目标点相对距离最小为目标函数。

其中，λ_f为飞行器落点经度，φ_f为飞行器落点纬度，r_f为飞行器落点地心距。

为期望目标点经度，

为期望目标点纬度，

为期望目标点地心距，等价于期望目标点高度。C₁和C₂均为权重系数，已知量。

是高超声速飞行器的再入滑翔段运动方程的形式简化。

q_maxn_max分别为热流密度

动压q和过载n的最大约束值，均为已知量。

式中，k_Q为热流密度常数，已知量。

对于攻角α，本领域技术人员可以根据实际情况进行设计。在本发明一优选实施例中，设计如下：

Lcosσ+(V²-1/r)(1/r)＝0是准平衡滑翔条件，作为软约束在高超声速飞行器再入滑翔段的轨迹规划问题之中。x(t₀)＝x₀,x(t_f)＝x_f表示高超声速飞行器再入滑翔段的轨迹规划问题的边界条件约束，分别为飞行器起点和终点状态约束。J为目标函数。高超声速飞行器的倾侧角υ作为控制量a，即：

a＝υ

对高超声速飞行器的倾侧角的幅值|υ|和变化率的幅值

加以约束如下：

式中，υ_max与

分别为高超声速飞行器的倾侧角的幅值|υ|和变化率的幅值

的最大约束值，已知量。

本发明中将高超声速飞行器再入滑翔段的轨迹规划问题，转化为面向强化学习的马尔可夫过程进行描述。马尔可夫过程一般由五个元素组成，分别为(S，A，P，R，γ)，其中，S和A分别是智能体的状态空间和策略动作空间，P是环境动态转移函数，R是奖励函数，γ是折扣因子。

本发明中的智能体为高超声速飞行器，将高超声速飞行器的再入滑翔段运动方程作为高超声速飞行器再入滑翔段的轨迹规划问题的训练环境。

构建高超声速飞行器再入滑翔段的轨迹规划问题的状态空间和策略动作空间，状态空间包括高超声速飞行器的地心距、经度、维度、速度、速度倾角以及航迹偏航角，策略动作空间为高超声速飞行器的倾侧角。

环境动态转移函数P＝1。

由于高超声速飞行器再入滑翔段过程中所处约束条件复杂，为了实现轨迹规划终端偏差最小，可设置奖励函数如下:

其中，H(n-n_max)、

、H(q-q_max)表示为H(x)的形式，H(x)为如下的heaviside阶跃函数：

q_max n_max分别为热流密度约束

、动压约束q和过载约束n的最大约束值，均为已知量；奖励函数中，

为速度倾角的变化率，

的绝对值越大，表示高度振荡越剧烈，受到的惩罚越大；S_f、h_f分别为高超声速飞行器落点和期望目标点的距离偏差以及高度偏差，S_r、h_r分别为奖励函数中的归一化常数，均为给定值；ΔS_f、Δh_f分别为高超声速飞行器落点和期望目标点的位置误差、高超声速飞行器落点和期望目标点的高度误差。

折扣因子γ选择一个小于1的较大数值，本发明一优选实施例中，γ为0.9975。

本发明构建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络，神经网络包括Actor网络与Critic网络，利用深度强化学习算法对所述神经网络进行训练，得到训练好的Actor网络。其中深度强化学习算法选择离线深度策略确定性AC算法(ODPDAC)对建高超声速飞行器再入滑翔段的轨迹规划问题的神经网络进行学习训练，算法结构如图2所示，分别用DNN逼近行为值函数Q(s,a)(Critic网络)和策略网络μ(a|s)(Actor网络)进行“端对端”学习。Q(s,a|θ^Q)表示利用Critic网络逼近的行为值函数，μ(s|θ_μ)表示利用Actor网络逼近的策略函数，其中θ^μ表示Actor网络μ的网络参数，θ^Q表示Critic网络Q的网络参数。

具体地，训练流程如下：

S1：随机初始化Actor网络与Critic网络的网络参数；

S2：初始化高斯噪声分布G与高超声速飞行器的状态空间；

S3：获取当前时刻高超声速飞行器的状态空间s，输入到Actor网络得到当前时刻的策略动作空间a，根据所述高超声速飞行器的再入滑翔段运动方程获得动作选择后下一时刻高超声速飞行器的状态空间s'，并根据所述奖赏函数得到当前奖赏值R，将一组样本(s,a,R,s′)存入到经验池D中；

S4：判断经验池D是否已满，若不满，则将下一时刻高超声速飞行器的状态空间s'作为当前时刻高超声速飞行器的状态空间s，重复执行步骤S2；若经验池D已满，从经验池D中随机抽取N个样本(s_i,a_i,R_i,s′_i)，i＝1,2,…N；s_i,a_i,R_i,s′_i分别代表第i个样本对应的当前时刻高超声速飞行器的状态空间、当前时刻的策略动作空间、当前奖赏值以及下一时刻高超声速飞行器的状态空间；

S5：获取各样本的行为值函数Q_i(s_i,a_i|θ^Q)与TD目标值y_i，计算损失函数E；

S6：通过最小化损失函数E，更新Critic网络的网络参数θ^Q；然后计算行为值函数Q_i(s_i,a_i|θ^Q)相对于a_i的梯度并结合Actor网络中a_i相对于网络参数θ^μ的梯度，按照梯度上升法更新Actor网络的网络参数θ^μ；

S7：判断当前高超声速飞行器机载轨迹是否结束，若结束，则重复进行步骤S2至S6，否则，重复步骤S3至S6，直至满足预设的迭代收敛条件，得到训练好的Actor网络。

作为优选实施方式，S5中，将样本的s_i与a_i输入到Critic网络计算得到行为值函数Q_i(s_i,a_i|θQ)，将样本的s′_i输入到Actor网络计算得到a′_i＝μ(s′_i|θ^μ)，将样本的s′_i与a′_i输入到Critic网络计算得到行为值函数Q′_i(s′_i,a′_i|θ^Q)，再结合R_i，代入到以下公式计算得到TD目标值y_i：

y_i＝R_i+γQ(s′_i,μ(s′_i|θ^μ)|θ^Q),i＝1,2,...,N

在获取N个样本的行为值函数Q_i(s_i,a_i|θ^Q)与TD目标值y_i之后，按照以下公式计算损失函数E：

S6中，通过最小化损失函数E，训练更新Critic网络的网络参数θ^Q；然后计算行为值函数Q_i(s_i,a_i|θ^Q)相对于a_i的梯度

结合Actor网络中a_i相对于网络参数θ^μ的梯度

按照梯度上升法得到Actor网络的参数更新值

可以理解，迭代收敛条件是指预先设置的模型计算约束条件，用于约束整个模型进行性能计算的过程趋向收敛，以使模型能够输出满足条件的结果。实际应用中，本领域技术人员也可基于现有技术、本领域的惯用技术手段或者公知常识，设定迭代收敛条件，通过判断是否满足迭代收敛条件(如迭代次数是否达到设定的最大值)判断网络训练是否结束，若结束，则保存输出所述神经网络参数；否则继续迭代。

当利用深度强化学习算法对所述神经网络训练完成之后，将实时采集到的高超声速飞行器的状态空间实时输入到训练好的Actor网络，将直接通过内部计算获得最佳的策略动作空间，使高超声速飞行器按照策略动作空间飞行至预定的目标区域，完成再入滑翔段飞行任务。

在本发明一实施例中提供一种高超声速飞行器飞行过程中的轨迹规划方法，包括以下步骤：

(1)初始化高超声速飞行器的状态空间、目标与威胁区、飞行轨迹；

(2)取当前时刻高超声速飞行器的状态空间s，输入上述实施例中提供的训练好的Actor网络，得到当前时刻的策略动作空间a以及下一时刻高超声速飞行器的状态空间s'；

(3)用下一时刻高超声速飞行器的状态空间s'替换当前时刻高超声速飞行器的状态空间s；

(4)判断当前轨迹是否结束，若结束，则保存当前完整飞行航迹，验证高超声速飞行器是否将按照指令飞行至预定的目标区域，完成了再入滑翔段飞行任务；否则，重复步骤(2)-(4)。

在本发明一实施例中，提供一种高超声速飞行器机载轨迹规划装置，包括：

上述各模块功能的实现方法，可以采用前述各实施例中相同的方法实现，在此不再赘述。

在本发明一实施例中，提供一种高超声速飞行器，包括机体与设在机体内的机载电路板，所述机载电路板上设有处理器与存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述高超声速飞行器机载轨迹规划方法的步骤。

在本发明一实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述高超声速飞行器机载轨迹规划方法的步骤。

下面对本发明上述实施例提供的高超声速飞行器机载轨迹规划方法进行仿真验证：

仿真算例：

为了验证述上述实施例提供的高超声速飞行器机载轨迹规划方法的有效性，对模型进行数值仿真。高超声速飞行器再入滑翔段的初始条件和终端条件设置如表1所示，主要约束设置如表2所示。

表1初始条件和终端条件

表2其它约束条件取值

ODPDAC包含两个DNN，Actor网络与Critic网络，Actor网络与Critic网络结构设计如表3所示，网络结构参数如表4所示。

表3 AC网络结构参数设置

表4神经网络其他超参数设置

仿真结果如图3-图10所示。

在经过3500个回合的“端对端”强化学习训练，飞行器轨迹规划任务所得到的终端奖励值、终端位置偏差以及高度偏差随着训练回合数的变化如图3-图5所示。其中图3是本仿真实例中强化学习终端奖励值随训练回合的变化曲线图；图4是本仿真实例中强化学习终端位置偏差随训练回合的变化曲线图；图5是本仿真实例中强化学习终端高度偏差随训练回合的变化曲线图。

在训练过程中，随着训练回合的增加，强化学习的终端奖励也逐渐增加，初始阶段，探索值较大，策略优化程度较小，因此初始学习阶段的奖励值较小，奖励值震荡情况明显；而随着强化学习对策略的不断优化，奖励值也逐渐增大，在前1000回合的训练中，奖励值快速增加，策略得到快速优化；在训练回合达到2500次之后，强化学习的奖励值逐渐收敛到较大值，在训练末期，飞行器轨迹规划任务的强化学习奖励最大值达到了46.63，终端距离偏差以及终端高度偏差都收敛到一个较小的值，分别为21.41km和45.4m。

为了验证经过强化学习训练所得到的策略网络的有效性，如图1所示，将训练好的策略网络代入高超声速飞行器的动力学模型中，进行再入滑翔段轨迹实时规划的计算仿真，所得到的再入滑翔段飞行轨迹和飞行状态变化结果如图6-图10所示。其中图6是本仿真实例中再入滑翔段飞行三维轨迹曲线图；图7是本仿真实例中再入滑翔段飞行高度经度、纬度变化曲线图；图8是本仿真实例中再入滑翔段飞行速度、速度倾角、航迹偏航角变化曲线图；图9是本仿真实例中再入滑翔段飞行热流密度、动压、过载变化曲线图；图10是本仿真实例中再入滑翔段飞行控制量倾侧角的变化曲线图。

由图6至图7可知，经过强化学习优化后的策略网络，可以完成滑翔段的实时在线轨迹生成，飞行器可以达到预定的位置及高度范围内，满足终端位置及高度要求。由图8可知，飞行器速度全程缓慢减小，变化趋势平缓，无急剧变化及震荡等情况，最终减小至规定的截止速度。速度倾角全程保持在0附近，除初始下降段由于升力不足导致的速度倾角变化较为剧烈之外，进入滑翔段交班点后速度倾角几乎全保持在负值，保证了飞行高度的单调下降，且滑翔段速度倾角的绝对值大多保持0.5°以内，从而使得飞行高度的震荡情况大大改善。航迹偏航角全程缓慢变化，无震荡情况出现，保证了飞行方向不会产生频繁地改变。由图9可知，飞行全程的热流密度、动压以及法向过载全程均保持在最大约束值以下，满足约束要求。由图10显示了强化学习训练的策略网络在飞行过程中输出的控制量倾侧角的变化，相比于预训练策略网络的输出结果，该控制量曲线有所改进，提升了轨迹规划的效果及奖励值。运用强化学习优化后的策略网络进行滑翔段轨迹规划的终端位置及最大约束值如表5所示：

表5终端状态偏差及最大约束值

由表5可知，滑翔段轨迹全程满足约束条件，且终端状态的位置偏差仅有21.58km，说明强化学习的奖励设置有效，训练过程中，策略网络按照奖励设置的目标导向对进行了优化，显著提升了策略网络用于轨迹规划时的效果，且策略网络在仿真过程中运算时间极短，产生控制量是近实时生成的，因此可用于高超声速飞行器滑翔段机载实时轨迹规划。

为了更好地实现高超声速飞行器在再入滑翔段的飞行任务，本发明基于强化学习算法，设计了一个适用于高超声速飞行器再入滑翔段的轨迹进行机载在线规划的方法，以DNN为模型，基于强化学习的ODPDAC算法，设置以终端精度最高为导向的奖励函数，通过端对端学习得到一个满足实时轨迹规划要求的机载轨迹生成器，提高了飞行器的任务适应能力，验证了方法在再入滑翔段进行机载轨迹生成的有效性。本发明提供了一个强化学习的人工智能算法在飞行控制上应用的新视角，将有助于高超声速飞行器智能化控制的发展。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.高超声速飞行器机载轨迹规划方法，其特征在于，包括：

2.根据权利要求1所述的高超声速飞行器机载轨迹规划方法，其特征在于，高超声速飞行器的再入滑翔段运动方程，为：

和

分别为：

式中ω_e为地球旋转角速度，已知量。

3.根据权利要求2所述的高超声速飞行器机载轨迹规划方法，其特征在于，所述环境动态转移函数P＝1，折扣因子γ小于1。

4.根据权利要求3所述的高超声速飞行器机载轨迹规划方法，其特征在于，折扣因子γ取值为0.9975。

5.根据权利要求1、2、3或4所述的高超声速飞行器机载轨迹规划方法，其特征在于，奖励函数如下:

其中，H(n-n_max)、

H(q-q_max)表示为H(x)的形式，H(x)为如下的heaviside阶跃函数：

q_max n_max分别为热流密度约束

动压约束q和过载约束n的最大约束值，均为已知量；奖励函数中，

为速度倾角的变化率，

6.根据权利要求5所述的高超声速飞行器机载轨迹规划方法，其特征在于，利用深度强化学习算法对所述神经网络进行训练，包括：

S1：随机初始化Actor网络与Critic网络的网络参数；

S2：初始化高斯噪声分布G与高超声速飞行器的状态空间；

S3：获取当前时刻高超声速飞行器的状态空间s，输入到Actor网络得到当前时刻的策略动作空间a，根据所述高超声速飞行器的再入滑翔段运动方程获得动作选择后下一时刻高超声速飞行器的状态空间s'，并根据所述奖赏函数得到当前奖赏值R，将一组样本(s,a,R,s′)存入到经验池D中，

S7：判断当前高超声速飞行器机载轨迹是否结束，若结束，则重复进行步骤S2至S6，否则，重复步骤S3至S6，直至满足迭代收敛条件，得到训练好的Actor网络。

7.根据权利要求6所述的高超声速飞行器机载轨迹规划方法，其特征在于，S5中，将样本的s_i与a_i输入到Critic网络计算得到行为值函数Q_i(s_i,a_i|θ^Q)，将样本的s′_i输入到Actor网络计算得到a′_i＝μ(s′_i|θ^μ)，将样本的s′_i与a′_i输入到Critic网络计算得到行为值函数Q′_i(s′_i,a′_i|θ^Q)，再结合R_i，代入到以下公式计算得到TD目标值y_i：

y_i＝R_i+γQ(s′_i,μ(s′_i|θ^μ)|θ^Q),i＝1,2,...,N

损失函数E：

8.高超声速飞行器机载轨迹规划装置，其特征在于，包括：

9.一种高超声速飞行器，包括机体与设在机体内的机载电路板，所述机载电路板上设有处理器与存储器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1中所述高超声速飞行器机载轨迹规划方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1中所述高超声速飞行器机载轨迹规划方法的步骤。