CN114637327A

CN114637327A - 基于深度策略性梯度强化学习的在线轨迹生成制导方法

Info

Publication number: CN114637327A
Application number: CN202210260745.6A
Authority: CN
Inventors: 韦常柱; 浦甲伦; 刘哲; 朱光楠; 张延坤
Original assignee: Harbin Zhuyu Aerospace Technology Co ltd
Current assignee: Harbin Zhuyu Aerospace Technology Co ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-06-17

Abstract

一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，属于轨迹生成技术领域。方法如下：建立无量纲化的动力学模型，并将过程约束转化为倾侧角约束；设计攻角剖面和倾侧角剖面形式；设定强化学习要素；建立actor‑critic架构的智能体；提取智能体的online‑actor网络参数并进行固定。本发明能够有效的在可重复使用运载器的滑翔段大扰动条件下生成再入轨迹；解决了传统再入飞行器轨迹制导方法对强扰动条件适应性不足，难以满足多个终端约束的问题。可通过对再入飞行攻角和倾侧角剖面的周期性预测，满足再入飞行终端高度、航程和速度约束。较传统跟踪制导方法有较大的精度提升，算法计算量小，具有较好的应用前景。

Description

基于深度策略性梯度强化学习的在线轨迹生成制导方法

技术领域

本发明涉及一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，属于轨迹生成技术领域。

背景技术

可重复使用运载器滑翔段具有广空域、宽速域的特点，再入滑翔过程中还要满足热流、过载、动压等过程约束和末端速度、高度、航程等末端约束。飞行器动力学模型复杂，气动干扰性比较强。传统制导方法很难应对滑翔过程中的强扰动条件，偏差较大。

发明内容

为解决背景技术中存在的问题，本发明提供一种基于深度策略性梯度强化学习的在线轨迹生成制导方法。

实现上述目的，本发明采取下述技术方案：一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，所述方法包括如下步骤：

S1：建立无量纲化的动力学模型，并将过程约束转化为倾侧角约束；

S2：设计攻角剖面和倾侧角剖面形式；

S3：设定强化学习要素；

S4：建立actor-critic架构的智能体；

S5：提取智能体的online-actor网络参数并进行固定。

与现有技术相比，本发明的有益效果是：

本发明考虑飞行器终点的状态约束以及整个飞行过程的过程约束，能够有效的在可重复使用运载器的滑翔段大扰动条件下生成再入轨迹；解决了传统再入飞行器轨迹制导方法对强扰动条件适应性不足，难以满足多个终端约束的问题。同时，本发明在深度确定性策略梯度学习框架基础上，通过对随机强扰动条件下的离线飞行轨迹进行网络训练，寻找不同环境影响条件下的最优动作网络，以用于在线干扰条件下的制导轨迹规划，可通过对再入飞行攻角和倾侧角剖面的周期性预测，满足再入飞行终端高度、航程和速度约束。较传统跟踪制导方法有较大的精度提升，算法计算量小，具有较好的应用前景。

附图说明

图1是本发明的流程图；

图2是本发明的DDPG强化学习在线轨迹生成制导训练与应用流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，所述方法包括如下步骤：

S1：建立无量纲化的动力学模型，并将热流、过载、动压等过程约束转化为倾侧角约束；

S101：建立无量纲化的动力学模型如下：

式(1)中：

r表示飞行器飞行时的地心距；

V表示飞行器飞行时的速度；

γ表示飞行器的飞行路径角；

θ表示飞行器飞行时的经度；

ψ表示飞行器飞行时的航向角；

表示飞行器飞行时的纬度；

σ表示飞行器飞行时的倾侧角；

D表示飞行器的气动阻力；

L表示飞行器的气动升力；

且：

式(2)中：

α表示飞行器飞行时的攻角；

C_L(α,Ma)表示由攻角和马赫数决定的升力系数；

C_D(α,Ma)表示由攻角和马赫数决定的阻力系数；

q表示飞行器的动压；

S_ref表示飞行器的参考面积；

S102：将过程约束转化为倾侧角约束的过程如下：

S10201：确定过程约束如下：

大气密度公式采用指数型公式：

式(3)中：

ρ为大气密度；

ρ₀＝1.225kg/m³为海平面大气密度；

h_s＝7110m为基准高度；

h为飞行器高度；

e为自然常数；

动压约束：

q＝ρ(VV_c)²/2≤q_max (4)

式(4)中：

q为动压；

为无量纲化常量，其中：g₀＝9.8m/s²为引力常量，R₀为地球半径；

q_max为飞行器能承受的最大动压；

过载约束：

式(5)中：

n为过载；

n_max为飞行器所能承受的最大过载；

热流约束：

式(6)中：

Q为热流；

C₁和R_d均为与飞行器头部形状相关的常数；

Q_max为飞行器所能承受的最大热流；

准平衡滑翔约束：

采用飞行路径角为常数形式的准平衡滑翔约束，对于无动力滑翔的情况，可写为：

S10202：基于飞行器高度-速度剖面建立再入走廊模型，结合速度、最大动压、最大过载以及最大热流约束便可初步得到再入走廊如下：

动压约束再入走廊边界H_qmax(V)如下：

过载约束再入走廊边界

如下：

热流约束再入走廊边界

如下：

其中，C_q为飞行器的热流系数；

准平衡滑翔约束再入走廊边界如下：

利用牛顿迭代求解式获得准平衡滑翔约束对应的再入走廊边界H_QEGC(V)；

S10203：基于飞行器高度-速度剖面的再入走廊上下边界表示如下：

式(11)中：

H_up为再入走廊上边界；

H_down为再入走廊下边界；

再入运动学模型中攻角指令作为已知量以攻角-速度剖面形式取定，则飞行器再入制导中只将倾侧角作为唯一的控制量。基于飞行器再入走廊，每给定一个速度V可找到其对应的r，结合准平衡滑翔条件便得到对应σ。将再入走廊转化为对倾侧角大小的限制，即：

|σ_up|≤|σ|≤|σ_down| (12)

式(12)中：

|σ_up|为倾侧角的上边界,由再入走廊下边界决定；

|σ_down|为倾侧角的下边界,由再入走廊上边界决定。

S2：设计攻角剖面和倾侧角剖面形式；

令再入过程中的控制量为攻角和倾侧角，

则攻角α的剖面形式为：

式(13)中：

α_max表示经过热流过载等约束得到的飞行器能承受的最大攻角；

α₂表示飞行器最大升阻比对应的攻角；

V表示飞行器飞行时的速度；

V₁、V₂表示分段处对应的飞行器的速度；

倾侧角σ绝对值的剖面为：

式(14)中：

σ₀表示初始状态下满足准平衡滑翔条件的倾侧角；

V表示飞行器飞行时的速度；

V₀表示飞行器的初始速度；

V_mid表示飞行中点速度；

σ_mid表示速度中点状态对应的待规划倾侧角；

V_f表示飞行终端速度；

σ_f表示终端速度状态下满足准平衡滑翔条件的倾侧角。

倾侧角符号则按照经典的航向误差走廊翻转形式给定。

S3：设定强化学习要素；

飞行器位置量r,θ,

及速度量V,γ,ψ需包含在状态空间中。飞行器制导的目标，即滑翔段结束时的期望剩余航程

与期望速度

对强化学习动作选取有重要影响，也需包含在状态空间中。此外，采用数值积分方法，可近似估计出保持当前攻角、倾侧角剖面飞行获得的终端剩余航程S_pre及速度V_pre，为智能体的决策提供参考。

综合以上分析，

S301：确定强化学习的状态空间为：

其中，

表示滑翔段结束时的期望剩余航程，

表示滑翔段结束时的期望速度；S_pre表示当前攻角、倾侧角剖面飞行获得的终端剩余航程，V_pre表示当前攻角、倾侧角剖面飞行获得的终端速度；

S302：确定强化学习的动作量为：

速度中点状态对应的待规划倾侧角σ_mid、飞行器最大升阻比对应的攻角α₂以及分段处对应的飞行器的速度V₂；

S303：根据再入走廊，动作空间的取值范围为σ_mid∈[6°,70°]，α₂∈[8°,16°]，V₂∈[3500m/s,4500m/s]；

当飞行器滑翔段飞行结束时，将终端剩余航程误差及速度误差的平方和的相反数作为惩罚项：

其中，S_f表示终端剩余航程；

为了弥补奖励函数过于稀疏的问题，在其他时刻，过程奖励函数如下：

S4：建立actor-critic架构的智能体；

S401：Actor部分根据状态s_t进行决策输出动作μ(s_t)，Critic部分根据状态s_t及动作a_t，估计Q值；

S402：对于Actor-Critic架构的两个部分，分别设置两个结构相同但参数不同的神经网络，即：online network与target network；且在训练过程中，智能体的online-actor神经网络生成剖面参数，并添加动作噪声，完成对攻角及倾侧角剖面参数的调整；在强化学习训练过程中，智能体采用online网络产生动作与环境交互，考虑到DDPG方法中Actor网络为确定性策略，若智能体直接采用Actor网络输出的动作，将减弱智能体探索动作空间的能力，易陷入局部最优。为此，一般在训练过程中，需对Actor网络产生的动作添加噪声作为智能体的动作输出。

S403：飞行器基于调整后的攻角及倾侧角剖面生成攻角、倾侧角指令并输入动力学模型中；

S404：动力学模型返回飞行器下一步状态及反映制导结果的剩余航程、速度误差；将状态转换过程信息，即原状态-动作-奖励-转换状态存入经验池；

S405：按照设定的训练频次，随机抽取经验池中的样本，训练online神经网络并对target神经网络参数进行软更新。

对于飞行器再入制导这样的连续控制问题，若动作噪声完全随机，易导致各步动作差别较大，不符合真实物理过程。为此，在进行强化学习训练时，采用具有自相关特性的Ornstein-Uhlenbeck(奥恩斯坦-乌伦贝克)过程作为动作噪声：

dx_t＝κ_o(η_o-x_t)dt+σ_odW_t (17)

式(17)中：

d表示微分符号；

x_t表示动作噪声；

κ_o,η_o均为常数；

t表示时间；

σ₀为初始状态下满足准平衡滑翔条件的倾侧角；

W_t为标准随机维纳过程；

自相关特性的动作噪声可有效提高网络的探索效果，则训练过程中实际输出的动作为：

式(18)中：

a_t为动作；

x_t为动作噪声；

代表online-actor网格输出动作；

s_t为状态；

通过带动作噪声的动作，智能体不断与环境交互，并将状态转换过程信息[s_t,a_t,r_t,s_t+1]存入经验池；每当智能体与环境交互s_online步时，从经验池中抽取n_train个样本进行训练，采用梯度下降法更新online-critic网络的参数θ_oc及online-actor网络参数θ_oa：

式(19)中：

表示更新后的online-critic网络的参数；

表示更新后的online-actor网络参数；

表示online-critic网络的参数；

表示online-actor网络参数；

α_c表示online-critic网络的学习率；

α_a表示online-actor网络的学习率；

r_t表示当前步的奖励值，若当前步为终端步，则r_t＝r_终端，否则r_t＝r_过程；

ζ表示奖励折扣率；

表示target-critic网络的Q值；

s_t+1表示下一步的状态；

s_t表示当前状态；

a_t表示当前动作；

表示target-actor网格输出动作

表示online-actor网格输出动作

表示online-critic学习网络的Q值

为矢量微分符号；

每当online网络更新s_target次时，软更新各target网络：

式(20)中：

表示更新后的target-critic网络的参数；

表示更新后的target-actor网络的参数；

表示target-critic网络的参数；

表示target-actor网络的参数；

τ为更新系数；

通过以上步骤，在与环境交互过程中，完成对各网络的参数更新。在训练结束后，取出online-actor网络

即可用于再入飞行制导剖面的在线自适应调整。

S5：在完成训练之后，提取智能体的online-actor网络参数并进行固定。

在飞行过程中根据当前状态，预测输出调整后攻角和倾侧角剖面参数，飞行器即可根据剖面输出攻角和倾侧角指令，进行后续飞行；

为进一步提高飞行控制指令的合理性与飞行轨迹的平滑性，在由智能体网络得到的攻角指令α_net的基础上，加入速度与飞行路径角反馈，并加入角速率限幅：

式(21)中：

α_h为速度与飞行路径角反馈得到的攻角指令；

α_net为由智能体网络得到的攻角指令；

k为调整系数，为一较小的非负常数；

V表示飞行器飞行时的速度；

γ表示飞行器的飞行路径角；

α表示飞行器飞行时的攻角；

α_up为上一步实际攻角指令；

ε_α为角速率限幅，取5°/s。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，其特征在于：所述方法包括如下步骤：

S2：设计攻角剖面和倾侧角剖面形式；

S3：设定强化学习要素；

S4：建立actor-critic架构的智能体；

S5：提取智能体的online-actor网络参数并进行固定。

2.根据权利要求1所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，其特征在于：所述S1包括如下步骤：

S101：建立无量纲化的动力学模型如下：

式(1)中：

r表示飞行器飞行时的地心距；

V表示飞行器飞行时的速度；

γ表示飞行器的飞行路径角；

θ表示飞行器飞行时的经度；

ψ表示飞行器飞行时的航向角；

表示飞行器飞行时的纬度；

σ表示飞行器飞行时的倾侧角；

D表示飞行器的气动阻力；

L表示飞行器的气动升力；

且：

式(2)中：

α表示飞行器飞行时的攻角；

C_L(α,Ma)表示由攻角和马赫数决定的升力系数；

C_D(α,Ma)表示由攻角和马赫数决定的阻力系数；

q表示飞行器的动压；

S_ref表示飞行器的参考面积；

S102：将过程约束转化为倾侧角约束的过程如下：

S10201：确定过程约束如下：

大气密度公式采用指数型公式：

式(3)中：

ρ为大气密度；

ρ₀＝1.225kg/m³为海平面大气密度；

h_s＝7110m为基准高度；

h为飞行器高度；

e为自然常数；

动压约束：

q＝ρ(VV_c)²/2≤q_max (4)

式(4)中：

q为动压；

q_max为飞行器能承受的最大动压；

过载约束：

式(5)中：

n为过载；

n_max为飞行器所能承受的最大过载；

热流约束：

式(6)中：

Q为热流；

C₁和R_d均为与飞行器头部形状相关的常数；

Q_max为飞行器所能承受的最大热流；

准平衡滑翔约束：

动压约束再入走廊边界H_qmax(V)如下：

过载约束再入走廊边界

如下：

热流约束再入走廊边界

如下：

其中，C_q为飞行器的热流系数；

准平衡滑翔约束再入走廊边界如下：

式(11)中：

H_up为再入走廊上边界；

H_down为再入走廊下边界；

将再入走廊转化为对倾侧角大小的限制，即：

|σ_up|≤|σ|≤|σ_down| (12)

式(12)中：

|σ_up|为倾侧角的上边界,由再入走廊下边界决定；

|σ_down|为倾侧角的下边界,由再入走廊上边界决定。

3.根据权利要求2所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，其特征在于：所述S2包括如下步骤：

令再入过程中的控制量为攻角和倾侧角，

则攻角α的剖面形式为：

式(13)中：

α_max表示经过约束得到的飞行器能承受的最大攻角；

α₂表示飞行器最大升阻比对应的攻角；

V表示飞行器飞行时的速度；

V₁、V₂表示分段处对应的飞行器的速度；

倾侧角σ绝对值的剖面为：

式(14)中：

σ₀表示初始状态下满足准平衡滑翔条件的倾侧角；

V表示飞行器飞行时的速度；

V₀表示飞行器的初始速度；

V_mid表示飞行中点速度；

σ_mid表示速度中点状态对应的待规划倾侧角；

V_f表示飞行终端速度；

σ_f表示终端速度状态下满足准平衡滑翔条件的倾侧角。

4.根据权利要求3所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，其特征在于：所述S3包括如下步骤：

S301：确定强化学习的状态空间为：

其中，

表示滑翔段结束时的期望剩余航程，

S302：确定强化学习的动作量为：

其中，S_f表示终端剩余航程；

5.根据权利要求4所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，其特征在于：所述S4包括如下步骤：

S402：对于Actor-Critic架构的两个部分，分别设置两个结构相同但参数不同的神经网络，即：online network与target network；且在训练过程中，智能体的online-actor神经网络生成剖面参数，并添加动作噪声，完成对攻角及倾侧角剖面参数的调整；在强化学习训练过程中，智能体采用online网络产生动作与环境交互。

6.根据权利要求5所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法，其特征在于：所述S5包括如下步骤：

在由智能体网络得到的攻角指令α_net的基础上，加入速度与飞行路径角反馈，并加入角速率限幅：

式(21)中：

α_h为速度与飞行路径角反馈得到的攻角指令；

α_net为由智能体网络得到的攻角指令；

k为调整系数，为非负常数；

V表示飞行器飞行时的速度；

γ表示飞行器的飞行路径角；

α表示飞行器飞行时的攻角；

α_up为上一步实际攻角指令；

ε_α为角速率限幅，取5°/s。