CN112001120B

CN112001120B - 一种基于强化学习的航天器对多拦截器自主规避机动方法

Info

Publication number: CN112001120B
Application number: CN202010857495.5A
Authority: CN
Inventors: 白成超; 郭继峰; 郑红星; 赵毓
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2022-03-01
Anticipated expiration: 2040-08-24
Also published as: CN112001120A

Abstract

一种基于强化学习的航天器对多拦截器自主规避机动方法，它属于反拦截技术领域。本发明解决了现有航天器程序式机动对多拦截器规避成功率低的问题。本发明提供一种不受航天器质量、材质限制的基于深度神经网络的自主规避机动方法，由两个部分组成，分别为离线训练系统和在线决策网络，其对航天器自身计算资源使用较少，具备实时决策能力，提升了航天器对多拦截器的规避成功率。当航天器采用本发明所述自主规避机动方法时规避机动平均成功率为49％，规避成功率提高了29％。该方法能够有效降低规避过程中发动机开关时间，使用能量更为节省。本发明可以应用于航天器对多拦截器的自主规避。

Description

一种基于强化学习的航天器对多拦截器自主规避机动方法

技术领域

本发明属于反拦截技术领域，具体涉及一种基于强化学习的航天器对多拦截器自主规避机动方法。

背景技术

国外早在上世纪70年代就已经展开了机动规避技术研究，多是基于简化运动模型进行分析，并且仅对特殊轨迹点设计机动规避策略。国内早期研究集中在仿真建模方向，基于运动学约束建立了大量拦截器规避仿真系统。在此基础上有学者提出了基于微分对策的机动规避策略、基于最优控制的脉冲规避策略等方法，这些方法均为数学模型基础上的离线规划方法，不具备自主性。航天器在轨运行期间使用上述方法预先规划规避路径，然后利用程序式机动方式实现运动轨迹改变，但此类程序式机动对多拦截器规避成功率较低。

发明内容

本发明的目的是为了解决现有航天器程序式机动对多拦截器规避成功率低的问题，而提出了一种基于强化学习的航天器对多拦截器自主规避机动方法。

本发明为解决上述技术问题采取的技术方案是：一种基于强化学习的航天器对多拦截器自主规避机动方法，该方法包括以下步骤：

步骤一：分别建立航天器和拦截器的空间动力学模型；

步骤二：根据步骤一建立的航天器和拦截器的空间动力学模型，建立多拦截器真比例导引模型；

步骤三：分别以航天器的各个发动机作为智能体，建立航天器规避机动决策模型；

步骤四：根据强化学习理论建立多智能体自主决策训练系统；

步骤五：将步骤一、步骤二和步骤三中所建立模型应用在步骤四系统中，离线训练航天器规避机动决策模型；

步骤六：将步骤五中训练好的航天器规避机动决策模型应用于在线多拦截器规避机动场景中，得到成功自主规避机动轨迹。

本发明的有益效果是：

本发明的目的在于提供一种不受航天器质量、材质限制的基于深度神经网络的自主规避机动方法，由两个部分组成，分别为离线训练系统和在线决策网络，其对航天器自身计算资源使用较少，具备实时决策能力，提升了航天器对多拦截器的规避成功率。

本发明实验采用不同导引系数拦截器对航天器进行拦截，最终实验得到：当航天器采用随机机动策略时规避机动平均成功率为20％，当航天器采用本发明所述自主规避机动方法时规避机动平均成功率为49％，规避成功率提高了29％。该方法能够有效降低规避过程中发动机开关时间，使用能量更为节省。

附图说明

图1是自学习训练系统运行的流程图；

图2是每个智能体拥有的两个Actor网络和两个Critic网络的网络结构图；

图3是平均回报值训练曲线图；

图4是每100次规避机动成功次数曲线图；

图5是五千回合发动机开关曲线图；

图6是一万回合发动机开关曲线图。

具体实施方式

具体实施方式一：本实施方式所述的一种基于强化学习的航天器对多拦截器自主规避机动方法，该方法具体通过以下步骤实现：

步骤一：分别建立航天器和拦截器的空间动力学模型；

本发明利用仿真系统自动生成实验数据，该方法利用大量仿真案例训练深度神经网络以提高规避成功率。主规避机动方法有两个阶段：训练和决策。训练过程中会进行大量计算操作，需要离线进行。决策过程资源消耗率小，利用训练好的深度神经网络即可在线实施自主规避机动决策。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一分别建立航天器和拦截器的空间动力学模型，其具体过程为：

在地心惯性坐标系下，航天器的空间动力学模型为：

其中，

为航天器的空间位置矢量，r_M为

对应的标量，m_M为航天器的瞬时质量，T_M为航天器发动机合推力大小，

为航天器发动机合推力方向单位矢量，μ是地球引力常数，取值3.986×10⁵km³/s²；

为

的二阶导数，

为摄动加速度矢量，本发明中设为常值；

航天器的质量变化率为：

其中，

为航天器质量变化率，I_sp,M为航天器发动机比冲，g₀为重力加速度常数，取值9.80m/s²；

在地心惯性坐标系下，拦截器的空间动力学模型为：

其中，

为拦截器的空间位置矢量，r_I为

对应的标量，m_I为拦截器的瞬时质量，T_I为拦截器发动机合推力大小，

为拦截器发动机合推力方向单位矢量，

为

的二阶导数；

拦截器的质量变化率为：

其中，

为拦截器质量变化率，I_sp,I为拦截器发动机比冲。

具体实施方式三：本实施方式与具体实施方式二不同的是：所述步骤二中，根据步骤一建立的航天器和拦截器的空间动力学模型，建立多拦截器真比例导引模型，其具体过程为：

根据步骤一建立的航天器和拦截器的空间动力学模型，得到航天器与拦截器的相对运动模型为：

其中，

为航天器发动机合推力矢量，

为拦截器发动机合推力矢量；

为了简化计算，仅以最大弹目视线角与饱和机动过载为约束，不考虑噪声等扰动问题。将(5)式沿弹目视线方向和垂直弹目视线方向进行分解得到：

式中，r_rel为航天器与拦截器的相对距离，

为r_rel的一阶导数，v_rel为航天器与拦截器的相对速度，

为v_rel的一阶导数，q为弹目视线角，

为弹目视线角速率，

为弹目视线角加速度，下标r,θ分别代表沿弹目视线方向分量和垂直弹目视线方向分量；

真比例导引的指令加速度a_Iθ垂直于弹目视线方向，a_Iθ与相对速度v_rel和弹目视线角速率

成正比，即有：

其中，k为比例导引系数。

为了扩大样本算例，本发明在仿真中随机选取[3,5]范围内导引系数。

具体实施方式四：本实施方式与具体实施方式三不同的是：所述分别以航天器的各个发动机作为智能体，建立航天器规避机动决策模型，其具体过程为：

自主规避机动智能体决策的目的是在当前状态下选择最优动作，通过一系列连续决策可以使系统达到最终理想状态，过程满足随机序贯决策特征。

将航天器规避机动决策过程看作引入了动作和奖励的马尔科夫过程，利用五元组(S,A,T,p,γ)描述，其中S是过程演化的状态空间，A是动作集合，T是时间步骤集合，p为转移概率函数，γ为状态转换的回报函数；

对于本发明中多智能体系统：

在每一决策时刻t，有限动作空间得到的一步状态转移概率矩阵P_t为：

其中，s_N为第N个智能体当前时刻状态，N代表智能体的总个数，本发明中N＝4，第N个智能体执行动作{a_N,1,...,a_N,M}后进入新状态s'_N，M为可选动作总数；s_i为第i个智能体当前时刻状态，i＝1,2，…，N，a_i,j为第i个智能体可选的第j个动作，j＝1,2，…，M，p_i(s′_i|s_i,a_i,j)代表第i个智能体执行动作a_i,j到达新状态s′_i的概率；

回报矩阵R_t和总回报值V(s)分别为：

其中：γ_i(s_i,a_i,j)为第i个智能体在当前状态s_i执行动作a_i,j的回报值，i＝1,2，…，N；

定义确定性策略π为状态到动作的映射函数，即：

其中：π_i(s_i)为在当前状态s_i执行动作a_i,j的策略。

具体实施方式五：本实施方式与具体实施方式四不同的是：所述步骤四根据强化学习理论建立多智能体自主决策训练系统，其具体过程为：

多智能体协同自主规避机动决策训练系统的目的是通过自学习找到最优策略π*，使得总回报值最高；

本发明强化学习训练系统中，网络结构如图2所示，每个智能体各自拥有两个Actor网络和两个Critic网络，其中ActorO网络和CriticO网络用于与环境交互产生经验样本，ActorT网络和CriticT网络用于优化策略梯度并重复训练经验样本，训练获得的ActorT网络即为最优策略的逼近网络；

多智能体自主决策训练系统的训练目标是：得到最大的总期望收益J(θ)和最小的期望误差L(θ)对应的ActorT网络参数：

θ＝argmaxJ(θ)

其中，J(θ_i)为第i个智能体的期望收益，L(θ_i)为第i个智能体的期望误差，θ＝{θ₁,...,θ_N}，θ₁为得到的第1个智能体的ActorT网络参数；用参数θ＝{θ₁,...,θ_N}分别建立神经网络逼近各策略函数；其中，期望误差用于更新Critic网络参数；

对于特定策略π，总回报函数满足贝尔曼方程递归性：

其中，

是折扣因子，

s∈S,a∈A分别为状态和动作的简化表示，V^π(s)为当前状态s在特定策略π下的总回报值，上式表明通过状态递归可以唯一确定V^π(s)值，且该值仅与给定策略相对应；V^π(s')为下一状态s'在特定策略π下的总回报值；

将策略π扩展为N个智能体的策略集合π＝{π₁,...,π_N}；

由式(12)给出第i个智能体的期望收益J(θ_i)与期望收益梯度

式中，π_i是第i个智能体的即时策略，利用ActorO网络逼近；

是包含了全局信息的回报函数，利用CriticO网络逼近；获得梯度后采用Adam优化器进行网络参数更新。

的期望误差用下式更新：

其中，策略π'_i是第i个智能体的延迟目标策略；

是包含了全局信息的延迟回报函数。

建立经验池D＝{s,s',a₁,...,a₄,R_t}用于记录优秀案例。定期抽取经验池中案例训练ActorO和CriticO网络使其更快收敛于最优。

在训练过程中因为每个Critic将全局状态和所有智能体的动作都用于总期望收益更新，所以第i个智能体最终得到的最优策略与其余智能体策略是相关联的，因此训练结果具有协同效果。图1为自学习训练系统运行的流程图。

为了提高算法执行效率，本发明设计了以最近弹目距离d_T和突防机动总时间t_p为相关参数的回报函数：

其中，将距离压缩成与时间接近数量级，2m是拦截器有效碰撞范围。

具体实施方式六：本实施方式与具体实施方式五不同的是：所述Actor网络和CriticT网络均采用全连接网络模型；

每个Actor网络有4*6个输入节点，分别对应于四个拦截器的相对位置矢量和相对速度矢量；两个隐层各64个节点，激活函数为sigmoid函数；输出层为单节点，对应于航天器发动机开关状态；

每个Critic网络有4*6+N+1个输入节点，除了四个拦截器的相对位置矢量和相对速度矢量外，还加入了N个智能体的动作信息和一个当前联合动作回报值；两个隐层各64个节点，激活函数为sigmoid函数；输出层为单节点，产生评价值。

步骤五的具体过程为：

操作系统环境为Windows10 x64，使用软件工具包版本为TensorFlow 2.1.0。硬件信息为Intel i5-9600K、GTX1060、DDR4 16GB、240GB SSD。网络训练环境是基于Python3.7参照建立的动力学模型搭建而成。仿真验证和数据处理均在Matlab 2018b环境下实现。

为方便描述训练过程，设计如下仿真场景：初始时刻1枚航天器和4枚拦截器均处于无控状态，且不受外力影响。航天器与多拦截器几何形心的距离约为200km，在算例中用J2000惯性坐标系设定航天器初始参数为[1394.643,6895.102,3388.151,-6.684,0.113,2.520](位置km，速度km/s)；设定多拦截器中心初始参数为[1199.390,6911.160,3429.923,5.517,-0.889,-0.0904](位置km，速度km/s)。由于训练过程中使用相对位置和速度作为输入，所以训练成型的突防决策网络对空间位置初值具有普遍适用性。

设定每个拦截器质量为5kg，其中装载推进剂1kg，四台“十字布局”轨控发动机每台推力为138N，比冲2760m/s，最大初速为8km/s。多拦截器在同时拦截场景下以半径为1km分布，序列拦截场景下初速度方向不同导致拦截时刻差异。航天器初始质量为380kg，其中推进剂质量为80kg，脉冲发动机推力8200N，比冲2050m/s。运动学仿真步长设置为0.1s。设定最大训练回合数为1万次。

采用以下实施例验证本发明的有益效果：

实施例一：

1)实验环境

采用步骤五中描述仿真实验环境。

2)实验结果及分析

通过本发明步骤五训练得到如图3所示的平均回报曲线，由图3中可以看出，本发明所提出的协同训练算法在4000回合附近开始收敛；

为验证算法有效性，取每100回合训练所得网络进行规避机动决策仿真，使用随机开启单一发动机的机动策略模仿传统程序式方法做规避对比算法。得到如图4所示百次规避成功次数与训练回合数关系曲线。从曲线可以看出，本发明所述方法最终规避成功率约为49％，相比随机机动规避方法(成功率约为20％)的规避成功率提高了29％。说明本算法能够大幅度提高航天器的对多拦截器的规避能力。

为了直观展示训练结果，分别使用5千和1万回合训练成型的ActorT决策网络进行同一场景下规避机动仿真，得到如图5和图6所示的发动机开关曲线。特别说明，为了结果信息便于查看，将发动机开关阶跃曲线峰值进行错位调整，同时将3、4号发动机开关数值取反。由图5和图6中可以看出，随着训练回合数的增加，规避机动智能体学会了推迟初始机动时刻，同时大量减少了发动机开关次数。证明了本发明的有效性。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于强化学习的航天器对多拦截器自主规避机动方法，其特征在于，该方法包括以下步骤：

步骤一：分别建立航天器和拦截器的空间动力学模型；其具体过程为：

在地心惯性坐标系下，航天器的空间动力学模型为：

其中，

为航天器的空间位置矢量，r_M为

为航天器发动机合推力方向单位矢量，μ是地球引力常数，

为

的二阶导数，

为摄动加速度矢量；