CN109343341B

CN109343341B - 一种基于深度强化学习的运载火箭垂直回收智能控制方法

Info

Publication number: CN109343341B
Application number: CN201811393548.1A
Authority: CN
Inventors: 郜诗佳; 谭浪; 王德意; 柳嘉润; 李博睿; 巩庆海; 杨业; 姬晓琴; 翟雯婧
Original assignee: China Academy of Launch Vehicle Technology CALT; Beijing Aerospace Automatic Control Research Institute
Current assignee: China Academy of Launch Vehicle Technology CALT; Beijing Aerospace Automatic Control Research Institute
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2021-10-01
Anticipated expiration: 2038-11-21
Also published as: CN109343341A

Abstract

一种基于深度强化学习的运载火箭垂直回收智能控制方法，研究实现运载火箭自主智能控制的方法。主要研究解决利用智能控制实现运载火箭垂直回收姿态控制和轨迹规划问题。对航天事业而言，无论在人工成本的节约上，还是在人工失误的减少上，航天器自主智能化无疑都是具有重大意义的。建立运载火箭垂直回收仿真模型，并建立相应的马尔科夫决策过程，包括状态空间、动作空间、状态转移方程、回报函数，使用神经网络拟合环境和智能体行为间的映射关系，并对其进行训练，使得运载火箭能够使用训练好的神经网络自主可控回收。本项目不仅能为航天飞行器轨道智能规划技术提供技术支撑，同时也能为基于深度强化学习的航天飞行器间攻防对抗提供仿真验证平台。

Description

一种基于深度强化学习的运载火箭垂直回收智能控制方法

技术领域

本发明涉及一种基于深度强化学习的运载火箭垂直回收控制方法，适用于运载火箭制导与控制领域。

背景技术

标准的强化学习框架，是一个智能体在离散时间内不停的与它所处的环境进行交互，主要由奖惩反馈函数、值函数、策略选择以及交互环境四个要素组成。如图2所示。

智能体与环境交互的过程如下：(1)智能体(Agent)感知当前的环境状态(state)；(2)根据当前的状态和奖赏值(reward)，智能体选择一个动作(action)并执行该动作；(3)当智能体所选择的动作作用于环境时，环境转移到新状态，并给出新的奖赏；(4)智能体根据环境反馈的奖赏值，计算回报值(return)，并将回报值作为更新内部策略的依据。

假设一个离散时间序列t＝0,1,2,3,...。在每一时刻t，只能体从环境中接收一个状态s_t。定义a_t表示智能体在时刻t采取的行为。在下一时刻，a_t作为智能体行为的结果，然后接收数值回报

并移动到新状态s_t+1，在每一时刻，智能体完成从状态到每种可能行为的选择概率之间的映射。该映射关系称为智能体策略，记为π_t，则π_t(s,a)为s_t＝s时刻a_t＝a的概率。强化学习方法具体反映了智能体如何根据其经验改变策略，使得长期运行过程中接收的回报总量达到最大化。

对于单独的基于策略，或者基于价值(Q，V)的深度强化学习，其使用都受到一些局限性，效果也不尽相同。而Actor-Critic就是结合两者优势所提出的一种新的形式，在近一两年被广泛的使用，且表现出了极好的效果。

Actor-Critic整体结构如图3所示，具体分为两个网络，一个是Actor网络，即策略网络，利用策略梯度更新，一个Critic网络，即价值网络，如DQN，首先利用Actor网络的策略输出不断的与环境进行交互，获得回报，计算每个状态的价值，然后将其做为标签更新Critic网络，使网络对当前状态的评价越来越准确，然后使用Critic网络的输出代替总回报，计算策略梯度，更新策略网络，使得策略越来越准确。

2016年，OpenAI在Actor-Critic网络基础上提出的一种解决Policy Gradient不好确定Learning rate(或者Step size)问题的算法，即近端策略优化算法(ProximalPolicy Optimization，PPO)，以下简称PPO算法。因为如果step size过大,学出来的Policy会一直乱动,不会收敛,但如果Step Size太小,完成训练则需要很长时间。PPO则利用NewPolicy和Old Policy的比例,限制了New Policy的更新幅度,让Policy Gradient对稍微大点的Step size不那么敏感。

优势函数At是动作值函数相对于值函数的优势。若动作值函数比值函数大，幅值为正，沿着轨迹增大的方向更新；PPO是一套Actor-Critic结构,Actor最大化J_PPO,Critic最大化L_BL。Critic的损失函数是减小TDerror。而Actor的是在oldPolicy上根据Advantage(TDerror)修改new Policy,advantage大的时候,修改幅度大,让new Policy更可能发生。而且附加了一个KL Penalty,如果new Policy和old Policy相差太多,KLdivergence则越大，Learning rate越大,难收敛。

每次通过PPO更新Actor和Critic时,需将当前策略的参数复制给旧的策略，这就是策略更新。Critic和Actor的内部结构是神经网络。Actor使用了正态分布输出动作。

当前国内外有通过凸优化方法实现运载火箭的垂直回收的案例。凸优化法是利用松弛或线性化等方法，将非凸的轨迹规划问题进行无损凸化，得到与原问题等价的凸优化问题，然后求解凸NLP问题。由于凸优化问题的局部最优解就是全局最优解这一良好的性质，因此对具有复杂多约束的航天器轨迹规划问题，若能将非凸问题转化为与原问题等价的凸优化问题，就能够迅速收敛到其全局最优解。该方法的能够保证问题的收敛性，但对于很多非凸约束能否进行无损凸化还需要进一步讨论与研究。而基于深度强化学习的智能控制方法则不受凸约束的限制。

此外，现今的航天器轨道规划方向主要是以地面指挥为主，也就是以人为主。在这样的大前提下，运载火箭轨道规划与控制十分依赖于人工，任何人工的失误都可能带来巨大的损失。因此，早日实现智能轨道规划对航天事业的发展有巨大帮助。

发明内容

本发明的目的在于：克服现有技术的不足，提出了一种基于深度强化学习的运载火箭垂直回收智能控制方法，首先研究深度强化学习PPO算法，设计面向运载火箭垂直回收的深度强化学习程序，使用神经网络拟合环境和智能体行为(火箭姿态控制)间的映射关系，并对其进行训练，使得运载火箭能够使用训练好的神经网络自主可控回收。

本发明采用的技术方案为：

一种基于深度强化学习的运载火箭垂直回收方法，步骤如下：

(1)搭建运载火箭垂直回收仿真模型；

(2)基于仿真模型，建立马尔科夫决策过程，包括状态空间、动作空间、状态转移方程以及回报函数；

(3)根据深度强化学习算法，搭建神经网络；

(4)基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数，对所述神经网络进行训练，得到训练好的神经网络模型；

(5)调用训练好的神经网络模型进行仿真验证；

(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。

所述步骤(1)搭建的运载火箭垂直回收仿真模型，具体为：

其中，[X,Y,Z]和[V_x,V_y,V_z]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度，T_s为推力加速度的响应时间，[a_x,a_y,a_z]为推力加速度，u为控制量，F为主推力指令，作用在火箭质心，将其在x,y,z三个方向分解为F_x,F_y,F_z，m为火箭质量，α为角加速度，M₀为控制力力矩，F₁为控制力，J为转动惯量，ω为角速度，θ为姿态角；g₀为重力加速度。

目标相对坐标系的定义为：

以目标点O_T为坐标原点，O_TY_T与目标点当地重力方向相反,O_TX_T轴与O_TY_T轴垂直并指向起飞点方向，O_TZ_T与O_TX_T轴、O_TY_T轴构成右手坐标系，目标相对坐标系O_TX_TY_TZ_T随地球自转而旋转。

所述步骤(2)中状态空间、动作空间、状态转移方程以及回报函数，具体为：

状态空间：

S＝[X Y Z V_x V_y V_z a_x a_y a_zθωαAB]^T

其中，[X,Y,Z]和[V_x,V_y,V_z]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度，[a_x,a_y,a_z]为推力加速度,α为角加速度，ω为角速度，θ为姿态角，A为着陆指示，B为坏腿指示，A、B取值为1或-1；

动作空间是指基于控制信息，决定该时刻增加或减少推力的大小和方向，将其表示为：

U＝[F_x F_y F_z F₁δ]^T

其中，F_x,F_y,F_z为主推力F在x,y,z三个维度的分解，F₁为控制力，δ为推力摆角；

状态转移方程：

回报函数：

其中，P_fuel为能量消耗，s为距离目标回收位置的直线距离，V为火箭的速度，

为火箭姿态角的绝对值，

为加速度大小。

所述步骤(3)深度强化学习算法为基于Actor-Critic架构的PPO算法。

所述步骤(3)搭建神经网络，具体为：

基于Actor-Critic算法，搭建策略神经网络和估值神经网络，均为三层神经网络，两个隐藏层，最后为输出层，采用Relu作为激活函数，隐藏层含有128个神经元，步长λ初值设为0.95，折扣因子设为0.98。

所述步骤(4)基于步所述运载火箭垂直回收仿真模型、状态空间、动作空间以及状态转移方程以及回报函数，对所述神经网络进行训练，得到训练好的神经网络模型，具体为：

(4.1)初始化策略神经网络参数和估值神经网络参数；

(4.2)对所述状态空间进行初始化，得到当前状态s_t；

(4.3)运载火箭垂直回收仿真模型根据策略神经网络输出的策略基于动作空间选择行为a_t，执行所述状态转移方程，得到下一步的火箭状态s_t+1，根据回报函数获取回报r_t，计算此步的优势函数A_t并保存，反复执行此过程T步；

(4.4)根据PPO算法的损失函数，运用梯度下降法更新策略神经网络参数和估值神经网络的参数；

(4.5)策略神经网络输出新策略，判断是否需要更新步长，若新旧策略的KL散度超出阈值则更新步长；

(4.6)反复执行N次(4.2)到(4.5)，从而完成神经网络模型的训练，保存训练好的神经网络模型。

所述步骤(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收，具体是指：仿真验证后的神经网络模型输出主推力、控制力、舵偏控制量，运载火箭根据上述控制量修正自身姿态和轨迹，实现垂直回收。

一种基于所述运载火箭垂直回收方法实现的垂直回收智能控制系统，包括：

模型搭建模块：用于搭建运载火箭垂直回收仿真模型；

马尔科夫决策模块：用于基于仿真模型，建立马尔科夫决策过程，包括状态空间、动作空间、状态转移方程以及回报函数；

神经网络创建模块：用于根据深度强化学习算法，搭建神经网络；

训练模块：用于基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数，对所述神经网络进行训练，得到训练好的神经网络模型；

仿真验证模块：用于调用训练好的神经网络模型进行仿真验证；

控制模块：用于根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。

所述模型搭建模块搭建的运载火箭垂直回收仿真模型，具体为：

本发明与现有技术相比带来的有益效果为：

(1)本发明首先研究深度强化学习PPO算法，设计面向运载火箭垂直回收的深度强化学习程序，使用神经网络拟合环境和智能体行为(火箭控制)间的映射关系，并对其进行训练，使得运载火箭能够使用训练好的神经网络自主可控回收

(2)本发明研究建立运载火箭的动力学模型以及运动方程，应用深度强化学习等方法开展运载火箭轨道自主规划模型的设计与训练，实现快速轨道自主规划，大幅提升运载火箭针对典型场景的自主化、自适应能力。

(3)本发明研究建立仿真环境，探索应用深度强化学习等方法开展运载火箭轨道自主规划与智能控制的途径与方法，通过构造面向深度强化学习的仿真环境模型，利用深度强化学习算法的训练，不断提升算法效率，实现快速轨道自主规划与智能控制，大幅提升航天飞行器针对典型场景的自主化、自适应智能控制能力。

附图说明

图1为本方法方法流程图

图2为强化学习原理图；

图3为Actor-Critic框架图；

图4为航天器决策网络算法框架图；

图5为航天器策略估值网络；

图6为策略网络损失函数；

图7为估值网络损失函数；

图8为距离目标点直线距离曲线图；

图9为主推力曲线图。

具体实施方式

本发明提出一种基于深度强化学习的运载火箭垂直回收智能控制方法，研究实现运载火箭自主智能控制的方法。主要研究解决利用智能控制实现运载火箭垂直回收姿态控制和轨迹规划问题。

本发明首先建立运载火箭垂直回收仿真模型，并建立相应的马尔科夫决策过程，包括状态空间、动作空间、状态转移方程、回报函数，采用基于策略梯度的深度强化学习算法，同时借鉴Alphago的“决策网络+估值网络”设计思路，设计航天飞行器的决策网络和对决策行为评价的估值网络。决策网络通过输入当前航天器状态，以目标状态作为回报，指导航天器形成智能决策；估值网络以当前环境状态、决策网络的输出(即采取的行为)和预估下一时刻的状态为输入，输出当前采取的行为的价值，一次来衡量行为的好坏程度，从而对决策网络的参数进行更新，估值网络通过输出的价值来构造损失函数，从而对网络参数进行更新。得到训练好的模型，输出有效的回收控制策略用以实现对运载火箭的垂直回收智能控制。

如图1所示，本发明提出了一种基于深度强化学习的运载火箭垂直回收方法，步骤如下：

(1)搭建运载火箭垂直回收仿真模型；

建立火箭的动力学模型

对火箭所受的各种力进行分析，建立飞行器复杂力场环境下的运动及动力学模型，为后续研究奠定模型基础。

具体为：

目标相对坐标系的定义为：

(2)图2所示为强化学习基本框架图。基于仿真模型，建立马尔科夫决策过程，包括状态空间、动作空间、状态转移方程以及回报函数；

具体为：

状态空间：

S＝[X Y Z V_x V_y V_z a_x a_y a_zθωαAB]^T

U＝[F_x F_y F_z F₁δ]^T

其中，F_x,F_y,F_z为主推力F在目标相对坐标系下x,y,z三个维度的分解，F₁为控制力，δ为推力摆角；

状态转移方程：

回报函数：

为火箭姿态角的绝对值，

为加速度大小。

回报函数包括：i)当达到回收地点时，回报为正值；ii)发生碰撞坏腿，回报为一个负值；iii)任务规定时间内未到达回收地点，给予一个负数回报；iv)每过一段时间给予一个负数回报，以保证在较短时间内完成任务；v)每消耗单位能量，给予负回报。

(3)根据深度强化学习算法，搭建神经网络；深度强化学习算法为基于Actor-Critic架构的PPO算法。

本方法采用深度强化学习中经典的Actor-Critic架构，其基本网络结构如图3所示。Actor-Critic结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法。状态输入到神经网络后，对参数进行更新，Actor网络输出Action，即动作概率；Critic输出计算出的Q-value值，即TD-error。

搭建神经网络，具体为：

损失函数基于所采用的深度强化学习算法，估值网络主要根据该时刻回报信息更新对每个状态-动作对的评价(Q)，而策略网络主要根据评价网络更新动作(策略)，从而使得每次所选择的策略始终朝着评价大的方向前进。

决策网络输入的是环境当前的状态，包括运载火箭的位置、速度、姿态角等参数，输出运载火箭应采取的策略；估值网络输入当前和下一时刻状态，分别输出相应的Q值，并根据环境反馈的回报设计损失函数用于对决策网络和估值网络进行更新，具体网络结构如图4和图5所示：

具体为：

(4.1)随机初始化策略神经网络参数和估值神经网络参数；

(4.2)对所述状态空间进行初始化，得到当前状态s_t；

(4.3)运载火箭垂直回收仿真模型根据策略网络输出的策略基于动作空间选择行为a_t，执行所述状态转移方程，得到下一步的火箭状态s_t+1，根据回报函数获取回报r_t，计算此步的优势函数A_t并保存，反复执行此过程T步；

(4.4)基于(4.3)得到的优势函数，根据PPO算法的损失函数，运用梯度下降法更新策略神经网络参数和估值神经网络的参数；

(4.5)策略网络输出新策略，判断是否需要更新步长，若新旧策略的KL散度超出阈值则更新步长；

(4.6)反复执行N次(4.2)到(4.5)；

(4.7)保存训练好的神经网络模型。

(5)调用训练好的神经网络模型进行仿真验证；

(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。具体是指：仿真验证后的神经网络模型输出主推力、控制力、舵偏控制量，运载火箭根据上述控制量修正自身姿态和轨迹，实现垂直回收。

更进一步的，本发明基于上述运载火箭垂直回收方法还实现了一种垂直回收智能控制系统，包括：

模型搭建模块：用于搭建运载火箭垂直回收仿真模型；

某次仿真的策略网络损失函数收敛结果如图6所示，估值网络损失函数收敛结果如图7所示。由图6、图7可知，损失函数得以收敛。运载火箭仿真模型距离目标回收点的距离如图8所示，最终到达了目标点实现了垂直回收。图9所示为主推力的大小变化情况。通过仿真得到的结果可知，运载火箭以趋于0的速率垂直降落在目标点，完成了垂直回收的智能控制，神经网络损失函数得以收敛，输出了有效可行的回收控制策略。

本发明首先研究深度强化学习PPO算法，设计面向运载火箭垂直回收的深度强化学习程序，使用神经网络拟合环境和智能体行为(火箭控制)间的映射关系，并对其进行训练，使得运载火箭能够使用训练好的神经网络自主可控回收。另外，本发明研究建立运载火箭的动力学模型以及运动方程，应用深度强化学习等方法开展运载火箭轨道自主规划模型的设计与训练，实现快速轨道自主规划，大幅提升运载火箭针对典型场景的自主化、自适应能力。

Claims

1.一种基于深度强化学习的运载火箭垂直回收方法，其特征在于步骤如下：

(1)搭建运载火箭垂直回收仿真模型，具体为：

其中，[X,Y,Z]和[V_x,V_y,V_z]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度，T_s为推力加速度的响应时间，[a_x,a_y,a_z]为推力加速度，u为控制量，F为主推力指令，作用在火箭质心，将其在x,y,z三个方向分解为F_x,F_y,F_z，m为火箭质量，α为角加速度，M₀为控制力力矩，F₁为控制力，J为转动惯量，ω为角速度，θ为姿态角；g₀为重力加速度；

(2)基于仿真模型，建立马尔科夫决策过程，包括状态空间、动作空间、状态转移方程以及回报函数；具体为：

状态空间：

S＝[X Y Z V_x V_y V_z a_x a_y a_z θ ω α A B]^T