CN109343341B - 一种基于深度强化学习的运载火箭垂直回收智能控制方法 - Google Patents

一种基于深度强化学习的运载火箭垂直回收智能控制方法 Download PDF

Info

Publication number
CN109343341B
CN109343341B CN201811393548.1A CN201811393548A CN109343341B CN 109343341 B CN109343341 B CN 109343341B CN 201811393548 A CN201811393548 A CN 201811393548A CN 109343341 B CN109343341 B CN 109343341B
Authority
CN
China
Prior art keywords
neural network
carrier rocket
vertical recovery
rocket
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811393548.1A
Other languages
English (en)
Other versions
CN109343341A (zh
Inventor
郜诗佳
谭浪
王德意
柳嘉润
李博睿
巩庆海
杨业
姬晓琴
翟雯婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Launch Vehicle Technology CALT
Beijing Aerospace Automatic Control Research Institute
Original Assignee
China Academy of Launch Vehicle Technology CALT
Beijing Aerospace Automatic Control Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Launch Vehicle Technology CALT, Beijing Aerospace Automatic Control Research Institute filed Critical China Academy of Launch Vehicle Technology CALT
Priority to CN201811393548.1A priority Critical patent/CN109343341B/zh
Publication of CN109343341A publication Critical patent/CN109343341A/zh
Application granted granted Critical
Publication of CN109343341B publication Critical patent/CN109343341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于深度强化学习的运载火箭垂直回收智能控制方法,研究实现运载火箭自主智能控制的方法。主要研究解决利用智能控制实现运载火箭垂直回收姿态控制和轨迹规划问题。对航天事业而言,无论在人工成本的节约上,还是在人工失误的减少上,航天器自主智能化无疑都是具有重大意义的。建立运载火箭垂直回收仿真模型,并建立相应的马尔科夫决策过程,包括状态空间、动作空间、状态转移方程、回报函数,使用神经网络拟合环境和智能体行为间的映射关系,并对其进行训练,使得运载火箭能够使用训练好的神经网络自主可控回收。本项目不仅能为航天飞行器轨道智能规划技术提供技术支撑,同时也能为基于深度强化学习的航天飞行器间攻防对抗提供仿真验证平台。

Description

一种基于深度强化学习的运载火箭垂直回收智能控制方法
技术领域
本发明涉及一种基于深度强化学习的运载火箭垂直回收控制方法,适用于运载火箭制导与控制领域。
背景技术
标准的强化学习框架,是一个智能体在离散时间内不停的与它所处的环境进行交互,主要由奖惩反馈函数、值函数、策略选择以及交互环境四个要素组成。如图2所示。
智能体与环境交互的过程如下:(1)智能体(Agent)感知当前的环境状态(state);(2)根据当前的状态和奖赏值(reward),智能体选择一个动作(action)并执行该动作;(3)当智能体所选择的动作作用于环境时,环境转移到新状态,并给出新的奖赏;(4)智能体根据环境反馈的奖赏值,计算回报值(return),并将回报值作为更新内部策略的依据。
假设一个离散时间序列t=0,1,2,3,...。在每一时刻t,只能体从环境中接收一个状态st。定义at表示智能体在时刻t采取的行为。在下一时刻,at作为智能体行为的结果,然后接收数值回报
Figure GDA0003171378070000011
并移动到新状态st+1,在每一时刻,智能体完成从状态到每种可能行为的选择概率之间的映射。该映射关系称为智能体策略,记为πt,则πt(s,a)为st=s时刻at=a的概率。强化学习方法具体反映了智能体如何根据其经验改变策略,使得长期运行过程中接收的回报总量达到最大化。
对于单独的基于策略,或者基于价值(Q,V)的深度强化学习,其使用都受到一些局限性,效果也不尽相同。而Actor-Critic就是结合两者优势所提出的一种新的形式,在近一两年被广泛的使用,且表现出了极好的效果。
Actor-Critic整体结构如图3所示,具体分为两个网络,一个是Actor网络,即策略网络,利用策略梯度更新,一个Critic网络,即价值网络,如DQN,首先利用Actor网络的策略输出不断的与环境进行交互,获得回报,计算每个状态的价值,然后将其做为标签更新Critic网络,使网络对当前状态的评价越来越准确,然后使用Critic网络的输出代替总回报,计算策略梯度,更新策略网络,使得策略越来越准确。
2016年,OpenAI在Actor-Critic网络基础上提出的一种解决Policy Gradient不好确定Learning rate(或者Step size)问题的算法,即近端策略优化算法(ProximalPolicy Optimization,PPO),以下简称PPO算法。因为如果step size过大,学出来的Policy会一直乱动,不会收敛,但如果Step Size太小,完成训练则需要很长时间。PPO则利用NewPolicy和Old Policy的比例,限制了New Policy的更新幅度,让Policy Gradient对稍微大点的Step size不那么敏感。
优势函数At是动作值函数相对于值函数的优势。若动作值函数比值函数大,幅值为正,沿着轨迹增大的方向更新;PPO是一套Actor-Critic结构,Actor最大化J_PPO,Critic最大化L_BL。Critic的损失函数是减小TDerror。而Actor的是在oldPolicy上根据Advantage(TDerror)修改new Policy,advantage大的时候,修改幅度大,让new Policy更可能发生。而且附加了一个KL Penalty,如果new Policy和old Policy相差太多,KLdivergence则越大,Learning rate越大,难收敛。
每次通过PPO更新Actor和Critic时,需将当前策略的参数复制给旧的策略,这就是策略更新。Critic和Actor的内部结构是神经网络。Actor使用了正态分布输出动作。
当前国内外有通过凸优化方法实现运载火箭的垂直回收的案例。凸优化法是利用松弛或线性化等方法,将非凸的轨迹规划问题进行无损凸化,得到与原问题等价的凸优化问题,然后求解凸NLP问题。由于凸优化问题的局部最优解就是全局最优解这一良好的性质,因此对具有复杂多约束的航天器轨迹规划问题,若能将非凸问题转化为与原问题等价的凸优化问题,就能够迅速收敛到其全局最优解。该方法的能够保证问题的收敛性,但对于很多非凸约束能否进行无损凸化还需要进一步讨论与研究。而基于深度强化学习的智能控制方法则不受凸约束的限制。
此外,现今的航天器轨道规划方向主要是以地面指挥为主,也就是以人为主。在这样的大前提下,运载火箭轨道规划与控制十分依赖于人工,任何人工的失误都可能带来巨大的损失。因此,早日实现智能轨道规划对航天事业的发展有巨大帮助。
发明内容
本发明的目的在于:克服现有技术的不足,提出了一种基于深度强化学习的运载火箭垂直回收智能控制方法,首先研究深度强化学习PPO算法,设计面向运载火箭垂直回收的深度强化学习程序,使用神经网络拟合环境和智能体行为(火箭姿态控制)间的映射关系,并对其进行训练,使得运载火箭能够使用训练好的神经网络自主可控回收。
本发明采用的技术方案为:
一种基于深度强化学习的运载火箭垂直回收方法,步骤如下:
(1)搭建运载火箭垂直回收仿真模型;
(2)基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
(3)根据深度强化学习算法,搭建神经网络;
(4)基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
(5)调用训练好的神经网络模型进行仿真验证;
(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
所述步骤(1)搭建的运载火箭垂直回收仿真模型,具体为:
Figure GDA0003171378070000041
Figure GDA0003171378070000042
Figure GDA0003171378070000043
Figure GDA0003171378070000044
Figure GDA0003171378070000045
Figure GDA0003171378070000046
Figure GDA0003171378070000047
Figure GDA0003171378070000048
Figure GDA0003171378070000049
Figure GDA00031713780700000410
Figure GDA00031713780700000411
Figure GDA00031713780700000412
Figure GDA00031713780700000413
Figure GDA00031713780700000414
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度。
目标相对坐标系的定义为:
以目标点OT为坐标原点,OTYT与目标点当地重力方向相反,OTXT轴与OTYT轴垂直并指向起飞点方向,OTZT与OTXT轴、OTYT轴构成右手坐标系,目标相对坐标系OTXTYTZT随地球自转而旋转。
所述步骤(2)中状态空间、动作空间、状态转移方程以及回报函数,具体为:
状态空间:
S=[X Y Z Vx Vy Vz ax ay azθωαAB]T
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,[ax,ay,az]为推力加速度,α为角加速度,ω为角速度,θ为姿态角,A为着陆指示,B为坏腿指示,A、B取值为1或-1;
动作空间是指基于控制信息,决定该时刻增加或减少推力的大小和方向,将其表示为:
U=[Fx Fy Fz F1δ]T
其中,Fx,Fy,Fz为主推力F在x,y,z三个维度的分解,F1为控制力,δ为推力摆角;
状态转移方程:
Figure GDA0003171378070000061
Figure GDA0003171378070000062
Figure GDA0003171378070000063
Figure GDA0003171378070000064
Figure GDA0003171378070000065
Figure GDA0003171378070000066
Figure GDA0003171378070000067
Figure GDA0003171378070000068
Figure GDA0003171378070000069
Figure GDA00031713780700000610
Figure GDA00031713780700000611
Figure GDA00031713780700000612
Figure GDA00031713780700000613
回报函数:
Figure GDA00031713780700000614
其中,Pfuel为能量消耗,s为距离目标回收位置的直线距离,V为火箭的速度,
Figure GDA00031713780700000615
为火箭姿态角的绝对值,
Figure GDA00031713780700000616
为加速度大小。
所述步骤(3)深度强化学习算法为基于Actor-Critic架构的PPO算法。
所述步骤(3)搭建神经网络,具体为:
基于Actor-Critic算法,搭建策略神经网络和估值神经网络,均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.95,折扣因子设为0.98。
所述步骤(4)基于步所述运载火箭垂直回收仿真模型、状态空间、动作空间以及状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对所述状态空间进行初始化,得到当前状态st
(4.3)运载火箭垂直回收仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的火箭状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
(4.5)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.6)反复执行N次(4.2)到(4.5),从而完成神经网络模型的训练,保存训练好的神经网络模型。
所述步骤(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收,具体是指:仿真验证后的神经网络模型输出主推力、控制力、舵偏控制量,运载火箭根据上述控制量修正自身姿态和轨迹,实现垂直回收。
一种基于所述运载火箭垂直回收方法实现的垂直回收智能控制系统,包括:
模型搭建模块:用于搭建运载火箭垂直回收仿真模型;
马尔科夫决策模块:用于基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
神经网络创建模块:用于根据深度强化学习算法,搭建神经网络;
训练模块:用于基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
仿真验证模块:用于调用训练好的神经网络模型进行仿真验证;
控制模块:用于根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
所述模型搭建模块搭建的运载火箭垂直回收仿真模型,具体为:
Figure GDA0003171378070000081
Figure GDA0003171378070000082
Figure GDA0003171378070000083
Figure GDA0003171378070000084
Figure GDA0003171378070000085
Figure GDA0003171378070000086
Figure GDA0003171378070000087
Figure GDA0003171378070000088
Figure GDA0003171378070000089
Figure GDA00031713780700000810
Figure GDA00031713780700000811
Figure GDA00031713780700000812
Figure GDA00031713780700000813
Figure GDA00031713780700000814
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度。
本发明与现有技术相比带来的有益效果为:
(1)本发明首先研究深度强化学习PPO算法,设计面向运载火箭垂直回收的深度强化学习程序,使用神经网络拟合环境和智能体行为(火箭控制)间的映射关系,并对其进行训练,使得运载火箭能够使用训练好的神经网络自主可控回收
(2)本发明研究建立运载火箭的动力学模型以及运动方程,应用深度强化学习等方法开展运载火箭轨道自主规划模型的设计与训练,实现快速轨道自主规划,大幅提升运载火箭针对典型场景的自主化、自适应能力。
(3)本发明研究建立仿真环境,探索应用深度强化学习等方法开展运载火箭轨道自主规划与智能控制的途径与方法,通过构造面向深度强化学习的仿真环境模型,利用深度强化学习算法的训练,不断提升算法效率,实现快速轨道自主规划与智能控制,大幅提升航天飞行器针对典型场景的自主化、自适应智能控制能力。
附图说明
图1为本方法方法流程图
图2为强化学习原理图;
图3为Actor-Critic框架图;
图4为航天器决策网络算法框架图;
图5为航天器策略估值网络;
图6为策略网络损失函数;
图7为估值网络损失函数;
图8为距离目标点直线距离曲线图;
图9为主推力曲线图。
具体实施方式
本发明提出一种基于深度强化学习的运载火箭垂直回收智能控制方法,研究实现运载火箭自主智能控制的方法。主要研究解决利用智能控制实现运载火箭垂直回收姿态控制和轨迹规划问题。
本发明首先建立运载火箭垂直回收仿真模型,并建立相应的马尔科夫决策过程,包括状态空间、动作空间、状态转移方程、回报函数,采用基于策略梯度的深度强化学习算法,同时借鉴Alphago的“决策网络+估值网络”设计思路,设计航天飞行器的决策网络和对决策行为评价的估值网络。决策网络通过输入当前航天器状态,以目标状态作为回报,指导航天器形成智能决策;估值网络以当前环境状态、决策网络的输出(即采取的行为)和预估下一时刻的状态为输入,输出当前采取的行为的价值,一次来衡量行为的好坏程度,从而对决策网络的参数进行更新,估值网络通过输出的价值来构造损失函数,从而对网络参数进行更新。得到训练好的模型,输出有效的回收控制策略用以实现对运载火箭的垂直回收智能控制。
如图1所示,本发明提出了一种基于深度强化学习的运载火箭垂直回收方法,步骤如下:
(1)搭建运载火箭垂直回收仿真模型;
建立火箭的动力学模型
对火箭所受的各种力进行分析,建立飞行器复杂力场环境下的运动及动力学模型,为后续研究奠定模型基础。
具体为:
Figure GDA0003171378070000111
Figure GDA0003171378070000112
Figure GDA0003171378070000113
Figure GDA0003171378070000114
Figure GDA0003171378070000115
Figure GDA0003171378070000116
Figure GDA0003171378070000117
Figure GDA0003171378070000118
Figure GDA0003171378070000119
Figure GDA00031713780700001110
Figure GDA00031713780700001111
Figure GDA00031713780700001112
Figure GDA00031713780700001113
Figure GDA00031713780700001114
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度。
目标相对坐标系的定义为:
以目标点OT为坐标原点,OTYT与目标点当地重力方向相反,OTXT轴与OTYT轴垂直并指向起飞点方向,OTZT与OTXT轴、OTYT轴构成右手坐标系,目标相对坐标系OTXTYTZT随地球自转而旋转。
(2)图2所示为强化学习基本框架图。基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
具体为:
状态空间:
S=[X Y Z Vx Vy Vz ax ay azθωαAB]T
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,[ax,ay,az]为推力加速度,α为角加速度,ω为角速度,θ为姿态角,A为着陆指示,B为坏腿指示,A、B取值为1或-1;
动作空间是指基于控制信息,决定该时刻增加或减少推力的大小和方向,将其表示为:
U=[Fx Fy Fz F1δ]T
其中,Fx,Fy,Fz为主推力F在目标相对坐标系下x,y,z三个维度的分解,F1为控制力,δ为推力摆角;
状态转移方程:
Figure GDA0003171378070000131
Figure GDA0003171378070000132
Figure GDA0003171378070000133
Figure GDA0003171378070000134
Figure GDA0003171378070000135
Figure GDA0003171378070000136
Figure GDA0003171378070000137
Figure GDA0003171378070000138
Figure GDA0003171378070000139
Figure GDA00031713780700001310
Figure GDA00031713780700001311
Figure GDA00031713780700001312
Figure GDA00031713780700001313
回报函数:
Figure GDA00031713780700001314
其中,Pfuel为能量消耗,s为距离目标回收位置的直线距离,V为火箭的速度,
Figure GDA00031713780700001315
为火箭姿态角的绝对值,
Figure GDA00031713780700001316
为加速度大小。
回报函数包括:i)当达到回收地点时,回报为正值;ii)发生碰撞坏腿,回报为一个负值;iii)任务规定时间内未到达回收地点,给予一个负数回报;iv)每过一段时间给予一个负数回报,以保证在较短时间内完成任务;v)每消耗单位能量,给予负回报。
(3)根据深度强化学习算法,搭建神经网络;深度强化学习算法为基于Actor-Critic架构的PPO算法。
本方法采用深度强化学习中经典的Actor-Critic架构,其基本网络结构如图3所示。Actor-Critic结合了Policy Gradient(Actor)和Function Approximation(Critic)的方法。状态输入到神经网络后,对参数进行更新,Actor网络输出Action,即动作概率;Critic输出计算出的Q-value值,即TD-error。
搭建神经网络,具体为:
基于Actor-Critic算法,搭建策略神经网络和估值神经网络,均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.95,折扣因子设为0.98。
损失函数基于所采用的深度强化学习算法,估值网络主要根据该时刻回报信息更新对每个状态-动作对的评价(Q),而策略网络主要根据评价网络更新动作(策略),从而使得每次所选择的策略始终朝着评价大的方向前进。
决策网络输入的是环境当前的状态,包括运载火箭的位置、速度、姿态角等参数,输出运载火箭应采取的策略;估值网络输入当前和下一时刻状态,分别输出相应的Q值,并根据环境反馈的回报设计损失函数用于对决策网络和估值网络进行更新,具体网络结构如图4和图5所示:
(4)基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
具体为:
(4.1)随机初始化策略神经网络参数和估值神经网络参数;
(4.2)对所述状态空间进行初始化,得到当前状态st
(4.3)运载火箭垂直回收仿真模型根据策略网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的火箭状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)基于(4.3)得到的优势函数,根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
(4.5)策略网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.6)反复执行N次(4.2)到(4.5);
(4.7)保存训练好的神经网络模型。
(5)调用训练好的神经网络模型进行仿真验证;
(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。具体是指:仿真验证后的神经网络模型输出主推力、控制力、舵偏控制量,运载火箭根据上述控制量修正自身姿态和轨迹,实现垂直回收。
更进一步的,本发明基于上述运载火箭垂直回收方法还实现了一种垂直回收智能控制系统,包括:
模型搭建模块:用于搭建运载火箭垂直回收仿真模型;
马尔科夫决策模块:用于基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
神经网络创建模块:用于根据深度强化学习算法,搭建神经网络;
训练模块:用于基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
仿真验证模块:用于调用训练好的神经网络模型进行仿真验证;
控制模块:用于根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
某次仿真的策略网络损失函数收敛结果如图6所示,估值网络损失函数收敛结果如图7所示。由图6、图7可知,损失函数得以收敛。运载火箭仿真模型距离目标回收点的距离如图8所示,最终到达了目标点实现了垂直回收。图9所示为主推力的大小变化情况。通过仿真得到的结果可知,运载火箭以趋于0的速率垂直降落在目标点,完成了垂直回收的智能控制,神经网络损失函数得以收敛,输出了有效可行的回收控制策略。
本发明首先研究深度强化学习PPO算法,设计面向运载火箭垂直回收的深度强化学习程序,使用神经网络拟合环境和智能体行为(火箭控制)间的映射关系,并对其进行训练,使得运载火箭能够使用训练好的神经网络自主可控回收。另外,本发明研究建立运载火箭的动力学模型以及运动方程,应用深度强化学习等方法开展运载火箭轨道自主规划模型的设计与训练,实现快速轨道自主规划,大幅提升运载火箭针对典型场景的自主化、自适应能力。

Claims (7)

1.一种基于深度强化学习的运载火箭垂直回收方法,其特征在于步骤如下:
(1)搭建运载火箭垂直回收仿真模型,具体为:
Figure FDA0003171378060000011
Figure FDA0003171378060000012
Figure FDA0003171378060000013
Figure FDA0003171378060000014
Figure FDA0003171378060000015
Figure FDA0003171378060000016
Figure FDA0003171378060000017
Figure FDA0003171378060000018
Figure FDA0003171378060000019
Figure FDA00031713780600000110
Figure FDA00031713780600000111
Figure FDA00031713780600000112
Figure FDA00031713780600000113
Figure FDA00031713780600000114
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度;
(2)基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;具体为:
状态空间:
S=[X Y Z Vx Vy Vz ax ay az θ ω α A B]T
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,[ax,ay,az]为推力加速度,α为角加速度,ω为角速度,θ为姿态角,A为着陆指示,B为坏腿指示,A、B取值为1或-1;
动作空间是指基于控制信息,决定该时刻增加或减少推力的大小和方向,将其表示为:
U=[Fx Fy Fz F1δ]T
其中,Fx,Fy,Fz为主推力F在x,y,z三个维度的分解,F1为控制力,δ为推力摆角;
状态转移方程:
Figure FDA0003171378060000021
Figure FDA0003171378060000022
Figure FDA0003171378060000023
Figure FDA0003171378060000024
Figure FDA0003171378060000025
Figure FDA0003171378060000026
Figure FDA0003171378060000027
Figure FDA0003171378060000028
Figure FDA0003171378060000029
Figure FDA00031713780600000210
Figure FDA00031713780600000211
Figure FDA00031713780600000212
Figure FDA00031713780600000213
回报函数:
Figure FDA0003171378060000031
其中,Pfuel为能量消耗,s为距离目标回收位置的直线距离,V为火箭的速度,
Figure FDA0003171378060000032
为火箭姿态角的绝对值,
Figure FDA0003171378060000033
为加速度大小;
(3)根据深度强化学习算法,搭建神经网络;
(4)基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对所述状态空间进行初始化,得到当前状态st
(4.3)运载火箭垂直回收仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的火箭状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
(4.5)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.6)反复执行N次(4.2)到(4.5),从而完成神经网络模型的训练,保存训练好的神经网络模型;
(5)调用训练好的神经网络模型进行仿真验证;
(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
2.根据权利要求1所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:
目标相对坐标系的定义为:
以目标点OT为坐标原点,OTYT与目标点当地重力方向相反,OTXT轴与OTYT轴垂直并指向起飞点方向,OTZT与OTXT轴、OTYT轴构成右手坐标系,目标相对坐标系OTXTYTZT随地球自转而旋转。
3.根据权利要求1所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:所述步骤(3)深度强化学习算法为基于Actor-Critic架构的PPO算法。
4.根据权利要求1所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:所述步骤(3)搭建神经网络,具体为:
基于Actor-Critic算法,搭建策略神经网络和估值神经网络,均为三层神经网络,两个隐藏层,最后为输出层,采用Relu作为激活函数,隐藏层含有128个神经元,步长λ初值设为0.95,折扣因子设为0.98。
5.根据权利要求1所述的一种基于深度强化学习的运载火箭垂直回收方法,其特征在于:所述步骤(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收,具体是指:仿真验证后的神经网络模型输出主推力、控制力、舵偏控制量,运载火箭根据上述控制量修正自身姿态和轨迹,实现垂直回收。
6.一种基于权利要求1-5中任一项所述运载火箭垂直回收方法实现的垂直回收智能控制系统,其特征在于包括:
模型搭建模块:用于搭建运载火箭垂直回收仿真模型;
马尔科夫决策模块:用于基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;
神经网络创建模块:用于根据深度强化学习算法,搭建神经网络;
训练模块:用于基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;
仿真验证模块:用于调用训练好的神经网络模型进行仿真验证;
控制模块:用于根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
7.根据权利要求6所述的垂直回收智能控制系统,其特征在于:
所述模型搭建模块搭建的运载火箭垂直回收仿真模型,具体为:
Figure FDA0003171378060000051
Figure FDA0003171378060000052
Figure FDA0003171378060000053
Figure FDA0003171378060000054
Figure FDA0003171378060000055
Figure FDA0003171378060000056
Figure FDA0003171378060000057
Figure FDA0003171378060000058
Figure FDA0003171378060000059
Figure FDA00031713780600000510
Figure FDA00031713780600000511
Figure FDA00031713780600000512
Figure FDA00031713780600000513
Figure FDA00031713780600000514
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度。
CN201811393548.1A 2018-11-21 2018-11-21 一种基于深度强化学习的运载火箭垂直回收智能控制方法 Active CN109343341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811393548.1A CN109343341B (zh) 2018-11-21 2018-11-21 一种基于深度强化学习的运载火箭垂直回收智能控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811393548.1A CN109343341B (zh) 2018-11-21 2018-11-21 一种基于深度强化学习的运载火箭垂直回收智能控制方法

Publications (2)

Publication Number Publication Date
CN109343341A CN109343341A (zh) 2019-02-15
CN109343341B true CN109343341B (zh) 2021-10-01

Family

ID=65316649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811393548.1A Active CN109343341B (zh) 2018-11-21 2018-11-21 一种基于深度强化学习的运载火箭垂直回收智能控制方法

Country Status (1)

Country Link
CN (1) CN109343341B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241322B (zh) * 2018-01-16 2020-08-04 电子科技大学 一种fpga互联资源的优化配置生成方法
CN109669354A (zh) * 2018-11-19 2019-04-23 北京理工大学 状态空间下快速高效的航天器自主任务规划修复方法
CN109977534A (zh) * 2019-03-22 2019-07-05 清华大学 基于强化学习的电路参数优化方法及系统
CN110297423B (zh) * 2019-05-27 2022-08-12 北京航天自动控制研究所 一种飞行器长期在轨多模智能集成系统
CN110195660B (zh) * 2019-06-19 2020-04-21 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110488861B (zh) * 2019-07-30 2020-08-28 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110531622B (zh) * 2019-09-05 2022-04-05 沈阳航空航天大学 一种基于径向基神经网络的固体火箭发动机推力控制方法
CN110620536B (zh) * 2019-10-24 2021-03-02 安徽大学 一种电动汽车异步电机关键参数标定方法
CN110837231A (zh) * 2019-11-15 2020-02-25 清华大学 在环仿真方法、装置及控制平台
CN110781614B (zh) * 2019-12-06 2024-03-22 北京工业大学 基于深度强化学习的舰载机出动回收在线调度方法
CN111027143B (zh) * 2019-12-18 2020-12-04 四川大学 一种基于深度强化学习的舰载机进近引导方法
CN111397448B (zh) * 2020-03-13 2021-08-17 北京星际荣耀空间科技股份有限公司 姿控参数自适应调节方法、装置、电子设备及存储介质
CN111596677B (zh) * 2020-05-07 2021-11-30 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及系统
CN111917642B (zh) * 2020-07-14 2021-04-27 电子科技大学 分布式深度强化学习的sdn网络智慧路由数据传输方法
CN112069903B (zh) * 2020-08-07 2023-12-22 之江实验室 基于深度强化学习实现人脸识别端边卸载计算方法及装置
CN112278334B (zh) * 2020-11-06 2022-07-01 北京登火汇智科技有限公司 用于控制火箭的着陆过程的方法
CN112465664B (zh) * 2020-11-12 2022-05-03 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112800546B (zh) * 2021-01-29 2022-07-01 清华大学 一种火箭垂直回收状态可控性分析方法和装置
CN112937918B (zh) * 2021-02-05 2022-06-17 南京航空航天大学 一种基于强化学习的多约束下的卫星姿态机动规划方法
CN113031642B (zh) * 2021-05-24 2021-08-10 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统
CN113298255B (zh) * 2021-06-11 2024-03-15 浙江工业大学 基于神经元覆盖率的深度强化学习鲁棒训练方法和装置
CN113504723B (zh) * 2021-07-05 2023-11-28 北京航空航天大学 一种基于逆强化学习的运载火箭减载控制方法
CN113885549B (zh) * 2021-11-23 2023-11-21 江苏科技大学 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
CN114020001A (zh) * 2021-12-17 2022-02-08 中国科学院国家空间科学中心 基于深度确定性策略梯度学习的火星无人机智能控制方法
CN114435631B (zh) * 2022-02-17 2023-08-04 广州大学 一种航天器自主控制系统
CN115291504B (zh) * 2022-05-30 2024-06-25 国家超级计算无锡中心 基于末端误差的火箭子级回收着陆段动力下降制导方法
CN115524964B (zh) * 2022-08-12 2023-04-11 中山大学 一种基于强化学习的火箭着陆实时鲁棒制导方法及系统
CN116663438B (zh) * 2023-08-02 2023-10-27 中科星图测控技术股份有限公司 一种基于神经网络反向获取临近空间目标轨迹外推的方法
CN117521535B (zh) * 2024-01-08 2024-03-12 东方空间(江苏)航天动力有限公司 一种基于dqn的运载火箭航迹规划方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007182182A (ja) * 2006-01-10 2007-07-19 Ihi Aerospace Co Ltd 高速で帰還する帰還部材の回収方法及び回収装置
US8006936B1 (en) * 2006-05-31 2011-08-30 Farr Iii Warren W Parachute deployment control
CN106354901A (zh) * 2016-08-12 2017-01-25 北京宇航系统工程研究所 一种运载火箭质量特性及动力学关键参数在线辨识方法
CN107544262A (zh) * 2017-10-27 2018-01-05 南京工业大学 一种运载火箭自适应精确回收控制方法
CN107966156A (zh) * 2017-11-24 2018-04-27 北京宇航系统工程研究所 一种适用于运载火箭垂直回收段的制导律设计方法
CN108646555A (zh) * 2018-05-07 2018-10-12 中国人民解放军国防科技大学 基于航天器回收系统空投试验数据的参数辨识方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007182182A (ja) * 2006-01-10 2007-07-19 Ihi Aerospace Co Ltd 高速で帰還する帰還部材の回収方法及び回収装置
US8006936B1 (en) * 2006-05-31 2011-08-30 Farr Iii Warren W Parachute deployment control
CN106354901A (zh) * 2016-08-12 2017-01-25 北京宇航系统工程研究所 一种运载火箭质量特性及动力学关键参数在线辨识方法
CN107544262A (zh) * 2017-10-27 2018-01-05 南京工业大学 一种运载火箭自适应精确回收控制方法
CN107966156A (zh) * 2017-11-24 2018-04-27 北京宇航系统工程研究所 一种适用于运载火箭垂直回收段的制导律设计方法
CN108646555A (zh) * 2018-05-07 2018-10-12 中国人民解放军国防科技大学 基于航天器回收系统空投试验数据的参数辨识方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
垂直返回重复使用运载火箭技术分析;高朝辉 等;《宇航学报》;20160229;第37卷(第2期);第145-152页 *

Also Published As

Publication number Publication date
CN109343341A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109343341B (zh) 一种基于深度强化学习的运载火箭垂直回收智能控制方法
Su et al. Attitude control of underwater glider combined reinforcement learning with active disturbance rejection control
CN106444799A (zh) 基于模糊扩张状态观测器和自适应滑模的四旋翼无人机控制方法
CN106055522A (zh) 冗余空间机械臂最小基座姿态扰动的轨迹规划方法
CN111027143B (zh) 一种基于深度强化学习的舰载机进近引导方法
CN109625333A (zh) 一种基于深度增强学习的空间非合作目标捕获方法
CN102880052A (zh) 基于时标功能分解的高超声速飞行器执行器饱和控制方法
CN114253296B (zh) 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN105182742A (zh) 一种弹性体飞行器自适应受限跟踪控制间接法
Imanberdiyev et al. A fast learning control strategy for unmanned aerial manipulators
CN112965371A (zh) 基于固定时间观测器的水面无人艇轨迹快速跟踪控制方法
CN112749515A (zh) 融合生物启发和深度强化学习的损伤机器人步态自学习
CN117215197B (zh) 四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质
CN106021784A (zh) 一种基于两层优化策略的全轨迹优化设计方法
CN113377121A (zh) 一种基于深度强化学习的飞行器智能抗扰动控制方法
Zhang et al. Reinforcement learning control for 6 DOF flight of fixed-wing aircraft
Wang et al. Intelligent control of air-breathing hypersonic vehicles subject to path and angle-of-attack constraints
CN114077258A (zh) 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
CN116620566A (zh) 非合作目标附着多节点智能协同制导方法
CN116820134A (zh) 基于深度强化学习的无人机编队保持控制方法
CN114943168B (zh) 一种水上浮桥组合方法及系统
CN116360258A (zh) 基于固定时间收敛的高超声速变形飞行器抗干扰控制方法
Xian et al. An Intelligent Attitude Control Method for UAV Based on DDPG Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant