CN116697829A - 一种基于深度强化学习的火箭着陆制导方法及系统 - Google Patents
一种基于深度强化学习的火箭着陆制导方法及系统 Download PDFInfo
- Publication number
- CN116697829A CN116697829A CN202310615988.1A CN202310615988A CN116697829A CN 116697829 A CN116697829 A CN 116697829A CN 202310615988 A CN202310615988 A CN 202310615988A CN 116697829 A CN116697829 A CN 116697829A
- Authority
- CN
- China
- Prior art keywords
- rocket
- neural network
- reinforcement learning
- deep reinforcement
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000002787 reinforcement Effects 0.000 title claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 claims abstract description 79
- 238000004088 simulation Methods 0.000 claims abstract description 49
- 238000003062 neural network model Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000012795 verification Methods 0.000 claims abstract description 11
- 239000000446 fuel Substances 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 45
- 230000009471 action Effects 0.000 claims description 26
- 230000001133 acceleration Effects 0.000 claims description 17
- 230000007704 transition Effects 0.000 claims description 15
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 206010048669 Terminal state Diseases 0.000 claims description 3
- 210000001015 abdomen Anatomy 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 3
- 238000013016 damping Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000000087 stabilizing effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 2
- 235000015842 Hesperis Nutrition 0.000 description 1
- 235000012633 Iberis amara Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
Classifications
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F42—AMMUNITION; BLASTING
- F42B—EXPLOSIVE CHARGES, e.g. FOR BLASTING, FIREWORKS, AMMUNITION
- F42B15/00—Self-propelled projectiles or missiles, e.g. rockets; Guided missiles
- F42B15/01—Arrangements thereon for guidance or control
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Combustion & Propulsion (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度强化学习的火箭着陆制导方法及系统。该方法为:首先根据火箭的六自由度动力学模型搭建仿真环境,建立火箭着陆制导马尔科夫决策过程;然后根据深度强化学习算法,搭建神经网络,并使用训练模块对神经网络进行训练,得到训练好的神经网络模型;接着仿真测试模块调用训练好的神经网络模型进行仿真验证;最后根据仿真测试后的神经网络模型,生成实时控制指令引导火箭着陆飞行。该系统包括环境搭建模块、马尔科夫决策模块、算法模块、训练模块、仿真测试和控制模块。本发明算法效率高,在模型存在一定偏差的情况下,具备泛化能力,能够满足着陆精度要求,燃料消耗低,对可回收运载火箭的自主着陆,具有很好的应用价值。
Description
技术领域
本发明涉及运载火箭的制导与控制领域,特别是一种基于深度强化学习的火箭着陆制导方法及系统。
背景技术
运载火箭具有飞行环境不确定、故障模式不确定、外部干扰不确定、自身模型不确定、飞行任务不确定等特有属性。经过多年发展,运载火箭制导控制技术研究积累了一批方法,并在多个重大工程中得到了实践,有效应对了飞行过程中的不确定性。但这些方法的系统性还不够,应对多因素不确定性的能力尚不足,难以全面、整体地解决问题。而智能控制则有望给出系统性、综合性的解决方案,而且在国内外航天史上,火箭发射失利时有发生,据统计运载器的发射失败都有可能利用先进的制导与控制技术补救挽回,继续完成或降级完成任务。可见,智能控制技术将成为未来航天发展的必然选择,发展运载火箭智能控制技术,打造会学习的运载火箭,是破解当前各类困境的有效途径。针对运载火箭飞行控制特点,如何通过离线交互学习和自动优化完成高效可泛化的控制律设计,采用智能学习手段进行快速学习,在飞行中自适应地优化控制律参数,提高运载火箭控制系统应对不确定因素的适应能力。为了完成这一目标,有效地设计适用于运载火箭飞行控制特点的深度强化学习算法框架,实现基于强化学习的运载火箭仿真性能验证与评估具有非常重要的研究意义和应用价值。
近年来,人工智能的飞速发展为飞行器智能自主飞行的实现提供了新的突破口。深度学习主要实现数据的函数映射功能,而强化学习针对马尔科夫决策过程,通过与被控对象的不断交互和迭代学习,生成可供全局决策的最优策略。结合两者优点而生的深度强化学习方法适合于解决运动控制问题,有望为智能化的控制方法提供可行的实现途径。
发明内容
本发明的目的在于提供一种算法效率高、自主决策能力强、能够提升运载火箭的自主化、自适应智能决策能力、提高运载火箭的成功着陆能力的基于深度强化学习的火箭着陆制导方法及系统。
实现本发明目的的技术解决方案为:一种基于深度强化学习的火箭着陆制导方法,步骤如下:
步骤1、根据火箭六自由度动力学模型搭建火箭着陆制导仿真环境;
步骤2、基于火箭六自由度动力学,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数;
步骤3、根据深度强化学习算法,搭建神经网络;
步骤4、基于所述状态空间、动作空间、状态转移方程以及奖励函数,通过与火箭着陆制导环境交互,对神经网络进行训练,得到训练好的神经网络模型;
步骤5、调用训练好的神经网络模型进行仿真验证;
步骤6、根据仿真测试后的神经网络模型,生成火箭着陆飞行控制指令,完成火箭的着陆任务。
一种基于深度强化学习的火箭着陆制导系统,该系统用于实现所述的基于深度强化学习的火箭着陆制导方法,该系统包括环境搭建模块、马尔科夫决策模块、算法模块、训练模块、仿真测试和控制模块,其中:
所述环境搭建模块,用于构建火箭着陆制导仿真环境;
所述马尔科夫决策模块,用于建立火箭着陆制导马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数;
所述算法模块,用于根据深度强化学习算法,搭建神经网络;
所述训练模块,用于对神经网络进行训练,得到训练好的神经网络模型;
所述仿真测试模块,用于调用训练好的神经网络模型进行仿真验证;
所述控制模块,用于生成火箭着陆飞行控制指令。
本发明与现有技术相比,其显著优点在于:(1)采用深度强化学习PPO算法,设计面向火箭着陆制导的深度强化学习程序,使用神经网络拟合环境与智能体间的映射关系,并对其进行训练,使得火箭能够使用训练好的神经网络自主着陆;(2)通过建立火箭六自由度的动力学模型以及运动方程,应用深度强化学习等方法开展着陆制导模型的设计与训练,实现快速自主决策,提升了火箭针对典型场景的自主化、自适应能力;(3)建立仿真环境,探索应用深度强化学习等方法开展火箭着陆制导决策技术的途径与方法,通过构造面向深度强化学习的仿真环境模型,利用深度强化学习算法的训练,不断提升算法效率,实现快速决策,降低燃料消耗,提升了运载火箭自主着陆能力。
附图说明
图1为本发明一种基于深度强化学习的火箭着陆制导方法的流程示意图。
图2为本发明具体实施方式中Actor-Critic算法的流程框图。
图3为本发明具体实施方式中策略神经网络的结构示意图。
图4为本发明具体实施方式中估值神经网络的结构示意图。
图5为本发明实施例中奖励函数的变化曲线图。
图6为本发明实施例中火箭的运动轨迹曲线图。
图7为本发明实施例中火箭的加速度变化曲线图。
图8为本发明实施例中火箭的推力变化曲线图。
具体实施方式
本发明一种基于深度强化学习的火箭着陆制导方法,步骤如下:
步骤1、根据火箭六自由度动力学模型搭建火箭着陆制导仿真环境;
步骤2、基于火箭六自由度动力学,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数;
步骤3、根据深度强化学习算法,搭建神经网络;
步骤4、基于所述状态空间、动作空间、状态转移方程以及奖励函数,通过与火箭着陆制导环境交互,对神经网络进行训练,得到训练好的神经网络模型;
步骤5、调用训练好的神经网络模型进行仿真验证;
步骤6、根据仿真测试后的神经网络模型,生成火箭着陆飞行控制指令,完成火箭的着陆任务。
进一步地,步骤1中的火箭六自由度动力学模型,具体如下:
惯性坐标系下火箭的质心动力学方程为:
式中:r为位置矢量;v为速度矢量;m为火箭质量;g为重力加速度矢量;T为发动机推力矢量;D为气动阻力矢量;Isp表示燃料比冲,g0表示地球海平面处的平均引力加速度;ρ为由高度决定的大气密度;Sref为火箭参考截面积;CD为阻力系数,是速度v的非线性函数;Ma为马赫数,由速度v和声速决定;
控制量为发动机推力T,幅值满足约束
Tmin≤||T||≤Tmax (2)
箭体坐标系下火箭的绕质心动力学和四元数形式的运动学方程为:
式中:为姿态解算角速度在箭体坐标系3个轴的分量,J为惯性矩矢量,ωx,ωy,ωz分别为火箭旋转角速度在箭体坐标系3个轴的分量,Mstx,Msty,Mstz,Mdx,Mdy,Mdz,Mcx,Mcy,Mcz分别为作用在火箭上的气动稳定力矩、气动阻尼力矩和控制力矩在箭体坐标系3个轴的分量;
箭体坐标系下火箭四元数形式的运动学方程为:
式中:q0,q1,q2和q3为火箭的四元数。
进一步地,惯性坐标系和箭体坐标系,具体如下:
惯性坐标系的定义为:惯性系坐标原点OG取在火箭着陆点;轴OGXG和轴OGYG在水平面内,轴OGXG指向正北,轴OGYG指向正东,轴OGZG满足右手定则铅垂向下;
箭体坐标系的定义为:箭体坐标系固连于火箭,坐标原点在火箭质心OT;轴OTXT位于火箭对称平面内,平行于箭身轴线指向前方;轴OTYT垂直于火箭对称平面,即OTXTZT平面,指向右方;轴OTZT位于火箭对称平面内,垂直于XT轴朝下指向火箭腹部。
进一步地,步骤2所述的基于火箭六自由度动力学,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数,具体如下:
状态空间为:
S=[r,v,q0,q1,q2,q3,ωx,ωy,ωz,m]T (5)
其中:r为位置矢量;v为速度矢量;m为火箭质量;q0,q1,q2,q3为火箭四元数,ωx,ωy,ωz分别为火箭旋转角速度在箭体坐标系3个轴的分量;
动作空间为:
A=[δy,δz,||T||]T (6)
式中:δy,δz为推力的方向,||T||为发动机的推力大小,各动作量的取值范围为:
状态转移方程为:
奖励函数设计分为两部分:过程累计回报以及终端奖励回报,其中过程累计回报R1表示为:
其中:a为加速度,atarg为目标加速度,为姿态角,tgo为剩余飞行时间;
终端奖励回报R2表示为:
其中:R为终端状态奖励,Rr为终端位置奖励,Rv为终端速度奖励,x为火箭飞行高度,rtarg为火箭的着陆半径;
则总的奖励表示为:
reward=R1+R2 (13)
进一步地,步骤3中所述的深度强化学习算法,具体为基于Actor-Critic架构的近端策略优化(Proximal Policy Optimization,PPO)算法。
进一步地,步骤3中的神经网络,包括估值神经网络和策略神经网络;
所述策略神经网络和估值神经网络均为四层全连接层,隐藏层神经元个数分别为256,256,128和64,采用Relu作为激活函数,步长λ的初值设为0.1,折扣因子设为0.99。
进一步地,步骤3所述根据深度强化学习算法,搭建神经网络,具体如下:
步骤3.1、搭建估值神经网络,根据该时刻回报信息更新对每个状态-动作对的评价,输入当前和下一时刻状态,分别输出相应的状态-动作对评价值;
步骤3.2、策略神经网络,根据估值神经网络更新火箭着陆制导策略,从而使得每次所选择的火箭着陆制导策略始终朝着评价大的方向前进,输入环境当前的状态,包括火箭的位置、速度、质量、四元素、旋转角速度参数,输出火箭应采取的策略;
步骤3.3、根据环境反馈的回报设计损失函数,用于对估值神经网络和策略神经网络进行更新。
进一步地,步骤4所述的基于所述状态空间、动作空间、状态转移方程以及奖励函数,通过与火箭着陆制导环境交互,对神经网络进行训练,得到训练好的神经网络模型,具体如下:
步骤4.1、初始化策略神经网络参数和估值神经网络参数;
步骤4.2、对所述状态空间进行初始化,得到当前状态st;
步骤4.3、火箭着陆制导仿真环境根据策略神经网络输出的策略基于动作空间选择行为at,执行状态转移方程,得到下一步的状态st+1,根据奖励函数获取回报rt,计算此步的优势函数At并保存;
步骤4.4、根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
步骤4.5、策略神经网络输出新策略;
步骤4.6、反复执行6×105次步骤4.2~步骤4.5,完成神经网络模型的训练,保存训练好的神经网络模型。
进一步地,步骤6所述的根据仿真测试后的神经网络模型,生成火箭着陆飞行控制指令,完成火箭的着陆任务,具体如下:
仿真测试后的神经网络模型输出火箭的发动机推力大小和角度,火箭根据这些控制量调整制导策略,实现成功着陆。
本发明还提供一种基于深度强化学习的火箭着陆制导系统,该系统用于实现所述的基于深度强化学习的火箭着陆制导方法,该系统包括环境搭建模块、马尔科夫决策模块、算法模块、训练模块、仿真测试和控制模块,其中:
所述环境搭建模块,用于构建火箭着陆制导仿真环境;
所述马尔科夫决策模块,用于建立火箭着陆制导马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数;
所述算法模块,用于根据深度强化学习算法,搭建神经网络;
所述训练模块,用于对神经网络进行训练,得到训练好的神经网络模型;
所述仿真测试模块,用于调用训练好的神经网络模型进行仿真验证;
所述控制模块,用于生成火箭着陆飞行控制指令。
下面结合附图和具体实施例,对本发明做进一步的详细说明。
实施例
本发明一种基于深度强化学习的火箭着陆制导系统,包括环境搭建模块、马尔科夫决策模块、算法模块、训练模块、仿真测试和控制模块;
所述环境搭建模块,用于构建火箭着陆制导仿真环境;
所述马尔科夫决策模块,用于建立火箭着陆制导马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数;
所述算法模块,用于根据深度强化学习算法,搭建神经网络;
所述训练模块,用于对神经网络进行训练,得到训练好的神经网络模型;
所述仿真测试模块,用于调用训练好的神经网络模型进行仿真验证;
所述控制模块,用于生成火箭着陆飞行控制指令。
如图1所示,一种基于深度强化学习的火箭着陆制导方法,步骤如下:
步骤1、环境搭建模块根据火箭六自由度动力学搭建火箭着陆制导仿真环境;
步骤2、马尔科夫决策模块基于火箭六自由度动力学,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数;
步骤3、算法模块根据深度强化学习算法,搭建神经网络;
步骤4、训练模块基于所述状态空间、动作空间、状态转移方程以及奖励函数,通过与火箭着陆制导环境交互,对神经网络进行训练,得到训练好的神经网络模型;
步骤5、仿真测试模块调用训练好的神经网络模型进行仿真验证;
步骤6、控制模块根据仿真测试后的神经网络模型,生成火箭着陆飞行控制指令,完成火箭的着陆任务。
进一步地,步骤1所述环境搭建模块根据火箭六自由度动力学搭建火箭着陆制导仿真环境,具体如下:
首先建立火箭的动力学模型,对其所受的各种力进行分析,建立运载火箭复杂力场环境下的运动及动力学模型,为后续研究莫定模型基础,具体为:
惯性坐标系下火箭的质心动力学方程为:
式中:r为位置矢量;v为速度矢量;m为火箭质量;g为重力加速度矢量;T为发动机推力矢量;D为气动阻力矢量;Isp表示燃料比冲,g0表示地球海平面处的平均引力加速度;ρ为由高度决定的大气密度;Sref为火箭参考截面积;CD为阻力系数,是速度v的非线性函数;Ma为马赫数,由速度v和声速决定。
控制量为发动机推力T,幅值满足约束
Tmin≤||T||≤Tmax (2)
箭体坐标系下火箭的绕质心动力学和四元数形式的运动学方程为:
式中:为姿态解算角速度,J为惯性矩矢量,ωx,ωy,ωz分别为火箭旋转角速度在箭体坐标系3个轴的分量,Msty,Mstz,Mdx,Mdy,Mdz,Mcy,Mcz分别为作用在火箭上的气动稳定力矩、气动阻尼力矩和控制力矩在箭体坐标系3个轴的分量。
箭体坐标系下火箭四元数形式的运动学方程为:
式中:q0,q1,q2和q3为火箭的四元数。
进一步地,所述的惯性坐标系和箭体坐标系,具体如下:
惯性坐标系的定义为:惯性系坐标原点OG取在火箭着陆点;轴OGXG和轴OGYG在水平面内,轴OGXG指向正北,轴OGYG指向正东,轴OGZG满足右手定则铅垂向下;
箭体坐标系的定义为:箭体坐标系固连于火箭,坐标原点在火箭质心OT;轴OTXT位于火箭对称平面内,平行于箭身轴线指向前方;轴OTYT垂直于火箭对称平面,即OTXTZT平面,指向右方;轴OTZT位于火箭对称平面内,垂直于XT轴朝下指向火箭腹部。
进一步地,步骤2所述的基于火箭六自由度动力学,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数,具体如下:
状态空间为:
S=[r,v,q0,q1,q2,q3,ωx,ωy,ωz,m]T (5)
其中:r为位置矢量;v为速度矢量;m为火箭质量;q0,q1,q2,q3为火箭四元数,ωx,ωy,ωz分别为火箭旋转角速度在箭体坐标系3个轴的分量。
动作空间为:
A=[δy,δz,||T||]T (6)
式中:δy,δz为推力的方向,||T||为发动机的推力大小。且各动作量的取值范围为:
状态转移方程为:
奖励函数设计分为两部分:过程累计回报以及终端奖励回报,其中,过程累计回报R1表示为:
其中:a为加速度,atarg为目标加速度,为姿态角,tgo为剩余飞行时间。
终端奖励回报R2表示为:
其中:R为终端状态奖励,Rr为终端位置奖励,Rv为终端速度奖励,x为火箭飞行高度,rtarg为火箭的着陆半径。
则总的奖励表示为:
reward=R1+R2 (13)
进一步地,步骤3所述算法模块根据PPO算法,搭建神经网络,具体如下:
步骤3.1、搭建估值神经网络,根据该时刻回报信息更新对每个状态-动作对的评价,输入当前和下一时刻状态,分别输出相应的状态-动作对评价值;
步骤3.2、策略神经网络,根据估值神经网络更新火箭着陆制导策略,从而使得每次所选择的火箭着陆制导策略始终朝着评价大的方向前进,输入环境当前的状态,包括火箭的位置、速度、质量、四元数、姿态解算角速度参数,输出火箭应采取的策略;
步骤3.3、根据环境反馈的回报设计损失函数,用于对估值神经网络和策略神经网络进行更新。
本方法采用深度强化学习中经典的Actor-Critic架构,其基本网络结构如图2所示。
将环境的观测状态输入到神经网络后,对参数进行更新,Actor网络生成对应的策略,产生对应的动作输出;Critic网络通过优势函数评价当前策略。
所述的神经网络,包括估值神经网络和策略神经网络,结合图3、图4,所述策略神经网络和估值神经网络均为四层全连接层,隐藏层神经元个数分别为256,256,128和64,采用Relu作为激活函数,步长λ的初值设为0.1,折扣因子设为0.99。
进一步地,步骤4所述的训练模块基于所述火箭六自由度动力学模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型,具体如下:
步骤4.1、初始化策略神经网络参数和估值神经网络参数;
步骤4.2、对所述状态空间进行初始化,得到当前状态st;
步骤4.3、火箭着陆制导仿真环境根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程(1)~(4),得到下一步的状态st+1,根据奖励函数获取回报rt,计算此步的优势函数并保存;
步骤4.4、根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
步骤4.5、策略神经网络输出新策略;
步骤4.6、反复执行6×105次步骤4.2~步骤4.5,完成神经网络模型的训练,保存训练好的神经网络模型。
步骤5、仿真测试模块调用训练好的神经网络模型进行仿真验证;
步骤6、控制模块根据仿真测试后的神经网络模型,生成火箭着陆飞行控制指令,完成火箭的着陆任务。
仿真的奖励函数收敛结果如图5所示。由图5可知,奖励函数得以收敛。火箭的运动轨迹如图6所示。图7所示为火箭的加速度变化曲线图,图8所示为火箭推力的大小变化情况。通过仿真得到的结果可知,强化学习制导策略终端位置精度为5m,速度精度为2m/s,燃料消耗为4135kg,实现了火箭自主着陆。
从图6、图7和图8可以看出,本发明基于深度强化学习PPO算法,设计面向火箭着陆制导的深度强化学习程序,使用神经网络拟合环境与智能体间的映射关系,并对其进行训练,使得火箭能够使用训练好的神经网络自主着陆;另外,本发明研究建立火箭六自由度的动力学模型,应用深度强化学习等方法开展着陆制导模型的设计与训练,实现快速自主决策,提升了火箭针对典型场景的自主化、自适应能力。
Claims (10)
1.一种基于深度强化学习的火箭着陆制导方法,其特征在于,步骤如下:
步骤1、根据火箭六自由度动力学模型搭建火箭着陆制导仿真环境;
步骤2、基于火箭六自由度动力学,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数;
步骤3、根据深度强化学习算法,搭建神经网络;
步骤4、基于所述状态空间、动作空间、状态转移方程以及奖励函数,通过与火箭着陆制导环境交互,对神经网络进行训练,得到训练好的神经网络模型;
步骤5、调用训练好的神经网络模型进行仿真验证;
步骤6、根据仿真测试后的神经网络模型,生成火箭着陆飞行控制指令,完成火箭的着陆任务。
2.根据权利要求1所述的基于深度强化学习的火箭着陆制导方法,其特征在于,步骤1中的火箭六自由度动力学模型,具体如下:
惯性坐标系下火箭的质心动力学方程为:
式中:r为位置矢量;v为速度矢量;m为火箭质量;g为重力加速度矢量;T为发动机推力矢量;D为气动阻力矢量;Isp表示燃料比冲,g0表示地球海平面处的平均引力加速度;ρ为由高度决定的大气密度;Sref为火箭参考截面积;CD为阻力系数,是速度v的非线性函数;Ma为马赫数,由速度v和声速决定;
控制量为发动机推力T,幅值满足约束
Tmin≤||T||≤Tmax (2)
箭体坐标系下火箭的绕质心动力学和四元数形式的运动学方程为:
式中:为姿态解算角速度在箭体坐标系3个轴的分量,J为惯性矩矢量,ωx,ωy,ωz分别为火箭旋转角速度在箭体坐标系3个轴的分量,Mstx,Msty,Mstz,Mdx,Mdy,Mdz,Mcx,Mcy,Mcz分别为作用在火箭上的气动稳定力矩、气动阻尼力矩和控制力矩在箭体坐标系3个轴的分量;
箭体坐标系下火箭四元数形式的运动学方程为:
式中:q0,q1,q2和q3为火箭的四元数。
3.根据权利要求2所述的基于深度强化学习的火箭着陆制导方法,其特征在于,惯性坐标系和箭体坐标系,具体如下:
惯性坐标系的定义为:惯性系坐标原点OG取在火箭着陆点;轴OGXG和轴OGYG在水平面内,轴OGXG指向正北,轴OGYG指向正东,轴OGZG满足右手定则铅垂向下;
箭体坐标系的定义为:箭体坐标系固连于火箭,坐标原点在火箭质心OT;轴OTXT位于火箭对称平面内,平行于箭身轴线指向前方;轴OTYT垂直于火箭对称平面,即OTXTZT平面,指向右方;轴OTZT位于火箭对称平面内,垂直于XT轴朝下指向火箭腹部。
4.根据权利要求1所述的基于深度强化学习的火箭着陆制导方法,其特征在于,步骤2所述的基于火箭六自由度动力学,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数,具体如下:
状态空间为:
S=[r,v,q0,q1,q2,q3,ωx,ωy,ωz,m]T (5)
其中:r为位置矢量;v为速度矢量;m为火箭质量;q0,q1,q2,q3为火箭四元数,ωx,ωy,ωz分别为火箭旋转角速度在箭体坐标系3个轴的分量;
动作空间为:
A=[δy,δz,||T||]T (6)
式中:δy,δz为推力的方向,||T||为发动机的推力大小,各动作量的取值范围为:
状态转移方程为:
奖励函数设计分为两部分:过程累计回报以及终端奖励回报,其中过程累计回报R1表示为:
其中:a为加速度,atarg为目标加速度,为姿态角,tgo为剩余飞行时间;
终端奖励回报R2表示为:
其中:R为终端状态奖励,Rr为终端位置奖励,Rv为终端速度奖励,x为火箭飞行高度,rtarg为火箭的着陆半径;
则总的奖励表示为:
reward=R1+R2 (13)。
5.根据权利要求1所述的基于深度强化学习的火箭着陆制导方法,其特征在于,步骤3中所述的深度强化学习算法,具体为基于Actor-Critic架构的近端策略优化算法。
6.根据权利要求5所述的基于深度强化学习的火箭着陆制导方法,其特征在于,步骤3中的神经网络,包括估值神经网络和策略神经网络;
所述策略神经网络和估值神经网络均为四层全连接层,隐藏层神经元个数分别为256,256,128和64,采用Relu作为激活函数,步长λ的初值设为0.1,折扣因子设为0.99。
7.根据权利要求6所述的基于深度强化学习的火箭着陆制导方法,其特征在于,步骤3所述根据深度强化学习算法,搭建神经网络,具体如下:
步骤3.1、搭建估值神经网络,根据该时刻回报信息更新对每个状态-动作对的评价,输入当前和下一时刻状态,分别输出相应的状态-动作对评价值;
步骤3.2、策略神经网络,根据估值神经网络更新火箭着陆制导策略,从而使得每次所选择的火箭着陆制导策略始终朝着评价大的方向前进,输入环境当前的状态,包括火箭的位置、速度、质量、四元素、旋转角速度参数,输出火箭应采取的策略;
步骤3.3、根据环境反馈的回报设计损失函数,用于对估值神经网络和策略神经网络进行更新。
8.根据权利要求7所述的基于深度强化学习的火箭着陆制导方法,其特征在于,步骤4所述的基于所述状态空间、动作空间、状态转移方程以及奖励函数,通过与火箭着陆制导环境交互,对神经网络进行训练,得到训练好的神经网络模型,具体如下:
步骤4.1、初始化策略神经网络参数和估值神经网络参数;
步骤4.2、对所述状态空间进行初始化,得到当前状态st;
步骤4.3、火箭着陆制导仿真环境根据策略神经网络输出的策略基于动作空间选择行为at,执行状态转移方程,得到下一步的状态st+1,根据奖励函数获取回报rt,计算此步的优势函数At并保存;
步骤4.4、根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
步骤4.5、策略神经网络输出新策略;
步骤4.6、反复执行6×105次步骤4.2~步骤4.5,完成神经网络模型的训练,保存训练好的神经网络模型。
9.根据权利要求8所述的基于深度强化学习的火箭着陆制导方法,其特征在于,步骤6所述的根据仿真测试后的神经网络模型,生成火箭着陆飞行控制指令,完成火箭的着陆任务,具体如下:
仿真测试后的神经网络模型输出火箭的发动机推力大小和角度,火箭根据这些控制量调整制导策略,实现成功着陆。
10.一种基于深度强化学习的火箭着陆制导系统,其特征在于,该系统用于实现权利要求1~9任一项所述的基于深度强化学习的火箭着陆制导方法,该系统包括环境搭建模块、马尔科夫决策模块、算法模块、训练模块、仿真测试和控制模块,其中:
所述环境搭建模块,用于构建火箭着陆制导仿真环境;
所述马尔科夫决策模块,用于建立火箭着陆制导马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及奖励函数;
所述算法模块,用于根据深度强化学习算法,搭建神经网络;
所述训练模块,用于对神经网络进行训练,得到训练好的神经网络模型;
所述仿真测试模块,用于调用训练好的神经网络模型进行仿真验证;
所述控制模块,用于生成火箭着陆飞行控制指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310615988.1A CN116697829A (zh) | 2023-05-29 | 2023-05-29 | 一种基于深度强化学习的火箭着陆制导方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310615988.1A CN116697829A (zh) | 2023-05-29 | 2023-05-29 | 一种基于深度强化学习的火箭着陆制导方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116697829A true CN116697829A (zh) | 2023-09-05 |
Family
ID=87840283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310615988.1A Pending CN116697829A (zh) | 2023-05-29 | 2023-05-29 | 一种基于深度强化学习的火箭着陆制导方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116697829A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521535A (zh) * | 2024-01-08 | 2024-02-06 | 东方空间(江苏)航天动力有限公司 | 一种基于dqn的运载火箭航迹规划方法 |
CN117989923A (zh) * | 2024-03-22 | 2024-05-07 | 哈尔滨工业大学 | 一种基于强化学习的变比例系数多弹协同制导方法及系统 |
-
2023
- 2023-05-29 CN CN202310615988.1A patent/CN116697829A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521535A (zh) * | 2024-01-08 | 2024-02-06 | 东方空间(江苏)航天动力有限公司 | 一种基于dqn的运载火箭航迹规划方法 |
CN117521535B (zh) * | 2024-01-08 | 2024-03-12 | 东方空间(江苏)航天动力有限公司 | 一种基于dqn的运载火箭航迹规划方法 |
CN117989923A (zh) * | 2024-03-22 | 2024-05-07 | 哈尔滨工业大学 | 一种基于强化学习的变比例系数多弹协同制导方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109343341B (zh) | 一种基于深度强化学习的运载火箭垂直回收智能控制方法 | |
CN116697829A (zh) | 一种基于深度强化学习的火箭着陆制导方法及系统 | |
CN114253296B (zh) | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN111027143B (zh) | 一种基于深度强化学习的舰载机进近引导方法 | |
Lin et al. | Missile guidance law design using adaptive cerebellar model articulation controller | |
CN110806756A (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN111240345A (zh) | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
Tu et al. | Bio-inspired rapid escape and tight body flip on an at-scale flapping wing hummingbird robot via reinforcement learning | |
Hu et al. | Proximal policy optimization with an integral compensator for quadrotor control | |
Carrillo et al. | Deep-learning tracking for autonomous flying systems under adversarial inputs | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN113504723B (zh) | 一种基于逆强化学习的运载火箭减载控制方法 | |
CN116820134A (zh) | 基于深度强化学习的无人机编队保持控制方法 | |
CN114428517B (zh) | 一种无人机无人艇协同平台端对端自主降落控制方法 | |
Wu et al. | Improved reinforcement learning using stability augmentation with application to quadrotor attitude control | |
CN117908565A (zh) | 基于最大熵多智能体强化学习的无人机安全路径规划方法 | |
CN115524964B (zh) | 一种基于强化学习的火箭着陆实时鲁棒制导方法及系统 | |
CN116620566A (zh) | 非合作目标附着多节点智能协同制导方法 | |
CN115289917B (zh) | 基于深度学习的火箭子级着陆实时最优制导方法及系统 | |
CN116796843A (zh) | 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 | |
CN113821057B (zh) | 一种基于强化学习的行星软着陆控制方法及系统和存储介质 | |
CN115046433B (zh) | 基于深度强化学习的飞行器时间协同制导方法 | |
CN113050420B (zh) | 基于s面控制和td3的auv路径跟踪方法及系统 | |
Pi et al. | Reinforcement learning trajectory generation and control for aggressive perching on vertical walls with quadrotors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |