CN116068894A - 基于双层强化学习的火箭回收制导方法 - Google Patents

基于双层强化学习的火箭回收制导方法 Download PDF

Info

Publication number
CN116068894A
CN116068894A CN202310057961.5A CN202310057961A CN116068894A CN 116068894 A CN116068894 A CN 116068894A CN 202310057961 A CN202310057961 A CN 202310057961A CN 116068894 A CN116068894 A CN 116068894A
Authority
CN
China
Prior art keywords
rocket
track
double
recovery
rewards
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310057961.5A
Other languages
English (en)
Inventor
李文婷
朱皓同
李洪珏
林岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Beijing Aerospace Automatic Control Research Institute
Original Assignee
Beihang University
Beijing Aerospace Automatic Control Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Beijing Aerospace Automatic Control Research Institute filed Critical Beihang University
Priority to CN202310057961.5A priority Critical patent/CN116068894A/zh
Publication of CN116068894A publication Critical patent/CN116068894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/13Differential equations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于双层强化学习的火箭回收制导方法,包括构建并训练火箭回收制导模型,并利用训练好的所述火箭回收制导模型生成火箭回收轨迹;其中,火箭回收制导模型基于双层强化学习进行训练,训练过程包括:探索奖励模块接收火箭回收轨迹,生成探索奖励;判别网路模块从火箭回收轨迹以及人类专家轨迹中随机采样,生成模仿奖励;策略网络模块根据探索奖励和模仿奖励进行更新,当满足迭代次数时结束。本发明采用双层学习框架,具有参数量少、计算能力要求低以及无需迭代等显著优势,且通过奖励鼓励策略广泛探索所有状态空间以提高鲁棒性。

Description

基于双层强化学习的火箭回收制导方法
技术领域
本发明涉及火箭回收制导技术领域,更具体的说是涉及一种基于双层强化学习的火箭回收制导方法。
背景技术
目前,针对火箭着陆制导问题,主要采用基于间接法和直接法的轨迹优化方法,
间接法通过引入协变量,建立哈密尔顿函数,将轨迹优化问题转化为两点边值问题,最终求解一个非线性方程组;但该方法仅能满足最优解的一阶必要条件,无法满足解的最优性,且将轨迹优化问题转化为两点边值问题,收敛性也难以保证。
而直接法将轨迹问题转化为非线性规划问题,通过对指标和约束进行凸化,使其满足KKT条件,将复杂的着陆制导问题转化为易于求解的凸优化问题。但对于存在非线性很强、非凸因素很多的轨迹很难转化为凸优化问题,使得该方法的应用的仅局限在非线性较弱、非凸因素较少的领域。
同时,上述间接法和直接法的轨迹优化方法都涉及到迭代求解,考虑到目前箭载计算机的计算能力相对较弱,在优化问题复杂的情况下可能需要十几秒才能求出结果,无法满足航天器轨迹优化的实时性要求,且基于监督学习的方法需要构建大量的训练数据,从而使神经网络制导律限定在训练数据范围内,导致制导律的泛化性、鲁棒性较差。
因此,如何进一步研发设计火箭制导方法,以克服上述缺陷是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于双层强化学习的火箭回收制导方法,旨在减少参数量、提高计算速度,以满足实时性要求;通过设计神经网络形式的制导策略,增强其泛化能力和鲁棒性。
本发明公开的基于双层强化学习的火箭回收制导方法,具体包括:
构建并训练火箭回收制导模型,并利用训练好的所述火箭回收制导模型生成火箭回收轨迹;
所述火箭回收制导模型基于双层强化学习进行训练,训练过程包括:
探索奖励模块接收所述火箭回收轨迹,生成探索奖励;
判别网络模块从所述火箭回收轨迹以及人类专家轨迹中随机采样,生成模仿奖励;
策略网络模块根据所述探索奖励和所述模仿奖励进行更新,当满足迭代次数时结束。
优选的,所述探索奖励为火箭回收成功奖励、火箭坠毁惩罚与火箭接近奖励之和。
优选的,所述火箭回收成功奖励定义为,火箭降落在回收点,且速度小于阈值,奖励设为5;
所述火箭坠毁惩罚定义为,火箭降落在回收点,但速度大于阈值;或火箭降落在除回收点的其他位置,惩罚设为-5;
所述火箭接近奖励,定义为,火箭比上一时刻更接近回收点,奖励设为0.1。
优选的,所述火箭回收轨迹同人类专家轨迹先共同输入至轨迹池,进行充分混合,所述判别网络模块从所述轨迹池中进行采样。
优选的,所述判别网络模块包括轨迹判别网络和奖励输出网络,
所述轨迹判别网络,用于判断采样的轨迹是否为所述人类专家轨迹,
所述奖励输出网络,根据如下公式输出奖励:
r=logDωs,a+0.5
式中,Dω(s,a)为轨迹判别网络的输出结果,s和a分别表示火箭回收制导模型输出的状态和动作。
优选的,所述轨迹判别网络的输出为属于(0,1)的浮点数。
优选的,所述轨迹判别网络中参数w,按如下公式进行更新:
Figure BDA0004060800300000021
式中,ωi+1表示更新后的参数,ωi表示更新前的参数,
Figure BDA0004060800300000031
表示对网络参数ω求梯度;
Figure BDA0004060800300000032
Figure BDA0004060800300000033
分别表示对生成网络模块轨迹的判断预期和对人类专家轨迹的判断预期。
优选的,所述策略网络模块根据所述探索奖励和所述模仿奖励,使用近端策略优化算法进行网络参数优化和更新,
优选的,所述火箭回收制导模型包括马尔可夫决策模块和所述策略网络模块,所述马尔可夫决策模块用于获取火箭的状态,所述策略网络模块用于根据所述状态生成动作,所述状态和所述动作组成所述火箭回收轨迹。
优选的,所述马尔可夫决策模块根据火箭位置、速度和质量,得到火箭的状态,表达式为:
s=[rTvTm]
式中,s为火箭的状态,r为火箭位置矢量在地心赤道旋转坐标系中的表示,v为火箭速度矢量在地心赤道旋转坐标系中的表示,m为火箭质量;
同时,所述马尔可夫决策模块根据状态转移函数生成下一时刻的状态St+1,所述状态转移函数的表达式为:
st+1=F(st,at)
式中,st+1表示t+1时刻的状态,st表示t时刻的状态,at表示t时刻的动作,F(x)表示状态转移函数。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于双层强化学习的火箭回收制导方法,可解决火箭回收过程中的制导问题。
通过双层强化学习框架,使其无需迭代计算,且具有参数量少、计算能力要求低等显著优势,能够在功耗和计算能力受到严格限制的箭载计算机上实现轨迹优化的实时性与高精度性;
同时,专利提出强化学习探索奖励模块,鼓励策略广泛探索所有状态空间以提高鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的火箭回收制导模型结构示意图;
图2为本发明提供的火箭回收制导模型训练流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于双层强化学习的火箭回收制导方法,具体包括构建并训练火箭回收制导模型,并利用训练好的火箭回收制导模型生成火箭回收轨迹;
其中,本发明创新性的提出包括马尔可夫决策模块和策略网络模块的火箭回收制导模型,马尔可夫决策模型将可回收火箭着陆制导问题建立为马尔可夫决策过程,策略网络能够与马尔可夫决策模型进行交互以获取新一步信息,即根据当前从马尔可夫决策模型接收的状态s,生成动作a,从而形成火箭回收轨迹(s,a)。
进一步,本发明提出了基于双层强化学习的训练方法,其中,训练框架如图1所示,训练过程包括:
探索奖励模块接收火箭回收轨迹,生成探索奖励;
判别网路模块从火箭回收轨迹以及人类专家轨迹中随机采样,生成模仿奖励;
策略网络模块根据探索奖励和模仿奖励进行更新,当满足迭代次数时结束。
本发明采用双层强化学习方法训练神经网络形式的火箭回收制导模型,并利用该火箭回收制导模型,通过参数量少、计算速度快、不用迭代求解的特点实现制导模型的实时性;此外,通过设计神经网络形式的制导策略,通过不基于模型的交互采样优化网络参数,得到具有泛化能力、鲁棒性强的火箭回收制导模型。
本发明提出的基于双层强化学习的获奖回收制导模型中,更新奖励分为模仿奖励和探索奖励,模仿奖励由判别网络模块给予,用于鼓励策略网络模块学习人类专家先验;探索奖励由探索奖励模块给予,探索奖励模块根据输入的轨迹(s,a),输出探索奖励re,用于鼓励策略网络在环境中进行探索。
一种实施例中,探索奖励包括火箭回收成功奖励、火箭坠毁惩罚与火箭接近奖励,并且探索奖励为三者之和。
其中,火箭回收成功奖励定义为,火箭降落在回收点,且速度小于阈值,此时判定火箭成功被回收,获得火箭回收成功正奖励rgoal=5;
火箭坠毁惩罚定义为,火箭降落在回收点,但速度大于阈值;或火箭降落在除回收点的其他位置,判定火箭坠毁,获得火箭坠毁惩罚rcrash=-5;
火箭接近奖励定义为,火箭比上一时刻更接近回收点,此时,判定火箭正在进行降落,获得火箭接近奖励rclose=0.1。
探索奖励模块输出的总奖励re表示为:
re=rgoal+rcrash+rclose
另外,本申请中判别网络模块,用于判定此条轨迹是来源于生成网络模块还是来源于人类专家轨迹,并根据判定结果向策略网络模块输出模仿奖励ri
具体的,判别网络模块包括轨迹判别网络和奖励输出网络,其中,轨迹判别网络,用于判断采样的轨迹是否为所述人类专家轨迹,包括多层感知机模块和激活函数模块,表示为:Dω(s,a);当判别网络模块随机采样得到一组轨迹时,由多层感知机模块对该轨迹进行处理,提取相关信息,而后,由激活函数模块生成判断。
一种实施例中,轨迹判别网络最终输出属于(0,1)的浮点数,即判定采样到的轨迹是否来自于人类专家,当输出1时,表示判定为人类专家轨迹,输出0时,表示判定为生成网络模块轨迹。
一种实施例中,轨迹判别网络中参数w,按如下公式进行更新:
Figure BDA0004060800300000051
式中,ωi+1表示更新后的参数,ωi表示更新前的参数,
Figure BDA0004060800300000052
表示对网络参数ω求梯度;
Figure BDA0004060800300000053
Figure BDA0004060800300000054
分别表示对生成网络模块轨迹的判断预期和对人类专家轨迹的判断预期。
进一步,奖励输出网络,根据轨迹判别网路的输出值以及如下公式输出奖励:
ri=log(Dω(s,a)+0.5)
式中,Dω(s,a)为轨迹判别网络的输出结果,s和a分别表示火箭回收制导模型输出的状态和动作。
一种实施例中,如图1所示,火箭回收轨迹同人类专家轨迹先共同输入至轨迹池,进行充分混合,然后由判别网络模块从轨迹池中进行采样。其中,火箭回收轨迹由火箭回收制导模型不断生成,表示为:
τi=(s0,a0,s1,a1,…,sn,an,…)
而人类专家轨迹由人类专家采用传统算法(如基于直接法的轨迹优化方法和基于间接法的轨迹优化方法),在简化最少、精确度最高、计算量最大的条件下求解获得;同时将人类专家计算的结果转化为与生成网络模块一致的形式,表示为:
τE=(s0,a0,s1,a1,…,sn,an,…)
当策略网络模块接收到探索奖励和模仿奖励时,使用近端策略优化算法,按如下公式,进行网络参数优化和更新进行更新,
Figure BDA0004060800300000061
其中,θk+1为更新之后的策略网络参数,argmax为求最大值自变量点集函数,argmaxL(θ)表示找到令L函数最大的θ值;
进一步,
Figure BDA0004060800300000062
式中,θk为更新之前的策略网络参数,
Figure BDA0004060800300000063
表示t时刻对后方式子求期望;min表示在其括号内的两项中输出较小的一项;πθ表示以θ为参数的策略网络,Clip(a,b,c)表示当a<b时,输出b;当b≤a≤c时,输出a;当a>c时,输出c;ε为可调节的超参数,用于限制参数更新范围;上式通常在经历K步之后使用Adam优化器进行随机梯度下降以进行优化,从而更新神经网络参数。
其中,At为更新前策略网络参数而得出的优势函数的估计值。优势函数A(st,at),是基于价值函数V(st)和动作-价值函数Q(st,at)构建的函数,表示在状态st下,某选定的动作at相对于平均而言的优势。其定义式如下:
Ast,at=Qst,at-Vst
对于动作-价值函数Qst,at,用以评判强化学习智能体在状态为st时采取动作at是否优秀。动作-价值函数Q是指智能体在状态st时采取动作at的情况下,利用当前策略与环境交互,从状态st起得到的累计回报的均值。根据数学推导,可以获得动作-价值函数Qst,at与价值函数Vst的关系如下:
Qst,at=rt+γVst+1
式中,rt为强化学习智能体在当前时刻收到的奖励,本发明中,rt为探索奖励和模仿奖励之和;γ为折扣因子,表示下一时刻的价值与本时刻所做动作的关联度,为可调节的超参数。
本发明通过使用双层强化学习方法,建立生成对抗网络框架,设计策略网络、判别器网络和探索奖励模块,实现了基于深度双层强化学习的火箭着陆制导模型的生成。不仅通过模仿人类专家进行学习;还提出强化学习探索奖励模块,鼓励策略广泛探索所有状态空间以提高鲁棒性。
进一步,当更新训练完成后,由马尔可夫决策模块和策略网络模块生成火箭回收轨迹。
首先,考虑火箭的运动学与动力学研究基础,选定参考坐标系为地心赤道旋转坐标系,然后由马尔可夫决策模块根据火箭的位置、速度和质量提取七维矢量,并由提取的七维矢量组成状态s。
具体的,七维矢量包括:火箭位置矢量在地心赤道旋转坐标系x轴方向的投影、火箭位置矢量在地心赤道旋转坐标系y轴方向的投影、火箭位置矢量在地心赤道旋转坐标系z轴方向的投影、火箭速度矢量在地心赤道旋转坐标系x轴方向的投影、火箭速度矢量在地心赤道旋转坐标系y轴方向的投影、火箭速度矢量在地心赤道旋转坐标系z轴方向的投影以及质量;其中,状态s可表示为:
s=[rTvTm]
式中,r为火箭位置矢量在地心赤道旋转坐标系中的表示,v为火箭速度矢量在地心赤道旋转坐标系中的表示,m为火箭质量。
当马尔可夫决策模块获得状态s后,将其输入给策略网络模块,由策略网络模块生成动作a,并根据状态s和动作a,最终输出所述火箭回收轨迹。
策略网络模块,包括多层感知机模块和激活函数模块等组件,表示为:πθ(at|st),其中,at|st代表在状态st下输出动作at的概率,即策略网络模块输出的是动作的概率分布,之后根据此概率分布,随机抽样获得最终输出的动作。
该模块通过多层感知机对来自马尔可夫决策模型的状态s进行处理,同时提取相关信息,最终经过激活函数激活后生成动作a。
进一步,马尔可夫决策模块在将状态s输送策略网络模块的同时,根据状态转移函数生成下一时刻的状态St+1,所述状态转移函数的表达式为:
st+1=F(st,at)
式中,st+1表示t+1时刻的状态,st表示t时刻的状态,at表示t时刻的动作,F(x)表示状态转移函数。
具体的,该表达式根据动力学模型推导而来,相应的,火箭着陆回收过程中,将着陆点当地坐标系固化为惯性系,在此坐标系下描述火箭着陆段的质心运动。其中,惯性系x轴指向东方向,y轴指向被方向,z轴垂直向上,原点为着陆点。系统动力学方程表示为:
Figure BDA0004060800300000081
Figure BDA0004060800300000082
Figure BDA0004060800300000083
式中:r为火箭位置矢量;v为火箭速度矢量;m为火箭质量;g为重力加速度矢量;D为气动阻力矢量;T为动作a中输出的发动机推力矢量;Vex为发动机排气速度。
其中,重力加速度g使用圆球重力场模型描述,公式为:
Figure BDA0004060800300000084
式中:μ为地球引力常数;RE为地心指向回收点的位置矢量。
根据空气动力学基础知识,气动阻力D计算公式为:
Figure BDA0004060800300000085
式中:ρ为由高度决定的大气密度;Sref为火箭参考截面积;CD为阻力系数,是速度v的非线性函数;Ma为马赫数,由速度v和当地声速决定。
对于推力矢量T,考虑到火箭动力学基础,将火箭执行机构输出的总推力定义为推力矢量T,则策略网络模块输出的动作为一个3维矢量,分别为推力矢量的模值、推力矢量在飞行器本体坐标系yz平面内投影与x轴的夹角α以及推力矢量方向与飞行器本体坐标系x轴方向的夹角β,表示为:
a=[a1,a2,a3]T=[||T||αβT
则策略网络输出动作a与火箭所受的实际推力控制量满足以下的分量对应关系:
T=[a1cosa2sina3a1cosa2sina3a1cosa2sina3]
根据上述动力学模型,求解可得火箭着陆动力学方程,记为:
Figure BDA0004060800300000091
给定初值并求解微分方程后,可到状态转移函数为:
st+1=F(st,at)
为了唯一确定下一时刻的状态S(t+1),本申请将状态转移概率设置为恒等于1,即:
p(st+1=F(st,at)|st,at)=1
本发明公开的基于双层强化学习的火箭回收制导模型,可用于解决可回收火箭着陆制导中轨迹规划与轨迹优化问题。通过使用双层强化学习框架,构建神经网络作为火箭回收制导模型,相比于传统基于直接法和间接法的轨迹优化方法,拥有不需要迭代计算、参数量少、计算能力要求低等显著优势,能够在功耗和计算能力受到严格限制的箭载计算机上实现轨迹优化的实时性与高精度性。
同时,以设置强化学习奖励的形式鼓励策略网络在环境中进行探索,并设置高精度的马尔可夫决策模型以足够贴近真实环境,使得策略网络能够在双层强化学习不断地试错中增强对环境的理解,更深层制导律的原理。相比于现有的基于监督学习的训练方法,双层强化学习训练出地神经网络制导模型具有更高地泛化性与鲁棒性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
具体如图2,本发明公开的火箭回收制导模型,其训练过程如下:
步骤一:建立火箭回收制导模型;
步骤二:初始化策略网络πθ(at|st)和判别网络Dω(s,a)的模型参数,由于探索模块的参数全部已知且固定,故该模块无需初始化;
步骤三:生成网络模块利用策略网络和马尔可夫决策模型产生轨迹;
步骤四:
(1)轨迹池接收来自火箭回收制导模型输出的轨迹和来自人类专家的轨迹;判别网络模块在轨迹池中随机采样一组轨迹,并送入判别网络模块;判别网络模块判定轨迹来源,并以此向策略网络模块输出模仿奖励;
(2)探索奖励模块接收轨迹,并向策略网络模块输出探索奖励;
步骤五:策略网络模块根据奖励,使用近端策略优化算法进行网络参数优化和更新,判别网络使用梯度上升法进行更新;
步骤六:判断是否达到最大迭代次数,若否则返回步骤三,若是则进入步骤七。
步骤七:得到需要的神经网络制导律模型,训练结束。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于双层强化学习的火箭回收制导方法,其特征在于,包括构建并训练火箭回收制导模型,并利用训练好的所述火箭回收制导模型生成火箭回收轨迹;
所述火箭回收制导模型基于双层强化学习进行训练,训练过程包括:
探索奖励模块接收所述火箭回收轨迹,生成探索奖励;
判别网络模块从所述火箭回收轨迹以及人类专家轨迹中随机采样,生成模仿奖励;
策略网络模块根据所述探索奖励和所述模仿奖励进行更新,当满足迭代次数时结束。
2.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述探索奖励为火箭回收成功奖励、火箭坠毁惩罚与火箭接近奖励之和。
3.根据权利要求2所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述火箭回收成功奖励定义为,火箭降落在回收点,且速度小于阈值,奖励设为5;
所述火箭坠毁惩罚定义为,火箭降落在回收点,但速度大于阈值;或火箭降落在除回收点的其他位置,惩罚设为-5;
所述火箭接近奖励定义为,火箭比上一时刻更接近回收点,奖励设为0.1。
4.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述火箭回收轨迹同人类专家轨迹先共同输入至轨迹池,进行充分混合,所述判别网络模块从所述轨迹池中进行采样。
5.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述判别网络模块包括轨迹判别网络和奖励输出网络,
所述轨迹判别网络,用于判断采样的轨迹是否为所述人类专家轨迹,
所述奖励输出网络,根据如下公式输出奖励:
r=log(Dω(s,a)+0.5)
式中,Dω(s,a)为轨迹判别网络的输出结果,s和a分别表示火箭回收制导模型输出的状态和动作。
6.根据权利要求5所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述轨迹判别网络输出属于(0,1)的浮点数。
7.根据权利要求5所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述轨迹判别网络中参数,按如下公式进行更新:
Figure FDA0004060800290000021
式中,ωi+1表示更新后的参数,ωi表示更新前的参数,
Figure FDA0004060800290000022
表示对网络参数ω求梯度;
Figure FDA0004060800290000023
Figure FDA0004060800290000024
分别表示对生成网络模块轨迹的判断预期和对人类专家轨迹的判断预期。
8.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述策略网络模块根据所述探索奖励和所述模仿奖励,使用近端策略优化算法进行网络参数优化和更新。
9.根据权利要求1所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述火箭回收制导模型包括马尔可夫决策模块和所述策略网络模块,所述马尔可夫决策模块用于获取火箭的状态,所述策略网络模块用于根据所述状态生成动作,所述状态和所述动作组成所述火箭回收轨迹。
10.根据权利要求9所述的一种基于双层强化学习的火箭回收制导方法,其特征在于,所述马尔可夫决策模块根据火箭位置、速度和质量,得到火箭的状态,表达式为:
s=[rTvTm]
式中,s为火箭的状态,r为火箭位置矢量在地心赤道旋转坐标系中的表示,v为火箭速度矢量在地心赤道旋转坐标系中的表示,m为火箭质量;
同时,所述马尔可夫决策模块根据状态转移函数生成下一时刻的状态St+1,所述状态转移函数的表达式为:
st+1=F(st,at)
式中,st+1表示t+1时刻的状态,st表示t时刻的状态,at表示t时刻的动作,F(x)表示状态转移函数。
CN202310057961.5A 2023-01-15 2023-01-15 基于双层强化学习的火箭回收制导方法 Pending CN116068894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310057961.5A CN116068894A (zh) 2023-01-15 2023-01-15 基于双层强化学习的火箭回收制导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310057961.5A CN116068894A (zh) 2023-01-15 2023-01-15 基于双层强化学习的火箭回收制导方法

Publications (1)

Publication Number Publication Date
CN116068894A true CN116068894A (zh) 2023-05-05

Family

ID=86181649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310057961.5A Pending CN116068894A (zh) 2023-01-15 2023-01-15 基于双层强化学习的火箭回收制导方法

Country Status (1)

Country Link
CN (1) CN116068894A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688826A (zh) * 2023-07-13 2024-03-12 东方空间技术(山东)有限公司 一种海射火箭子级回收方法、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688826A (zh) * 2023-07-13 2024-03-12 东方空间技术(山东)有限公司 一种海射火箭子级回收方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
Kang et al. Deep convolutional identifier for dynamic modeling and adaptive control of unmanned helicopter
Chen et al. Stabilization approaches for reinforcement learning-based end-to-end autonomous driving
Scorsoglio et al. Image-based deep reinforcement learning for autonomous lunar landing
CN102880052A (zh) 基于时标功能分解的高超声速飞行器执行器饱和控制方法
CN108279011A (zh) 行星探测着陆轨迹综合优化方法
CN111027143A (zh) 一种基于深度强化学习的舰载机进近引导方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN112269390A (zh) 考虑弹跳的小天体表面定点附着轨迹规划方法
CN116068894A (zh) 基于双层强化学习的火箭回收制导方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN109858137A (zh) 一种基于可学习扩展卡尔曼滤波的复杂机动飞行器航迹估计方法
Chen et al. Deep feature representation based imitation learning for autonomous helicopter aerobatics
Goecks Human-in-the-loop methods for data-driven and reinforcement learning systems
Xie et al. Modeling human-like longitudinal driver model for intelligent vehicles based on reinforcement learning
CN115374933A (zh) 一种多节点探测器着陆行为智能规划及决策方法
CN114721409A (zh) 一种基于强化学习的水下航行器对接控制方法
CN110162818A (zh) 伞弹系统弹道计算方法
CN117784812A (zh) 基于进化引导深度强化学习的无人机自主飞行决策方法
CN117289709A (zh) 基于深度强化学习的高超声速变外形飞行器姿态控制方法
CN116620566A (zh) 非合作目标附着多节点智能协同制导方法
CN115826621B (zh) 一种基于深度强化学习的无人机运动规划方法及系统
Wang et al. Deep learning based missile trajectory prediction
CN113821057B (zh) 一种基于强化学习的行星软着陆控制方法及系统和存储介质
CN115289917B (zh) 基于深度学习的火箭子级着陆实时最优制导方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination