CN113504723B - 一种基于逆强化学习的运载火箭减载控制方法 - Google Patents
一种基于逆强化学习的运载火箭减载控制方法 Download PDFInfo
- Publication number
- CN113504723B CN113504723B CN202110757793.1A CN202110757793A CN113504723B CN 113504723 B CN113504723 B CN 113504723B CN 202110757793 A CN202110757793 A CN 202110757793A CN 113504723 B CN113504723 B CN 113504723B
- Authority
- CN
- China
- Prior art keywords
- load shedding
- carrier rocket
- reinforcement learning
- network
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000002787 reinforcement Effects 0.000 title claims abstract description 49
- 238000011217 control strategy Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 4
- 230000008846 dynamic interplay Effects 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 230000001133 acceleration Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000009795 derivation Methods 0.000 claims description 2
- 238000002347 injection Methods 0.000 claims description 2
- 239000007924 injection Substances 0.000 claims description 2
- 230000000630 rising effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 abstract 1
- 230000001174 ascending effect Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 3
- 238000005452 bending Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Aerodynamic Tests, Hydrodynamic Tests, Wind Tunnels, And Water Tanks (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供一种基于逆强化学习的运载火箭减载控制方法,其具体步骤如下:一、考虑风场情况的运载火箭动力学模型的建立;二、被动减载专家示范生成;三、逆强化学习减载控制策略训练;四、减载控制器迁移,即将训练得到的减载控制策略网络参数固化,与运载火箭动力学的输入输出接口实现闭环,作为减载控制器。通过以上步骤,本发明能实现运载火箭减载控制,解决了目前存在的依赖精确风场信息、无法保证制导精度的问题,达到了较好的稳定性和普适性。本发明所述制导控制方法科学,工艺性好,具有广阔推广应用价值。
Description
技术领域
本发明提供一种基于逆强化学习的运载火箭减载控制方法,它是一种运载火箭上升段在稠密大气层内自主调整姿态以减小气动载荷的制导控制方法,适用于一般运载火箭,属于航空航天;制导、导航与控制技术;强化学习控制领域;
背景技术
运载火箭上升段飞行过程中,高速飞行的箭体与气流产生相互作用,使得箭体受到气动力和气动力矩,称为气动载荷;为维持箭体姿态稳定,需要施加同等大小的控制力矩与气动力矩平衡,从而在箭体产生内力弯矩;由于运载火箭具有高长细比,上述内力弯矩容易造成运载火箭结构的失稳甚至破坏;
运载火箭减载控制就是通过控制的方式,减小运载火箭飞行过程中的气动载荷;根据理论分析和长期的工程实践,已经提出了多种减载控制方法,分为主动减载和被动减载两类,被动减载是通过观测数据建立运载火箭飞行环境的风场模型,通过对标准弹道进行风修正的方式减小实际飞行中的气动载荷,但对于无法建模的风干扰,被动减载无法起到减载作用;主动减载则是通过在姿态控制系统中引入与气动载荷直接或间接相关的反馈量,实现对气动载荷的抑制,由于主动减载控制是在运载火箭姿态控制回路的基础上增加气动载荷反馈回路,其减载效果受到姿态控制回路稳定性的约束,且无法保证制导精度;
综上所述,本发明为解决现有运载火箭减载控制难题,以被动减载轨迹作为专家示范,将逆强化学习技术应用于减载控制中,从被动减载专家示范中推断出综合表征气动载荷和制导精度的减载指标,并根据此减载指标进行随机风场下的强化学习训练,得到具有风场适应性且能够保证制导精度的减载控制器,具有一定独创性;
发明内容
(一)本发明的目的
本发明的目的是为了解决上述问题,提出一种基于逆强化学习的运载火箭减载控制方法,即一种运载火箭上升段减载控制方法,通过逆强化学习减载指标推断和减载控制策略训练,得到具有风场适应性且能够保证制导精度的减载控制策略,以解决现有技术存在的依赖精确风场信息、无法保证制导精度等问题,提高运载火箭的可靠性;
(二)技术方案
本发明一种基于逆强化学习的运载火箭减载控制方法,其具体步骤如下:
步骤一、模型建立;
根据统计风场信息和运载火箭总体参数,建立考虑风场情况的运载火箭动力学模型;
步骤二、被动减载专家示范生成;
根据已有被动减载方法,根据已知风场信息对标称轨迹进行风修正,并对风修正后的轨迹进行跟踪,生成被动减载专家示范;
步骤三、逆强化学习减载控制策略训练;
根据生成对抗模仿学习逆强化学习方法,将被动减载专家示范作为输入,训练得到逆强化学习减载控制策略网络;
步骤四、减载控制器迁移;
将训练得到的减载控制策略网络参数固化,与运载火箭动力学的输入输出接口实现闭环,作为减载控制器;
其中,在步骤一中所述的“建立考虑风场情况的运载火箭动力学模型”,其建立模型的具体作法如下:考虑平面地球假设,并根据文献提供的统计数据,在水平方向加入风场模型,结合相关坐标系,根据各状态量之间几何和力学关系在射面内建立运载火箭动力学模型;
其中,在步骤二中所述的“被动减载方法”,是指运载火箭减载控制的经典方法之一,该技术为本领域的公知技术;
其中,在步骤二中所述的“对风修正后的轨迹进行跟踪,生成被动减载专家示范”,其具体作法如下:根据运载火箭动力学模型设计姿态控制器,跟踪风修正轨迹所对应的姿态序列,将跟踪过程中的控制量和运载火箭状态量序列保存作为被动减载专家示范;
其中,在步骤三中所述的“生成对抗模仿学习逆强化学习方法”,是指基于最大熵逆强化学习推导得到鞍点形式的逆强化学习优化指标,以奖励函数网络和策略网络构成生成对抗网络结构,基于优化指标进行奖励函数及策略参数寻优的逆强化学习方法,是一种改进的逆强化学习方法;
其中,在步骤三中所述的“将被动减载专家示范作为输入,训练得到逆强化学习减载控制策略网络”,其具体作法如下:根据动减载专家示范中的状态量和控制量序列,以及当前减载控制策略网络与运载火箭动力学交互所产生的状态量和控制量序列,使用文献中的最大熵逆强化学习原理推导,得到最优减载奖励函数和减载控制策略所满足的鞍点形式优化指标,基于该优化指标,对奖励函数网络和策略网络参数进行梯度更新训练,直至收敛;
其中,在步骤四中所述的“将训练得到的减载控制策略网络参数固化,与运载火箭动力学的输入输出接口实现闭环,作为减载控制器”,其具体作法如下:将逆强化学习训练得到的减载控制策略网络参数固定,以运载火箭动力学输出的状态量作为减载控制策略网络的输入,经过减载策略网络的前向传播,以减载策略网络的输出量作为运载火箭动力学的发动机摆角指令,形成控制闭环;
通过以上步骤,可以实现运载火箭减载控制,解决了目前存在的依赖精确风场信息、无法保证制导精度的问题,达到了较好的稳定性和普适性;
(三)本发明的优点及功效
(1)本发明基于逆强化学习方法,得到了运载火箭减载控制方法,解决了目前存在的依赖精确风场信息、无法保证制导精度、调参复杂的问题,可适用于任意风场环境和任意上升段标称轨迹;
(2)本发明采用逆强化学习的方法,根据示范样本自动设计强化学习过程中的奖励函数,避免了手动设计奖励信号对优化效果的影响,能够取得良好的减载控制效果;
(3)本发明所述制导控制方法科学,工艺性好,具有广阔推广应用价值;
附图说明
图1是本发明所述方法流程图;
图2是运载火箭运动几何关系图;
图3是标准弹道、被动减载弹道和逆强化学习减载弹道气动载荷对比图;
图4是标准弹道与逆强化学习减载弹道高度剖面对比图;
图5是发动机摆角响应图;
图中序号、符号、代号统一归纳说明如下:
图2:O表示发射点,C表示运载火箭质心;Vm表示运载火箭相对来流的速度矢量,即空速;Vi表示运载火箭相对地球的速度矢量,即地速;Vw表示风速;n为垂直于射面的法向量;xi表示发射点当地水平面的垂直向上方向,zi表示发射方向在发射点当地水平面内的投影,xb表示运载火箭纵轴方向,zb表示运载火箭射面内垂直于运载火箭纵轴向上的方向,xa表示运载火箭空速方向,za表示运载火箭射面内垂直于运载火箭空速向上的方向;α为运载火箭攻角,为运载火箭俯仰角,θ为运载火箭弹道倾角,αw为风速造成的附加风攻角;xiOzi组成惯性坐标系,xbOzb组成箭体坐标系,xaOza组成速度坐标系;
具体实施方式
下面将结合附图和实施案例对本发明作进一步的详细说明;
本发明一种基于逆强化学习的运载火箭减载控制方法,即一种飞行器路径点跟踪制导方法,其流程图如图1所示,它包括以下几个步骤:
步骤一、模型建立;
根据平面地球假设,结合相关坐标系,根据各状态量之间几何和力学关系建立运载火箭射面内动力学模型,表达式如下:
其中r为发射点到火箭质心的位置矢量,为运载火箭俯仰角,m为运载火箭质量,J为运载火箭俯仰轴惯量;Fae、Fprop、Fg、Mae、Mprop、为运载火箭所受气动力矢量、推力矢量、重力矢量、俯仰气动力矩、俯仰推力力矩;
气动力矢量Fae在气流坐标系下展开为:
其中Fbase为运载火箭所受底部力,为高度h的插值函数;CA和CNα分别为气动阻力系数和气动升力系数,均为马赫数Ma的插值函数;α为图2中定义的运载火箭攻角;Q为运载火箭动压头;A为运载火箭参考截面积;Ma和Q的表达式为:
其中,Vm为图2中定义的运载火箭空速矢量;ρ为大气密度,c为声速,二者均为高度h的插值函数;
推力矢量Fprop在箭体坐标系下展开为:
其中,P0为运载火箭发动机等效推力;p为大气压强,为高度h的插值函数;Ae为运载火箭发动机喷管面积;δ为运载火箭发动机摆角,是进行减载控制的控制量;
重力矢量Fg在惯性坐标系下展开为:
其中g为重力加速度;
俯仰气动力矩Mae表示为:
其中xa为运载火箭气动参考点与质心的距离;b为运载火箭参考长度;CMα为气动俯仰力矩系数,是马赫数Ma的插值函数;
俯仰推力力矩Mprop表示为:
Mprop=Fpropzbxg (8)
其中xg为运载火箭发动机作用点与质心的距离;
依照上述模型,运载火箭所受气动载荷由Q|α|表示,因此本方法即根据当前运载火箭状态和动力学模型,产生发动机摆角δ,在保证位置r对标称轨迹的跟踪精度前提下尽量减小气动载荷;
步骤二、被动减载专家示范生成;
根据已知风场关于高度的函数,实时计算得到按照标称轨迹飞行所产生的附加风攻角,使用被动减载方法对标称轨迹进行风修正,在标称轨迹对应的姿态指令中对风攻角进行补偿,并对补偿后的减载姿态指令进行跟踪,得到运载火箭飞行状态量和控制量序列,作为被动减载专家示范;
按照标称轨迹飞行所产生的附加风攻角,计算得到:
其中Vw(h)为已知风场关于高度的函数,θ为图2中定义的弹道倾角,Vi为图2中定义的运载火箭地速矢量;
根据计算得到的附加风攻角,对标称轨迹对应的姿态指令进行补偿,补偿后的减载姿态指令为:
其中α0是标称轨迹对应的攻角,k为调制系数,需要根据减载效果和制导精度反复调整;
在此基础上,使用稳定的姿态控制器跟踪减载姿态指令,将跟踪过程中的运载火箭飞行状态量和控制量序列作为被动减载专家示范;
步骤三、逆强化学习减载控制策略训练;
使用参数化神经网络rψ和πγ表示减载指标和减载策略,其中ψ和γ分别表示减载指标网络和减载策略网络的待训练参数;减载指标网络输入为运载火箭六维状态量和一维控制量a=δ,其中xi、zi为运载火箭位置在惯性坐标系下的分量,Vxi、Vzi为运载火箭地速在惯性坐标系下的分量,/>为运载火箭俯仰姿态角,Wzb为运载火箭法向过载,δ为运载火箭发动机摆角;输出为一维指标rψ;减载策略网络输入为运载火箭六维状态量,输出为一维决策行为πγ;
根据文献中的生成对抗模仿学习算法原理,给定被动减载专家示范后,最优减载指标和对应的减载策略应满足如下条件:
其中,ψ*、γ*分别为最优减载指标与最优减载策略对应的网络参数;τE~πE表示从被动减载专家示范中采样得到的状态量及控制量序列、rψ(τE)表示该序列对应的减载指标;τ~πγ表示使用减载策略πγ输出的控制量与运载火箭动力学交互所产生的控制量及状态量序列,rψ(τ)表示该序列对应的减载指标;表示对控制量及状态量序列的期望;
因此,定义损失函数
则最优减载指标网络参数与最优减载策略网络参数构成了网络参数空间中的鞍点,通过减载指标网络参数对该损失函数的梯度上升以及减载策略网络参数对该损失函数的梯度下降,使网络参数逐步收敛至最优;
步骤四、减载控制器迁移;
将减载策略网络参数取为逆强化学习训练收敛得到的最优值,通过对运载火箭动力学方程进行数值积分得到运载火箭六维状态量s,将状态量s作为减载策略网络的输入,经减载策略网络前向传播产生一维行为量πγ,将其作为运载火箭控制量δ输入到运载火箭动力学方程中,进行积分得到新的运载火箭状态量,从而实现控制闭环;
仿真案例:
本部分将以一个数值仿真案例作为方法演示,并非实际飞行任务;某运载火箭参考长度b为3.706m,参考截面积A为10.79m2,发动机喷管面积Ae为10.41m2,气动参考点与质心的距离xa为84m,发动机作用点与质心的距离xg为90.22m;运载火箭的非线性气动系数CA、CNα和CMα是马赫数的插值函数;运载火箭质量m、俯仰轴惯量J,发动机等效推力P0是点火时间的插值函数;大气模型使用美国标准大气(1976年);选用文献中提供的美国肯尼迪航天中心春季平均风场作为测试时的未知风场;
运载火箭初始时刻位于发射点(即惯性系原点),且地速为零;仿真过程为发动机点火至点火后90秒的上升段飞行过程;
根据本方法实施过程,得到本方法和标准弹道、被动减载弹道在该风场下的气动载荷如图3所示,可证明本方法相比标准弹道起到了减载作用,且在不依赖风场信息的情况下达到了和依靠风场信息的被动减载相同的减载效果;同时,本方法和标准弹道的高度剖面如图4所示,可证明本方法在保证减载效果的同时可以保证对标准弹道的跟踪精度;发动机摆角响应曲线如图5所示,并未出现较大幅度的发动机摆角。
Claims (8)
1.一种基于逆强化学习的运载火箭减载控制方法,其特征在于:其具体步骤如下:
步骤一、模型建立;
根据统计风场信息和运载火箭总体参数,建立考虑风场情况的运载火箭动力学模型;
步骤二、被动减载专家示范生成;
根据已有被动减载方法,根据已知风场信息对标称轨迹进行风修正,并对风修正后的轨迹进行跟踪,生成被动减载专家示范;
步骤三、逆强化学习减载控制策略训练;
根据生成对抗模仿学习逆强化学习方法,将被动减载专家示范作为输入,训练得到逆强化学习减载控制策略网络;
步骤四、减载控制器迁移;
将训练得到的减载控制策略网络参数固化,与运载火箭动力学的输入输出接口实现闭环,作为减载控制器;
在步骤一中所述的“建立考虑风场情况的运载火箭动力学模型”,其建立模型的具体作法如下:考虑平面地球假设,并根据统计数据,在水平方向加入风场模型,结合相关坐标系,根据各状态量之间几何和力学关系在射面内建立运载火箭动力学模型;
在步骤一中,根据平面地球假设,结合相关坐标系,根据各状态量之间几何和力学关系建立运载火箭射面内动力学模型,表达式如下:
其中r为发射点到火箭质心的位置矢量,为运载火箭俯仰角,m为运载火箭质量,J为运载火箭俯仰轴惯量;Fae、Fprop、Fg、Mae、Mprop、为运载火箭所受气动力矢量、推力矢量、重力矢量、俯仰气动力矩、俯仰推力力矩;
气动力矢量Fae在气流坐标系下展开为:
其中Fbase为运载火箭所受底部力,为高度h的插值函数;CA和CNα分别为气动阻力系数和气动升力系数,均为马赫数Ma的插值函数;α为运载火箭攻角;Q为运载火箭动压头;A为运载火箭参考截面积;Ma和Q的表达式为:
其中,Vm为运载火箭空速矢量;ρ为大气密度,c为声速,二者均为高度h的插值函数;
推力矢量Fprop在箭体坐标系下展开为:
其中,P0为运载火箭发动机等效推力;p为大气压强,为高度h的插值函数;Ae为运载火箭发动机喷管面积;δ为运载火箭发动机摆角,是进行减载控制的控制量;
重力矢量Fg在惯性坐标系下展开为:
其中g为重力加速度;
俯仰气动力矩Mae表示为:
其中xa为运载火箭气动参考点与质心的距离;b为运载火箭参考长度;CMα为气动俯仰力矩系数,是马赫数Ma的插值函数;
俯仰推力力矩Mprop表示为:
Mprop=Fpropzbxg·······················(8)
其中xg为运载火箭发动机作用点与质心的距离;
运载火箭所受气动载荷由Q|α|表示,产生发动机摆角δ,在保证位置r对标称轨迹的跟踪精度前提下尽量减小气动载荷。
2.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤二中所述的“对风修正后的轨迹进行跟踪,生成被动减载专家示范”,其具体作法如下:根据运载火箭动力学模型设计姿态控制器,跟踪风修正轨迹所对应的姿态序列,将跟踪过程中的控制量和运载火箭状态量序列保存作为被动减载专家示范。
3.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤三中所述的“生成对抗模仿学习逆强化学习方法”,是指基于最大熵逆强化学习推导得到鞍点形式的逆强化学习优化指标,以奖励函数网络和策略网络构成生成对抗网络结构,基于优化指标进行奖励函数及策略参数寻优的逆强化学习方法,是一种改进的逆强化学习方法。
4.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤三中所述的“将被动减载专家示范作为输入,训练得到逆强化学习减载控制策略网络”,其具体作法如下:根据动减载专家示范中的状态量和控制量序列,以及当前减载控制策略网络与运载火箭动力学交互所产生的状态量和控制量序列,使用文献中的最大熵逆强化学习原理推导,得到最优减载奖励函数和减载控制策略所满足的鞍点形式优化指标,基于该优化指标,对奖励函数网络和策略网络参数进行梯度更新训练,直至收敛。
5.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤四中所述的“将训练得到的减载控制策略网络参数固化,与运载火箭动力学的输入输出接口实现闭环,作为减载控制器”,其具体作法如下:将逆强化学习训练得到的减载控制策略网络参数固定,以运载火箭动力学输出的状态量作为减载控制策略网络的输入,经过减载策略网络的前向传播,以减载策略网络的输出量作为运载火箭动力学的发动机摆角指令,形成控制闭环。
6.根据权利要求1或2所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤二中,根据已知风场关于高度的函数,实时计算得到按照标称轨迹飞行所产生的附加风攻角,使用被动减载方法对标称轨迹进行风修正,在标称轨迹对应的姿态指令中对风攻角进行补偿,并对补偿后的减载姿态指令进行跟踪,得到运载火箭飞行状态量和控制量序列,作为被动减载专家示范;
按照标称轨迹飞行所产生的附加风攻角,计算得到:
其中Vw(h)为已知风场关于高度的函数,θ为弹道倾角,Vi为运载火箭地速矢量;
根据计算得到的附加风攻角,对标称轨迹对应的姿态指令进行补偿,补偿后的减载姿态指令为:
其中α0是标称轨迹对应的攻角,k为调制系数,需要根据减载效果和制导精度反复调整;
使用稳定的姿态控制器跟踪减载姿态指令,将跟踪过程中的运载火箭飞行状态量和控制量序列作为被动减载专家示范。
7.根据权利要求1或3或4所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤三中,使用参数化神经网络rψ和πγ表示减载指标和减载策略,其中ψ和γ分别表示减载指标网络和减载策略网络的待训练参数;减载指标网络输入为运载火箭六维状态量和一维控制量a=δ,其中xi、zi为运载火箭位置在惯性坐标系下的分量,Vxi、Vzi为运载火箭地速在惯性坐标系下的分量,/>为运载火箭俯仰姿态角,Wzb为运载火箭法向过载,δ为运载火箭发动机摆角;输出为一维指标rψ;减载策略网络输入为运载火箭六维状态量,输出为一维决策行为πγ;
给定被动减载专家示范后,最优减载指标和对应的减载策略应满足如下条件:
其中,ψ*、γ*分别为最优减载指标与最优减载策略对应的网络参数;τE~πE表示从被动减载专家示范中采样得到的状态量及控制量序列、rψ(τE)表示该序列对应的减载指标;τ~πγ表示使用减载策略πγ输出的控制量与运载火箭动力学交互所产生的控制量及状态量序列,rψ(τ)表示该序列对应的减载指标;表示对控制量及状态量序列的期望;
因此,定义损失函数
最优减载指标网络参数与最优减载策略网络参数构成了网络参数空间中的鞍点,通过减载指标网络参数对该损失函数的梯度上升以及减载策略网络参数对该损失函数的梯度下降,使网络参数逐步收敛至最优。
8.根据权利要求1或5所述的一种基于逆强化学习的运载火箭减载控制方法,其特征在于:在步骤四中,将减载策略网络参数取为逆强化学习训练收敛得到的最优值,通过对运载火箭动力学方程进行数值积分得到运载火箭六维状态量s,将状态量s作为减载策略网络的输入,经减载策略网络前向传播产生一维行为量πγ,将其作为运载火箭控制量δ输入到运载火箭动力学方程中,进行积分得到新的运载火箭状态量,从而实现控制闭环。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757793.1A CN113504723B (zh) | 2021-07-05 | 2021-07-05 | 一种基于逆强化学习的运载火箭减载控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757793.1A CN113504723B (zh) | 2021-07-05 | 2021-07-05 | 一种基于逆强化学习的运载火箭减载控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113504723A CN113504723A (zh) | 2021-10-15 |
CN113504723B true CN113504723B (zh) | 2023-11-28 |
Family
ID=78011545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110757793.1A Active CN113504723B (zh) | 2021-07-05 | 2021-07-05 | 一种基于逆强化学习的运载火箭减载控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113504723B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115265292B (zh) * | 2022-09-21 | 2023-01-24 | 北京宇航系统工程研究所 | 非轴对称运载火箭减载控制方法及存储设备 |
CN116400723B (zh) * | 2023-06-07 | 2023-09-01 | 东方空间技术(山东)有限公司 | 一种运载火箭减载控制方法、计算设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6508435B1 (en) * | 1999-07-29 | 2003-01-21 | Anatoly Stepanovich Karpov | Method for controlling an aerospace system to put a payload into an orbit |
CN107544262A (zh) * | 2017-10-27 | 2018-01-05 | 南京工业大学 | 一种运载火箭自适应精确回收控制方法 |
CN109343341A (zh) * | 2018-11-21 | 2019-02-15 | 北京航天自动控制研究所 | 一种基于深度强化学习的运载火箭垂直回收智能控制方法 |
CN109682991A (zh) * | 2018-12-12 | 2019-04-26 | 上海航天控制技术研究所 | 一种运载火箭高空主动减载用加速度计装置 |
CN110794863A (zh) * | 2019-11-20 | 2020-02-14 | 中山大学 | 一种控制性能指标可定制的重型运载火箭姿态控制方法 |
CN111401556A (zh) * | 2020-04-22 | 2020-07-10 | 清华大学深圳国际研究生院 | 一种对抗式模仿学习中奖励函数的选择方法 |
CN111638654A (zh) * | 2020-05-12 | 2020-09-08 | 上海宇航系统工程研究所 | 一种故障自适应的运载火箭智能控制半实物仿真方法 |
CN112416012A (zh) * | 2020-11-30 | 2021-02-26 | 中国运载火箭技术研究院 | 一种火箭动力面对称运载器主动段制导控制方法 |
CN112550675A (zh) * | 2020-12-08 | 2021-03-26 | 北京航天自动控制研究所 | 用于运载器主动段减小载荷的装置和方法 |
CN112947592A (zh) * | 2021-03-30 | 2021-06-11 | 北京航空航天大学 | 一种基于强化学习的再入飞行器轨迹规划方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6666410B2 (en) * | 2001-10-05 | 2003-12-23 | The Charles Stark Draper Laboratory, Inc. | Load relief system for a launch vehicle |
-
2021
- 2021-07-05 CN CN202110757793.1A patent/CN113504723B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6508435B1 (en) * | 1999-07-29 | 2003-01-21 | Anatoly Stepanovich Karpov | Method for controlling an aerospace system to put a payload into an orbit |
CN107544262A (zh) * | 2017-10-27 | 2018-01-05 | 南京工业大学 | 一种运载火箭自适应精确回收控制方法 |
CN109343341A (zh) * | 2018-11-21 | 2019-02-15 | 北京航天自动控制研究所 | 一种基于深度强化学习的运载火箭垂直回收智能控制方法 |
CN109682991A (zh) * | 2018-12-12 | 2019-04-26 | 上海航天控制技术研究所 | 一种运载火箭高空主动减载用加速度计装置 |
CN110794863A (zh) * | 2019-11-20 | 2020-02-14 | 中山大学 | 一种控制性能指标可定制的重型运载火箭姿态控制方法 |
CN111401556A (zh) * | 2020-04-22 | 2020-07-10 | 清华大学深圳国际研究生院 | 一种对抗式模仿学习中奖励函数的选择方法 |
CN111638654A (zh) * | 2020-05-12 | 2020-09-08 | 上海宇航系统工程研究所 | 一种故障自适应的运载火箭智能控制半实物仿真方法 |
CN112416012A (zh) * | 2020-11-30 | 2021-02-26 | 中国运载火箭技术研究院 | 一种火箭动力面对称运载器主动段制导控制方法 |
CN112550675A (zh) * | 2020-12-08 | 2021-03-26 | 北京航天自动控制研究所 | 用于运载器主动段减小载荷的装置和方法 |
CN112947592A (zh) * | 2021-03-30 | 2021-06-11 | 北京航空航天大学 | 一种基于强化学习的再入飞行器轨迹规划方法 |
Non-Patent Citations (6)
Title |
---|
Advanced planning for autonomous vehicles using reinforcement learning and deep inverse reinforcement learning;Changxi You;《Robotics and Autonomous Systems》;全文 * |
Control-oriented imitation learning for atmospheric flight control of launch vehicles under wind disturbance;何林坤;《Control Engineering Practice》;全文 * |
Cooperative online Guide-Launch-Guide policy in a target-missile-defender engagement using deep reinforcement learning;Vitaly Shalumov;《Aerospace Science and Technology》;全文 * |
再入飞行器自适应最优姿态控制;李惠峰;《宇航学报》;全文 * |
基于自抗扰的运载火箭主动减载控制技术;杨伟奇1;《北京航空航天大学学报》;全文 * |
运载火箭自适应减载控制技术;潘豪;《导弹与航天运载技术》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113504723A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109725644B (zh) | 一种高超声速飞行器线性优化控制方法 | |
CN113504723B (zh) | 一种基于逆强化学习的运载火箭减载控制方法 | |
CN112550770B (zh) | 一种基于凸优化的火箭软着陆轨迹规划方法 | |
CN109062241B (zh) | 基于线性伪谱模型预测控制的自主全射向再入制导方法 | |
CN109164708B (zh) | 一种高超声速飞行器神经网络自适应容错控制方法 | |
CN113377121B (zh) | 一种基于深度强化学习的飞行器智能抗扰动控制方法 | |
CN112327926B (zh) | 一种无人机编队的自适应滑模控制方法 | |
An et al. | Scramjet operation guaranteed longitudinal control of air-breathing hypersonic vehicles | |
Fahmi et al. | port-Hamiltonian flight control of a fixed-wing aircraft | |
CN113619814A (zh) | 一种交会对接最后逼近段相对姿轨耦合控制方法 | |
CN114485672B (zh) | 小天体附着的面状探测器耦合约束轨迹规划方法 | |
CN113110527B (zh) | 一种自主水下航行器有限时间路径跟踪的级联控制方法 | |
CN112149234B (zh) | 一种基于俯仰角速率输入的飞行器质点运动模型设计方法 | |
CN113741509A (zh) | 一种高超声速滑翔飞行器下压段能量管理方法 | |
CN116697829A (zh) | 一种基于深度强化学习的火箭着陆制导方法及系统 | |
CN116795126A (zh) | 一种输入饱和与输出受限的变形飞行器控制方法 | |
Zhu et al. | Fault-tolerant control of hypersonic vehicles based on fast fault observer under actuator gain loss fault or stuck fault | |
CN116360258A (zh) | 基于固定时间收敛的高超声速变形飞行器抗干扰控制方法 | |
CN114265420B (zh) | 适于高动态、控制慢响应的制导控制一体化设计方法 | |
CN114370792B (zh) | 考虑推力非连续即时可调的火箭垂直着陆制导方法 | |
CN114035611B (zh) | 可重复使用高超声速飞行器上升段轨迹优化与制导方法 | |
Karelahti et al. | Automated generation of realistic near-optimal aircraft trajectories | |
CN113111433B (zh) | 一种双线程嵌入式实时轨迹优化与制导方法 | |
CN115657458A (zh) | 一种基于能量匹配的飞行器爬升轨迹控制方法 | |
Nobahari et al. | Integrated optimization of guidance and control parameters in a dual spin flying vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |