CN111708378A - 一种基于强化学习的导弹纵向姿态控制算法 - Google Patents

一种基于强化学习的导弹纵向姿态控制算法 Download PDF

Info

Publication number
CN111708378A
CN111708378A CN202010572028.8A CN202010572028A CN111708378A CN 111708378 A CN111708378 A CN 111708378A CN 202010572028 A CN202010572028 A CN 202010572028A CN 111708378 A CN111708378 A CN 111708378A
Authority
CN
China
Prior art keywords
network
missile
angle
longitudinal attitude
attitude control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010572028.8A
Other languages
English (en)
Other versions
CN111708378B (zh
Inventor
池海红
于馥睿
刘兴一
周明鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010572028.8A priority Critical patent/CN111708378B/zh
Publication of CN111708378A publication Critical patent/CN111708378A/zh
Application granted granted Critical
Publication of CN111708378B publication Critical patent/CN111708378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/107Simultaneous control of position or course in three dimensions specially adapted for missiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供一种基于强化学习的导弹纵向姿态控制算法,属于导弹姿态控制研究领域,基于强化学习的Actor‑Critic(AC)结构,由动作网络和评价网络构成。其中,评价网络是根据导弹的状态输出对于导弹状态的评价值,动作网络是根据评价网络输出的评价值产生对应的升降舵偏角,从而实现在不依赖导弹内部模型的情况下对导弹的纵向姿态进行稳定控制。步骤如下:步骤1)建立并确定导弹纵向姿态动力学模型;步骤2)定义导弹攻角的跟踪误差,同时建立与误差有关的性能指标;步骤3)设计评价网络;步骤4)设计动作网络;步骤5)设计评价网络权值更新律;步骤6)设计动作网络权值更新律。本发明主要应用于导弹纵向姿态控制。

Description

一种基于强化学习的导弹纵向姿态控制算法
技术领域
本发明涉及一种基于强化学习的导弹纵向姿态控制算法,属于导弹姿态控制研究领域。
背景技术
近年来,航空航天飞行器越来越受到广泛关注。由于对飞行器飞行包线的扩大,对飞行器的任务要求越来越多,这就意味着飞行器的飞行控制越来越复杂。由于导弹具有动力学特性复杂,飞行环境不确定,控制精度要求高等特点。需要控制系统具有较强的鲁棒性同时还要具有对建模不确定性的自适应特点。基于以上要求,传统的控制方法已经难以胜任诸多复杂的控制任务。
在导弹姿态控制领域应用最广泛的是PID控制器,PID控制器具有结构简单,调参方便等特点,大范围的应用在实际工程中,但是对于导弹在不同的飞行状态点,PID的参数就会进行相应变化来满足动态和稳态要求,这就意味着,对每一个状态点就要进行一次PID控制器的参数设计,最后进行增益调度来使导弹在飞行过程中都具有良好的性能,这无疑加大了控制系统的设计和调试时间和成本。
此外,滑模控制律在导弹姿态控制上应用也很广泛,最主要是因为滑模控制律具有对建模不确定性很好的鲁棒性,可以在模型有摄动的情况下依然表现出良好的控制性能,但是,滑模控制律由于是变结构控制,需要在滑模超平面上进行来回滑动从而靠近平衡点,由于实际系统中具有惯性,这就导致了状态在到达滑模面时不能立刻沿着滑模面进行运动,而是在滑模面上做切换运动,这就导致了滑模控制律的控制输入有抖动,这种抖动在实际工程中是不允许的甚至会激发系统的不稳定的内动态导致系统失稳。对于建模不确定性,自适应控制具有良好的控制效果,但是自适应控制一般都是基于模型的方法,也就是说控制律中有的项包括了被控对象的内部模型,由于导弹的建模是在风洞内进行空气动力学分析,相对于导弹实际飞行的气动参数很难做到准确全面的测量,这就导致系统的模型很难准确的获得,因此自适应控制很难运用被控对象的模型来进行控制律设计。
近些年来,随着人工智能的发展,对于智能应用在飞行器姿态控制上越来越受到学者的重视。强化学习是人工智能领域的一个分支,属于无监督学习。强化学习是根据被控对象当前的状态来做一个状态优劣程度的评判,根据该评判指导被控对象产生使对象向着状态更好的方向的动作,通过不断学习,最后成功学习到策略,使被控对象被稳定控制。目前强化学习应用在导弹姿态控制方向的相关研究很少。在已有的强化学习控制方法中,分为离线学习和在线学习两类。其中,离线学习就是利用被控对象以往的运行数据对策略进行离散学习,最后使得策略收敛到某一策略,即可视为学习完毕,再将学习完毕的策略应用到被控对象中进行控制。在线学习指的是,在被控对象在运行的过程中,通过被控对象的实时状态,强化学习控制进行实时参数自动调整,最后学习到一个稳定的策略,Chen Liu等人将强化学习应用于高超声速飞行器爬升段控制中,其中强化学习的作用是实时估计不确定扰动并对其进行补偿,但是没有将强化学习应用在整个控制中,仅仅是作为一种前馈(期刊:Aerospace Science and Technology作者:Chen Liu,Chaoyang Dong,Zhijie Zhou,Zhaolei Wang出版年月:2019.7文章题目:Barrier Lyapunov function basedreinforcement learning control for air-breathing hypersonic vehicle withvariable geometry inlet)。对于离线策略来说,需要实现获得大量的试验数据,这需要很高的成本,对于导弹这种成本高,试验次数有限的飞行器来说,很难获取。因此在线控制在飞行器控制方面的应用多一些。由于导弹姿态系统是二阶系统,已有的设计一般都是把二阶系统进行分解成两个一阶系统,对这两个一阶系统进行串级控制,强化学习在其中仅作为补偿作用,稳定作用的还是传统控制器,但是这种在线学习设计方法,具有控制器结构复杂,需要处理的量多等特点。
发明内容
本发明的目的是针对具有建模不确定性以及模型参数不能准确获得的导弹纵向姿态控制同时保证控制律结构简单等问题,提供一种基于强化学习的导弹纵向姿态控制算法,对导弹的纵向姿态角进行稳定控制。
本发明的目的是这样实现的:步骤如下:
步骤一:建立并确定导弹纵向姿态动力学模型;
步骤二:定义导弹攻角的跟踪误差,同时建立与跟踪误差有关的性能指标;
步骤三:设计评价网络;
步骤四:设计动作网络;
步骤五:设计评价网络权值更新律;
步骤六:设计动作网络权值更新律,完成导弹纵向姿态控制。
本发明还包括这样一些结构特征:
1.步骤一中的导弹纵向姿态动力学模型为:
Figure BDA0002549700530000021
Figure BDA0002549700530000022
其中:ωz为俯仰角速度,α为攻角,δz为俯仰舵偏角,m为导弹质量,P为导弹推力,θ为俯仰角,Q为动压,S为特征面积,c为纵向特征长度,Jz为转动惯量,
Figure BDA0002549700530000031
Figure BDA0002549700530000032
分别表示俯仰力矩系数mz对俯仰角速度ωz、攻角α以及俯仰舵偏角δz的偏导数,
Figure BDA0002549700530000033
Figure BDA0002549700530000034
分别表示升力CL对α和δz的导数;
令:
Figure BDA0002549700530000035
x1=α,
Figure BDA0002549700530000036
xd=αd,其中αd为期望的攻角;
则有:
Figure BDA0002549700530000037
Figure BDA0002549700530000038
其中:
Figure BDA0002549700530000039
g(x)=b1
2.步骤二中的导弹攻角的跟踪误差为:e=x1-xd
性能指标为:
Figure BDA00025497005300000310
其中γ为折扣系数,0<γ<1,R(t)为奖励值,R(t)=Qe2
Figure BDA00025497005300000311
3.步骤三的评价网络的输出为性能指标的估计值,即:
Figure BDA00025497005300000312
其中:
Figure BDA00025497005300000313
为评价网络的输出即为性能指标的估计值,cin为评价网络的输入向量,
Figure BDA00025497005300000314
为评价网络隐藏层到输出层的权值,N为隐藏层节点数,
Figure BDA00025497005300000315
为评价网络的激活函数,这里
Figure BDA00025497005300000316
为评价网络输入层到隐藏层的权值。
4.步骤四中的动作网络的输出为俯仰舵偏角,令δz=u,则有:
Figure BDA00025497005300000317
其中:ain为动作网络的输入,
Figure BDA00025497005300000318
这里r为滤波误差,
Figure BDA00025497005300000321
λ>0;
Figure BDA00025497005300000319
为动作网络隐藏层到输出层的权值,N为隐藏层节点数,
Figure BDA00025497005300000320
为动作网络的激活函数,这里
Figure BDA0002549700530000041
为动作网络输入层到隐藏层的权值。
5.步骤五中的评价网络估计误差为:
Figure BDA0002549700530000042
评价网络训练准则为使
Figure BDA0002549700530000043
最小,因此根据梯度下降法
Figure BDA0002549700530000044
得到评价网络更新律为:
Figure BDA0002549700530000045
其中:σc为评价网络的学习率,0<σc<1;
Figure BDA0002549700530000046
Figure BDA0002549700530000047
对cin的梯度。
6.步骤六中的动作网络估计误差为:
Figure BDA0002549700530000048
其中:
Figure BDA0002549700530000049
为动作网络的理想权值;Jd为期望性能指标,这里取0;
动作网络训练准则为使
Figure BDA00025497005300000410
最小;根据梯度下降法
Figure BDA00025497005300000411
得到动作网络更新律为:
Figure BDA00025497005300000412
其中:σa为动作网络的学习率,0<σa<1,K>0。
与现有技术相比,本发明的有益效果是:1.本发明是一种基于强化学习的导弹纵向姿态控制算法,该控制算法不需要精确了解导弹纵向动力学模型的具体信息,仅需要知道导弹的攻角,从而减少了对导弹纵向动力学模型的依赖。2.本发明将强化学习与传统控制方法相结合,是智能在导弹姿态控制上的具体应用。3.本发明由于对导弹纵向动力学模型的依赖很少,对不确定性具有很强的鲁棒性,通过动作网络和评价网络的在线学习,对不确定性进行自适应。4.本发明将该算法应用到导弹纵向姿态动力学模型上进行数值仿真,验证了该算法设计的可行性。
附图说明
图1是本发明控制系统结构图;
图2是期望攻角为方波时攻角和期望攻角变化曲线;
图3是期望攻角为方波时俯仰舵偏角变化曲线;
图4是期望攻角为方波时动作网络权值变化曲线;
图5是期望攻角为方波时评价网络权值变化曲线;
图6是期望攻角为正弦波时攻角和期望攻角变化曲线;
图7是期望攻角为正弦波时俯仰舵偏角曲线;
图8是期望攻角为正弦波时动作网络权值变化曲线;
图9是期望攻角为正弦波时评价网络权值变化曲线;
图10是参数拉偏情况下攻角变化曲线;
图11是参数拉偏情况下俯仰舵偏角变化曲线;
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
针对传统导弹纵向姿态模型建立具有建模不确定性以及模型的一些信息不能准确获得,设计了一种基于强化学习的导弹纵向姿态控制算法,对导弹的纵向姿态角进行稳定控制。具体步骤如下:
步骤1)建立并确定导弹纵向姿态动力学模型:
基于小扰动线性化原理,忽略横侧向有关变量的影响,导弹纵向姿态动力学模型为:
Figure BDA0002549700530000051
Figure BDA0002549700530000052
其中:ωz为俯仰角速度,α为攻角,δz为俯仰舵偏角,m为导弹质量,P为导弹推力,θ为俯仰角,Q为动压,S为特征面积,c为纵向特征长度,Jz为转动惯量,
Figure BDA0002549700530000053
Figure BDA0002549700530000054
分别表示俯仰力矩系数mz对俯仰角速度ωz、攻角α以及俯仰舵偏角δz的偏导数。
Figure BDA0002549700530000055
Figure BDA0002549700530000056
分别表示升力CL对α和δz的导数。
为了表示方便,令:
Figure BDA0002549700530000057
Figure BDA0002549700530000061
Figure BDA0002549700530000062
Figure BDA0002549700530000063
Figure BDA0002549700530000064
同时,令x1=α,
Figure BDA0002549700530000065
xd=αd,其中αd为期望的攻角。
对式(2)求导,并将式(1)代入到式(2)可得:
Figure BDA0002549700530000066
因此,系统可转换为以下形式:
Figure BDA0002549700530000067
Figure BDA0002549700530000068
其中:
Figure BDA0002549700530000069
g(x)=b1 (12)
步骤2)定义导弹攻角的跟踪误差,同时建立与误差有关的性能指标:
定义导弹攻角误差为:
e=x1-xd (13)
建立系统的性能指标为:
Figure BDA00025497005300000610
其中γ为折扣系数,0<γ<1,R(t)为奖励值,R(t)=Qe2
Figure BDA00025497005300000611
步骤3)设计评价网络:
评价网络的输出为性能指标的估计值,即:
Figure BDA00025497005300000612
其中:
Figure BDA00025497005300000613
为评价网络的输出即为性能指标的估计值,cin为评价网络的输入向量,
Figure BDA00025497005300000614
为评价网络隐藏层到输出层的权值,N为隐藏层节点数,
Figure BDA00025497005300000615
为评价网络的激活函数,这里
Figure BDA0002549700530000071
为输入层到隐藏层的权值。
步骤4)设计动作网络:
为了表示方便,令δz=u。动作网络的输出为俯仰舵偏角,即:
Figure BDA0002549700530000072
其中:ain为动作网络的输入,
Figure BDA0002549700530000073
这里r为滤波误差,
Figure BDA00025497005300000715
λ>0。
Figure BDA0002549700530000074
为动作网络隐藏层到输出层的权值,N为隐藏层节点数,
Figure BDA0002549700530000075
为动作网络的激活函数,这里
Figure BDA0002549700530000076
为输入层到隐藏层的权值。
步骤5)设计评价网络权值更新律:
评价网络估计误差为:
Figure BDA0002549700530000077
评价网络训练准则为使
Figure BDA0002549700530000078
最小。
因此根据梯度下降法:
Figure BDA0002549700530000079
Figure BDA00025497005300000710
评价网络更新律为:
Figure BDA00025497005300000711
其中σc为评价网络的学习率,0<σc<1。
Figure BDA00025497005300000712
Figure BDA00025497005300000713
对cin的梯度。
步骤6)设计动作网络权值更新律:
系统滤波误差为:
Figure BDA00025497005300000714
对系统的滤波误差进行求导,并将式(13)代入:
Figure BDA0002549700530000081
那么控制律可设计为:
Figure BDA0002549700530000082
其中Wa *为理想权值,εa为重构误差。
式(22)可化成如下形式:
Figure BDA0002549700530000083
因此:
Figure BDA0002549700530000084
动作网络估计误差为:
Figure BDA0002549700530000085
其中:
Figure BDA0002549700530000086
为动作网络的理想权值。Jd为期望性能指标,这里取0。
动作网络训练准则为使
Figure BDA0002549700530000087
最小。
因此根据梯度下降法:
Figure BDA0002549700530000088
Figure BDA0002549700530000089
动作网络更新律为:
Figure BDA00025497005300000810
其中σa为动作网络的学习率,0<σa<1。K>0。
下面结合仿真实例和附图对本发明做出详细说明:
以导弹爬升段气动特征点为例,特征点为参数为:a1=-11.14122,a2=-5.57786,a3=-0.16628,b1=1.81421,b2=0.00717。
在期望攻角曲线分别为方波和正弦波的情况下,对本发明算法进行验证。
期望攻角为方波时,方波的幅值为10°,周期为20s。
控制算法参数选择如下:
评价网络隐藏层节点数N=20,学习率σc=0.4,Q=0.5,γ=0.2,Wc的初始值为0,Vc的初始值为[0 1]的随机数。
动作网络隐藏层节点数N=20,学习率σa=0.4,K=40,λ=30。Wa的初始值为0,Va的初始值为[0 1]的随机数。
期望攻角为方波时,由于期望攻角曲线在拐点不是可微,因此需要采用过渡过程来让期望攻角方波可微。过渡过程采用的传递函数为:
Figure BDA0002549700530000091
其中:ω=5,ξ=0.9。
期望攻角为正弦波时,正弦波的幅值为10°,周期为20s。
控制算法参数选择同上。
由图2可以看出,基于强化学习的导弹纵向姿态控制算法对期望攻角为方波时具有良好的跟踪效果,实际攻角可以快速稳定无超调地跟踪期望攻角。跟踪误差保持在一定的有界范围内。由图3可以看出,俯仰舵偏角保持在合理范围内,没有出现舵偏角过大的情况。由图4可以看出,随着在线学习的进行,动作网络的权值最后趋于稳定状态,完成对控制策略的在线学习。由图5可以看出,评价网络的权值最后同样趋于稳定状态,说明评价网络对系统的性能指标的估计最后趋于稳定状态。由图6可以看出,基于强化学习的导弹纵向姿态控制算法对期望攻角为正弦波时具有良好的跟踪效果,实际攻角可以快速稳定地跟踪期望攻角。跟踪误差保持在一定的有界范围内。由图7可以看出,俯仰舵偏角保持在合理范围内,没有出现舵偏角过大的情况。由图8和图9可以看出,动作网络权值和评价网络权值最后趋于稳定状态,说明动作网络通过在线学习最后能够很好地完成策略的学习,评价网络通过在线学习能够很好估计性能指标。
为了验证该控制算法对模型不确定性控制稳定性及控制效果验证。将导弹的舵系数
Figure BDA0002549700530000092
Figure BDA0002549700530000101
进行[-30% -30%]的随机拉偏。拉偏次数为100次,分别对期望攻角为正弦波进行跟踪,仿真结果图为图10。从仿真结果可以看出,该控制算法对建模不确定性具有很好地鲁棒性,在参数有摄动的情况下依然能够对期望攻角进行稳定跟踪。
综上,本发明属于导弹姿态控制研究领域,针对传统导弹纵向姿态模型建立具有建模不确定性以及模型的一些信息不能准确获得,设计了一种基于强化学习的导弹纵向姿态控制算法,该算法基于强化学习的Actor-Critic(AC)结构,由动作网络(Actor NN)和评价网络(Critic NN)构成。其中,评价网络是根据导弹的状态输出对于导弹状态的评价值,动作网络是根据评价网络输出的评价值产生对应的升降舵偏角,从而实现在不依赖导弹内部模型的情况下对导弹的纵向姿态进行稳定控制。本发明采用的技术方案是,基于强化学习的导弹纵向姿态控制算法,步骤如下:步骤1)建立并确定导弹纵向姿态动力学模型;步骤2)定义导弹攻角的跟踪误差,同时建立与误差有关的性能指标;步骤3)设计评价网络;步骤4)设计动作网络;步骤5)设计评价网络权值更新律;步骤6)设计动作网络权值更新律。本发明主要应用于导弹纵向姿态控制。

Claims (7)

1.一种基于强化学习的导弹纵向姿态控制算法,其特征在于:步骤如下:
步骤一:建立并确定导弹纵向姿态动力学模型;
步骤二:定义导弹攻角的跟踪误差,同时建立与跟踪误差有关的性能指标;
步骤三:设计评价网络;
步骤四:设计动作网络;
步骤五:设计评价网络权值更新律;
步骤六:设计动作网络权值更新律,完成导弹纵向姿态控制。
2.根据权利要求1所述的一种基于强化学习的导弹纵向姿态控制算法,其特征在于:步骤一中的导弹纵向姿态动力学模型为:
Figure FDA0002549700520000011
Figure FDA0002549700520000012
其中:ωz为俯仰角速度,α为攻角,δz为俯仰舵偏角,m为导弹质量,P为导弹推力,θ为俯仰角,Q为动压,S为特征面积,c为纵向特征长度,Jz为转动惯量,
Figure FDA0002549700520000013
Figure FDA0002549700520000014
分别表示俯仰力矩系数mz对俯仰角速度ωz、攻角α以及俯仰舵偏角δz的偏导数,
Figure FDA0002549700520000015
Figure FDA0002549700520000016
分别表示升力CL对α和δz的导数;
令:
Figure FDA0002549700520000017
x1=α,
Figure FDA0002549700520000018
xd=αd,其中αd为期望的攻角;
则有:
Figure FDA0002549700520000019
Figure FDA00025497005200000110
其中:
Figure FDA00025497005200000111
g(x)=b1
3.根据权利要求2所述的一种基于强化学习的导弹纵向姿态控制算法,其特征在于:步骤二中的导弹攻角的跟踪误差为:e=x1-xd
性能指标为:
Figure FDA0002549700520000021
其中γ为折扣系数,0<γ<1,R(t)为奖励值,R(t)=Qe2
Figure FDA0002549700520000022
4.根据权利要求3所述的一种基于强化学习的导弹纵向姿态控制算法,其特征在于:步骤三的评价网络的输出为性能指标的估计值,即:
Figure FDA0002549700520000023
其中:
Figure FDA0002549700520000024
为评价网络的输出即为性能指标的估计值,cin为评价网络的输入向量,
Figure FDA0002549700520000025
为评价网络隐藏层到输出层的权值,N为隐藏层节点数,
Figure FDA0002549700520000026
为评价网络的激活函数,这里
Figure FDA0002549700520000027
为评价网络输入层到隐藏层的权值。
5.根据权利要求4所述的一种基于强化学习的导弹纵向姿态控制算法,其特征在于:步骤四中的动作网络的输出为俯仰舵偏角,令δz=u,则有:
Figure FDA0002549700520000028
其中:ain为动作网络的输入,
Figure FDA0002549700520000029
这里r为滤波误差,
Figure FDA00025497005200000210
λ>0;
Figure FDA00025497005200000211
为动作网络隐藏层到输出层的权值,N为隐藏层节点数,
Figure FDA00025497005200000212
为动作网络的激活函数,这里
Figure FDA00025497005200000213
为动作网络输入层到隐藏层的权值。
6.根据权利要求5所述的一种基于强化学习的导弹纵向姿态控制算法,其特征在于:步骤五中的评价网络估计误差为:
Figure FDA00025497005200000214
评价网络训练准则为使
Figure FDA00025497005200000215
最小,因此根据梯度下降法
Figure FDA00025497005200000216
得到评价网络更新律为:
Figure FDA00025497005200000217
其中:σc为评价网络的学习率,0<σc<1;
Figure FDA0002549700520000031
Figure FDA0002549700520000032
Figure FDA0002549700520000033
对cin的梯度。
7.根据权利要求6所述的一种基于强化学习的导弹纵向姿态控制算法,其特征在于:步骤六中的动作网络估计误差为:
Figure FDA0002549700520000034
其中:
Figure FDA0002549700520000035
Figure FDA0002549700520000036
为动作网络的理想权值;Jd为期望性能指标,这里取0;
动作网络训练准则为使
Figure FDA0002549700520000037
最小;根据梯度下降法
Figure FDA0002549700520000038
得到动作网络更新律为:
Figure FDA0002549700520000039
其中:σa为动作网络的学习率,0<σa<1,K>0。
CN202010572028.8A 2020-06-22 2020-06-22 一种基于强化学习的导弹纵向姿态控制算法 Active CN111708378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010572028.8A CN111708378B (zh) 2020-06-22 2020-06-22 一种基于强化学习的导弹纵向姿态控制算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010572028.8A CN111708378B (zh) 2020-06-22 2020-06-22 一种基于强化学习的导弹纵向姿态控制算法

Publications (2)

Publication Number Publication Date
CN111708378A true CN111708378A (zh) 2020-09-25
CN111708378B CN111708378B (zh) 2023-01-03

Family

ID=72542491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010572028.8A Active CN111708378B (zh) 2020-06-22 2020-06-22 一种基于强化学习的导弹纵向姿态控制算法

Country Status (1)

Country Link
CN (1) CN111708378B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239472A (zh) * 2021-07-09 2021-08-10 中国科学院自动化研究所 一种基于强化学习的导弹制导方法和装置
CN114815864A (zh) * 2022-03-31 2022-07-29 哈尔滨工程大学 一种基于强化学习的高超声速飞行器航迹规划方法
CN115562321A (zh) * 2022-10-09 2023-01-03 北京机电工程研究所 一种弱模型依赖的飞行器姿态稳定控制方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106873379A (zh) * 2017-03-31 2017-06-20 北京工业大学 一种基于迭代adp算法的污水处理最优控制方法
CN109597839A (zh) * 2018-12-04 2019-04-09 中国航空无线电电子研究所 一种基于航电作战态势的数据挖掘方法
CN109857130A (zh) * 2019-02-22 2019-06-07 四川航天系统工程研究所 一种基于误差四元数的导弹双回路姿态控制方法
CN110323981A (zh) * 2019-05-14 2019-10-11 广东省智能制造研究所 一种控制永磁同步直线电机的方法及系统
CN110806759A (zh) * 2019-11-12 2020-02-18 清华大学 一种基于深度强化学习的飞行器航线跟踪方法
CN110908281A (zh) * 2019-11-29 2020-03-24 天津大学 无人直升机姿态运动有限时间收敛强化学习控制方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111176122A (zh) * 2020-02-11 2020-05-19 哈尔滨工程大学 一种基于双bp神经网络q学习技术的水下机器人参数自适应反步控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106873379A (zh) * 2017-03-31 2017-06-20 北京工业大学 一种基于迭代adp算法的污水处理最优控制方法
CN109597839A (zh) * 2018-12-04 2019-04-09 中国航空无线电电子研究所 一种基于航电作战态势的数据挖掘方法
CN109857130A (zh) * 2019-02-22 2019-06-07 四川航天系统工程研究所 一种基于误差四元数的导弹双回路姿态控制方法
CN110323981A (zh) * 2019-05-14 2019-10-11 广东省智能制造研究所 一种控制永磁同步直线电机的方法及系统
CN110806759A (zh) * 2019-11-12 2020-02-18 清华大学 一种基于深度强化学习的飞行器航线跟踪方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN110908281A (zh) * 2019-11-29 2020-03-24 天津大学 无人直升机姿态运动有限时间收敛强化学习控制方法
CN111176122A (zh) * 2020-02-11 2020-05-19 哈尔滨工程大学 一种基于双bp神经网络q学习技术的水下机器人参数自适应反步控制方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
BRIANGAUDET,等: "Reinforcement learning for angle-only intercept guidance of maneuvering targets", 《AEROSPACE SCIENCE AND TECHNOLOGY》 *
CHENLIU等: "Barrier Lyapunov function based reinforcement learning control for air-breathing hypersonic vehicle with variable geometry inlet", 《AEROSPACE SCIENCE AND TECHNOLOGY》 *
XIANGWEI BU等: "Actor-Critic Reinforcement Learning Control of Non-Strict Feedback Nonaffine Dynamic Systems", 《IEEE ACCESS》 *
刘俊杰,等: "基于强化学习的飞航导弹姿态控制PID参数调节方法", 《战术导弹技术》 *
孙景亮等: "基于自适应动态规划的导弹制导律研究综述", 《自动化学报》 *
孙楚等: "基于强化学习的无人机自主机动决策方法", 《火力与指挥控制》 *
安航等: "无人直升机的姿态增强学习控制设计与验证", 《控制理论与应用》 *
沙建科等: "基于随机鲁棒动态逆的防空导弹姿态控制设计", 《计算机仿真》 *
王敏等: "约束条件下的摆动喷管控制系统设计", 《西安科技大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239472A (zh) * 2021-07-09 2021-08-10 中国科学院自动化研究所 一种基于强化学习的导弹制导方法和装置
CN113239472B (zh) * 2021-07-09 2021-09-21 中国科学院自动化研究所 一种基于强化学习的导弹制导方法和装置
CN114815864A (zh) * 2022-03-31 2022-07-29 哈尔滨工程大学 一种基于强化学习的高超声速飞行器航迹规划方法
CN114815864B (zh) * 2022-03-31 2024-08-20 哈尔滨工程大学 一种基于强化学习的高超声速飞行器航迹规划方法
CN115562321A (zh) * 2022-10-09 2023-01-03 北京机电工程研究所 一种弱模型依赖的飞行器姿态稳定控制方法

Also Published As

Publication number Publication date
CN111708378B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN110377045B (zh) 一种基于抗干扰技术的飞行器全剖面控制方法
CN111708378B (zh) 一种基于强化学习的导弹纵向姿态控制算法
CN108942924B (zh) 基于多层神经网络的模型不确定性机械臂运动控制方法
CN101937233B (zh) 近空间高超声速飞行器非线性自适应控制方法
Liu et al. Barrier Lyapunov function based reinforcement learning control for air-breathing hypersonic vehicle with variable geometry inlet
CN108717265B (zh) 一种基于控制变量参数化的无人飞行器巡航跟踪控制系统及控制方法
Chen et al. Disturbance observer-based control for small nonlinear UAV systems with transient performance constraint
CN110908281A (zh) 无人直升机姿态运动有限时间收敛强化学习控制方法
CN109541941A (zh) 一种针对垂直起降运载器主动段飞行的自适应增广抗扰容错方法
CN102411305A (zh) 单旋翼直升机/涡轴发动机综合抗扰控制系统设计方法
CN109062055A (zh) 一种基于Back-stepping鲁棒自适应动态面的近空间飞行器控制系统
CN113377121B (zh) 一种基于深度强化学习的飞行器智能抗扰动控制方法
CN110244751B (zh) 一种高超声速飞行器姿态自适应递推控制方法及系统
Zhang et al. Improved finite-time command filtered backstepping fault-tolerant control for flexible hypersonic vehicle
Jin et al. Neural network based adaptive fuzzy PID-type sliding mode attitude control for a reentry vehicle
CN115220467A (zh) 一种基于神经网络增量动态逆的飞翼飞行器姿态控制方法
CN107943097B (zh) 飞行器的控制方法、装置和飞行器
Tieshan et al. Application of adaptive fuzzy ADRC for hypersonic flight vehicle
Zhu et al. Fault-tolerant control of hypersonic vehicles based on fast fault observer under actuator gain loss fault or stuck fault
CN116360258A (zh) 基于固定时间收敛的高超声速变形飞行器抗干扰控制方法
CN115981149A (zh) 基于安全强化学习的高超声速飞行器最优控制方法
Zhu et al. A PID based approximation-free controller with prescribed performance function for model helicopter attitude control
CN114660942A (zh) 一种复合式直升机全模式自适应控制方法
CN113703478A (zh) 一种固定翼定高控制方法、电子设备及存储介质
Abouheaf et al. An online reinforcement learning wing-tracking mechanism for flexible wing aircraft

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant