CN111708378A

CN111708378A - 一种基于强化学习的导弹纵向姿态控制算法

Info

Publication number: CN111708378A
Application number: CN202010572028.8A
Authority: CN
Inventors: 池海红; 于馥睿; 刘兴一; 周明鑫
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-09-25
Anticipated expiration: 2040-06-22
Also published as: CN111708378B

Abstract

本发明提供一种基于强化学习的导弹纵向姿态控制算法，属于导弹姿态控制研究领域，基于强化学习的Actor‑Critic(AC)结构，由动作网络和评价网络构成。其中，评价网络是根据导弹的状态输出对于导弹状态的评价值，动作网络是根据评价网络输出的评价值产生对应的升降舵偏角，从而实现在不依赖导弹内部模型的情况下对导弹的纵向姿态进行稳定控制。步骤如下：步骤1)建立并确定导弹纵向姿态动力学模型；步骤2)定义导弹攻角的跟踪误差，同时建立与误差有关的性能指标；步骤3)设计评价网络；步骤4)设计动作网络；步骤5)设计评价网络权值更新律；步骤6)设计动作网络权值更新律。本发明主要应用于导弹纵向姿态控制。

Description

一种基于强化学习的导弹纵向姿态控制算法

技术领域

本发明涉及一种基于强化学习的导弹纵向姿态控制算法，属于导弹姿态控制研究领域。

背景技术

近年来，航空航天飞行器越来越受到广泛关注。由于对飞行器飞行包线的扩大，对飞行器的任务要求越来越多，这就意味着飞行器的飞行控制越来越复杂。由于导弹具有动力学特性复杂，飞行环境不确定，控制精度要求高等特点。需要控制系统具有较强的鲁棒性同时还要具有对建模不确定性的自适应特点。基于以上要求，传统的控制方法已经难以胜任诸多复杂的控制任务。

在导弹姿态控制领域应用最广泛的是PID控制器，PID控制器具有结构简单，调参方便等特点，大范围的应用在实际工程中，但是对于导弹在不同的飞行状态点，PID的参数就会进行相应变化来满足动态和稳态要求，这就意味着，对每一个状态点就要进行一次PID控制器的参数设计，最后进行增益调度来使导弹在飞行过程中都具有良好的性能，这无疑加大了控制系统的设计和调试时间和成本。

此外，滑模控制律在导弹姿态控制上应用也很广泛，最主要是因为滑模控制律具有对建模不确定性很好的鲁棒性，可以在模型有摄动的情况下依然表现出良好的控制性能，但是，滑模控制律由于是变结构控制，需要在滑模超平面上进行来回滑动从而靠近平衡点，由于实际系统中具有惯性，这就导致了状态在到达滑模面时不能立刻沿着滑模面进行运动，而是在滑模面上做切换运动，这就导致了滑模控制律的控制输入有抖动，这种抖动在实际工程中是不允许的甚至会激发系统的不稳定的内动态导致系统失稳。对于建模不确定性，自适应控制具有良好的控制效果，但是自适应控制一般都是基于模型的方法，也就是说控制律中有的项包括了被控对象的内部模型，由于导弹的建模是在风洞内进行空气动力学分析，相对于导弹实际飞行的气动参数很难做到准确全面的测量，这就导致系统的模型很难准确的获得，因此自适应控制很难运用被控对象的模型来进行控制律设计。

近些年来，随着人工智能的发展，对于智能应用在飞行器姿态控制上越来越受到学者的重视。强化学习是人工智能领域的一个分支，属于无监督学习。强化学习是根据被控对象当前的状态来做一个状态优劣程度的评判，根据该评判指导被控对象产生使对象向着状态更好的方向的动作，通过不断学习，最后成功学习到策略，使被控对象被稳定控制。目前强化学习应用在导弹姿态控制方向的相关研究很少。在已有的强化学习控制方法中，分为离线学习和在线学习两类。其中，离线学习就是利用被控对象以往的运行数据对策略进行离散学习，最后使得策略收敛到某一策略，即可视为学习完毕，再将学习完毕的策略应用到被控对象中进行控制。在线学习指的是，在被控对象在运行的过程中，通过被控对象的实时状态，强化学习控制进行实时参数自动调整，最后学习到一个稳定的策略，Chen Liu等人将强化学习应用于高超声速飞行器爬升段控制中，其中强化学习的作用是实时估计不确定扰动并对其进行补偿，但是没有将强化学习应用在整个控制中，仅仅是作为一种前馈(期刊：Aerospace Science and Technology作者：Chen Liu,Chaoyang Dong,Zhijie Zhou,Zhaolei Wang出版年月：2019.7文章题目：Barrier Lyapunov function basedreinforcement learning control for air-breathing hypersonic vehicle withvariable geometry inlet)。对于离线策略来说，需要实现获得大量的试验数据，这需要很高的成本，对于导弹这种成本高，试验次数有限的飞行器来说，很难获取。因此在线控制在飞行器控制方面的应用多一些。由于导弹姿态系统是二阶系统，已有的设计一般都是把二阶系统进行分解成两个一阶系统，对这两个一阶系统进行串级控制，强化学习在其中仅作为补偿作用，稳定作用的还是传统控制器，但是这种在线学习设计方法，具有控制器结构复杂，需要处理的量多等特点。

发明内容

本发明的目的是针对具有建模不确定性以及模型参数不能准确获得的导弹纵向姿态控制同时保证控制律结构简单等问题，提供一种基于强化学习的导弹纵向姿态控制算法，对导弹的纵向姿态角进行稳定控制。

本发明的目的是这样实现的：步骤如下：

步骤一：建立并确定导弹纵向姿态动力学模型；

步骤二：定义导弹攻角的跟踪误差，同时建立与跟踪误差有关的性能指标；

步骤三：设计评价网络；

步骤四：设计动作网络；

步骤五：设计评价网络权值更新律；

步骤六：设计动作网络权值更新律，完成导弹纵向姿态控制。

本发明还包括这样一些结构特征：

1.步骤一中的导弹纵向姿态动力学模型为：

其中：ω_z为俯仰角速度，α为攻角，δ_z为俯仰舵偏角，m为导弹质量，P为导弹推力，θ为俯仰角，Q为动压，S为特征面积，c为纵向特征长度，J_z为转动惯量，

和

分别表示俯仰力矩系数m_z对俯仰角速度ω_z、攻角α以及俯仰舵偏角δ_z的偏导数，

和

分别表示升力C_L对α和δ_z的导数；

令：

x₁＝α，

x_d＝α_d，其中α_d为期望的攻角；

则有：

其中：

g(x)＝b₁。

2.步骤二中的导弹攻角的跟踪误差为：e＝x₁-x_d；

性能指标为：

其中γ为折扣系数，0＜γ＜1，R(t)为奖励值，R(t)＝Qe²，

3.步骤三的评价网络的输出为性能指标的估计值，即：

其中：

为评价网络的输出即为性能指标的估计值，c_in为评价网络的输入向量，

为评价网络隐藏层到输出层的权值，N为隐藏层节点数，

为评价网络的激活函数，这里

为评价网络输入层到隐藏层的权值。

4.步骤四中的动作网络的输出为俯仰舵偏角，令δ_z＝u，则有：

其中：a_in为动作网络的输入，

这里r为滤波误差，

λ＞0；

为动作网络隐藏层到输出层的权值，N为隐藏层节点数，

为动作网络的激活函数，这里

为动作网络输入层到隐藏层的权值。

5.步骤五中的评价网络估计误差为：

评价网络训练准则为使

最小，因此根据梯度下降法

得到评价网络更新律为：

其中：σ_c为评价网络的学习率，0＜σ_c＜1；

为

对c_in的梯度。

6.步骤六中的动作网络估计误差为：

其中：

为动作网络的理想权值；J_d为期望性能指标，这里取0；

动作网络训练准则为使

最小；根据梯度下降法

得到动作网络更新律为：

其中：σ_a为动作网络的学习率，0＜σ_a＜1，K＞0。

与现有技术相比，本发明的有益效果是：1.本发明是一种基于强化学习的导弹纵向姿态控制算法，该控制算法不需要精确了解导弹纵向动力学模型的具体信息，仅需要知道导弹的攻角，从而减少了对导弹纵向动力学模型的依赖。2.本发明将强化学习与传统控制方法相结合，是智能在导弹姿态控制上的具体应用。3.本发明由于对导弹纵向动力学模型的依赖很少，对不确定性具有很强的鲁棒性，通过动作网络和评价网络的在线学习，对不确定性进行自适应。4.本发明将该算法应用到导弹纵向姿态动力学模型上进行数值仿真，验证了该算法设计的可行性。

附图说明

图1是本发明控制系统结构图；

图2是期望攻角为方波时攻角和期望攻角变化曲线；

图3是期望攻角为方波时俯仰舵偏角变化曲线；

图4是期望攻角为方波时动作网络权值变化曲线；

图5是期望攻角为方波时评价网络权值变化曲线；

图6是期望攻角为正弦波时攻角和期望攻角变化曲线；

图7是期望攻角为正弦波时俯仰舵偏角曲线；

图8是期望攻角为正弦波时动作网络权值变化曲线；

图9是期望攻角为正弦波时评价网络权值变化曲线；

图10是参数拉偏情况下攻角变化曲线；

图11是参数拉偏情况下俯仰舵偏角变化曲线；

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

针对传统导弹纵向姿态模型建立具有建模不确定性以及模型的一些信息不能准确获得，设计了一种基于强化学习的导弹纵向姿态控制算法，对导弹的纵向姿态角进行稳定控制。具体步骤如下：

步骤1)建立并确定导弹纵向姿态动力学模型：

基于小扰动线性化原理，忽略横侧向有关变量的影响，导弹纵向姿态动力学模型为：

和

分别表示俯仰力矩系数m_z对俯仰角速度ω_z、攻角α以及俯仰舵偏角δ_z的偏导数。

和

分别表示升力C_L对α和δ_z的导数。

为了表示方便，令：

同时，令x₁＝α，

x_d＝α_d，其中α_d为期望的攻角。

对式(2)求导，并将式(1)代入到式(2)可得：

因此，系统可转换为以下形式：

其中：

g(x)＝b₁ (12)

步骤2)定义导弹攻角的跟踪误差，同时建立与误差有关的性能指标：

定义导弹攻角误差为：

e＝x₁-x_d (13)

建立系统的性能指标为：

其中γ为折扣系数，0＜γ＜1，R(t)为奖励值，R(t)＝Qe²，

步骤3)设计评价网络：

评价网络的输出为性能指标的估计值，即：

其中：

为评价网络隐藏层到输出层的权值，N为隐藏层节点数，

为评价网络的激活函数，这里

为输入层到隐藏层的权值。

步骤4)设计动作网络：

为了表示方便，令δ_z＝u。动作网络的输出为俯仰舵偏角，即：

其中：a_in为动作网络的输入，

这里r为滤波误差，

λ＞0。

为动作网络隐藏层到输出层的权值，N为隐藏层节点数，

为动作网络的激活函数，这里

为输入层到隐藏层的权值。

步骤5)设计评价网络权值更新律：

评价网络估计误差为：

评价网络训练准则为使

最小。

因此根据梯度下降法：

评价网络更新律为：

其中σ_c为评价网络的学习率，0＜σ_c＜1。

为

对c_in的梯度。

步骤6)设计动作网络权值更新律：

系统滤波误差为：

对系统的滤波误差进行求导，并将式(13)代入：

那么控制律可设计为：

其中W_a ^*为理想权值，ε_a为重构误差。

式(22)可化成如下形式：

因此：

动作网络估计误差为：

其中：

为动作网络的理想权值。J_d为期望性能指标，这里取0。

动作网络训练准则为使

最小。

因此根据梯度下降法：

动作网络更新律为：

其中σ_a为动作网络的学习率，0＜σ_a＜1。K＞0。

下面结合仿真实例和附图对本发明做出详细说明：

以导弹爬升段气动特征点为例，特征点为参数为：a₁＝-11.14122，a₂＝-5.57786，a₃＝-0.16628，b₁＝1.81421，b₂＝0.00717。

在期望攻角曲线分别为方波和正弦波的情况下，对本发明算法进行验证。

期望攻角为方波时，方波的幅值为10°，周期为20s。

控制算法参数选择如下：

评价网络隐藏层节点数N＝20，学习率σ_c＝0.4，Q＝0.5，γ＝0.2，W_c的初始值为0，V_c的初始值为[0 1]的随机数。

动作网络隐藏层节点数N＝20，学习率σ_a＝0.4，K＝40，λ＝30。W_a的初始值为0，V_a的初始值为[0 1]的随机数。

期望攻角为方波时，由于期望攻角曲线在拐点不是可微，因此需要采用过渡过程来让期望攻角方波可微。过渡过程采用的传递函数为：

其中:ω＝5,ξ＝0.9。

期望攻角为正弦波时，正弦波的幅值为10°，周期为20s。

控制算法参数选择同上。

由图2可以看出，基于强化学习的导弹纵向姿态控制算法对期望攻角为方波时具有良好的跟踪效果，实际攻角可以快速稳定无超调地跟踪期望攻角。跟踪误差保持在一定的有界范围内。由图3可以看出，俯仰舵偏角保持在合理范围内，没有出现舵偏角过大的情况。由图4可以看出，随着在线学习的进行，动作网络的权值最后趋于稳定状态，完成对控制策略的在线学习。由图5可以看出，评价网络的权值最后同样趋于稳定状态，说明评价网络对系统的性能指标的估计最后趋于稳定状态。由图6可以看出，基于强化学习的导弹纵向姿态控制算法对期望攻角为正弦波时具有良好的跟踪效果，实际攻角可以快速稳定地跟踪期望攻角。跟踪误差保持在一定的有界范围内。由图7可以看出，俯仰舵偏角保持在合理范围内，没有出现舵偏角过大的情况。由图8和图9可以看出，动作网络权值和评价网络权值最后趋于稳定状态，说明动作网络通过在线学习最后能够很好地完成策略的学习，评价网络通过在线学习能够很好估计性能指标。

为了验证该控制算法对模型不确定性控制稳定性及控制效果验证。将导弹的舵系数

和

进行[-30％ -30％]的随机拉偏。拉偏次数为100次，分别对期望攻角为正弦波进行跟踪，仿真结果图为图10。从仿真结果可以看出，该控制算法对建模不确定性具有很好地鲁棒性，在参数有摄动的情况下依然能够对期望攻角进行稳定跟踪。

综上，本发明属于导弹姿态控制研究领域，针对传统导弹纵向姿态模型建立具有建模不确定性以及模型的一些信息不能准确获得，设计了一种基于强化学习的导弹纵向姿态控制算法，该算法基于强化学习的Actor-Critic(AC)结构，由动作网络(Actor NN)和评价网络(Critic NN)构成。其中，评价网络是根据导弹的状态输出对于导弹状态的评价值，动作网络是根据评价网络输出的评价值产生对应的升降舵偏角，从而实现在不依赖导弹内部模型的情况下对导弹的纵向姿态进行稳定控制。本发明采用的技术方案是，基于强化学习的导弹纵向姿态控制算法，步骤如下：步骤1)建立并确定导弹纵向姿态动力学模型；步骤2)定义导弹攻角的跟踪误差，同时建立与误差有关的性能指标；步骤3)设计评价网络；步骤4)设计动作网络；步骤5)设计评价网络权值更新律；步骤6)设计动作网络权值更新律。本发明主要应用于导弹纵向姿态控制。