CN110908281A

CN110908281A - 无人直升机姿态运动有限时间收敛强化学习控制方法

Info

Publication number: CN110908281A
Application number: CN201911197465.XA
Authority: CN
Inventors: 鲜斌; 林嘉裕
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-24

Abstract

本发明属于小型无人直升机飞行控制研究领域，为针对具有建模不确定性和未知外界扰动的小型无人直升机飞行控制问题，设计一种非线性鲁棒控制器，同时设计一种基于执行网‑评价网结构的强化学习控制器来补偿建模不确定性，实现小型无人直升机飞行姿态稳定控制。本发明采用的技术方案是，无人直升机姿态运动有限时间收敛强化学习控制方法，步骤如下：步骤1)确定无人直升机的坐标系定义；步骤2)确定无人直升机姿态动力学模型；步骤3)定义姿态角跟踪误差和系统性能指标函数；步骤4)设计评价网络；步骤5)设计执行网络；步骤6)控制律设计。本发明主要应用于小型无人直升机飞行控制。

Description

无人直升机姿态运动有限时间收敛强化学习控制方法

技术领域

本发明属于小型无人直升机飞行控制研究领域。针对小型无人直升机精确建模以及抵抗未知外界风扰的需求，设计一套基于强化学习与鲁棒控制相结合的非线性控制算法。

背景技术

近年来，小型无人直升机凭借垂直起降能力、空中悬停能力以及具有灵活飞行的特点被视为工业级无人机的重要发展方向。然而，直升机具有非线性、强动态耦合以及其生成推力的空气动力学特性存在的参数和模型不确定性，难以建立精确的动力学模型，使得其控制设计极具挑战性。

线性控制算法是工程上常用的无人直升机控制方法，如PID控制、线性二次型调节器(Linear Quadratic Regulator，LQR)以及H∞控制等。然而，线性控制方法大多基于线性化模型来设计，只能稳定于平衡点附近，且处理系统模型不确定性的能力有限。由此，研究人员开展了大量非线性控制算法的研究。南开大学方勇纯等人通过设计自适应反步控制器实现了无人直升机的姿态和高度控制(期刊：控制理论与应用；著者：孙秀云，方勇纯，孙宁；出版年月：2012；文章题目：小型无人直升机的姿态与高度自适应反步控制；页码：381-388)。滑模控制作为一种鲁棒控制算法常用于抑制系统外部扰动，但该方法设计控制律时包含符号函数，会使系统产生抖振现象。而super twisting控制由于具备有限时间收敛的特性，且因其切换控制部分隐藏在滑模变量的导数中，能够抑制抖振现象，经常被应用于无人直升机的控制设计中。

针对直升机难以获取精确动力学模型的问题，强化学习等智能控制方法得到了广泛应用。斯坦福大学Andrew Ng基于PEGASUS(Policy Evaluation-of-Goodness AndSearch Using Scenarios)的强化学习策略搜索算法，通过飞行数据不断塑造和修正回报函数来优化策略，最终学习到一个随机的直升机非线性动态模型，并基于学到的模型，实现了小型无人直升机倒飞、倒立悬停、翻滚等高难度特技飞行动作(会议：Proceedings ofthe Sixteenth conference on Uncertainty in artificial intelligence；著者：Ng AY，Jordan M；出版年月：2000；文章题目：PEGASUS:A policy search method for largeMDPs and POMDPs；页码：406-415)。苏黎世联邦理工学院Jemin Hwangbo等人基于确定性策略搜索的强化学习方法，使用零偏差、零方差样本离线训练两个神经网络，实现四旋翼无人机的自主悬停控制，但以上方法缺乏严格的稳定性证明。强化学习只需模型较少的先验信息或不需要模型先验信息，因而受到控制领域众多学者的关注，强化学习强调智能体在与环境的交互过程中在线地进行学习，通过每次动作后环境的回报来修正自身行动策略，从而实现最优化决策。众所周知，动态规划(Dynamic Programming，DP)是解决最优控制问题的有效方法。但此方法常用于离线训练，并且在系统复杂时容易引发“维数灾难”的问题。为应用DP方法，研究人员提出了基于AC结构的自适应动态规划(Adaptive DynamicProgramming，ADP)方法，以在线获得系统的近似最优控制策略。然而对于实际系统，外界干扰总是存在的，单纯的使用ADP方法很难克服外界扰动的影响。因此，上述考虑因素促使智能控制与非线性控制的相结合。密苏里科技大学David Nodland等人采取了神经网络与反步法相结合的方法，通过仿真验证了所提出的轨迹跟踪控制设计的有效性。

关于小型无人直升机的控制，非线性控制算法在一定程度上改进了无人直升机的飞行控制性能，但仍存在一些局限性：1)多数非线性控制算法很少考虑建模不确定性对系统带来的影响；2)一些已有的控制设计只进行了数值仿真，而没有进行实验验证，实际应用可能面临挑战；3)单纯的智能控制算法一般难以克服外界扰动的影响，且多数缺乏严格的稳定性证明。特别的是，很少有研究成果能从理论上证明无人直升机的姿态跟踪误差能在有限时间内收敛到零。

发明内容

为克服现有技术的不足，本发明旨在针对具有建模不确定性和未知外界扰动的小型无人直升机飞行控制问题，设计一种非线性鲁棒控制器，同时设计一种基于执行网-评价网结构的强化学习控制器来补偿建模不确定性，实现小型无人直升机飞行姿态稳定控制。本发明采用的技术方案是，无人直升机姿态运动有限时间收敛强化学习控制方法，步骤如下：

步骤1)确定无人直升机的坐标系定义；

无人直升机坐标系定义主要涉及两个坐标系，惯性坐标系{I}＝{O_I,x_I,y_I,z_I}和机体坐标系{B}＝{O_B,x_B,y_B,z_B}，其中O_i(i＝I,B)表示坐标系原点，x_i、y_i、z_i(i＝I,B)分别对应坐标系三个主轴方向的单位矢量，各坐标系的定义均遵循右手定则，同时定义直升机姿态角在坐标系{I}下表示为η(t)＝[φ(t),θ(t),ψ(t)]^T，φ(t)、θ(t)、ψ(t)分别对应滚转角、俯仰角和偏航角，目标轨迹姿态角在坐标系{I}下表示为η_d(t)＝[φ_d(t),θ_d(t),ψ_d(t)]^T，φ_d(t)、θ_d(t)、ψ_d(t)分别对应目标旋转角、目标俯仰角和目标偏航角；

步骤2)确定无人直升机姿态动力学模型；

通过分析小型无人直升机作用原理，用拉格朗日方程来描述其姿态动力学模型为：

式(1)中M(η(t))代表惯性矩阵，

代表科氏力矩阵，τ_d代表未知扰动向量，S(t)代表角速度变换矩阵，A、B代表旋翼动力学相关矩阵，D代表旋翼挥舞角动力学相关矩阵，δ(t)＝[δ_lat(t),δ_lon(t),δ_ped(t)]^T代表控制输入，δ_lat(t)代表横向周期变距，δ_lon(t)代表纵向周期变距，δ_ped(t)代表尾桨总距，角速度变换矩阵S(t)表示为：

为解决模型中的不确定性问题，将M(η(t))、

B分别写为：

式(3)中M₀(η(t))、

B₀分别为M(η(t))、

B的最佳估计矩阵，M_Δ(η(t))、

B_Δ为估计误差矩阵。为方便后续控制设计与分析，定义辅助函数Ω(t)＝S(t)^-TAD，可将式(1)表示为：

式(4)中

表示模型中存在的不确定性。

步骤3)定义姿态角跟踪误差和系统性能指标函数；

定义系统姿态跟踪误差e₁(t)及其线性滑模面e₂(t)为：

式(5)中，k＝diag{[k₁,k₂,k₃]^T}为对称正定增益矩阵。

为方便后续控制设计，定义如下状态值函数J(e₁(t))作为性能指标函数。

式(6)中，

为执行控制力矩τ后产生的回报函数，τ＝Ω(t)^-1δ(t)，Q,R为正定对称常数矩阵。根据最优控制理论，定义哈密尔顿函数为如下形式：

步骤4)设计评价网络；

定义最优控制策略τ^*对应的最优状态值函数J^*(e₁(t))为：

利用如下神经网络来表示最优状态值函数J^*(e₁(t))：

式(9)中，W_c(t)为评价网络理想权重矩阵，

选取双曲正切函数tanh(·)作为神经网络的激励函数，ε_c为评价网络逼近误差。

为实现对最优状态值函数的逼近，设计如下评价网络：

式(10)中，

是对理想权重W_c(t)的估计，设计权重更新律为：

其中，a_c为评价网络的调节增益，

为辅助变量，r为回报函数。

步骤5)设计执行网络；

对e₂(t)求一阶时间导数，并将式(4)代入整理，得到滤波误差的开环动态方程为：

式(12)中，

为状态变量，辅助函数N(x)为模型不确定部分，表达式为：

利用如下神经网络来表示N(x)：

式(14)中，W_a(t)为执行网络理想权重矩阵，

选取双曲正切函数tanh(·)作为神经网络的激励函数，ε_a为执行网络逼近误差。

设计执行网络

来逼近不确定部分N(x)，表示为：

式(15)中，

是对理想权重W_a(t)的估计，设计权重更新律为：

其中，a_a为执行网络的调节增益，k_z为网络增益参数；

步骤6)控制律设计；

根据以上分析，设计系统的控制输入δ(t)为：

式(17)中α＝diag{[α_φ,α_θ,α_ψ]^T}、β＝diag{[β_φ,β_θ,β_ψ]^T}为super twisting控制增益矩阵，sgn(·)为标准符号函数。

以上述控制律进行小型无人直升机的姿态控制，并且姿态跟踪误差能在有限时间收敛，收敛时间T_F的表达式为

式(18)中P、Q_s为稳定性分析过程中的对称正定矩阵，λ_max(P)为矩阵P的最大特征值，λ_min(Q_s)为矩阵Q_s的最小特征值，k_v、μ、ρ、θ为正常数，V(·)为稳定性分析中定义的Lyapunov候选函数，t₀为系统初始状态时刻。

本发明的特点及有益效果是：

1.本发明基于强化学习对系统模型不确定性进行补偿，减少了无人直升机模型不确定性对系统控制性能的影响；

2.本发明理论上将强化学习与非线性鲁棒控制方法相结合，提高了系统鲁棒性，并通过基于Lyapunov的稳定性分析方法证明了无人直升机姿态跟踪误差能在有限时间内收敛到零；

3.本发明将算法成功应用于无人直升机半实物平台，并进行实时实验，验证了所设计算法的可行性。

附图说明：

图1是本发明控制系统结构图；

图2是本发明所采用的实验平台；

图3是姿态镇定抗扰实验时无人直升机的姿态角曲线图；

图4是姿态镇定抗扰实验时无人直升机执行网络权重更新曲线图；

图5是姿态镇定抗扰实验时无人直升机评价网络权重更新曲线图；

图6是姿态镇定抗扰实验时无人直升机的控制输入曲线图。

具体实施方式

本发明旨在针对具有建模不确定性和未知外界扰动的小型无人直升机飞行控制问题，设计一种非线性鲁棒控制器，同时设计一种基于执行网-评价网结构的强化学习控制器来补偿建模不确定性，实现小型无人直升机飞行姿态稳定控制。本发明采用的技术方案是，小型无人直升机的强化学习鲁棒控制方法，步骤如下：

步骤1)确定小型无人直升机的坐标系定义；

小型无人直升机坐标系定义主要涉及两个坐标系，惯性坐标系{I}＝{O_I,x_I,y_I,z_I}和机体坐标系{B}＝{O_B,x_B,y_B,z_B}，其中O_i(i＝I,B)表示坐标系原点，x_i,y_i,z_i(i＝I,B)分别对应坐标系三个主轴方向的单位矢量，各坐标系的定义均遵循右手定则，同时定义直升机姿态角在坐标系{I}下表示为η(t)＝[φ(t),θ(t),ψ(t)]^T，φ(t),θ(t),ψ(t)分别对应滚转角、俯仰角和偏航角，目标轨迹姿态角在坐标系{I}下表示为η_d(t)＝[φ_d(t),θ_d(t),ψ_d(t)]^T，φ_d(t),θ_d(t),ψ_d(t)分别对应目标旋转角、目标俯仰角和目标偏航角；

步骤2)确定小型无人直升机姿态动力学模型；

式(1)中M(η(t))代表惯性矩阵，

为解决模型中的不确定性问题，将M(η(t))、

B分别写为：

式(3)中M₀(η(t))、

B₀分别为M(η(t))、

B的最佳估计矩阵，M_Δ(η(t))、

式(4)中

表示模型中存在的不确定性。

步骤3)定义姿态角跟踪误差和系统性能指标函数；

定义系统姿态跟踪误差e₁(t)及其线性滑模面e₂(t)为：

式(5)中，k＝diag{[k₁,k₂,k₃]^T}为对称正定增益矩阵。

式(6)中，

步骤4)设计评价网络；

定义最优控制策略τ^*对应的最优状态值函数J^*(e₁(t))为：

利用如下神经网络来表示最优状态值函数J^*(e₁(t))：

式(9)中，W_c(t)为评价网络理想权重矩阵，

为实现对最优状态值函数的逼近，设计如下评价网络：

式(10)中，

是对理想权重W_c(t)的估计，设计权重更新律为：

其中，a_c为评价网络的调节增益，

为辅助变量，r为回报函数。

步骤5)设计执行网络；

式(12)中，

为状态变量，辅助函数N(x)为模型不确定部分，表达式为：

利用如下神经网络来表示N(x)：

式(14)中，W_a(t)为执行网络理想权重矩阵，

设计执行网络

来逼近不确定部分N(x)，表示为：

式(15)中，

是对理想权重W_a(t)的估计，设计权重更新律为：

其中，a_a为执行网络的调节增益，k_z为网络增益参数。

步骤6)控制律设计；

根据以上分析，设计系统的控制输入δ(t)为：

评价网络确实是依据飞行状态以及系统的输出对执行网络执行效果进行评价，进而更新评价网络的权重。执行网络则会利用到评价网络传递过来的权重更新网络权重，执行网络的结果作为对系统不确定性的补偿，相当于起了一部分控制作用。对于抵抗未知外界风扰，主要是通过super twisting这一鲁棒控制算法进行抑制，同时考虑到强化学习的估计误差，super twisting也能起到一定的补偿作用。因此，通过强化学习算法与supertwisting算法的结合，实现对无人机的控制。

下面结合实施例和附图对本发明做出详细说明。

一、半实物仿真平台介绍

为验证本文设计控制律的有效性，使用本研究组设计开发的无人直升机飞行实验平台，进行了实时镇定抗扰飞行实验。实验平台如图2所示，该实验平台以基于MATLAB-RTW工具箱的xPC作为实时仿真环境，采用自主设计的以ARM Cortex-M3为内核的惯性导航单元作为传感器，该机载传感器最高更新频率为500Hz，可提供三轴角速度及三轴姿态角信息，其中滚转角和俯仰角测量精度为±0.2°，偏航角的测量精度为±0.5°。

二、姿态镇定抗扰飞行实验

实验持续时间约160秒，实验开始先手动操作飞行，约18秒切换自动飞行模式，无人机根据期望轨迹η_d(t)＝[0 0 0]^T镇定飞行。在90秒后，加入持续定向风扰，无人机进行抗扰飞行。实验结果如图3～6所示。

控制律中各参数选取为：k＝diag{[220,240,12]^T}，α＝diag{[75,75,1.5]^T}，β＝diag{[2.4,2.2,0.5]^T}。评价网和执行网权重初值设置为0.01，参数选取为a_a＝diag{[1.2,1.2,0.012]^T}，a_c＝diag{[1.5,1.5,0.015]^T}，k_z＝diag{[0.1,0.1,0.1]^T}。

由图2可以看出,基于强化学习的鲁棒控制器取得了良好的控制效果。镇定过程中滚转角和偏航角精度控制在±2.1°以内,俯仰角精度控制在±1.2°以内。风扰状态下滚转角和俯仰角精度控制在±3°以内,偏航角精度控制在±2.1°以内,可见该算法对风扰有较好的鲁棒性。由图3、图4的执行-评价网络权重更新曲线可以看出,评价网络与执行网络权重收敛,由此验证了执行-评价网络权重估计误差的一致最终有界性。为分析强化学习所产生的控制作用,分别画出强化学习部分的控制输入以及总控制输入曲线如图5所示。由图5可知,直升机刚进入自动模式时,状态还未稳定,此时强化学习作用较为明显,达到约40％的控制占比。进入稳态后,强化学习控制占比逐渐降低,约占2％。加入风扰后,由于状态受干扰,强化学习控制占比提高,约占10％。由此验证了强化学习控制律对模型不确定性估计的有效性。

Claims

1.一种无人直升机姿态运动有限时间收敛强化学习控制方法，其特征是，步骤如下：

步骤1)确定无人直升机的坐标系定义；

小型无人直升机坐标系定义涉及两个坐标系，惯性坐标系{I}＝{O_I,x_I,y_I,z_I}和机体坐标系{B}＝{O_B,x_B,y_B,z_B}，其中O_i(i＝I,B)表示坐标系原点，x_i、y_i、z_i(i＝I,B)分别对应坐标系三个主轴方向的单位矢量，各坐标系的定义均遵循右手定则，同时定义直升机姿态角在坐标系{I}下表示为η(t)＝[φ(t),θ(t),ψ(t)]^T，φ(t)、θ(t)、ψ(t)分别对应滚转角、俯仰角和偏航角，目标轨迹姿态角在坐标系{I}下表示为η_d(t)＝[φ_d(t),θ_d(t),ψ_d(t)]^T，φ_d(t)、θ_d(t)、ψ_d(t)分别对应目标旋转角、目标俯仰角和目标偏航角；

步骤2)确定无人直升机姿态动力学模型；