CN109696830A

CN109696830A - 小型无人直升机的强化学习自适应控制方法

Info

Publication number: CN109696830A
Application number: CN201910098125.5A
Authority: CN
Inventors: 鲜斌; 张浩楠; 张旭
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-04-30
Anticipated expiration: 2039-01-31
Also published as: CN109696830B

Abstract

本发明涉及小型无人直升机的非线性控制，为提出一种基于强化学习的自适应控制方法，实现在小型直升机具有系统参数不确定性和外界扰动的情况下，仍能保持飞行姿态稳定。为此，本发明采用的技术方案是，小型无人直升机的强化学习自适应控制方法，以强化学习自适应控制算法为基础，结合评价网执行网体系结构，用于小型无直升人机的姿态系统控制中，包括以下步骤：步骤1)确定小型无人直升机的坐标系定义；步骤2)确定小型无人直升机姿态动力学模型；步骤3)定义姿态角跟踪误差并整理动力学误差模型；步骤4)控制律设计。本发明主要应用于小型无人直升机的非线性控制场合。

Description

小型无人直升机的强化学习自适应控制方法

技术领域

本发明涉及一种小型无人直升机的非线性控制方法，特别是涉及一种基于强化学习的小型无人直升机自适应控制方法。具体讲,涉及小型无人直升机的强化学习自适应控制方法。

背景技术

无人机(Unmanned Aerial Vehicle，简称UAV)，是装配了必要的数据处理单元、传感器、自动控制器以及通信设备的飞行器系统，能够在远距离遥控下或者自主控制下执行预先设定的飞行任务。无人直升机能够做到：1)可垂直起降、可定点悬停、可在空中原地转弯；2)能够近地机动飞行；3)起飞和降落无需专用的跑道；4)若直升机在空中发生故障，可以利用自身旋翼特性自转下滑，最终安全降落。其在民用领域和军事上均发挥着重要的价值，受到各国的普遍重视(图书：国防工业出版社；著者：贺天鹏，张俊，曾国奇，等；出版年月：2016；文章题目：无人直升机系统设计；页码：1-21)。然而，由于无人直升机是欠驱动且具有显著动态耦合的高度非线性系统，在控制器设计和实施过程中需要对这些动态耦合加以考虑和解决，因此其控制器的设计非常具有挑战性。

目前，针对小型无人直升机系统的控制方法主要包括线性控制、非线性控制和智能控制等多种设计方法。线性控制方法是目前常用的无人机控制方法，刘昊等人基于简化的无人直升机线性模型设计了LQR(linear quadratic regulator，线性二次调节器)控制器。该方法通过数值仿真验证了控制器的有效性，但这种线性控制方法是基于在无人直升机工作点附近的近似线性化进行分析设计的，只能在平衡点附近使系统实现稳定，因而不可避免地限制了控制器的应用范围(期刊：IEEE Transactions on IndustrialElectronics；著者：Liu H,Lu G,Zhong Y；出版年月：2013；文章题目：Robust LQRAttitude Control of a 3-DOF Laboratory Helicopter for Aggressive Maneuvers；页码：4627-4636)。

为克服线性控制方法的上述不足，许多学者采用非线性控制方法实现无人直升机的大范围控制。Raptis I A等人将无人机动态模型划分为两个子系统，内环为姿态控制系统，外环为位置控制系统，采用反步法设计了跟踪控制器，通过数值仿真验证了无人机的镇定、跟踪和高难度飞行实验(期刊：IEEE Transactions on Control Systems Technology；著者：Raptis I A,Valavanis K P,Moreno W A；出版年月：2011；文章题目：A NovelNonlinear Backstepping Controller Design for Helicopters Using the RotationMatrix；页码：465-473)。针对系统存在参数不确定性，蒙志君等人设计了一种基于扩张状态观测器的自抗扰反步控制器，通过引入扩张状态观测器来实时观测由模型不确定性和外界扰动组成的全部未知扰动，同时与反步法相结合，使无人直升机在存在外界扰动下均能对控制指令实现快速和准确的反应(期刊：控制理论与应用；著者：陈旭智，蒙志君，赵文龙，等；出版年月：2015；文章标题：适应扰动的无人直升机姿态跟踪控制；页码：1534-1539)。

近年来智能控制方法也在无人直升机控制上得到了较多的应用，Nodland D等人利用自适应神经网络对无人机模型不确定部分进行估计，只需要较少的模型信息，就能够实现无人机的轨迹跟踪控制(期刊：IEEE Transactions on Neural Networks andLearing Systems；著者：Nodland D,Zargarzadeh H；出版年月：2013；文章题目：NeuralNetwork-based Optimal Adaptive Output Feedback Control of a Helicopter UAV；页码：1061-1073)。Abbeel P等人使用强化学习方法对无人机进行控制，利用强化学习算法对直升机飞行的实验数据进行学习训练，最终实现无人直升机的自主飞行和特技飞行(期刊：The International Journal of Robotics Research；著者：Abbeel P,Coates A,Ng A Y；出版年月：2010；文章题目：Autonomous Helicopter Aerobatics throughApprenticeship Learning；页码：1608-1639)。

发明内容

为克服现有技术的不足，本发明旨在提出一种基于强化学习的自适应控制方法，实现在小型直升机具有系统参数不确定性和外界扰动的情况下，仍能保持飞行姿态稳定。为此，本发明采用的技术方案是，小型无人直升机的强化学习自适应控制方法，以强化学习自适应控制算法为基础，结合评价网执行网体系结构，用于小型无直升人机的姿态系统控制中，包括以下步骤：

步骤1)确定小型无人直升机的坐标系定义；

小型无人直升机坐标系定义主要涉及两个坐标系，惯性坐标系{I}＝{O_I,x_I,y_I,z_I}和机体坐标系{B}＝{O_B,x_B,y_B,z_B}，其中O_i(i＝I,B)表示坐标系原点，x_i,y_i,z_i(i＝I,B)分别对应坐标系三个主轴方向的单位矢量，各坐标系的定义均遵循右手定则，同时定义直升机姿态角在坐标系{I}下表示为η＝[φ,θ,ψ]^T,φ,θ,ψ分别对应滚转角、俯仰角和偏航角，目标轨迹姿态角在坐标系{I}下表示为η_d＝[φ_d,θ_d,ψ_d]^T,φ_d,θ_d,ψ_d分别对应目标旋转角、目标俯仰角和目标偏航角；

步骤2)确定小型无人直升机姿态动力学模型；

通过分析小型无人直升机作用原理，用拉格朗日方程来描述其姿态动力学模型为：

其中M(η)代表惯性矩阵，C(η,η)代表科氏力矩阵，G(η)为重力力矩向量，d代表未知扰动向量，S代表角速度变换矩阵，A,B代表旋翼动力学相关矩阵，D代表旋翼挥舞角动力学相关矩阵，δ(t)＝[δ_lat(t)δ_lon(t)δ_ped(t)]^T代表控制输入，δ_lat(t)代表横向周期变距，δ_lon(t)代表纵向周期变距，δ_ped(t)代表尾桨总距，角速度变换矩阵S表示为：

步骤3)定义姿态角跟踪误差并整理动力学误差模型；

定义系统姿态跟踪误差e₁及其滤波误差e₂为：

其中λ＝[λ₁,λ₂,λ₃]^T为正常数阵，引入辅助矩阵Ω＝S^-TAD，输入转矩量τ^I＝Ωδ(t)，定义性能指标函数为：

其中，Q,R为正定矩阵，需要保证系统的性能指标函数最优，定义哈密尔顿函数为如下形式：

引入评价网来近似性能指标函数J(e₁)：

其中，为权重向量，为径向基函数，设计权重更新律为：

其中，a₁为评价网络的自适应增益，为辅助变量。

对e₂求一阶时间导数，并将式(1)代入整理，得到滤波误差的开环动态方程为：

其中，辅助函数定义为：

步骤4)控制律设计；

引入执行网络来逼近系统不确定函数N(x)，表示为：

其中，为权重向量，为径向基函数，设计权重更新律为：

其中，a₂为执行网络的自适应增益；

根据以上分析，设计设计控制输入δ(t)为：

其中k_r,Γ,k_v,β均为正常数阵，sgn(·)为标准符号函数；

以上述控制律进行小型无人直升机的姿态控制。

本发明的特点及有益效果是：

1.本发明采用基于强化学习的系统不确定性补偿方法，减少了无人直升机未建模动态和模型不确定参数对系统控制性能的影响；

2.本发明易于实现，可满足大部分飞行情况的需求。

3.本发明使用了滑模鲁棒项，缩短了算法学习时间，同时提高了控制律对外界扰动的鲁棒性。

附图说明：

图1是本发明控制系统结构图；

图2是本发明所采用的实验平台；

图3是姿态跟踪实验时无人直升机的姿态角曲线图；

图4是姿态跟踪实验时无人直升机的控制输入曲线图；

图5是姿态跟踪实验时无人直升机的偏航角及跟踪误差曲线图；

图6是姿态跟踪实验时无人直升机的评价网权值范数曲线图；

图7是姿态跟踪实验时无人直升机的执行网权值范数曲线图。

具体实施方式

本发明采用的技术方案是，以强化学习自适应控制算法为基础，结合评价网执行网体系结构，用于小型无直升人机的姿态系统控制中，包括以下步骤：

步骤1)确定小型无人直升机的坐标系定义；

步骤2)确定小型无人直升机姿态动力学模型；

其中M(η)代表惯性矩阵，代表科氏力矩阵，G(η)为重力力矩向量，d代表未知扰动向量，S代表角速度变换矩阵，A,B代表旋翼动力学相关矩阵，D代表旋翼挥舞角动力学相关矩阵，δ(t)＝[δ_lat(t)δ_lon(t)δ_ped(t)]^T代表控制输入，δ_lat(t)代表横向周期变距，δ_lo_n(t)代表纵向周期变距，δ_ped(t)代表尾桨总距，角速度变换矩阵S表示为：

步骤3)定义姿态角跟踪误差并整理动力学误差模型；

定义系统姿态跟踪误差e₁及其滤波误差e₂为：

引入评价网来近似性能指标函数J(e₁)：

其中，为权重向量，为径向基函数，设计权重更新律为：

其中，a₁为评价网络的自适应增益，为辅助变量。

其中，辅助函数定义为：

步骤4)控制律设计；

引入执行网络来逼近系统不确定函数N(x)，表示为：

其中，为权重向量，为径向基函数，设计权重更新律为：

其中，a₂为执行网络的自适应增益。

根据以上分析，设计设计控制输入δ(t)为：

其中k_r,Γ,k_v,β均为正常数阵，sgn(·)为标准符号函数；

以上述控制律进行小型无人直升机的姿态控制。

下面结合实施例和附图对本发明做出详细说明。

本发明旨在提供一种基于强化学习的自适应控制方法，实现在小型直升机具有系统参数不确定性和外界扰动的情况下，仍能保持飞行姿态稳定。

本发明的小型无人直升机强化学习自适应控制采用的技术方案是，以强化学习自适应控制算法为基础，结合评价网执行网体系结构，用于小型无直升人机的姿态系统控制中，包括以下步骤：

步骤1)确定小型无人直升机的坐标系定义；

步骤2)确定小型无人直升机姿态动力学模型；

其中M(η)代表惯性矩阵，代表科氏力矩阵，G(η)为重力力矩向量，d代表未知扰动向量，S代表角速度变换矩阵，A,B代表旋翼动力学相关矩阵，D代表旋翼挥舞角动力学相关矩阵，δ(t)＝[δ_lat(t)δ_lon(t)δ_ped(t)]^T代表控制输入，δ_lat(t)代表横向周期变距，δ_lon(t)代表纵向周期变距，δ_ped(t)代表尾桨总距，角速度变换矩阵S表示为：

步骤3)定义姿态角跟踪误差并整理动力学误差模型；

定义系统姿态跟踪误差e₁及其滤波误差e₂为：

引入评价网来近似性能指标函数J(e₁)：

其中，为权重向量，为径向基函数，设计权重更新律为：

其中，a₁为评价网络的自适应增益，为辅助变量。

其中，辅助函数定义为：

步骤4)控制律设计；

引入执行网络来逼近系统不确定函数N(x)，表示为：

其中，为权重向量，为径向基函数，设计权重更新律为：

其中，a₂为执行网络的自适应增益。

根据以上分析，设计设计控制输入δ(t)为：

其中k_r,Γ,k_v,β均为正常数阵，sgn(·)为标准符号函数；

以上述控制律进行小型无人直升机的姿态控制。

控制结构框图如图1所示。

下面给出具体的实例：

一、半实物仿真平台介绍

为验证本文设计控制律的有效性，使用本研究组设计开发的无人直升机飞行实验平台，进行了实时镇定飞行实验。实验平台如图2所示，该实验平台以基于MATLAB-RTW工具箱的xPC作为实时仿真环境，采用自主设计的以ARM Cortex-M3为内核的惯性导航单元作为传感器，该机载传感器最高更新频率为500Hz，可提供三轴角速度及三轴姿态角信息，其中滚转角和俯仰角测量精度为±0.2°,偏航角的测量精度为±0.5°。

二、姿态跟踪飞行实验

为了验证本发明中控制器的有效性及实用性，利用本研究组自主设计开发的无人直升机姿态飞行实验平台，进行了实时的偏航跟踪飞行实验。设置参考轨迹为：

控制律中各参数确定为：k_r＝diag{[1.5,1.5,1.2]^T}，λ＝diag{[0.57,0.56,0.54]^T}，Γ＝diag{[0.02,0.002,0.003]^T}，k_v＝diag{[2.4,2.2,0.5]^T}，β＝diag{[2.4,2.2,0.5]^T}。评价网和执行网参数确定为a₁＝diag{[0.03,0.04,0.04]^T}，a₂＝diag{[0.03,0.04,0.01]^T}，k_l＝diag{[0.54,0.56,0.9]^T}。

姿态跟踪控制实验情况如图3到图7所示，强化学习自适应控制取得了较好的控制效果。通过图3可知，在偏航跟踪实验中，滚转和俯仰角的控制误差保持在±2°以内，偏航角控制误差保持在±2.2°以内。图4是正则化后的控制输入变化曲线，图6和图7分别为评价网和执行网权重范数收敛曲线，均保持在合理的范围内，验证了本文所设计控制器的合理性。

Claims

1.一种小型无人直升机的强化学习自适应控制方法，其特征是，以强化学习自适应控制算法为基础，结合评价网执行网体系结构，用于小型无直升人机的姿态系统控制中，包括以下步骤：

步骤1)确定小型无人直升机的坐标系定义；

步骤2)确定小型无人直升机姿态动力学模型；

其中M(η)代表惯性矩阵，代表科氏力矩阵，G(η)为重力力矩向量，d代表未知扰动向量，S代表角速度变换矩阵，A,B代表旋翼动力学相关矩阵，D代表旋翼挥舞角动力学相关矩阵，δ(t)＝[δ_lat(t) δ_lon(t) δ_ped(t)]^T代表控制输入，δ_lat(t)代表横向周期变距，δ_lon(t)代表纵向周期变距，δ_ped(t)代表尾桨总距，角速度变换矩阵S表示为：

步骤3)定义姿态角跟踪误差并整理动力学误差模型；

定义系统姿态跟踪误差e₁及其滤波误差e₂为：

e₁＝η-η_d

引入评价网来近似性能指标函数J(e₁)：

其中，为权重向量，为径向基函数，设计权重更新律为：

其中，a₁为评价网络的自适应增益，为辅助变量。

其中，辅助函数定义为：

步骤4)控制律设计；

引入执行网络来逼近系统不确定函数N(x)，表示为：

其中，为权重向量，为径向基函数，设计权重更新律为：

其中，a₂为执行网络的自适应增益；

根据以上分析，设计设计控制输入δ(t)为：

其中k_r,Γ,k_v,β均为正常数阵，sgn(·)为标准符号函数；

以上述控制律进行小型无人直升机的姿态控制。