CN110908281A - 无人直升机姿态运动有限时间收敛强化学习控制方法 - Google Patents

无人直升机姿态运动有限时间收敛强化学习控制方法 Download PDF

Info

Publication number
CN110908281A
CN110908281A CN201911197465.XA CN201911197465A CN110908281A CN 110908281 A CN110908281 A CN 110908281A CN 201911197465 A CN201911197465 A CN 201911197465A CN 110908281 A CN110908281 A CN 110908281A
Authority
CN
China
Prior art keywords
control
formula
network
matrix
attitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911197465.XA
Other languages
English (en)
Inventor
鲜斌
林嘉裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911197465.XA priority Critical patent/CN110908281A/zh
Publication of CN110908281A publication Critical patent/CN110908281A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于小型无人直升机飞行控制研究领域,为针对具有建模不确定性和未知外界扰动的小型无人直升机飞行控制问题,设计一种非线性鲁棒控制器,同时设计一种基于执行网‑评价网结构的强化学习控制器来补偿建模不确定性,实现小型无人直升机飞行姿态稳定控制。本发明采用的技术方案是,无人直升机姿态运动有限时间收敛强化学习控制方法,步骤如下:步骤1)确定无人直升机的坐标系定义;步骤2)确定无人直升机姿态动力学模型;步骤3)定义姿态角跟踪误差和系统性能指标函数;步骤4)设计评价网络;步骤5)设计执行网络;步骤6)控制律设计。本发明主要应用于小型无人直升机飞行控制。

Description

无人直升机姿态运动有限时间收敛强化学习控制方法
技术领域
本发明属于小型无人直升机飞行控制研究领域。针对小型无人直升机精确建模以及抵抗未知外界风扰的需求,设计一套基于强化学习与鲁棒控制相结合的非线性控制算法。
背景技术
近年来,小型无人直升机凭借垂直起降能力、空中悬停能力以及具有灵活飞行的特点被视为工业级无人机的重要发展方向。然而,直升机具有非线性、强动态耦合以及其生成推力的空气动力学特性存在的参数和模型不确定性,难以建立精确的动力学模型,使得其控制设计极具挑战性。
线性控制算法是工程上常用的无人直升机控制方法,如PID控制、线性二次型调节器(Linear Quadratic Regulator,LQR)以及H∞控制等。然而,线性控制方法大多基于线性化模型来设计,只能稳定于平衡点附近,且处理系统模型不确定性的能力有限。由此,研究人员开展了大量非线性控制算法的研究。南开大学方勇纯等人通过设计自适应反步控制器实现了无人直升机的姿态和高度控制(期刊:控制理论与应用;著者:孙秀云,方勇纯,孙宁;出版年月:2012;文章题目:小型无人直升机的姿态与高度自适应反步控制;页码:381-388)。滑模控制作为一种鲁棒控制算法常用于抑制系统外部扰动,但该方法设计控制律时包含符号函数,会使系统产生抖振现象。而super twisting控制由于具备有限时间收敛的特性,且因其切换控制部分隐藏在滑模变量的导数中,能够抑制抖振现象,经常被应用于无人直升机的控制设计中。
针对直升机难以获取精确动力学模型的问题,强化学习等智能控制方法得到了广泛应用。斯坦福大学Andrew Ng基于PEGASUS(Policy Evaluation-of-Goodness AndSearch Using Scenarios)的强化学习策略搜索算法,通过飞行数据不断塑造和修正回报函数来优化策略,最终学习到一个随机的直升机非线性动态模型,并基于学到的模型,实现了小型无人直升机倒飞、倒立悬停、翻滚等高难度特技飞行动作(会议:Proceedings ofthe Sixteenth conference on Uncertainty in artificial intelligence;著者:Ng AY,Jordan M;出版年月:2000;文章题目:PEGASUS:A policy search method for largeMDPs and POMDPs;页码:406-415)。苏黎世联邦理工学院Jemin Hwangbo等人基于确定性策略搜索的强化学习方法,使用零偏差、零方差样本离线训练两个神经网络,实现四旋翼无人机的自主悬停控制,但以上方法缺乏严格的稳定性证明。强化学习只需模型较少的先验信息或不需要模型先验信息,因而受到控制领域众多学者的关注,强化学习强调智能体在与环境的交互过程中在线地进行学习,通过每次动作后环境的回报来修正自身行动策略,从而实现最优化决策。众所周知,动态规划(Dynamic Programming,DP)是解决最优控制问题的有效方法。但此方法常用于离线训练,并且在系统复杂时容易引发“维数灾难”的问题。为应用DP方法,研究人员提出了基于AC结构的自适应动态规划(Adaptive DynamicProgramming,ADP)方法,以在线获得系统的近似最优控制策略。然而对于实际系统,外界干扰总是存在的,单纯的使用ADP方法很难克服外界扰动的影响。因此,上述考虑因素促使智能控制与非线性控制的相结合。密苏里科技大学David Nodland等人采取了神经网络与反步法相结合的方法,通过仿真验证了所提出的轨迹跟踪控制设计的有效性。
关于小型无人直升机的控制,非线性控制算法在一定程度上改进了无人直升机的飞行控制性能,但仍存在一些局限性:1)多数非线性控制算法很少考虑建模不确定性对系统带来的影响;2)一些已有的控制设计只进行了数值仿真,而没有进行实验验证,实际应用可能面临挑战;3)单纯的智能控制算法一般难以克服外界扰动的影响,且多数缺乏严格的稳定性证明。特别的是,很少有研究成果能从理论上证明无人直升机的姿态跟踪误差能在有限时间内收敛到零。
发明内容
为克服现有技术的不足,本发明旨在针对具有建模不确定性和未知外界扰动的小型无人直升机飞行控制问题,设计一种非线性鲁棒控制器,同时设计一种基于执行网-评价网结构的强化学习控制器来补偿建模不确定性,实现小型无人直升机飞行姿态稳定控制。本发明采用的技术方案是,无人直升机姿态运动有限时间收敛强化学习控制方法,步骤如下:
步骤1)确定无人直升机的坐标系定义;
无人直升机坐标系定义主要涉及两个坐标系,惯性坐标系{I}={OI,xI,yI,zI}和机体坐标系{B}={OB,xB,yB,zB},其中Oi(i=I,B)表示坐标系原点,xi、yi、zi(i=I,B)分别对应坐标系三个主轴方向的单位矢量,各坐标系的定义均遵循右手定则,同时定义直升机姿态角在坐标系{I}下表示为η(t)=[φ(t),θ(t),ψ(t)]T,φ(t)、θ(t)、ψ(t)分别对应滚转角、俯仰角和偏航角,目标轨迹姿态角在坐标系{I}下表示为ηd(t)=[φd(t),θd(t),ψd(t)]T,φd(t)、θd(t)、ψd(t)分别对应目标旋转角、目标俯仰角和目标偏航角;
步骤2)确定无人直升机姿态动力学模型;
通过分析小型无人直升机作用原理,用拉格朗日方程来描述其姿态动力学模型为:
Figure BDA0002295029760000021
式(1)中M(η(t))代表惯性矩阵,
Figure BDA0002295029760000022
代表科氏力矩阵,τd代表未知扰动向量,S(t)代表角速度变换矩阵,A、B代表旋翼动力学相关矩阵,D代表旋翼挥舞角动力学相关矩阵,δ(t)=[δlat(t),δlon(t),δped(t)]T代表控制输入,δlat(t)代表横向周期变距,δlon(t)代表纵向周期变距,δped(t)代表尾桨总距,角速度变换矩阵S(t)表示为:
Figure BDA0002295029760000023
为解决模型中的不确定性问题,将M(η(t))、
Figure BDA0002295029760000024
B分别写为:
Figure BDA0002295029760000025
式(3)中M0(η(t))、
Figure BDA0002295029760000031
B0分别为M(η(t))、
Figure BDA0002295029760000032
B的最佳估计矩阵,MΔ(η(t))、
Figure BDA0002295029760000033
BΔ为估计误差矩阵。为方便后续控制设计与分析,定义辅助函数Ω(t)=S(t)-TAD,可将式(1)表示为:
Figure BDA0002295029760000034
式(4)中
Figure BDA0002295029760000035
表示模型中存在的不确定性。
步骤3)定义姿态角跟踪误差和系统性能指标函数;
定义系统姿态跟踪误差e1(t)及其线性滑模面e2(t)为:
Figure BDA0002295029760000036
式(5)中,k=diag{[k1,k2,k3]T}为对称正定增益矩阵。
为方便后续控制设计,定义如下状态值函数J(e1(t))作为性能指标函数。
Figure BDA0002295029760000037
式(6)中,
Figure BDA0002295029760000038
为执行控制力矩τ后产生的回报函数,τ=Ω(t)-1δ(t),Q,R为正定对称常数矩阵。根据最优控制理论,定义哈密尔顿函数为如下形式:
Figure BDA0002295029760000039
步骤4)设计评价网络;
定义最优控制策略τ*对应的最优状态值函数J*(e1(t))为:
Figure BDA00022950297600000310
利用如下神经网络来表示最优状态值函数J*(e1(t)):
Figure BDA00022950297600000311
式(9)中,Wc(t)为评价网络理想权重矩阵,
Figure BDA00022950297600000312
选取双曲正切函数tanh(·)作为神经网络的激励函数,εc为评价网络逼近误差。
为实现对最优状态值函数的逼近,设计如下评价网络:
Figure BDA00022950297600000313
式(10)中,
Figure BDA00022950297600000314
是对理想权重Wc(t)的估计,设计权重更新律为:
Figure BDA00022950297600000315
其中,ac为评价网络的调节增益,
Figure BDA00022950297600000316
为辅助变量,r为回报函数。
步骤5)设计执行网络;
对e2(t)求一阶时间导数,并将式(4)代入整理,得到滤波误差的开环动态方程为:
Figure BDA0002295029760000041
式(12)中,
Figure BDA0002295029760000042
为状态变量,辅助函数N(x)为模型不确定部分,表达式为:
Figure BDA0002295029760000043
利用如下神经网络来表示N(x):
Figure BDA0002295029760000044
式(14)中,Wa(t)为执行网络理想权重矩阵,
Figure BDA0002295029760000045
选取双曲正切函数tanh(·)作为神经网络的激励函数,εa为执行网络逼近误差。
设计执行网络
Figure BDA0002295029760000046
来逼近不确定部分N(x),表示为:
Figure BDA0002295029760000047
式(15)中,
Figure BDA0002295029760000048
是对理想权重Wa(t)的估计,设计权重更新律为:
Figure BDA0002295029760000049
其中,aa为执行网络的调节增益,kz为网络增益参数;
步骤6)控制律设计;
根据以上分析,设计系统的控制输入δ(t)为:
Figure BDA00022950297600000410
式(17)中α=diag{[αφθψ]T}、β=diag{[βφθψ]T}为super twisting控制增益矩阵,sgn(·)为标准符号函数。
以上述控制律进行小型无人直升机的姿态控制,并且姿态跟踪误差能在有限时间收敛,收敛时间TF的表达式为
Figure BDA00022950297600000411
式(18)中P、Qs为稳定性分析过程中的对称正定矩阵,λmax(P)为矩阵P的最大特征值,λmin(Qs)为矩阵Qs的最小特征值,kv、μ、ρ、θ为正常数,V(·)为稳定性分析中定义的Lyapunov候选函数,t0为系统初始状态时刻。
本发明的特点及有益效果是:
1.本发明基于强化学习对系统模型不确定性进行补偿,减少了无人直升机模型不确定性对系统控制性能的影响;
2.本发明理论上将强化学习与非线性鲁棒控制方法相结合,提高了系统鲁棒性,并通过基于Lyapunov的稳定性分析方法证明了无人直升机姿态跟踪误差能在有限时间内收敛到零;
3.本发明将算法成功应用于无人直升机半实物平台,并进行实时实验,验证了所设计算法的可行性。
附图说明:
图1是本发明控制系统结构图;
图2是本发明所采用的实验平台;
图3是姿态镇定抗扰实验时无人直升机的姿态角曲线图;
图4是姿态镇定抗扰实验时无人直升机执行网络权重更新曲线图;
图5是姿态镇定抗扰实验时无人直升机评价网络权重更新曲线图;
图6是姿态镇定抗扰实验时无人直升机的控制输入曲线图。
具体实施方式
本发明旨在针对具有建模不确定性和未知外界扰动的小型无人直升机飞行控制问题,设计一种非线性鲁棒控制器,同时设计一种基于执行网-评价网结构的强化学习控制器来补偿建模不确定性,实现小型无人直升机飞行姿态稳定控制。本发明采用的技术方案是,小型无人直升机的强化学习鲁棒控制方法,步骤如下:
步骤1)确定小型无人直升机的坐标系定义;
小型无人直升机坐标系定义主要涉及两个坐标系,惯性坐标系{I}={OI,xI,yI,zI}和机体坐标系{B}={OB,xB,yB,zB},其中Oi(i=I,B)表示坐标系原点,xi,yi,zi(i=I,B)分别对应坐标系三个主轴方向的单位矢量,各坐标系的定义均遵循右手定则,同时定义直升机姿态角在坐标系{I}下表示为η(t)=[φ(t),θ(t),ψ(t)]T,φ(t),θ(t),ψ(t)分别对应滚转角、俯仰角和偏航角,目标轨迹姿态角在坐标系{I}下表示为ηd(t)=[φd(t),θd(t),ψd(t)]T,φd(t),θd(t),ψd(t)分别对应目标旋转角、目标俯仰角和目标偏航角;
步骤2)确定小型无人直升机姿态动力学模型;
通过分析小型无人直升机作用原理,用拉格朗日方程来描述其姿态动力学模型为:
Figure BDA0002295029760000051
式(1)中M(η(t))代表惯性矩阵,
Figure BDA0002295029760000052
代表科氏力矩阵,τd代表未知扰动向量,S(t)代表角速度变换矩阵,A、B代表旋翼动力学相关矩阵,D代表旋翼挥舞角动力学相关矩阵,δ(t)=[δlat(t),δlon(t),δped(t)]T代表控制输入,δlat(t)代表横向周期变距,δlon(t)代表纵向周期变距,δped(t)代表尾桨总距,角速度变换矩阵S(t)表示为:
Figure BDA0002295029760000053
为解决模型中的不确定性问题,将M(η(t))、
Figure BDA0002295029760000054
B分别写为:
Figure BDA0002295029760000055
式(3)中M0(η(t))、
Figure BDA0002295029760000061
B0分别为M(η(t))、
Figure BDA0002295029760000062
B的最佳估计矩阵,MΔ(η(t))、
Figure BDA0002295029760000063
BΔ为估计误差矩阵。为方便后续控制设计与分析,定义辅助函数Ω(t)=S(t)-TAD,可将式(1)表示为:
Figure BDA0002295029760000064
式(4)中
Figure BDA0002295029760000065
表示模型中存在的不确定性。
步骤3)定义姿态角跟踪误差和系统性能指标函数;
定义系统姿态跟踪误差e1(t)及其线性滑模面e2(t)为:
Figure BDA0002295029760000066
式(5)中,k=diag{[k1,k2,k3]T}为对称正定增益矩阵。
为方便后续控制设计,定义如下状态值函数J(e1(t))作为性能指标函数。
Figure BDA0002295029760000067
式(6)中,
Figure BDA0002295029760000068
为执行控制力矩τ后产生的回报函数,τ=Ω(t)-1δ(t),Q,R为正定对称常数矩阵。根据最优控制理论,定义哈密尔顿函数为如下形式:
Figure BDA0002295029760000069
步骤4)设计评价网络;
定义最优控制策略τ*对应的最优状态值函数J*(e1(t))为:
Figure BDA00022950297600000610
利用如下神经网络来表示最优状态值函数J*(e1(t)):
Figure BDA00022950297600000611
式(9)中,Wc(t)为评价网络理想权重矩阵,
Figure BDA00022950297600000612
选取双曲正切函数tanh(·)作为神经网络的激励函数,εc为评价网络逼近误差。
为实现对最优状态值函数的逼近,设计如下评价网络:
Figure BDA00022950297600000613
式(10)中,
Figure BDA00022950297600000614
是对理想权重Wc(t)的估计,设计权重更新律为:
Figure BDA00022950297600000615
其中,ac为评价网络的调节增益,
Figure BDA00022950297600000616
为辅助变量,r为回报函数。
步骤5)设计执行网络;
对e2(t)求一阶时间导数,并将式(4)代入整理,得到滤波误差的开环动态方程为:
Figure BDA0002295029760000071
式(12)中,
Figure BDA0002295029760000072
为状态变量,辅助函数N(x)为模型不确定部分,表达式为:
Figure BDA0002295029760000073
利用如下神经网络来表示N(x):
Figure BDA0002295029760000074
式(14)中,Wa(t)为执行网络理想权重矩阵,
Figure BDA0002295029760000075
选取双曲正切函数tanh(·)作为神经网络的激励函数,εa为执行网络逼近误差。
设计执行网络
Figure BDA0002295029760000076
来逼近不确定部分N(x),表示为:
Figure BDA0002295029760000077
式(15)中,
Figure BDA0002295029760000078
是对理想权重Wa(t)的估计,设计权重更新律为:
Figure BDA0002295029760000079
其中,aa为执行网络的调节增益,kz为网络增益参数。
步骤6)控制律设计;
根据以上分析,设计系统的控制输入δ(t)为:
Figure BDA00022950297600000710
式(17)中α=diag{[αφθψ]T}、β=diag{[βφθψ]T}为super twisting控制增益矩阵,sgn(·)为标准符号函数。
以上述控制律进行小型无人直升机的姿态控制,并且姿态跟踪误差能在有限时间收敛,收敛时间TF的表达式为
Figure BDA00022950297600000711
式(18)中P、Qs为稳定性分析过程中的对称正定矩阵,λmax(P)为矩阵P的最大特征值,λmin(Qs)为矩阵Qs的最小特征值,kv、μ、ρ、θ为正常数,V(·)为稳定性分析中定义的Lyapunov候选函数,t0为系统初始状态时刻。
评价网络确实是依据飞行状态以及系统的输出对执行网络执行效果进行评价,进而更新评价网络的权重。执行网络则会利用到评价网络传递过来的权重更新网络权重,执行网络的结果作为对系统不确定性的补偿,相当于起了一部分控制作用。对于抵抗未知外界风扰,主要是通过super twisting这一鲁棒控制算法进行抑制,同时考虑到强化学习的估计误差,super twisting也能起到一定的补偿作用。因此,通过强化学习算法与supertwisting算法的结合,实现对无人机的控制。
下面结合实施例和附图对本发明做出详细说明。
一、半实物仿真平台介绍
为验证本文设计控制律的有效性,使用本研究组设计开发的无人直升机飞行实验平台,进行了实时镇定抗扰飞行实验。实验平台如图2所示,该实验平台以基于MATLAB-RTW工具箱的xPC作为实时仿真环境,采用自主设计的以ARM Cortex-M3为内核的惯性导航单元作为传感器,该机载传感器最高更新频率为500Hz,可提供三轴角速度及三轴姿态角信息,其中滚转角和俯仰角测量精度为±0.2°,偏航角的测量精度为±0.5°。
二、姿态镇定抗扰飞行实验
实验持续时间约160秒,实验开始先手动操作飞行,约18秒切换自动飞行模式,无人机根据期望轨迹ηd(t)=[0 0 0]T镇定飞行。在90秒后,加入持续定向风扰,无人机进行抗扰飞行。实验结果如图3~6所示。
控制律中各参数选取为:k=diag{[220,240,12]T},α=diag{[75,75,1.5]T},β=diag{[2.4,2.2,0.5]T}。评价网和执行网权重初值设置为0.01,参数选取为aa=diag{[1.2,1.2,0.012]T},ac=diag{[1.5,1.5,0.015]T},kz=diag{[0.1,0.1,0.1]T}。
由图2可以看出,基于强化学习的鲁棒控制器取得了良好的控制效果。镇定过程中滚转角和偏航角精度控制在±2.1°以内,俯仰角精度控制在±1.2°以内。风扰状态下滚转角和俯仰角精度控制在±3°以内,偏航角精度控制在±2.1°以内,可见该算法对风扰有较好的鲁棒性。由图3、图4的执行-评价网络权重更新曲线可以看出,评价网络与执行网络权重收敛,由此验证了执行-评价网络权重估计误差的一致最终有界性。为分析强化学习所产生的控制作用,分别画出强化学习部分的控制输入以及总控制输入曲线如图5所示。由图5可知,直升机刚进入自动模式时,状态还未稳定,此时强化学习作用较为明显,达到约40%的控制占比。进入稳态后,强化学习控制占比逐渐降低,约占2%。加入风扰后,由于状态受干扰,强化学习控制占比提高,约占10%。由此验证了强化学习控制律对模型不确定性估计的有效性。

Claims (1)

1.一种无人直升机姿态运动有限时间收敛强化学习控制方法,其特征是,步骤如下:
步骤1)确定无人直升机的坐标系定义;
小型无人直升机坐标系定义涉及两个坐标系,惯性坐标系{I}={OI,xI,yI,zI}和机体坐标系{B}={OB,xB,yB,zB},其中Oi(i=I,B)表示坐标系原点,xi、yi、zi(i=I,B)分别对应坐标系三个主轴方向的单位矢量,各坐标系的定义均遵循右手定则,同时定义直升机姿态角在坐标系{I}下表示为η(t)=[φ(t),θ(t),ψ(t)]T,φ(t)、θ(t)、ψ(t)分别对应滚转角、俯仰角和偏航角,目标轨迹姿态角在坐标系{I}下表示为ηd(t)=[φd(t),θd(t),ψd(t)]T,φd(t)、θd(t)、ψd(t)分别对应目标旋转角、目标俯仰角和目标偏航角;
步骤2)确定无人直升机姿态动力学模型;
通过分析小型无人直升机作用原理,用拉格朗日方程来描述其姿态动力学模型为:
Figure FDA0002295029750000011
式(1)中M(η(t))代表惯性矩阵,
Figure FDA0002295029750000012
代表科氏力矩阵,τd代表未知扰动向量,S(t)代表角速度变换矩阵,A、B代表旋翼动力学相关矩阵,D代表旋翼挥舞角动力学相关矩阵,δ(t)=[δlat(t),δlon(t),δped(t)]T代表控制输入,δlat(t)代表横向周期变距,δlon(t)代表纵向周期变距,δped(t)代表尾桨总距,角速度变换矩阵S(t)表示为:
Figure FDA0002295029750000013
为解决模型中的不确定性问题,将M(η(t))、
Figure FDA0002295029750000014
B分别写为:
Figure FDA0002295029750000015
式(3)中M0(η(t))、
Figure FDA0002295029750000016
B0分别为M(η(t))、
Figure FDA0002295029750000017
B的最佳估计矩阵,MΔ(η(t))、
Figure FDA0002295029750000018
BΔ为估计误差矩阵,为方便后续控制设计与分析,定义辅助函数Ω(t)=S(t)-TAD,将式(1)表示为:
Figure FDA0002295029750000019
式(4)中
Figure FDA00022950297500000110
表示模型中存在的不确定性;
步骤3)定义姿态角跟踪误差和系统性能指标函数;
定义系统姿态跟踪误差e1(t)及其线性滑模面e2(t)为:
Figure FDA0002295029750000021
式(5)中,k=diag{[k1,k2,k3]T}为对称正定增益矩阵;
为方便后续控制设计,定义如下状态值函数J(e1(t))作为性能指标函数;
Figure FDA0002295029750000022
式(6)中,
Figure FDA0002295029750000023
为执行控制力矩τ后产生的回报函数,τ=Ω(t)-1δ(t),Q,R为正定对称常数矩阵,根据最优控制理论,定义哈密尔顿函数为如下形式:
Figure FDA0002295029750000024
步骤4)设计评价网络;
定义最优控制策略τ*对应的最优状态值函数J*(e1(t))为:
Figure FDA0002295029750000025
利用如下神经网络来表示最优状态值函数J*(e1(t)):
Figure FDA0002295029750000026
式(9)中,Wc(t)为评价网络理想权重矩阵,
Figure FDA0002295029750000027
选取双曲正切函数tanh(·)作为神经网络的激励函数,εc为评价网络逼近误差;
为实现对最优状态值函数的逼近,设计如下评价网络:
Figure FDA0002295029750000028
式(10)中,
Figure FDA0002295029750000029
是对理想权重Wc(t)的估计,设计权重更新律为:
Figure FDA00022950297500000210
其中,ac为评价网络的调节增益,
Figure FDA00022950297500000211
为辅助变量,r为回报函数;
步骤5)设计执行网络;
对e2(t)求一阶时间导数,并将式(4)代入整理,得到滤波误差的开环动态方程为:
Figure FDA00022950297500000212
式(12)中,
Figure FDA00022950297500000213
为状态变量,辅助函数N(x)为模型不确定部分,表达式为:
Figure FDA00022950297500000214
利用如下神经网络来表示N(x):
Figure FDA0002295029750000031
式(14)中,Wa(t)为执行网络理想权重矩阵,
Figure FDA0002295029750000032
选取双曲正切函数tanh(·)作为神经网络的激励函数,εa为执行网络逼近误差;
设计执行网络
Figure FDA0002295029750000033
来逼近不确定部分N(x),表示为:
Figure FDA0002295029750000034
式(15)中,
Figure FDA0002295029750000035
是对理想权重Wa(t)的估计,设计权重更新律为:
Figure FDA0002295029750000036
其中,aa为执行网络的调节增益,kz为网络增益参数;
步骤6)控制律设计;
根据以上分析,设计系统的控制输入δ(t)为:
Figure FDA0002295029750000037
式(17)中α=diag{[αφθψ]T}、β=diag{[βφθψ]T}为super twisting控制增益矩阵,sgn(·)为标准符号函数;
以上述控制律进行小型无人直升机的姿态控制,并且姿态跟踪误差能在有限时间收敛,收敛时间TF的表达式为
Figure FDA0002295029750000038
式(18)中P、Qs为稳定性分析过程中的对称正定矩阵,λmax(P)为矩阵P的最大特征值,λmin(Qs)为矩阵Qs的最小特征值,kv、μ、ρ、
Figure FDA0002295029750000039
为正常数,V(·)为稳定性分析中定义的Lyapunov候选函数,t0为系统初始状态时刻。
CN201911197465.XA 2019-11-29 2019-11-29 无人直升机姿态运动有限时间收敛强化学习控制方法 Pending CN110908281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911197465.XA CN110908281A (zh) 2019-11-29 2019-11-29 无人直升机姿态运动有限时间收敛强化学习控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911197465.XA CN110908281A (zh) 2019-11-29 2019-11-29 无人直升机姿态运动有限时间收敛强化学习控制方法

Publications (1)

Publication Number Publication Date
CN110908281A true CN110908281A (zh) 2020-03-24

Family

ID=69820471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911197465.XA Pending CN110908281A (zh) 2019-11-29 2019-11-29 无人直升机姿态运动有限时间收敛强化学习控制方法

Country Status (1)

Country Link
CN (1) CN110908281A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708378A (zh) * 2020-06-22 2020-09-25 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法
CN111753464A (zh) * 2020-05-29 2020-10-09 中国科学技术大学 一种无人直升机模型在线学习方法及系统
CN112068594A (zh) * 2020-09-14 2020-12-11 江苏信息职业技术学院 一种基于jaya算法优化的小型无人直升机航向控制方法
CN112363519A (zh) * 2020-10-20 2021-02-12 天津大学 四旋翼无人机强化学习非线性姿态控制方法
CN112904726A (zh) * 2021-01-20 2021-06-04 哈尔滨工业大学 一种基于误差重构权重更新的神经网络反步控制方法
CN113359473A (zh) * 2021-07-06 2021-09-07 天津大学 基于迭代学习的微小型无人直升机非线性控制方法
CN113377121A (zh) * 2020-07-02 2021-09-10 北京航空航天大学 一种基于深度强化学习的飞行器智能抗扰动控制方法
CN113900440A (zh) * 2021-07-21 2022-01-07 中国电子科技集团公司电子科学研究院 一种无人机控制律设计方法、装置及可读存储介质
CN114063453A (zh) * 2021-10-26 2022-02-18 广州大学 基于强化学习的直升机系统控制方法、系统、装置及介质
CN114200830A (zh) * 2021-11-11 2022-03-18 辽宁石油化工大学 一种多智能体一致性强化学习控制方法
CN115629549A (zh) * 2022-12-21 2023-01-20 江苏云幕智造科技有限公司 一种根据输入饱和的l2增益鲁棒路径跟踪方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MORENO J A 等: "Strict Lyapunov functions for the super twisting algorithm", 《IEEE TRANSACTIONS ON AUTOMATIC CONTROL》 *
XIAN BIN 等: "Sliding mode tracking control for miniature unmanned helicopters", 《CHINESE JOURNAL OF AERONAUTICS》 *
安航 等: "无人直升机的姿态增强学习控制设计与验证", 《控制理论与应用》 *
潘晓龙 等: "小型无人直升机的无模型自适应鲁棒控制设计", 《控制理论与应用》 *
鲜斌 等: "基于强化学习的小型无人直升机有限时间收敛控制设计", 《道客巴巴》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753464A (zh) * 2020-05-29 2020-10-09 中国科学技术大学 一种无人直升机模型在线学习方法及系统
CN111753464B (zh) * 2020-05-29 2022-07-15 中国科学技术大学 一种无人直升机模型在线学习方法及系统
CN111708378A (zh) * 2020-06-22 2020-09-25 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法
CN111708378B (zh) * 2020-06-22 2023-01-03 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法
CN113377121B (zh) * 2020-07-02 2022-06-07 北京航空航天大学 一种基于深度强化学习的飞行器智能抗扰动控制方法
CN113377121A (zh) * 2020-07-02 2021-09-10 北京航空航天大学 一种基于深度强化学习的飞行器智能抗扰动控制方法
CN112068594A (zh) * 2020-09-14 2020-12-11 江苏信息职业技术学院 一种基于jaya算法优化的小型无人直升机航向控制方法
CN112068594B (zh) * 2020-09-14 2022-12-30 江苏信息职业技术学院 一种基于jaya算法优化的小型无人直升机航向控制方法
CN112363519A (zh) * 2020-10-20 2021-02-12 天津大学 四旋翼无人机强化学习非线性姿态控制方法
CN112363519B (zh) * 2020-10-20 2021-12-07 天津大学 四旋翼无人机强化学习非线性姿态控制方法
CN112904726A (zh) * 2021-01-20 2021-06-04 哈尔滨工业大学 一种基于误差重构权重更新的神经网络反步控制方法
CN112904726B (zh) * 2021-01-20 2022-11-18 哈尔滨工业大学 一种基于误差重构权重更新的神经网络反步控制方法
CN113359473A (zh) * 2021-07-06 2021-09-07 天津大学 基于迭代学习的微小型无人直升机非线性控制方法
CN113359473B (zh) * 2021-07-06 2022-03-11 天津大学 基于迭代学习的微小型无人直升机非线性控制方法
CN113900440A (zh) * 2021-07-21 2022-01-07 中国电子科技集团公司电子科学研究院 一种无人机控制律设计方法、装置及可读存储介质
CN113900440B (zh) * 2021-07-21 2023-03-14 中国电子科技集团公司电子科学研究院 一种无人机控制律设计方法、装置及可读存储介质
CN114063453A (zh) * 2021-10-26 2022-02-18 广州大学 基于强化学习的直升机系统控制方法、系统、装置及介质
CN114063453B (zh) * 2021-10-26 2023-04-25 广州大学 基于强化学习的直升机系统控制方法、系统、装置及介质
CN114200830A (zh) * 2021-11-11 2022-03-18 辽宁石油化工大学 一种多智能体一致性强化学习控制方法
CN114200830B (zh) * 2021-11-11 2023-09-22 辽宁石油化工大学 一种多智能体一致性强化学习控制方法
CN115629549A (zh) * 2022-12-21 2023-01-20 江苏云幕智造科技有限公司 一种根据输入饱和的l2增益鲁棒路径跟踪方法

Similar Documents

Publication Publication Date Title
CN110908281A (zh) 无人直升机姿态运动有限时间收敛强化学习控制方法
Cobb et al. Iterative learning-based path optimization for repetitive path planning, with application to 3-d crosswind flight of airborne wind energy systems
Islam et al. Robust control of four-rotor unmanned aerial vehicle with disturbance uncertainty
CN109696830B (zh) 小型无人直升机的强化学习自适应控制方法
Han et al. Online policy iteration ADP-based attitude-tracking control for hypersonic vehicles
CN105607473B (zh) 小型无人直升机的姿态误差快速收敛自适应控制方法
CN107357166B (zh) 小型无人直升机的无模型自适应鲁棒控制方法
Clarke et al. Deep reinforcement learning control for aerobatic maneuvering of agile fixed-wing aircraft
CN112363519B (zh) 四旋翼无人机强化学习非线性姿态控制方法
Muniraj et al. Path-following control of small fixed-wing unmanned aircraft systems with H∞ type performance
CN111650830A (zh) 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法
CN113759979B (zh) 基于事件驱动的无人机吊挂系统在线轨迹规划方法
CN111367182A (zh) 考虑输入受限的高超声速飞行器抗干扰反步控制方法
CN109683624A (zh) 用于小型无人直升机姿态控制的非线性鲁棒控制方法
Jiang et al. Enhanced LQR control for unmanned helicopter in hover
Mystkowski 721. An application of mu-synthesis for control of a small air vehicle and simulation results
CN114721266B (zh) 飞机舵面结构性缺失故障情况下的自适应重构控制方法
Suresh et al. An on-line learning neural controller for helicopters performing highly nonlinear maneuvers
Wu et al. Improved reinforcement learning using stability augmentation with application to quadrotor attitude control
Zhang et al. Reinforcement learning control for 6 DOF flight of fixed-wing aircraft
Toha et al. Dynamic nonlinear inverse-model based control of a twin rotor system using adaptive neuro-fuzzy inference system
Zhang et al. Extreme learning machine assisted adaptive control of a quadrotor helicopter
CN116088311A (zh) 基于自适应神经网络扩张状态观测器的无人直升机二阶不确定滑模控制方法
Meradi et al. A predictive sliding mode control for quadrotor’s tracking trajectory subject to wind gusts and uncertainties
CN116360258A (zh) 基于固定时间收敛的高超声速变形飞行器抗干扰控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200324