CN111625019A - 基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法 - Google Patents

基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法 Download PDF

Info

Publication number
CN111625019A
CN111625019A CN202010422067.XA CN202010422067A CN111625019A CN 111625019 A CN111625019 A CN 111625019A CN 202010422067 A CN202010422067 A CN 202010422067A CN 111625019 A CN111625019 A CN 111625019A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
rotor unmanned
track
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010422067.XA
Other languages
English (en)
Other versions
CN111625019B (zh
Inventor
鲜斌
韩晓薇
蔡佳明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010422067.XA priority Critical patent/CN111625019B/zh
Publication of CN111625019A publication Critical patent/CN111625019A/zh
Application granted granted Critical
Publication of CN111625019B publication Critical patent/CN111625019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法,首先通过构造性能指标评价函数,根据最优性原理将指标函数带入哈密顿‑雅可比‑贝尔曼(Hamilton‑Jacobi‑Bellman)方程,然后通过实时更新执行网络与评价网络的输出层权重,求出HJB方程的近似解,获得最优控制量。与现有技术相比,与现有技术相比,本发明能够有效抑制飞行环境未知扰动造成的影响,实现了无人机悬挂飞行系统的轨迹规划和位置精确控制。

Description

基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法
技术领域
本发明涉及四旋翼无人机悬挂空运系统,特别涉及一种四旋翼无人机悬挂空运系统的飞行轨迹规划方法。
背景技术
目前,四旋翼无人机悬挂空运系统的飞行轨迹规划方法根据轨迹设计生成的阶段分为离线轨迹规划和在线轨迹规划两大类。
针对离线轨迹规划,在无人机悬挂空运系统领域较为常用的方法包括基于微分平滑的轨迹规划方法与基于优化控制思想的轨迹规划方法。其中:基于微分平滑的轨迹规划方法利用原非线性系统的微分形式,将原系统的状态空间映射到低维的平滑输出空间中,是一种能够有效处理非线性欠驱动系统的方法。
国内有研究人员将四旋翼无人机悬挂空运系统分解为两个子系统,分别为无人机与悬挂负载双质点连接子系统、单独的无人机姿态子系统;然后,基于系统的微分平滑特性采用动态反馈的方法得到四旋翼无人机的运动轨迹。在《基于微分平滑的四旋翼运输系统轨迹跟踪控制》(2019年《控制理论与应用》,梁晓、胡欲立;第525-532页)有关于“使用动态规划算法来获取开环最小摆动轨迹”的记载。建立动力学模型时,研究人员将非线性悬挂负载的模型视为球面摆,在轨迹附近线性化得到一个线性时变模型,并通过设计自适应控制器来应对负载摆动对四旋翼无人机重心的影响。“IEEE International Conference onRobotics and Automation”会议上发表的《Trajectory generation for swing-freemaneuvers of a quadrotor with suspended payload:a dynamic programmingapproach》(Palunko Ivana,Fierro Rafael,Cruz Patricio,2012,2691页-2697页)。
另外还有一种基于时间最优运动规划(Time-Optimal Motion Planning)的离线轨迹规划方法,有效地提高了系统的运输效率。该方法在充分考虑系统非线性动力学和各种约束条件的同时,将增广系统转化为以加速度为控制输入的非线性仿射系统。经过离散逼近,采用高斯伪谱法将时间最优运动规划问题转化为一个标准的非线性规划问题。最后,采用序列二次规划方法进行求解。实验结果验证了该方法的有效性和可行性。《Dynamicsanalysis and time-optimal motion planning for unmanned quadrotortransportation systems》(Mechatronics,Xiao Liang,Yongchun Fang,Ning Sun,2018,16页-29页)。
针对四旋翼无人机悬挂空运系统的在线轨迹设计,国外有研究人员采用了一种强化学习方法实现了四旋翼无人机的轨迹生成,其设计主要基于实验前期在无障碍物环境下使用专门的特征向量值函数学习得到的最小残余震荡策略。“IEEE InternationalConference on Robotics andAutomation”会议上发表的《Learning swing-freetrajectories for UAVs with a suspended load》(Palunko Ivana,Faust Aleksandra,Cruz Patricio,Tapia Lydia,Feirro Rafael,2013,4902页-4909页)。国内研究人员提出了一种新型的在线轨迹规划方法。基于四旋翼无人机悬挂空运系统的动力学模型,研究人员在预先给定的定位轨迹的基础上,设计了减摆轨迹生成策略,并通过数值仿真和实际飞行实验验证期望轨迹的减摆效果。“Chinese Control Conferenc”会议上发表的《An anti-swing trajectory approach for an unmanned aerial vehicle with a slungpayload》(Shizhang Wang,Bin Xian,2017,777页-782页)。
基于以上研究现状可知,目前关于四旋翼无人机悬挂空运系统的轨迹规划方法仍具有很多不足,例如:1)一些离线轨迹规划方法需要收集大量的飞行实验数据并对系统的变量信息进行反复迭代训练,运算较为复杂;2)一些轨迹生成策略对模型精度要求较高且针对外界干扰的鲁棒性较差。3)部分四旋翼无人机悬挂空运系统在线轨迹规划方法应对未知扰动和不明确因素的抗干扰性能未能进行理论证明与实验验证,因此其实际应有效果仍有待检验。
发明内容
针对飞行环境存在未知扰动的情况,为实现四旋翼无人机安全高效地悬挂运输负载,本发明旨在提出一种基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法,基于强化学习实时更新无人机的运动以实现飞行过程对负载摆角的有效抑制,最终设计的期望轨迹主要包括抗扰轨迹和定位轨迹两个部分。
本发明的一种基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法,该方法具体包括以下步骤:
步骤1,建立四旋翼无人机悬挂空运系统的动力学模型,表达式如下:
Figure BDA0002497319060000031
其中,q(t)=[y(t),z(t),γ(t)]T∈R3表示系统状态向量,y(t),z(t)分别表示四旋翼无人机y,z方向的位移,γ(t)表示悬挂负载的摆角,
Figure BDA0002497319060000032
分别表示整个系统的惯性矩阵、向心力矩阵以及重力向量,d(t)=[d1(t),d2(t),dγ(t)]T∈R3表示飞行过程中四旋翼无人机悬挂空运系统所受到的未知外界扰动;d1(t),d2(t),dγ(t)表示未知外界扰动在y,z,γ三个方向的分量,R表示实数域;对式(1)进行展开,得到表达式如下:
Figure BDA0002497319060000033
其中,mq为四旋翼无人机质,mp为悬挂负载质量,l为悬绳长度,g为重力加速度,u(t)=[uy(t),uz(t)]T∈R2为四旋翼无人机随时间变化的升力向量,为控制输入。μy(t),μz(t)分别为四旋翼无人机总升力在y、z方向的分量。进而得到关于悬挂负载的摆角,表达式如下:
Figure BDA0002497319060000034
其中,dγ为悬挂负载在飞行过程中所受的未知外界扰动;
步骤2,进行飞行轨迹规划设计,将四旋翼无人机期望轨迹的加速度
Figure BDA0002497319060000041
分为以下两个部分:
步骤2-1、采用基于执行网-评价网形式的强化学习方法设计期望轨迹的抗扰轨迹:选取
Figure BDA0002497319060000042
作为等效状态向量,将式(3)整理为非线性仿射系统,具体形式如下:
Figure BDA0002497319060000043
其中,
Figure BDA0002497319060000044
Figure BDA0002497319060000045
Figure BDA0002497319060000046
为非线性仿射系统的等效输入;
构造如下所示的状态值函数J(η)作为系统的性能指标函数,表达式如下:
Figure BDA0002497319060000047
其中,Q,R为对称的正常数矩阵;
为实现在整个飞行过程中抑制负载的摆动,根据最优控制原理,针对式(5)需要实现最优的反馈控制状态,以及针对式(6)实现最小化性能指标函数,式(6)的无穷小形式满足如下非线性Lyapunov方程:
Figure BDA0002497319060000048
其中,
Figure BDA0002497319060000049
为式(6)中的J(η)对η求一阶偏导数;
定义哈密尔顿函数如下:
Figure BDA00024973190600000410
最优状态值函数J*(η)定义为:
Figure BDA00024973190600000411
则当输入为最优时,如下HJB方程成立
Figure BDA0002497319060000051
假定
Figure BDA0002497319060000052
存在且唯一,此时,最优输入μ*满足下式:
Figure BDA0002497319060000053
将该最优控制策略代入到式(7),得到关于
Figure BDA0002497319060000054
的HJB方程为
Figure BDA0002497319060000055
通过求解式(12)得到轨迹规划的最优生成策略,采用执行网-评价网网络结构实现最优轨迹的逼近,得到最优状态值函数J(η)表示如下:
Figure BDA0002497319060000056
其中,Wc为评价网理想权重矩阵,εc(η)为神经网络近似误差,
Figure BDA0002497319060000057
为等效状态向量,σ(η)为激励函数,选取双曲正切函数tanh(·)为神经网络激励函数;
分别使用评价网络和执行网络逼近最优值函数和最优控制策略
Figure BDA0002497319060000058
获得状态值函数的最优解表达式如下
Figure BDA0002497319060000059
Figure BDA00024973190600000510
其中,
Figure BDA00024973190600000511
Figure BDA00024973190600000512
均为Wc的估计值,
Figure BDA00024973190600000513
定义Bellman误差变量e(t)如下:
Figure BDA00024973190600000514
定义以下误差函数
Figure BDA00024973190600000515
Figure BDA00024973190600000516
设计的目标为通过对误差函数
Figure BDA00024973190600000517
Figure BDA00024973190600000518
的迭代使得残差的平方
Figure BDA00024973190600000519
最小;采用梯度下降法得到评价网络输出权重
Figure BDA00024973190600000520
更新律为:
Figure BDA0002497319060000061
其中,a1为正常数,
Figure BDA0002497319060000062
定义
Figure BDA0002497319060000063
且满足||β2||≤β2M,β3m≤||β3||≤β3M;执行网络输出权重
Figure BDA0002497319060000064
更新律为:
其中,a2为正常数,Ta为正定矩阵;
为保证
Figure BDA0002497319060000066
的有界性,式(20)中投影算子proj(·)定义如下:
Figure BDA0002497319060000067
其中,
Figure BDA0002497319060000068
为矩阵
Figure BDA0002497319060000069
中的元素,
Figure BDA00024973190600000610
w ij分别表示
Figure BDA00024973190600000611
的上界和下界;
步骤2-2、设计定位轨迹:
设计四旋翼无人机期望轨迹的加速度
Figure BDA00024973190600000612
如下:
Figure BDA00024973190600000613
其中,
Figure BDA00024973190600000614
为相关参数;
式(22)中,定位轨迹部分
Figure BDA00024973190600000615
用于保证四旋翼无人机准确到达目标位置,因此定位轨迹的选取应满足如下条件:
①定位部分轨迹在有限时间收敛到目标位置,目标位置表示为:
Figure BDA00024973190600000616
yt(t),zt(t)为定位轨迹坐标,pty,ptz为目标位置坐标,t→tf表示在有限时间内。
②定位部分轨迹满足以下条件:
Figure BDA0002497319060000071
其中,kvy,kay,kjy,kvz,kaz,kjz∈R+为定位轨迹的相关参数,分别为
Figure BDA0002497319060000072
Figure BDA0002497319060000073
设计的上界;
③设计定位部分轨迹的初始值为:
Figure BDA0002497319060000074
步骤3、当期望轨迹如式(22)所示形式,且其评价网与执行网的更新律满足式(19)与式(20)时能够保证四旋翼无人机位置、速度、负载摆角以及摆角角速度收敛到一定区域内,从而通过设计执行网-评价网的神经网络分别对最优策略、最优状态值函数进行逼近。
与现有技术相比,本发明具有以下积极效果:
(1)能够有效抑制飞行环境未知扰动造成的影响,实现了无人机悬挂飞行系统的轨迹规划和位置精确控制;
(2)能够在未完全获取模型先验信息的前提下,使系统在最短的时间内到达最优状态。
附图说明
图1为本发明相关的四旋翼无人机悬挂空运系统结构简图;
图2为本发明的基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法流程示意图;
图3为在无风扰环境中四旋翼无人机悬挂空运系统飞行过程的曲线示意图:
(3a)无风扰情况下无人机Y、Z方向位置曲线;
(3b)无风扰情况下无人机悬挂飞行过程中负载摆角的曲线;
(3c)无风扰情况下无人机Y、Z方向控制输入曲线;
(3d)无风扰情况下无人机飞行过程的滚转角曲线。
图4为在有风扰环境中四旋翼无人机悬挂空运系统飞行过程的曲线示意图:
(4a)有风扰情况下无人机Y、Z方向位置曲线;
(4b)有风扰情况下无人机悬挂飞行过程中负载摆角的曲线;
(4c)有风扰情况下无人机Y、Z方向控制输入曲线;
(4d)有风扰情况下无人机飞行过程的滚转角曲线。
图5为在负载质量发生变化的情况下四旋翼无人机悬挂空运系统飞行过程的曲线示意图;
(5a)负载质量变化情况下无人机Y、Z方向位置曲线;
(5b)负载质量变化情况下无人机悬挂飞行过程中负载摆角的曲线;
(5c)负载质量变化情况下无人机Y、Z方向控制输入曲线;
(5d)负载质量变化情况下无人机飞行过程的滚转角曲线。
具体实施方式
下面结合附图和实施例对本发明技术方案作进一步的说明,但并不作为对本发明保护范围的限制。
本发明首先通过构造性能指标评价函数,根据最优性原理将指标函数带入哈密顿-雅可比-贝尔曼(Hamilton-Jacobi-Bellman)方程,然后通过实时更新执行网络与评价网络的输出层权重,求出HJB方程的近似解,获得最优控制量。
如图2所示,本发明的基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法具体包括如下步骤:
步骤1,建立四旋翼无人机悬挂空运系统的动力学模型:
如图1所示,为与本发明的四旋翼无人机悬挂空运系统的动力学模型相关的四旋翼无人机悬挂空运系统结构简图,采用四旋翼无人机悬挂空运系统二维平面模型的动力学模型,进一步考虑系统受到未知外界扰动,得到下述非线性动力学模型:
Figure BDA0002497319060000091
其中,q(t)=[y(t),z(t),γ(t)]T∈R3表示系统状态向量,y(t),z(t)分别表示四旋翼无人机y,z方向的位移,γ(t)表示悬挂负载的摆角,
Figure BDA0002497319060000092
分别表示整个系统的惯性矩阵、向心力矩阵以及重力向量,d(t)=[d1(t),d2(t),dγ(t)]T∈R3表示飞行过程中四旋翼无人机悬挂空运系统所受到的未知外界扰动;d1(t),d2(t),dγ(t)表示未知外界扰动在y,z,γ三个方向的分量,R表示实数域;对式(1)进行展开,得到表达式如下:
Figure BDA0002497319060000093
其中,mq为四旋翼无人机质,mp为悬挂负载质量,l为悬绳长度,g为重力加速度,u(t)=[uy(t),uz(t)]T∈R2为四旋翼无人机随时间变化的升力向量,为控制输入;μy(t),μz(t)分别为四旋翼无人机总升力在y、z方向的分量,进而得到关于悬挂负载的摆角,表达式如下:
Figure BDA0002497319060000094
式(3)中,dγ为悬挂负载在飞行过程中所受的未知外界扰动,本发明中假设其连续且有界。
为了方便后续轨迹设计,对负载摆角进行以下近似处理:
Figure BDA0002497319060000095
由于四旋翼无人机的位置状态与负载摆角之间存在较强的耦合,本发明的设计目标是基于式(3)对四旋翼无人机悬挂空运系统进行轨迹生成策略的研究。轨迹生成的研究问题主要分为两个方面:针对外界存在未知扰动的情况,通过强化学习策略实时调整四旋翼无人机的飞行轨迹实现悬挂负载的摆动抑制;通过设计合适的轨迹使四旋翼无人机能够准确到达目标位置。
步骤2,进行飞行轨迹规划设计:
由于未知外界扰动以及四旋翼无人机位置状态与负载摆角存在强耦合,在飞行运输过程中实现负载摆角的快速抑制具有一定的困难,进而使得四旋翼无人机准确到达目标位置的同时快速抑制负载摆角的控制实现变得复杂。为保证实现四旋翼无人机能够安全、精准运输负载,本发明将四旋翼无人机期望轨迹的加速度
Figure BDA0002497319060000101
分为两个部分:抗扰部分、定位部分。
步骤2-1、进行基于强化学习的抗扰轨迹设计:
为减小外界未知扰动对负载摆角的影响,采用基于执行网-评价网形式的强化学习方法设计期望轨迹的抗扰部分:选取
Figure BDA0002497319060000102
作为等效状态向量,将式(3)整理为非线性仿射系统,具体形式如下(式(5)是式(3)整理为非线性仿射系统后的形式):
Figure BDA0002497319060000103
其中,
Figure BDA0002497319060000104
Figure BDA0002497319060000105
Figure BDA0002497319060000106
为非线性仿射系统的等效输入;
构造如下所示的状态值函数J(η)作为系统的性能指标函数,表达式如下:
Figure BDA0002497319060000107
其中,Q,R为对称的正常数矩阵。
为实现在整个飞行过程中抑制负载的摆动,根据最优控制原理,针对式(5)需要实现最优的反馈控制状态,以及针对式(6)实现最小化性能指标函数,式(6)的无穷小形式满足如下非线性Lyapunov方程:
Figure BDA0002497319060000108
其中,
Figure BDA0002497319060000109
为式(6)中的J(η)对η求一阶偏导数;
定义哈密尔顿函数如下:
Figure BDA0002497319060000111
最优状态值函数J*(η)定义为:
Figure BDA0002497319060000112
则当输入为最优时,如下HJB方程成立
Figure BDA0002497319060000113
假定
Figure BDA0002497319060000114
存在且唯一。此时,最优输入μ*满足
Figure BDA0002497319060000115
将该最优控制策略代入到式(7),得到关于
Figure BDA0002497319060000116
的HJB方程为:
Figure BDA0002497319060000117
通过求解式(12)得到轨迹规划的最优生成策略。然而,非线性HJB方程的求解是非常困难的。因此,本发明采用执行网-评价网网络结构实现最优轨迹的逼近。
最优状态值函数J(η)表示如下:
Figure BDA0002497319060000118
其中,Wc为评价网理想权重矩阵,εc(η)为神经网络近似误差,
Figure BDA0002497319060000119
为等效状态向量,σ(η)为激励函数,本发明选取双曲正切函数tanh(·)为神经网络激励函数;
为了获得状态值函数的最优解,分别使用评价网络和执行网络逼近最优值函数和最优控制策略
Figure BDA00024973190600001110
表达式如下
Figure BDA00024973190600001115
Figure BDA00024973190600001111
其中,
Figure BDA00024973190600001112
Figure BDA00024973190600001113
均为Wc的估计值,
Figure BDA00024973190600001114
定义Bellman误差变量e(t)如下:
Figure BDA0002497319060000121
为方便后续设计,定义以下误差函数
Figure BDA0002497319060000122
Figure BDA0002497319060000123
设计的目标为通过对误差函数
Figure BDA0002497319060000124
Figure BDA0002497319060000125
的迭代使得残差的平方
Figure BDA0002497319060000126
最小;采用梯度下降法得到评价网络输出权重
Figure BDA0002497319060000127
更新律为:
Figure BDA0002497319060000128
其中,a1为正常数,
Figure BDA0002497319060000129
为方便后续分析,定义
Figure BDA00024973190600001210
且满足||β2||≤β2M,β3m≤||β3||≤β3M。执行网络输出权重
Figure BDA00024973190600001211
更新律为:
Figure BDA00024973190600001212
其中,a2为正常数,Ta为正定矩阵。为保证
Figure BDA00024973190600001213
的有界性,式(20)中投影算子proj(·)定义如下:
Figure BDA00024973190600001214
其中,
Figure BDA00024973190600001215
为矩阵
Figure BDA00024973190600001216
中的元素,
Figure BDA00024973190600001217
w ij分别表示
Figure BDA00024973190600001218
的上界和下界。
步骤2-2、定位轨迹设计与综合:
四旋翼无人机期望轨迹的加速度
Figure BDA00024973190600001219
设计为如下形式:
Figure BDA00024973190600001220
其中,
Figure BDA00024973190600001221
为相关参数,该处参数设计目的保证加速度
Figure BDA00024973190600001222
有界。
式(22)中,定位轨迹部分
Figure BDA00024973190600001223
的作用主要是能够保证四旋翼无人机准确到达目标位置,因此定位轨迹的选取应满足如下条件:
①定位部分轨迹可在有限时间收敛到目标位置,其目标位置表示为:
Figure BDA0002497319060000131
yt(t),zt(t)为定位轨迹坐标,pty、ptz为目标位置坐标,t→tf表示在有限时间内;
②定位部分轨迹满足:
Figure BDA0002497319060000132
其中,kvy,kay,kjy,kvz,kaz,kjz∈R+为定位轨迹的相关参数,分别为
Figure BDA0002497319060000133
Figure BDA0002497319060000134
设计的上界;
③定位部分轨迹的初始值设为:
Figure BDA0002497319060000135
步骤3、之后采用基于Lyapunov的稳定性分析方法可以证明本发明所设计的基于强化学习的四旋翼无人机悬挂空运系统在线轨迹规划方法在存在未知外界扰动的情况下,当期望轨迹如式(22)所示形式,且其评价网与执行网的更新律满足式(19)与式(20)时能够保证四旋翼无人机位置、速度、负载摆角以及摆角角速度收敛到一定区域内,从而通过设计执行网-评价网的神经网络分别对最优策略、最优状态值函数进行逼近。
利用飞行实验验证本发明的四旋翼无人机悬挂空运系统在线轨迹规划方法的有效性与可实现性,验证过程如下:
(1)选择定位轨迹:
考虑到无人机飞行轨迹的平滑性,在实验中选取了S形曲线作为定位轨迹,其具体表达形式为:
Figure BDA0002497319060000141
式(26)中,
Figure BDA0002497319060000142
选用PD控制器作为四旋翼无人机悬挂空运系统的轨迹跟踪控制器,以使系统沿着设定的轨迹运动:
Figure BDA0002497319060000143
其中,kpy,kdy,kpz,kdz∈R+为PD控制器的控制增益,ey(t),ez(t)表示四旋翼无人机当前位置与设定的定位轨迹之间的误差,
Figure BDA0002497319060000144
为四旋翼无人机当前速度在y,z方向上的分量。
(2)参数设定:
飞行实验中,四旋翼无人机的起始位置和目标位置分别为:y0=0m,z0=1.7m,yd=2m,zd=1.9m。四旋翼无人机悬挂空运系统实验平台的相关参数为:
mq=1.158kg,mp=0.066kg,l=0.903m (28)
PD控制器的相关控制参数表示为:
kpy=7.1,kpz=9,kdy=10.1,kdz=12 (29)
定位轨迹的相关参数选取为
Figure BDA0002497319060000145
轨迹设计部分的相关参数为
Figure BDA0002497319060000146
Figure BDA0002497319060000151
(3)飞行实验结果:
为验证期望轨迹的减摆效果和鲁棒性,在实验平台上进行了三组对比实验:
第一组:未加风扰情况下进行飞行实验,实验结果如图3所示。(3a)~(3d)分别为四旋翼无人机位置y(t),z(t)、负载摆角γ(t)、四旋翼无人机控制输入uy(t),uz(t)以及四旋翼无人机滚转角
Figure BDA0002497319060000152
的的变化曲线。图像中实线代表本文所设计的期望轨迹下无人机悬挂空运系统的相关实验数据,虚线为定位轨迹下的数据。根据实验图线(3a)和(3b)可以看出,所设计的期望轨迹下四旋翼无人机可以在较短时间内到达给定目标位置,且在整个飞行过程中负载摆角摆动较小,抗摆性能明显优于定位轨迹下的飞行效果。
第二组:风扰情况下与定位轨迹进行对比,实验结果如图4所示。为验证生成的期望轨迹对外部扰动的鲁棒性,在风扇风速为5.3m/s(19.08km/h)的实验环境下进行了飞行实验。其中,(4a)至(4d)分别为两种轨迹下四旋翼无人机位置(t),z(t)、负载摆角γ(t)、四旋翼无人机控制输入uy(t),uz(t)以及四旋翼无人机滚转角
Figure BDA0002497319060000153
的变化曲线。图像中实线代表本文所设计的期望轨迹下无人机悬挂空运系统的相关实验数据,虚线为定位轨迹下的数据。从(4a)和(4b)中可以看出所设计的期望轨迹在外界存在未知扰动的情况下仍能保证四旋翼无人机快速到达目标位置,且在整个飞行过程中四旋翼无人机的悬挂负载摆角变化明显比定位轨迹下更小。通过本组对比实验可知本文提出的轨迹生成方法对外界未知干扰具有较强的鲁棒性。
第三组:期望轨迹对负载质量变化的鲁棒性,实验结果如5所示。实验中分别选用质量为0.066kg、0.131kg的负载进行飞行实验。(5a)至(5d)分别为期望轨迹下悬挂两种不同质量的负载情况下四旋翼无人机位置y(t),z(t)、负载摆角γ(t)、四旋翼无人机控制输入uy(t),uz(t)以及四旋翼无人机滚转角
Figure BDA0002497319060000154
的变化曲线。图像中实线代表期望轨迹下负载质量为0.066kg时无人机悬挂空运系统的相关实验数据,虚线为负载质量为0.131kg时的数据。由(5a)可知在本文所设计的期望轨迹下负载质量的增加对四旋翼无人机到达目标位置的调节时间无太大影响。同时由(5b)5中可以看出,在四旋翼无人机沿期望轨迹飞行的过程中,当负载质量分别为0.066kg、0.131kg时负载摆角的摆动均能保持在较小范围内,负载质量的改变基本未对期望轨迹的减摆效果产生影响。
经过上述分析,证明了本发明所提在线轨迹规划方法的有效性。

Claims (1)

1.一种基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法,其特征在于,该方法具体包括以下步骤:
步骤1,建立四旋翼无人机悬挂空运系统的动力学模型,表达式如下:
Figure FDA0002497319050000011
其中,q(t)=[y(t),z(t),γ(t)]T∈R3表示系统状态向量,y(t),z(t)分别表示四旋翼无人机y,z方向的位移,γ(t)表示悬挂负载的摆角,
Figure FDA0002497319050000012
分别表示整个系统的惯性矩阵、向心力矩阵以及重力向量,d(t)=[d1(t),d2(t),dγ(t)]T∈R3表示飞行过程中四旋翼无人机悬挂空运系统所受到的未知外界扰动;d1(t),d2(t),dγ(t)表示未知外界扰动在y,z,γ三个方向的分量,R表示实数域;对式(1)进行展开,得到表达式如下:
Figure FDA0002497319050000013
其中,mq为四旋翼无人机质,mp为悬挂负载质量,l为悬绳长度,g为重力加速度,u(t)=[uy(t),uz(t)]T∈R2为四旋翼无人机随时间变化的升力向量,为控制输入;μy(t),μz(t)分别为四旋翼无人机总升力在y、z方向的分量,进而得到关于悬挂负载的摆角,表达式如下:
Figure FDA0002497319050000014
其中,dγ为悬挂负载在飞行过程中所受的未知外界扰动;
步骤2,进行飞行轨迹规划设计,将四旋翼无人机期望轨迹的加速度
Figure FDA0002497319050000015
分为以下两个部分:
步骤2-1、采用基于执行网-评价网形式的强化学习方法设计期望轨迹的抗扰轨迹:选取
Figure FDA0002497319050000016
作为等效状态向量,将式(3)整理为非线性仿射系统,具体形式如下:
Figure FDA0002497319050000021
其中,
Figure FDA0002497319050000022
Figure FDA0002497319050000023
Figure FDA0002497319050000024
为非线性仿射系统的等效输入;
构造状态值函数J(η)作为系统的性能指标函数,表达式如下:
Figure FDA0002497319050000025
其中,Q,R为对称的正常数矩阵;
为实现在整个飞行过程中抑制负载的摆动,根据最优控制原理,针对式(5)需要实现最优的反馈控制状态,以及针对式(6)实现最小化性能指标函数,式(6)的无穷小形式满足如下非线性Lyapunov方程:
Figure FDA0002497319050000026
其中,
Figure FDA0002497319050000027
为式(6)中的J(η)对η求一阶偏导数;
定义哈密尔顿函数如下:
Figure FDA0002497319050000028
最优状态值函数J*(η)定义为:
Figure FDA0002497319050000029
则当输入为最优时,如下HJB方程成立
Figure FDA00024973190500000210
假定
Figure FDA00024973190500000211
存在且唯一,此时,最优输入μ*满足下式:
Figure FDA00024973190500000212
将该最优控制策略代入到式(7),得到关于
Figure FDA00024973190500000213
的HJB方程为:
Figure FDA0002497319050000031
通过求解式(12)得到轨迹规划的最优生成策略,采用执行网-评价网网络结构实现最优轨迹的逼近,得到最优状态值函数J(η)表示如下:
Figure FDA0002497319050000032
其中,Wc为评价网理想权重矩阵,εc(η)为神经网络近似误差,
Figure FDA0002497319050000033
为等效状态向量,σ(η)为激励函数,选取双曲正切函数tanh(·)为神经网络激励函数;
分别使用评价网络和执行网络逼近最优值函数和最优控制策略
Figure FDA0002497319050000034
获得状态值函数的最优解表达式如下
Figure FDA0002497319050000035
Figure FDA0002497319050000036
其中,
Figure FDA0002497319050000037
Figure FDA0002497319050000038
均为Wc的估计值,
Figure FDA0002497319050000039
定义Bellman误差变量e(t)如下:
Figure FDA00024973190500000310
定义以下误差函数
Figure FDA00024973190500000311
Figure FDA00024973190500000312
通过对误差函数
Figure FDA00024973190500000313
Figure FDA00024973190500000314
的迭代使得残差的平方
Figure FDA00024973190500000315
最小;采用梯度下降法得到评价网络输出权重
Figure FDA00024973190500000316
更新律为:
Figure FDA00024973190500000317
其中,α1为正常数,
Figure FDA00024973190500000318
定义
Figure FDA00024973190500000319
且满足||β2||≤β2M,β3m≤||β3||≤β3M;执行网络输出权重
Figure FDA00024973190500000320
更新律为:
Figure FDA0002497319050000041
其中,a2为正常数,Ta为正定矩阵;
为保证
Figure FDA0002497319050000042
的有界性,式(20)中投影算子proj(·)定义如下:
Figure FDA0002497319050000043
其中,
Figure FDA0002497319050000044
为矩阵
Figure FDA0002497319050000045
中的元素,
Figure FDA0002497319050000046
w ij分别表示
Figure FDA0002497319050000047
的上界和下界;
步骤2-2、设计定位轨迹:
设计四旋翼无人机期望轨迹的加速度
Figure FDA0002497319050000048
如下:
Figure FDA0002497319050000049
其中,
Figure FDA00024973190500000410
为相关参数;
式(22)中,定位轨迹部分
Figure FDA00024973190500000411
用于保证四旋翼无人机准确到达目标位置,因此定位轨迹的选取应满足如下条件:
①定位部分轨迹在有限时间收敛到目标位置,目标位置表示为:
Figure FDA00024973190500000412
yt(t),zt(t)为定位轨迹坐标,pty、ptz为目标位置坐标,t→tf表示在有限时间内;
②定位部分轨迹满足以下条件:
Figure FDA00024973190500000413
其中,kvy,kay,kjy,kvz,kaz,kjz∈R+为定位轨迹的相关参数,分别为
Figure FDA00024973190500000414
Figure FDA00024973190500000415
设计的上界;
③设计定位部分轨迹的初始值为:
Figure FDA0002497319050000051
Figure FDA0002497319050000052
步骤3、当期望轨迹如式(22)所示形式,且其评价网与执行网的更新律满足式(19)与式(20)时能够保证四旋翼无人机位置、速度、负载摆角以及摆角角速度收敛到一定区域内,从而通过设计执行网-评价网的神经网络分别对最优策略、最优状态值函数进行逼近。
CN202010422067.XA 2020-05-18 2020-05-18 基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法 Active CN111625019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010422067.XA CN111625019B (zh) 2020-05-18 2020-05-18 基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010422067.XA CN111625019B (zh) 2020-05-18 2020-05-18 基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法

Publications (2)

Publication Number Publication Date
CN111625019A true CN111625019A (zh) 2020-09-04
CN111625019B CN111625019B (zh) 2021-11-26

Family

ID=72258937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010422067.XA Active CN111625019B (zh) 2020-05-18 2020-05-18 基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法

Country Status (1)

Country Link
CN (1) CN111625019B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112363519A (zh) * 2020-10-20 2021-02-12 天津大学 四旋翼无人机强化学习非线性姿态控制方法
CN112394644A (zh) * 2020-12-03 2021-02-23 西北工业大学 一种绳系多无人机协同操作系统的预设时间控制方法
CN112650058A (zh) * 2020-12-23 2021-04-13 西北工业大学 一种基于强化学习的四旋翼无人机轨迹控制方法
CN113741502A (zh) * 2021-09-15 2021-12-03 重庆大学 输出约束下带负载四旋翼无人机的神经网络控制方法
CN113759979A (zh) * 2021-09-23 2021-12-07 天津大学 基于事件驱动的无人机吊挂系统在线轨迹规划方法
CN114488783A (zh) * 2020-10-23 2022-05-13 太原理工大学 一种基于Scara机械臂的神经网络优化控制方法
CN115129089A (zh) * 2022-08-29 2022-09-30 国网湖北省电力有限公司技术培训中心 无人机拖挂横幅飞行轨迹容错控制方法及设备
CN116360504A (zh) * 2023-05-31 2023-06-30 北京航空航天大学 无人机集群任务的确定方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106647792A (zh) * 2017-01-25 2017-05-10 天津大学 用于无人机悬挂负载系统的抗扰控制方法
CN107765553A (zh) * 2017-11-02 2018-03-06 天津大学 针对旋翼无人机吊挂运输系统的非线性控制方法
CN109976366A (zh) * 2019-03-27 2019-07-05 天津大学 旋翼无人机吊挂负载系统非线性轨迹跟踪控制方法
CN110275432A (zh) * 2019-05-09 2019-09-24 中国电子科技集团公司电子科学研究院 基于强化学习的无人机悬挂负载控制系统
CN111008467A (zh) * 2019-11-29 2020-04-14 天津大学 无人机吊挂飞行运输系统的减摆轨迹在线规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106647792A (zh) * 2017-01-25 2017-05-10 天津大学 用于无人机悬挂负载系统的抗扰控制方法
CN107765553A (zh) * 2017-11-02 2018-03-06 天津大学 针对旋翼无人机吊挂运输系统的非线性控制方法
CN109976366A (zh) * 2019-03-27 2019-07-05 天津大学 旋翼无人机吊挂负载系统非线性轨迹跟踪控制方法
CN110275432A (zh) * 2019-05-09 2019-09-24 中国电子科技集团公司电子科学研究院 基于强化学习的无人机悬挂负载控制系统
CN111008467A (zh) * 2019-11-29 2020-04-14 天津大学 无人机吊挂飞行运输系统的减摆轨迹在线规划方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ALEKSANDRA FAUST 等: "Learning Swing-free Trajectories for UAV s with a Suspended Load", 《2013 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION》 *
MADHU BABU VANKADARI 等: "A Reinforcement Learning Approach for Autonomous Control and Landing of a Quadrotor", 《2018 INTERNATIONAL CONFERENCE ON UNMANNED AIRCRAFT SYSTEMS (ICUAS)》 *
SHIZHANG WANG 等: "An anti-swing trajectory approach for an unmanned aerial vehicle with a slung payload", 《2018 37TH CHINESE CONTROL CONFERENCE》 *
YANG SEN 等: "Trajectory tracking control design for the system of a quadrotor UAV with a suspended payload", <2017 36TH CHINESE CONTROL CONFERENCE (CCC)> *
李婷: "基于强化学习的无人机悬挂负载系统控制研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技II辑》 *
王诗章 等: "无人机吊挂飞行系统的减摆控制设计", 《自动化学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112363519A (zh) * 2020-10-20 2021-02-12 天津大学 四旋翼无人机强化学习非线性姿态控制方法
CN112363519B (zh) * 2020-10-20 2021-12-07 天津大学 四旋翼无人机强化学习非线性姿态控制方法
CN114488783A (zh) * 2020-10-23 2022-05-13 太原理工大学 一种基于Scara机械臂的神经网络优化控制方法
CN114488783B (zh) * 2020-10-23 2023-12-22 太原理工大学 一种基于Scara机械臂的神经网络优化控制方法
CN112394644A (zh) * 2020-12-03 2021-02-23 西北工业大学 一种绳系多无人机协同操作系统的预设时间控制方法
CN112650058A (zh) * 2020-12-23 2021-04-13 西北工业大学 一种基于强化学习的四旋翼无人机轨迹控制方法
CN113741502A (zh) * 2021-09-15 2021-12-03 重庆大学 输出约束下带负载四旋翼无人机的神经网络控制方法
CN113741502B (zh) * 2021-09-15 2023-08-25 重庆大学 输出约束下带负载四旋翼无人机的神经网络控制方法
CN113759979B (zh) * 2021-09-23 2023-11-21 天津大学 基于事件驱动的无人机吊挂系统在线轨迹规划方法
CN113759979A (zh) * 2021-09-23 2021-12-07 天津大学 基于事件驱动的无人机吊挂系统在线轨迹规划方法
CN115129089A (zh) * 2022-08-29 2022-09-30 国网湖北省电力有限公司技术培训中心 无人机拖挂横幅飞行轨迹容错控制方法及设备
CN115129089B (zh) * 2022-08-29 2022-12-02 国网湖北省电力有限公司技术培训中心 无人机拖挂横幅飞行轨迹容错控制方法及设备
CN116360504A (zh) * 2023-05-31 2023-06-30 北京航空航天大学 无人机集群任务的确定方法、装置、电子设备及存储介质
CN116360504B (zh) * 2023-05-31 2023-10-27 北京航空航天大学 无人机集群任务的确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111625019B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN111625019B (zh) 基于强化学习的四旋翼无人机悬挂空运系统轨迹规划方法
CN107765553B (zh) 针对旋翼无人机吊挂运输系统的非线性控制方法
CN109976366B (zh) 旋翼无人机吊挂负载系统非线性轨迹跟踪控制方法
Roberts et al. Adaptive position tracking of VTOL UAVs
Ramirez-Rodriguez et al. Robust backstepping control based on integral sliding modes for tracking of quadrotors
He et al. A Simple Attitude Control of Quadrotor Helicopter Based on Ziegler‐Nichols Rules for Tuning PD Parameters
CN108508746B (zh) 四旋翼无人机吊挂运输系统的自适应控制方法
Raffo et al. Nonlinear robust control of a quadrotor UAV for load transportation with swing improvement
CN106873624B (zh) 基于部分反馈线性化四旋翼无人机吊挂飞行控制方法
Gimenez et al. Multi-objective control for cooperative payload transport with rotorcraft UAVs
CN113759979B (zh) 基于事件驱动的无人机吊挂系统在线轨迹规划方法
CN111538255B (zh) 一种反蜂群无人机的飞行器控制方法及系统
Kapnopoulos et al. A cooperative particle swarm optimization approach for tuning an MPC-based quadrotor trajectory tracking scheme
Yildiz et al. Adaptive nonlinear hierarchical control of a quad tilt-wing UAV
Jeong et al. Control System Design for a Ducted‐Fan Unmanned Aerial Vehicle Using Linear Quadratic Tracker
CN116449867A (zh) 一种四旋翼无人机吊挂载荷系统的飞行控制与负载摆动抑制方法
Sartori et al. Design and development of a backstepping controller autopilot for fixed-wing UAVs
CN111061282A (zh) 基于能量法的四旋翼无人机吊挂飞行系统控制方法
Song et al. Anti-disturbance compensation for quadrotor close crossing flight based on deep reinforcement learning
Lazim et al. Intelligent observer-based feedback linearization for autonomous quadrotor control
Toha et al. Dynamic nonlinear inverse-model based control of a twin rotor system using adaptive neuro-fuzzy inference system
Roy et al. Robust control for longitudinal and lateral dynamics of small scale helicopter
CN110908398A (zh) 能量耦合四旋翼无人机吊挂空运系统自适应控制方法
CN117452975A (zh) 一种四旋翼无人机集群的保性能协同编队控制设计方法
CN108279562A (zh) 一种基于滑模pid控制的飞行机械臂

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant