CN111650830A - 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法 - Google Patents

一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法 Download PDF

Info

Publication number
CN111650830A
CN111650830A CN202010428659.2A CN202010428659A CN111650830A CN 111650830 A CN111650830 A CN 111650830A CN 202010428659 A CN202010428659 A CN 202010428659A CN 111650830 A CN111650830 A CN 111650830A
Authority
CN
China
Prior art keywords
tracking error
uncertainty
subsystem
coupling
error subsystem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010428659.2A
Other languages
English (en)
Inventor
穆朝絮
张勇
孙长银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010428659.2A priority Critical patent/CN111650830A/zh
Publication of CN111650830A publication Critical patent/CN111650830A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • G05D1/0816Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
    • G05D1/0825Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability using mathematical models

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,包括:对含有时变不确定性的四旋翼飞行器动态微分方程进行分析,建立位置、姿态跟踪误差子系统;获取姿态跟踪误差子系统的状态空间模型,定义位置跟踪误差子系统的耦合不确定性,建立位置跟踪误差子系统状态空间模型;考虑时变、耦合不确定性特性,针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统,建立考虑耦合不确定项的代价函数;基于代价函数,求解得到最优控制率;基于自适应动态规划方法,设计改进的神经网络权值更新规则,近似求解得到鲁棒跟踪控制器,实现基于迭代学习的近似最优跟踪控制。本发明解决了四旋翼飞行器系统在时变和耦合不确定下的鲁棒跟踪控制问题。

Description

一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法
技术领域
本发明涉及四旋翼飞行器领域,尤其涉及一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法。
背景技术
近年来,无人飞行器由于其广泛的应用前景,如无人巡逻、森林火灾探测、灾害救援等,受到了学界和商界的众多关注。其中,四旋翼飞行器是其中应用非常广泛的一种无人飞行器。四旋翼飞行器系统是一个欠驱动控制系统。基于结构的特殊性,四旋翼飞行器拥有六个自由度,但只有四个转子控制输入来进行控制,这也导致了系统动力学中存在强耦合特性,使得系统控制器设计较为困难。同时,外部风力干扰和内部电磁干扰的时变不确定性使得控制问题更加复杂。因此,四旋翼飞行器的飞行控制器需要拥有较强的自适应性和鲁棒性。
为了获得良好的控制性能,针对无人飞行器的飞行控制问题,已经有许多控制方案被提出,如比例积分微分(proportion integral derivative,PID)控制,线性二次调节器(linearquadratic regulator,LQR),反步法(back-stepping)控制以及滑模控制(sliding mode control,SMC)等等。PID控制与LQR控制都是传统的线性控制方法,在面对四旋翼飞行器这个具有复杂非线性,以及时变与耦合不确定性的系统时,控制器参数调节整定或系统模型线性化则较为困难,对工况的适应能力较差。反步法控制和SMC控制都是相对先进的控制方法,对于不确定问题都具有较强的鲁棒性。这两种方法都具有较为完善的控制理论和结构,对于系统模型精度要求较高,且控制器具有较差的自适应性。
因此,迫切需要设计一个控制策略来降低时变与耦合不确定对于飞行控制的影响,在不确定存在的情况下,可以有效提高四旋翼飞行控制性能。
发明内容
本发明提供了一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,本发明解决了四旋翼飞行器系统在时变不确定和耦合不确定下的鲁棒跟踪控制问题,提出了一种改进的神经网络权值更新规则,放松对于初始稳定控制策略的要求,详见下文描述:
一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,所述方法包括:
1)针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析,建立位置跟踪误差子系统、姿态跟踪误差子系统;
2)获取姿态跟踪误差子系统的状态空间模型,定义位置跟踪误差子系统的耦合不确定性,建立位置跟踪误差子系统状态空间模型;
3)考虑时变不确定性特性、耦合不确定性特性,针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统,建立考虑耦合不确定项的代价函数;基于代价函数,求解得到最优控制率;
4)基于自适应动态规划方法,设计改进的神经网络权值更新规则,近似求解得到鲁棒跟踪控制器,实现基于迭代学习的近似最优跟踪控制。
其中,定义位置跟踪误差子系统的耦合不确定性,建立所述位置跟踪误差子系统状态空间模型具体为:
Figure BDA0002500981170000021
其中,U1(E1(t))是待设计的鲁棒跟踪控制策略,fσ′(t)是位置跟踪误差子系统的耦合项,d1(t)为位置跟踪误差子系统的时变不确定性,f1(E1(t))为位置跟踪误差子系统动态,g1(.)为控制增益矩阵;
Figure BDA0002500981170000022
其中,U1'(t)表示虚拟策略,
Figure BDA0002500981170000027
反映了两个跟踪误差子系统间的耦合不确定性,U1'(t)用于减小耦合不确定性对位置跟踪误差子系统的影响,m为四旋翼飞行器的质量,
Figure BDA0002500981170000023
为四旋翼飞行器位置与姿态状态的耦合矩阵,uα(t)为四旋翼飞行器的升力,G为重力加速度矩阵。
进一步地,所述代价函数具体为:
Figure BDA0002500981170000024
其中,η是正实数,Uu(Ei(t),Vi(Ei(t)))为效用函数,‖Dm(Ecou)‖为系统扰动代价项;位置跟踪误差子系统和姿态跟踪误差子系统中,变量的下标分别对应i=1和i=2。
Uu(Ei(t),Vi(Ei))在均衡点处等于零:
Figure BDA0002500981170000025
‖Dm(Ecou)‖2=‖fσ′(t)‖
其中,Qi和Mi为正定矩阵。
其中,所述最优控制率为:
Figure BDA0002500981170000026
其中,
Figure BDA0002500981170000031
为控制增益矩阵的转置,
Figure BDA0002500981170000032
为最优代价函数关于Ei的偏导数,Ei为跟踪误差状态变量。
进一步地,所述步骤4)具体为:
建立评价网络,推导得到哈密尔顿误差,其中包含耦合不确定性的影响,定义二次型误差函数;
设计改进的神经网络权值更新规则,放松对于初始稳定控制策略的要求。
其中,所述改进的神经网络权值更新规则具体为:
Figure BDA0002500981170000033
其中,
Figure BDA0002500981170000034
γci,γsi>0,分别是评价网络主要学习率和辅助学习率,
Figure BDA0002500981170000035
为评价网络近似过程中引入的误差,
Figure BDA0002500981170000036
为最优权值矩阵的估计值,
Figure BDA0002500981170000037
为激活函数,Ei(t)为跟踪误差状态变量。
本发明提供的技术方案的有益效果是:
1)针对含有时变不确定性的四旋翼飞行器系统,通过模型等价变换,定义了系统耦合不确定性;将四旋翼飞行器跟踪误差系统分为拥有时变、耦合不确定的位置跟踪误差子系统,以及拥有时变不确定的姿态跟踪误差子系统,进而分别设计鲁棒控制策略,实现了两个子系统的解耦控制;
2)将ADP(自适应动态规划)方法应用到四旋翼飞行器系统跟踪控制问题中。针对神经网络的训练过程,创新性地设计了一种改进的权值更新规则,放松对于初始稳定控制策略的要求,有益于系统状态信息更加有效的利用,使得训练过程更加充分,实现了基于迭代学习的近似最优跟踪控制。
附图说明
图1为四旋翼飞行器物理结构图;
图2为四旋翼飞行器鲁棒跟踪控制结构流程图;
图3为评价神经网络权值收敛过程图;
图4为位置和姿态误差子系统随机风力扰动曲线图;
图5为空气阻尼系数随机波动曲线图;
图6为四旋翼飞行器跟踪误差状态曲线图;
图7为随机风力扰动下四旋翼飞行器控制信号图;
图8为随机风力扰动下耦合不确定性曲线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
动态规划是一种处理非线性系统最优控制问题的经典策略。作为强化学习的一个重要分支,自适应动态规划(adaptive dynamic programming,ADP)基于神经网络、向量机、多项式等函数的近似能力,采用迭代算法逼近求解非线性系统的最优控制问题,避免了动态规划在非线性系统中的维数灾难问题。近年来,基于学习的自适应动态规划方法也被逐步应用于电网、机械臂、迷宫导航等领域。本发明实施例中采用ADP方法,设计了一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法。
本发明实施例针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析,建立四旋翼飞行器位置、姿态跟踪误差子系统。将四旋翼跟踪误差系统分为拥有时变、耦合不确定的位置误差子系统和拥有时变不确定的姿态误差子系统,采用最优控制方案分别设计鲁棒控制策略,其中ADP方法采用神经网络进行实现。针对神经网络的训练过程,创新性地设计了一种改进的权值更新规则,放松对于初始稳定控制策略的要求,有益于系统状态信息更加有效的利用,使得训练过程更加充分,实现了基于迭代学习的近似最优跟踪控制。
实施例1
一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,包括如下步骤:
步骤1)针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析,建立四旋翼飞行器跟踪误差模型,包括位置跟踪误差子系统、姿态跟踪误差子系统;
步骤2)获取姿态跟踪误差子系统的状态空间模型,定义位置跟踪误差子系统的耦合不确定性,建立位置跟踪误差子系统状态空间模型;
步骤3)考虑时变不确定性特性、耦合不确定性特性,针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统,建立考虑耦合不确定项的代价函数;基于代价函数,求解得到最优控制率;
即将上述的最优控制率作为鲁棒跟踪控制器。
其中,标称系统指不考虑不确定性的系统,为本领域的专有术语,在此不做赘述。
步骤4)基于自适应动态规划方法,设计改进的神经网络权值更新规则,近似求解得到鲁棒跟踪控制器,实现基于迭代学习的近似最优跟踪控制。
在上述技术方案中,步骤1)进一步包括下述步骤:
(1-1)四旋翼飞行器的物理结构图如图1所示。四旋翼飞行器由四个高速转子带动螺旋桨提供向上的升力,可以分别表示为Fl(t),l=1,2,3,4,其中
Figure BDA0002500981170000051
是常系数,ωl(t)代表转子转速。
Figure BDA0002500981170000052
表示参考坐标系,选取垂直向上的方向为z轴正方向
Figure BDA0002500981170000053
Figure BDA0002500981170000054
为机体坐标系,且设重心位置为机体坐标系的原点。在参考坐标系下,四旋翼飞行器的位置状态向量定义为ξ,且ξ=[x,y,z]T,姿态状态向量为
Figure BDA0002500981170000055
Figure BDA0002500981170000056
φ,θ和ψ分别代表四旋翼飞行器的横滚,俯仰和偏航姿态角。
为便于阅读,这里给出如下公式变量声明:形如变量a(t),
Figure BDA0002500981170000057
表示变量a(t)的一阶导数,
Figure BDA0002500981170000058
表示变量a(t)的二阶导数;
Figure BDA0002500981170000059
表示函数▽F(t)关于变量a的偏导数;
Figure BDA00025009811700000510
表示a(t)属于实数集
Figure BDA00025009811700000511
形如矩阵A,AT表示矩阵A的转置,
Figure BDA00025009811700000512
表示A为n维列向量,
Figure BDA00025009811700000513
表示A为m×n维矩阵;
Figure BDA00025009811700000514
表示函数F(t)在t到∞上的积分。
(1-2)基于以上定义,四旋翼飞行器的动力学模型可以如下表示:
Figure BDA00025009811700000515
其中,
Figure BDA00025009811700000516
表示四旋翼飞行器的质量,
Figure BDA00025009811700000517
表示实数集。
Figure BDA00025009811700000518
P为转动惯量。R1=[cosφsinθcosψ+sinφsinψ,cosφsinθsinψ-sinφcosψ,cosφcosθ]T矩阵是关于四旋翼飞行器位置状态与姿态状态的耦合项。G=[0,0,mg]T,g是重力加速度。
R2=diag[l,l,c]是常值转矩矩阵,l表示每个螺旋桨转子的升力臂,c是力矩系数。
K1=diag[k1,k2,k3]和K2=diag[k4l,k5l,k6]分别是针对平移和旋转运动的空气阻尼系数矩阵,其中k1,,k6是阻尼系数。ε1(t)=[εx(t),εy(t),εz(t)]T和ε2(t)=[εφ(t),εθ(t),εψ(t)]T分别表示平移和旋转运动中的有界时变信号。
Figure BDA00025009811700000519
为四旋翼飞行器的升力。U2(t)=[uφ,uθ,uψ]T是与旋转运动横滚,俯仰和偏航角度相关的控制信号。
(1-3)考虑实际飞行控制,提出的控制策略应该通过控制四个转子的转速来控制四旋翼飞行器。通过设计基于学习的鲁棒跟踪控制策略U1(E1)=[ux,uy,uz]T和U2(E2)=[uφ,uθ,uψ]T,可以求解下面的方程(2),进而得到四个转子在实际控制中需要提供的升力Fl(t),=1,2,3,4。通过关系式Fl(t)=βlωl(t),可以进一步得到实际飞行中四个转子需要的转速ωl(t)。
Figure BDA0002500981170000061
其中,uα(t)可以通过下面的公式(7)求出,uφ,uθ和uψ通过设计鲁棒控制策略U2(E2)得到。因此,四旋翼飞行器飞行控制中,可以通过求解跟踪误差子系统鲁棒控制策略来计算得到期望转子转速。
在上述技术方案中,步骤2)进一步包括下述步骤:
(2-1)分别设置位置子系统和姿态子系统的参考状态ξd=[xd,yd,zd]T
Figure BDA0002500981170000062
进而,有如下定义:
Figure BDA0002500981170000063
其中,e1(t)和e2(t)分别表示位置子系统的位置误差和位置误差导数,e3(t)和e4(t)分别表示姿态子系统的姿态误差和姿态误差导数。ex
Figure BDA0002500981170000064
表示x方向位置误差和位置误差导数,同理ey
Figure BDA0002500981170000065
ez
Figure BDA0002500981170000066
eφ
Figure BDA0002500981170000067
表示横滚姿态误差和横滚姿态误差导数,同理eθ
Figure BDA0002500981170000068
eψ
Figure BDA0002500981170000069
因此,结合公式(1)和(3),系统的跟踪误差模型可以有如下表示:
Figure BDA00025009811700000610
Figure BDA00025009811700000611
(2-2)进而,结合公式(4)和(5),四旋翼飞行器跟踪控制问题已经转化为跟踪误差子系统的镇定控制问题。公式(4)中,定义
Figure BDA00025009811700000612
体现位置跟踪误差子系统的耦合不确定性,U1(t)=[μ1(t),μ2(t),μ3(t)]T为虚拟控制变量:
Figure BDA0002500981170000071
通过反解上式,控制率uα(t)和目标姿态角度φd(t),θd(t)可以被求解:
Figure BDA0002500981170000072
需要注意的是:在公式(7)中,虚拟控制策略U1(t)=[μ1(t),μ2(t),μ3(t)]T会被提出的鲁棒跟踪控制策略U1(E1)=[ux,uy,uz]T取代,即令U1(t)=U1(E1)。
基于步骤3)中的鲁棒跟踪控制律U1(E1),进一步可以得到控制策略中的uα(t),φd(t)和θd(t)。接下来,将主要针对系统位置和姿态状态的跟踪控制问题而展开,具体涉及跟踪误差系统的时变不确定性与耦合不确定性的处理。
(2-3)时变不确定性:通过忽略位置子系统中的耦合不确定fσ(t),四旋翼飞行器的位置跟踪误差子系统可以表示为:
Figure BDA0002500981170000073
其中
Figure BDA0002500981170000074
Figure BDA0002500981170000075
其中,03×3表示3×3零矩阵,I3×3表示3×3单位矩阵。基于公式(5),姿态跟踪误差子系统可以表示为:
Figure BDA0002500981170000076
其中
Figure BDA0002500981170000077
Figure BDA0002500981170000078
U1(E1)=[ux,uy,uz]T和U2(E2)=[uφ,uθ,uψ]T是待设计的基于迭代学习的鲁棒跟踪控制策略。ε1(t)和ε2(t)是时变不确定信号,因此,分别定义d1(t)和d2(t)为位置和姿态跟踪误差子系统的时变不确定性。位置参考状态ξd满足
Figure BDA0002500981170000079
Figure BDA00025009811700000710
姿态参考状态
Figure BDA00025009811700000711
满足
Figure BDA0002500981170000081
Figure BDA0002500981170000082
因此,d1(t)和d2(t)可以分别简化为d1(t)=1/m·ε1(t)和d2(t)=P-1ε2(t)。
(2-4)耦合不确定性:对于位置跟踪误差子系统中耦合不确定性的考虑,结合公式(4)和(5),位置和姿态跟踪误差子系统可以表示为如下形式:
Figure BDA0002500981170000083
Figure BDA0002500981170000084
其中,U1(E1(t))和U2(E2(t))是待设计的鲁棒跟踪控制策略。为了反应设计的鲁棒控制策略对于系统响应和耦合项的影响,fσ′(t)在公式(10)中进行了定义。
Figure BDA0002500981170000085
是位置跟踪误差子系统的耦合项。
公式(7)中令U1(t)=[μ1(t),μ2(t),μ3(t)]T=U1(E1(t)),可以得到uα(t),φd(t)和θd(t),进一步,U1'(t)表示虚拟策略,可以基于公式(6)得到。这里,
Figure BDA0002500981170000086
反映了两个跟踪误差子系统间的耦合不确定性,U1'(t)用于减小耦合不确定性对位置跟踪误差子系统的影响。
本发明对于时变不确定性d1(t)和d2(t),以及表示系统耦合不确定性的耦合项
Figure BDA0002500981170000087
在系统建模中进行了考虑。U1'(t)是与飞行控制过程中的期望转角[φddd]T相关并基于公式(6)计算得出的,而U1(E1(t))将在步骤3)中进行详细设计。
在上述技术方案中,步骤3)进一步包括下述步骤:
(3-1)针对四旋翼飞行器中的时变不确定以及耦合不确定问题,定义位置、姿态跟踪误差子系统的标称系统,设计鲁棒跟踪控制策略。为了便于分析设计,考虑时变、耦合不确定性的四旋翼飞行器的动态模型如下:
Figure BDA0002500981170000088
结合公式(10)和(11),公式(12)表示原始的位置和姿态跟踪误差子系统,下标分别为1和2。进一步,标称跟踪误差系统可以表示为:
Figure BDA0002500981170000089
假设系统(13)在一个紧凑集中是利普希茨连续的,
Figure BDA00025009811700000810
Vi(Ei(t))表示标称跟踪误差系统的反馈控制率。
(3-2)通过对于四旋翼飞行器的模型动态进行分析,可知模型中的时变不确定可视作系统的匹配型不确定性。两个跟踪误差子系统对于耦合不确定性的处理不同,耦合不确定性仅存在与位置跟踪误差子系统之中。而耦合问题也表示了四旋翼飞行器姿态角度对于位置状态的动态影响,为了在控制策略中体现两个子系统的耦合作用,在代价函数单独设计出此项。因此,定义代价函数为:
Figure BDA0002500981170000091
其中,η是正常数,Uu(Ei(t),Vi(Ei(t)))为效用函数,‖Dm(Ecou)‖为系统扰动代价项,与耦合不确定性相关。
为了简化公式描述,在下面的公式推导中,变量Ji(Ei(t))和Vi(Ei(t))中的时间变量t被省略了。效用函数Uu(Ei(t),Vi(Ei))在均衡点处等于零,并且定义为:
Figure BDA0002500981170000092
其中,Qi和Mi为适当维数的正定矩阵。‖Dm(Ecou)‖2可以通过下式计算:
‖Dm(Ecou)‖2=‖fσ′(t)‖ (16)
需要注意的是,‖Dm(Ecou)‖2只与系统的耦合不确定性相关。因此,在姿态跟踪误差子系统的代价函数中,需要设‖Dm(Ecou)‖=0。
(3-3)公式(13)-(16)描述了标称跟踪误差子系统的最优控制问题。可以看出,新定义的代价函数(14)包括扰动代价,即与耦合不确定相关的项。基于代价函数(14),对标称跟踪误差系统(13)设计最优跟踪控制率V1(E1)=[vx(t),vy(t),vz(t)]T和V2(E2)=[vφ(t),vθ(t),vψ(t)]T,且该最优控制率为容许控制。对于连续可微的代价函数(14),哈密尔顿方程如下:
Figure BDA0002500981170000093
其中,Ji(0)=0,
Figure BDA0002500981170000094
最优代价函数可以表示为:
Figure BDA0002500981170000095
其中,Ωc为容许控制策略的集合。
Figure BDA0002500981170000096
表示在条件Vi∈Ωc下,后面函数可以得到的最小值。基于贝尔曼最优性定理,最优代价函数可以最小化HJB方程,即:
Figure BDA0002500981170000097
其中,
Figure BDA0002500981170000098
可以推导出系统最优控制率:
Figure BDA0002500981170000099
(3-4)进一步,将最优控制率带入公式(19)可得修正的HJB方程如下:
Figure BDA0002500981170000101
标称误差系统(13)的最优控制率
Figure BDA0002500981170000102
可以用于控制原始跟踪误差系统(12)。
在上述技术方案中,步骤4)进一步包括下述步骤:
(4-1)为了避免求解非线性偏微分方程(21),本发明基于策略迭代算法,近似求解最优控制策略。进一步,提出一种改进的神经网络权值更新规则,实现对于系统状态信息更加有效的利用,放松了对于初始稳定控制策略的要求。
基于ADP的策略迭代算法,给出如下算法流程:
算法1:近似求解HJB方程的策略迭代算法
a:初始化算法迭代步数n=0,令
Figure BDA0002500981170000103
定义是一个足够小的正常数
Figure BDA0002500981170000104
作为算法停止的判断条件。设定为最大迭代时间Tend。算法开始于容许控制策略
Figure BDA0002500981170000105
b:将第n步的控制策略
Figure BDA0002500981170000106
带入公式(22),其中
Figure BDA0002500981170000107
进而,可以得到:
Figure BDA0002500981170000108
c:更新控制率
Figure BDA0002500981170000109
d:如果算法迭代满足条件
Figure BDA00025009811700001010
或者到达最大迭代时间Tend,停止算法迭代。否则,令n=n+1,算法返回b继续迭代。
这里对于算法的收敛性不再证明。当n→∞时,可以认为
Figure BDA00025009811700001011
Figure BDA00025009811700001012
的近似值分别收敛到最优控制率
Figure BDA00025009811700001013
和最优代价函数
Figure BDA00025009811700001014
(4-2)下面以策略迭代算法为基础,基于单网络自适应评价结构,应用神经网络近似求解最优控制器。以下为具体实现流程:
为了近似位置和姿态跟踪误差子系统的最优代价函数,设计两个单隐层评价网络。系统误差状态Ei(t),i=1,2分别作为两个评价网络的输入。基于公式(8)和(9),可知四旋翼飞行器在x,y,z和φ,θ,ψ方向上是相互解耦的。由于误差状态Ei(t),i=1,2分别对应两个跟踪误差子系统的状态ex(t),ey(t),ez(t)和eφ(t),eθ(t),eψ(t),因此,建立评价网络
Figure BDA0002500981170000111
用于近似最优代价函数。最优代价函数
Figure BDA0002500981170000112
可以表示为如下形式:
Figure BDA0002500981170000113
其中,
Figure BDA0002500981170000114
是评价网络隐藏层到输出层的最优权值矩阵,ι是隐藏层中神经元个数,
Figure BDA0002500981170000115
是激活函数,∈(Ei),i=1,2表示神经网络重构误差。
Figure BDA0002500981170000116
对于误差状态Ei(t)的偏导数为:
Figure BDA0002500981170000117
Figure BDA0002500981170000118
Figure BDA0002500981170000119
带入公式(17)
Figure BDA00025009811700001110
Figure BDA00025009811700001111
表示神经网络近似过程中的残差项。
进而,定义哈密尔顿误差τi(t),i=1,2
Figure BDA00025009811700001112
(4-3)评价网络被用于近似
Figure BDA00025009811700001113
并输出
Figure BDA00025009811700001114
则近似代价函数可以表示为:
Figure BDA00025009811700001115
其中
Figure BDA00025009811700001116
是最优权值矩阵wci,i=1,2的估计值。
Figure BDA00025009811700001117
的偏导数为:
Figure BDA00025009811700001118
进一步,将
Figure BDA00025009811700001119
带入公式(17)可以得到估计哈密尔顿方程:
Figure BDA00025009811700001120
其中,
Figure BDA00025009811700001121
是近似最优跟踪控制。
Figure BDA00025009811700001122
是评价网络近似过程中引入的误差,该误差被用于更新神经网络权值,基于
Figure BDA00025009811700001123
定义二次型误差函数Γi(t):
Figure BDA00025009811700001124
(4-4)以公式(31)最小为目标,此处设计了一个改进的神经网络权值更新规则。权值估计向量
Figure BDA00025009811700001125
基于如下规则更新:
Figure BDA00025009811700001126
其中,
Figure BDA0002500981170000121
γci,γsi>0,i=1,2分别是评价网络主要学习率和辅助学习率。
公式(32)中,第一项是基于公式(31)推导而来。进而,对于策略迭代算法,如果神经网络权值没有选取合适的初始值,将会影响训练过程结果的有效性甚至造成训练过程发散的状况。通过分析得知,神经网络权值调整的过程非常依赖权值初始取值大小,这一定程度上弱化了系统状态在神经网络训练过程的作用,减小了算法本身的自适应性。因此,公式(32)中的第二项用于强化系统状态在权值训练过程的重要性,增强神经网络对于系统状态变化的敏感性,提高算法的自适应性能,使训练过程更加充分。
进而,基于神经网络权值更新规则(32),将公式(29)带入(20)中,有近似最优跟踪控制策略:
Figure BDA0002500981170000122
近似最优跟踪控制策略(33)可以更新估计误差
Figure BDA0002500981170000123
计算Γi(t),i=1,2,进而得到新的权值
Figure BDA0002500981170000124
于是,可以更新评价网络输出
Figure BDA0002500981170000125
以及新的跟踪控制策略
Figure BDA0002500981170000126
至此,对于四旋翼飞行器系统时变和耦合不确定性问题,设计了基于迭代学习的鲁棒跟踪控制策略。图2中给出了详细的鲁棒控制结构流程图。
实施例2
为使本领域技术人员更好的理解本发明,下面结合具体实施例,对基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法进行详细说明。
四旋翼飞行器系统主要参数如下给出:转动惯量p1=p2=0.16N·m,p3=0.32N·m;力臂长度l=0.4m;力矩系数c=0.05m;四旋翼飞行器质量m=2.33kg;重力加速度g=9.8m·s2。ki,i=1,,6表示空气阻尼系数,并且满足0.007≤k1,k2,k3≤0.013和0.0084≤k4,k5,k6≤0.0156。
空气阻尼系数的标称值设为k1=k2=k3=0.01和k4=k5=k6=0.012。由于四旋翼飞行器在位置子系统中x-,y-,z-方向是相互解耦的,因此,可以对位置跟踪误差子系统中状态顺序进行调节,得到
Figure BDA0002500981170000127
实现其在三个方向上的解耦表示,且误差系统原本的响应特性没有因此受到影响。同理,对于姿态跟踪误差子系统,在φ-,θ-,ψ-方向也是相互解耦的,同样可以进行类似变换得到:
Figure BDA0002500981170000128
基于四旋翼飞行器动态模型(8)和(9),系统动态中的fi(Ei)和gi可以表示为:
Figure BDA0002500981170000131
基于公式(18),最优代价函数可以表示为:
Figure BDA0002500981170000132
其中,Q1=1.2I,M1=1.4I,Q2=1.7I和M2=1.9I分别是位置和姿态跟踪误差子系统的正定矩阵,I为对应维数的单位矩阵。鲁棒最优控制策略基于公式(33)得到。
在算法训练过程中,评价神经网络均选取输入层6个神经元,隐藏层9个神经元,输出层3个神经元的网络结构。对于位置跟踪误差子系统,x-方向的激活函数设计为
Figure BDA0002500981170000133
各项系数为通过实验分析改进得到的。进而,对于y-和z-方向的激活函数
Figure BDA0002500981170000134
Figure BDA0002500981170000135
都可以得到。对于位置跟踪误差子系统,激活函数表示为如下形式:
Figure BDA0002500981170000136
对于姿态跟踪误差子系统,φ-方向的激活函数设计为
Figure BDA0002500981170000137
则θ-和ψ-方向的激活函数
Figure BDA0002500981170000138
Figure BDA0002500981170000139
也可以得到类似的表示形式。对于姿态跟踪误差子系统,激活函数可以表示为:
Figure BDA00025009811700001310
系统初始状态分别设为
Figure BDA00025009811700001311
Figure BDA00025009811700001312
评价神经网络权值设为
Figure BDA00025009811700001313
并基于公式(32)进行更新。神经网络主要学习率分别为γc1=0.45和γc2=0.5,辅助学习率分别为γs1=0.1和γs2=0.12。最后,位置与姿态跟踪误差子系统权值分别收敛于稳定值,图3中给出了位置和姿态跟踪误差子系统中x-和φ-方向的权值收敛过程作为示例。基于公式(33),可以得到近似最优跟踪控制策略。
实施例中研究了四旋翼飞行器在风力干扰影响下,所提出方法的控制性能。如图4所示,在控制过程中加入了随机扰动模拟风力扰动。图5中,平移和旋转运动的空气阻尼系数在风的影响下也会发生很大的变化,这与参数不确定性相关。实施例中,位置子系统耦合不确定性将在测试结果中有所体现。
测试过程中,令四旋翼飞行器从初始位置[x,y,z]=[0,0,0]米移动到参考位置[1.5,2.5,3],[2.5,0.5,1.5],[0.5,3.5,4.5],[3,5.5,2]和[0,6.5,3.5]米。具体状态跟踪过程见图6,四旋翼飞行器在考虑随机风力扰动和空气阻尼系数不确定的同时,仍然可以快速稳定地跟踪参考状态,且位置和姿态跟踪误差状态均可以收敛到很小的范围。两个子系统的控制信号如图7所示。图8显示了测试过程中始终存在的耦合不确定性。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,其特征在于,所述方法包括:
1)针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析,建立位置跟踪误差子系统、姿态跟踪误差子系统;
2)获取姿态跟踪误差子系统的状态空间模型,定义位置跟踪误差子系统的耦合不确定性,建立位置跟踪误差子系统状态空间模型;
3)考虑时变不确定性特性、耦合不确定性特性,针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统,建立考虑耦合不确定项的代价函数;基于代价函数,求解得到最优控制率;
4)基于自适应动态规划方法,设计改进的神经网络权值更新规则,近似求解得到鲁棒跟踪控制器,实现基于迭代学习的近似最优跟踪控制。
2.根据权利要求1所述的一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,其特征在于,所述定义位置跟踪误差子系统的耦合不确定性,建立位置跟踪误差子系统状态空间模型具体为:
Figure FDA0002500981160000011
其中,U1(E1(t))是待设计的鲁棒跟踪控制策略,f′σ(t)是位置跟踪误差子系统的耦合项,d1(t)为位置跟踪误差子系统的时变不确定性,f1(E1(t))为位置跟踪误差子系统动态,g1(.)为控制增益矩阵;
Figure FDA0002500981160000012
其中,U1'(t)表示虚拟策略,
Figure FDA0002500981160000013
反映了两个跟踪误差子系统间的耦合不确定性,U1'(t)用于减小耦合不确定性对位置跟踪误差子系统的影响,m为四旋翼飞行器的质量,
Figure FDA0002500981160000014
为四旋翼飞行器位置与姿态状态的耦合矩阵,uα(t)为四旋翼飞行器的升力,G为重力加速度矩阵。
3.根据权利要求2所述的一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,其特征在于,所述代价函数具体为:
Figure FDA0002500981160000015
其中,η是正实数,Uu(Ei(t),Vi(Ei(t)))为效用函数,‖Dm(Ecou)‖为系统扰动代价项;位置跟踪误差子系统和姿态跟踪误差子系统中,变量的下标分别对应i=1和i=2。
Uu(Ei(t),Vi(Ei))在均衡点处等于零:
Figure FDA0002500981160000021
‖Dm(Ecou)‖2=‖f′σ(t)‖
其中,Qi和Mi为正定矩阵。
4.根据权利要求3所述的一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,其特征在于,所述最优控制率为:
Figure FDA0002500981160000022
其中,
Figure FDA0002500981160000023
为控制增益矩阵的转置,
Figure FDA0002500981160000024
为最优代价函数关于Ei的偏导数,Ei为跟踪误差状态变量。
5.根据权利要求1所述的一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,其特征在于,所述步骤4)具体为:
建立评价网络,推导得到哈密尔顿误差,其中包含耦合不确定性的影响,定义二次型误差函数;
设计改进的神经网络权值更新规则,放松对于初始稳定控制策略的要求。
6.根据权利要求1所述的一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,其特征在于,所述改进的神经网络权值更新规则具体为:
Figure FDA0002500981160000025
其中,
Figure FDA0002500981160000026
γci,γsi>0,分别是评价网络主要学习率和辅助学习率,
Figure FDA0002500981160000027
为评价网络近似过程中引入的误差,
Figure FDA0002500981160000028
为最优权值矩阵的估计值,
Figure FDA0002500981160000029
为激活函数,Ei(t)为跟踪误差状态变量。
CN202010428659.2A 2020-05-20 2020-05-20 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法 Withdrawn CN111650830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010428659.2A CN111650830A (zh) 2020-05-20 2020-05-20 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010428659.2A CN111650830A (zh) 2020-05-20 2020-05-20 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法

Publications (1)

Publication Number Publication Date
CN111650830A true CN111650830A (zh) 2020-09-11

Family

ID=72342025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010428659.2A Withdrawn CN111650830A (zh) 2020-05-20 2020-05-20 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法

Country Status (1)

Country Link
CN (1) CN111650830A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112327626A (zh) * 2020-11-14 2021-02-05 西北工业大学 基于数据分析的飞行器通道耦合协调控制方法
CN112455727A (zh) * 2021-02-01 2021-03-09 北京航空航天大学 飞行器系统的布局方法、装置、可读存储介质及电子设备
CN113219842A (zh) * 2021-06-10 2021-08-06 哈尔滨工业大学 基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质
CN113311705A (zh) * 2021-05-19 2021-08-27 广州大学 针对机器鱼的高阶迭代自学习控制方法、装置及存储介质
CN113359473A (zh) * 2021-07-06 2021-09-07 天津大学 基于迭代学习的微小型无人直升机非线性控制方法
CN113885548A (zh) * 2021-10-28 2022-01-04 南京邮电大学 一种多四旋翼无人机输出约束状态一致博弈控制器
CN113885328A (zh) * 2021-10-18 2022-01-04 哈尔滨理工大学 一种基于积分强化学习的核电功率跟踪控制方法
CN114675664A (zh) * 2022-03-28 2022-06-28 中南大学 基于自适应动态规划的四旋翼视觉伺服控制方法
CN114942649A (zh) * 2022-06-06 2022-08-26 北京石油化工学院 一种基于反步法的飞机俯仰姿态与航迹角解耦控制方法
CN116661478A (zh) * 2023-07-27 2023-08-29 安徽大学 基于强化学习的四旋翼无人机预置性能跟踪控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132604A (zh) * 2017-12-27 2018-06-08 北京航空航天大学 基于四元数的四旋翼飞行器鲁棒姿态控制方法、装置及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132604A (zh) * 2017-12-27 2018-06-08 北京航空航天大学 基于四元数的四旋翼飞行器鲁棒姿态控制方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAOXU MU等: "Learning-Based Robust Tracking Control of Quadrotor With Time-Varying and Coupling Uncertainties", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112327626A (zh) * 2020-11-14 2021-02-05 西北工业大学 基于数据分析的飞行器通道耦合协调控制方法
CN112327626B (zh) * 2020-11-14 2022-06-21 西北工业大学 基于数据分析的飞行器通道耦合协调控制方法
CN112455727A (zh) * 2021-02-01 2021-03-09 北京航空航天大学 飞行器系统的布局方法、装置、可读存储介质及电子设备
CN112455727B (zh) * 2021-02-01 2021-04-20 北京航空航天大学 飞行器系统的布局方法、装置、可读存储介质及电子设备
CN113311705A (zh) * 2021-05-19 2021-08-27 广州大学 针对机器鱼的高阶迭代自学习控制方法、装置及存储介质
CN113311705B (zh) * 2021-05-19 2022-03-25 广州大学 针对机器鱼的高阶迭代自学习控制方法、装置及存储介质
CN113219842A (zh) * 2021-06-10 2021-08-06 哈尔滨工业大学 基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质
CN113359473B (zh) * 2021-07-06 2022-03-11 天津大学 基于迭代学习的微小型无人直升机非线性控制方法
CN113359473A (zh) * 2021-07-06 2021-09-07 天津大学 基于迭代学习的微小型无人直升机非线性控制方法
CN113885328A (zh) * 2021-10-18 2022-01-04 哈尔滨理工大学 一种基于积分强化学习的核电功率跟踪控制方法
CN113885548A (zh) * 2021-10-28 2022-01-04 南京邮电大学 一种多四旋翼无人机输出约束状态一致博弈控制器
CN113885548B (zh) * 2021-10-28 2023-10-31 南京邮电大学 一种多四旋翼无人机输出约束状态一致博弈控制器
CN114675664A (zh) * 2022-03-28 2022-06-28 中南大学 基于自适应动态规划的四旋翼视觉伺服控制方法
CN114675664B (zh) * 2022-03-28 2024-08-27 中南大学 基于自适应动态规划的四旋翼视觉伺服控制方法
CN114942649A (zh) * 2022-06-06 2022-08-26 北京石油化工学院 一种基于反步法的飞机俯仰姿态与航迹角解耦控制方法
CN114942649B (zh) * 2022-06-06 2022-12-06 北京石油化工学院 一种基于反步法的飞机俯仰姿态与航迹角解耦控制方法
CN116661478A (zh) * 2023-07-27 2023-08-29 安徽大学 基于强化学习的四旋翼无人机预置性能跟踪控制方法
CN116661478B (zh) * 2023-07-27 2023-09-22 安徽大学 基于强化学习的四旋翼无人机预置性能跟踪控制方法

Similar Documents

Publication Publication Date Title
CN111650830A (zh) 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法
CN107608367B (zh) 多变量干扰补偿四旋翼无人机轨迹与姿态协同控制方法
Zhu et al. Output Feedback Adaptive Dynamic Surface Sliding‐Mode Control for Quadrotor UAVs with Tracking Error Constraints
CN110908281A (zh) 无人直升机姿态运动有限时间收敛强化学习控制方法
CN101937233B (zh) 近空间高超声速飞行器非线性自适应控制方法
CN112987567B (zh) 非线性系统的固定时间自适应神经网络滑模控制方法
CN110347170B (zh) 可重复使用运载器再入段鲁棒容错制导控制系统及工作方法
CN111781942B (zh) 一种基于自构造模糊神经网络的容错飞行控制方法
CN109164708B (zh) 一种高超声速飞行器神经网络自适应容错控制方法
Savran et al. Intelligent adaptive nonlinear flight control for a high performance aircraft with neural networks
CN113759979B (zh) 基于事件驱动的无人机吊挂系统在线轨迹规划方法
Li et al. Finite-time control for quadrotor based on composite barrier Lyapunov function with system state constraints and actuator faults
CN115793453A (zh) 融合ai深度学习的旋翼飞行器轨迹跟踪自适应控制方法
CN111273544B (zh) 基于预测rbf前馈补偿型模糊pid的雷达俯仰运动控制方法
CN112327926B (zh) 一种无人机编队的自适应滑模控制方法
CN113268084A (zh) 一种无人机编队智能容错控制方法
CN114815861A (zh) 一种基于时空径向基函数神经网络的容错飞行控制方法
CN112363524A (zh) 一种基于自适应增益扰动补偿的再入飞行器姿态控制方法
CN113741188A (zh) 执行器故障下固定翼无人机反步自适应容错控制方法
CN114721266B (zh) 飞机舵面结构性缺失故障情况下的自适应重构控制方法
Qiu et al. Robust path‐following control based on trajectory linearization control for unmanned surface vehicle with uncertainty of model and actuator saturation
CN113568423A (zh) 一种考虑电机故障的四旋翼无人机智能容错控制方法
Glida et al. Trajectory tracking control of a coaxial rotor drone: Time-delay estimation-based optimal model-free fuzzy logic approach
CN116382332B (zh) 一种基于ude的战斗机大机动鲁棒飞行控制方法
CN111176117B (zh) 一种无人直升机的模糊自适应弹性控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200911