CN111650830A - 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法 - Google Patents
一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法 Download PDFInfo
- Publication number
- CN111650830A CN111650830A CN202010428659.2A CN202010428659A CN111650830A CN 111650830 A CN111650830 A CN 111650830A CN 202010428659 A CN202010428659 A CN 202010428659A CN 111650830 A CN111650830 A CN 111650830A
- Authority
- CN
- China
- Prior art keywords
- tracking error
- uncertainty
- subsystem
- coupling
- error subsystem
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000010168 coupling process Methods 0.000 claims abstract description 56
- 238000005859 coupling reaction Methods 0.000 claims abstract description 56
- 230000008878 coupling Effects 0.000 claims abstract description 55
- 230000006870 function Effects 0.000 claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000011217 control strategy Methods 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000001133 acceleration Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000002040 relaxant effect Effects 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 10
- 230000004913 activation Effects 0.000 description 7
- 238000013016 damping Methods 0.000 description 7
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001808 coupling effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
- G05D1/0816—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
- G05D1/0825—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability using mathematical models
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Remote Sensing (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Feedback Control In General (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,包括:对含有时变不确定性的四旋翼飞行器动态微分方程进行分析,建立位置、姿态跟踪误差子系统;获取姿态跟踪误差子系统的状态空间模型,定义位置跟踪误差子系统的耦合不确定性,建立位置跟踪误差子系统状态空间模型;考虑时变、耦合不确定性特性,针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统,建立考虑耦合不确定项的代价函数;基于代价函数,求解得到最优控制率;基于自适应动态规划方法,设计改进的神经网络权值更新规则,近似求解得到鲁棒跟踪控制器,实现基于迭代学习的近似最优跟踪控制。本发明解决了四旋翼飞行器系统在时变和耦合不确定下的鲁棒跟踪控制问题。
Description
技术领域
本发明涉及四旋翼飞行器领域,尤其涉及一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法。
背景技术
近年来,无人飞行器由于其广泛的应用前景,如无人巡逻、森林火灾探测、灾害救援等,受到了学界和商界的众多关注。其中,四旋翼飞行器是其中应用非常广泛的一种无人飞行器。四旋翼飞行器系统是一个欠驱动控制系统。基于结构的特殊性,四旋翼飞行器拥有六个自由度,但只有四个转子控制输入来进行控制,这也导致了系统动力学中存在强耦合特性,使得系统控制器设计较为困难。同时,外部风力干扰和内部电磁干扰的时变不确定性使得控制问题更加复杂。因此,四旋翼飞行器的飞行控制器需要拥有较强的自适应性和鲁棒性。
为了获得良好的控制性能,针对无人飞行器的飞行控制问题,已经有许多控制方案被提出,如比例积分微分(proportion integral derivative,PID)控制,线性二次调节器(linearquadratic regulator,LQR),反步法(back-stepping)控制以及滑模控制(sliding mode control,SMC)等等。PID控制与LQR控制都是传统的线性控制方法,在面对四旋翼飞行器这个具有复杂非线性,以及时变与耦合不确定性的系统时,控制器参数调节整定或系统模型线性化则较为困难,对工况的适应能力较差。反步法控制和SMC控制都是相对先进的控制方法,对于不确定问题都具有较强的鲁棒性。这两种方法都具有较为完善的控制理论和结构,对于系统模型精度要求较高,且控制器具有较差的自适应性。
因此,迫切需要设计一个控制策略来降低时变与耦合不确定对于飞行控制的影响,在不确定存在的情况下,可以有效提高四旋翼飞行控制性能。
发明内容
本发明提供了一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,本发明解决了四旋翼飞行器系统在时变不确定和耦合不确定下的鲁棒跟踪控制问题,提出了一种改进的神经网络权值更新规则,放松对于初始稳定控制策略的要求,详见下文描述:
一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,所述方法包括:
1)针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析,建立位置跟踪误差子系统、姿态跟踪误差子系统;
2)获取姿态跟踪误差子系统的状态空间模型,定义位置跟踪误差子系统的耦合不确定性,建立位置跟踪误差子系统状态空间模型;
3)考虑时变不确定性特性、耦合不确定性特性,针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统,建立考虑耦合不确定项的代价函数;基于代价函数,求解得到最优控制率;
4)基于自适应动态规划方法,设计改进的神经网络权值更新规则,近似求解得到鲁棒跟踪控制器,实现基于迭代学习的近似最优跟踪控制。
其中,定义位置跟踪误差子系统的耦合不确定性,建立所述位置跟踪误差子系统状态空间模型具体为:
其中,U1(E1(t))是待设计的鲁棒跟踪控制策略,fσ′(t)是位置跟踪误差子系统的耦合项,d1(t)为位置跟踪误差子系统的时变不确定性,f1(E1(t))为位置跟踪误差子系统动态,g1(.)为控制增益矩阵;
其中,U1'(t)表示虚拟策略,反映了两个跟踪误差子系统间的耦合不确定性,U1'(t)用于减小耦合不确定性对位置跟踪误差子系统的影响,m为四旋翼飞行器的质量,为四旋翼飞行器位置与姿态状态的耦合矩阵,uα(t)为四旋翼飞行器的升力,G为重力加速度矩阵。
进一步地,所述代价函数具体为:
其中,η是正实数,Uu(Ei(t),Vi(Ei(t)))为效用函数,‖Dm(Ecou)‖为系统扰动代价项;位置跟踪误差子系统和姿态跟踪误差子系统中,变量的下标分别对应i=1和i=2。
Uu(Ei(t),Vi(Ei))在均衡点处等于零:
‖Dm(Ecou)‖2=‖fσ′(t)‖
其中,Qi和Mi为正定矩阵。
其中,所述最优控制率为:
进一步地,所述步骤4)具体为:
建立评价网络,推导得到哈密尔顿误差,其中包含耦合不确定性的影响,定义二次型误差函数;
设计改进的神经网络权值更新规则,放松对于初始稳定控制策略的要求。
其中,所述改进的神经网络权值更新规则具体为:
本发明提供的技术方案的有益效果是:
1)针对含有时变不确定性的四旋翼飞行器系统,通过模型等价变换,定义了系统耦合不确定性;将四旋翼飞行器跟踪误差系统分为拥有时变、耦合不确定的位置跟踪误差子系统,以及拥有时变不确定的姿态跟踪误差子系统,进而分别设计鲁棒控制策略,实现了两个子系统的解耦控制;
2)将ADP(自适应动态规划)方法应用到四旋翼飞行器系统跟踪控制问题中。针对神经网络的训练过程,创新性地设计了一种改进的权值更新规则,放松对于初始稳定控制策略的要求,有益于系统状态信息更加有效的利用,使得训练过程更加充分,实现了基于迭代学习的近似最优跟踪控制。
附图说明
图1为四旋翼飞行器物理结构图;
图2为四旋翼飞行器鲁棒跟踪控制结构流程图;
图3为评价神经网络权值收敛过程图;
图4为位置和姿态误差子系统随机风力扰动曲线图;
图5为空气阻尼系数随机波动曲线图;
图6为四旋翼飞行器跟踪误差状态曲线图;
图7为随机风力扰动下四旋翼飞行器控制信号图;
图8为随机风力扰动下耦合不确定性曲线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
动态规划是一种处理非线性系统最优控制问题的经典策略。作为强化学习的一个重要分支,自适应动态规划(adaptive dynamic programming,ADP)基于神经网络、向量机、多项式等函数的近似能力,采用迭代算法逼近求解非线性系统的最优控制问题,避免了动态规划在非线性系统中的维数灾难问题。近年来,基于学习的自适应动态规划方法也被逐步应用于电网、机械臂、迷宫导航等领域。本发明实施例中采用ADP方法,设计了一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法。
本发明实施例针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析,建立四旋翼飞行器位置、姿态跟踪误差子系统。将四旋翼跟踪误差系统分为拥有时变、耦合不确定的位置误差子系统和拥有时变不确定的姿态误差子系统,采用最优控制方案分别设计鲁棒控制策略,其中ADP方法采用神经网络进行实现。针对神经网络的训练过程,创新性地设计了一种改进的权值更新规则,放松对于初始稳定控制策略的要求,有益于系统状态信息更加有效的利用,使得训练过程更加充分,实现了基于迭代学习的近似最优跟踪控制。
实施例1
一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,包括如下步骤:
步骤1)针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析,建立四旋翼飞行器跟踪误差模型,包括位置跟踪误差子系统、姿态跟踪误差子系统;
步骤2)获取姿态跟踪误差子系统的状态空间模型,定义位置跟踪误差子系统的耦合不确定性,建立位置跟踪误差子系统状态空间模型;
步骤3)考虑时变不确定性特性、耦合不确定性特性,针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统,建立考虑耦合不确定项的代价函数;基于代价函数,求解得到最优控制率;
即将上述的最优控制率作为鲁棒跟踪控制器。
其中,标称系统指不考虑不确定性的系统,为本领域的专有术语,在此不做赘述。
步骤4)基于自适应动态规划方法,设计改进的神经网络权值更新规则,近似求解得到鲁棒跟踪控制器,实现基于迭代学习的近似最优跟踪控制。
在上述技术方案中,步骤1)进一步包括下述步骤:
(1-1)四旋翼飞行器的物理结构图如图1所示。四旋翼飞行器由四个高速转子带动螺旋桨提供向上的升力,可以分别表示为Fl(t),l=1,2,3,4,其中是常系数,ωl(t)代表转子转速。表示参考坐标系,选取垂直向上的方向为z轴正方向 为机体坐标系,且设重心位置为机体坐标系的原点。在参考坐标系下,四旋翼飞行器的位置状态向量定义为ξ,且ξ=[x,y,z]T,姿态状态向量为且φ,θ和ψ分别代表四旋翼飞行器的横滚,俯仰和偏航姿态角。
为便于阅读,这里给出如下公式变量声明:形如变量a(t),表示变量a(t)的一阶导数,表示变量a(t)的二阶导数;表示函数▽F(t)关于变量a的偏导数;表示a(t)属于实数集形如矩阵A,AT表示矩阵A的转置,表示A为n维列向量,表示A为m×n维矩阵;表示函数F(t)在t到∞上的积分。
(1-2)基于以上定义,四旋翼飞行器的动力学模型可以如下表示:
其中,表示四旋翼飞行器的质量,表示实数集。P为转动惯量。R1=[cosφsinθcosψ+sinφsinψ,cosφsinθsinψ-sinφcosψ,cosφcosθ]T矩阵是关于四旋翼飞行器位置状态与姿态状态的耦合项。G=[0,0,mg]T,g是重力加速度。
R2=diag[l,l,c]是常值转矩矩阵,l表示每个螺旋桨转子的升力臂,c是力矩系数。
K1=diag[k1,k2,k3]和K2=diag[k4l,k5l,k6]分别是针对平移和旋转运动的空气阻尼系数矩阵,其中k1,,k6是阻尼系数。ε1(t)=[εx(t),εy(t),εz(t)]T和ε2(t)=[εφ(t),εθ(t),εψ(t)]T分别表示平移和旋转运动中的有界时变信号。为四旋翼飞行器的升力。U2(t)=[uφ,uθ,uψ]T是与旋转运动横滚,俯仰和偏航角度相关的控制信号。
(1-3)考虑实际飞行控制,提出的控制策略应该通过控制四个转子的转速来控制四旋翼飞行器。通过设计基于学习的鲁棒跟踪控制策略U1(E1)=[ux,uy,uz]T和U2(E2)=[uφ,uθ,uψ]T,可以求解下面的方程(2),进而得到四个转子在实际控制中需要提供的升力Fl(t),=1,2,3,4。通过关系式Fl(t)=βlωl(t),可以进一步得到实际飞行中四个转子需要的转速ωl(t)。
其中,uα(t)可以通过下面的公式(7)求出,uφ,uθ和uψ通过设计鲁棒控制策略U2(E2)得到。因此,四旋翼飞行器飞行控制中,可以通过求解跟踪误差子系统鲁棒控制策略来计算得到期望转子转速。
在上述技术方案中,步骤2)进一步包括下述步骤:
其中,e1(t)和e2(t)分别表示位置子系统的位置误差和位置误差导数,e3(t)和e4(t)分别表示姿态子系统的姿态误差和姿态误差导数。ex和表示x方向位置误差和位置误差导数,同理ey和ez和eφ和表示横滚姿态误差和横滚姿态误差导数,同理eθ和eψ和
因此,结合公式(1)和(3),系统的跟踪误差模型可以有如下表示:
(2-2)进而,结合公式(4)和(5),四旋翼飞行器跟踪控制问题已经转化为跟踪误差子系统的镇定控制问题。公式(4)中,定义体现位置跟踪误差子系统的耦合不确定性,U1(t)=[μ1(t),μ2(t),μ3(t)]T为虚拟控制变量:
通过反解上式,控制率uα(t)和目标姿态角度φd(t),θd(t)可以被求解:
需要注意的是:在公式(7)中,虚拟控制策略U1(t)=[μ1(t),μ2(t),μ3(t)]T会被提出的鲁棒跟踪控制策略U1(E1)=[ux,uy,uz]T取代,即令U1(t)=U1(E1)。
基于步骤3)中的鲁棒跟踪控制律U1(E1),进一步可以得到控制策略中的uα(t),φd(t)和θd(t)。接下来,将主要针对系统位置和姿态状态的跟踪控制问题而展开,具体涉及跟踪误差系统的时变不确定性与耦合不确定性的处理。
(2-3)时变不确定性:通过忽略位置子系统中的耦合不确定fσ(t),四旋翼飞行器的位置跟踪误差子系统可以表示为:
其中
其中,03×3表示3×3零矩阵,I3×3表示3×3单位矩阵。基于公式(5),姿态跟踪误差子系统可以表示为:
其中
U1(E1)=[ux,uy,uz]T和U2(E2)=[uφ,uθ,uψ]T是待设计的基于迭代学习的鲁棒跟踪控制策略。ε1(t)和ε2(t)是时变不确定信号,因此,分别定义d1(t)和d2(t)为位置和姿态跟踪误差子系统的时变不确定性。位置参考状态ξd满足和姿态参考状态满足和因此,d1(t)和d2(t)可以分别简化为d1(t)=1/m·ε1(t)和d2(t)=P-1ε2(t)。
(2-4)耦合不确定性:对于位置跟踪误差子系统中耦合不确定性的考虑,结合公式(4)和(5),位置和姿态跟踪误差子系统可以表示为如下形式:
其中,U1(E1(t))和U2(E2(t))是待设计的鲁棒跟踪控制策略。为了反应设计的鲁棒控制策略对于系统响应和耦合项的影响,fσ′(t)在公式(10)中进行了定义。
公式(7)中令U1(t)=[μ1(t),μ2(t),μ3(t)]T=U1(E1(t)),可以得到uα(t),φd(t)和θd(t),进一步,U1'(t)表示虚拟策略,可以基于公式(6)得到。这里,反映了两个跟踪误差子系统间的耦合不确定性,U1'(t)用于减小耦合不确定性对位置跟踪误差子系统的影响。
本发明对于时变不确定性d1(t)和d2(t),以及表示系统耦合不确定性的耦合项在系统建模中进行了考虑。U1'(t)是与飞行控制过程中的期望转角[φd,θd,ψd]T相关并基于公式(6)计算得出的,而U1(E1(t))将在步骤3)中进行详细设计。
在上述技术方案中,步骤3)进一步包括下述步骤:
(3-1)针对四旋翼飞行器中的时变不确定以及耦合不确定问题,定义位置、姿态跟踪误差子系统的标称系统,设计鲁棒跟踪控制策略。为了便于分析设计,考虑时变、耦合不确定性的四旋翼飞行器的动态模型如下:
结合公式(10)和(11),公式(12)表示原始的位置和姿态跟踪误差子系统,下标分别为1和2。进一步,标称跟踪误差系统可以表示为:
(3-2)通过对于四旋翼飞行器的模型动态进行分析,可知模型中的时变不确定可视作系统的匹配型不确定性。两个跟踪误差子系统对于耦合不确定性的处理不同,耦合不确定性仅存在与位置跟踪误差子系统之中。而耦合问题也表示了四旋翼飞行器姿态角度对于位置状态的动态影响,为了在控制策略中体现两个子系统的耦合作用,在代价函数单独设计出此项。因此,定义代价函数为:
其中,η是正常数,Uu(Ei(t),Vi(Ei(t)))为效用函数,‖Dm(Ecou)‖为系统扰动代价项,与耦合不确定性相关。
为了简化公式描述,在下面的公式推导中,变量Ji(Ei(t))和Vi(Ei(t))中的时间变量t被省略了。效用函数Uu(Ei(t),Vi(Ei))在均衡点处等于零,并且定义为:
其中,Qi和Mi为适当维数的正定矩阵。‖Dm(Ecou)‖2可以通过下式计算:
‖Dm(Ecou)‖2=‖fσ′(t)‖ (16)
需要注意的是,‖Dm(Ecou)‖2只与系统的耦合不确定性相关。因此,在姿态跟踪误差子系统的代价函数中,需要设‖Dm(Ecou)‖=0。
(3-3)公式(13)-(16)描述了标称跟踪误差子系统的最优控制问题。可以看出,新定义的代价函数(14)包括扰动代价,即与耦合不确定相关的项。基于代价函数(14),对标称跟踪误差系统(13)设计最优跟踪控制率V1(E1)=[vx(t),vy(t),vz(t)]T和V2(E2)=[vφ(t),vθ(t),vψ(t)]T,且该最优控制率为容许控制。对于连续可微的代价函数(14),哈密尔顿方程如下:
(3-4)进一步,将最优控制率带入公式(19)可得修正的HJB方程如下:
在上述技术方案中,步骤4)进一步包括下述步骤:
(4-1)为了避免求解非线性偏微分方程(21),本发明基于策略迭代算法,近似求解最优控制策略。进一步,提出一种改进的神经网络权值更新规则,实现对于系统状态信息更加有效的利用,放松了对于初始稳定控制策略的要求。
基于ADP的策略迭代算法,给出如下算法流程:
算法1:近似求解HJB方程的策略迭代算法
c:更新控制率
(4-2)下面以策略迭代算法为基础,基于单网络自适应评价结构,应用神经网络近似求解最优控制器。以下为具体实现流程:
为了近似位置和姿态跟踪误差子系统的最优代价函数,设计两个单隐层评价网络。系统误差状态Ei(t),i=1,2分别作为两个评价网络的输入。基于公式(8)和(9),可知四旋翼飞行器在x,y,z和φ,θ,ψ方向上是相互解耦的。由于误差状态Ei(t),i=1,2分别对应两个跟踪误差子系统的状态ex(t),ey(t),ez(t)和eφ(t),eθ(t),eψ(t),因此,建立评价网络用于近似最优代价函数。最优代价函数可以表示为如下形式:
进而,定义哈密尔顿误差τi(t),i=1,2
公式(32)中,第一项是基于公式(31)推导而来。进而,对于策略迭代算法,如果神经网络权值没有选取合适的初始值,将会影响训练过程结果的有效性甚至造成训练过程发散的状况。通过分析得知,神经网络权值调整的过程非常依赖权值初始取值大小,这一定程度上弱化了系统状态在神经网络训练过程的作用,减小了算法本身的自适应性。因此,公式(32)中的第二项用于强化系统状态在权值训练过程的重要性,增强神经网络对于系统状态变化的敏感性,提高算法的自适应性能,使训练过程更加充分。
进而,基于神经网络权值更新规则(32),将公式(29)带入(20)中,有近似最优跟踪控制策略:
近似最优跟踪控制策略(33)可以更新估计误差计算Γi(t),i=1,2,进而得到新的权值于是,可以更新评价网络输出以及新的跟踪控制策略至此,对于四旋翼飞行器系统时变和耦合不确定性问题,设计了基于迭代学习的鲁棒跟踪控制策略。图2中给出了详细的鲁棒控制结构流程图。
实施例2
为使本领域技术人员更好的理解本发明,下面结合具体实施例,对基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法进行详细说明。
四旋翼飞行器系统主要参数如下给出:转动惯量p1=p2=0.16N·m,p3=0.32N·m;力臂长度l=0.4m;力矩系数c=0.05m;四旋翼飞行器质量m=2.33kg;重力加速度g=9.8m·s2。ki,i=1,,6表示空气阻尼系数,并且满足0.007≤k1,k2,k3≤0.013和0.0084≤k4,k5,k6≤0.0156。
空气阻尼系数的标称值设为k1=k2=k3=0.01和k4=k5=k6=0.012。由于四旋翼飞行器在位置子系统中x-,y-,z-方向是相互解耦的,因此,可以对位置跟踪误差子系统中状态顺序进行调节,得到实现其在三个方向上的解耦表示,且误差系统原本的响应特性没有因此受到影响。同理,对于姿态跟踪误差子系统,在φ-,θ-,ψ-方向也是相互解耦的,同样可以进行类似变换得到:
基于四旋翼飞行器动态模型(8)和(9),系统动态中的fi(Ei)和gi可以表示为:
基于公式(18),最优代价函数可以表示为:
其中,Q1=1.2I,M1=1.4I,Q2=1.7I和M2=1.9I分别是位置和姿态跟踪误差子系统的正定矩阵,I为对应维数的单位矩阵。鲁棒最优控制策略基于公式(33)得到。
在算法训练过程中,评价神经网络均选取输入层6个神经元,隐藏层9个神经元,输出层3个神经元的网络结构。对于位置跟踪误差子系统,x-方向的激活函数设计为各项系数为通过实验分析改进得到的。进而,对于y-和z-方向的激活函数和都可以得到。对于位置跟踪误差子系统,激活函数表示为如下形式:
评价神经网络权值设为并基于公式(32)进行更新。神经网络主要学习率分别为γc1=0.45和γc2=0.5,辅助学习率分别为γs1=0.1和γs2=0.12。最后,位置与姿态跟踪误差子系统权值分别收敛于稳定值,图3中给出了位置和姿态跟踪误差子系统中x-和φ-方向的权值收敛过程作为示例。基于公式(33),可以得到近似最优跟踪控制策略。
实施例中研究了四旋翼飞行器在风力干扰影响下,所提出方法的控制性能。如图4所示,在控制过程中加入了随机扰动模拟风力扰动。图5中,平移和旋转运动的空气阻尼系数在风的影响下也会发生很大的变化,这与参数不确定性相关。实施例中,位置子系统耦合不确定性将在测试结果中有所体现。
测试过程中,令四旋翼飞行器从初始位置[x,y,z]=[0,0,0]米移动到参考位置[1.5,2.5,3],[2.5,0.5,1.5],[0.5,3.5,4.5],[3,5.5,2]和[0,6.5,3.5]米。具体状态跟踪过程见图6,四旋翼飞行器在考虑随机风力扰动和空气阻尼系数不确定的同时,仍然可以快速稳定地跟踪参考状态,且位置和姿态跟踪误差状态均可以收敛到很小的范围。两个子系统的控制信号如图7所示。图8显示了测试过程中始终存在的耦合不确定性。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,其特征在于,所述方法包括:
1)针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析,建立位置跟踪误差子系统、姿态跟踪误差子系统;
2)获取姿态跟踪误差子系统的状态空间模型,定义位置跟踪误差子系统的耦合不确定性,建立位置跟踪误差子系统状态空间模型;
3)考虑时变不确定性特性、耦合不确定性特性,针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统,建立考虑耦合不确定项的代价函数;基于代价函数,求解得到最优控制率;
4)基于自适应动态规划方法,设计改进的神经网络权值更新规则,近似求解得到鲁棒跟踪控制器,实现基于迭代学习的近似最优跟踪控制。
2.根据权利要求1所述的一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,其特征在于,所述定义位置跟踪误差子系统的耦合不确定性,建立位置跟踪误差子系统状态空间模型具体为:
其中,U1(E1(t))是待设计的鲁棒跟踪控制策略,f′σ(t)是位置跟踪误差子系统的耦合项,d1(t)为位置跟踪误差子系统的时变不确定性,f1(E1(t))为位置跟踪误差子系统动态,g1(.)为控制增益矩阵;
5.根据权利要求1所述的一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法,其特征在于,所述步骤4)具体为:
建立评价网络,推导得到哈密尔顿误差,其中包含耦合不确定性的影响,定义二次型误差函数;
设计改进的神经网络权值更新规则,放松对于初始稳定控制策略的要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010428659.2A CN111650830A (zh) | 2020-05-20 | 2020-05-20 | 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010428659.2A CN111650830A (zh) | 2020-05-20 | 2020-05-20 | 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111650830A true CN111650830A (zh) | 2020-09-11 |
Family
ID=72342025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010428659.2A Withdrawn CN111650830A (zh) | 2020-05-20 | 2020-05-20 | 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111650830A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112327626A (zh) * | 2020-11-14 | 2021-02-05 | 西北工业大学 | 基于数据分析的飞行器通道耦合协调控制方法 |
CN112455727A (zh) * | 2021-02-01 | 2021-03-09 | 北京航空航天大学 | 飞行器系统的布局方法、装置、可读存储介质及电子设备 |
CN113219842A (zh) * | 2021-06-10 | 2021-08-06 | 哈尔滨工业大学 | 基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质 |
CN113311705A (zh) * | 2021-05-19 | 2021-08-27 | 广州大学 | 针对机器鱼的高阶迭代自学习控制方法、装置及存储介质 |
CN113359473A (zh) * | 2021-07-06 | 2021-09-07 | 天津大学 | 基于迭代学习的微小型无人直升机非线性控制方法 |
CN113885548A (zh) * | 2021-10-28 | 2022-01-04 | 南京邮电大学 | 一种多四旋翼无人机输出约束状态一致博弈控制器 |
CN113885328A (zh) * | 2021-10-18 | 2022-01-04 | 哈尔滨理工大学 | 一种基于积分强化学习的核电功率跟踪控制方法 |
CN114675664A (zh) * | 2022-03-28 | 2022-06-28 | 中南大学 | 基于自适应动态规划的四旋翼视觉伺服控制方法 |
CN114942649A (zh) * | 2022-06-06 | 2022-08-26 | 北京石油化工学院 | 一种基于反步法的飞机俯仰姿态与航迹角解耦控制方法 |
CN116661478A (zh) * | 2023-07-27 | 2023-08-29 | 安徽大学 | 基于强化学习的四旋翼无人机预置性能跟踪控制方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108132604A (zh) * | 2017-12-27 | 2018-06-08 | 北京航空航天大学 | 基于四元数的四旋翼飞行器鲁棒姿态控制方法、装置及系统 |
-
2020
- 2020-05-20 CN CN202010428659.2A patent/CN111650830A/zh not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108132604A (zh) * | 2017-12-27 | 2018-06-08 | 北京航空航天大学 | 基于四元数的四旋翼飞行器鲁棒姿态控制方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
CHAOXU MU等: "Learning-Based Robust Tracking Control of Quadrotor With Time-Varying and Coupling Uncertainties", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112327626A (zh) * | 2020-11-14 | 2021-02-05 | 西北工业大学 | 基于数据分析的飞行器通道耦合协调控制方法 |
CN112327626B (zh) * | 2020-11-14 | 2022-06-21 | 西北工业大学 | 基于数据分析的飞行器通道耦合协调控制方法 |
CN112455727A (zh) * | 2021-02-01 | 2021-03-09 | 北京航空航天大学 | 飞行器系统的布局方法、装置、可读存储介质及电子设备 |
CN112455727B (zh) * | 2021-02-01 | 2021-04-20 | 北京航空航天大学 | 飞行器系统的布局方法、装置、可读存储介质及电子设备 |
CN113311705A (zh) * | 2021-05-19 | 2021-08-27 | 广州大学 | 针对机器鱼的高阶迭代自学习控制方法、装置及存储介质 |
CN113311705B (zh) * | 2021-05-19 | 2022-03-25 | 广州大学 | 针对机器鱼的高阶迭代自学习控制方法、装置及存储介质 |
CN113219842A (zh) * | 2021-06-10 | 2021-08-06 | 哈尔滨工业大学 | 基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质 |
CN113359473B (zh) * | 2021-07-06 | 2022-03-11 | 天津大学 | 基于迭代学习的微小型无人直升机非线性控制方法 |
CN113359473A (zh) * | 2021-07-06 | 2021-09-07 | 天津大学 | 基于迭代学习的微小型无人直升机非线性控制方法 |
CN113885328A (zh) * | 2021-10-18 | 2022-01-04 | 哈尔滨理工大学 | 一种基于积分强化学习的核电功率跟踪控制方法 |
CN113885548A (zh) * | 2021-10-28 | 2022-01-04 | 南京邮电大学 | 一种多四旋翼无人机输出约束状态一致博弈控制器 |
CN113885548B (zh) * | 2021-10-28 | 2023-10-31 | 南京邮电大学 | 一种多四旋翼无人机输出约束状态一致博弈控制器 |
CN114675664A (zh) * | 2022-03-28 | 2022-06-28 | 中南大学 | 基于自适应动态规划的四旋翼视觉伺服控制方法 |
CN114675664B (zh) * | 2022-03-28 | 2024-08-27 | 中南大学 | 基于自适应动态规划的四旋翼视觉伺服控制方法 |
CN114942649A (zh) * | 2022-06-06 | 2022-08-26 | 北京石油化工学院 | 一种基于反步法的飞机俯仰姿态与航迹角解耦控制方法 |
CN114942649B (zh) * | 2022-06-06 | 2022-12-06 | 北京石油化工学院 | 一种基于反步法的飞机俯仰姿态与航迹角解耦控制方法 |
CN116661478A (zh) * | 2023-07-27 | 2023-08-29 | 安徽大学 | 基于强化学习的四旋翼无人机预置性能跟踪控制方法 |
CN116661478B (zh) * | 2023-07-27 | 2023-09-22 | 安徽大学 | 基于强化学习的四旋翼无人机预置性能跟踪控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111650830A (zh) | 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法 | |
CN107608367B (zh) | 多变量干扰补偿四旋翼无人机轨迹与姿态协同控制方法 | |
Zhu et al. | Output Feedback Adaptive Dynamic Surface Sliding‐Mode Control for Quadrotor UAVs with Tracking Error Constraints | |
CN110908281A (zh) | 无人直升机姿态运动有限时间收敛强化学习控制方法 | |
CN101937233B (zh) | 近空间高超声速飞行器非线性自适应控制方法 | |
CN112987567B (zh) | 非线性系统的固定时间自适应神经网络滑模控制方法 | |
CN110347170B (zh) | 可重复使用运载器再入段鲁棒容错制导控制系统及工作方法 | |
CN111781942B (zh) | 一种基于自构造模糊神经网络的容错飞行控制方法 | |
CN109164708B (zh) | 一种高超声速飞行器神经网络自适应容错控制方法 | |
Savran et al. | Intelligent adaptive nonlinear flight control for a high performance aircraft with neural networks | |
CN113759979B (zh) | 基于事件驱动的无人机吊挂系统在线轨迹规划方法 | |
Li et al. | Finite-time control for quadrotor based on composite barrier Lyapunov function with system state constraints and actuator faults | |
CN115793453A (zh) | 融合ai深度学习的旋翼飞行器轨迹跟踪自适应控制方法 | |
CN111273544B (zh) | 基于预测rbf前馈补偿型模糊pid的雷达俯仰运动控制方法 | |
CN112327926B (zh) | 一种无人机编队的自适应滑模控制方法 | |
CN113268084A (zh) | 一种无人机编队智能容错控制方法 | |
CN114815861A (zh) | 一种基于时空径向基函数神经网络的容错飞行控制方法 | |
CN112363524A (zh) | 一种基于自适应增益扰动补偿的再入飞行器姿态控制方法 | |
CN113741188A (zh) | 执行器故障下固定翼无人机反步自适应容错控制方法 | |
CN114721266B (zh) | 飞机舵面结构性缺失故障情况下的自适应重构控制方法 | |
Qiu et al. | Robust path‐following control based on trajectory linearization control for unmanned surface vehicle with uncertainty of model and actuator saturation | |
CN113568423A (zh) | 一种考虑电机故障的四旋翼无人机智能容错控制方法 | |
Glida et al. | Trajectory tracking control of a coaxial rotor drone: Time-delay estimation-based optimal model-free fuzzy logic approach | |
CN116382332B (zh) | 一种基于ude的战斗机大机动鲁棒飞行控制方法 | |
CN111176117B (zh) | 一种无人直升机的模糊自适应弹性控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200911 |