CN112034872B - 一种四旋翼无人机积分补偿确定性策略梯度控制方法 - Google Patents

一种四旋翼无人机积分补偿确定性策略梯度控制方法 Download PDF

Info

Publication number
CN112034872B
CN112034872B CN202010895952.XA CN202010895952A CN112034872B CN 112034872 B CN112034872 B CN 112034872B CN 202010895952 A CN202010895952 A CN 202010895952A CN 112034872 B CN112034872 B CN 112034872B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
quad
controller
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010895952.XA
Other languages
English (en)
Other versions
CN112034872A (zh
Inventor
孙长银
王远大
孙佳
刘剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010895952.XA priority Critical patent/CN112034872B/zh
Publication of CN112034872A publication Critical patent/CN112034872A/zh
Application granted granted Critical
Publication of CN112034872B publication Critical patent/CN112034872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本专利公开了一种四旋翼无人机积分补偿确定性策略梯度控制方法。本发明使用深度神经网络对四旋翼无人机的控制器进行表示,将四旋翼无人机的运动状态通过深度神经网络直接映射到四个电机的控制指令,使用机器学习算法根据奖励反馈信号对深度神经网络进行训练,最终获得满足控制需求的控制器。本方法可以直接使用带有复杂非线性特性的四旋翼无人机数学模型进行训练,通过引入积分补偿机制结合确定性策略梯度算法进行训练,可以提高训练得到的控制器的鲁棒性和精确性。

Description

一种四旋翼无人机积分补偿确定性策略梯度控制方法
技术领域
本发明属于无人机控制领域,涉及一种四旋翼无人机积分补偿确定性策略梯度控制方法。
背景技术
小型四旋翼无人机以其机械结构简单、使用成本低廉等优势在航空摄影、农业植保、社会治安、电力巡检、灾害评估与搜救等各个方面都发挥了巨大的作用。四旋翼无人机高效稳定的运动控制是其完成各类飞行任务的关键。四旋翼无人机的动力学模型是一个不稳定的系统,具有欠驱动、非线性、强耦合的特性。对于这样的系统模型的控制本身具有较大的难度。各类四旋翼无人机在使用材料、机身尺寸、机体重量、气动外形方面各不相同。其转动惯量、空气阻力系数等建模的关键参数实际上难以准确测量。另外考虑到四旋翼在实际飞行中,还面临各种外部的干扰,例如阵风干扰、任务配载变化等问题。
针对四旋翼无人机控制问题中动态模型参数未知和外部扰动未知的问题,国内高校和研究机构也给出了一些解决方法。例如基于全局滑模控制的方法(专利:一种四旋翼无人机控制方法;申请号:201610361685.1),该方法将全局滑模控制的动态滑模面的衰减函数设计为由三个指数函数项组成的一阶可导函数,使其能在在有限时间内衰减到零,从而提高四旋翼无人机的动态响应速度。这类基于变结构控制理论的四旋翼控制方法主要有两方面的问题:(1)在设计控制器时对四旋翼的非线性数学模型进行了较大的简化,并且对无人机的运动状态加以限制,只能应用于小倾斜角的飞行姿态。因此通过数学推算得到的控制器在实际中难以达到理论上的效果。(2)控制器待定参数较多,并且没有明确的选取范围和方法,在实际应用中选取这些参数具有较大的困难。
发明内容
针对现有的控制方法的不足之处,本发明提供一种四旋翼无人机积分补偿确定性策略梯度控制方法,解决因控制器设计过程中数学模型简化引发的不良影响,以及控制器待定参数较多带来的问题,
本发明采用的技术方案是使用深度神经网络构建四旋翼无人机的控制器,将四旋翼无人机的运动状态通过深度神经网络直接映射到四个电机的控制指令,使用积分补偿确定性策略梯度算法,根据奖励反馈信号对深度神经网络进行训练,不断更新其参数,最终获得满足控制响应需求的控制器。
本专利提供一种四旋翼无人机积分补偿确定性策略梯度控制方法,包括如下步骤:
步骤S1,建立无人机非线性数学模型,如下式所示:
Figure BDA0002658457490000021
其中φ、θ、ψ分别表示四旋翼无人机的滚转、俯仰、偏航三个姿态角;
Figure BDA0002658457490000022
分别表示三个姿态角度的二阶导数;x、y、z分别表示四旋翼无人机在地理三维坐标系下的位置;
Figure BDA0002658457490000023
代表三个位置的二阶导数;L=0.2m为四旋翼飞行器的力臂长度;K=8.78为四旋翼飞行器电机的推力系数;Kψ=0.4为电机的反扭矩系数;Ix=0.03kg·m2、Iy=0.03kg·m2、Iz=0.04kg·m2为四旋翼无人机绕机体三轴的转动惯量;m=1.79kg为四旋翼的总质量;g=9.81m/s2为重力加速度常数;sin和cos分别为正弦和余弦函数,四旋翼无人机的运动状态量表示为:
Figure BDA0002658457490000024
其中
Figure BDA0002658457490000025
为三个姿态角度的一阶导数,即三轴角速度,
Figure BDA0002658457490000026
为三维速度误差值,定义为
Figure BDA0002658457490000027
其中
Figure BDA0002658457490000028
为四旋翼无人机三维位置坐标的一阶导数,即三维速度值;
Figure BDA0002658457490000029
为四旋翼无人机的三维目标速度值;下标t表示时间步数,四旋翼无人机的控制量表示为:a=[u1,u2,u3,u4];
步骤S2,建立由神经网络表示的控制器和评价器,即控制器网络和评价器网络,控制器网络的输入端连接有积分补偿器,积分补偿器将四旋翼无人机的速度误差状态
Figure BDA00026584574900000210
通过积分的方式补偿为其按照时间积分的形式,例如X轴速度误差的积分形式表示为:
Figure BDA00026584574900000211
其中符号的上标t表示时间步,其中t=T表示当前时间步,若将上标省略,则默认表示当前时间步,
Figure BDA00026584574900000212
表示在当前时间步四旋翼无人机X轴方向的速度误差值,
Figure BDA00026584574900000213
表示在当前时间步通过积分补偿器得到的X轴速度误差补偿值,β=0.01为积分增益,同理可以得到Y轴和Z轴速度误差的积分补偿形式,
Figure BDA00026584574900000214
Figure BDA00026584574900000215
控制器网络的输入层表示为:
Figure BDA00026584574900000216
控制器网络具有两个隐含层,每层包含128个隐节点,控制器网络每一层都使用Sigmoid函数,控制器网络的输出为四旋翼无人机的控制输入,表示为a=[u1,u2,u3,u4],控制器网络整体表示为:a=Aμ(sc),其中μ表示该网络的所有参数,评价器网络的输入层表示为:
Figure BDA00026584574900000217
Figure BDA00026584574900000218
评价器网络具有两个隐含层,每层包含128个隐节点,评价器网络的前三层的激活函数为Sigmoid函数,最后一层使用的为Linear函数,输出表示为状态-动作值:q,评价器网络整体表示为:q=Qw(s,a),其中w表示该网络的所有参数,
步骤S3,根据控制目标设计奖励函数R,奖励函数值r可以通过四旋翼状态量计算得到,其具体设计为:
Figure BDA0002658457490000031
步骤S4,使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据;
步骤S5,根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器;
步骤S6,根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制。
作为本发明进一步改进,步骤S4中使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据具体的执行步骤包括步骤S4-1到步骤S4-9;
步骤S4-1,随机初始化控制器和评价器,控制器和评价器用步骤S2中所示神经网络分别表示,控制器网络连接的权值参数μ以及评价器网络连接的权值参数w,可以使用均值为0,方差为0.01的高斯分布随机数进行初始化,另外初始化评价器网络的目标网络,表示为q′=Qw′(s,a),其结构与评价器网络完全相同,其参数w′的初始值与评价器网络的参数w也是相同的;
步骤S4-2,初始化四旋翼无人机的状态,在安全范围内随机初始化四旋翼的运动状态和目标速度,安全范围设置为:姿态角速度
Figure BDA0002658457490000032
姿态角
Figure BDA0002658457490000033
运动速度和目标速度
Figure BDA0002658457490000034
步骤S4-3,获取四旋翼初始状态,其包括四旋翼的自身的运动传感量
Figure BDA0002658457490000035
以及目标速度
Figure BDA0002658457490000036
进而可以计算出四旋翼无人机的运动状态量
Figure BDA0002658457490000037
步骤S4-4,状态误差积分补偿,通过步骤S2中所述积分补偿的计算方法,将四旋翼的运动状态量通过积分补偿获得补偿状态量
Figure BDA0002658457490000038
步骤S4-5,计算电机控制量,将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,可以得到四旋翼每个电机的控制量a=[u1,u2,u3,u4];
步骤S4-6,将得到的每个电机的控制量a=[u1,u2,u3,u4]输入到四旋翼的数学模型中,依据非线性方程组对无人机运动状态进行仿真控制运算;
步骤S4-7,从四旋翼数学模型的非线性方程组的运算结果中选取下一步的四旋翼无人机的运动状态量
Figure BDA0002658457490000039
步骤S4-8,将前一步的运动状态量s、后一步的运动状态量s′、输入的控制量a、奖励函数值r=R(s′),合并为一组数据,表示为:ek=(s,a,r,s′)k,并将其保存到实验数据存储器中,其中下标k表示该组数据在实验数据存储器中的顺序号;
步骤S4-9,判断四旋翼无人机下一步状态量s′是否超出安全范围或者仿真时间超过最大时长,最大时长设置为5s,即500个时间步,如果超出了安全范围或者最大时长,则返回步骤S4-2,重新初始化四旋翼状态和目标速度并进行下一组控制仿真实验;如果没有超出,则进入下一步。
作为本发明进一步改进,步骤S5根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器,其具体的执行步骤包括步骤S3-1到步骤S3-5;
步骤S5-1,更新评价器,首先从实验数据存储器中随机抽取N=128组实验数据:[e1,e2,...,eN],抽取的任意一组数据表示为ei=(si,ai,ri,s′i),其中下标i表示在抽取的N组数据中的序号,根据以下公式使用批量式梯度下降法对评价器网络Qw(s,a)的参数w进行更新:
Figure BDA0002658457490000041
其中
Figure BDA0002658457490000042
为梯度的表示符号,←为赋值更新符号,γ表示折扣因子,可以取0.99,其中α表示更新速率,可以取0.001,然后根据以下公式使用批量式梯度上升法对控制器网络Aμ(s)的参数μ进行更新:
Figure BDA0002658457490000043
最后根据以下公式对评价网络的目标网络Qw′(s,a)的参数w′进行更新:
w′←ηw+(1-η)w′
其中η=0.002为参数更新速率;
步骤S5-2,判断训练是否达到预期目标,使用奖励函数值的滑动平均值判断训练得到的控制器是否达到了预期的控制效果,滑动平均的窗口取50000步,评判预期控制效果的判别阈值根据实际控制需求进行选取,若滑动平均值低于判别阈值则需要返回步骤S4-4,继续进行仿真控制实验和网络参数的更新;若滑动平均值超过判别阈值,则代表当前控制器已经满足控制目标需求,可以进入下一步
步骤S5-3,保存控制器网络。
作为本发明进一步改进,步骤S6根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制,其具体执行步骤为包括步骤S6-1到步骤S6-5;
步骤S6-1,通过四旋翼无人机机载传感器获得无人机当前运动状态,包括姿态角速度、姿态角度、速度、位置,表示为:
Figure BDA0002658457490000044
同时获得当前的控制指令,即目标位置[xd,yd,zd];
步骤S6-2,通过外环比例控制器将目标位置转换为目标速度,比例控制器可以表示为:
Figure BDA0002658457490000045
其中Kp为比例控制系数,可以根据实际任务的动态性能需求进行选取,sat为饱和函数,保证转换得到的目标速度在安全范围之内,同理可以得到其他两个方向的目标速度
Figure BDA0002658457490000051
Figure BDA0002658457490000052
进而得到实际四旋翼无人机的运动状态量
Figure BDA0002658457490000053
步骤S6-3,使用积分补偿的计算方法,将四旋翼的运动状态量通过积分补偿获得补偿状态量
Figure BDA0002658457490000054
步骤S6-4,将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,得到四旋翼每个电机的控制量a=[u1,u2,u3,u4],并通过硬件控制器发送给每个电机;
步骤S6-5,反复执行步骤S6-1到S6-4,直到四旋翼无人机抵达目标位置。
本发明有益效果如下:
本发明所述基于积分补偿确定性策略梯度算法的四旋翼无人机控制方法可以直接使用带有复杂非线性特性的四旋翼无人机数学模型进行训练,并得到符合设计目标的控制器,减轻了由于模型简化对控制器设计带来的不良影响。所述训练算法通过引入积分补偿器结构,并且使用带有积分补偿的确定性策略梯度算法进行训练,可以提高训练得到的控制器的鲁棒性和精确性。
附图说明
图1是本发明使用的控制器网络、评价器网络结构示意图;
图2是本发明使用积分补偿确定性策略梯度算法执行步骤示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明采用的技术方案是使用深度神经网络构建四旋翼无人机的控制器,将四旋翼无人机的运动状态通过深度神经网络直接映射到四个电机的控制指令,使用积分补偿确定性策略梯度算法,根据奖励反馈信号对深度神经网络进行训练,不断更新其参数,最终获得满足控制响应需求的控制器。
下面介绍本发明所提出的基于积分补偿确定性策略梯度算法的四旋翼无人机控制方法的具体实施方式,具体步骤如下:
步骤S1,建立无人机非线性数学模型,如下式所示:
Figure BDA0002658457490000055
其中φ、θ、ψ分别表示四旋翼无人机的滚转、俯仰、偏航三个姿态角;
Figure BDA0002658457490000056
分别表示三个姿态角度的二阶导数;x、y、z分别表示四旋翼无人机在地理三维坐标系下的位置;
Figure BDA0002658457490000061
代表三个位置的二阶导数;L=0.2m为四旋翼飞行器的力臂长度;K=8.78为四旋翼飞行器电机的推力系数;Kψ=0.4为电机的反扭矩系数;Ix=0.03kg·m2、Iy=0.03kg·m2、Iz=0.04kg·m2为四旋翼无人机绕机体三轴的转动惯量;m=1.79kg为四旋翼的总质量;g=9.81m/s2为重力加速度常数;sin和cos分别为正弦和余弦函数。四旋翼无人机的运动状态量表示为:
Figure BDA0002658457490000062
其中
Figure BDA0002658457490000063
为三个姿态角度的一阶导数,即三轴角速度,
Figure BDA0002658457490000064
为三维速度误差值,定义为
Figure BDA0002658457490000065
其中
Figure BDA0002658457490000066
为四旋翼无人机三维位置坐标的一阶导数,即三维速度值;
Figure BDA0002658457490000067
为四旋翼无人机的三维目标速度值;下标t表示时间步数。四旋翼无人机的控制量表示为:a=[u1,u2,u3,u4]。
其中步骤S1中所述四旋翼无人机数学模型依据实际被控无人机的运动学机理建模得到,不需要对非线性项进行省略和简化。数学模型反映四旋翼无人机从四个电机控制信号到姿态角速度、姿态角、运动速度三方面运动状态的动态响应情况。数学模型的输入量为四个电机的控制量,输出为无人机的三轴角速度、三轴角度以及三维运动速度。
步骤S2,建立由神经网络表示的控制器和评价器,即控制器网络和评价器网络。控制器网络、评价器网络,以及积分补偿器的结构和关系如图1所示。积分补偿器将四旋翼无人机的速度误差状态
Figure BDA0002658457490000068
通过积分的方式补偿为其按照时间积分的形式,例如X轴速度误差的积分形式表示为:
Figure BDA0002658457490000069
其中符号的上标t表示时间步,其中t=T表示当前时间步,若将上标省略,则默认表示当前时间步。
Figure BDA00026584574900000610
表示在当前时间步四旋翼无人机X轴方向的速度误差值。
Figure BDA00026584574900000611
表示在当前时间步通过积分补偿器得到的X轴速度误差补偿值。β=0.01为积分增益。同理可以得到Y轴和Z轴速度误差的积分补偿形式,
Figure BDA00026584574900000612
Figure BDA00026584574900000613
控制器网络的输入层表示为:
Figure BDA00026584574900000614
控制器网络具有两个隐含层,每层包含128个隐节点。控制器网络每一层都使用Sigmoid函数。控制器网络的输出为四旋翼无人机的控制输入,表示为a=[u1,u2,u3,u4]。控制器网络整体表示为:a=Aμ(sc),其中μ表示该网络的所有参数。评价器网络的输入层表示为:
Figure BDA00026584574900000615
Figure BDA00026584574900000616
评价器网络具有两个隐含层,每层包含128个隐节点。评价器网络的前三层的激活函数为Sigmoid函数,最后一层使用的为Linear函数,输出表示为状态-动作值:q。评价器网络整体表示为:q=Qw(s,a),其中w表示该网络的所有参数。
其中步骤S2中所述控制器带有积分补偿器,积分补偿器对四旋翼无人机运动速度与目标速度之间的误差进行积分处理,并与实时速度误差相加,得到积分补偿速度误差。使用深度神经网络构建的控制器(控制器网络)包含一个输入层、两个隐含层和一个输出层。控制器网络的初始连接权值为随机值。控制器网络的输入层包含四旋翼无人机的三轴角速度、三轴角度以及积分补偿速度误差,输出层为四个电机的控制量。用于表示评价器的深度神经网络(评价器网络)包含一个输入层、两个隐含层和一个输出层。评价器网络的初始连接权值为随机值。评价器网络的输入层包含四旋翼的三轴姿态角速度、三轴姿态角度、三维运动速度与目标速度之差以及四个电机的控制量,输出为对当前控制器效果的评价指标。
步骤S3,根据控制目标设计奖励函数R,奖励函数值r可以通过四旋翼状态量计算得到,其具体设计为:
Figure BDA0002658457490000071
其中步骤S3中所述奖励函数设计为四旋翼运动速度与目标速度之间的误差的平方和,表达了时间最优跟踪控制的控制器设计目标
步骤S4,使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据,其具体的执行步骤如图2(步骤S4-1至步骤S4-9)所示:
步骤S4-1,随机初始化控制器和评价器。控制器和评价器用步骤S2中所示神经网络分别表示,控制器网络连接的权值参数μ以及评价器网络连接的权值参数w,可以使用均值为0,方差为0.01的高斯分布随机数进行初始化。另外初始化评价器网络的目标网络,表示为q′=Qw′(s,a),其结构与评价器网络完全相同,其参数w′的初始值与评价器网络的参数w也是相同的。
步骤S4-2,初始化四旋翼无人机的状态。在安全范围内随机初始化四旋翼的运动状态和目标速度。安全范围设置为:姿态角速度
Figure BDA0002658457490000072
姿态角
Figure BDA0002658457490000073
运动速度和目标速度
Figure BDA0002658457490000074
步骤S4-3,获取四旋翼初始状态。其包括四旋翼的自身的运动传感量
Figure BDA0002658457490000075
以及目标速度
Figure BDA0002658457490000076
进而可以计算出四旋翼无人机的运动状态量
Figure BDA0002658457490000077
步骤S4-4,状态误差积分补偿。通过步骤S2中所述积分补偿的计算方法,将四旋翼的运动状态量通过积分补偿获得补偿状态量
Figure BDA0002658457490000078
步骤S4-5,计算电机控制量。将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,可以得到四旋翼每个电机的控制量a=[u1,u2,u3,u4]。
步骤S4-6,将得到的每个电机的控制量a=[u1,u2,u3,u4]输入到四旋翼的数学模型中,依据非线性方程组对无人机运动状态进行仿真控制运算。
步骤S4-7,从四旋翼数学模型的非线性方程组的运算结果中选取下一步的四旋翼无人机的运动状态量
Figure BDA0002658457490000079
步骤S4-8,将前一步的运动状态量s、后一步的运动状态量s′、输入的控制量a、奖励函数值r=R(s′),合并为一组数据,表示为:ek=(s,a,r,s′)k,并将其保存到实验数据存储器中,其中下标k表示该组数据在实验数据存储器中的顺序号。
步骤S4-9,判断四旋翼无人机下一步状态量s′是否超出安全范围或者仿真时间超过最大时长。最大时长设置为5s,即500个时间步。如果超出了安全范围或者最大时长,则返回步骤S4-2,重新初始化四旋翼状态和目标速度并进行下一组控制仿真实验;如果没有超出,则进入下一步。
其中步骤S4所述仿真控制实验设置了四旋翼无人机的运动状态(包括:姿态角速度、姿态角、飞行速度)的安全范围。在仿真控制实验中,四旋翼无人机的状态和目标速度在安全范围内随机初始化,当四旋翼无人机的运动状态超出安全范围或者实验时长时间超出最大时长时,重新在安全范围内初始化四旋翼的状态和目标速度,并继续进行仿真实验。仿真控制实验中保存的实验数据包括四旋翼无人机的运动状态和控制量。
步骤S5,根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器。其具体的执行步骤如图2(步骤S5-1至步骤S5-3)所示。
步骤S5-1,更新评价器。首先从实验数据存储器中随机抽取N=128组实验数据:[e1,e2,...,eN],抽取的任意一组数据表示为ei=(si,ai,ri,s′i),其中下标i表示在抽取的N组数据中的序号。根据以下公式使用批量式梯度下降法对评价器网络Qw(s,a)的参数w进行更新:
Figure BDA0002658457490000081
其中
Figure BDA0002658457490000082
为梯度的表示符号,←为赋值更新符号,γ表示折扣因子,可以取0.99。其中α表示更新速率,可以取0.001。然后根据以下公式使用批量式梯度上升法对控制器网络Aμ(s)的参数μ进行更新:
Figure BDA0002658457490000083
最后根据以下公式对评价网络的目标网络Qw′(s,a)的参数w′进行更新:
w'←ηw+(1-η)w'
其中η=0.002为参数更新速率。
步骤S5-2,判断训练是否达到预期目标。使用奖励函数值的滑动平均值判断训练得到的控制器是否达到了预期的控制效果。滑动平均的窗口取50000步。评判预期控制效果的判别阈值根据实际控制需求进行选取。若滑动平均值低于判别阈值则需要返回步骤S4-4,继续进行仿真控制实验和网络参数的更新;若滑动平均值超过判别阈值,则代表当前控制器已经满足控制目标需求,可以进入下一步
步骤S5-3,保存控制器网络。
其中步骤S5中使用的积分补偿确定性策略梯度算法具体为带有积分补偿机制的确定性策略梯度算法,该算法可以依据仿真实验中保存的实验数据和奖励函数,首先对评价器进行训练,然后根据评价器所得到控制效果评价指标对控制器进行训练和更新。通过多次实验和更新,可以逐步提高控制器的性能。
其中步骤S5中可以通过仿真控制实验中奖励函数值的滑动平均值来判断是否获得了满足控制目标的控制器。
步骤S6,根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制。其具体执行步骤为:
步骤S6-1,通过四旋翼无人机机载传感器获得无人机当前运动状态,包括姿态角速度、姿态角度、速度、位置,表示为:
Figure BDA0002658457490000091
同时获得当前的控制指令,即目标位置[xd,yd,zd]。
步骤S6-2,通过外环比例控制器将目标位置转换为目标速度。比例控制器可以表示为:
Figure BDA0002658457490000092
其中Kp为比例控制系数,可以根据实际任务的动态性能需求进行选取,sat为饱和函数,保证转换得到的目标速度在安全范围之内。同理可以得到其他两个方向的目标速度
Figure BDA0002658457490000093
Figure BDA0002658457490000094
进而得到实际四旋翼无人机的运动状态量
Figure BDA0002658457490000095
步骤S6-3,使用积分补偿的计算方法,将四旋翼的运动状态量通过积分补偿获得补偿状态量
Figure BDA0002658457490000096
步骤S6-4,将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,得到四旋翼每个电机的控制量a=[u1,u2,u3,u4],并通过硬件控制器发送给每个电机。
步骤S6-5,反复执行步骤S6-1到S6-4,直到四旋翼无人机抵达目标位置。
其中步骤S6中对实际四旋翼无人机进行控制时,还需要在步骤S5得到的控制器的基础上加入外环比例控制器实现对四旋翼无人机的位置控制。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (3)

1.一种四旋翼无人机积分补偿确定性策略梯度控制方法,其特征在于,包括如下步骤:
步骤S1,建立无人机非线性数学模型,如下式所示:
Figure FDA0003839783150000011
其中φ、θ、ψ分别表示四旋翼无人机的滚转、俯仰、偏航三个姿态角;
Figure FDA0003839783150000012
分别表示三个姿态角度的二阶导数;x、y、z分别表示四旋翼无人机在地理三维坐标系下的位置;
Figure FDA0003839783150000013
代表三个位置的二阶导数;L=0.2m为四旋翼飞行器的力臂长度;K=8.78为四旋翼飞行器电机的推力系数;Kψ=0.4为电机的反扭矩系数;Ix=0.03kg·m2、Iy=0.03kg·m2、Iz=0.04kg·m2为四旋翼无人机绕机体三轴的转动惯量;m=1.79kg为四旋翼的总质量;g=9.81m/s2为重力加速度常数;sin和cos分别为正弦和余弦函数,四旋翼无人机的运动状态量表示为:
Figure FDA0003839783150000014
其中
Figure FDA0003839783150000015
为三个姿态角度的一阶导数,即三轴角速度,
Figure FDA0003839783150000016
为三维速度误差值,定义为
Figure FDA0003839783150000017
其中
Figure FDA0003839783150000018
为四旋翼无人机三维位置坐标的一阶导数,即三维速度值;
Figure FDA0003839783150000019
为四旋翼无人机的三维目标速度值;下标t表示时间步数,四旋翼无人机的控制量表示为:a=[u1,u2,u3,u4];
步骤S2,建立由神经网络表示的控制器和评价器,即控制器网络和评价器网络,控制器网络的输入端连接有积分补偿器,积分补偿器将四旋翼无人机的速度误差状态
Figure FDA00038397831500000110
通过积分的方式补偿为其按照时间积分的形式,X轴速度误差的积分形式表示为:
Figure FDA00038397831500000111
其中符号的上标t表示时间步,其中t=T表示当前时间步,若将上标省略,则默认表示当前时间步,
Figure FDA00038397831500000112
表示在当前时间步四旋翼无人机X轴方向的速度误差值,
Figure FDA00038397831500000113
表示在当前时间步通过积分补偿器得到的X轴速度误差补偿值,β=0.01为积分增益,同理可以得到Y轴和Z轴速度误差的积分补偿形式,
Figure FDA00038397831500000114
Figure FDA00038397831500000115
控制器网络的输入层表示为:
Figure FDA00038397831500000116
控制器网络具有两个隐含层,每层包含128个隐节点,控制器网络每一层都使用Sigmoid函数,控制器网络的输出为四旋翼无人机的控制输入,表示为a=[u1,u2,u3,u4],控制器网络整体表示为:a=Aμ(sc),其中μ表示该网络的所有参数,评价器网络的输入层表示为:
Figure FDA00038397831500000117
Figure FDA00038397831500000118
评价器网络具有两个隐含层,每层包含128个隐节点,评价器网络的前三层的激活函数为Sigmoid函数,最后一层使用的为Linear函数,输出表示为状态-动作值:q,评价器网络整体表示为:q=Qw(s,a),其中w表示该网络的所有参数,
步骤S3,根据控制目标设计奖励函数R,奖励函数值r可以通过四旋翼状态量计算得到,其具体设计为:
Figure FDA0003839783150000021
步骤S4,使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据;
步骤S5,根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器;
步骤S5根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器,其具体的执行步骤包括步骤S5-1到步骤S5-5;
步骤S5-1,更新评价器,首先从实验数据存储器中随机抽取N=128组实验数据:[e1,e2,…,eN],抽取的任意一组数据表示为ei=(si,ai,ri,s′i),其中下标i表示在抽取的N组数据中的序号,根据以下公式使用批量式梯度下降法对评价器网络Qw(s,a)的参数w进行更新:
Figure FDA0003839783150000022
其中
Figure FDA0003839783150000023
为梯度的表示符号,←为赋值更新符号,γ表示折扣因子,可以取0.99,其中α表示更新速率,可以取0.001,然后根据以下公式使用批量式梯度上升法对控制器网络Aμ(s)的参数μ进行更新:
Figure FDA0003839783150000024
最后根据以下公式对评价网络的目标网络Qw′(s,a)的参数w′进行更新:
w′←ηw+(1-η)w′
其中η=0.002为参数更新速率;
步骤S5-2,判断训练是否达到预期目标,使用奖励函数值的滑动平均值判断训练得到的控制器是否达到了预期的控制效果,滑动平均的窗口取50000步,评判预期控制效果的判别阈值根据实际控制需求进行选取,若滑动平均值低于判别阈值则需要返回步骤S4-4,继续进行仿真控制实验和网络参数的更新;若滑动平均值超过判别阈值,则代表当前控制器已经满足控制目标需求,可以进入下一步
步骤S5-3,保存控制器网络;
步骤S6,根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制。
2.根据权利要求1中所述一种四旋翼无人机积分补偿确定性策略梯度控制方法,其特征在于;步骤S4中使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据具体的执行步骤包括步骤S4-1到步骤S4-9;
步骤S4-1,随机初始化控制器和评价器,控制器和评价器用步骤S2中所示神经网络分别表示,控制器网络连接的权值参数μ以及评价器网络连接的权值参数w,可以使用均值为0,方差为0.01的高斯分布随机数进行初始化,另外初始化评价器网络的目标网络,表示为q′=Qw′(s,a),其结构与评价器网络完全相同,其参数w′的初始值与评价器网络的参数w也是相同的;
步骤S4-2,初始化四旋翼无人机的状态,在安全范围内随机初始化四旋翼的运动状态和目标速度,安全范围设置为:姿态角速度
Figure FDA0003839783150000031
-4.5~4.5rad/s;姿态角(φ,θ,ψ):-45°~45°;运动速度和目标速度
Figure FDA0003839783150000032
-10~10m/s;
步骤S4-3,获取四旋翼初始状态,其包括四旋翼的自身的运动传感量
Figure FDA0003839783150000033
以及目标速度
Figure FDA0003839783150000034
进而可以计算出四旋翼无人机的运动状态量
Figure FDA0003839783150000035
步骤S4-4,状态误差积分补偿,通过步骤S2中所述积分补偿的计算方法,将四旋翼的运动状态量通过积分补偿获得补偿状态量
Figure FDA0003839783150000036
步骤S4-5,计算电机控制量,将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,可以得到四旋翼每个电机的控制量a=[u1,u2,u3,u4];
步骤S4-6,将得到的每个电机的控制量a=[u1,u2,u3,u4]输入到四旋翼的数学模型中,依据非线性方程组对无人机运动状态进行仿真控制运算;
步骤S4-7,从四旋翼数学模型的非线性方程组的运算结果中选取下一步的四旋翼无人机的运动状态量
Figure FDA0003839783150000037
步骤S4-8,将前一步的运动状态量s、后一步的运动状态量s′、输入的控制量a、奖励函数值r=R(s′),合并为一组数据,表示为:ek=(s,a,r,s′)k,并将其保存到实验数据存储器中,其中下标k表示该组数据在实验数据存储器中的顺序号;
步骤S4-9,判断四旋翼无人机下一步状态量s′是否超出安全范围或者仿真时间超过最大时长,最大时长设置为5s,即500个时间步,如果超出了安全范围或者最大时长,则返回步骤S4-2,重新初始化四旋翼状态和目标速度并进行下一组控制仿真实验;如果没有超出,则进入下一步。
3.根据权利要求1中所述一种四旋翼无人机积分补偿确定性策略梯度控制方法,其特征在于;步骤S6根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制,其具体执行步骤为包括步骤S6-1到步骤S6-5;
步骤S6-1,通过四旋翼无人机机载传感器获得无人机当前运动状态,包括姿态角速度、姿态角度、速度、位置,表示为:
Figure FDA0003839783150000038
同时获得当前的控制指令,即目标位置[xd,yd,zd];
步骤S6-2,通过外环比例控制器将目标位置转换为目标速度,比例控制器可以表示为:
Figure FDA0003839783150000041
其中Kp为比例控制系数,可以根据实际任务的动态性能需求进行选取,sat为饱和函数,保证转换得到的目标速度在安全范围之内,同理可以得到其他两个方向的目标速度
Figure FDA0003839783150000042
Figure FDA0003839783150000043
进而得到实际四旋翼无人机的运动状态量
Figure FDA0003839783150000044
步骤S6-3,使用积分补偿的计算方法,将四旋翼的运动状态量通过积分补偿获得补偿状态量
Figure FDA0003839783150000045
步骤S6-4,将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,得到四旋翼每个电机的控制量a=[u1,u2,u3,u4],并通过硬件控制器发送给每个电机;
步骤S6-5,反复执行步骤S6-1到S6-4,直到四旋翼无人机抵达目标位置。
CN202010895952.XA 2020-08-31 2020-08-31 一种四旋翼无人机积分补偿确定性策略梯度控制方法 Active CN112034872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010895952.XA CN112034872B (zh) 2020-08-31 2020-08-31 一种四旋翼无人机积分补偿确定性策略梯度控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010895952.XA CN112034872B (zh) 2020-08-31 2020-08-31 一种四旋翼无人机积分补偿确定性策略梯度控制方法

Publications (2)

Publication Number Publication Date
CN112034872A CN112034872A (zh) 2020-12-04
CN112034872B true CN112034872B (zh) 2023-01-17

Family

ID=73587203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010895952.XA Active CN112034872B (zh) 2020-08-31 2020-08-31 一种四旋翼无人机积分补偿确定性策略梯度控制方法

Country Status (1)

Country Link
CN (1) CN112034872B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113867374B (zh) * 2021-07-23 2023-12-01 福州大学 基于滑模控制的四旋翼无人机参数预测和扰动的自适应轨迹跟踪控制器及其设计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479567A (zh) * 2017-09-13 2017-12-15 山东大学 动态特性未知的四旋翼无人机姿态控制器及方法
CN107491081A (zh) * 2017-07-12 2017-12-19 西北工业大学 一种抗干扰四旋翼无人机姿态控制方法
CN108445766A (zh) * 2018-05-15 2018-08-24 山东大学 基于rpd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491081A (zh) * 2017-07-12 2017-12-19 西北工业大学 一种抗干扰四旋翼无人机姿态控制方法
CN107479567A (zh) * 2017-09-13 2017-12-15 山东大学 动态特性未知的四旋翼无人机姿态控制器及方法
CN108445766A (zh) * 2018-05-15 2018-08-24 山东大学 基于rpd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法

Also Published As

Publication number Publication date
CN112034872A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
Labbadi et al. Robust adaptive backstepping fast terminal sliding mode controller for uncertain quadrotor UAV
Islam et al. Robust control of four-rotor unmanned aerial vehicle with disturbance uncertainty
CN111766899B (zh) 一种基于干扰观测器的四旋翼无人机集群抗干扰编队控制方法
CN112346470A (zh) 一种基于改进自抗扰控制的四旋翼姿态控制方法
CN106325291A (zh) 基于滑模控制律和eso的四旋翼飞行器姿态控制方法及系统
CN104571120A (zh) 四旋翼无人机的姿态非线性自适应控制方法
CN106200665A (zh) 携带不确定负载的四轴飞行器的建模与自适应控制方法
Yacef et al. Adaptive fuzzy backstepping control for trajectory tracking of unmanned aerial quadrotor
Sun et al. Nonlinear robust compensation method for trajectory tracking control of quadrotors
CN113253617A (zh) 用于四旋翼无人机的在线自适应控制方法
Zemalache et al. Controlling a drone: Comparison between a based model method and a fuzzy inference system
CN111338369B (zh) 一种基于非线性逆补偿的多旋翼飞行控制方法
CN113961010A (zh) 基于抗饱和有限时间自适应神经网络容错技术的四旋翼植保无人机跟踪控制方法
CN115826597A (zh) 基于自适应神经网络的旋翼飞行器抗扰控制方法及设备
Akbar et al. Adaptive modified super-twisting control for a quadrotor helicopter with a nonlinear sliding surface
CN112034872B (zh) 一种四旋翼无人机积分补偿确定性策略梯度控制方法
Aruneshwaran et al. Neural adaptive flight controller for ducted-fan UAV performing nonlinear maneuver
BOUZID et al. Generic dynamic modeling for multirotor VTOL UAVs and robust Sliding Mode based Model-Free Control for 3D navigation
CN117666332A (zh) 一种动态扰动环境下多旋翼飞行器自学习抗干扰控制方法
Brahim et al. Finite Time Adaptive SMC for UAV Trajectory Tracking Under Unknown Disturbances and Actuators Constraints
Maslim et al. Performance evaluation of adaptive and nonadaptive fuzzy structures for 4d trajectory tracking of quadrotors: A comparative study
Li et al. A novel anti-disturbance control of quadrotor UAV considering wind and suspended payload
CN116679548A (zh) 基于时变观测器的三自由度直升机鲁棒输出反馈控制方法
Ma et al. Finite-time trajectory tracking control of quadrotor UAV via adaptive RBF neural network with lumped uncertainties
CN113885358B (zh) 一种混合构型固定翼无人机机动仿真控制律设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant