CN112034872B - 一种四旋翼无人机积分补偿确定性策略梯度控制方法 - Google Patents
一种四旋翼无人机积分补偿确定性策略梯度控制方法 Download PDFInfo
- Publication number
- CN112034872B CN112034872B CN202010895952.XA CN202010895952A CN112034872B CN 112034872 B CN112034872 B CN 112034872B CN 202010895952 A CN202010895952 A CN 202010895952A CN 112034872 B CN112034872 B CN 112034872B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- quad
- controller
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000013178 mathematical model Methods 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 37
- 238000004088 simulation Methods 0.000 claims description 23
- 238000002474 experimental method Methods 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract 1
- 238000013461 design Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本专利公开了一种四旋翼无人机积分补偿确定性策略梯度控制方法。本发明使用深度神经网络对四旋翼无人机的控制器进行表示,将四旋翼无人机的运动状态通过深度神经网络直接映射到四个电机的控制指令,使用机器学习算法根据奖励反馈信号对深度神经网络进行训练,最终获得满足控制需求的控制器。本方法可以直接使用带有复杂非线性特性的四旋翼无人机数学模型进行训练,通过引入积分补偿机制结合确定性策略梯度算法进行训练,可以提高训练得到的控制器的鲁棒性和精确性。
Description
技术领域
本发明属于无人机控制领域,涉及一种四旋翼无人机积分补偿确定性策略梯度控制方法。
背景技术
小型四旋翼无人机以其机械结构简单、使用成本低廉等优势在航空摄影、农业植保、社会治安、电力巡检、灾害评估与搜救等各个方面都发挥了巨大的作用。四旋翼无人机高效稳定的运动控制是其完成各类飞行任务的关键。四旋翼无人机的动力学模型是一个不稳定的系统,具有欠驱动、非线性、强耦合的特性。对于这样的系统模型的控制本身具有较大的难度。各类四旋翼无人机在使用材料、机身尺寸、机体重量、气动外形方面各不相同。其转动惯量、空气阻力系数等建模的关键参数实际上难以准确测量。另外考虑到四旋翼在实际飞行中,还面临各种外部的干扰,例如阵风干扰、任务配载变化等问题。
针对四旋翼无人机控制问题中动态模型参数未知和外部扰动未知的问题,国内高校和研究机构也给出了一些解决方法。例如基于全局滑模控制的方法(专利:一种四旋翼无人机控制方法;申请号:201610361685.1),该方法将全局滑模控制的动态滑模面的衰减函数设计为由三个指数函数项组成的一阶可导函数,使其能在在有限时间内衰减到零,从而提高四旋翼无人机的动态响应速度。这类基于变结构控制理论的四旋翼控制方法主要有两方面的问题:(1)在设计控制器时对四旋翼的非线性数学模型进行了较大的简化,并且对无人机的运动状态加以限制,只能应用于小倾斜角的飞行姿态。因此通过数学推算得到的控制器在实际中难以达到理论上的效果。(2)控制器待定参数较多,并且没有明确的选取范围和方法,在实际应用中选取这些参数具有较大的困难。
发明内容
针对现有的控制方法的不足之处,本发明提供一种四旋翼无人机积分补偿确定性策略梯度控制方法,解决因控制器设计过程中数学模型简化引发的不良影响,以及控制器待定参数较多带来的问题,
本发明采用的技术方案是使用深度神经网络构建四旋翼无人机的控制器,将四旋翼无人机的运动状态通过深度神经网络直接映射到四个电机的控制指令,使用积分补偿确定性策略梯度算法,根据奖励反馈信号对深度神经网络进行训练,不断更新其参数,最终获得满足控制响应需求的控制器。
本专利提供一种四旋翼无人机积分补偿确定性策略梯度控制方法,包括如下步骤:
步骤S1,建立无人机非线性数学模型,如下式所示:
其中φ、θ、ψ分别表示四旋翼无人机的滚转、俯仰、偏航三个姿态角;分别表示三个姿态角度的二阶导数;x、y、z分别表示四旋翼无人机在地理三维坐标系下的位置;代表三个位置的二阶导数;L=0.2m为四旋翼飞行器的力臂长度;K=8.78为四旋翼飞行器电机的推力系数;Kψ=0.4为电机的反扭矩系数;Ix=0.03kg·m2、Iy=0.03kg·m2、Iz=0.04kg·m2为四旋翼无人机绕机体三轴的转动惯量;m=1.79kg为四旋翼的总质量;g=9.81m/s2为重力加速度常数;sin和cos分别为正弦和余弦函数,四旋翼无人机的运动状态量表示为:
其中为三个姿态角度的一阶导数,即三轴角速度,为三维速度误差值,定义为其中为四旋翼无人机三维位置坐标的一阶导数,即三维速度值;为四旋翼无人机的三维目标速度值;下标t表示时间步数,四旋翼无人机的控制量表示为:a=[u1,u2,u3,u4];
步骤S2,建立由神经网络表示的控制器和评价器,即控制器网络和评价器网络,控制器网络的输入端连接有积分补偿器,积分补偿器将四旋翼无人机的速度误差状态通过积分的方式补偿为其按照时间积分的形式,例如X轴速度误差的积分形式表示为:
其中符号的上标t表示时间步,其中t=T表示当前时间步,若将上标省略,则默认表示当前时间步,表示在当前时间步四旋翼无人机X轴方向的速度误差值,表示在当前时间步通过积分补偿器得到的X轴速度误差补偿值,β=0.01为积分增益,同理可以得到Y轴和Z轴速度误差的积分补偿形式,和控制器网络的输入层表示为:控制器网络具有两个隐含层,每层包含128个隐节点,控制器网络每一层都使用Sigmoid函数,控制器网络的输出为四旋翼无人机的控制输入,表示为a=[u1,u2,u3,u4],控制器网络整体表示为:a=Aμ(sc),其中μ表示该网络的所有参数,评价器网络的输入层表示为: 评价器网络具有两个隐含层,每层包含128个隐节点,评价器网络的前三层的激活函数为Sigmoid函数,最后一层使用的为Linear函数,输出表示为状态-动作值:q,评价器网络整体表示为:q=Qw(s,a),其中w表示该网络的所有参数,
步骤S4,使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据;
步骤S5,根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器;
步骤S6,根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制。
作为本发明进一步改进,步骤S4中使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据具体的执行步骤包括步骤S4-1到步骤S4-9;
步骤S4-1,随机初始化控制器和评价器,控制器和评价器用步骤S2中所示神经网络分别表示,控制器网络连接的权值参数μ以及评价器网络连接的权值参数w,可以使用均值为0,方差为0.01的高斯分布随机数进行初始化,另外初始化评价器网络的目标网络,表示为q′=Qw′(s,a),其结构与评价器网络完全相同,其参数w′的初始值与评价器网络的参数w也是相同的;
步骤S4-5,计算电机控制量,将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,可以得到四旋翼每个电机的控制量a=[u1,u2,u3,u4];
步骤S4-6,将得到的每个电机的控制量a=[u1,u2,u3,u4]输入到四旋翼的数学模型中,依据非线性方程组对无人机运动状态进行仿真控制运算;
步骤S4-8,将前一步的运动状态量s、后一步的运动状态量s′、输入的控制量a、奖励函数值r=R(s′),合并为一组数据,表示为:ek=(s,a,r,s′)k,并将其保存到实验数据存储器中,其中下标k表示该组数据在实验数据存储器中的顺序号;
步骤S4-9,判断四旋翼无人机下一步状态量s′是否超出安全范围或者仿真时间超过最大时长,最大时长设置为5s,即500个时间步,如果超出了安全范围或者最大时长,则返回步骤S4-2,重新初始化四旋翼状态和目标速度并进行下一组控制仿真实验;如果没有超出,则进入下一步。
作为本发明进一步改进,步骤S5根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器,其具体的执行步骤包括步骤S3-1到步骤S3-5;
步骤S5-1,更新评价器,首先从实验数据存储器中随机抽取N=128组实验数据:[e1,e2,...,eN],抽取的任意一组数据表示为ei=(si,ai,ri,s′i),其中下标i表示在抽取的N组数据中的序号,根据以下公式使用批量式梯度下降法对评价器网络Qw(s,a)的参数w进行更新:
最后根据以下公式对评价网络的目标网络Qw′(s,a)的参数w′进行更新:
w′←ηw+(1-η)w′
其中η=0.002为参数更新速率;
步骤S5-2,判断训练是否达到预期目标,使用奖励函数值的滑动平均值判断训练得到的控制器是否达到了预期的控制效果,滑动平均的窗口取50000步,评判预期控制效果的判别阈值根据实际控制需求进行选取,若滑动平均值低于判别阈值则需要返回步骤S4-4,继续进行仿真控制实验和网络参数的更新;若滑动平均值超过判别阈值,则代表当前控制器已经满足控制目标需求,可以进入下一步
步骤S5-3,保存控制器网络。
作为本发明进一步改进,步骤S6根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制,其具体执行步骤为包括步骤S6-1到步骤S6-5;
步骤S6-2,通过外环比例控制器将目标位置转换为目标速度,比例控制器可以表示为:其中Kp为比例控制系数,可以根据实际任务的动态性能需求进行选取,sat为饱和函数,保证转换得到的目标速度在安全范围之内,同理可以得到其他两个方向的目标速度和进而得到实际四旋翼无人机的运动状态量
步骤S6-4,将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,得到四旋翼每个电机的控制量a=[u1,u2,u3,u4],并通过硬件控制器发送给每个电机;
步骤S6-5,反复执行步骤S6-1到S6-4,直到四旋翼无人机抵达目标位置。
本发明有益效果如下:
本发明所述基于积分补偿确定性策略梯度算法的四旋翼无人机控制方法可以直接使用带有复杂非线性特性的四旋翼无人机数学模型进行训练,并得到符合设计目标的控制器,减轻了由于模型简化对控制器设计带来的不良影响。所述训练算法通过引入积分补偿器结构,并且使用带有积分补偿的确定性策略梯度算法进行训练,可以提高训练得到的控制器的鲁棒性和精确性。
附图说明
图1是本发明使用的控制器网络、评价器网络结构示意图;
图2是本发明使用积分补偿确定性策略梯度算法执行步骤示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明采用的技术方案是使用深度神经网络构建四旋翼无人机的控制器,将四旋翼无人机的运动状态通过深度神经网络直接映射到四个电机的控制指令,使用积分补偿确定性策略梯度算法,根据奖励反馈信号对深度神经网络进行训练,不断更新其参数,最终获得满足控制响应需求的控制器。
下面介绍本发明所提出的基于积分补偿确定性策略梯度算法的四旋翼无人机控制方法的具体实施方式,具体步骤如下:
步骤S1,建立无人机非线性数学模型,如下式所示:
其中φ、θ、ψ分别表示四旋翼无人机的滚转、俯仰、偏航三个姿态角;分别表示三个姿态角度的二阶导数;x、y、z分别表示四旋翼无人机在地理三维坐标系下的位置;代表三个位置的二阶导数;L=0.2m为四旋翼飞行器的力臂长度;K=8.78为四旋翼飞行器电机的推力系数;Kψ=0.4为电机的反扭矩系数;Ix=0.03kg·m2、Iy=0.03kg·m2、Iz=0.04kg·m2为四旋翼无人机绕机体三轴的转动惯量;m=1.79kg为四旋翼的总质量;g=9.81m/s2为重力加速度常数;sin和cos分别为正弦和余弦函数。四旋翼无人机的运动状态量表示为:
其中为三个姿态角度的一阶导数,即三轴角速度,为三维速度误差值,定义为其中为四旋翼无人机三维位置坐标的一阶导数,即三维速度值;为四旋翼无人机的三维目标速度值;下标t表示时间步数。四旋翼无人机的控制量表示为:a=[u1,u2,u3,u4]。
其中步骤S1中所述四旋翼无人机数学模型依据实际被控无人机的运动学机理建模得到,不需要对非线性项进行省略和简化。数学模型反映四旋翼无人机从四个电机控制信号到姿态角速度、姿态角、运动速度三方面运动状态的动态响应情况。数学模型的输入量为四个电机的控制量,输出为无人机的三轴角速度、三轴角度以及三维运动速度。
步骤S2,建立由神经网络表示的控制器和评价器,即控制器网络和评价器网络。控制器网络、评价器网络,以及积分补偿器的结构和关系如图1所示。积分补偿器将四旋翼无人机的速度误差状态通过积分的方式补偿为其按照时间积分的形式,例如X轴速度误差的积分形式表示为:
其中符号的上标t表示时间步,其中t=T表示当前时间步,若将上标省略,则默认表示当前时间步。表示在当前时间步四旋翼无人机X轴方向的速度误差值。表示在当前时间步通过积分补偿器得到的X轴速度误差补偿值。β=0.01为积分增益。同理可以得到Y轴和Z轴速度误差的积分补偿形式,和控制器网络的输入层表示为:控制器网络具有两个隐含层,每层包含128个隐节点。控制器网络每一层都使用Sigmoid函数。控制器网络的输出为四旋翼无人机的控制输入,表示为a=[u1,u2,u3,u4]。控制器网络整体表示为:a=Aμ(sc),其中μ表示该网络的所有参数。评价器网络的输入层表示为: 评价器网络具有两个隐含层,每层包含128个隐节点。评价器网络的前三层的激活函数为Sigmoid函数,最后一层使用的为Linear函数,输出表示为状态-动作值:q。评价器网络整体表示为:q=Qw(s,a),其中w表示该网络的所有参数。
其中步骤S2中所述控制器带有积分补偿器,积分补偿器对四旋翼无人机运动速度与目标速度之间的误差进行积分处理,并与实时速度误差相加,得到积分补偿速度误差。使用深度神经网络构建的控制器(控制器网络)包含一个输入层、两个隐含层和一个输出层。控制器网络的初始连接权值为随机值。控制器网络的输入层包含四旋翼无人机的三轴角速度、三轴角度以及积分补偿速度误差,输出层为四个电机的控制量。用于表示评价器的深度神经网络(评价器网络)包含一个输入层、两个隐含层和一个输出层。评价器网络的初始连接权值为随机值。评价器网络的输入层包含四旋翼的三轴姿态角速度、三轴姿态角度、三维运动速度与目标速度之差以及四个电机的控制量,输出为对当前控制器效果的评价指标。
其中步骤S3中所述奖励函数设计为四旋翼运动速度与目标速度之间的误差的平方和,表达了时间最优跟踪控制的控制器设计目标
步骤S4,使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据,其具体的执行步骤如图2(步骤S4-1至步骤S4-9)所示:
步骤S4-1,随机初始化控制器和评价器。控制器和评价器用步骤S2中所示神经网络分别表示,控制器网络连接的权值参数μ以及评价器网络连接的权值参数w,可以使用均值为0,方差为0.01的高斯分布随机数进行初始化。另外初始化评价器网络的目标网络,表示为q′=Qw′(s,a),其结构与评价器网络完全相同,其参数w′的初始值与评价器网络的参数w也是相同的。
步骤S4-5,计算电机控制量。将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,可以得到四旋翼每个电机的控制量a=[u1,u2,u3,u4]。
步骤S4-6,将得到的每个电机的控制量a=[u1,u2,u3,u4]输入到四旋翼的数学模型中,依据非线性方程组对无人机运动状态进行仿真控制运算。
步骤S4-8,将前一步的运动状态量s、后一步的运动状态量s′、输入的控制量a、奖励函数值r=R(s′),合并为一组数据,表示为:ek=(s,a,r,s′)k,并将其保存到实验数据存储器中,其中下标k表示该组数据在实验数据存储器中的顺序号。
步骤S4-9,判断四旋翼无人机下一步状态量s′是否超出安全范围或者仿真时间超过最大时长。最大时长设置为5s,即500个时间步。如果超出了安全范围或者最大时长,则返回步骤S4-2,重新初始化四旋翼状态和目标速度并进行下一组控制仿真实验;如果没有超出,则进入下一步。
其中步骤S4所述仿真控制实验设置了四旋翼无人机的运动状态(包括:姿态角速度、姿态角、飞行速度)的安全范围。在仿真控制实验中,四旋翼无人机的状态和目标速度在安全范围内随机初始化,当四旋翼无人机的运动状态超出安全范围或者实验时长时间超出最大时长时,重新在安全范围内初始化四旋翼的状态和目标速度,并继续进行仿真实验。仿真控制实验中保存的实验数据包括四旋翼无人机的运动状态和控制量。
步骤S5,根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器。其具体的执行步骤如图2(步骤S5-1至步骤S5-3)所示。
步骤S5-1,更新评价器。首先从实验数据存储器中随机抽取N=128组实验数据:[e1,e2,...,eN],抽取的任意一组数据表示为ei=(si,ai,ri,s′i),其中下标i表示在抽取的N组数据中的序号。根据以下公式使用批量式梯度下降法对评价器网络Qw(s,a)的参数w进行更新:
最后根据以下公式对评价网络的目标网络Qw′(s,a)的参数w′进行更新:
w'←ηw+(1-η)w'
其中η=0.002为参数更新速率。
步骤S5-2,判断训练是否达到预期目标。使用奖励函数值的滑动平均值判断训练得到的控制器是否达到了预期的控制效果。滑动平均的窗口取50000步。评判预期控制效果的判别阈值根据实际控制需求进行选取。若滑动平均值低于判别阈值则需要返回步骤S4-4,继续进行仿真控制实验和网络参数的更新;若滑动平均值超过判别阈值,则代表当前控制器已经满足控制目标需求,可以进入下一步
步骤S5-3,保存控制器网络。
其中步骤S5中使用的积分补偿确定性策略梯度算法具体为带有积分补偿机制的确定性策略梯度算法,该算法可以依据仿真实验中保存的实验数据和奖励函数,首先对评价器进行训练,然后根据评价器所得到控制效果评价指标对控制器进行训练和更新。通过多次实验和更新,可以逐步提高控制器的性能。
其中步骤S5中可以通过仿真控制实验中奖励函数值的滑动平均值来判断是否获得了满足控制目标的控制器。
步骤S6,根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制。其具体执行步骤为:
步骤S6-2,通过外环比例控制器将目标位置转换为目标速度。比例控制器可以表示为:其中Kp为比例控制系数,可以根据实际任务的动态性能需求进行选取,sat为饱和函数,保证转换得到的目标速度在安全范围之内。同理可以得到其他两个方向的目标速度和进而得到实际四旋翼无人机的运动状态量
步骤S6-4,将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,得到四旋翼每个电机的控制量a=[u1,u2,u3,u4],并通过硬件控制器发送给每个电机。
步骤S6-5,反复执行步骤S6-1到S6-4,直到四旋翼无人机抵达目标位置。
其中步骤S6中对实际四旋翼无人机进行控制时,还需要在步骤S5得到的控制器的基础上加入外环比例控制器实现对四旋翼无人机的位置控制。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
Claims (3)
1.一种四旋翼无人机积分补偿确定性策略梯度控制方法,其特征在于,包括如下步骤:
步骤S1,建立无人机非线性数学模型,如下式所示:
其中φ、θ、ψ分别表示四旋翼无人机的滚转、俯仰、偏航三个姿态角;分别表示三个姿态角度的二阶导数;x、y、z分别表示四旋翼无人机在地理三维坐标系下的位置;代表三个位置的二阶导数;L=0.2m为四旋翼飞行器的力臂长度;K=8.78为四旋翼飞行器电机的推力系数;Kψ=0.4为电机的反扭矩系数;Ix=0.03kg·m2、Iy=0.03kg·m2、Iz=0.04kg·m2为四旋翼无人机绕机体三轴的转动惯量;m=1.79kg为四旋翼的总质量;g=9.81m/s2为重力加速度常数;sin和cos分别为正弦和余弦函数,四旋翼无人机的运动状态量表示为:
其中为三个姿态角度的一阶导数,即三轴角速度,为三维速度误差值,定义为其中为四旋翼无人机三维位置坐标的一阶导数,即三维速度值;为四旋翼无人机的三维目标速度值;下标t表示时间步数,四旋翼无人机的控制量表示为:a=[u1,u2,u3,u4];
步骤S2,建立由神经网络表示的控制器和评价器,即控制器网络和评价器网络,控制器网络的输入端连接有积分补偿器,积分补偿器将四旋翼无人机的速度误差状态通过积分的方式补偿为其按照时间积分的形式,X轴速度误差的积分形式表示为:
其中符号的上标t表示时间步,其中t=T表示当前时间步,若将上标省略,则默认表示当前时间步,表示在当前时间步四旋翼无人机X轴方向的速度误差值,表示在当前时间步通过积分补偿器得到的X轴速度误差补偿值,β=0.01为积分增益,同理可以得到Y轴和Z轴速度误差的积分补偿形式,和控制器网络的输入层表示为:控制器网络具有两个隐含层,每层包含128个隐节点,控制器网络每一层都使用Sigmoid函数,控制器网络的输出为四旋翼无人机的控制输入,表示为a=[u1,u2,u3,u4],控制器网络整体表示为:a=Aμ(sc),其中μ表示该网络的所有参数,评价器网络的输入层表示为: 评价器网络具有两个隐含层,每层包含128个隐节点,评价器网络的前三层的激活函数为Sigmoid函数,最后一层使用的为Linear函数,输出表示为状态-动作值:q,评价器网络整体表示为:q=Qw(s,a),其中w表示该网络的所有参数,
步骤S4,使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据;
步骤S5,根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器;
步骤S5根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器,直到获得满足控制目标需求的控制器,其具体的执行步骤包括步骤S5-1到步骤S5-5;
步骤S5-1,更新评价器,首先从实验数据存储器中随机抽取N=128组实验数据:[e1,e2,…,eN],抽取的任意一组数据表示为ei=(si,ai,ri,s′i),其中下标i表示在抽取的N组数据中的序号,根据以下公式使用批量式梯度下降法对评价器网络Qw(s,a)的参数w进行更新:
最后根据以下公式对评价网络的目标网络Qw′(s,a)的参数w′进行更新:
w′←ηw+(1-η)w′
其中η=0.002为参数更新速率;
步骤S5-2,判断训练是否达到预期目标,使用奖励函数值的滑动平均值判断训练得到的控制器是否达到了预期的控制效果,滑动平均的窗口取50000步,评判预期控制效果的判别阈值根据实际控制需求进行选取,若滑动平均值低于判别阈值则需要返回步骤S4-4,继续进行仿真控制实验和网络参数的更新;若滑动平均值超过判别阈值,则代表当前控制器已经满足控制目标需求,可以进入下一步
步骤S5-3,保存控制器网络;
步骤S6,根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制。
2.根据权利要求1中所述一种四旋翼无人机积分补偿确定性策略梯度控制方法,其特征在于;步骤S4中使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据具体的执行步骤包括步骤S4-1到步骤S4-9;
步骤S4-1,随机初始化控制器和评价器,控制器和评价器用步骤S2中所示神经网络分别表示,控制器网络连接的权值参数μ以及评价器网络连接的权值参数w,可以使用均值为0,方差为0.01的高斯分布随机数进行初始化,另外初始化评价器网络的目标网络,表示为q′=Qw′(s,a),其结构与评价器网络完全相同,其参数w′的初始值与评价器网络的参数w也是相同的;
步骤S4-2,初始化四旋翼无人机的状态,在安全范围内随机初始化四旋翼的运动状态和目标速度,安全范围设置为:姿态角速度-4.5~4.5rad/s;姿态角(φ,θ,ψ):-45°~45°;运动速度和目标速度-10~10m/s;
步骤S4-5,计算电机控制量,将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,可以得到四旋翼每个电机的控制量a=[u1,u2,u3,u4];
步骤S4-6,将得到的每个电机的控制量a=[u1,u2,u3,u4]输入到四旋翼的数学模型中,依据非线性方程组对无人机运动状态进行仿真控制运算;
步骤S4-8,将前一步的运动状态量s、后一步的运动状态量s′、输入的控制量a、奖励函数值r=R(s′),合并为一组数据,表示为:ek=(s,a,r,s′)k,并将其保存到实验数据存储器中,其中下标k表示该组数据在实验数据存储器中的顺序号;
步骤S4-9,判断四旋翼无人机下一步状态量s′是否超出安全范围或者仿真时间超过最大时长,最大时长设置为5s,即500个时间步,如果超出了安全范围或者最大时长,则返回步骤S4-2,重新初始化四旋翼状态和目标速度并进行下一组控制仿真实验;如果没有超出,则进入下一步。
3.根据权利要求1中所述一种四旋翼无人机积分补偿确定性策略梯度控制方法,其特征在于;步骤S6根据任务需求,使用得到的控制器对实际四旋翼无人机进行控制,其具体执行步骤为包括步骤S6-1到步骤S6-5;
步骤S6-2,通过外环比例控制器将目标位置转换为目标速度,比例控制器可以表示为:其中Kp为比例控制系数,可以根据实际任务的动态性能需求进行选取,sat为饱和函数,保证转换得到的目标速度在安全范围之内,同理可以得到其他两个方向的目标速度和进而得到实际四旋翼无人机的运动状态量
步骤S6-4,将补偿状态量sc输入控制器网络a=Aμ(sc),经过神经网络的前馈运算,得到四旋翼每个电机的控制量a=[u1,u2,u3,u4],并通过硬件控制器发送给每个电机;
步骤S6-5,反复执行步骤S6-1到S6-4,直到四旋翼无人机抵达目标位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010895952.XA CN112034872B (zh) | 2020-08-31 | 2020-08-31 | 一种四旋翼无人机积分补偿确定性策略梯度控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010895952.XA CN112034872B (zh) | 2020-08-31 | 2020-08-31 | 一种四旋翼无人机积分补偿确定性策略梯度控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112034872A CN112034872A (zh) | 2020-12-04 |
CN112034872B true CN112034872B (zh) | 2023-01-17 |
Family
ID=73587203
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010895952.XA Active CN112034872B (zh) | 2020-08-31 | 2020-08-31 | 一种四旋翼无人机积分补偿确定性策略梯度控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112034872B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113867374B (zh) * | 2021-07-23 | 2023-12-01 | 福州大学 | 基于滑模控制的四旋翼无人机参数预测和扰动的自适应轨迹跟踪控制器及其设计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107479567A (zh) * | 2017-09-13 | 2017-12-15 | 山东大学 | 动态特性未知的四旋翼无人机姿态控制器及方法 |
CN107491081A (zh) * | 2017-07-12 | 2017-12-19 | 西北工业大学 | 一种抗干扰四旋翼无人机姿态控制方法 |
CN108445766A (zh) * | 2018-05-15 | 2018-08-24 | 山东大学 | 基于rpd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法 |
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
-
2020
- 2020-08-31 CN CN202010895952.XA patent/CN112034872B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491081A (zh) * | 2017-07-12 | 2017-12-19 | 西北工业大学 | 一种抗干扰四旋翼无人机姿态控制方法 |
CN107479567A (zh) * | 2017-09-13 | 2017-12-15 | 山东大学 | 动态特性未知的四旋翼无人机姿态控制器及方法 |
CN108445766A (zh) * | 2018-05-15 | 2018-08-24 | 山东大学 | 基于rpd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法 |
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112034872A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Labbadi et al. | Robust adaptive backstepping fast terminal sliding mode controller for uncertain quadrotor UAV | |
Islam et al. | Robust control of four-rotor unmanned aerial vehicle with disturbance uncertainty | |
CN111766899B (zh) | 一种基于干扰观测器的四旋翼无人机集群抗干扰编队控制方法 | |
CN112346470A (zh) | 一种基于改进自抗扰控制的四旋翼姿态控制方法 | |
CN106325291A (zh) | 基于滑模控制律和eso的四旋翼飞行器姿态控制方法及系统 | |
CN104571120A (zh) | 四旋翼无人机的姿态非线性自适应控制方法 | |
CN106200665A (zh) | 携带不确定负载的四轴飞行器的建模与自适应控制方法 | |
Yacef et al. | Adaptive fuzzy backstepping control for trajectory tracking of unmanned aerial quadrotor | |
Sun et al. | Nonlinear robust compensation method for trajectory tracking control of quadrotors | |
CN113253617A (zh) | 用于四旋翼无人机的在线自适应控制方法 | |
Zemalache et al. | Controlling a drone: Comparison between a based model method and a fuzzy inference system | |
CN111338369B (zh) | 一种基于非线性逆补偿的多旋翼飞行控制方法 | |
CN113961010A (zh) | 基于抗饱和有限时间自适应神经网络容错技术的四旋翼植保无人机跟踪控制方法 | |
CN115826597A (zh) | 基于自适应神经网络的旋翼飞行器抗扰控制方法及设备 | |
Akbar et al. | Adaptive modified super-twisting control for a quadrotor helicopter with a nonlinear sliding surface | |
CN112034872B (zh) | 一种四旋翼无人机积分补偿确定性策略梯度控制方法 | |
Aruneshwaran et al. | Neural adaptive flight controller for ducted-fan UAV performing nonlinear maneuver | |
BOUZID et al. | Generic dynamic modeling for multirotor VTOL UAVs and robust Sliding Mode based Model-Free Control for 3D navigation | |
CN117666332A (zh) | 一种动态扰动环境下多旋翼飞行器自学习抗干扰控制方法 | |
Brahim et al. | Finite Time Adaptive SMC for UAV Trajectory Tracking Under Unknown Disturbances and Actuators Constraints | |
Maslim et al. | Performance evaluation of adaptive and nonadaptive fuzzy structures for 4d trajectory tracking of quadrotors: A comparative study | |
Li et al. | A novel anti-disturbance control of quadrotor UAV considering wind and suspended payload | |
CN116679548A (zh) | 基于时变观测器的三自由度直升机鲁棒输出反馈控制方法 | |
Ma et al. | Finite-time trajectory tracking control of quadrotor UAV via adaptive RBF neural network with lumped uncertainties | |
CN113885358B (zh) | 一种混合构型固定翼无人机机动仿真控制律设计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |