CN112034872B

CN112034872B - 一种四旋翼无人机积分补偿确定性策略梯度控制方法

Info

Publication number: CN112034872B
Application number: CN202010895952.XA
Authority: CN
Inventors: 孙长银; 王远大; 孙佳; 刘剑
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2023-01-17
Anticipated expiration: 2040-08-31
Also published as: CN112034872A

Abstract

本专利公开了一种四旋翼无人机积分补偿确定性策略梯度控制方法。本发明使用深度神经网络对四旋翼无人机的控制器进行表示，将四旋翼无人机的运动状态通过深度神经网络直接映射到四个电机的控制指令，使用机器学习算法根据奖励反馈信号对深度神经网络进行训练，最终获得满足控制需求的控制器。本方法可以直接使用带有复杂非线性特性的四旋翼无人机数学模型进行训练，通过引入积分补偿机制结合确定性策略梯度算法进行训练，可以提高训练得到的控制器的鲁棒性和精确性。

Description

一种四旋翼无人机积分补偿确定性策略梯度控制方法

技术领域

本发明属于无人机控制领域，涉及一种四旋翼无人机积分补偿确定性策略梯度控制方法。

背景技术

小型四旋翼无人机以其机械结构简单、使用成本低廉等优势在航空摄影、农业植保、社会治安、电力巡检、灾害评估与搜救等各个方面都发挥了巨大的作用。四旋翼无人机高效稳定的运动控制是其完成各类飞行任务的关键。四旋翼无人机的动力学模型是一个不稳定的系统，具有欠驱动、非线性、强耦合的特性。对于这样的系统模型的控制本身具有较大的难度。各类四旋翼无人机在使用材料、机身尺寸、机体重量、气动外形方面各不相同。其转动惯量、空气阻力系数等建模的关键参数实际上难以准确测量。另外考虑到四旋翼在实际飞行中，还面临各种外部的干扰，例如阵风干扰、任务配载变化等问题。

针对四旋翼无人机控制问题中动态模型参数未知和外部扰动未知的问题，国内高校和研究机构也给出了一些解决方法。例如基于全局滑模控制的方法(专利：一种四旋翼无人机控制方法；申请号：201610361685.1)，该方法将全局滑模控制的动态滑模面的衰减函数设计为由三个指数函数项组成的一阶可导函数，使其能在在有限时间内衰减到零，从而提高四旋翼无人机的动态响应速度。这类基于变结构控制理论的四旋翼控制方法主要有两方面的问题：(1)在设计控制器时对四旋翼的非线性数学模型进行了较大的简化，并且对无人机的运动状态加以限制，只能应用于小倾斜角的飞行姿态。因此通过数学推算得到的控制器在实际中难以达到理论上的效果。(2)控制器待定参数较多，并且没有明确的选取范围和方法，在实际应用中选取这些参数具有较大的困难。

发明内容

针对现有的控制方法的不足之处，本发明提供一种四旋翼无人机积分补偿确定性策略梯度控制方法，解决因控制器设计过程中数学模型简化引发的不良影响，以及控制器待定参数较多带来的问题，

本发明采用的技术方案是使用深度神经网络构建四旋翼无人机的控制器，将四旋翼无人机的运动状态通过深度神经网络直接映射到四个电机的控制指令，使用积分补偿确定性策略梯度算法，根据奖励反馈信号对深度神经网络进行训练，不断更新其参数，最终获得满足控制响应需求的控制器。

本专利提供一种四旋翼无人机积分补偿确定性策略梯度控制方法，包括如下步骤：

步骤S1，建立无人机非线性数学模型，如下式所示：

其中φ、θ、ψ分别表示四旋翼无人机的滚转、俯仰、偏航三个姿态角；

分别表示三个姿态角度的二阶导数；x、y、z分别表示四旋翼无人机在地理三维坐标系下的位置；

代表三个位置的二阶导数；L＝0.2m为四旋翼飞行器的力臂长度；K＝8.78为四旋翼飞行器电机的推力系数；K_ψ＝0.4为电机的反扭矩系数；I_x＝0.03kg·m²、I_y＝0.03kg·m²、I_z＝0.04kg·m²为四旋翼无人机绕机体三轴的转动惯量；m＝1.79kg为四旋翼的总质量；g＝9.81m/s²为重力加速度常数；sin和cos分别为正弦和余弦函数，四旋翼无人机的运动状态量表示为：

其中

为三个姿态角度的一阶导数，即三轴角速度，

为三维速度误差值，定义为

其中

为四旋翼无人机三维位置坐标的一阶导数，即三维速度值；

为四旋翼无人机的三维目标速度值；下标t表示时间步数，四旋翼无人机的控制量表示为：a＝[u₁，u₂，u₃，u₄]；

步骤S2，建立由神经网络表示的控制器和评价器，即控制器网络和评价器网络，控制器网络的输入端连接有积分补偿器，积分补偿器将四旋翼无人机的速度误差状态

通过积分的方式补偿为其按照时间积分的形式，例如X轴速度误差的积分形式表示为：

其中符号的上标t表示时间步，其中t＝T表示当前时间步，若将上标省略，则默认表示当前时间步，

表示在当前时间步四旋翼无人机X轴方向的速度误差值，

表示在当前时间步通过积分补偿器得到的X轴速度误差补偿值，β＝0.01为积分增益，同理可以得到Y轴和Z轴速度误差的积分补偿形式，

和

控制器网络的输入层表示为：

控制器网络具有两个隐含层，每层包含128个隐节点，控制器网络每一层都使用Sigmoid函数，控制器网络的输出为四旋翼无人机的控制输入，表示为a＝[u₁，u₂，u₃，u₄]，控制器网络整体表示为：a＝A^μ(s_c)，其中μ表示该网络的所有参数，评价器网络的输入层表示为：

评价器网络具有两个隐含层，每层包含128个隐节点，评价器网络的前三层的激活函数为Sigmoid函数，最后一层使用的为Linear函数，输出表示为状态-动作值：q，评价器网络整体表示为：q＝Q^w(s，a)，其中w表示该网络的所有参数，

步骤S3，根据控制目标设计奖励函数R，奖励函数值r可以通过四旋翼状态量计算得到，其具体设计为：

步骤S4，使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据；

步骤S5，根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器，直到获得满足控制目标需求的控制器；

步骤S6，根据任务需求，使用得到的控制器对实际四旋翼无人机进行控制。

作为本发明进一步改进，步骤S4中使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据具体的执行步骤包括步骤S4-1到步骤S4-9；

步骤S4-1，随机初始化控制器和评价器，控制器和评价器用步骤S2中所示神经网络分别表示，控制器网络连接的权值参数μ以及评价器网络连接的权值参数w，可以使用均值为0，方差为0.01的高斯分布随机数进行初始化，另外初始化评价器网络的目标网络，表示为q′＝Q^w′(s，a)，其结构与评价器网络完全相同，其参数w′的初始值与评价器网络的参数w也是相同的；

步骤S4-2，初始化四旋翼无人机的状态，在安全范围内随机初始化四旋翼的运动状态和目标速度，安全范围设置为：姿态角速度

姿态角

运动速度和目标速度

步骤S4-3，获取四旋翼初始状态，其包括四旋翼的自身的运动传感量

以及目标速度

进而可以计算出四旋翼无人机的运动状态量

步骤S4-4，状态误差积分补偿，通过步骤S2中所述积分补偿的计算方法，将四旋翼的运动状态量通过积分补偿获得补偿状态量

步骤S4-5，计算电机控制量，将补偿状态量s_c输入控制器网络a＝A^μ(s_c)，经过神经网络的前馈运算，可以得到四旋翼每个电机的控制量a＝[u₁，u₂，u₃，u₄]；

步骤S4-6，将得到的每个电机的控制量a＝[u₁，u₂，u₃，u₄]输入到四旋翼的数学模型中，依据非线性方程组对无人机运动状态进行仿真控制运算；

步骤S4-7，从四旋翼数学模型的非线性方程组的运算结果中选取下一步的四旋翼无人机的运动状态量

步骤S4-8，将前一步的运动状态量s、后一步的运动状态量s′、输入的控制量a、奖励函数值r＝R(s′)，合并为一组数据，表示为：e_k＝(s，a，r，s′)_k，并将其保存到实验数据存储器中，其中下标k表示该组数据在实验数据存储器中的顺序号；

步骤S4-9，判断四旋翼无人机下一步状态量s′是否超出安全范围或者仿真时间超过最大时长，最大时长设置为5s，即500个时间步，如果超出了安全范围或者最大时长，则返回步骤S4-2，重新初始化四旋翼状态和目标速度并进行下一组控制仿真实验；如果没有超出，则进入下一步。

作为本发明进一步改进，步骤S5根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器，直到获得满足控制目标需求的控制器，其具体的执行步骤包括步骤S3-1到步骤S3-5；

步骤S5-1，更新评价器，首先从实验数据存储器中随机抽取N＝128组实验数据：[e₁，e₂，...，e_N]，抽取的任意一组数据表示为e_i＝(s_i，a_i，r_i，s′_i)，其中下标i表示在抽取的N组数据中的序号，根据以下公式使用批量式梯度下降法对评价器网络Q^w(s，a)的参数w进行更新：

其中

为梯度的表示符号，←为赋值更新符号，γ表示折扣因子，可以取0.99，其中α表示更新速率，可以取0.001，然后根据以下公式使用批量式梯度上升法对控制器网络A^μ(s)的参数μ进行更新：

最后根据以下公式对评价网络的目标网络Q^w′(s，a)的参数w′进行更新：

w′←ηw+(1-η)w′

其中η＝0.002为参数更新速率；

步骤S5-2，判断训练是否达到预期目标，使用奖励函数值的滑动平均值判断训练得到的控制器是否达到了预期的控制效果，滑动平均的窗口取50000步，评判预期控制效果的判别阈值根据实际控制需求进行选取，若滑动平均值低于判别阈值则需要返回步骤S4-4，继续进行仿真控制实验和网络参数的更新；若滑动平均值超过判别阈值，则代表当前控制器已经满足控制目标需求，可以进入下一步

步骤S5-3，保存控制器网络。

作为本发明进一步改进，步骤S6根据任务需求，使用得到的控制器对实际四旋翼无人机进行控制，其具体执行步骤为包括步骤S6-1到步骤S6-5；

步骤S6-1，通过四旋翼无人机机载传感器获得无人机当前运动状态，包括姿态角速度、姿态角度、速度、位置，表示为：

同时获得当前的控制指令，即目标位置[x_d，y_d，z_d]；

步骤S6-2，通过外环比例控制器将目标位置转换为目标速度，比例控制器可以表示为：

其中K_p为比例控制系数，可以根据实际任务的动态性能需求进行选取，sat为饱和函数，保证转换得到的目标速度在安全范围之内，同理可以得到其他两个方向的目标速度

和

进而得到实际四旋翼无人机的运动状态量

步骤S6-3，使用积分补偿的计算方法，将四旋翼的运动状态量通过积分补偿获得补偿状态量

步骤S6-4，将补偿状态量s_c输入控制器网络a＝A^μ(s_c)，经过神经网络的前馈运算，得到四旋翼每个电机的控制量a＝[u₁，u₂，u₃，u₄]，并通过硬件控制器发送给每个电机；

步骤S6-5，反复执行步骤S6-1到S6-4，直到四旋翼无人机抵达目标位置。

本发明有益效果如下：

本发明所述基于积分补偿确定性策略梯度算法的四旋翼无人机控制方法可以直接使用带有复杂非线性特性的四旋翼无人机数学模型进行训练，并得到符合设计目标的控制器，减轻了由于模型简化对控制器设计带来的不良影响。所述训练算法通过引入积分补偿器结构，并且使用带有积分补偿的确定性策略梯度算法进行训练，可以提高训练得到的控制器的鲁棒性和精确性。

附图说明

图1是本发明使用的控制器网络、评价器网络结构示意图；

图2是本发明使用积分补偿确定性策略梯度算法执行步骤示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

下面介绍本发明所提出的基于积分补偿确定性策略梯度算法的四旋翼无人机控制方法的具体实施方式，具体步骤如下：

步骤S1，建立无人机非线性数学模型，如下式所示：

代表三个位置的二阶导数；L＝0.2m为四旋翼飞行器的力臂长度；K＝8.78为四旋翼飞行器电机的推力系数；K_ψ＝0.4为电机的反扭矩系数；I_x＝0.03kg·m²、I_y＝0.03kg·m²、I_z＝0.04kg·m²为四旋翼无人机绕机体三轴的转动惯量；m＝1.79kg为四旋翼的总质量；g＝9.81m/s²为重力加速度常数；sin和cos分别为正弦和余弦函数。四旋翼无人机的运动状态量表示为：

其中

为三个姿态角度的一阶导数，即三轴角速度，

为三维速度误差值，定义为

其中

为四旋翼无人机三维位置坐标的一阶导数，即三维速度值；

为四旋翼无人机的三维目标速度值；下标t表示时间步数。四旋翼无人机的控制量表示为：a＝[u₁，u₂，u₃，u₄]。

其中步骤S1中所述四旋翼无人机数学模型依据实际被控无人机的运动学机理建模得到，不需要对非线性项进行省略和简化。数学模型反映四旋翼无人机从四个电机控制信号到姿态角速度、姿态角、运动速度三方面运动状态的动态响应情况。数学模型的输入量为四个电机的控制量，输出为无人机的三轴角速度、三轴角度以及三维运动速度。

步骤S2，建立由神经网络表示的控制器和评价器，即控制器网络和评价器网络。控制器网络、评价器网络，以及积分补偿器的结构和关系如图1所示。积分补偿器将四旋翼无人机的速度误差状态

其中符号的上标t表示时间步，其中t＝T表示当前时间步，若将上标省略，则默认表示当前时间步。

表示在当前时间步四旋翼无人机X轴方向的速度误差值。

表示在当前时间步通过积分补偿器得到的X轴速度误差补偿值。β＝0.01为积分增益。同理可以得到Y轴和Z轴速度误差的积分补偿形式，

和

控制器网络的输入层表示为：

控制器网络具有两个隐含层，每层包含128个隐节点。控制器网络每一层都使用Sigmoid函数。控制器网络的输出为四旋翼无人机的控制输入，表示为a＝[u₁，u₂，u₃，u₄]。控制器网络整体表示为：a＝A^μ(s_c)，其中μ表示该网络的所有参数。评价器网络的输入层表示为：

评价器网络具有两个隐含层，每层包含128个隐节点。评价器网络的前三层的激活函数为Sigmoid函数，最后一层使用的为Linear函数，输出表示为状态-动作值：q。评价器网络整体表示为：q＝Q^w(s，a)，其中w表示该网络的所有参数。

其中步骤S2中所述控制器带有积分补偿器，积分补偿器对四旋翼无人机运动速度与目标速度之间的误差进行积分处理，并与实时速度误差相加，得到积分补偿速度误差。使用深度神经网络构建的控制器(控制器网络)包含一个输入层、两个隐含层和一个输出层。控制器网络的初始连接权值为随机值。控制器网络的输入层包含四旋翼无人机的三轴角速度、三轴角度以及积分补偿速度误差，输出层为四个电机的控制量。用于表示评价器的深度神经网络(评价器网络)包含一个输入层、两个隐含层和一个输出层。评价器网络的初始连接权值为随机值。评价器网络的输入层包含四旋翼的三轴姿态角速度、三轴姿态角度、三维运动速度与目标速度之差以及四个电机的控制量，输出为对当前控制器效果的评价指标。

其中步骤S3中所述奖励函数设计为四旋翼运动速度与目标速度之间的误差的平方和，表达了时间最优跟踪控制的控制器设计目标

步骤S4，使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据，其具体的执行步骤如图2(步骤S4-1至步骤S4-9)所示：

步骤S4-1，随机初始化控制器和评价器。控制器和评价器用步骤S2中所示神经网络分别表示，控制器网络连接的权值参数μ以及评价器网络连接的权值参数w，可以使用均值为0，方差为0.01的高斯分布随机数进行初始化。另外初始化评价器网络的目标网络，表示为q′＝Q^w′(s，a)，其结构与评价器网络完全相同，其参数w′的初始值与评价器网络的参数w也是相同的。

步骤S4-2，初始化四旋翼无人机的状态。在安全范围内随机初始化四旋翼的运动状态和目标速度。安全范围设置为：姿态角速度

姿态角

运动速度和目标速度

步骤S4-3，获取四旋翼初始状态。其包括四旋翼的自身的运动传感量

以及目标速度

进而可以计算出四旋翼无人机的运动状态量

步骤S4-4，状态误差积分补偿。通过步骤S2中所述积分补偿的计算方法，将四旋翼的运动状态量通过积分补偿获得补偿状态量

步骤S4-5，计算电机控制量。将补偿状态量s_c输入控制器网络a＝A^μ(s_c)，经过神经网络的前馈运算，可以得到四旋翼每个电机的控制量a＝[u₁，u₂，u₃，u₄]。

步骤S4-6，将得到的每个电机的控制量a＝[u₁，u₂，u₃，u₄]输入到四旋翼的数学模型中，依据非线性方程组对无人机运动状态进行仿真控制运算。

步骤S4-8，将前一步的运动状态量s、后一步的运动状态量s′、输入的控制量a、奖励函数值r＝R(s′)，合并为一组数据，表示为：e_k＝(s,a，r，s′)_k，并将其保存到实验数据存储器中，其中下标k表示该组数据在实验数据存储器中的顺序号。

步骤S4-9，判断四旋翼无人机下一步状态量s′是否超出安全范围或者仿真时间超过最大时长。最大时长设置为5s，即500个时间步。如果超出了安全范围或者最大时长，则返回步骤S4-2，重新初始化四旋翼状态和目标速度并进行下一组控制仿真实验；如果没有超出，则进入下一步。

其中步骤S4所述仿真控制实验设置了四旋翼无人机的运动状态(包括：姿态角速度、姿态角、飞行速度)的安全范围。在仿真控制实验中，四旋翼无人机的状态和目标速度在安全范围内随机初始化，当四旋翼无人机的运动状态超出安全范围或者实验时长时间超出最大时长时，重新在安全范围内初始化四旋翼的状态和目标速度，并继续进行仿真实验。仿真控制实验中保存的实验数据包括四旋翼无人机的运动状态和控制量。

步骤S5，根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器，直到获得满足控制目标需求的控制器。其具体的执行步骤如图2(步骤S5-1至步骤S5-3)所示。

步骤S5-1，更新评价器。首先从实验数据存储器中随机抽取N＝128组实验数据：[e₁，e₂，...，e_N]，抽取的任意一组数据表示为e_i＝(s_i，a_i，r_i，s′_i)，其中下标i表示在抽取的N组数据中的序号。根据以下公式使用批量式梯度下降法对评价器网络Q^w(s，a)的参数w进行更新：

其中

为梯度的表示符号，←为赋值更新符号，γ表示折扣因子，可以取0.99。其中α表示更新速率，可以取0.001。然后根据以下公式使用批量式梯度上升法对控制器网络A^μ(s)的参数μ进行更新：

w'←ηw+(1-η)w'

其中η＝0.002为参数更新速率。

步骤S5-2，判断训练是否达到预期目标。使用奖励函数值的滑动平均值判断训练得到的控制器是否达到了预期的控制效果。滑动平均的窗口取50000步。评判预期控制效果的判别阈值根据实际控制需求进行选取。若滑动平均值低于判别阈值则需要返回步骤S4-4，继续进行仿真控制实验和网络参数的更新；若滑动平均值超过判别阈值，则代表当前控制器已经满足控制目标需求，可以进入下一步

步骤S5-3，保存控制器网络。

其中步骤S5中使用的积分补偿确定性策略梯度算法具体为带有积分补偿机制的确定性策略梯度算法，该算法可以依据仿真实验中保存的实验数据和奖励函数，首先对评价器进行训练，然后根据评价器所得到控制效果评价指标对控制器进行训练和更新。通过多次实验和更新，可以逐步提高控制器的性能。

其中步骤S5中可以通过仿真控制实验中奖励函数值的滑动平均值来判断是否获得了满足控制目标的控制器。

步骤S6，根据任务需求，使用得到的控制器对实际四旋翼无人机进行控制。其具体执行步骤为：

同时获得当前的控制指令，即目标位置[x_d，y_d，z_d]。

步骤S6-2，通过外环比例控制器将目标位置转换为目标速度。比例控制器可以表示为：

其中K_p为比例控制系数，可以根据实际任务的动态性能需求进行选取，sat为饱和函数，保证转换得到的目标速度在安全范围之内。同理可以得到其他两个方向的目标速度

和

进而得到实际四旋翼无人机的运动状态量

步骤S6-4，将补偿状态量s_c输入控制器网络a＝A^μ(s_c)，经过神经网络的前馈运算，得到四旋翼每个电机的控制量a＝[u₁，u₂，u₃，u₄]，并通过硬件控制器发送给每个电机。

其中步骤S6中对实际四旋翼无人机进行控制时，还需要在步骤S5得到的控制器的基础上加入外环比例控制器实现对四旋翼无人机的位置控制。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种四旋翼无人机积分补偿确定性策略梯度控制方法，其特征在于，包括如下步骤：

步骤S1，建立无人机非线性数学模型，如下式所示：

其中

为三个姿态角度的一阶导数，即三轴角速度，

为三维速度误差值，定义为

其中

为四旋翼无人机三维位置坐标的一阶导数，即三维速度值；

为四旋翼无人机的三维目标速度值；下标t表示时间步数，四旋翼无人机的控制量表示为：a＝[u₁,u₂,u₃,u₄]；

通过积分的方式补偿为其按照时间积分的形式，X轴速度误差的积分形式表示为：

表示在当前时间步四旋翼无人机X轴方向的速度误差值，

和

控制器网络的输入层表示为：

控制器网络具有两个隐含层，每层包含128个隐节点，控制器网络每一层都使用Sigmoid函数，控制器网络的输出为四旋翼无人机的控制输入，表示为a＝[u₁,u₂,u₃,u₄]，控制器网络整体表示为：a＝A^μ(s_c)，其中μ表示该网络的所有参数，评价器网络的输入层表示为：

评价器网络具有两个隐含层，每层包含128个隐节点，评价器网络的前三层的激活函数为Sigmoid函数，最后一层使用的为Linear函数，输出表示为状态-动作值：q，评价器网络整体表示为：q＝Q^w(s,a)，其中w表示该网络的所有参数，

步骤S5根据实验数据使用积分补偿确定性策略梯度算法更新评价器和控制器，直到获得满足控制目标需求的控制器，其具体的执行步骤包括步骤S5-1到步骤S5-5；

步骤S5-1，更新评价器，首先从实验数据存储器中随机抽取N＝128组实验数据：[e₁,e₂,…,e_N]，抽取的任意一组数据表示为e_i＝(s_i,a_i,r_i,s′_i)，其中下标i表示在抽取的N组数据中的序号，根据以下公式使用批量式梯度下降法对评价器网络Q^w(s,a)的参数w进行更新：

其中

最后根据以下公式对评价网络的目标网络Q^w′(s,a)的参数w′进行更新：

w′←ηw+(1-η)w′

其中η＝0.002为参数更新速率；

步骤S5-3，保存控制器网络；

2.根据权利要求1中所述一种四旋翼无人机积分补偿确定性策略梯度控制方法，其特征在于；步骤S4中使用控制器对四旋翼数学模型进行仿真控制实验同时保存实验数据具体的执行步骤包括步骤S4-1到步骤S4-9；

步骤S4-1，随机初始化控制器和评价器，控制器和评价器用步骤S2中所示神经网络分别表示，控制器网络连接的权值参数μ以及评价器网络连接的权值参数w，可以使用均值为0，方差为0.01的高斯分布随机数进行初始化，另外初始化评价器网络的目标网络，表示为q′＝Q^w′(s,a)，其结构与评价器网络完全相同，其参数w′的初始值与评价器网络的参数w也是相同的；

-4.5～4.5rad/s；姿态角(φ,θ,ψ)：-45°～45°；运动速度和目标速度

-10～10m/s；

以及目标速度

进而可以计算出四旋翼无人机的运动状态量

步骤S4-5，计算电机控制量，将补偿状态量s_c输入控制器网络a＝A^μ(s_c)，经过神经网络的前馈运算，可以得到四旋翼每个电机的控制量a＝[u₁,u₂,u₃,u₄]；

步骤S4-6，将得到的每个电机的控制量a＝[u₁,u₂,u₃,u₄]输入到四旋翼的数学模型中，依据非线性方程组对无人机运动状态进行仿真控制运算；

步骤S4-8，将前一步的运动状态量s、后一步的运动状态量s′、输入的控制量a、奖励函数值r＝R(s′)，合并为一组数据，表示为：e_k＝(s,a,r,s′)_k，并将其保存到实验数据存储器中，其中下标k表示该组数据在实验数据存储器中的顺序号；

3.根据权利要求1中所述一种四旋翼无人机积分补偿确定性策略梯度控制方法，其特征在于；步骤S6根据任务需求，使用得到的控制器对实际四旋翼无人机进行控制，其具体执行步骤为包括步骤S6-1到步骤S6-5；

同时获得当前的控制指令，即目标位置[x_d,y_d,z_d]；

和

进而得到实际四旋翼无人机的运动状态量

步骤S6-4，将补偿状态量s_c输入控制器网络a＝A^μ(s_c)，经过神经网络的前馈运算，得到四旋翼每个电机的控制量a＝[u₁,u₂,u₃,u₄]，并通过硬件控制器发送给每个电机；