CN112650058A

CN112650058A - 一种基于强化学习的四旋翼无人机轨迹控制方法

Info

Publication number: CN112650058A
Application number: CN202011536196.8A
Authority: CN
Inventors: 刘小雄; 梁晨; 张兴旺; 高鹏程; 黄剑雄
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-13
Anticipated expiration: 2040-12-23
Also published as: CN112650058B

Abstract

本发明公开了一种基于强化学习的四旋翼无人机轨迹控制方法，首先建立四旋翼无人机运动学模型和环境模型，用来获取强化学习中对某一个动作的奖惩信息以及四旋翼的实时状态信息；接下来设计四旋翼无人机整体控制结构；然后设计基于DQN算法的四旋翼无人机水平位置控制方法和四旋翼无人机高度控制方法；最后设计四旋翼无人机制导控制方法，并与四旋翼无人机水平位置控制方法和四旋翼无人机高度控制方法相结合，最终得到四旋翼无人机的轨迹控制方法。本方法不仅可以使得四旋翼无人机轨迹控制器网络快速收敛，还增加了制导控制律，使得无人机偏离航线之后能快速返回航线。

Description

一种基于强化学习的四旋翼无人机轨迹控制方法

技术领域

本发明属于无人机技术领域，具体涉及一种无人机轨迹控制方法。

背景技术

近些年来随着科技的提升，旋翼无人机行业发展迅猛，应用场景越来越广阔，由于四旋翼具有可垂直起降、低成本和结构简单的特性，因此在公共安全、民用航拍、消防急救、农业植保以及军事领域具有十分广泛的用途。四旋翼无人机正在朝着易携带、多功能和更加安全高效的方向发展。

由于四旋翼是典型的欠驱动非线性强耦合系统，目前四旋翼无人机的轨迹控制均采用传统的PID控制方法，该方法能够控制无人机在一定环境下取得不错的控制效果，然而该方法对四旋翼模型的依赖度较高，控制律调参也是一个很复杂的事情。旋翼在飞行过程中容易受到环境的干扰，旋翼桨叶之间的气动干扰，存在电机快速旋转时产生的陀螺力矩以及旋翼质量分布不均等问题，这使得对四旋翼的精确建模尤为困难，从而导致依赖精确建模的传统控制算法难以达到控制要求。

强化学习在控制领域已有新的突破，在两轮车的控制、倒立摆的控制上已经取得了不错的进展。

发明内容

为了克服现有技术的不足，本发明提供了一种基于强化学习的四旋翼无人机轨迹控制方法，首先建立四旋翼无人机运动学模型和环境模型，用来获取强化学习中对某一个动作的奖惩信息以及四旋翼的实时状态信息；接下来设计四旋翼无人机整体控制结构；然后设计基于DQN算法的四旋翼无人机水平位置控制方法和四旋翼无人机高度控制方法；最后设计四旋翼无人机制导控制方法，并与四旋翼无人机水平位置控制方法和四旋翼无人机高度控制方法相结合，最终得到四旋翼无人机的轨迹控制方法。本方法不仅可以使得四旋翼无人机轨迹控制器网络快速收敛，还增加了制导控制律，使得无人机偏离航线之后能快速返回航线。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：建立四旋翼无人机运动学模型；

在惯性系中应用牛顿第二定律，得到四旋翼无人机在合外力F作用下的线运动和和合外力矩M作用下的角运动方程：

其中，m表示无人机质量，V表示无人机速度，L表示无人机动量矩；

根据机体系与地面系的旋转关系求得欧拉角速率与机体三轴角速率的关系：

其中，φ、θ、ψ分别为四旋翼无人机的滚转角、俯仰角和偏航角；p、q、r分别为四旋翼无人机的滚转角速率、俯仰角速率、偏航角速率；

求解合外力矩方程，得到四旋翼无人机的角运动方程：

其中，I_x、I_y、I_z分别为四旋翼无人机绕x、y、z轴的转动惯量，J_r为四旋翼无人机每个桨叶的转动惯量，Ω_G为陀螺力矩转速；U_φ、U_θ分别为四旋翼无人机的滚转通道的控制输入和俯仰通道的控制输入；

四旋翼无人机线运动方程：

其中，x、y、z分别为无人机惯性坐标系下的三轴位置，h、g分别为无人机高度和当地重力加速度，U_T为四旋翼无人机纵向通道控制量；

则四旋翼无人机运动学模型为：

其中d表示四旋翼无人机旋翼转轴到x轴或y轴的距离；C_M为反扭力矩系数，C_T为升力系数；F₁、F₂、F₃、F₄分别为四旋翼无人机四个旋翼提供的拉力；

步骤2：设计四旋翼无人机控制结构；

四旋翼无人机的控制结构为串级控制，外环包括高度控制器和水平位置控制器，内环包括姿态控制器；四旋翼无人机根据设定的航点实时解算无人机当前的水平位置偏差和高度偏差，并将高度偏差传送到高度控制器解算得到高度控制量，将水平位置偏差输送到水平位置控制器解算得到水平位置控制量；

水平位置控制量控制目标俯仰角和目标滚转角，四旋翼无人机将目标俯仰角和目标滚转角输送到姿态控制器解算出姿态控制量，最终四旋翼无人机将姿态控制量和高度控制量通过控制分配输送到每个旋翼的电机；

步骤3：设计四旋翼无人机水平位置控制器；

水平位置控制器输入为

Δx为x轴向水平位置的偏差、

为x轴向的速度，Δh为高度方向上的偏差；水平位置控制器网络隐藏层设置20个神经元，输出层为60个神经元，分别对应动作库中60个动作的价值；

四旋翼无人机俯仰角最大不超过±30°，将动作库范围设置为[-30°，+30°]，相邻动作之间间隔1，最终动作库为[-30,-29，-28，…，29,30]；动作库中的动作对应着目标俯仰角的期望值；

将强化学习算法的水平位置控制器回报函数设置为：

基于强化学习算法的四旋翼无人机水平位置控制律方法如下：

步骤3-1：初始化水平位置控制器网络的评估网络Q(,,w)的参数w、目标网络Q(,,w_target)的参数w_target←w；初始化经验池D以及其容量m、初始化贪婪值ε及其最大值ε_max、设置贪婪值更新步长ε_step、初始化学习率σ、折扣因子γ、每次采取的样本大小batch_size、目标网络参数更新周期C；

步骤3-2：执行以下操作：

步骤3-2-1：初始化状态动作对，定义初始状态

Δx₀,

Δh₀分别为x轴向水平位置的偏差、x轴向的速度和高度方向上的偏差的初始值；

步骤3-2-2：重复执行以下操作：

步骤3-2-2-1：将当前采样状态

输入到水平位置控制器网络中，输出动作价值，四旋翼无人机根据ε-greedy策略选择动作A并执行，观测得到奖励R和新状态s′；

步骤3-2-2-2：将经验[s,A,R,s′]存入经验池D中；

步骤3-2-2-3：从经验池D中随机均匀采样一组样本[s_i,A_i,R_i,s_i′]，i∈B，B表示采样数；

步骤3-2-2-4：计算回报的估计值，即TD目标：

U_i←R_i+γmax_aQ(s_i′,a；w_target)

步骤3-2-2-5：更新动作价值函数，执行一次梯度下降更新w以减小

步骤3-2-2-6：更新状态s←s′；

步骤3-2-2-7：更新目标网络，每隔固定的步数，将评估网络的权重赋给目标网络w_target←w；

步骤4：设计四旋翼无人机高度控制器；

四旋翼无人机高度控制器的输出为无人机油门量，将油门量以及姿态控制量经过控制分配，得到四个旋翼桨叶的拉力，为四旋翼无人机提供纵向运动的动力来源，从而改变无人机的纵向位置信息；高度控制器输入为当前的无人机高度量与期望的无人机高度量之间的偏差，以及无人机沿纵向飞行的速度量；

四旋翼无人机高度通道的运动方程为：

简写为：

高度控制器网络隐藏层有20个神经元，输出层有50个神经元，分别表征动作库中50个动作的价值；当模型训练完成之后，每一步根据这50个动作的价值使用贪婪策略对动作进行选取；将高度控制量动作库设置为[0,5]，相邻动作之间间隔0.1，即高度控制量动作库为：[0,0.1,0.2,…,4.9,5.0]，因此动作库维度为50；

将强化学习算法的高度控制器回报函数设计为：

基于强化学习算法的四旋翼无人机高度控制律方法如下：

步骤4-1：初始化经验池D以及其大小m，初始化高度控制器评价网络参数w以及目标网络参数w_target，初始化贪婪值ε及其最大值ε_max、设置贪婪值更新步长ε_step、初始化学习率σ、折扣因子γ、每次采取的样本大小batch_size、目标网络参数更新周期C；

步骤4-2：执行以下操作：

步骤4-2-1：初始化状态动作对，定义初始状态

表示高度变化量初始值；

步骤4-2-2：重复执行以下操作：

步骤4-2-2-1：将当前四旋翼无人机的状态

输入到高度控制器网络中，输出动作价值，四旋翼无人机根据ε-greedy策略选择动作A并执行一次，观测得到奖励R和新状态s′；

步骤4-2-2-2：将经验[s,A,R,s′]存入经验池D中；

步骤4-2-2-3：从经验池D中随机均匀采取一组样本[s_i,A_i,R_i,s_i′]，i∈B，B表示采样数；

步骤4-2-2-4：计算回报的估计值，即TD目标：

U_i←R_i+γmax_aQ(s_i′,a；w_target)i∈B

步骤4-2-2-5：更新动作价值函数，执行一次梯度下降更新w以减小

步骤4-2-2-6：更新状态s←s′；

步骤4-2-2-7：更新目标网络，每隔固定的步数，将评估网络的权重赋给目标网络w_target←w；

训练时，动作的选取策略为ε-greedy，训练开始时，将ε初始值设置为0，当经过一定的步数后，每隔一步对ε增加ε_step，同时执行一次梯度下降对现时网络参数进行更新，参数更新策略选择为greedy，现实网络每更新C次，对目标网络参数进行更新；

步骤5：设计四旋翼无人机制导控制律

设四旋翼无人机需要飞行的两段航点分别为：起点A(x₁,y₁,z₁)，B(x₂,y₂,z₂)，求得由起点指向终点的向量

将该向量单位化：

设无人机飞行速度为

轨迹控制器更新周期为T，求得四旋翼无人机前进距离为：

将四旋翼无人机前进距离投影到航路

方向上得到下一个目标点的位置：

实时地解算出每一个时刻所对应的未来时刻的动态目标点，保证了四旋翼无人机的下一时刻目标位置一直在

航路上，即使某一时刻由于环境因素四旋翼无人机偏离了航路，根据轨迹控制律解算出的未来目标航点，四旋翼无人机也能回到目标航路；

当(err_x²+err_y²)≤0.5时，则四旋翼无人机达到下一个航点，更新此航点为当前航点，将此航点的下一个航点更新为目标航点，以此循环完成四旋翼无人机轨迹飞行任务，err_x²表示当前无人机x轴向位置与期望x轴向位置之间偏差的平方，err_y²表示当前无人机y轴向位置与期望y轴向位置之间偏差的平方。

本发明的有益效果如下：

1、本方法摒弃了传统控制律设计中对模型的精确度以及控制律调参的依赖，利用神经网络去逼近四旋翼状态到动作的映射，并利用强化学习的方法对神经网络进行训练，使得神经网络能够完收敛。

2、与传统控制方法相比，虽然参数数量有所增加，但是省去了人为调参的繁琐步骤；而且对不同的四旋翼无人机来说，仅需要重新训练神经网络即可，对模型的依赖程度大大降低。

3、与传统的PID控制器相比，本方法不仅可以使得四旋翼无人机轨迹控制器网络快速收敛，还增加了制导控制律，使得无人机偏离航线之后能快速回到航线上来。

附图说明

图1为本发明基于强化学习的x轴向位置控制器结构图。

图2为本发明x轴向水平位置控制器损失函数图。

图3为本发明基于强化学习的x轴向位置控制效果图。

图4为本发明基于强化学习的y轴向位置控制效果图。

图5为本发明水平位置控制器的整体结构图。

图6为本发明水平位置控制器二维平面仿真效果。

图7为本发明水平位置控制器时间-距离仿真效果图。

图8为本发明基于强化学习的高度控制结构图。

图9为本发明基于强化学习的高度控制器损失函数图。

图10为本发明强化学习的高度控制效果图。

图11为本发明高度控制速度曲线图。

图12为本发明轨迹控制器整体结构图。

图13为本发明加入制导控制律的轨迹控制器整体结构图。

图14为本发明轨迹控制器三维轨迹图。

图15为本发明主航迹二维平面图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出一种将强化学习与神经网络结合起来的端到端的控制方法，该方法只关心系统的输入输出，不关心系统内部过程，通过智能体与环境的不断交互，反馈奖惩信息来优化控制参数，从而避免了对四旋翼进行精确建模以及手动进行控制律调参等问题。该方法输入为四旋翼三轴位移与速度，经过神经网络，计算出四旋翼的动作值函数，再通过贪婪策略对动作进行选取，得到姿态环的期望值，再通过姿态环的计算，得到四旋翼各个桨叶的拉力，从而实现度四旋翼无人机轨迹的控制。通过强化学习的方法对神经网络进行训练，最终使得神经网络收敛。通过在强化学习算法工具包OpenAI Gym中建立四旋翼的模型，用本文设计的控制算法对该模型进行仿真控制，结果表明了该算法的有效性。

该方法将无人机的实时位置以及实时速度作为输入信息输送给轨迹控制律，通过三层神经网络，输出三轴姿态角的期望值以及油门控制量，再将三轴姿态角期望值输送给姿态控制律得到四旋翼无人机的三轴控制量，最终将三轴控制量与油门控制量经过控制分配得到无人机四个桨叶的拉力，将拉力输送给四旋翼实现对无人机轨迹的控制。

一种基于强化学习的四旋翼无人机轨迹控制方法，包括以下步骤：

步骤1：建立四旋翼无人机运动学模型；

本方面中对“X”型结构的四旋翼无人机建立运动学模型，在惯性系中应用牛顿第二定律，得到四旋翼无人机在合外力F作用下的线运动和和合外力矩M作用下的角运动方程：

通过对桨叶动力学模型的分析和电机模型的建立，可以求得桨叶产生的力矩、旋翼惯性反扭力矩以及陀螺效应力矩。根据机体系与地面系的旋转关系求得欧拉角速率与机体三轴角速率的关系：

当四旋翼姿态变化很小时，求解合外力矩方程，得到四旋翼无人机的角运动方程：

一般情况下四旋翼飞行较低，忽略机身升力与机身阻力，则无人机主要受桨叶升力、自重和空气阻力的影响。通过分析四旋翼无人机合外力与加速度的关系，四旋翼无人机线运动方程：

则四旋翼无人机运动学模型为：

步骤2：设计四旋翼无人机控制结构；

由于俯仰角和滚转角的存在会导致油门不能完全用于提供升力，因此在高度控制中需要反馈俯仰角和滚转角的信息对高度控制进行必要的补偿。

步骤3：设计四旋翼无人机水平位置控制器；

旋翼无人机最大的特点就是可以垂直起降，并且可以定点悬停，四旋翼无人机水平位置控制器是四旋翼执行任务的保证，只有位置控制器达到很高的精度，无人机才能精确的执行任务。因为水平运动的动力来源于油门，而油门控制量来源于高度控制器，因此这里在高度控制与内环姿态环控制使用PID的基础上，进行基于强化学习的水平位置控制器设计。

因为四旋翼无人机结构的特殊性，其x轴与y轴相对称，因此x向与y向控制器结构基本相同，这里仅以x轴控制器为例对水平位置控制器进行设计。

首先，根据上述控制器结构可知，水平位置控制器最终输出的是期望俯仰角和滚转角，将期望滚转角与期望俯仰角输入内环姿态控制器，通过内环姿态控制器控制无人机姿态角的改变，为无人机提供加速度，从而改变无人机的位置信息。因此，x轴控制器输入为当前的x轴向位置与期望的x轴向位置之间的偏差，以及无人机沿x轴飞行的速度。其次，由四旋翼运动方程可知水平方向运动方程：

由上式可知道，另一个输入与油门值有关，同样的俯仰角，油门值越大的情况下，所能提供的x轴向的加速度越大，根据高度环控制器，油门值又与高度偏差有关，因此x轴向控制器的第三个输入为高度偏差Δh。

通过以上的分析可知，水平位置控制器的控制输入有三个，分别为x轴向水平位置的偏差Δx、x轴向的速度

以及高度方向上的偏差Δh，由此我们可以对水平位置控制器的结构进行设计。

水平位置控制器输入为

Δx为x轴向水平位置的偏差、

为x轴向的速度，Δh为高度方向上的偏差；水平位置控制器网络隐藏层设置20个神经元，输出层为60个神经元，分别对应动作库中60个动作的价值，当模型训练好之后，根据这60个动作价值，使用greedy贪婪策略就可以进行动作的选取；

四旋翼无人机俯仰角最大不超过±30°，将动作库范围设置为[-30°，+30°]，相邻动作之间间隔1，最终动作库为[-30,-29，-28，…，29,30]；动作库中的动作对应着目标俯仰角的期望值，在经过强化学习的方法进行训练，使得神经网路参数取得最优值即可；

对于x轴向的位置控制，只关注x轴向位置与期望值的偏差以及x轴向的线速度，选择密集函数的形式来对回报进行设计。将强化学习算法的水平位置控制器回报函数设置为：

步骤3-2：执行以下操作：

步骤3-2-1：初始化状态动作对，定义初始状态

Δx₀,

步骤3-2-2：重复执行以下操作：

步骤3-2-2-1：将当前采样状态

步骤3-2-2-2：将经验[s,A,R,s′]存入经验池D中；

步骤3-2-2-4：计算回报的估计值，即TD目标：

U_i←R_i+γmax_aQ(s_i′,a；w_target)

步骤3-2-2-6：更新状态s←s′；

在更新目标网络时，可以简单地把评估网络的参数直接赋值给目标网络，即w_target←w，也可以引入一个表征学习率的参数α_target，将旧的目标神经网络参数和新的评估神经网络参数直接做加权平均后的值赋给目标神经网络，即w_target←(1-α_target)w_target+α_targetw。本发明方法中，采用的是前者，每隔固定的步数直接将新的评估网络参数赋值给目标神经网络参数。

步骤4：设计四旋翼无人机高度控制器；

四旋翼无人机的高度控制独立于姿态控制，采用DQN算法单独进行高度控制器的设计，与上一节无人机的水平位置控制器共同组成四旋翼无人机的定高飞行模式，定高飞行模式是无人机悬停与定点飞行模式的基础。

在四旋翼无人机纵向通道上，只关注高度以及高度的变化量，即h以及

四旋翼无人机高度通道的运动方程为：

当俯仰角与滚转角变化不大时，简写为：

对于高度控制，理想情况是将无人机高度控制到期望值，在期望高度附近，将高度速度量控为0。因此，采用密集函数的形式对高度控制器回报函数进行设计，将强化学习算法的高度控制器回报函数设计为：

基于强化学习算法的四旋翼无人机高度控制律方法如下：

步骤4-2：执行以下操作：

步骤4-2-1：初始化状态动作对，定义初始状态

表示高度变化量初始值；

步骤4-2-2：重复执行以下操作：

步骤4-2-2-1：将当前四旋翼无人机的状态

步骤4-2-2-2：将经验[s,A,R,s′]存入经验池D中；

步骤4-2-2-4：计算回报的估计值，即TD目标：

U_i←R_i+γmax_aQ(s_i′,a；w_target)i∈B

步骤4-2-2-6：更新状态s←s′；

步骤5：设计四旋翼无人机制导控制律；

四旋翼无人机之所以能够在许多场合中被广泛使用，除了其具有稳定悬停的特点之外，还有其可以按照规定航点灵活自主地完成各种任务的能力，而自主飞行就是按照既定的航点，使无人机按照规定的航迹自主地飞完整个航路。

水平位置控制律和高度控制律在前面得到，本步将在内环姿态环控制律采用PID控制的基础上，将前面的水平位置控制律与高度控制律进行结合在轨迹控制中分别进行调用。

由以上分析可知，四旋翼无人机轨迹控制中，输入量为无人机水平位置以及水平速度、无人机纵向位置以及纵向速度、无人机姿态角以及无人机角速度，经过高度控制器、水平位置控制器以及姿态控制器，最终得到无人机油门、俯仰、滚转、偏航通道的控制量，将这四个控制量进行控制分配得到四个桨叶上的拉力，最终将拉力输入无人机完成对四旋翼无人机的轨迹控制。

由于四旋翼无人机在低空飞行和悬停时，很容易受到环境的影响而导致无人机偏离航线，采用实时更新未来目标点的方法，使得四旋翼无人机在偏离航迹时能够快速准确的回到正确的航线上来，从而实现良好的航线跟踪能力。

将该向量单位化：

设无人机飞行速度为

轨迹控制器更新周期为T，求得四旋翼无人机前进距离为：

将四旋翼无人机前进距离投影到航路

方向上得到下一个目标点的位置：

航路上，即使某一时刻由于环境因素四旋翼无人机偏离了航路，根据轨迹控制律解算出的未来目标航点，四旋翼无人机也能回到目标航路。

具体实施例：

1、首先，对基于四旋翼无人机的水平位置控制器进行设计，实验过程如下所示：

如图1所示，在实验开始阶段首先对系统一些必要的参数值进行初始化：给定网络隐含层个数为20，随机初始化网络权值w_ij和w_jk、设置贪婪值ε为0以及最大值ε_max为0.95、贪婪值更新步长ε_step为0.0003、学习率σ为0.02、折扣因子γ为0.9、经验池以及其容量m为3000、每次采取的样本大小batch_size为50、目标网络参数更新周期C为1000步、动作库的值φ_exp,θ_exp分别为：

[-30,-29，-28，…，29,30]

训练时，动作的选取策略为ε-greedy策略，刚开始时，将ε设置为0，然后当总的训练步数大于2000时，即经验池中有一当量的样本数据后，每隔一步，计算一次梯度下降对现实网络参数进行更新，同时ε增加0.001，评估网络参数每更新100次，更新一次目标网络的参数(将其值赋给目标神经网络)。

在实验中，先给定初始x轴向一个固定的偏差值3m，同时设定x轴线速度值为0，训练系统使得系统x轴向位置最终消除这3m的偏差；设定高度偏差为5m，同时保证偏航角保持0度。训练采用回合制，因为一开始系统是随机选择动作的，因此为了加快训练速度，规定每个回合中，当选取的动作使得当前位置偏差超过5m度或者小于-1m时，本回合结束，开始下一回合的训练。

最终x轴向位置环输出量θ_exp取值为网络中值函数最大的元素所对应的动作，即：

如图2所示为x轴控制器损失函数图像，从损失函数曲线中可以看到，神经网络在35000左右已经基本收敛，在本实验中，最终选取了第40000步的参数模型作为最终的控制器参数。同时，为了使得系统能够探索到范围内几乎所有的状态，在初始x为-3m的情况下也进行一次训练。

将最终训练好的模型参数带入系统中进行四旋翼无人机水平位置的控制，效果如图3所示。初始状态x值为-3m，期望值为0m，Vx为0m/s，高度设置为0m，高度期望值设置为5m，偏航角期望值为0度，将x轴向位置偏差限制在[-2,2]以内，并且分别在t＝12s、25s以及42s改变x轴控制器的期望值。从图中可以看出四旋翼无人机能够快速的跟踪上指令，并且水平最大飞行速度接近2m/s，达到目标位置时误差基本上能稳定在0.3m以内，基本满足飞行要求。

同理，y轴向控制器也使用上述方法进行训练，将训练好的模型参数和带入系统中进行实验，效果如图4所示。初始状态y为3m，其余状态均初始化为0，y轴期望值为0m，高度期望值设置为5m，偏航角期望值为0度，将y轴向位置偏差限制在[-2,2]以内，并且分别在15s、20s、42s以及60s改变y轴向控制器的期望值，可以看出无人机y轴向位置基本满足快速性指标，误差也基本上稳定在0.3m以内。

将x与y轴控制器均训练好之后，将二者整合在一起得到基于DQN的四旋翼无人机的水平位置控制器，控制框图如5所示，四旋翼无人机将水平位移以及高度信息反馈回来，并与水平位移和高度信息的参考量分别进行做差，根据水平位移偏差的极性，分别将水平位移偏差输入对应的神经网络控制器中，最终分别得到水平位置环的输出，即俯仰角和滚转角的参考量，同时令偏航角参考量为0，将[θ_ref,0,φ_ref,0,ψ_ref,0]以及姿态回路反馈量输入姿态控制器，得到无人机三轴控制量，将三轴控制量与油门量进行控制分配，得到四个桨叶上的拉力，将拉力输入四旋翼中从而实现对四旋翼无人机水平位置的控制。

接着将对基于DQN的四旋翼无人机水平位置控制器进行仿真验证，在二维平面内，规划四个航点：[0,0]、[12,0]、[12,12]、[0,12]、[0,0]；在t＝0s时刻，初始化x与y的状态分别为：x＝6m、y＝6m，按照横轴y纵轴x的坐标轴分别让无人机按顺序飞过这四个航点，飞行过程中保持偏航角为0。按照上述条件对水平位置控制器进行仿真，仿真效果如图6和图7所示，四旋翼无人机从[6,6]点出发，分别经过[0,0]、[12,0]、[12,12]、[0,12]点，最终落回[0,0]点，在飞机模型中对x与y轴位置量测量加入[-0.05,0.05]上的随机噪声，飞行过程中当(err_x²+err_y²)＜0.5时，航点期望值转换为下一个航点。从图中可以看出，无人机基本可以跟踪上目标航迹，伴随有一定的航迹偏差，但是偏差基本能够维持在0.4m以内，基本能够满足飞行要求。

2、对基于四旋翼无人机的高度控制器进行设计，实验过程如下所示：

首先对实验中的一些参数进行必要的初始化，如图8所致，设置网络隐藏层数目为20，输出层数目为50，初始化评价网络以及目标网络的参数w和w_terget，初始化经验池大小为5000，初始化ε为0，以及ε_max为0.95，初始化贪婪值更新步长ε_step为0.001、学习率σ为0.01、折扣因子γ为0.9、每次采取的样本大小batch_size为50、目标网络参数更新周期C为1000步、动作库U_T为：

[0,0.1,0.2,…,4.9,5.0]

训练开始时，设定初始无人机高度h₀为0m，高度参考量h_ref为5m，设定初始高度变化量

为0m/s，训练控制器最终使得无人机高度达到5m，训练采取回合制。无人机动作的选择采取ε-greedy策略，由于一开始ε是一个比较小的值，因此一开始无人机会随机地选择动作，随着训练地进行，贪婪值ε不断地增加，无人机会按照比较大地概率去选择值函数较大的动作，这种策略其实是保证了无人机尽量能够探索到空间内所有的状态。

为了使得控制器能够得到更快的训练，不至于总是进入某一个不合理的状态范围内，因此规定，当无人机高度值大于7m或小于0m时，跳出本回合，开始进行下一个回合。

最终高度环输出量U_T取值为高度控制器输出中值函数最大的元素所对应的动作。即：

根据上一节中对高度控制器的运行步骤，下面对基于DQN的四旋翼无人机高度控制器进行训练，如图9所示。从图9中可以看出，从35000步以后，网络基本上可以收敛了，但是后面由于ε-greedy的原因导致动作的选择不佳，使得损失函数出现跳变，实验中最终选取了第40000步的目标网络模型参数作为最终的控制器参数。将模型参数带入四旋翼无人机模型中进行仿真实验，最终高度控制效果如图10高度变化图和图11高度变化速度变化图所示。

根据本实施例所设计的高度控制器，选取目标高度为5m时的参考指令，初始高度与初始速度均为零，初始姿态角和初始角速率均为零的情况下，对高度控制器进行仿真。零时刻给定期望高度为5m，并在5s、10s、15s以及20s分别改变高度期望值。从高度变化图和高度速度变化图中可以看出，在无人机期望高度发生变化时，无人机可以快速响应参考指令的变化，并且高度误差越大，速度变化量越大，基本满足无人机飞行时的要求。

3、设计四旋翼无人机制导控制方法，并与四旋翼无人机水平位置控制方法和四旋翼无人机高度控制方法相结合，最终得到四旋翼无人机的轨迹控制方法；

前两步对基于DQN的四旋翼无人机的水平位置控制器与高度控制器分别进行设计并进行仿真实验，在前两步的基础上，加入无人机的制导控制器组成无人机最终的轨迹控制器，如图12和图13所示；下面对四旋翼无人机的轨迹控制器进行仿真实验。

以下为具体的仿真步骤：

步骤1：初始化高度控制网络的参数、水平位置控制网络的参数，设置航点信息以及期望高度值；

步骤2：如果无人机尚未达最终航点Pos_fin(x_fin,y_fin,h_fin)，则循环执行以下步骤：

2.1如果Pos_now(x₁,y₁,h₁)未到Pos_target(x₂,y₂,h₂)，则执行循环执行以下步骤：

2.1.1按照下式更新未来目标航点Pos_next(x_next,y_next,h_next)：

其中Pos_l为上一个目标航点的位置，T为无人机轨迹控制器更新周期，

为无人机当前速度，Pos_target为四旋翼无人机下一个目标航点；

2.1.2将Pos_next输入轨迹控制器中，经水平位置控制器、姿态控制器以及高度控制器，得到四个通道的控制量；

2.1.3将此四个通道控制量经过控制分配后得到四旋翼四个桨叶上的拉力，将此拉力输送到四旋翼从而实现对四旋翼轨迹的控制；

2.2如果Pos_now(x₁,y₁,h₁)已经达到Pos_target(x₂,y₂,h₂)，则更新Pos_l为当前Pos_target(x₂,y₂,h₂)，更新Pos_target(x₂,y₂,h₂)为下一个新的目标航点；

如上所示为四旋翼无人机制导控制律的具体执行步骤，下面按照以上所述步骤进行仿真实验。

在初始时刻初始化四旋翼无人机高度、三轴速度、姿态角以及姿态角速率均为零，接下来对四旋翼无人机的航迹进行规划：以四旋翼无人机当前位置为中心，规划一个边长为12米的正方形轨迹，使得无人机按照此航迹飞行。综上所述，可以按照(y,x,h)的形式将航点规划为：[0,0,5]、[12,0,5]、[12,12,5]、[0,12,5]、[0,0,5]；在t＝0s时刻，初始化无人机的位置为[6,6,0]，使得四旋翼无人机从左下角的航点开始，逆时针自主飞行完成整个航迹。如图14与图15为无人机按照既定航迹的自主飞行效果图。

由图14和图15可以看出，加入航迹控制律之后，四旋翼无人机能够准确地跟踪上正方形航迹。从自主航迹二维平面图中可以看出，四旋翼无人机在偏离预定航迹之后仍能回到航迹上来，总体跟踪误差可以达到30cm以内，相比较水平位置控制器来说位置误差降低了很多；从三维图中可以看出，四旋翼无人机从起飞点飞行到最后一个航点，整个飞行任务的完成符合初始任务的规划，证明四旋翼无人机轨迹控制律的设计是有效的。