CN111460650A

CN111460650A - 一种基于深度强化学习的无人机端到端控制方法

Info

Publication number: CN111460650A
Application number: CN202010240164.7A
Authority: CN
Inventors: 赵江; 王隆洪; 蔡志浩; 王英勋
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beijing University of Aeronautics and Astronautics
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: CN111460650B

Abstract

本发明属于无人机自主控制领域，涉及一种基于深度强化学习的无人机端到端控制方法。本发明公开了一种基于深度强化学习的无人机端到端控制方法，包括：设计深度强化学习神经网络；设计用于训练所设计的深度强化学习神经网络的无人机着陆轨迹控制的端到端奖惩函数r_land；在仿真环境中搭建无人机着陆场景；基于搭建有无人机着陆场景的仿真环境，对所设计的深度强化学习神经网络进行训练。本发明将处理过的无人机机载相机得到的图像作为输入，经过深度强化学习网络处理后可以直接得到无人机控制指令，以此实现无人机的自主着陆。

Description

一种基于深度强化学习的无人机端到端控制方法

技术领域

本发明属于无人机自主控制领域，涉及一种基于深度强化学习的无人机端到端控制方法。

背景技术

当前针对无人机自主着陆控制问题，主要是使用手工制作的几何特征和传感器数据融合来识别基准标记并引导无人机朝其方向移动。例如文献“Carlos Sampedro,Alejandro Rodriguez-Ramos,Ignacio Gil,Luis Mejias,Pascual Campoy.Image-BasedVisual Servoing Controller for Multirotor Aerial Robots Using DeepReinforcement Learning[J].IEEE.2018”中所公开的方法，其首先将从Gazebo中得到的图像转化为无人机与着陆点之间的状态偏差，然后通过DDPG方法得到无人机运动所需的控制量，但这种方法较为繁琐；或者，是通过图像信息直接输出不连续的方向指令，例如文献“Riccardo Polvara,Massimiliano Patacchiola,Sanjay Sharma,Jian Wan,AndrewManning,Robert Sutton,Angelo Cangelosi.Toward End-to-End Control for UAVAutonomous Landing via Deep Reinforcement Learning[J].IEEE.2018”提出了一种基于深度强化学习的方法解决无人机着陆控制问题，该方法基于深度Q网络(DQN)的层次结构，这些层次Q网络被用作不同阶段中导航的高端控制策略，包括前后左右下降等控制指令，但这种方法精确度较低。

发明内容

为了解决完全基于图像的无人机自主着陆控制问题，本发明提供了一种基于深度强化学习的无人机端到端控制方法，本发明将处理过的无人机机载相机得到的图像作为输入，经过深度强化学习神经网络处理后可以直接得到无人机控制指令，以此实现无人机的自主着陆。

本发明提供了一种基于深度强化学习的无人机端到端控制方法，包括如下步骤：

S1：设计深度强化学习神经网络；

S2：设计用于训练深度强化学习神经网络的无人机着陆轨迹控制的端到端奖惩函数r_land；

S3：在仿真环境中搭建无人机着陆场景；

S4：基于搭建有无人机着陆场景的仿真环境，对所设计的深度强化学习神经网络进行训练，将无人机机载相机得到的图像输入训练完成后的深度强化学习神经网络，直接得到无人机控制指令，以此实现无人机的自主着陆。

进一步，步骤S1具体设计过程如下：

S11：构建Actor网络和Critic网络

Actor网络由三层卷积层和三层全连接层构成，最后输出无人机三轴方向的速度；Critic网络除了需要当前的图像作为输入外，还需要加入当前的动作值，来计算得到动作价值函数值；

S12：计算Critic网络梯度

定义Critic网络的损失L为均方误差MSE：

其中，N表示随机采样的数据量；Q表示在线Q网络；s_i表示第i个数据的状态量；a_i表示第i个数据的动作量；θ^Q表示在线Q网络参数；y_i为标签：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^Q)|θ^Q′)

其中，r_i表示第i个数据的在当前状态量和动作量下的奖励；γ为系数；Q'表示目标Q网络；s_i+1表示第i个数据的下一个时刻的状态量；μ'表示目标策略网络μ′；θ^Q'表示目标Q网络参数；

基于标准的反向传播方法，求得Critic网络的损失L针对在线Q网络参数θ^Q的梯度

S13：计算Actor网络的策略梯度

Actor网络的策略梯度表示性能目标的函数J针对的在线策略网络参数θ^μ梯度

算法如下：

其中，

表示在状态量s根据分布函数ρ^β分布时，

的期望值；β表示代理的行为策略，是深度确定性策略梯度方法在训练时所采用的一种为行为的决策机制引入随机噪声的策略；

表示在线Q网络对动作量a的梯度，

表示动作量a对在线策略网络参数θ^μ的梯度，μ表示在线策略网络，即，Actor网络的策略梯度是在状态s根据分布函数ρ^β分布时，

的期望值，用蒙特卡洛方法来估算所述期望值：

在重放内存缓冲区中存储的:s_i,ai,r_i,s_i+1,是基于代理的行为策略β产生的，它们的分布函数为ρ^β，所以从重放内存缓冲区中随机采样获得小批量数据时，根据蒙特卡洛方法，将获得的小批量数据代入式(1)，可以作为对所述期望值的一个无偏差估计,所以Actor网络的策略梯度改写为：

S14：分别为Actor网络、Critic网络各创建两个神经网络拷贝：在线online和目标target，基于此，Actor网络和Critic网络两个网络的更新策略如下:

其中，gradient更新表示梯度更新；soft update表示软更新；

软更新目标策略网络μ′和目标Q网络Q′:使用平均运行方法，将在线网络的参数，软更新给目标网络的参数：

其中，τ表示可调系数；

进一步，步骤S2中设计的端到端奖惩函数r_land为：

其中，Δs表示无人机到着陆目标点的距离；b，m，n均为常数；

normal表示着陆点在无人机机载相机视野中且没有降落在错误位置时的情况，在此情况下，希望无人机能够逐渐靠近着陆目标点，无人机距离着陆目标点越近，奖励越大，且应该为正值，故常数b取值应大于等于无人机初始到目标点的距离；

cross border表示着陆点不在无人机机载相机视野中的情况；land on wrongplace表示无人机降落在错误位置时的情况，此两种情况下会直接导致着陆任务失败，奖励值为负，m，n取值应相等并等于b值。

进一步，步骤S3中，深度强化学习神经网络在训练模式下，以从仿真软件采集到的模拟数据和在存储模块中的记忆数据作为输入，得出包括动作量a和奖励r的决策值，之后将决策值存储在记忆模块中，并将决策值传递给仿真软件以得到下一次模拟数据，并连同记忆模块中的记忆数据再次作为输入传递给深度强化学习神经网络，深度强化学习神经网络的网络参数在此过程中不断优化，当深度强化学习神经网络收敛之后，保存在线策略网络μ和在线Q网络的结构及各自的网络参数。

本发明的有益效果：

本发明提供的无人机自主着陆控制方法中，完成训练后的深度神经网络可以直接将机载照相机得到的图片信息转换为无人机着陆所需的连续控制指令。本发明省去了传统方法中的状态估计和路径规划模块，更符合人的思维方式，能够提高无人机的自主性和着陆的效率。

附图说明

图1为现有技术的传统着陆算法与端到端深度强化学习算法的区别示意图；

图2为本发明的基于深度强化学习的无人机端到端控制方法流程图；

图3为本发明的深度强化学习神经网络结构图；

图4为本发明的基于深度强化学习的无人机着陆轨迹控制算法环境交互示意图；

图5为本发明的深度强化学习神经网络一体化工作框架与算法原理；

图6为本发明实施例的无人机自主着陆控制仿真过程图；

图7为本发明实施例的无人机自主着陆仿真结果图。

具体实施方式

传统的自主着陆算法一般要分为四个步骤：在环境中得到所需要的观察量，由观察量进行状态估计，建模和预测，最后进行着陆规划控制，而端到端深度强化学习算法是用网络来代替传统自主着陆中的中间步骤，可以直接由观察量得到着陆规划控制，从而可以大大简化了着陆流程，更符合人类的思维，图1展示了传统着陆算法与端到端深度强化学习算法的区别。基于端到端深度强化学习神经网络，本发明提供了一种无人机端到端控制方法。

下面结合附图和实施例进一步描述本发明，应该理解，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图2所示，本发明包括如下步骤：

S1：设计深度强化学习神经网络，具体设计过程如下：

S11：构建Actor网络和Critic网络

如图3所示，其中图3(a)为Actor网络，图3(b)为Critic网络。Actor网络由三层卷积层和三层全连接层构成。在本实施例中，首先，以大小为64×64×1的图像作为输入，经过三层卷积层，其滤波器大小为5×5，卷积过滤器的数量为32，卷积的横纵向步长均为2，后经过三层全连接层，每层有200个神经单元，最后输出无人机在x,y,z三轴方向的速度。Critic网络除了需要当前的图像作为输入外，还需要加入当前的动作值，来计算得到动作价值函数值。

S12：计算Critic网络梯度

计算Critic网络梯度时，需要计算Critic网络的损失。使用类似于监督式学习的方法，定义Critic网络的损失L为均方误差(MSE)：

其中，N表示随机采样的数据量；Q表示在线Q网络；s_i表示第i个数据的状态量；a_i表示第i个数据的动作量；θ^Q表示在线Q网络参数；y_i可以看做“标签”：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^Q)|θ^Q′)

基于标准的反向传播(back-propagation)方法，求得L针对θ^Q的梯度

其中：y_i的计算，使用的是目标策略网络μ′和target Q网络Q′,这样做是为了Q网络参数的学习过程更加稳定，易于收敛。这个标签本身依赖于本发明正在学习的目标网络，这是区别于监督式学习的地方。

S13：计算Actor网络的策略梯度

Actor网络的策略梯度表示性能目标的函数J针对的θ^μ梯度，算法如下：

其中，

表示在状态量s根据分布函数ρ^β分布时，

的期望值；β表示行为策略，是深度确定性策略梯度方法在训练时所采用的一种为行为的决策机制引入随机噪声的策略。

表示性能目标的函数J针对在线策略网络参数θ^μ的梯度，

表示在线Q网络对动作量a的梯度，

表示动作量a对在线策略网络参数的梯度，μ表示在线策略网络，即，策略梯度是在状态s根据ρ^β分布时，

的期望值，用蒙特卡洛方法来估算这个期望值：

在重放内存缓冲区中存储的(transition):(s_i,a_i,r_i,s_i+1),是基于代理的行为策略β产生的，它们的分布函数(pdf)为ρ^β，所以从重放内存缓冲区中随机采样获得小批量数据时，根据蒙特卡洛方法，使用小批量数据代入上述策略梯度公式(1)，可以作为对上述期望值的一个无偏差估计(un-biased estimate),所以Actor网络的策略梯度可以改写为：

S14：同时分别为Actor网络、Critic网络各创建两个神经网络拷贝：在线online和目标target，基于此，Actor网络和Critic网络两个网络的更新策略如下:

其中，gradient更新表示梯度更新；soft update表示软更新；

软更新目标网络μ′和Q′:使用平均运行(running average)方法，将在线网络的参数，软更新给目标网络的参数：

其中，τ表示可调系数。

S2：设计用于训练所设计的深度强化学习神经网络的无人机着陆轨迹控制的端到端奖惩函数r_land；

强化学习公式的关键组成部分是奖励函数。必须指出，强化学习代理对奖励功能设计高度敏感。设计良好的奖励功能可以加快学习速度，但是相反，设计不当会在解决问题时引入人为偏见，或者完全阻止代理学习。在本发明提出的方法中，当代理要产生连续的控制动作时，奖励功能的设计应使它随着时间的推移奖励平稳的动作，同时鼓励安全行为。

无人机着陆控制问题中，主要需要考虑无人机距离终点的距离以及无人机是否会在非终点的位置提前着陆。另外还需要考虑无人机不会飞出规定的边界。综上，可以得到如下无人机着陆轨迹控制的端到端奖惩函数：

其中，Δs表示无人机到着陆目标点的距离；b，m，n均为常数；normal表示着陆点在无人机机载相机视野中且没有降落在错误位置时的情况；cross border表示着陆点不在无人机机载相机视野中的情况；land on wrong place表示无人机降落在错误位置时的情况。第一种情况下，希望无人机能够逐渐靠近着陆目标点，无人机距离着陆目标点越近，奖励越大，且应该为正值，故b取值应大于等于无人机初始到目标点的距离。由于后两种情况会直接导致着陆任务失败，奖励值为负，且m，n应相等并等于b值。

S3：在仿真环境中搭建无人机着陆场景；

在本实施例中，本发明进行的基于端到端的无人机感知与着陆规划一体化仿真，均在基于Airsim插件的虚幻引擎中进行。无人机采用Airsim默认的四旋翼模型。仿真环境则根据不同仿真想定在虚幻引擎中进行相应的设计。图4展示了基于深度强化学习的无人机着陆轨迹控制算法环境交互示意图。Airsim提供接收无人机速度指令、发布无人机位置和机载相机数据的API。通过在深度强化学习算法程序中调用相关函数来实现与仿真环境的交互。

针对无人机着陆轨迹控制问题，本实施例设计如下仿真想定：无人机从(-10,-10,30)m处着陆到指定着陆点(0,0,0)m处。仿真场景设置中x轴、y轴方向边界为(-12,12)m，z轴方向边界为(0,30)m。基于上述仿真想定，可以将奖惩函数r_land具体化如下：

如图5所示，主控程序可以决定深度强化学习神经网络处于何种模式，包括训练模式和离线运行两种模式。在训练模式下，深度强化学习神经网络以从仿真软件采集到的模拟数据和在存储模块中的记忆数据作为输入，得出决策值和奖励后存储在记忆模块中，并将决策值传递给仿真软件以得到下一次模拟数据，并连同记忆数据再次作为输入传递给深度强化学习网络，网络参数也在此过程中不断优化。当网络收敛之后，保存参数和网络。在离线运行模式下，深度强化学习的网络参数不再变化，此时只需要策略网络来进行接收仿真软件模拟数据与产生相应的决策并与仿真软件交互的操作。

在本实施例中，进行训练时设计无人机从(-10,-10,30)m处着陆到指定着陆点(0,0,0)m处，进行四次仿真过程，仿真过程图6所示，图6a)-e)分别示出了无人机自主着陆过程，图6a’)-e’)分别示出了无人机在自主着陆过程中其机载相机拍摄到的图像。四次仿真结果如图7所示，其中，图7a)示出了四次仿真的无人机三维位置变化，图7b)示出了四次仿真的无人机xy平面位置变化，从仿真结果可以看出，本发明能够通过端到端的方法进行无人机自主着陆控制。

对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以对本发明的实施例做出若干变型和改进，这些都属于本发明的保护范围。

Claims

1.一种基于深度强化学习的无人机端到端控制方法，其特征在于，包括如下步骤：

S1：设计深度强化学习神经网络；

S3：在仿真环境中搭建无人机着陆场景；

2.根据权利要求1所述的方法，其特征在于，步骤S1具体设计过程如下：

S11：构建Actor网络和Critic网络

S12：计算Critic网络梯度

定义Critic网络的损失L为均方误差MSE：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^Q)|θ^Q′)

其中，r_i表示第i个数据的在当前状态量和动作量下的奖励；γ为系数；Q'表示目标Q网络；s_i+1表示第i个数据的下一个时刻的状态量；μ'表示目标策略网络；θ^Q'表示目标Q网络参数；

S13：计算Actor网络的策略梯度

Actor网络的策略梯度表示性能目标的函数J针对在线策略网络参数θ^μ的梯度

算法如下：

其中，

表示在状态量s根据分布函数ρ^β分布时，

的期望值；β表示代理的行为策略，是深度确定性策略梯度方法在训练时所采用的一种为行为的决策机制引入随机噪声的策略；▽_aQ表示在线Q网络对动作量a的梯度；

表示动作量a对在线策略网络参数θ^μ的梯度，μ表示在线策略网络，即，Actor网络的策略梯度是在状态量s根据分布函数ρ^β分布时，

的期望值，用蒙特卡洛方法来估算所述期望值：

在重放内存缓冲区中存储的:s_i,a_i,r_i,s_i+1,是基于代理的行为策略β产生的，它们的分布函数为ρ^β，所以从重放内存缓冲区中随机采样获得小批量数据时，根据蒙特卡洛方法，将获得的小批量数据代入式(1)，作为对所述期望值的一个无偏差估计,Actor网络的策略梯度改写为：

Actor网络

Critic网络

其中，gradient更新表示梯度更新；soft update表示软更新；

其中，τ表示可调系数。

3.根据权利要求1所述的方法，其特征在于，步骤S2中设计的端到端奖惩函数r_land为：

normal表示着陆点在无人机机载相机视野中且没有降落在错误位置时的情况，在此情况下，希望无人机能够逐渐靠近着陆目标点，无人机距离着陆目标点越近，奖励越大，且应该为正值，故常数b取值大于等于无人机初始到目标点的距离；

cross border表示着陆点不在无人机机载相机视野中的情况，land on wrong place表示无人机降落在错误位置时的情况，此两种情况下会直接导致着陆任务失败，奖励值为负，m，n取值相等并等于b值。

4.根据权利要求1或2所述的方法，其特征在于，步骤S3中，深度强化学习神经网络在训练模式下，以从仿真软件采集到的模拟数据和在存储模块中的记忆数据作为输入，得出包括动作量a和奖励r的决策值，之后将决策值存储在记忆模块中，并将决策值传递给仿真软件以得到下一次模拟数据，并连同记忆模块中的记忆数据再次作为输入传递给深度强化学习神经网络，深度强化学习神经网络的网络参数在此过程中不断优化，当深度强化学习神经网络收敛之后，保存在线策略网络μ和在线Q网络的结构及各自的网络参数。