CN111487992A

CN111487992A - 基于深度强化学习的无人机感知与避障一体化方法及设备

Info

Publication number: CN111487992A
Application number: CN202010320177.5A
Authority: CN
Inventors: 蔡志浩; 王隆洪; 赵江; 王英勋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-04

Abstract

本发明的实施方式提供一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法，该方法包括：设计深度确定性策略梯度神经网络；设计训练所需的奖励；在仿真环境中搭建无人机避障的场景；及结合仿真环境进行网络的训练。

Description

基于深度强化学习的无人机感知与避障一体化方法及设备

技术领域

本发明涉及无人机自主控制领域，更具体地，涉及一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法及设备。

背景技术

当前针对无人机自主避障控制问题，主要是传统的航迹规化方法进行避障。例如快速扩展随机树(Rapidly-exploring Random Tree,简称为RRT)和人工势场算法等，但传统方法有其缺点，RRT算法有收敛速度慢、航迹曲折，人工势场法有容易陷入局部极小值和振荡等问题。另外，或是通过图像信息直接输出不连续的方向指令。例如有些方法基于深度Q网络(Deep Q-Network，简称DQN)的层次结构，这些层次Q网络被用作不同阶段中导航的高端控制策略，包括前后左右下降等控制指令。这种方法精确度较低。

发明内容

本发明解决完全基于图像的无人机自主避障控制问题：将处理过的无人机机载相机得到的图像作为输入，经过深度确定性策略梯度网络处理后得到无人机三轴方向的速度，以此实现无人机的感知与避障控制一体化。

本发明的实施方式提供一种无人机感知与避障控制一体化方法，通过输入的图像直接得到连续的无人机控制指令，提高无人机避障的自主性和效率。

为实现上述目的，本发明实例提供了如下的技术方案：

根据本发明的一个实施方式的一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法，包括以下步骤：设计深度确定性策略梯度神经网络；设计训练所需的奖励；在仿真环境中搭建无人机避障的场景；结合仿真环境进行网络的训练。

根据本发明的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法，设计深度确定性策略梯度神经网络的步骤可包括:设计行动者网络，该行动者网络接收当前的图像作为输入且输出无人机在x,y,z三轴方向的速度。

根据本发明的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法，行动者网络包括三层卷积层和三层全连接层。

根据本发明的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法，设计深度确定性策略梯度神经网络的步骤包括:设计评论家网络，该评论家网络接收当前的图像和当前的动作值作为输入且输出Q值。

根据本发明的另一个实施方式提供的基于深度确定性策略梯度的无人机感知与避障控制一体化方法，设计训练所需的奖励步骤包括通过以下无人机避障轨迹规划的端到端奖惩函数实现：

其中，Δs为无人机到目标点的距离，Δd为无人机偏离原定轨迹的距离，b，m，n均为常数。

根据本发明的另一个实施方式提供的一种设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器运行所述计算机程序时执行以上所述的基于深度确定性策略梯度的无人机感知与避障控制一体化方法。

本发明的实施方式所提供的无人机感知与避障控制一体化方法和设备中，深度确定性策略梯度网络直接将机载照相机得到的图片信息转换为无人机避障所需的连续控制指令。省去了传统方法中的状态估计和路径规划模块，在不提前知道障碍物位置及状态的情况下进行自主避障，能够提高无人机的自主性和避障的效率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。通过参考附图可更好地理解本发明。

图1示出了传统避障算法与根据本发明的实施方式的深度确定性策略梯度算法的区别。

图2示出了根据本发明的实施方式的深度确定性策略梯度网络训练的一体化架构。

图3示出了根据本发明的实施方式的基于深度确定性策略梯度的三维空间无人机感知与避障控制一体化方法网络结构设计。

图4示出了根据本发明的实施方式的无人机避障轨迹控制问题一体化框架。

图5-10示出了使用根据本发明的实施方式的方法进行三维避障的仿真训练所得到的无人机越过障碍的过程图。

图11-13示出了使用根据本发明的实施方式的方法进行三维避障的仿真训练所得到的四次仿真结果示图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

传统的自主避障算法一般要分为四个步骤：在环境中得到所需要的观察量，由观察量进行状态估计，建模和预测，最后输入到避障算法中进行避障规划控制，而本发明的实施方式所采用的深度确定性策略梯度算法用网络来代替传统自主避障中的中间步骤，直接由观察量得到避障规划控制。在效率和灵活性方面都优于传统的避障规划方法。图1展示了传统避障算法与根据本发明的实施方式的深度确定性策略梯度算法的区别。

具体就深度确定性策略梯度网络训练而言，根据本发明的实施方式提供了一体化架构，如图2所示。

主控程序可以决定深度确定性策略梯度网络处于何种模式，包括训练模式和离线运行两种模式。在训练模式下，深度确定性策略梯度网络以从仿真软件采集到的模拟数据和在存储模块中的记忆数据作为输入，得出决策值和奖励后存储在记忆模块中，并将决策值传递给仿真软件以得到下一次模拟数据，并连同记忆数据再次作为输入传递给深度确定性策略梯度网络，网络参数也在此过程中不断优化。当网络收敛之后，保存参数和网络。在离线运行模式下，深度确定性策略梯度网络参数不再变化，此时只需要策略网络来进行接收仿真软件模拟数据与产生相应的决策并与仿真软件交互的操作。

基于深度确定性策略梯度的三维空间无人机感知与避障控制一体化方法网络结构设计如图3所示。其中图3的左图为行动者网络(Actor网络)，图3的右图为评论家网络(Critic网络)。

根据上述一体化架构，得出无人机避障轨迹控制问题一体化框架，如图4所示。

以一个或多个详细的实施方案对本发明的技术方案进行详细阐述。

本节主要以一个示例性仿真实例对本发明的技术方案进行详细阐述。

(1)设计深度确定性策略梯度网络

参考图3，示出了基于深度确定性策略梯度的三维空间无人机感知与轨迹控制一体化方法网络结构设计。其中左图为行动者网络(Actor网络)，右图为评论家网络(Critic网络)。

Actor网络由三层卷积层和三层全连接层构成。首先，大小为64×64×1的图像作为输入，经过三层卷积层，其滤波器大小为5×5，卷积过滤器的数量为32，卷积的横纵向步长均为2，后经过三层全连接层，每层有200个神经单元，最后输出无人机在x,y,z三轴方向的速度。Critic网络除了需要当前的图像作为输入外，还需要加入当前的动作值，来计算得到Q值(状态-动作对的值)。由于无人机避障是在无人机已有预设轨迹的前提下进行的，所以需要在深度确定性策略梯度网络架构中加入无人机与目标位置之间的距离这一输入。

计算评论家(Critic)网络梯度时，需要计算Critic网络的损失。使用类似于监督式学习的方法，定义损失为均方误差(MSE)：

其中，N表示随机采样的数据量；Q表示在线Q网络；s_i表示第i个数据的状态量；a_i表示第i个数据的动作量；θ^Q表示在线Q网络参数；y_i为标签：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^Q)|θ^Q′)

基于标准的反向传播(back-propagation)方法，求得L针对θ^Q的梯度：

其中：r_i表示第i个数据的在当前状态量和动作量下的奖励；γ为系数；Q'表示目标Q网络；s_i+1表示第i个数据的下一个时刻的状态量；y_i的计算，使用的是目标策略网络μ′和目标Q(target Q)网络Q′,这样做是为了Q网络参数的学习过程更加稳定，易于收敛。这个标签本身依赖于我们正在学习的目标网络，这是区别于监督式学习的地方。

计算行动者(Actor)网络的策略梯度时，策略梯度表示性能目标的函数J针对的θ^μ梯度。算法如下：

其中，

表示在状态量s根据分布函数ρ^β分布时，

的期望值；β表示代理的行为策略，是深度确定性策略梯度方法在训练时所采用的一种为行为的决策机制引入随机噪声的策略；

表示在线Q网络对动作量a的梯度，

表示动作量a对在线策略网络参数θ^μ的梯度，μ表示在线策略网络，也即，策略梯度是在s根据ρ^β分布时，

的期望值。用蒙特卡洛方法来估算这个期望值：

在重放内存缓冲区中存储的(transition):(s_i,a_i,r_i,s_i+1),是基于代理的行为策略β产生的，它们的分布函数(pdf)为ρ^β，所以从重放内存缓冲区中随机采样获得小批量数据时，根据蒙特卡洛方法，使用小批量数据代入上述策略梯度公式，可以作为对上述期望值的一个无偏差估计(un-biased estimate),所以策略梯度可以改写为：

同时，分别为Actor网络、Critic网络各创建两个神经网络拷贝,一个叫做在线(online)，一个叫做目标(target)，两个网络的更新策略如下:

其中，gradient更新表示梯度更新；soft update表示软更新；软更新(softupdate)目标网络μ′和Q′:使用平均运行(running average)的方法，将在线网络的参数，软更新给目标网络的参数：

其中，τ表示可调系数；

(2)设计训练所需的奖励

强化学习公式的关键组成部分是奖励函数r。必须指出，强化学习代理对奖励功能设计高度敏感。设计良好的奖励功能可以加快学习速度，但是相反，设计不当会在解决问题时引入人为偏见，或者完全阻止代理学习。在根据本发明的实施方式的方法中，当代理要产生连续的控制动作时，奖励功能的设计应使它随着时间的推移奖励平稳的动作，同时鼓励安全行为。

无人机避障问题中的轨迹规划主要需要考虑的是无人机在避障过程中偏离原定轨迹的距离，这主要是为了保证无人机在避障后不会一直偏离原定轨迹飞行，另外无人机是否碰到障碍物，无人机是否到达终点等也是需要考虑的。综上，可以得到无人机避障轨迹规划的端到端奖惩函数。

(3)在仿真环境中搭建无人机避障的场景

根据本发明的实施方式的进行基于深度确定性策略梯度的无人机感知与避障规划一体化仿真，所有的仿真均在基于Airsim插件的虚幻引擎(unreal engine)中进行。无人机采用Airsim默认的四旋翼模型。仿真环境则根据不同仿真想定在虚幻引擎中进行相应的设计。

针对无人机避障轨迹控制问题，设计如下仿真想定：无人机以(0,0,30)m处为起点，途中经过几处障碍物，最终到达终点(0,200,30)m处。仿真场景设置中x轴方向边界为(-20,20)m，z轴方向边界为(0,50)m。

从而将奖惩函数具体化如下：

(4)结合仿真环境进行网络的训练

三维避障的仿真训练，网络参数在2500个episode(训练)之后收敛，无人机越过障碍的过程图如图5-10所示。

四次仿真结果如图11-13所示。

仿真结果表明，使用根据本发明的实施方式的方法所训练的深度确定性策略梯度网络能够完成三维避障试验。此仿真同样验证了基于端到端的三维空间无人机感知与避障规划一体化方法的可行性。

本发明的实施方式还提供了一种终端设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行根据本发明的实施方式的基于深度确定性策略梯度的无人机感知与避障控制一体化方法。

需要说明的是，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于深度确定性策略梯度的无人机感知与避障控制一体化方法，该方法包括：

设计深度确定性策略梯度神经网络；

设计训练所需的奖励；

在仿真环境中搭建无人机避障的场景；及

结合仿真环境进行网络的训练。

2.如权利要求1所述的方法，其中所述设计深度确定性策略梯度神经网络的步骤包括:

设计行动者网络，该行动者网络接收当前的图像作为输入且输出无人机在x,y,z三轴方向的速度。

3.如权利要求2所述的方法，其中所述行动者网络包括三层卷积层和三层全连接层。

4.如权利要求1-3中任一项所述的方法，其中所述设计深度确定性策略梯度神经网络的步骤包括:

设计评论家网络，该评论家网络接收当前的图像和当前的动作值作为输入且输出Q值。

5.如权利要求1所述的方法，其中所述设计训练所需的奖励步骤包括通过以下无人机避障轨迹规划的端到端奖惩函数实现：

其中，△s为无人机到目标点的距离，△d为无人机偏离原定轨迹的距离，b，m，n均为常数。

6.一种设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1-5中任一项所述的基于深度确定性策略梯度的无人机感知与避障控制一体化方法。