CN111142557A

CN111142557A - 无人机路径规划方法、系统、计算机设备及可读存储介质

Info

Publication number: CN111142557A
Application number: CN201911333367.4A
Authority: CN
Inventors: 张建富; 冯平法; 王骁; 郁鼎文; 吴志军
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-12
Anticipated expiration: 2039-12-23
Also published as: CN111142557B

Abstract

本申请提供无人机路径规划方法、系统、计算机设备及可读存储介质，所述方法包括：获取无人机当前位置预设空间范围内的深度图像及无人机的实时飞行姿态特征图向量，通过目标卷积神经网络模型提取深度图像中的特征图向量，对实时飞行姿态特征图向量与特征图向量进行融合处理，得到无人机与深度图像中包含的物体的融合信息，将融合信息输入至目标策略网络，得到无人机的目标运动信息，将目标运动信息发送至飞控以通过飞控实现无人机路径重新规划的过程；该方法可以通过两层神经网络模型，一次性获取无人机为了避开障碍物重新规划后的路径信息，以实现无人机路径重新规划的过程，从而缩短了重新规划路径的时间和自主避障的周期。

Description

无人机路径规划方法、系统、计算机设备及可读存储介质

技术领域

本申请涉及无人机智能技术领域，特别是涉及一种无人机路径规划方法、系统、计算机设备及可读存储介质。

背景技术

空中飞行目标检测可以对空中目标进行识别分类和定位，是实现无人机系统智能化的关键因素，可应用于无人机避障、空中预警、空中指挥、调度系统中，具有十分重要的应用价值。因此，自主避障是无人机在智能化应用中的一项基础性和关键性的技术，其主要目的在于使无人机在飞行过程中自主躲避房屋、树木、电线等障碍物，继续向目标区域飞行。

传统技术中，先进行环境感知，再根据所创建的环境模型进行障碍物的规避路径规划这两个环节实现无人机自主避障。从环境感知方面来讲，传统的无人机避障中障碍物探测采用光流法和超声波测距法；从路径重规划方面来讲，传统的主要采用图的规划算法来实现路径重规划。

但是，传统技术需要分步对采样数据进行处理，从而导致无人机自动避障的周期较长。

发明内容

基于此，有必要针对上述技术问题，提供一种能够缩短无人机自动避障周期的无人机路径规划方法、系统、计算机设备及可读存储介质。

本申请实施例提供一种无人机路径规划方法，所述方法包括：

获取无人机当前位置预设空间范围内的深度图像以及所述无人机的实时飞行姿态特征图向量；

通过目标卷积神经网络模型，提取所述深度图像中的特征图向量；

对所述实时飞行姿态特征图向量以及所述特征图向量进行融合处理，得到所述无人机与所述深度图像中包含的物体的融合信息；

将所述融合信息输入至目标策略网络，得到所述无人机的目标运动信息；

将所述目标运动信息发送至飞控，以通过所述飞控实现所述无人机路径重新规划的过程。

在其中一个实施例中，所述预设空间范围包括所述无人机当前位置预设角度内的所有空间；所述无人机的实时飞行姿态特征图向量包括所述无人机的飞行速度信息、飞行位置信息以及飞行方向信息。

在其中一个实施例中，所述方法还包括：训练所述目标卷积神经网络模型。

在其中一个实施例中，所述训练所述目标卷积神经网络模型包括：

获取训练集和测试集；

根据初始卷积神经网络模型、初始神经网络参数、所述训练集以及所述测试集进行训练处理，得到所述目标卷积神经网络模型。

在其中一个实施例中，所述根据初始卷积神经网络模型、初始神经网络参数、所述训练集以及所述测试集进行训练处理，得到所述目标卷积神经网络模型，包括：

将所述初始卷积神经网络模型中的全连接层替换为预设全连接层，得到第一中间卷积神经网络模型，其中，所述初始连接层与所述预设全连接层的节点数不同；

根据所述第一中间卷积神经网络模型、初始神经网络参数、所述训练集以及所述测试集进行训练处理，得到第二中间卷积神经网络模型；

将所述第二中间卷积神经网络模型中的全连接层删除，得到所述目标卷积神经网络模型。

在其中一个实施例中，所述对所述实时飞行姿态特征图向量以及所述特征图向量进行融合处理，得到所述无人机与所述深度图像中包含的物体的融合信息，包括：

将所述特征图向量转化为一维特征图向量；

将所述一维特征图向量与所述实时飞行姿态特征图向量进行合并处理，得到所述融合信息。

在其中一个实施例中，所述方法还包括：获取通过深度强化学习中的神经网络训练得到的所述目标策略网络。

在其中一个实施例中，所述将所述融合信息输入至目标策略网络，得到所述无人机的目标运动信息，包括：将所述融合信息输入至所述目标策略网络，并通过所述策略网络进行前向传播计算，得到所述无人机的目标运动信息。

本申请实施例提供一种无人机路径规划系统，所述系统包括：

第一获取模块，用于获取无人机当前位置预设空间范围内的深度图像以及所述无人机的实时飞行姿态特征图向量；

提取模块，用于通过目标卷积神经网络模型，提取所述深度图像中的特征图向量；

融合模块，用于对所述实时飞行姿态特征图向量以及所述特征图向量进行融合处理，得到所述无人机与所述深度图像中包含的物体的融合信息；

第二获取模块，用于将所述融合信息输入至目标策略网络，得到所述无人机的目标运动信息；

控制模块，用于将所述目标运动信息发送至飞控，以通过所述飞控实现所述无人机路径重新规划的过程。

本申请实施例提供一种计算机设备，包括存储器、处理器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本实施例提供的无人机路径规划方法、系统、计算机设备及可读存储介质，该方法包括获取无人机当前位置预设空间范围内的深度图像以及所述无人机的实时飞行姿态特征图向量，通过目标卷积神经网络模型，提取深度图像中的特征图向量，对所述实时飞行姿态特征图向量以及特征图向量进行融合处理，得到无人机与深度图像中包含的物体的融合信息，将融合信息输入至目标策略网络，得到无人机的目标运动信息，将目标运动信息发送至飞控，以通过飞控实现所述无人机路径重新规划的过程；该方法可以通过两层神经网络模型，一次性获取无人机为了避开障碍物重新规划后的路径信息，以根据重新规划后的路径信息实现无人机路径重新规划的过程，从而缩短了重新规划路径的时间，缩短了无人机自主避障的周期。

附图说明

图1为一实施例提供的无人机路径规划方法的应用场景图；

图2为另一实施例提供的无人机路径规划方法的流程示意图；

图3为另一实施例提供的第一中间卷积神经网络模型的结构示意图；

图4为另一实施例提供的目标策略网络的结构示意图；

图5为一实施例提供的无人机路径规划系统的结构示意图；

图6为一个实施例提供的计算机设备的内部结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本实施例提供的无人机路径规划方法，可以适用于图1所示的无人机路径规划系统中。如图1所示，该系统包括无人机、摄像设备、机载计算机以及计算机设备。可选的，摄像设备和机载计算机可以安装于无人机上。其中，上述无人机可以为多旋翼无人机；上述摄像设备可以为能够采集深度图像的摄像头；上述机载计算机可以为具有数据以及图像处理功能的小型计算机设备；上述计算机设备可以为笔记本电脑或台式电脑等能够具有训练目标卷积神经网络模型的电子设备。在本实施例中，上述摄像设备可以为双目摄像头，计算机设备可以训练目标卷积神经网络模型和策略网络，并将训练得到的目标卷积神经网络模型和策略网络集成在机载计算机中。可选的，无人机、摄像设备以及机载计算机之间可以通过串行接口进行通信，机载计算机与计算机设备也可以通过串行接口进行通信。本实施例对无人机的型号，以及计算机设备的具体形式并不做限定。在下述实施例中将具体介绍无人机路径规划方法的具体过程，其中，实现无人机路径规划方法的执行主体为机载计算机。

为了使本申请的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本申请实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定发明。

图2为一实施例提供的无人机路径规划方法的流程示意图。本实施例涉及的是如何对无人机路径重新规划的过程。如图2所示，该方法包括：

步骤S101、获取无人机当前位置预设空间范围内的深度图像以及所述无人机的实时飞行姿态特征图向量。

其中，所述预设空间范围包括所述无人机当前位置预设角度内的所有空间；所述无人机的实时飞行姿态特征图向量包括所述无人机的飞行速度信息、飞行位置信息以及飞行方向信息。

具体的，机载计算机可以接收摄像设备采集的深度图像，即深度图像。其中，深度图像实际上就是普通的RGB三通道彩色图像与深度图的融合图像。可选的，在3D计算机图形中，深度图是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道；该深度图类似于灰度图像，只是它的每个像素的灰度值代表摄像设备距离物体的实际距离。可选的，深度图像中除了障碍物外，还可以包含其它物体的图形。可选的，障碍物可以定义为距离无人机当前位置在一定预设距离内的实际物体；相当于超过该预设距离的物体不为障碍物。

需要说明的是，预设空间范围可以表征为以无人机当前位置为顶点，无人机当前位置的正前方为轴线，与该轴线预设夹角的锥形覆盖的空间范围；该预设夹角可以小于90度，但在本实施例中，该预设夹角为30度。可选的，无人机的实时飞行姿态特征图向量可以包括多类运动特征信息，但是在本实施例中，实时飞行姿态特征图向量可以包括无人机当前实时的飞行速度信息、当前实时的飞行位置信息以及当前实时的飞行方向信息。其中，飞行速度信息可以包括空间三维坐标系中三个方向上的绝对飞行速度，该绝对飞行速度以水平面为参考系；飞行位置信息可以包括无人机当前所处的三维坐标信息；飞行方向信息包括无人机当前所处位置偏离三维坐标系的夹角。可以理解的是，飞行姿态特征图向量可以表征无人机的飞行姿态。

另外，上述深度图像的尺寸大小可以为L*M*4；其中，L和M分别为图像的长度和宽度，4表示深度图像的深度。

步骤S102、通过目标卷积神经网络模型，提取所述深度图像中的特征图向量。

具体的，机载计算机可以通过集成的目标卷积神经网络模型，提取深度图像中障碍物的特征图向量。可选的，障碍物的图像特征可以表征为障碍物的底层特征信息；障碍物的图像特征可以表征包括障碍物的位置信息以及大小信息。

步骤S103、对所述实时飞行姿态特征图向量以及所述特征图向量进行融合处理，得到所述无人机与所述深度图像中包含的物体的融合信息。

具体的，上述融合处理可以包括转换处理以及结合处理。

可选的，上述步骤S103中对所述实时飞行姿态特征图向量以及所述特征图向量进行融合处理，得到所述无人机与所述深度图像中包含的物体的融合信息的过程，具体可以包括如下步骤：

步骤S1031、将所述特征图向量转化为一维特征图向量。

需要说明的是，机载计算机可以通过reshape函数，将三维张量形式的特征图向量转化为一维特征图向量。其中，reshape函数实现的功能可以表征为将指定的矩阵变换成特定维数矩阵，且矩阵中元素个数不变，函数可以重新调整矩阵的行数、列数、维数。在本实施例中，特定维数可以为1。

步骤S1032、将所述一维特征图向量与所述实时飞行姿态特征图向量进行合并处理，得到所述融合信息。

具体的，上述合并处理可以表征为将一维特征图向量与实时飞行姿态特征图向量进行串行结合的操作。可选的，机载计算机可以通过Concat函数将一维特征图向量与实时飞行姿态特征图向量进行合并处理，得到融合信息；且合并的先后顺序可以为一维特征图向量在先，实时飞行姿态特征图向量在后。

步骤S104、将所述融合信息输入至目标策略网络，得到所述无人机的目标运动信息。

具体的，上述目标策略网络可以为一种神经网络模型。其中，机载计算机将融合信息输入至目标策略网络中，然后目标策略网络可以输出无人机的目标运动信息。实际上，将融合信息输入至目标策略网络，通过目标策略网络重新规划无人机的飞行轨迹，以避开障碍物到达目标位置。可选的，无人机的目标运动信息可以包括无人机的飞行速度信息、无人机飞行的俯仰角以及无人机飞行的航向角。可选的，无人机飞行的俯仰角可以表征为以无人机正前方为轴线，偏离该轴线上下两侧的夹角；无人机飞行的航向角可以表征为以无人机正前方为轴线，偏离该轴线左右两侧的夹角。

需要说明的是，无人机在飞行过程中，可以执行本实施例中的无人机路径规划方法。同时，当无人机与障碍物接近碰撞时，机载计算机可以执行本实施例中的无人机路径规划方法。

步骤S105、将所述目标运动信息发送至飞控，以通过所述飞控实现所述无人机路径重新规划的过程。

进一步地，在机载计算机得到无人机的目标运动信息之后，机载计算机可以将该目标运动信息发送至无人机飞控，飞控接收到该指令后，控制无人机当前的运动轨迹，以避开障碍物继续向目标位置飞行。

本实施例提供的无人机路径规划方法，该方法包括获取无人机当前位置预设空间范围内的深度图像以及所述无人机的实时飞行姿态特征图向量，通过目标卷积神经网络模型，提取所述深度图像中的特征图向量，对所述实时飞行姿态特征图向量以及所述特征图向量进行融合处理，得到所述无人机与所述深度图像中包含的物体的融合信息，将所述融合信息输入至目标策略网络，得到所述无人机的目标运动信息，将目标运动信息发送至飞控，以通过飞控实现所述无人机路径重新规划的过程；该方法可以通过两层神经网络模型，一次性获取无人机为了避开障碍物重新规划后的路径信息，以根据重新规划后的路径信息实现无人机路径重新规划的过程，从而缩短了重新规划路径的时间，缩短了无人机自主避障的周期，提高无人机自动避障所要求的实时性；同时，该方法可以适用于无人机不同的飞行场景，对环境的适应性较强，从而提高无人机自动避障方案的通用性。

作为其中一个实施例，在步骤S101之前或者步骤S102之前，所述方法还可以包括如下步骤：训练所述目标卷积神经网络模型。

可选的，所述训练所述目标卷积神经网络模型的步骤，具体可以包括如下步骤实现：

步骤S201、获取训练集和测试集。

需要说明的是，计算机设备可以通过开源自动驾驶仿真平台AirSim，模拟两种仿真环境，即山脉和城市场景，并采集这两种场景中共计m张无人机飞行场景图像；当然，还可以模拟其它场景。其中，m张无人机飞行场景图像可以包括无人机当前所处的三种飞行状态情况，分别为当前飞行状态为安全状态、接近碰撞以及发生碰撞。

进一步地，飞行场景图像中可以包含障碍物与无人机的位置信息，从而人为确定该无人机当前的飞行状态；也就是判断障碍物与无人机之间的距离是否处于预设距离范围内，该预设距离范围可以表征障碍物与无人机接近碰撞的临界范围，即(x_min，x_max)。其中，当障碍物与无人机之间的距离等于x_min时，则无人机当前已经与障碍物发生碰撞；当障碍物与无人机之间的距离大于x_min且小于x_max时，则无人机与障碍物接近碰撞；当障碍物与无人机之间的距离大于x_max时，则无人机为安全状态。

在本实施例中，将采集到的飞行场景图像可以包括三类无人机的飞行状态，并可以给每类飞行状态配置对应的标签数值；其中，一类表示无人机为安全状态的飞行场景图像，飞行状态标签为0，一类为表示无人机与障碍物接近碰撞的飞行场景图像，飞行状态标签为1，一类为表示的无人机已经与障碍物发生碰撞的飞行场景图像，飞行状态标签为2。其中，将采集到的带有标签的所有飞行场景图像按照第一比例与第二比例分配，得到目标卷积神经网络模型训练过程中的训练集和测试集。可选的，第一比例与第二比例之和可以等于100％。在本实施例中，将所有飞行场景图像中75％(即第一比例)的图像作为训练集，将所有飞行场景图像中25％(即第二比例)的图像作为测试集。

步骤S202、根据初始卷积神经网络模型、初始神经网络参数、所述训练集以及所述测试集进行训练处理，得到所述目标卷积神经网络模型。

具体的，上述初始卷积神经网络模型可以为满足一定预设条件的目标卷积神经网络模型，该初始卷积神经网络模型可以为下载的现有网络模型，上述预设条件可以表征为该现有网络模型是利用ImageNet数据集通过深度学习算法，对卷积神经网络模型进行预训练得到的初始卷积神经网络模型，准确率可以达到97％以上。

需要说明的是，计算机设备可以将训练集输入至初始卷积神经网络模型，对初始卷积神经网络模型进行训练处理，然后采用测试集对训练结果进行验证，使测试集中的准确率达到90％以上的初始卷积神经网络模型，可以确定为目标卷积神经网络模型。

在本实施例中，目标卷积神经网络模型可以包括四个卷积层、三个池化层和两个全连接层；运算过程中，四个卷积层的卷积核尺寸分别可以为5*5*6、5*5*16、5*5*32、3*3*64；进一步地，机载计算机将摄像设备采集到的深度图像(尺寸大小为L*M*4)输入至该目标卷积神经网络模型中，目标卷积神经网络模型输出的三维张量形式的特征图向量尺寸可以为((L-44)/8)*((M-44)/8)*64。其中，上述初始神经网络参数可以为初始卷积神经网络模型中每个节点参数，该初始化参数可以任意设定。

在本实施例中，上述特征图向量可以为三维张量形式的特征图向量。可选的，若深度图像的尺寸大小为L*M*4为例，则三维张量形式的特征图向量的尺寸可以为((L-44)/8)*((M-44)/8)*64，其中，目标卷积神经网络模型经过第一层卷积层(卷积核为5*5*6)后可以输出尺寸为(L-4)*(M-4)*6的向量，再经过池化层可以输出尺寸为((L-4)/2)*((M-4)/2)*6的向量，经过第二层卷积层(卷积核为5*5*6)后可以输出尺寸为(((L-4)/2)-4)*(((M-4)/2)-4)*16的向量，再经过池化层可以输出尺寸为((L-12)/4)*((M-12)/4)*16的向量，经过第三层卷积层(卷积核为5*5*32)后可以输出尺寸为(((L-12)/4)-4)*(((M-12)/4)-4)*32，再经过池化层可以输出尺寸为((L-28)/8)*((M-28)/8)*32的向量，最后经过第四层卷积层(卷积核为3*3*64)后可以输出尺寸为((L-44)/8)*((M-44)/8)*64的向量。

可选的，上述步骤S202中根据初始卷积神经网络模型、初始神经网络参数、所述训练集以及所述测试集进行训练处理，得到所述目标卷积神经网络模型的过程，具体可以通过以下方式实现：

步骤S2021、将所述初始卷积神经网络模型中的初始全连接层替换为预设全连接层，得到第一中间卷积神经网络模型，其中，所述初始连接层与所述预设全连接层的节点数不同。

具体的，初始卷积神经网络模型的节点参数不变，将初始卷积神经网络模型中的两个全连接层可以用预设全连接层替换，得到第一中间卷积神经网络模型。其中，预设全连接层可以为一层1024节点的新全连接层。

步骤S2022、根据所述第一中间卷积神经网络模型、初始神经网络参数、所述训练集以及所述测试集进行训练处理，得到第二中间卷积神经网络模型。

需要说明的是，计算机设备可以将训练集输入至第一中间卷积神经网络模型，对第一中间卷积神经网络模型进行训练处理，然后采用测试集对训练结果进行验证，使测试集中的准确率达到90％以上的第一中间卷积神经网络模型，可以确定为第二中间卷积神经网络模型。其中，对第一中间卷积神经网络模型进行训练时，第一中间卷积神经网络模型中的节点参数还为上述初始卷积神经网络模型中的节点参数，即初始神经网络参数。

以图3中的第一中间卷积神经网络模型为例，该第一中间卷积神经网络模型包括四个卷积层、三个池化层和两个全连接层，输入第一中间卷积神经网络模型的深度图像为240*164*4，通过reshape函数转化后得到的特征图向量为84*84*4，84*84分别表示特征图的长度和宽度，图3中斜向右的箭头上方的数值表示特征图的深度，1024表示将初始卷积神经网络模型中的两个全连接层替换为预设全连接层中的节点数；训练过程中，第一中间卷积神经网络模型的输出为无人机的飞行状态标签，当飞行状态标签在测试集中的准确率达到90％以上，此时的网络模型可以确定为第二中间卷积神经网络模型。

步骤S2023、将所述第二中间卷积神经网络模型中的全连接层删除，得到所述目标卷积神经网络模型。

进一步地，将第二中间卷积神经网络模型中的全连接层删除，得到目标卷积神经网络模型；其中，本实施例通过目标卷积神经网络模型对无人机的飞行环境进行感知，并不需要通过全连接层实现分类处理，从而删除全连接层，以减少运算量，缩短运算时间。可以理解的是，继续参见图3所示，将训练好的第二中间卷积神经网络模型中1024节点的全连接层以及输出层(即输出飞行状态标签)均删除，可以得到目标卷积神经网络模型。

本实施例提供的无人机路径规划方法，该方法可以对初始卷积神经网络模型进行训练处理，得到无全连接层的目标卷积神经网络模型，进而通过该目标卷积神经网络模型对无人机的飞行环境进行感知，以减少运算量，缩短运算时间，提高无人机自动避障所要求的实时性；同时，该方法通过该目标卷积神经网络模型可以感知无人机不同的飞行场景，对环境的适应性较强，从而提高无人机自动避障方案的通用性。

作为其中一个实施例，在上述步骤S104之前任意步骤阶段，所述无人机路径规划方法还可以包括如下过程：获取通过深度强化学习中的神经网络训练得到的所述目标策略网络。

可选的，上述步骤S105中将所述融合信息输入至目标策略网络，得到所述无人机的目标运动信息的步骤，具体可以包括：将所述融合信息输入至所述目标策略网络，并通过所述策略网络进行前向传播计算，得到所述无人机的目标运动信息。

具体的，机载计算机可以获取计算机设备通过深度强化学习中的神经网络训练得到的目标策略网络，并将目标策略网络集成于机载计算机内部。可选的，目标策略网络可以用于通过当前的环境特征重新规划无人机的行驶路径信息，即无人机的目标运动信息，以使无人机根据重新规划的目标运算信息对障碍物实现自动避障动作。其中，上述深度强化学习中的神经网络可以为深度强化学习中的任意神经网络，对此网络本实施例不做任何限定。在本实施例中，无人机的初始运动信息可以为目标运动信息优化过程中的一些不同或相同的初始运算信息。

需要说明的是，计算机设备可以在开源自动驾驶仿真平台AirSim中，模拟两种虚拟环境，即山脉和城市场景；当然可以在其它环境中仿真；并且计算机设备可以通过应用程序接口调取无人机在该两种模拟环境中飞行时的运动状态参数，该运动状态参数可以包括无人机的飞行速度、飞行角度、无人机与障碍物是否碰撞等信息。其中，计算机设备可以通过初始策略网络和初始评价网络进行训练处理，得到目标策略网络。其中，策略网络的输入可以为运动状态s，输出可以为动作t，评价网络的输入可以为运动状态s和动作a，输出可以为Q函数值(即Q值)，Q函数值的表达式为Q(s，a)。

其中，若在当前模拟环境中的无人机当前运动状态表示为s_t，作为策略网络的输入，并在策略网络上加随机噪声，策略网络可以输出一个动作a_t；在当前模拟环境中无人机接收到动作a_t后，评价网络可以得到对动作a_t评价的回报值r_t，同时模拟获得下一时刻状态s_t+1；然后计算机设备可以根据回报值r_t更新评价网络的参数，并通过评价网络更新策略网络的参数。可选的，随机噪声可以为高斯扰动。可选的，策略网络可以包括初始策略网络和目标策略网络，评价网络可以包括初始评价网络和目标策略网络。可选的，更新策略网络时，仅需要更新初始策略网络的参数(即初始策略网络参数)，目标策略网络和初始策略网络可以相同，初始策略网络参数表示为θ^μ，目标策略网络参数表示为θ^μ′；更新评价网络时，仅需要更新初始评价网络的参数(即初始评价网络参数)，目标评价网络与初始评价网络可以相同；初始评价网络参数表示为θ^Q，目标评价网络参数表示为为θ^Q′。其中，训练更新过程可以表征为如下步骤：

步骤1：随机初始化初始评价网络参数θ^Q和初始策略网络参数θ^μ；

步骤2：通过初始评价网络参数θ^Q初始化所要求解的目标评价网络参数为θ^Q′，通过初始策略网络参数θ^μ初始化所要求解的目标策略网络参数，同时，可以建立一个新的数据库R以存储回报值；

步骤3：初始化时刻1的运动状态s₁之后，进行迭代求解，每个迭代步骤可以通过步骤3.1至步骤3.7实现：

步骤3.1：通过初始策略网络加上一个随机噪声N_t，初始策略网络可以输出一个动作a_t，即a_t＝u(s|θ^μ)+N_t；

步骤3.2：当前模拟环境中无人机接收动作a_t后，得到对动作a_t评价的回报值r_t和下一时刻状态s_t+1，进而生成一个四元组(s_t，a_t，r_t，s_t+1)，且将该四元组存储至新建数据库R中；

可选的，上述回报值r_t可以等于γ₁*R₁+γ₂*R₂+R₃(γ₁+γ₂可以等于1)；其中，R₁可以表征无人机当前位置与目标位置之间距离的正回报值，距离值越大，R₁的数值越大；R₂可以表征无人机轨迹平滑度的负回报(即以地面为水平面，无人机在单位时间内在垂直方向上的波动程度)，无人机轨迹平滑度可以等于单位时间内传感器采集到的无人机俯仰角的绝对值之和；R₃可以表征无人机发生碰撞时的惩罚，R₁、R₂、R₃分别可以通过公式(1)、(2)和(3)表示：

其中，s_t(x_t，y_t，z_t)表示t时刻无人机在地球坐标系下的绝对位置坐标，s_g(x_g，y_g，z_g)表示目标点在地球坐标系下的绝对位置坐标；

其中，θ_k为t＝k(k为整数)时刻无人机飞行时的俯仰角大小；

其中，collision表示无人机与障碍物发生碰撞，ε可以为任意常数，表示静止状态下无人机当前位置与目标位置之间的最大距离，在本实施例中，ε可以等于2；

步骤3.3：根据上述获取到的回报值r_t，更新初始评价网络参数θ^Q；其中，更新初始评价网络参数θ^Q的过程可以通过步骤3.3.1至步骤3.3.4实现：

步骤3.3.1：初始评价网络可以通过Q函数计算得到Q值，即Q(s_t，a_t|θ^Q)；

步骤3.3.2：从新建数据库R中随机选取N(N可以大于等于1)个元组数据(s_t，a_t，r_t，s_t+1)，其中，i可以表示每个状态，初始状态为0，则i可以等于0，1，...，N，计算机设备可以通过贝尔曼方程估计Q值，该Q值可以采用公式(4)所示的第i个元组的Q值yi来表示，即

y_i＝r_i+Q′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′) (4)；

其中，公式(1)中，r_i表示第i个元组的回报值，s_i+1表示第i+1个状态，μ′(s_i+1|θ^μ′)表示目标策略网络根据输入的s_i+1得到的动作，Q′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)表示目标评价网络根据输入的s_i+1和动作′(s_i+1|θ^μ′)计算得到的Q值；

步骤3.3.3：通过Q值和y_i值可以得到两者之间的误差值，即最小均方误差L，并利用L更新初始评价网络参数θQ，L可以通过公式(5)表示为：

其中，计算机设备可以采用公式(6)、(7)和(8)更新初始评价网络参数θQ，通过迭代计算过程获得最大化期望回报值，以选出最大期望回报值对应的初始评价网络参数θ^Q，公式表示如下：

δ_i＝r_i+Q′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)-Q(s_i，a_i) (7)；

其中，公式(7)是采用时序差分算法以估计下一步状态的回报，公式中的α_Q可以表示训练更新过程中的学习率，学习率表征训练更新的速度；在本实施例中学习率可以设置为0.0001，当然，还可以根据目标网络的实际需求调整该值；可选的，上述迭代过程可以为一种梯度下降的方式；

步骤3.3.4：根据更新好的初始评价网络参数θ^Q，利用公式(9)对目标评价网络参数θ^Q′进行更新，公式(9)表示为：

θ^Q′＝τ*θ^Q+(1-τ)*θ^Q′ (9)；

其中，τ为目标评价网络更新的权值，在本实施例中τ可以等于0.0005～0.001，还可以根据目标评价网络的实际需求调整该值；

步骤3.4：根据更新好的初始评价网络参数θ^Q，更新初始策略网络参数θ^μ，具体可以采用如下公式(10)进行更新：

其中，

的表达式可以和公式(3)的表达式类似，且更新过程中的学习率α_μ可以等于0.0001，还可以根据目标网络的实际需求调整该值。在此过程中，也可以采用迭代过程获得最大化期望回报值，以选出最大期望回报值对应的初始策略网络参数θ^μ；

步骤3.5：根据更新好的初始策略网络参数θ^μ，采用移动平均算法对目标策略网络参数θ^μ进行更新，移动平均算法采用公式(11)表示为：

θ^μ′＝τ*θ^μ+(1-τ)*θ^μ′ (11)；

其中，τ为目标策略网络的权值，在本实施例中τ可以等于-0.0005～0.001，还可以根据目标策略网络的实际需求调整该值。

需要说明的是，计算机设备训练最终得到目标策略网络和目标评价网络，进而将该目标策略网络发送至机载计算机中进行集成。可选的，目标策略网络可以通过图4所示结构图表示，包括三个全连接层、一个输入层以及一个输出层。

本实施例提供的无人机路径规划方法，该方法训练目标策略网络，根据目标策略网络进一步实现无人机自主避障的过程，该方法可以适用于无人机不同的飞行场景，对环境的适应性较强，从而提高无人机自动避障方案的通用性。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

关于无人机路径规划系统的具体限定可以参见上文中对于无人机路径规划方法的限定，在此不再赘述。上述计算机设备的无人机路径规划系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图5为一实施例提供的无人机路径规划系统结构示意图。如图5所示，该系统可以包括：第一获取模块11、提取模块12、融合模块13、第二获取模块14以及控制模块15。

具体的，所述第一获取模块11，用于获取无人机当前位置预设空间范围内的深度图像以及所述无人机的实时飞行姿态特征图向量；

所述提取模块12，用于通过目标卷积神经网络模型，提取所述深度图像中的特征图向量；

所述融合模块13，用于对所述实时飞行姿态特征图向量以及所述特征图向量进行融合处理，得到所述无人机与所述深度图像中包含的物体的融合信息；

所述第二获取模块14，用于获取将所述融合信息输入至目标策略网络，得到所述无人机的目标运动信息；

所述控制模块15，用于将所述目标运动信息发送至飞控，以通过所述飞控实现所述无人机路径重新规划的过程。

本实施例提供的无人机路径规划系统，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在其中一个实施例中，所述无人机路径规划系统还包括：第一训练模块。

其中，所述第一训练模块，用于训练所述目标卷积神经网络模型。

在其中一个实施例中，所述第一训练模块包括：第一获取单元以及训练单元。

其中，所述第一获取单元，用于获取训练集和测试集；

所述训练单元，用于根据初始卷积神经网络模型、初始神经网络参数、所述训练集以及所述测试集进行训练处理，得到所述目标卷积神经网络模型。

在其中一个实施例中，所述训练单元包括：替换子单元、训练子单元以及删除子单元。

其中，所述替换子单元，用于将所述初始卷积神经网络模型中的初始全连接层替换为预设全连接层，得到第一中间卷积神经网络模型，其中，所述初始连接层与所述预设全连接层的节点数不同；

所述训练子单元，用于根据所述第一中间卷积神经网络模型、初始神经网络参数、所述训练集以及所述测试集进行训练处理，得到第二中间卷积神经网络模型；

所述删除子单元，用于将所述第二中间卷积神经网络模型中的全连接层删除，得到所述目标卷积神经网络模型。

在其中一个实施例中，所述融合模块13包括：转化单元以及合并单元。

其中，所述转化单元，用于将所述特征图向量转化为一维特征图向量；

所述合并单元，用于将所述一维特征图向量与所述实时飞行姿态特征图向量进行合并处理，得到所述融合信息。

在其中一个实施例中，所述无人机路径规划系统还包括第二训练模块。

其中，所述第三获取模块，用于获取通过深度强化学习中的神经网络训练得到的所述目标策略网络。

在其中一个实施例中，所述第二获取模块14具体用于将所述融合信息输入至所述目标策略网络，并通过所述策略网络进行前向传播计算，得到所述无人机的目标运动信息。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种无人机路径规划方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，提供了一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种无人机路径规划方法，其特征在于，所述方法包括：

对所述实时飞行姿态特征图向量与所述特征图向量进行融合处理，得到所述无人机与所述深度图像中包含的物体的融合信息；

2.根据权利要求1所述的方法，其特征在于，所述预设空间范围包括所述无人机当前位置预设角度内的所有空间；所述无人机的实时飞行姿态特征图向量包括所述无人机的飞行速度信息、飞行位置信息以及飞行方向信息。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

训练所述目标卷积神经网络模型；

以及优选地，所述训练所述目标卷积神经网络模型包括：

获取训练集和测试集；

4.根据权利要求3所述的方法，其特征在于，所述根据初始卷积神经网络模型、初始神经网络参数、所述训练集以及所述测试集进行训练处理，得到所述目标卷积神经网络模型，包括：

将所述初始卷积神经网络模型中的初始全连接层替换为预设全连接层，得到第一中间卷积神经网络模型，其中，所述初始连接层与所述预设全连接层的节点数不同；

5.根据权利要求1所述的方法，其特征在于，所述对所述实时飞行姿态特征图向量以及所述特征图向量进行融合处理，得到所述无人机与所述深度图像中包含的物体的融合信息，包括：

将所述特征图向量转化为一维特征图向量；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取通过深度强化学习中的神经网络训练得到的所述目标策略网络。

7.根据权利要求6所述的方法，其特征在于，所述将所述融合信息输入至目标策略网络，得到所述无人机的目标运动信息，包括：

将所述融合信息输入至所述目标策略网络，并通过所述策略网络进行前向传播计算，得到所述无人机的目标运动信息。

8.一种无人机路径规划系统，其特征在于，所述系统包括：

9.一种计算机设备，包括存储器、处理器，所述存储器上存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。