CN112380923A

CN112380923A - 基于多任务的智能自主视觉导航与目标检测方法

Info

Publication number: CN112380923A
Application number: CN202011153200.2A
Authority: CN
Inventors: 宗群; 王悦; 王永镇; 鲁瀚辰; 董圣然
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-02-19

Abstract

本发明涉及计算机视觉、深度学习、图像处理、机器人自主导航、目标检测等领域，为提出性能更强的基于卷积神经网络的视觉导航与目标检测融合的方法，用于机器人智能自主导航与目标检测多任务的同时实现。本发明，基于多任务的智能自主视觉导航与目标检测方法，以相机作为感知设备，摄取输入图像；利用共享的主干神经网络，对输入图像进行特征提取；利用视觉导航任务分支网络得到导航方向和碰撞概率；利用目标检测分支网络进行大小物体检测。本发明主要应用于机器人自动控制场合。

Description

基于多任务的智能自主视觉导航与目标检测方法

技术领域

本发明涉及计算机视觉、深度学习、图像处理、机器人自主导航、目标检测等领域，具体涉及基于多任务的智能自主视觉导航与目标检测方法。

背景技术

随着深度学习技术的不断发展，基于卷积神经网络的计算机视觉技术对各行各业都产生重大影响。而安全可靠的室内外无人系统的自主导航与目标检测技术，作为机器人界的一个颇具挑战性的开放性问题，仍亟待技术的进一步革新和进步。能在复杂的环境中进行自主导航，对机器人至关重要。尤其在楼道或者城市环境中，该问题更复杂，机器人除了需要对环境中的静态障碍物进行避让，还需要对周围其它动态物体进行交互，如对行人和车辆的避让，同时可能需要进行其他任务，如对特定物体的检测或者跟踪等等。

视觉导航技术指的是，设计模型结构与目标函数，如卷积神经网络与损失函数等，利用大量有标注数据(原始感知数据-控制策略)对模型进行训练，使训练后的模型可以根据原始感知数据直接得到合理的控制策略，不需要建图和定位等步骤。

而目标检测是指从一幅场景或者图片中找出一类或者多类感兴趣目标并对各个目标进行定位，包括定位和识别两个过程。目标检测问题是计算机视觉领域的一个基本问题，是广泛的下游视觉应用的先决条件，例如实例分割[1][2]，人体关键点检测[3]，人脸识别[4]等。

在传统自主导航问题中，GPS(全球定位系统)存在定位误差过大，室内无法定位等问题，SLAM(同步定位与地图构建)也具有误差累积、难以应对变化过快的场景、计算资源占用较大等问题。如果再引入目标检测任务，无疑增大了移动机器人的计算负担。除此之外，将感知任务与决策任务分离处理，还引入了由环境地图得到控制决策的逻辑设计问题。所以，基于多任务的机器人智能自主导航与目标检测技术是一个相当困难的课题。

视觉导航技术是实现机器人自主导航的一种方法，作为一种基于卷积神经网络的新兴技术，准确度还有待提高，偶尔会有错误的决策输出。而在机器人的实际运行中，输出任何错误的控制决策都可能导致严重的后果，对生产和人员安全产生影响。但只实现视觉导航功能不满足实际需要，很多场景下需要同时实现目标检测，而分别使用两个神经网络实现不同功能会占用大量系统资源，不满足嵌入式系统上低功耗的要求。所以如何在低功耗下同时实现自主导航和目标检测是一个亟待解决的问题。

视觉导航算法和目标检测算法作为两个计算机视觉的子任务，对于实现机器人智能化自主导航和目标检测有重要意义。而两个任务如果由两个卷积神经网络分别实现，会耗费大量计算资源，极大降低系统的实时性。利用多任务神经网络的思想，共享主干网络提取的特征，之后利用两个分支网络分别实现视觉导航和目标检测的功能。从而以较少的网络参数，较快的网络推理速度，实现自主导航和目标检测。

发明内容

为克服现有技术的不足，本发明旨在提出一种针对地面机器人的基于多任务的智能视觉导航与目标检测方法。对当前现有的视觉导航算法和目标检测算法进行研究与融合，提出性能更强的基于卷积神经网络的视觉导航与目标检测融合的方法，用于机器人智能自主导航与目标检测多任务的同时实现。使用公开数据集对提出的算法进行训练，得到性能良好的算法。地面机器人搭载kinect相机作为感知设备，搭载Jetson TX2作为处理器，使用本发明提出的视觉导航与目标检测多任务算法实现机器人智能自主导航以及对特定目标的检测与跟踪。为此，本发明采取的技术方案是，基于多任务的智能自主视觉导航与目标检测方法，步骤如下：

以相机作为感知设备，摄取输入图像；

利用共享的主干神经网络，对输入图像进行特征提取，将结果输入后续分支网络；

利用视觉导航任务分支网络，接收共享的主干网络得到的特征图，经过卷积进行特征提取，最后使用两个全连接分类器进行分类，分别得到导航方向和碰撞概率；

利用目标检测分支网络接收共享的主干网络得到的特征图，目标检测分支网络的大物体检测分支对得到的10×10大小的特征图进行特征提取，之后使用检测器进行检测；小物体分类器使用跨层连接结合不同尺度的特征图，特征提取后使用检测器在20×20大小的特征图上进行检测。

目标检测分支网络利用特征金字塔网络FPN，将具有丰富特征的高层特征图上采样，通过跨层连接和低层特征图结合的方法进行检测。

其中，主干神经网络为卷积层、池化层交替结构，最后通过3个卷积层输出到大物体检测器；视觉导航任务分支网络包括卷积层、池化层；目标检测分支网络包括卷积层、上采样模块、contat拼接模块，输出到小物体检测器。

训练步骤如下：主干网络读取预训练参数，首先冻结视觉导航分支参数，训练主干网络和目标检测分支100个epoch，Epoch就是将所有训练样本训练一次的过程，训练中前50个epoch只训练随机初始化参数的层，学习率0.001，后50个epoch微调主干网络和目标检测分支，学习率10^(-4)；之后冻结主干网络和目标检测分支参数，训练视觉导航分支参数50个epoch，学习率0.001，衰减系数10^(-5)；优化器均选用Adam优化器。

本发明的特点及有益效果是：

(1)设计了视觉导航与目标检测多任务网络：本发明设计了视觉导航与目标检测多任务网络架构，基于共享主干网络提取的特征，加入视觉导航分支和目标检测分支，形成了多任务神经网络，可以同时得到视觉导航结果和目标检测结果。

(2)提出了针对移动小物体的高性能检测算法：本发明提出了针对移动小物体的目标检测算法，为了更好地提取和利用图像的特征，本算法结合了网络不同尺度的信息，在小物体检测分支加入一个特定的卷积层，与YOLOv3-tiny相比，小物体的召回率更高。

(3)提出一种更高效数据集标注方法：本发明提出了一种利用跟踪算法实现数据集标注的方法，极大地减少了标注难度，同时提高了标注的效率。

附图说明：

图1多任务模型总体结构图。

图2多任务卷积神经网络结构图。

图3标注方法流程图。

图4机器人目标检测数据集。

图5自制数据集部分样例图。

图6目标检测网络整体结构。

图7聚类结果图。

图8多任务网络整体结构图。

图9多任务网络网络结构参数图。

图10训练过程的损失值及学习率变化图。

图11目标检测效果对比图。

具体实施方式

本发明涉及计算机视觉、深度学习、图像处理、机器人自主导航、目标检测等领域，解决了在低功耗、弱计算资源下使用单一神经网络同时实现自主导航和目标检测跟踪的问题。

(1)本发明设计了多任务卷积神经网络的架构，结合视觉导航算法和目标检测算法，实现由单目摄像头图片输入，直接得到导航方向与目标检测结果，分别用于自主导航和检测特定目标。从而实现在未知环境中智能自主导航及指定目标检测功能。

(2)本发明提出了针对移动小物体的目标检测算法，为了更好地提取和利用图像特征，本算法结合了网络不同尺度的信息，在小物体检测分支加入特定的卷积层，与YOLOv3-tiny相比，小物体的召回率更高。

(3)本发明提出一种数据集标注方法，极大地减少了标注难度。利用跟踪算法对目标物体进行跟踪，读取目标框的坐标，将目标类别、边界框等信息写入xml文件，即可完成数据集的制作。

由于神经网路的复杂性，如果将视觉导航与目标检测分别使用独立的网络，会占用大量的计算资源，目前的嵌入式设备很难在低延迟下达到预期的效果，本发明提出一种视觉导航与目标检测多任务算法，该算法使得视觉导航与目标检测共享同一个用于特征提取的主干网络，通过扩展两个任务分支达到多任务的效果，既能在低延迟下达到很好的实验效果，又节省了大量的系统资源，对于机器人的视觉导航、目标检测等多任务融合的研究具有十分重要的意义。该项发明稳定可靠，可扩展性好，稳定性强，由于整个算法均在机载处理器中完成，提高了整个系统的稳定性和可靠性。总而言之随着社会需求的提高，机器人有越来越多的功能需求及应用场景，要求机器人自主导航的同时实现目标检测跟踪等其他效果，自主导航与目标检测多任务融合算法可以很好的解决此类问题。

下面结合附图对本发明做进一步描述。

本发明实现方法的卷积神经网络模型总体结构如图1所示。该模型主要分为三个部分。分别是共享的主干网络用于特征提取，视觉导航任务分支网络和目标检测任务分支网络。

多任务卷积神经网络图示结构如图2，下面结合图示进行进一步结构解释。

第一部分是共享的主干网络，用于对输入图像进行特征提取，将结果输入后续分支网络。由于本发明的最终实验的检测目标是机器人，目标检测部分使用自制机器人数据集进行训练，数据集大小有限，采用预训练网络进行微调，可以加快网络收敛，同时抑制过拟合。因此本发明采用大型公开数据集上训练得到的初始化参数。该网络有较好的特征提取能力，输出尺度为输入图像大小的1/16。该网络的参数量较少，能达到较快的推理速度。

第二部分是视觉导航任务分支网络，接收共享的主干网络得到的特征图，经过卷积进行特征提取，最后使用两个全连接分类器进行分类，分别得到导航方向和碰撞概率。该部分网络为融合不同尺度的特征信息，加入了跨层连接的方法，结合不同尺度的特征图进行预测，提升了算法的鲁棒性。最终输出为水平方向的导航方向和碰撞概率。

第三部分是目标检测分支网络，接收共享的主干网络得到的特征图，大物体检测分支对得到的10×10大小的特征图进行特征提取，之后使用检测器进行检测。小物体分类器由于检测难度大，使用跨层连接结合了不同尺度的特征图，特征提取后使用检测器在20×20大小的特征图上进行检测。本部分利用FPN[5]的思想，将具有丰富特征的高层特征图上采样，通过跨层连接和低层特征图结合的方法进行检测，提升了算法的准确性和鲁棒性。

为了制作本方法需要检测的目标的数据集，本发明提出一种数据集标注方法，极大地减少了标注难度。流程图如图3所示，首先录制包含目标物体的视频，之后利用跟踪算法KCF[6]对目标物体进行跟踪，读取目标框的坐标，利用开源工具包tinyxml[7]将目标类别、边界框等信息写入xml文件，即可完成数据集的制作。跟踪过程中会实时显示跟踪状态，当跟踪算法累积误差累积到一定程度，可以人为重定义目标框，初始化跟踪器，继续跟踪。

本发明为了应用算法在真实场景，制作了Pascal dataset(VOC 2007)[8]格式的机器人目标检测数据集，只为训练目标检测网络分支提供数据。如图4所示。共计1600张1080P分辨率的JPG格式的图像，其中训练集1155张，测试集445张。数据集包含turtlebot2(一种多功能小车)和turtlebot3两种目标，每张数据集包含1～2个目标。数据集包含不同角度、不同光照、不同大小、不同周边环境下的目标物体，数据集部分样例图如图5所示。

YOLOv3-tiny检测算法作为一阶段系列的方法，本身对于小物体的检测效果是比较差。而且为了追求检测效率，YOLOv3-tiny的网络结构较简单，提取特征不够强，因而在检测小物体上效果不佳。为了提升小物体的召回率，本发明提出的方法进一步结合网络不同尺度的信息，额外利用了尺度为40×40的特征信息。为了更好地提取特征，在小物体检测分支又加入一个卷积层，进一步提取特征。提出的网络结构如图6所示，具体的网络结构参数如图9所示。以上的改进并没有加入太多网络结构，而且加入的结构主要在网络的后半段，后半段的特征图尺度小通道多，卷积运算的计算量较小，因此改进后的网络的参数量没有太大变化，对计算效率的影响不会太大。后续实验证明，这样的改进，在输入图片尺度较小的情况下是有效的。

检测网络由于没有使用全连接层进行分类，所以对于输入图片的尺寸没有限制。为了保证在机器人搭载的嵌入式系统上算法的实时性，本发明将输入大小设定为320×320，减少模型运算量。为了保证算法的泛化性，原神经网络训练过程中，使用了多尺度训练的方式，每个epoch从[320,608]的范围内，随机选取32的倍数作为训练输入大小。由于修改了模型推理阶段的期望输入大小，本发明在模型训练中，每个epoch在[224,416]的范围内，随机选取32的倍数作为训练输入大小。

为了加快收敛速度，提升泛化性，前14层网络采用大型公开数据集上训练得到的初始化参数，其余层参数随机初始化。

anchor形状的设定对目标检测效果影响很大，本发明对Pascal dataset(VOC2007)数据集的训练集和验证集中的边界框使用K-means算法得到anchor。其中边界框的长宽归一化到图片长宽的比例值，图7(a)是所有边界框的分布情况，可见较小的边界框占的比例略高。图7(b)显示了每一聚类包含的边界框的现状分布，以及经过K-means算法得到的六个聚类的中心点，即六个anchor的形状。

通过K-means聚类得到6个矩形框作为anchor，在尺度为10×10的特征图上使用3个较大的矩形框作为anchor，即图7(b)中右上角三个聚类中心点对应的矩形框。在尺度为20×20的特征图上使用3个较小的矩形框作为anchor，即图7(b)中左下角三个聚类中心点对应的矩形框。更新anchor之后能提升算法的准确度。

本发明设计了视觉导航与目标检测多任务网络，用于实现机器人自主导航与目标检测。网络结构如图8所示，具体的网络结构参数如图9所示。主要是基于共享的主干网络，主干网络用于提取图像特征，之后将得到的特征图提供给视觉导航算法分支，和目标检测分支，由此形成了导航与检测的多任务神经网络。共享主干网络提取的特征，同时得到视觉导航结果和目标检测结果。

视觉导航算法分支为了结合多尺度信息，将第五个卷积层输出结果进行下采样后和网络最终输出进行结合，之后该分支经过简单的特征提取之后，最终特征分别经过两路全连接层后，得到方向决策和碰撞概率，用于后续机器人控制。

目标检测分支与视觉导航分支是两个独立的分支网络，在推理过程中他们的输出结果互不干涉。

多任务网络损失函数设定综合两个分支的损失值，结合视觉导航和目标检测，损失函数如式1所示。

L_total＝L_control+L_detect (1)

本发明对多任务网络的训练方式具体步骤如下：

主干网络读取预训练参数，首先冻结视觉导航分支参数，训练主干网络和目标检测分支100个epoch，训练中前50个epoch只训练随机初始化参数的层，学习率0.001，后50个epoch微调主干网络和目标检测分支，学习率10^(-4)；之后冻结主干网络和目标检测分支参数，训练视觉导航分支参数50个epoch，学习率0.001，衰减系数10^(-5)。优化器均选用Adam优化器。

表1展示了在PASCAL VOC公开数据集上，本发明提出的方法与对比方法在均值平均精度的性能比较。包括原版YOLOv3-tiny，替换主干网络为mobilenet的YOLOv3-tiny，优化后的YOLOv3-tiny。由于本发明提出的方法需要应用在实际场景，所以仅考虑轻量级网络作为主干网络，如mobilenet等。网络输入大小设置为320×320。训练过程的损失值变化如图10所示。

表1 PASCAL VOC公开数据集方法性能比较

部分检测对比效果如图11所示，只有置信度大于0.3的目标会显示。由于针对小物体检测分支进行改进，本发明提出的目标检测算法对小物体的召回率明显更高，但对猫狗有一些误检的情况，这在表1中也有体现。主观观察证明，本发明提出的方法对目标检测的效果提升是有效的。

表2展示了在自制turtlebot数据集上，使用训练集训练，测试集测试的结果。

表2 turtlebot数据集上性能比较结果

本发明提出的方法与对比方法在均值平均精度的性能比较。由于只有两个待检测类别，所以目标检测任务相对简单。对比的方法包括原版YOLOv3-tiny，替换主干网络为mobilenet的YOLOv3-tiny。从表中可以看出，在两个类别中，本发明提出的目标检测算法取得了较好的表现。优化前后均值平均精度提升了4.52％，说明本发明提出的目标检测算法效果有明显提升。

本发明提出的方法，最终需要搭载到嵌入式系统上运行，所以神经网络的参数量不宜过大，推理时间不能过长。这里对神经网络的实时性进行评价。在服务器端网络推理实时性对比结果如表3所示。

表3服务器端网络推理实时性对比结果

将神经网络部署在嵌入式系统Jetson TX2上，网络推理实时性对比结果如表4所示。由表4可知，本发明提出的目标检测算法网络推理速度比YOLOv3-tiny稍慢，但满足实时性要求，参数量也没有增多太多，满足存储空间要求。而且本算法的推理速度明显高于mobilenet-YOLOv3-tiny，可能是因为mobilenet特有的深度可分离卷积(depthwiseseparable convolution)推理过程需要更多资源。

表4嵌入式系统网络推理实时性对比结果

表5展示了本发明提出方法的目标检测分支在自制turtlebot数据集上使用测试集测试的结果。本发明提出的方法与对比方法在均值平均精度的比较。因为两阶段训练法中，目标检测分支直接读取训练好的参数，训练后期参数一直冻结，所以准确度和优化后的YOLOv3-tiny实验结果相同。而使用四步训练法，由于视觉导航分支的训练，更新了主干网络的参数，导致准确度降低。

表5目标检测分支评价结果

表6展示了提出的方法的视觉导航分支在An Open Source Self-Driving Car数据集上，使用测试集测试的结果。本发明提出的方法与对比方法在EVA、RMSE、平均准确度、F-1系数的性能比较。对比的方法包括Giusti等、Dronet、mobilenet-Dronet。

表6视觉导航分支评价结果

经过对比试验，发现使用两阶段训练法得到的多任务网络的目标检测分支准确度高于使用四阶段训练法得到的网络准确度，而视觉导航分支准确度相差不多。而且两阶段训练法训练更便捷，训练时间更短，因此后续的实际实验使用两阶段训练法得到的多任务网络。

该发明服务器端实验基于keras深度学习框架，运行环境为Ubuntu16.04，显卡使用单路NVIDIA GeForce GTX 1080，CPU为八核Intel i7-7700，内存16GB。模型推理速率为67.63FPS。嵌入式上实验基于Jeston TX2。实验系统环境为Ubuntu16.04，CUDA8.0。模型推理速度为27.44FPS，满足实时性要求。

Claims

1.一种基于多任务的智能自主视觉导航与目标检测方法，其特征是，步骤如下：

以相机作为感知设备，摄取输入图像；

2.如权利要求1所述的基于多任务的智能自主视觉导航与目标检测方法，其特征是，目标检测分支网络利用特征金字塔网络FPN，将具有丰富特征的高层特征图上采样，通过跨层连接和低层特征图结合的方法进行检测。

3.如权利要求1所述的基于多任务的智能自主视觉导航与目标检测方法，其特征是，其中，主干神经网络为卷积层、池化层交替结构，最后通过3个卷积层输出到大物体检测器；视觉导航任务分支网络包括卷积层、池化层；目标检测分支网络包括卷积层、上采样模块、contat拼接模块，输出到小物体检测器。

4.如权利要求1所述的基于多任务的智能自主视觉导航与目标检测方法，其特征是，训练步骤如下：主干网络读取预训练参数，首先冻结视觉导航分支参数，训练主干网络和目标检测分支100个epoch，Epoch就是将所有训练样本训练一次的过程，训练中前50个epoch只训练随机初始化参数的层，学习率0.001，后50个epoch微调主干网络和目标检测分支，学习率10^(-4)；之后冻结主干网络和目标检测分支参数，训练视觉导航分支参数50个epoch，学习率0.001，衰减系数10^(-5)；优化器均选用Adam优化器。