CN112507943B

CN112507943B - 基于多任务神经网络的视觉定位导航方法、系统及介质

Info

Publication number: CN112507943B
Application number: CN202011499627.8A
Authority: CN
Inventors: 刘小慧; 魏武; 余秋达; 陈逸东
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2023-09-29
Anticipated expiration: 2040-12-18
Also published as: CN112507943A

Abstract

本发明公开了一种基于多任务神经网络的视觉定位导航方法、系统及介质，其中方法包括：设计多任务神经网络模型，所述多任务神经网络模型能同时完成目标检测与可通达语义地图构建两个任务；采用开源数据集和自建数据集对所述多任务神经网络模型进行训练及调优，获得最终的多任务神经网络模型；采用所述最终的多任务神经网络模型来实现视觉定位导航。本发明使用的多任务神经网络模型相较单任务网络可提高卷积神经网络的复用率，减小模型的体积并降低计算时延，能够更准确快速地完成AGV视觉定位导航中的目标检测与可通达地图构建分割任务，可广泛应用于计算机视觉技术领域。

Description

基于多任务神经网络的视觉定位导航方法、系统及介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于多任务神经网络的视觉定位导航方法、系统及介质。

背景技术

最早应用于仓储物流业的AGV智能车(Automated Guided Vehicle，简称AGV，通常也称为AGV小车)，随着人工智能，深度学习技术的不断发展，借助深度学习的优势，逐渐实现高度智能化，并走进了寻常百姓家。

AGV视觉定位导航借助视觉传感器模仿人的眼睛感知周围环境，可将其分为目标检测定位与可通达地图构建两个任务，传统视觉定位算法使用人工特征或模型识别算法将图像空间的高维状态转化为机器人能理解的低维状态，再利用机器人运动学或动力学求解。传统的视觉定位导航方法存在两个关键问题：1)对图像理解能力差且理解层次较低，对于关键信息提取的过程易受室外环境中的非结构化因素影响；2)从高维空间到低维空间的映射造成大量特征信息丢失。由此造成在室外非结构化环境中，机器人无法实现所处环境的真实表达，使得鲁棒性变差，精度降低。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于多任务神经网络的视觉定位导航方法、系统及介质。

本发明所采用的技术方案是：

一种基于多任务神经网络的视觉定位导航方法，包括以下步骤：

设计多任务神经网络模型，所述多任务神经网络模型能同时完成目标检测与可通达语义地图构建两个任务；

采用开源数据集和自建数据集对所述多任务神经网络模型进行训练及调优，获得最终的多任务神经网络模型；

采用所述最终的多任务神经网络模型来实现视觉定位导航。

进一步，所述自建数据集通过以下方式获得：

控制AGV小车在室外环境下运动，通过所述AGV小车自身搭建的摄像头获取视频数据，获取所述视频数据中的图像帧并进行保存；

采用标注工具对保存的所述图像帧进行可通达区域标注和检测目标标注，获得自建数据集。

进一步，所述多任务神经网络模型包括全局特征提取基础网络、目标检测任务分支网络和可通达语义地图构建任务分支网络；

所述全局特征提取基础网络的中间卷积输出作为所述可通达语义地图构建任务分支网络的输入，所述全局特征提取基础网络的末端卷积输出作为所述目标检测任务分支网络的输入；

所述全局特征提取基础网络用于提取全局特征，提取到的所述全局特征与所述目标检测任务分支网络和所述可通达语义地图构建任务分支网络共享。

进一步，在所述多任务神经网络模型引入超参数α和β调节模型精度和计算，其中，超参数α用于控制可通达语义地图构建任务分支网络中间特征的深度，超参数β用于控制目标检测任务分支网络中间特征的深度。

进一步，所述目标检测任务分支网络的损失函数为分类损失函数与边框回归损失函数的结合，且通过控制因子c调节比例；

所述目标检测任务分支网络的损失函数的表达式为：

其中，L_conf为分类损失函数，L_loc为边框回归损失函数。

进一步，所述采用开源数据集和自建数据集对所述多任务神经网络模型进行训练及调优，包括：

在预训练阶段，采用网络开源的训练权重作为所述全局特征提取基础网络和所述目标检测任务分支网络的预权重，并将其冷却不进行训练；

采用Cityscapes开源数据集对所述可通达语义地图构建任务分支网络进行预训练，其中，初始迭代优化方法为Adam；

在模型调优阶段，采用自建数据集对所述多任务神经网络模型进行调优训练，采用多任务融合损失函数对所有的网络权重进行联合训练，直至模型收敛。

进一步，所述目标检测任务分支网络借助SSD目标检测设计思想，并引入金字塔结构模型，实现细节特征与抽象特征的融合，所述目标检测任务分支网络用于完成目标分类和检测边框回归。

本发明所采用的另一技术方案是：

一种基于多任务神经网络的视觉定位导航系统，包括：

模型搭建模块，用于设计多任务神经网络模型，所述多任务神经网络模型能同时完成目标检测与可通达语义地图构建两个任务；

模型训练模块，用于采用开源数据集和自建数据集对所述多任务神经网络模型进行训练及调优，获得最终的多任务神经网络模型；

视觉定位模块，用于采用所述最终的多任务神经网络模型来实现视觉定位导航。

本发明所采用的另一技术方案是：

一种基于多任务神经网络的视觉定位导航系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明使用的多任务神经网络模型相较单任务网络可提高卷积神经网络的复用率，减小模型的体积并降低计算时延，能够更准确快速地完成AGV视觉定位导航中的目标检测与可通达地图构建分割任务。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中AGV小车视觉定位导航示意图

图2是本发明实施例中多任务神经网络模型结构。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，领导者-跟随者模式为AGV视觉定位导航任务中常见的导航模式。在此任务中，领导者可以通过自适应控制或人工控制进行移动，生成目标轨迹，而跟随者需利用搭载的视觉传感器实时获取领导者的相对位置及关键点信息，从而实时调整自身跟随状态，保持预设的跟随距离。由于跟随任务的滞后性以及非结构化环境的影响，跟随者需实时构建局部可通达地图，并区分障碍物，在最小化跟随误差的同时进行避障决策，因此该视觉系统须同时具备目标检测和可通达地图构建功能。因为领航-跟随思路的普适性，本说明仅讨论一个跟随者跟随一个领导者的形式。

本实施例提供一种基于多任务神经网络的视觉定位导航方法，包括如下步骤：

S1、AGV在室外环境下人为控制运动，并通过AGV自身搭建的摄像头拍摄视频，再以预设时间间隔(如1s)截取视频中的图像帧，以及对图像帧进行命名和保存。

S2、使用LABELME标注工具对采集的图像进行可通达区域标注和检测目标标注，形成自建数据集，共有135张图片。

S3、设计多任务神经网络模型，如图2所示，该模型由全局特征提取基础网络、目标检测任务分支网络、可通达语义地图构建任务分支网络组成。因为目标检测对特征分辨率要求较低，对特征的抽象程度要求较高，而目标检测可通达语义地图构建任务对特征的要求正好相反，故将全局特征提取基础网络的中间卷积输出作为可通达语义地图构建子网络的输入，将全局特征提取基础网络的末端卷积输出作为目标检测子网络的输入，两者共享全局特征提取基础网络的头部卷积层，以此提高特征的复用率。

作为一种可行的实施方式，多任务神经网络模型的设计步骤如下：

S31、全局特征提取基础网络采用轻量级、低延时的MobileNet作为基础网络，进行全局特征的提取，并通过深度可分离卷积操作替代传统卷积操作减少参数量，提高实时性，设置分辨率因子为192，宽度因子为1，在牺牲可接受范围内精度的前提下进一步有效降低模型的计算量与参数量，该网络输入为224×224×3的图片。其中，MobileNet采用深度可分离卷积操作代替常规卷积，常规卷积分解为串行的深度卷积核1×1的卷积，从而减小模型参数量，缩短模型预测时间。

S32、目标检测任务分支网络借助SSD目标检测设计思想，并引入金字塔结构模型，实现细节特征与抽象特征的融合。该任务需要完成目标分类和检测边框回归。利用3×3的卷积核对基础网络输出的维度为28×28×3的特征进行滑窗估计。每个位置设置3个不同比例和长宽的锚，待检测的类别数为6，则完全卷积神经网络的输出维度为(6+4)×3×28×28＝23520。

S33、可通达语义地图构建任务分支网络参考DeepLab语义分割框架并融合ASPP结构解决信息融合问题。采用多尺度卷积操作和池化操作可获得类金字塔特征，提高信息融合度。

S34、在模型中引入超参数α和β调节模型精度和计算量，其中，α控制可通达语义地图构建分支网络中间特征的深度，设为1，则表示为(28,28,1)，β控制目标检测分支网络中间特征的深度，设为3，则其金字塔各塔层从下到上分别表示为(28,28,3)，(14,14,3)，(7,7,3)，(4,4,3)，(2,2,3)。

假设金字塔l-1层的feature map大小为n^l-1×n^l-1×β，l层的feature map大小为n^l×n^l×β，卷积核大小为f×f×β×β，则卷积操作的计算量为：

通过调节β的大小可以调节模型的计算量，当采用小的β值时，其计算量减少，但同时由于深度的减小，会降低其精度，因此需通过模型调优得到满足要求的β值，对于α同理。

S35、目标检测任务分支网络的损失函数为分类损失函数与边框回归损失函数的结合，控制因子c取为0.5，其损失表达为：

其中L_conf为分类损失，L_loc为边框回归损失。

可通达语义地图构建任务实质为解决稠密二分类问题，故采用交叉熵损失函数，假设分割预测结果为I，分辨率为M×N，对应的真实标签为其损失表达为：

整个网络模型的损失函数为两个子任务损失函数的加权求和，即

L_total＝L_det+L_seg

其中，L_total即为多任务融合损失函数。

S4、对多任务神经网络进行训练，训练分成预训练和模型调优两个阶段。其训练及调优的步骤为：

S41、使用Cityscapes开源数据集中的粗糙分割数据集和自建数据集作为训练数据，对于Cityscapes数据集，将其中的五个类别(地表、路、人行道、停车场、轨道)的像素作为可通达区域，其余为障碍物，以39:1的比例划分为训练集和测试集，共获得20000张图片，其中19,500划分为训练集，其余500张为测试集。对于自建数据集，将其中的100张图片作为模型调优训练集，剩下的作为测试集。

S42、在预训练阶段，使用网络开源的训练权重作为全局特征提取网络和目标检测任务分支网络的预权重，并将其冷却不进行训练，对于可通达语义地图构建任务分支网络，对于可通达语义地图构建任务分支网络，利用Cityscapes数据集进行预训练，初始迭代优化方法为Adam，经过5个Epoch之后改用SGD以0.0003的学习率进行进一步的预训练参数优化。

S43、在模型调优阶段，利用自建数据集进行模型调优训练，采用多任务融合损失函数对所有的网络权重进行联合训练，训练过程中始终保持0.0005的学习率，直至模型收敛。

S44、在离线训练平台上进行模型训练，该平台由硬件部分和软件环境组成，硬件部分为一台搭载两张1080Ti GPU的MiniPC，软件环境为基于Tensorflow后台的Keras深度学习框架。

S45、在AGV实体平台上进行模型在线预测，该平台由一台AGV小车、一个RGB摄像头和一个附带Notebook series 1060Ti GPU的小型工程机组成。RGB摄像头用于采集图像信息，小型工程机用于在线预测。

将满足要求的多任务神经网络模型(即训练和调优完成后的模型)部署在AGV上，进行目标检测与可通达地图构建的效果验证，并进行进一步优化，调试好后可通过AGV搭载的摄像头完成对物体的检测及可通达地图的构建。

综上所述，本实施例提供的方法相较单任务网络可提高卷积神经网络的复用率，减小模型的体积并降低计算时延，更准确快速地完成AGV视觉定位导航中的目标检测与可通达地图构建分割任务。

本实施例还提供一种基于多任务神经网络的视觉定位导航系统，包括：

本实施例的一种基于多任务神经网络的视觉定位导航系统，可执行本发明方法实施例所提供的一种基于多任务神经网络的视觉定位导航方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上所述的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于多任务神经网络的视觉定位导航方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于多任务神经网络的视觉定位导航方法，其特征在于，包括以下步骤：

采用所述最终的多任务神经网络模型来实现视觉定位导航；

所述多任务神经网络模型包括全局特征提取基础网络、目标检测任务分支网络和可通达语义地图构建任务分支网络；

所述全局特征提取基础网络用于提取全局特征，提取到的所述全局特征与所述目标检测任务分支网络和所述可通达语义地图构建任务分支网络共享；

所述采用开源数据集和自建数据集对所述多任务神经网络模型进行训练及调优，包括：

在预训练阶段，采用网络开源的训练权重作为所述全局特征提取基础网络和所述目标检测任务分支网络的预权重，并将全局特征提取基础网络和目标检测任务分支网络冷却不进行训练；

采用Cityscapes开源数据集对所述可通达语义地图构建任务分支网络进行预训练，其中，

初始迭代优化方法为Adam；

在模型调优阶段，采用自建数据集对所述多任务神经网络模型进行调优训练，采用多任务融合损失函数对所有的网络权重进行联合训练，直至模型收敛；

所述目标检测任务分支网络借助SSD目标检测设计思想，并引入金字塔结构模型，实现细节特征与抽象特征的融合，所述目标检测任务分支网络用于完成目标分类和检测边框回归。

2.根据权利要求1所述的一种基于多任务神经网络的视觉定位导航方法，其特征在于，所述自建数据集通过以下方式获得：

3.根据权利要求1所述的一种基于多任务神经网络的视觉定位导航方法，其特征在于，在所述多任务神经网络模型引入超参数α和β调节模型精度和计算，其中，超参数α用于控制可通达语义地图构建任务分支网络中间特征的深度，超参数β用于控制目标检测任务分支网络中间特征的深度。

4.根据权利要求3所述的一种基于多任务神经网络的视觉定位导航方法，其特征在于，所述目标检测任务分支网络的损失函数为分类损失函数与边框回归损失函数的结合，且通过控制因子c调节比例；

所述目标检测任务分支网络的损失函数的表达式为：

其中，L_conf为分类损失函数，L_loc为边框回归损失函数。

5.一种基于多任务神经网络的视觉定位导航系统，其特征在于，包括：

视觉定位模块，用于采用所述最终的多任务神经网络模型来实现视觉定位导航；

初始迭代优化方法为Adam；

6.一种基于多任务神经网络的视觉定位导航系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-4任一项所述的一种基于多任务神经网络的视觉定位导航方法。

7.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-4任一项所述方法。