CN110390314B

CN110390314B - 一种视觉感知方法及设备

Info

Publication number: CN110390314B
Application number: CN201910691496.4A
Authority: CN
Inventors: 陈海波
Original assignee: Deep Blue Technology Shanghai Co Ltd
Current assignee: Shenlan Robot Shanghai Co ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2022-02-15
Anticipated expiration: 2039-07-29
Also published as: CN110390314A

Abstract

本发明公开了一种视觉感知方法及设备，用于减少自动驾驶视觉感知系统的运行的时间、减少占用资源，提升系统性能。该方法包括：通过一个特征提取子网络提取目标图像特征，输出包含所述目标图像特征的特征图；选取设定数量的特征图同时进行目标检测识别和图像语义分割，其中，利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别，利用语义分割子网络对所述特征图进行图像语义分割；通过目标检测识别结果确定目标图像中的目标位置及类别，通过图像语义分割结果确定目标图像中分割的不同区域的类别。

Description

一种视觉感知方法及设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种视觉感知方法及设备。

背景技术

自动驾驶视觉感知系统包括处理各类不同的任务，最主要的任务是理解车辆道路场景，诸如车辆、行人、障碍物、道路、车道线、绿化等，主要包括用于目标检测识别和图像语义分割两类任务，自动驾驶视觉感知系统可以同时运行目标检测识别和图像语义分割任务，得到多种类型的结构化数据。

现有技术分别利用不同的基于深度学习的神经网络模型进行目标检测识别及图像语义分割，通过使用单目或者双目摄像头获取目标图像，利用目标检测网络模型进行目标检测识别，利用分割网络模型进行图像语义分割，其中，目标检测网络模型用于确定获取的目标图像中是否存在预定义的目标，如果存在则计算出该目标在目标图像中的位置，即确定该目标图像的类别及位置，分割网络模型通过对每个像素点进行分类的方式，对多类物体包括行人、车辆、道路、绿化等进行分类。

但利用不同的神经网络模型分别进行目标检测识别任务和图像语义分割任务，这种实现方式对自动驾驶视觉感知系统的资源占用的要求较高，运行时间较长，同步性能较差。

发明内容

本发明提供一种视觉感知方法及设备，利用目标检测识别及图像语义分割这两个不同任务共享图像特征的方法，通过一个网络模型同时实现目标检测和路面分割任务，减少了自动驾驶视觉感知系统的运行的时间、减少了占用资源，提升了系统性能。

第一方面，本发明提供一种视觉感知方法，该方法包括：

通过一个特征提取子网络提取目标图像特征，输出包含所述目标图像特征的特征图；

选取设定数量的特征图同时进行目标检测识别和图像语义分割，其中，利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别，利用语义分割子网络对所述特征图进行图像语义分割；

通过目标检测识别结果确定目标图像中的目标位置及类别，通过图像语义分割结果确定目标图像中分割的不同区域的类别。

作为一种可选的实施方式，所述特征提取子网络的结构为深度可分离卷积网络结构。

作为一种可选的实施方式，通过目标检测识别结果确定目标图像中的目标位置及类别，包括：

通过目标检测识别在所述特征图上通过检测框标注目标图像中的预设目标，确定目标图像中目标的类别及位置。

作为一种可选的实施方式，利用语义分割子网络对所述特征图进行图像语义分割，包括：

对选取的设定数量的特征图，按特征提取子网络输出的特征图从后到前的顺序依次进行上采样，识别特征图中的像素点并标注每个像素点的分类标签；

将识别后的设定数量的特征图进行加权叠加，通过卷积核反卷积操作将加权叠加后的特征图的尺寸恢复为所述目标图像的尺寸；

根据每个像素点的分类标签确定属于不同区域的像素点集，对所述特征图进行图像语义分割。

作为一种可选的实施方式，所述上采样包括以下任一种：

最近邻插值、双线性插值、反卷积。

作为一种可选的实施方式，所述目标图像为RGB三色通道图像，所述分割的不同区域的类别包括行驶区域类别和非行驶区域类别。

作为一种可选的实施方式，所述深度可分离卷积网络结构为移动视觉神经网络MobileNet2结构。

作为一种可选的实施方式，通过一个特征提取子网络提取目标图像特征，输出包含所述目标图像特征的特征图，包括：

通过深度可分离卷积网络的多个输入通道接收目标图像数据；

利用预设深度卷积核遍历卷积每个输入通道的目标图像数据，得到对应多个输入通道的第一特征图；

利用N个尺寸为1×1的卷积核分别遍历卷积所有第一特征图，输出每个第一特征图对应的多个第二特征图，所述N为正整数。

第二方面，本发明提供一种视觉感知设备，该设备包括：处理器以及存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行如下步骤：

作为一种可选的实施方式，所述处理器具体用于：

作为一种可选的实施方式，所述上采样包括以下任一种：

最近邻插值、双线性插值、反卷积。

作为一种可选的实施方式，所述处理器具体用于：

第三方面，本发明提供另一种视觉感知设备，该设备包括：特征提取单元、目标检测语义分割单元、确定目标及分割区域单元，其中：

特征提取单元，用于通过一个特征提取子网络提取目标图像特征，输出包含所述目标图像特征的特征图；

目标检测语义分割单元，用于选取设定数量的特征图同时进行目标检测识别和图像语义分割，其中，利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别，利用语义分割子网络对所述特征图进行图像语义分割；

确定目标及分割区域单元，用于通过目标检测识别结果确定目标图像中的目标位置及类别，通过图像语义分割结果确定目标图像中分割的不同区域的类别。

作为一种可选的实施方式，所述确定目标及分割区域单元具体用于：

作为一种可选的实施方式，所述目标检测语义分割单元具体用于：

作为一种可选的实施方式，所述上采样包括以下任一种：

最近邻插值、双线性插值、反卷积。

作为一种可选的实施方式，所述特征提取单元具体用于：

第四方面，本发明提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述方法的步骤。

本发明提供的一种视觉感知方法及设备，具有以下有益效果：

由于对获取的目标图像进行目标检测和路面分割存在需要利用相同图像特征的情况，基于此，本发明利用一个网络模型中的特征提取子网络，为目标检测识别及图像语义分割提供共享图像特征，同时实现目标检测和路面分割两个不同的任务，减少了网络模型运行的时间、减少了占用资源，提升了模型性能。

附图说明

图1为本发明实施例提供的一种视觉感知方法流程图；

图2为本发明实施例提供的一种视觉感知设备示意图；

图3为本发明实施例提供的另一种视觉感知设备示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

本实施例提供了一种视觉感知方法，可以应用于自动驾驶视觉感知系统，主要的任务是理解车辆道路场景，采用的技术手段主要通过目标检测识别及图像语义分割。

本实施例提供的方法，利用一个神经网络模型同时进行目标检测识别任务和图像语义分割任务，本实施例中的神经网络模型为基于深度学习的神经网络模型，基本的组织架构由四种层构成，所述四种层分别为卷积层、激活层、池化层和全连接层，其中，卷积层主要用于对目标图像进行特征提取，激活层主要用于保证所述神经网络模型能够拟合非线性变换，池化层主要用于提高卷积核的感受野，使得高层卷积核能够覆盖到尽可能大的感受野，全链接层主要用于数据维度的变换。在神经网络模型中，上述四种层可以作为一个网络单元层，本实施例中的神经网络模型中包括多个所述网络单元层。

如图1所示，本实施例中的神经网络模型包括三个子网络，每个子网络中包括多个所述网络单元层，三个子网络分别是特征提取子网络、检测子网络以及语义分割子网络，其中，检测子网络和语义分割子网络共用同一个特征提取子网络，各个子网络的实施流程如下：

步骤100、通过一个特征提取子网络提取目标图像特征，输出包含所述目标图像特征的特征图。

特征提取子网络主要通过卷积层来提取目标图像特征，卷积层主要用于提取目标图像特征信息，其中，越靠近特征提取子网络前端的卷积层(靠近原始目标图像数据输入端)提取的特征信息越为具象，越靠近特征提取子网络后端的卷积层(靠近特征提取子网络输出端)提取的特征信息越为抽象。

通过多个卷积层对目标图像数据进行多次卷积运算，提取目标图像特征，输出包含所述目标图像特征的多个特征图。

为了减少卷积层提取的特征参数的数量，从而减少上述神经网络模型中的参数更便于计算，本实施中的特征提取子网络的结构可以为深度可分离卷积网络结构。具体的，采用如下方式通过深度可分离卷积网络提取目标图像特征，并输出包含所述目标图像特征的特征图：

本实施例中目标图像数据为RGB三色通道图像，通过深度可分离卷积网络的三个输入通道接收所述三色通道图像数据；利用一个尺寸3×3的预设深度卷积核遍历卷积每个输入通道的目标图像数据，得到对应多个输入通道的第一特征图；利用N个尺寸为1×1的卷积核分别遍历卷积所有第一特征图，输出每个第一特征图对应的多个第二特征图。

其中，本实施例中卷积层提取的特征参数的总数量计算公式如下：

参数的总数量＝输入通道数×卷积核个数×卷积核尺寸；

即本实施例中参数的总数量＝3×1×3×3+3×N×1×1。

步骤101、选取设定数量的特征图同时进行目标检测识别和图像语义分割，其中，利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别，利用语义分割子网络对所述特征图进行图像语义分割。

由于目标检测识别及图像语义分割都需要对目标图像本身的特征进行提取，因此，目标检测识别及图像语义分割都可以共用同一个提取特征子网络，通过特征提取子网络输出包含所述目标图像特征的多个特征图后，按预设规则从所述多个特征图中选取设定数量的多个特征图，其中，可以是按特征图从大到小的顺序依次选取设定数量的特征图，也可以是按特征图从大到小的顺序间隔选取设定数量的特征图，具体如何选取特征图，选取的特征图的具体尺寸本实施例不作过多限定。

本实施例中利用SSD网络模型中的检测子网络对所述选取的设定数量的特征图进行目标检测识别，利用该检测子网络能够识别出预设目标，其中，本实施例中的预设目标主要包括如下任一或任多种：

机动车、非机动车、生命体、交通相关的标志。

本实施例中利用语义分割子网络对所述选取的设定数量的特征图进行图像语义分割，其中，图像语义分割是对获取的目标图像上每个像素点进行分类，本实施例的目标图像主要包括车辆道路场景图，一张车辆道路场景图中可能包含多类不同的物体，如道路、绿化、行人、小型车、大型车、建筑物、指示牌、电线杆等。

对于自动驾驶视觉感知系统而言，决策层需要的信息为目标图像上不同位置分别是什么物体，可行驶的区域范围有哪些，因此，为了解决该问题，本实施例除了利用SSD网络模型中的检测子网络对目标图像进行目标检测识别外，还利用语义分割子网络根据特征提取子网络输出的包含所述目标图像特征的特征图，对目标图像的每个像素点进行分类，并通过标签的形式来说明每个像素点属于哪类物体，确定目标图像中分割的不同区域的类别，进而分割出可行驶区域以及车辆行人，从而使得决策层直接得到前方所有障碍物信息以及可行驶区域信息。

作为一种可选的实施方式，利用语义分割子网络对所述特征图进行图像语义分割的具体实施方式如下：

其中，所述上采样包括以下任一种：最近邻插值、双线性插值、反卷积。

步骤102、通过目标检测识别结果确定目标图像中的目标位置及类别，通过图像语义分割结果确定目标图像中分割的不同区域的类别。

所述目标检测识别结果包括目标图像中目标的类别及位置，利用上述SSD中的检测子网络对所有选取的设定数量的特征图进行检测后，在所有选取的设定数量的特征图上通过检测框标注目标图像中的预设目标，最终识别并标注出目标图像中的预设目标，确定目标图像中的目标位置及类别。

具体的实施方式如下：

通过检测子网络中的检测框(Bounding Box)自动识别并标注每一个设定数量的特征图中目标的位置，然后将所有的设定数量的特征图中目标的位置及分类进行回归处理，最后利用回归后的检测框标注目标图像中的预设目标，确定输入本实施例中特征提取子网络的目标图像中的预设目标的位置及类别，形成相关数据文档用于自动驾驶视觉感知系统中的决策层进行相关处理。

本实施例中通过目标检测识别结果标注目标图像中预设目标的同时，还可以通过图像语义分割结果确定目标图像中分割的不同区域的类别，其中，所述分割的不同区域的类别包括行驶区域类别和非行驶区域类别。

实施例2

基于相同的发明构思，本发明实施例还提供了一种视觉感知设备，由于该设备即是本发明实施例中的方法中的设备，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图2所示，该设备包括：处理器200以及存储器201，其中，所述存储器201存储有程序代码，当所述程序代码被所述处理器200执行时，使得所述处理器200执行如下步骤：

作为一种可选的实施方式，所述处理器200具体用于：

作为一种可选的实施方式，所述上采样包括以下任一种：

最近邻插值、双线性插值、反卷积。

作为一种可选的实施方式，所述处理器200具体用于：

实施例3

基于相同的发明构思，本发明实施例还提供了另一种视觉感知设备，由于该设备即是本发明实施例中的方法中的设备，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图3所示，该设备包括：特征提取单元300、目标检测语义分割单元301、确定目标及分割区域单元302，其中：

特征提取单元300，用于通过一个特征提取子网络提取目标图像特征，输出包含所述目标图像特征的特征图；

目标检测语义分割单元301，用于选取设定数量的特征图同时进行目标检测识别和图像语义分割，其中，利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别，利用语义分割子网络对所述特征图进行图像语义分割；

确定目标及分割区域单元302，用于通过目标检测识别结果确定目标图像中的目标位置及类别，通过图像语义分割结果确定目标图像中分割的不同区域的类别。

作为一种可选的实施方式，所述确定目标及分割区域单元302具体用于：

作为一种可选的实施方式，所述目标检测语义分割单元301具体用于：

作为一种可选的实施方式，所述上采样包括以下任一种：

最近邻插值、双线性插值、反卷积。

作为一种可选的实施方式，所述特征提取单元300具体用于：

实施例4

本发明提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视觉感知方法，其特征在于，该方法包括：

选取设定数量的特征图同时进行目标检测识别和图像语义分割，其中，利用单步多框检测SSD网络模型中的检测子网络对所述特征图进行目标检测识别，利用语义分割子网络对所述特征图进行图像语义分割；其中，利用语义分割子网络对所述特征图进行图像语义分割，包括：对选取的设定数量的特征图，按特征提取子网络输出的特征图从后到前的顺序依次进行上采样，识别特征图中的像素点并标注每个像素点的分类标签；将识别后的设定数量的特征图进行加权叠加，通过卷积核反卷积操作将加权叠加后的特征图的尺寸恢复为所述目标图像的尺寸；根据每个像素点的分类标签确定属于不同区域的像素点集，对所述特征图进行图像语义分割；

通过目标检测识别结果确定目标图像中的目标位置及类别，通过图像语义分割结果确定目标图像中分割的不同区域的类别；所述分割的不同区域的类别包括行驶区域类别和非行驶区域类别；所述目标主要包括如下任一或任多种：机动车、非机动车、生命体、交通相关的标志。

2.根据权利要求1所述的方法，其特征在于，所述特征提取子网络的结构为深度可分离卷积网络结构。

3.根据权利要求1所述的方法，其特征在于，通过目标检测识别结果确定目标图像中的目标位置及类别，包括：

4.根据权利要求1所述的方法，其特征在于，所述上采样包括以下任一种：

最近邻插值、双线性插值、反卷积。

5.根据权利要求1所述的方法，其特征在于，所述目标图像为RGB三色通道图像。

6.根据权利要求2所述的方法，其特征在于，所述深度可分离卷积网络结构为移动视觉神经网络MobileNet2结构。

7.根据权利要求1所述的方法，其特征在于，通过一个特征提取子网络提取目标图像特征，输出包含所述目标图像特征的特征图，包括：

8.一种视觉感知设备，其特征在于，该设备包括：处理器以及存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～7任一所述方法的步骤。

9.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7任一所述方法的步骤。