CN109543519B

CN109543519B - 一种用于物体检测的深度分割引导网络

Info

Publication number: CN109543519B
Application number: CN201811205606.3A
Authority: CN
Inventors: 庞彦伟; 曹家乐
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2022-04-15
Anticipated expiration: 2038-10-15
Also published as: CN109543519A

Abstract

本发明涉及一种用于物体检测的深度分割引导网络，包括：确定基础网络：包括多个卷积块，每个卷积块由多个卷积层构成，不同卷积块之间由池化层连接。设计用于提取语义分割上下文信息的深度语义分割引导模块：对于基础网络中每一个卷积块输出的特征图，首先利用卷积层提取语义分割特征，然后利用卷积层提取语义分割的预测逻辑图，最后利用卷积层和sigmoid函数对预测逻辑图进行上采样输出检测引导特征图，语义分割的预测逻辑图在训练过程中由语义分割任务进行监督。利用分割引导模块引导物体检测特征学习。输出物体检测结果。

Description

一种用于物体检测的深度分割引导网络

技术领域

本发明涉及视频监控、无人驾驶等计算机视觉领域中物体检测方法，特别是涉及基于深度学习进行物体检测的方法。

背景技术

物体检测在许多计算机视觉领域具有广泛的应用，如无人驾驶、辅助驾驶、身份认证、人机交互、智能交通、智能搜索等。图1给出了物体检测在辅助驾驶系统和智能搜索系统中的应用示例。图1(a)中，汽车行驶在夜间的公路上。汽车的辅助驾驶系统及时地检测到汽车前方存在的行人，并提醒司机注意减速。图1(b)中，相关系统需要从大量监控视频、图像数据中找到给定图像中的目标人物。因此，智能搜索系统需要首先从大量视频、图像数据中检测到存在的人，然后判断这些人是否与目标人物匹配。

由于丰富的特征表达能力和大数据的出现，深度卷积神经网络在图像分类和物体检测等领域取得了巨大的成功。一般而言，基于深度卷积神经网络的物体检测方法可以分为两类：两阶段的物体检测方法和单阶段的物体检测方法。两阶段的物体检测方法包括候选窗口提取和候选窗口分类等两步。候选窗口提取主要用于从图像中提取可能为物体的检测窗口，候选窗口分类主要用于判断这些候选窗口所属物体的具体类别。2015年Ren等人提出的Faster RCNN是十分具有代表性的两阶段物体检测方法[1]。为了减少网络的总体计算消耗量，Faster RCNN提出让候选窗口提取和候选窗口分类两部分共享同一个基础网络。

尽管基于深度卷积神经的物体检测方法取得了一定的成功，但是当前物体检测方法仍然存在一些问题：(1)复杂场景下的虚检问题。例如，道路两旁的电线杆、广告牌等物体容易被识别为汽车或行人等。(2)物体遮挡时的漏检问题。例如，被汽车遮挡的行人很容易被漏掉。这些问题背后的主要原因在于，物体检测方法没有能够充分利用图像的上下文信息和语义分割信息。

为了增加上下文信息和语义分割信息用于物体检测，近年来研究人员也进行了一些尝试。例如，Lin等人[2]提出将低分辨率、高语义级别的特征图进行上采样，然后同高分辨率、低语义级别的特征图进行融合生成高分辨率、高语义级别的特征图。RON[3]和DSSD[4]也采用类似的自上而下跨连接思想。为了增加语义分割信息，研究人员尝试将语义分割任务和物体检测任务统一在同一个框架下。例如，Brazil等人[5]提出检测和分割相融合的网络，该网络同时输出物体检测的结果和语义分割的结果。类似地，Dvomik等人[6]也提出联合物体检测和语义分割。Mao等人[7]和Zhao等人[8]提出将语义分割的特征图和物体检测的特征图进行融合后进行物体检测，进而提升物体检测的性能。尽管这些方法取得了一定的成功，但是语义分割信息仍然没有被物体检测充分利用。

参考文献：

[1]S.Ren,K.He,R.Girshick,and J.Sun,Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks,IEEE Trans.Pattern Analysisand Machine Intelligence, vol.39,no.6,pp.1137-1149,2017.

[2]T.Lin,P.Dollar,R.Girshick,K.He,B.Hariharan,and S.Belongie,FeaturePyramid Networks for Object Detection,Proc.IEEE Computer Vision andPatternRecognition,2017.

[3]T.Kong,F.Sun,A.Yao,H.Liu,M.Lu,and Y.Chen,RON:Reverse Connectionwith Objectness Prior Networks for Object Detection,Proc.IEEE Computer Visionand Pattern Recognition,2017.

[4]C.-Y.Fu,W.Liu,A.Ranga,A.Tyagi,A.C.Berg,DSSD:Deconvolutional SingleShot Detector,CoRR abs/1701.06659,2017.

[5]G.Brazil,X.Yin,and X.Liu,Illuminating Pedestrians via SimultaneousDetection& Segmentation,Proc.IEEE International Conference ComputerVision,2017.

[6]N.Dvornik,K.Shmelkov,J.Mairal,and C.Schmid,BlitzNet:A Real-TimeDeep Network for Scene Understanding,Proc.IEEE Computer Vision and PatternRecognition,2017.

[7]J.Mao,T.Xiao,Y.Jiang,and Z.Cao,What Can Help Pedestrian Detection？Proc.IEEE ComputerVision andPattern Recognition,2017.

[8]X.Zhao,S.Liang,and Y.Wei,Pseudo Mask Augmented Object Detection,Proc.IEEE International Conference Computer Vision,2018.

发明内容

本发明提出一种深度分割引导网络，并将其用于物体检测。采用本发明所提出的深度分割引导网络能够更好地将语义分割信息融入到物体检测中，进而提升物体检测的性能。具体地，所提出的网络充分利用不同分辨率的分割特征图深度地引导不同卷积层输出的特征图。因此，上下文信息和语义分割信息能够被深度地嵌入到基础网络中，用于提升物体检测的性能。技术方案如下：

一种用于物体检测的深度分割引导网络，包括：

(1)确定基础网络：包括多个卷积块，每个卷积块由多个卷积层构成，不同卷积块之间由池化层连接。

(2)设计用于提取语义分割上下文信息的深度语义分割引导模块：对于基础网络中每一个卷积块输出的特征图，首先利用卷积层提取语义分割特征，然后利用卷积层提取语义分割的预测逻辑图，最后利用卷积层和sigmoid函数对预测逻辑图进行上采样输出检测引导特征图，语义分割的预测逻辑图在训练过程中由语义分割任务进行监督。

(3)利用分割引导模块引导物体检测特征学习：将深度语义分割引导模块输出的检测引导特征图和对应卷积块输出的特征图进行点对点相乘，然后再和对应卷积输出的特征图相加，经过该操作得到的特征图作为下一个卷积块的输入特征图。

(4)输出物体检测结果：给定输入图像，经过上述步骤得到最终输出特征图，该特征图经过物体检测子网络得到特征图每个位置属于物体的概率和位置偏移量，根据相关概率和位置偏移量可以得到输入图像的最终检测结果。

附图说明

图1物体检测的应用示例

图2深度分割引导网络的基本架构

图3本发明所提出方法的流程图

具体实施方式

首先介绍本发明所提出的深度分割引导网络，然后介绍如何将所提出的深度分割引导网络用于物体检测。

(1)深度分割引导网络(DSGN)

图2给出了深度分割引导网络(DSGN)的基础架构。DSGN的基础网络由若干卷积块(即Block1,Block2,Block3,Block4,Block5)构成。给定一张输入图像和基础网络，基于DSGN的物体检测方法能够给出图像中物体的位置以及所属的类别。图2中DSGN从输入图像中检测到两个行人和两辆汽车。

为了将上下文信息和语义分割信息融入到基础网络中，分割引导单元(SB1、SB2、SB3) 分别被添加到基础网络中的不同卷积块(Block3、Block4、Block5)中。具体地，分割引导块SB1被添加到卷积块Block3，分割引导块SB2被添加到卷积块Block4，分割引导块SB3被添加到卷积块Block5。分割引导块一般由三个卷积层构成。第一个卷积层用于提出语义分割的特征图，其输出特征图的通道数为256.第二个卷积层用于生成语义分割的预测逻辑图，其输出特征图的通道数等于物体的类别数加1。第三个卷积层用于输出检测引导特征图，其输出特征图的通道数等于其融合卷积块特征图的通道数，其输出的结果经过Sigmoid函数归一化。

分割引导块输出的引导特征图和对应卷积块输出特征图可以通过点对点像素值相乘进行融合。融合后的特征图再和对应卷积块输出特征图进行点对点的相加作为下一个卷积块的输入。因此，融合后的特征图可以看作是残差特征。在训练过程中，损失函数由物体检测的损失和语义分割的损失相加构成：

L＝L_det+L_seg＝(L_cls+L_reg)+(L_seg1+L_seg2+L_seg3)。

其中，L_det为物体检测的损失函数，L_seg为语义分割的损失函数。

与其他使用语义分割帮助物体检测的方法相比，所提出的方法具有如下一些优势：(a) 所提出的方法深度地将语义分割信息融入到基础网络不同卷积层中，而大多数基于语义分割的方法仅仅在最后一个卷积层同时输出语义分割的结果和物体检测的结果。(b)融合的方式不同。一方面，不同于大部分方法利用语义分割之前的特征图帮助物体检测，所提出的方法利用语义分割的预测逻辑图引导物体检测的特征学习。另一方面，融合的特征图作为残差融入基础网络中，使得物体检测的训练过程更容易收敛。

(2)将所提出的深度分割引导网络(DSGN)应用到物体检测

为了将所提出深度分割引导网络(DSGN)应用到物体检测中，我们需要经过两个步骤：训练过程和测试过程。训练过程旨在学习DSGN的网络参数。利用训练过程中学习的网络参数，测试阶段检测给定图像或视频中存在的物体。下面详细介绍一下所提出方法的训练过程和测试过程。

首先，我们介绍一下具体的训练过程：

步骤1：准备训练图像集(如PSCALVOC)，并给出对应图像的物体标注信息，包括物体所属的具体类别和物体标注框的位置坐标。同时，给出对应图像的语义分割标注信息；

步骤2：选择物体检测的基本框架(即FasterRCNN)，将DSGN设置为基础网络，将两个全连接层设置为FastRCNN的头网络。将语义分割标签缩放成对应分割引导输出特征逻辑图相同大小。设置训练阶段的相关超参数，包括迭代次数，学习率的变化情况，每次训练的图像块和ROI中正负例的数量等。

步骤3：利用ImageNet预训练模型初始化DSGN中基础网络部分的相关卷积权重。同时，随机初始化DSGN中语义分割引导块的卷积权重。设定训练阶段的损失函数，训练阶段的损失函数为物体检测的损失加上语义分割的损失。基于反向传播算法，所提出的网络进行端到端的训练。

然后，我们介绍一下具体的测试过程：

步骤1：给定测试图像，利用训练得到的DSGN提取图像中可能存在物体的候选检测窗口。对这些候选检测窗口，我们利用FastRCNN对这些候选检测窗口进行分类和进一步位置回归。

步骤2：基于FastRCNN的输出(检测窗口的类别得分和检测窗口的位置坐标)，我们利用非极大值抑制(NMS)或软非极大值抑制(softNMS)对输出结果进行合并，得到最终的物体检测结果。

图3 给出了本发明所提出方法的流程图，主要步骤如下：

步骤1：准备物体检测的训练图像集，以及对应图像的物体标注信息(包括物体的具体类别和物体的标注框信息)和语义分割标注信息。

步骤2：设置训练过程的相关超参数，如迭代次数、学习率、每次训练的图像块和ROI 中正负例样本的数量与比例等。

步骤3：初始化DSGN网络和Fast RCNN头网络的权重。设定训练的损失函数，该损失函数包括物体检测损失和语义分割损失。

步骤4：根据反向传播算法，不断更新网络的权重参数。当迭代次数结束时，所学习的权重参数为最终的网络参数。

步骤5：给定测试图像，利用训练得到的DSGN提取图像中可能存在物体的候选检测窗口，并利用Fast RCNN头网络对这些候选检测窗口进行分类和进一步位置回归。

步骤6：分别对每类物体的检测窗口进行进一步的非极大值抑制得到最终的物体检测结果。

Claims

1.一种基于深度分割引导网络的物体检测方法，包括：

（1）构建深度语义分割引导网络，包括

确定基础网络：包括依次设置的第一卷积块、第二卷积块和第三卷积块，不同卷积块之间由池化层连接；

建立用于提取语义分割上下文信息的深度语义分割引导模块：构建第一分割引导单元、第二分割引导单元和第三分割引导单元，此三个分割引导单元分别被添加到基础网络的第一卷积块、第二卷积块和第三卷积块；每个分割引导单元均包括三个卷积层，第一个卷积层用于提出语义分割的特征图；第二个卷积层用于生成语义分割的预测逻辑图，其输出特征图的通道数等于物体的类别数加1；第三个卷积层用于输出检测引导特征图，其输出特征图的通道数等于其融合卷积块特征图的通道数，其输出的结果经过Sigmoid函数归一化；每个分割引导单元输出的引导特征图和对应卷积块输出特征图通过点对点像素值相乘进行融合，融合后的特征图再和对应卷积块输出特征图进行点对点的相加作为下一个卷积块的输入；

（2）给定输入图像，经过深度语义分割引导网络输出特征图，该特征图经过物体检测子网络得到特征图每个位置属于物体的概率和位置偏移量，根据相关概率和位置偏移量得到输入图像的检测结果。