CN109543519B - 一种用于物体检测的深度分割引导网络 - Google Patents
一种用于物体检测的深度分割引导网络 Download PDFInfo
- Publication number
- CN109543519B CN109543519B CN201811205606.3A CN201811205606A CN109543519B CN 109543519 B CN109543519 B CN 109543519B CN 201811205606 A CN201811205606 A CN 201811205606A CN 109543519 B CN109543519 B CN 109543519B
- Authority
- CN
- China
- Prior art keywords
- convolution
- semantic segmentation
- network
- object detection
- guide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Abstract
本发明涉及一种用于物体检测的深度分割引导网络,包括:确定基础网络:包括多个卷积块,每个卷积块由多个卷积层构成,不同卷积块之间由池化层连接。设计用于提取语义分割上下文信息的深度语义分割引导模块:对于基础网络中每一个卷积块输出的特征图,首先利用卷积层提取语义分割特征,然后利用卷积层提取语义分割的预测逻辑图,最后利用卷积层和sigmoid函数对预测逻辑图进行上采样输出检测引导特征图,语义分割的预测逻辑图在训练过程中由语义分割任务进行监督。利用分割引导模块引导物体检测特征学习。输出物体检测结果。
Description
技术领域
本发明涉及视频监控、无人驾驶等计算机视觉领域中物体检测方法,特别是涉及基于深度学习进行物体检测的方法。
背景技术
物体检测在许多计算机视觉领域具有广泛的应用,如无人驾驶、辅助驾驶、身份认证、人机交互、智能交通、智能搜索等。图1给出了物体检测在辅助驾驶系统和智能搜索系统中的应用示例。图1(a)中,汽车行驶在夜间的公路上。汽车的辅助驾驶系统及时地检测到汽车前方存在的行人,并提醒司机注意减速。图1(b)中,相关系统需要从大量监控视频、图像数据中找到给定图像中的目标人物。因此,智能搜索系统需要首先从大量视频、图像数据中检测到存在的人,然后判断这些人是否与目标人物匹配。
由于丰富的特征表达能力和大数据的出现,深度卷积神经网络在图像分类和物体检测等领域取得了巨大的成功。一般而言,基于深度卷积神经网络的物体检测方法可以分为两类:两阶段的物体检测方法和单阶段的物体检测方法。两阶段的物体检测方法包括候选窗口提取和候选窗口分类等两步。候选窗口提取主要用于从图像中提取可能为物体的检测窗口,候选窗口分类主要用于判断这些候选窗口所属物体的具体类别。2015年Ren等人提出的Faster RCNN是十分具有代表性的两阶段物体检测方法[1]。为了减少网络的总体计算消耗量,Faster RCNN提出让候选窗口提取和候选窗口分类两部分共享同一个基础网络。
尽管基于深度卷积神经的物体检测方法取得了一定的成功,但是当前物体检测方法仍然存在一些问题:(1)复杂场景下的虚检问题。例如,道路两旁的电线杆、广告牌等物体容易被识别为汽车或行人等。(2)物体遮挡时的漏检问题。例如,被汽车遮挡的行人很容易被漏掉。这些问题背后的主要原因在于,物体检测方法没有能够充分利用图像的上下文信息和语义分割信息。
为了增加上下文信息和语义分割信息用于物体检测,近年来研究人员也进行了一些尝试。例如,Lin等人[2]提出将低分辨率、高语义级别的特征图进行上采样,然后同高分辨率、低语义级别的特征图进行融合生成高分辨率、高语义级别的特征图。RON[3]和DSSD[4]也采用类似的自上而下跨连接思想。为了增加语义分割信息,研究人员尝试将语义分割任务和物体检测任务统一在同一个框架下。例如,Brazil等人[5]提出检测和分割相融合的网络,该网络同时输出物体检测的结果和语义分割的结果。类似地,Dvomik等人[6]也提出联合物体检测和语义分割。Mao等人[7]和Zhao等人[8]提出将语义分割的特征图和物体检测的特征图进行融合后进行物体检测,进而提升物体检测的性能。尽管这些方法取得了一定的成功,但是语义分割信息仍然没有被物体检测充分利用。
参考文献:
[1]S.Ren,K.He,R.Girshick,and J.Sun,Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks,IEEE Trans.Pattern Analysisand Machine Intelligence, vol.39,no.6,pp.1137-1149,2017.
[2]T.Lin,P.Dollar,R.Girshick,K.He,B.Hariharan,and S.Belongie,FeaturePyramid Networks for Object Detection,Proc.IEEE Computer Vision andPatternRecognition,2017.
[3]T.Kong,F.Sun,A.Yao,H.Liu,M.Lu,and Y.Chen,RON:Reverse Connectionwith Objectness Prior Networks for Object Detection,Proc.IEEE Computer Visionand Pattern Recognition,2017.
[4]C.-Y.Fu,W.Liu,A.Ranga,A.Tyagi,A.C.Berg,DSSD:Deconvolutional SingleShot Detector,CoRR abs/1701.06659,2017.
[5]G.Brazil,X.Yin,and X.Liu,Illuminating Pedestrians via SimultaneousDetection& Segmentation,Proc.IEEE International Conference ComputerVision,2017.
[6]N.Dvornik,K.Shmelkov,J.Mairal,and C.Schmid,BlitzNet:A Real-TimeDeep Network for Scene Understanding,Proc.IEEE Computer Vision and PatternRecognition,2017.
[7]J.Mao,T.Xiao,Y.Jiang,and Z.Cao,What Can Help Pedestrian Detection?Proc.IEEE ComputerVision andPattern Recognition,2017.
[8]X.Zhao,S.Liang,and Y.Wei,Pseudo Mask Augmented Object Detection,Proc.IEEE International Conference Computer Vision,2018.
发明内容
本发明提出一种深度分割引导网络,并将其用于物体检测。采用本发明所提出的深度分割引导网络能够更好地将语义分割信息融入到物体检测中,进而提升物体检测的性能。具体地,所提出的网络充分利用不同分辨率的分割特征图深度地引导不同卷积层输出的特征图。因此,上下文信息和语义分割信息能够被深度地嵌入到基础网络中,用于提升物体检测的性能。技术方案如下:
一种用于物体检测的深度分割引导网络,包括:
(1)确定基础网络:包括多个卷积块,每个卷积块由多个卷积层构成,不同卷积块之间由池化层连接。
(2)设计用于提取语义分割上下文信息的深度语义分割引导模块:对于基础网络中每一个卷积块输出的特征图,首先利用卷积层提取语义分割特征,然后利用卷积层提取语义分割的预测逻辑图,最后利用卷积层和sigmoid函数对预测逻辑图进行上采样输出检测引导特征图,语义分割的预测逻辑图在训练过程中由语义分割任务进行监督。
(3)利用分割引导模块引导物体检测特征学习:将深度语义分割引导模块输出的检测引导特征图和对应卷积块输出的特征图进行点对点相乘,然后再和对应卷积输出的特征图相加,经过该操作得到的特征图作为下一个卷积块的输入特征图。
(4)输出物体检测结果:给定输入图像,经过上述步骤得到最终输出特征图,该特征图经过物体检测子网络得到特征图每个位置属于物体的概率和位置偏移量,根据相关概率和位置偏移量可以得到输入图像的最终检测结果。
附图说明
图1物体检测的应用示例
图2深度分割引导网络的基本架构
图3本发明所提出方法的流程图
具体实施方式
首先介绍本发明所提出的深度分割引导网络,然后介绍如何将所提出的深度分割引导网络用于物体检测。
(1)深度分割引导网络(DSGN)
图2给出了深度分割引导网络(DSGN)的基础架构。DSGN的基础网络由若干卷积块(即Block1,Block2,Block3,Block4,Block5)构成。给定一张输入图像和基础网络,基于DSGN的物体检测方法能够给出图像中物体的位置以及所属的类别。图2中DSGN从输入图像中检测到两个行人和两辆汽车。
为了将上下文信息和语义分割信息融入到基础网络中,分割引导单元(SB1、SB2、SB3) 分别被添加到基础网络中的不同卷积块(Block3、Block4、Block5)中。具体地,分割引导块SB1被添加到卷积块Block3,分割引导块SB2被添加到卷积块Block4,分割引导块SB3被添加到卷积块Block5。分割引导块一般由三个卷积层构成。第一个卷积层用于提出语义分割的特征图,其输出特征图的通道数为256.第二个卷积层用于生成语义分割的预测逻辑图,其输出特征图的通道数等于物体的类别数加1。第三个卷积层用于输出检测引导特征图,其输出特征图的通道数等于其融合卷积块特征图的通道数,其输出的结果经过Sigmoid函数归一化。
分割引导块输出的引导特征图和对应卷积块输出特征图可以通过点对点像素值相乘进行融合。融合后的特征图再和对应卷积块输出特征图进行点对点的相加作为下一个卷积块的输入。因此,融合后的特征图可以看作是残差特征。在训练过程中,损失函数由物体检测的损失和语义分割的损失相加构成:
L=Ldet+Lseg=(Lcls+Lreg)+(Lseg1+Lseg2+Lseg3)。
其中,Ldet为物体检测的损失函数,Lseg为语义分割的损失函数。
与其他使用语义分割帮助物体检测的方法相比,所提出的方法具有如下一些优势:(a) 所提出的方法深度地将语义分割信息融入到基础网络不同卷积层中,而大多数基于语义分割的方法仅仅在最后一个卷积层同时输出语义分割的结果和物体检测的结果。(b)融合的方式不同。一方面,不同于大部分方法利用语义分割之前的特征图帮助物体检测,所提出的方法利用语义分割的预测逻辑图引导物体检测的特征学习。另一方面,融合的特征图作为残差融入基础网络中,使得物体检测的训练过程更容易收敛。
(2)将所提出的深度分割引导网络(DSGN)应用到物体检测
为了将所提出深度分割引导网络(DSGN)应用到物体检测中,我们需要经过两个步骤:训练过程和测试过程。训练过程旨在学习DSGN的网络参数。利用训练过程中学习的网络参数,测试阶段检测给定图像或视频中存在的物体。下面详细介绍一下所提出方法的训练过程和测试过程。
首先,我们介绍一下具体的训练过程:
步骤1:准备训练图像集(如PSCALVOC),并给出对应图像的物体标注信息,包括物体所属的具体类别和物体标注框的位置坐标。同时,给出对应图像的语义分割标注信息;
步骤2:选择物体检测的基本框架(即FasterRCNN),将DSGN设置为基础网络,将两个全连接层设置为FastRCNN的头网络。将语义分割标签缩放成对应分割引导输出特征逻辑图相同大小。设置训练阶段的相关超参数,包括迭代次数,学习率的变化情况,每次训练的图像块和ROI中正负例的数量等。
步骤3:利用ImageNet预训练模型初始化DSGN中基础网络部分的相关卷积权重。同时,随机初始化DSGN中语义分割引导块的卷积权重。设定训练阶段的损失函数,训练阶段的损失函数为物体检测的损失加上语义分割的损失。基于反向传播算法,所提出的网络进行端到端的训练。
然后,我们介绍一下具体的测试过程:
步骤1:给定测试图像,利用训练得到的DSGN提取图像中可能存在物体的候选检测窗口。对这些候选检测窗口,我们利用FastRCNN对这些候选检测窗口进行分类和进一步位置回归。
步骤2:基于FastRCNN的输出(检测窗口的类别得分和检测窗口的位置坐标),我们利用非极大值抑制(NMS)或软非极大值抑制(softNMS)对输出结果进行合并,得到最终的物体检测结果。
图3 给出了本发明所提出方法的流程图,主要步骤如下:
步骤1:准备物体检测的训练图像集,以及对应图像的物体标注信息(包括物体的具体类别和物体的标注框信息)和语义分割标注信息。
步骤2:设置训练过程的相关超参数,如迭代次数、学习率、每次训练的图像块和ROI 中正负例样本的数量与比例等。
步骤3:初始化DSGN网络和Fast RCNN头网络的权重。设定训练的损失函数,该损失函数包括物体检测损失和语义分割损失。
步骤4:根据反向传播算法,不断更新网络的权重参数。当迭代次数结束时,所学习的权重参数为最终的网络参数。
步骤5:给定测试图像,利用训练得到的DSGN提取图像中可能存在物体的候选检测窗口,并利用Fast RCNN头网络对这些候选检测窗口进行分类和进一步位置回归。
步骤6:分别对每类物体的检测窗口进行进一步的非极大值抑制得到最终的物体检测结果。
Claims (1)
1.一种基于深度分割引导网络的物体检测方法,包括:
(1)构建深度语义分割引导网络,包括
确定基础网络:包括依次设置的第一卷积块、第二卷积块和第三卷积块,不同卷积块之间由池化层连接;
建立用于提取语义分割上下文信息的深度语义分割引导模块:构建第一分割引导单元、第二分割引导单元和第三分割引导单元,此三个分割引导单元分别被添加到基础网络的第一卷积块、第二卷积块和第三卷积块;每个分割引导单元均包括三个卷积层,第一个卷积层用于提出语义分割的特征图;第二个卷积层用于生成语义分割的预测逻辑图,其输出特征图的通道数等于物体的类别数加1;第三个卷积层用于输出检测引导特征图,其输出特征图的通道数等于其融合卷积块特征图的通道数,其输出的结果经过Sigmoid函数归一化;每个分割引导单元输出的引导特征图和对应卷积块输出特征图通过点对点像素值相乘进行融合,融合后的特征图再和对应卷积块输出特征图进行点对点的相加作为下一个卷积块的输入;
(2)给定输入图像,经过深度语义分割引导网络输出特征图,该特征图经过物体检测子网络得到特征图每个位置属于物体的概率和位置偏移量,根据相关概率和位置偏移量得到输入图像的检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811205606.3A CN109543519B (zh) | 2018-10-15 | 2018-10-15 | 一种用于物体检测的深度分割引导网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811205606.3A CN109543519B (zh) | 2018-10-15 | 2018-10-15 | 一种用于物体检测的深度分割引导网络 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543519A CN109543519A (zh) | 2019-03-29 |
CN109543519B true CN109543519B (zh) | 2022-04-15 |
Family
ID=65843862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811205606.3A Active CN109543519B (zh) | 2018-10-15 | 2018-10-15 | 一种用于物体检测的深度分割引导网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543519B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427816B (zh) * | 2019-06-25 | 2023-09-08 | 平安科技(深圳)有限公司 | 物体检测方法、装置、计算机设备和存储介质 |
CN110225368B (zh) * | 2019-06-27 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种视频定位方法、装置及电子设备 |
CN111080666B (zh) * | 2019-12-27 | 2022-07-15 | 浙江大学 | 基于循环卷积的物体分割方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766794A (zh) * | 2017-09-22 | 2018-03-06 | 天津大学 | 一种特征融合系数可学习的图像语义分割方法 |
CN107886117A (zh) * | 2017-10-30 | 2018-04-06 | 国家新闻出版广电总局广播科学研究院 | 基于多特征提取和多任务融合的目标检测算法 |
CN108229575A (zh) * | 2018-01-19 | 2018-06-29 | 百度在线网络技术(北京)有限公司 | 用于检测目标的方法和装置 |
CN108399361A (zh) * | 2018-01-23 | 2018-08-14 | 南京邮电大学 | 一种基于卷积神经网络cnn和语义分割的行人检测方法 |
CN108446662A (zh) * | 2018-04-02 | 2018-08-24 | 电子科技大学 | 一种基于语义分割信息的行人检测方法 |
CN108491854A (zh) * | 2018-02-05 | 2018-09-04 | 西安电子科技大学 | 基于sf-rcnn的光学遥感图像目标检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10635927B2 (en) * | 2017-03-06 | 2020-04-28 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
US10147193B2 (en) * | 2017-03-10 | 2018-12-04 | TuSimple | System and method for semantic segmentation using hybrid dilated convolution (HDC) |
-
2018
- 2018-10-15 CN CN201811205606.3A patent/CN109543519B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766794A (zh) * | 2017-09-22 | 2018-03-06 | 天津大学 | 一种特征融合系数可学习的图像语义分割方法 |
CN107886117A (zh) * | 2017-10-30 | 2018-04-06 | 国家新闻出版广电总局广播科学研究院 | 基于多特征提取和多任务融合的目标检测算法 |
CN108229575A (zh) * | 2018-01-19 | 2018-06-29 | 百度在线网络技术(北京)有限公司 | 用于检测目标的方法和装置 |
CN108399361A (zh) * | 2018-01-23 | 2018-08-14 | 南京邮电大学 | 一种基于卷积神经网络cnn和语义分割的行人检测方法 |
CN108491854A (zh) * | 2018-02-05 | 2018-09-04 | 西安电子科技大学 | 基于sf-rcnn的光学遥感图像目标检测方法 |
CN108446662A (zh) * | 2018-04-02 | 2018-08-24 | 电子科技大学 | 一种基于语义分割信息的行人检测方法 |
Non-Patent Citations (7)
Title |
---|
"BlitzNet:A Real-Time Deep Network for Scene Understanding";Nikita Dvornik等;《2017 IEEE International Conference on Computer Vision (ICCV)》;20171225;第4174-4182页 * |
"Describing the scene as a whole: Joint object detection, scene classification and semantic segmentation";Jian Yao等;《2012 IEEE Conference on Computer Vision and Pattern Recognition》;20120726;第702-709页 * |
"Driving Scene Perception Network: Real-Time Joint Detection, Depth Estimation and Semantic Segmentation";Liangfu Chen等;《2018 IEEE Winter Conference on Applications of Computer Vision (WACV)》;20180507;第1283-1291页 * |
"Multinet:Real-time joint semantic reasoning for autonomous driving";Marvin Teichmann等;《https://arxiv.org/abs/1612.07695》;20180510;第1-10页 * |
"What Can Help Pedestrian Detection?";Jiayuan Mao等;《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20171109;第6034-6043页 * |
"基于可分离残差模块的精确实时语义分割";路文超等;《http://kns.cnki.net/kcms/detail/31.1690.TN.20181007.2257.026.html》;20181007;第1-19页 * |
"由于深度卷积神经网络的室外场景理解研究";文俊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170415;I138-2149 * |
Also Published As
Publication number | Publication date |
---|---|
CN109543519A (zh) | 2019-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Weakly supervised adversarial domain adaptation for semantic segmentation in urban scenes | |
Zhang et al. | Cross-modality interactive attention network for multispectral pedestrian detection | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
Wang et al. | Neuron linear transformation: Modeling the domain shift for crowd counting | |
CN111915592B (zh) | 基于深度学习的遥感图像云检测方法 | |
CN109902806A (zh) | 基于卷积神经网络的噪声图像目标边界框确定方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN109543672B (zh) | 基于稠密特征金字塔网络的物体检测方法 | |
CN109543519B (zh) | 一种用于物体检测的深度分割引导网络 | |
CN111104903A (zh) | 一种深度感知交通场景多目标检测方法和系统 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
Liu et al. | Towards accurate tiny vehicle detection in complex scenes | |
CN112990065B (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN112801027A (zh) | 基于事件相机的车辆目标检测方法 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN114220154A (zh) | 一种基于深度学习的微表情特征提取与识别方法 | |
Huang et al. | Out-of-distribution detection for lidar-based 3d object detection | |
Lu et al. | Mfnet: Multi-feature fusion network for real-time semantic segmentation in road scenes | |
Pham | Semantic road segmentation using deep learning | |
Zhou et al. | A novel object detection method in city aerial image based on deformable convolutional networks | |
CN109685118A (zh) | 一种基于卷积神经网络特征的弱分类器Adaboost车辆检测方法 | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
Wang et al. | You only look at once for real-time and generic multi-task | |
CN116342894B (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
Kumar et al. | Improved YOLOv4 approach: a real time occluded vehicle detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |