CN111046917B - 基于深度神经网络的对象性增强目标检测方法 - Google Patents

基于深度神经网络的对象性增强目标检测方法 Download PDF

Info

Publication number
CN111046917B
CN111046917B CN201911143997.5A CN201911143997A CN111046917B CN 111046917 B CN111046917 B CN 111046917B CN 201911143997 A CN201911143997 A CN 201911143997A CN 111046917 B CN111046917 B CN 111046917B
Authority
CN
China
Prior art keywords
target detection
network
target
ssd
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911143997.5A
Other languages
English (en)
Other versions
CN111046917A (zh
Inventor
韩静
张毅
柏连发
王灿龙
陈霄宇
黄永豪
王其鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201911143997.5A priority Critical patent/CN111046917B/zh
Publication of CN111046917A publication Critical patent/CN111046917A/zh
Application granted granted Critical
Publication of CN111046917B publication Critical patent/CN111046917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度神经网络的对象性增强目标检测方法,基于单阶段目标检测网络,在浅层网络使用多尺度融合模块增强特征多尺度信息,并在单阶段目标检测网络中加入对象性估计模块为目标检测的所有预测特征提供对象性先验知识,构建基于深度神经网络的目标检测模型;将训练图像数据输入目标检测模型,利用反向传播算法更新目标检测模型网络参数,直至损失函数值变化量小于设定阈值,得到训练好的目标检测模型;将测试图像数据输入训练好的目标检测模型,得到目标检测结果。本发明加入对象性估计模块,使用对象分布概率图来提高单阶段目标检测的精度;加入多尺度融合模块,使得单阶段目标检测算法对目标的尺度变化更加鲁棒。

Description

基于深度神经网络的对象性增强目标检测方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于深度神经网络的对象性增强目标检测方法。
背景技术
目标检测是计算机视觉的基础问题,应用广泛。现有的目标检测算法主要划分为两大类,一个是Faster R-CNN系列为代表的两阶段检测算法,另一个则是以YOLO和SSD为代表的单阶段检测算法。其中,两阶段检测器的第一个阶段是基于区域提议策略生成目标候选区域,第二个阶段就是将特征放入分类器并修正位置。区域提议策略在提升检测器性能的同时也牺牲了检测的速度,导致双阶段检测器往往很难达到检测的实时性。单阶段目标检测算法,没有区域建议的过程,直接对全图的密集候选区域进行预测,达到了检测精度和检测效率之间的平衡。由于单阶段检测算法没有候选区域提议策略,使用默认设置的候选区域数量极大,这给预测器带来了巨大的压力,同时单阶段检测器往往采用比较简单的预测器以保证检测速度,这也从根本上限制单阶段检测器的预测效果。
发明内容
本发明的目的在于提出了一种基于深度神经网络的对象性增强目标检测方法。
实现本发明目的的技术方案为:一种基于深度神经网络的对象性增强目标检测方法,其特征在于,包括如下步骤:
步骤1、基于单阶段目标检测网络,在浅层网络使用多尺度融合模块增强特征多尺度信息,并在单阶段目标检测网络中加入对象性估计模块为目标检测的所有预测特征提供对象性先验知识,构建基于深度神经网络的目标检测模型;
步骤2、将训练图像数据输入目标检测模型,利用反向传播算法更新目标检测模型网络参数,直至损失函数值变化量小于设定阈值,得到训练好的目标检测模型;
步骤3、将测试图像数据输入训练好的目标检测模型,得到目标检测结果。
步骤1中,使用SSD作为单阶段目标检测网络,将VGG16作为骨干网络提取特征,将VGG16的两个全连接层改成卷积层,去掉分类层和最后一个全连接层,并在此网络后面增加了8个局部卷积层;
使用多尺度融合模块来增强VGG16中conv4_3的输出特征,将增强后的特征输入到对象性估计模块与SSD的fc7层;
利用对象性估计模块使用语义分割网络SE-WResNetV2直接对VGG16的conv4_3层增强特征图进行对象性分布预测,对预测输出值使用Sigmoid激活函数映射到[0,1],获得对象分布概率图;将对象分布概率图插值到SSD每个预测尺度,并用对象分布概率图乘以与之对应尺寸的预测特征图,为SSD的预测特征进行对象性的打分。
步骤2中,损失函数定义如下:
Loss=lossdet+lossoe (1)
其中,lossdet表示SSD的目标检测预测结果与目标检测地面实况之间的误差,lossoe表示对象性分布的预测结果与对象性分布的地面实况之间的误差。
对象性分布地面实况直接由每种类别目标的边界框标注数据生成;对于场景中的背景类,生成对象性分布地面实况时,将所有目标的边界框内像素值设置为0,其余为1;对于场景中出现的目标,生成对象性分布地面实况时其目标的边界框内像素值设置为1,其余为0,表示场景中目标的分布。对于未出现在场景中的目标类别,在设置对象性地面实况时将全图像素值直接设置为0。
本发明与现有技术相比,其显著优点为:1)加入对象性估计模块,使用对象分布概率图来提高单阶段目标检测的精度;2)加入多尺度融合模块对浅层特征进行多尺度信息增强,使得单阶段目标检测算法对目标的尺度变化更加鲁棒。
下面结合附图对本发明做进一步详细的描述。
附图说明
图1是本发明构建的对象性增强目标检测方法的流程图。
图2是本发明构建的对象性增强目标检测模型示意图。
图3是本发明使用的多尺度融合模块示意图,该模块是空洞卷积与Inception结构的结合。
图4是本发明目标对象性示意图,其中图顶层为地面实况,图底层为对象性估计模块输出的对象分布概率图。
图5是本发明在VOC评估工具上的评测结果图。
具体实施方式
如图1-2所示,基于深度神经网络的对象性增强目标检测方法,具体步骤为:
步骤1、构建基于深度神经网络的目标检测模型;
模型的框架搭建基于单阶段目标检测网络,在浅层网络使用多尺度融合模块增强特征多尺度信息,并在单阶段目标检测网络中加入对象性估计模块为目标检测的所有预测特征提供对象性先验知识。
作为一种具体实现,可以使用SSD作为单阶段目标检测网络分支。SSD(SingleShot MultiBox Detector)是Wei Liu在ECCV 2016上提出的一种目标检测算法,是截止至目前主要的检测框架之一。SSD从YOLO中继承了将Detection转化为Regression的思路,采用端到端的方式一次就可以完成网络训练,提出了和Faster RCNN中的锚(anchor)类似的预选框(priorbox),并在预测层加入了特征金字塔的检测方式,适应多种尺度大小的目标。
SSD的架构主要分为两部分:一部分是位于前端的深度卷积神经网络,采用的是去除了分类层和顶层全连接层的图像分类网络,比如VGG,用来提取图像特征;另一部分是位于后端的多尺度特征目标检测网络,是一组级联的卷积神经网络,将前端网络产生的特征层进行不同尺度条件下的特征提取之后分别输入到目标检测的预测层。
SSD网络分支使用VGG16作为骨干网络来提取特征。VGG16由3层全连接、13层局部卷积层和5层Pooling层构成,Pooling层使用Max Pooling来改变特征图的大小,减少网络参数的同时选出了分类辨识度更好的特征,而且还加入了非线性因素控制过拟合和提高模型性能。VGG16在每一层卷积后使用ReLU激活函数。当输入为负数的时候,输出为0,引入非线性因子;当输入为正数时,输出为该正数本身,这样解决了其他激活函数梯度消失的问题。同时,ReLU激活函数的计算量很小,速度快。SSD将VGG16的两个全连接层改成卷积层,去掉分类层和最后一个全连接层,并在此网络后面增加了8个局部卷积层来构造更深的特征提取网络。
如图3所示,多尺度融合模块基于RFBNet。RFBNet是一种ASPP变体结构,它结合了Inception结构,该结构在不引入大量参数的情况下生成多尺度特征。将该模块嵌入到SSD的conv4_3层与fc7层之间,进行浅层特征的多尺度信息增强。
所述对象性估计模块基于语义分割网络SE-WResNetV2。SE-WResNetV2是基于编码器-解码器深度网络结构的图像分割算法,可以在平衡精度和效率的前提下实现端到端的语义分割,即把目标与背景区分开,利用图像中不同区域在灰度、颜色、纹理或几何形状等特征上表现出来的差异性,将图像划分成若干个独立的区域,同一区域内所有像素点在选定的特征空间上能表现出很高相似性,不同区域之间则会表现出明显的不同,由此实现目标与背景的分离。
首先,使用多尺度融合模块来增强VGG16中conv4_3的输出特征。然后将增强后的特征输入到对象性估计模块与SSD的fc7层。对象性估计模块使用语义分割网络SE-WResNetV2直接对VGG16的conv4_3层输出特征图进行对象性分布预测,其输出值的值域范围使用Sigmoid激活函数映射到[0,1],来获得对象分布概率图。最后,将对象分布概率图插值到SSD每个预测尺度,并用对象分布概率图乘以与之对应尺寸的预测特征图,为SSD的预测特征进行对象性的打分。通过对象分布概率图可以抑制背景特征对分类的干扰,并突出前景特征,起到辅助目标检测任务的作用。
步骤2、将训练图像数据输入步骤1构建的目标检测模型,利用反向传播算法更新目标检测模型网络参数,直至损失函数值变化量小于设定阈值,选取此时训练的模型参数作为训练好的模型的网络参数;
对于对象性增强目标检测网络的反向传播过程,其损失函数定义如下:
Loss=lossdet+lossoe (1)
其中,lossdet表示SSD的目标检测预测结果与目标检测地面实况之间的误差,lossoe表示对象性分布的预测结果与对象性分布的地面实况之间的误差。对象性分布地面实况示例如图4所示,直接由每种类别目标的边界框标注数据生成。对于场景中的背景类,生成对象性分布地面实况时,将所有目标的边界框内像素值设置为0,其余为1。对于场景中出现的目标,生成对象性分布地面实况时其目标的边界框内像素值设置为1,其余为0,表示场景中目标的分布。对于未出现在场景中的目标类别,在设置对象性地面实况时将全图像素值直接设置为0。
步骤3、将测试图像数据输入训练好的目标检测模型,得到目标检测结果。
实施例
为了验证本发明方案的有效性,进行如下仿真实验。
基于VOC2007 trainval和VOC2012 trainval训练数据集,在具有1个NVIDIARTX2080Ti 11GB GPU的机器上,进行对象性增强目标检测。本发明模型训练过程中,学习速率设置为三个阶段:1e-3,1e-4和1e-5,对应迭代次数为80k,20k和20k。将BatchSize设置为16,其余参数与原始SSD实验一致。
本实施例训练了300*300和512*512的模型,两个模型都是将conv4_3层的输出特征图作为对象性估计模块的输入特征图,不同之处在于,在300*300输入图像尺度下,conv4_3层的输出特征图的尺度为38*38,在512*512输入图像尺度下,conv4_3层的输出特征图的尺度为64*64。经典语义分割网络有三个下采样和三个上采样过程,由于conv4_3层的输出特征图的尺寸在输入图像尺度为300*300时足够小,所以,在300*300的输入图像尺度下,对象性估计模块中仅使用一个下采样和一个上采样过程。而在512*512的输入图像尺度下,保持原始的三个上采样和下采样操作不变。
在VOC2007测试集上评估模型,各方法的实验对比结果如表1所示,可以看出,本发明的方法OEDet在300和512的输入图像尺度下,准确率要高于单阶段目标检测算法SSD和RON,甚至逼近性能较优的双阶段目标检测算法R-FCN。不同目标特性对VOC2007测试数据的敏感性和影响如图5所示,可以看出,本发明的方法OEDet在小目标和极限长宽比的目标上都有很好的表现。
表1:PASCALVOC2007实验结果
Figure BDA0002281675970000051
为了进一步验证本发明提出的基于深度神经网络的对象性增强目标检测方法的综合性能,在MS-COCO的COCO trainval2014数据集训练300*300和512*512模型。模型训练过程中,将BatchSize设置为16,其余参数与原始SSD实验一致,首先使用学习率1e-3训练网络进行280k次迭代,然后使用学习率1e-4进行80k次迭代训练,最后使用学习率1e-5进行40k次迭代训练。在COCO test-dev2017上进行测试,各方法准确率的对比结果如表2所示,可以看出,本发明的方法OEDet与SSD目标检测算法相比在所有指标上提供巨大的改进。
表2:MS-COCO实验结果
Figure BDA0002281675970000061

Claims (3)

1.基于深度神经网络的对象性增强目标检测方法,其特征在于,包括如下步骤:
步骤1、基于单阶段目标检测网络,在浅层网络使用多尺度融合模块增强特征多尺度信息,并在单阶段目标检测网络中加入对象性估计模块为目标检测的所有预测特征提供对象性先验知识,构建基于深度神经网络的目标检测模型;
步骤2、将训练图像数据输入目标检测模型,利用反向传播算法更新目标检测模型网络参数,直至损失函数值变化量小于设定阈值,得到训练好的目标检测模型;
步骤3、将测试图像数据输入训练好的目标检测模型,得到目标检测结果;
其中,步骤1中,使用SSD作为单阶段目标检测网络,将VGG16作为骨干网络提取特征,将VGG16的两个全连接层改成卷积层,去掉分类层和最后一个全连接层,并在此网络后面增加了8个局部卷积层;
使用多尺度融合模块来增强VGG16中conv4_3的输出特征,将增强后的特征输入到对象性估计模块与SSD的fc7层;
利用对象性估计模块使用语义分割网络SE-WResNetV2直接对VGG16的conv4_3层增强特征图进行对象性分布预测,对预测输出值使用Sigmoid激活函数映射到[0,1],获得对象分布概率图;将对象分布概率图插值到SSD每个预测尺度,并用对象分布概率图乘以与之对应尺寸的预测特征图,为SSD的预测特征进行对象性的打分。
2.根据权利要求1所述的基于深度神经网络的对象性增强目标检测方法,其特征在于,步骤2中,损失函数定义如下:
Loss=lossdet+lossoe (1)
其中,lossdet表示SSD的目标检测预测结果与目标检测地面实况之间的误差,lossoe表示对象性分布的预测结果与对象性分布的地面实况之间的误差。
3.根据权利要求1所述的基于深度神经网络的对象性增强目标检测方法,其特征在于,对象性分布地面实况直接由每种类别目标的边界框标注数据生成;对于场景中的背景类,生成对象性分布地面实况时,将所有目标的边界框内像素值设置为0,其余为1;对于场景中出现的目标,生成对象性分布地面实况时其目标的边界框内像素值设置为1,其余为0,表示场景中目标的分布;对于未出现在场景中的目标类别,在设置对象性地面实况时将全图像素值直接设置为0。
CN201911143997.5A 2019-11-20 2019-11-20 基于深度神经网络的对象性增强目标检测方法 Active CN111046917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911143997.5A CN111046917B (zh) 2019-11-20 2019-11-20 基于深度神经网络的对象性增强目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911143997.5A CN111046917B (zh) 2019-11-20 2019-11-20 基于深度神经网络的对象性增强目标检测方法

Publications (2)

Publication Number Publication Date
CN111046917A CN111046917A (zh) 2020-04-21
CN111046917B true CN111046917B (zh) 2022-08-09

Family

ID=70231975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911143997.5A Active CN111046917B (zh) 2019-11-20 2019-11-20 基于深度神经网络的对象性增强目标检测方法

Country Status (1)

Country Link
CN (1) CN111046917B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787227A (zh) * 2020-07-22 2020-10-16 苏州臻迪智能科技有限公司 基于跟踪拍摄的风格迁移方法及装置
CN111985448A (zh) * 2020-09-02 2020-11-24 深圳壹账通智能科技有限公司 车辆图像识别方法、装置、计算机设备及可读存储介质
CN112580585A (zh) * 2020-12-28 2021-03-30 深圳职业技术学院 一种基于堆叠稠密网络的挖掘机目标检测方法及装置
CN112967254A (zh) * 2021-03-08 2021-06-15 中国计量大学 基于胸部ct影像肺部疾病识别和检测方法
CN113902824B (zh) * 2021-10-12 2022-10-28 哈尔滨工业大学 一种血管内光学相干断层扫描的导丝伪影去除方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229455B (zh) * 2017-02-23 2020-10-16 北京市商汤科技开发有限公司 物体检测方法、神经网络的训练方法、装置和电子设备
CN107301400A (zh) * 2017-06-23 2017-10-27 深圳市唯特视科技有限公司 一种语义导向的半监督视频对象分割方法
CN108038502A (zh) * 2017-12-08 2018-05-15 电子科技大学 基于卷积神经网络的对象协同检测方法

Also Published As

Publication number Publication date
CN111046917A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046917B (zh) 基于深度神经网络的对象性增强目标检测方法
CN111126202B (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN105701508B (zh) 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法
CN108510012A (zh) 一种基于多尺度特征图的目标快速检测方法
CN112308158A (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN110659664B (zh) 一种基于ssd的高精度识别小物体的方法
CN111612008A (zh) 基于卷积网络的图像分割方法
CN107844743A (zh) 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN109492596B (zh) 一种基于K-means聚类和区域推荐网络的行人检测方法及系统
CN109784283A (zh) 基于场景识别任务下的遥感图像目标提取方法
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN113744311A (zh) 基于全连接注意力模块的孪生神经网络运动目标跟踪方法
CN111861906A (zh) 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法
CN114463492B (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN114973011A (zh) 一种基于深度学习的高分辨率遥感影像建筑物提取方法
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN112819096A (zh) 一种基于复合卷积神经网络的化石图像分类模型的构建方法
CN112270366A (zh) 基于自适应多特征融合的微小目标检测方法
CN111783862A (zh) 多注意力导向神经网络的立体显著性物体检测技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant