CN113283428A

CN113283428A - 一种基于fce-ssd方法的图像目标检测方法

Info

Publication number: CN113283428A
Application number: CN202110820773.4A
Authority: CN
Inventors: 夏景明; 张宇; 谈玲
Original assignee: Nanjing University of Information Science and Technology
Current assignee: YANCHENG XINFENG MICROELECTRONICS Co.,Ltd.
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-08-20
Anticipated expiration: 2041-07-20
Also published as: CN113283428B

Abstract

本发明涉及一种基于FCE‑SSD方法的图像目标检测方法，应用所设计特征单元信息增强网络框架，结合膨胀卷积模块提取特征单元感受野区域信息，并将信息融合进主干特征图中实现特征增强，在保持SSD网络深度情况下，通过特征增强的方式，提高主干网络特征单元感受野回归的精度，实现高精度目标检测定位；相较于传统的目标检测定位方法，精度方面显著提高，尤其在小目标检测方面效果显著；本发明设计方法在PASCAL VOC 2007与2012数据集上进行实验测试,FCE‑VGG平均均值精度值（mAP)可以达到79.1%与79.3%，相比SSD300方法提升了1.6%和1.9%。

Description

一种基于FCE-SSD方法的图像目标检测方法

技术领域

本发明涉及一种基于FCE-SSD方法的图像目标检测方法，属于图像定位技术领域。

背景技术

目标检测是无人驾驶，人脸检测，行人检测，医学图像等领域重要的技术核心。传统的目标检测算法首先人工的提取特征，如SIFT尺度不变特征变换匹配算法, HOG方向梯度直方图特征, SURF加速稳健特征等，再将这些人为提取的特征结合分类器进行目标识别，结合相应的策略对目标的位置进行定位。但是无法应对背景复杂多变，目标复杂多变的场景，所以传统方法对与目标检测由很大的局限性。基于深度学习的目标检测算法起初是滑动窗口的思想，但是对一张图片截取的框的数量巨大，太过耗时，从而提出用卷积代替全连接的优化方法，该方法虽然可以加速网络的识别速度，但是对于多目标的检测难度剧增。R-CNN检测算法提出区域建议的思想，通过选择性搜索方法提取大约2000个候选区域，输入神经网络提取特征，通过SVM分类器分类，边框回归修正实现目标定位。Fast R-CNN采纳了SPP net的方法，加入了ROI Pooling的层，对每个region的特征层上都提取一个固定维度的特征表示，实现通过一种卷积可以提取所有region的特征，并且Fast R-CNN实现了通过网络特征去学习边框信息，使得网络成为了multi-task模型。Faster R-CNN通过加入Region Proposal Network(RPN)去寻找目标框代替了Fast R-CNN中较为耗时的选择性搜索。不管是滑动窗口方法，还是R-CNN算法，Fast R-CNN算法，Faster R-CNN算法都需要区域建议后再通过深度网络检测目标。但是区域建议的过程耗费大量时间。He提出的空间金字塔池化，通过膨胀卷积有效地解决了细节特征丢失的问题。受YOLO利用全卷积完成预测以及空间金字塔提取信息的启发，liu等人提出的高效的one-stage目标检测算法SingleShot MultiBox Detector（SSD）。

SSD目标检测算法是目前较为流行的单阶段检测算法，在保证检测精度的同时，有效的提高了检测的速度，SSD算法结合了YOLO中回归的思想和Faster R-CNN中的Anchor机制，使用全图各个位置的多尺度区域进行回归，既保持了YOLO速度快的特性，也保证了窗口预测跟Faster-RCNN一样比较精准。SSD算法采用分层学习不同目标的策略，浅层一般用于检测小尺度目标，用于学习小尺度目标的浅层网络往往由于学习能力不足，同时浅层特征单元在原图中的感受野较小，学习难度较大，经常存在漏检与错检的情况。 Li提出的Feature Fusion Single Shot Multibox Detector (FSSD),借鉴了FPN的思想，重构了一组pyramid feature map,有效的提高了检测精度，同时检测速度也没有过多下降。Fu介绍了一种deconvolution SSD(DSSD),它使用ResNet替换VGG作为金字塔特征的提取模型，同时加入了反卷积操作，通过skip连接来给浅层特征更好的表征能力，DSSD虽然牺牲了一定的速度，但提高了检测进度。Jeong提出了RSSD,通过rainbow concatenation方式融合不同层的特征，在增加不同层之间地feature map关系的同时也增加了不同层地feature map数量，虽然一定程度上缓解了传统SSD小目标检测问题，但是其对小目标的检测效果依旧很差。

发明内容

本发明所要解决的技术问题是提供一种基于FCE-SSD方法的图像目标检测方法，应用所设计特征单元信息增强网络框架，结合膨胀卷积模块提取特征单元感受野区域信息，并将信息融合进主干特征图中实现特征增强，在保持SSD网络深度情况下，通过特征增强的方式，提高主干网络特征单元感受野回归的精度，实现高精度目标检测定位。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于FCE-SSD方法的图像目标检测方法，基于预设数量、已知其图像中目标类型对象定位信息的各幅样本图像，执行步骤i至步骤v，获得目标识别定位模型；并应用目标识别定位模型，针对目标图像实现目标类型对象的定位；

步骤i. 针对VGG16卷积神经网络结构，移除其中3个全连接层，并在其中第五卷积块Conv5之后依次连接空洞卷积块FC7、第六卷积块Conv6、第七卷积块Conv7、第八卷积块Conv8、第九卷积块Conv9，构建主网络，然后进入步骤ii；其中，空洞卷积块FC7包括依次串联的两层空洞卷积层，第六卷积块Conv6、第七卷积块Conv7、第八卷积块Conv8、第九卷积块Conv9分别均包括两层卷积层；

步骤ii. 分别构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3，然后进入步骤iii；

步骤iii. 第四卷积块中第三卷积层Conv4_3的输出端与第一膨胀卷积块DB1的输出端分别对接第一融合模块的输入端，第一融合层的输出端对接一个卷积核尺寸为3×3的卷积层，空洞卷积块FC7的输出端与第二膨胀卷积块DB2的输出端分别对接第二融合模块的输入端，第二融合层的输出端对接一个卷积核尺寸为3×3的卷积层，第六卷积块中第二卷积层Conv6_2的输出端与第三膨胀卷积块DB3的输出端分别对接第三融合模块的输入端，第一融合层的输出端对接一个卷积核尺寸为3×3的卷积层，并结合第七卷积块中第二卷积层Conv7_2的输出端、第八卷积块中第二卷积层Conv8_2的输出端、第九卷积块中第二卷积层Conv9_2的输出端,构成六路分支网络，然后进入步骤iv；

步骤iv. 六路分支网络中第一融合层所对接卷积层的输出端、第二融合层所对接卷积层的输出端、第三融合层所对接卷积层的输出端、第七卷积块中第二卷积层Conv7_2的输出端、第八卷积块中第二卷积层Conv8_2的输出端、第九卷积块中第二卷积层Conv9_2的输出端分别对接SSD方法中分类定位网络的各输入端，并结合主网络，构建以主网络中第一卷积块Conv1输入端、第一膨胀卷积块DB1输入端、第二膨胀卷积块DB2输入端、第三膨胀卷积块DB3输入端为输入，SSD方法中分类定位网络的输出端为输出，构成待训练网络，然后进入步骤v；

步骤v. 根据各幅样本图像，以样本图像为输入，样本图像中目标类型对象定位信息为输出，结合损失函数，针对待训练网络进行训练，获得目标识别定位模型。

作为本发明的一种优选技术方案：所述步骤ii中按如下步骤ii-1至步骤ii-4，构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、以及第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3；

步骤ii-1. 基于目标识别定位模型输入端所接收图像的尺寸，以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸、空洞卷积块FC7所输出特征图的尺寸、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸，根据所接收图像尺寸分别与各输出特征图尺寸的比值，确定第一膨胀卷积块DB1中卷积核的步长、第二膨胀卷积块DB2中卷积核的步长、第三膨胀卷积块DB3中卷积核的步长，同时设定各膨胀卷积块的padding均为same，然后进入步骤ii-2；

步骤ii-2. 基于SSD先验框生成方法中第四卷积块中第三卷积层Conv4_3所对应先验框最长边、空洞卷积块FC7所对应先验框最长边、第六卷积块中第二卷积层Conv6_2所对应先验框最长边，确定第一膨胀卷积块DB1中卷积核分辨率、第二膨胀卷积块DB2中卷积核分辨率、第三膨胀卷积块DB3中卷积核分辨率，然后进入步骤ii-3；

步骤ii-3. 根据第一膨胀卷积块DB1中卷积核分辨率，在第一膨胀卷积块DB1中并行添加a1分辨率的分支卷积核与a2分辨率的分支卷积核，其中，4*a2=2*a1=第一膨胀卷积块DB1中卷积核分辨率；根据第二膨胀卷积块DB2中卷积核分辨率，在第二膨胀卷积块DB2中并行添加b1分辨率的分支卷积核与b2分辨率的分支卷积核，其中，4*b2=2*b1=第二膨胀卷积块DB2中卷积核分辨率；根据第三膨胀卷积块DB3中卷积核分辨率，在第三膨胀卷积块DB3中并行添加c1分辨率的分支卷积核与c2分辨率的分支卷积核，其中，4*c2=2*c1=第三膨胀卷积块DB3中卷积核分辨率；然后进入步骤ii-4；

步骤ii-4. 分别针对第一膨胀卷积块DB1、第二膨胀卷积块DB2、第三膨胀卷积块DB3，针对膨胀卷积块中由大至小的各卷积核分辨率，顺序按由大至小预设各膨胀率进行转化，更新该膨胀卷积块中各卷积核的分辨率；进而更新第一膨胀卷积块DB1中各卷积核的分辨率、第二膨胀卷积块DB2中各卷积核的分辨率、以及第三膨胀卷积块DB3中各卷积核的分辨率。

作为本发明的一种优选技术方案：所述步骤ii-1中，基于目标识别定位模型输入端所接收图像的尺寸300*300，以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸38*38、空洞卷积块FC7所输出特征图的尺寸19*19、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸10*10，根据所接收图像尺寸分别与各输出特征图尺寸的比值300/38、300/19、300/10，确定第一膨胀卷积块DB1中卷积核的步长为8、第二膨胀卷积块DB2中卷积核的步长为16、第三膨胀卷积块DB3中卷积核的步长为24；

所述步骤ii-2中，基于SSD先验框生成方法中第四卷积块中第三卷积层Conv4_3所对应先验框最长边42、空洞卷积块FC7所对应先验框最长边104、第六卷积块中第二卷积层Conv6_2所对应先验框最长边192，确定第一膨胀卷积块DB1中卷积核分辨率60×60、第二膨胀卷积块DB2中卷积核分辨率120×120、第三膨胀卷积块DB3中卷积核分辨率240×240；

所述步骤ii-3中，根据第一膨胀卷积块DB1中卷积核分辨率60×60，在第一膨胀卷积块DB1中并行添加30×30分辨率的分支卷积核与15×15分辨率的分支卷积核；根据第二膨胀卷积块DB2中卷积核分辨率120×120，在第二膨胀卷积块DB2中并行添加60×60分辨率的分支卷积核与30×30分辨率的分支卷积核；根据第三膨胀卷积块DB3中卷积核分辨率240×240，在第三膨胀卷积块DB3中并行添加120×120分辨率的分支卷积核与60×60分辨率的分支卷积核；

所述步骤ii-4中，针对第一膨胀卷积块DB1中60×60卷积核分辨率、30×30卷积核分辨率、15×15卷积核分辨率，顺序按各膨胀率8、5、3进行转化，更新第一膨胀卷积块DB1中各卷积核的分辨率；针对第二膨胀卷积块DB2中120×120卷积核分辨率、60×60卷积核分辨率、30×30卷积核分辨率，顺序按各膨胀率8、5、3进行转化，更新第二膨胀卷积块DB2中各卷积核的分辨率；针对第三膨胀卷积块DB3中240×240卷积核分辨率、120×120卷积核分辨率、60×60卷积核分辨率，顺序按各膨胀率8、5、3进行转化，更新第三膨胀卷积块DB3中各卷积核的分辨率。

作为本发明的一种优选技术方案：所述第一融合模块、第二融合模块、第三融合模块均采用concate方式融合，且axis=2。

作为本发明的一种优选技术方案：所述六路分支网络输出端分别与SSD方法中分类定位网络各输入端的对接结构中，SSD方法中分类定位网络包括末端合并模块、以及各路分支网络分别所对应的分类网络、定位网络、子合并模块；各路分支网络的输出端分别对接所对应分类网络的输入端、定位网络的输入端，该分类网络的输出端、该定位网络的输出端对接相对应子合并模块的输入端；各路分支网络分别所对应子合并模块的输出端对接末端合并模块的输入端，末端合并模块的输出端构成待训练网络进行训练的输出端。

作为本发明的一种优选技术方案，所述步骤v中的损失函数如下：

其中：

为权重系数；

表示第

个正例框与第

个真实框匹配，且该真实框的实际类别为第

个类别，

表示第

个正例框与第

个真实框不匹配，

表示第

个真实框对应的所有类别值，

表示与第

个真实框相匹配的第

个正例框，

表示第

个类别；

表示第

个正例框对应的第

个类别；

表示第

个正例框与第

个真实框差值的最大值；

表示正例框的集合，

表示负例框的集合。

本发明所述一种基于FCE-SSD方法的图像目标检测方法，采用以上技术方案与现有技术相比，具有以下技术效果：

（1）本发明所设计一种基于FCE-SSD方法的图像目标检测方法，应用所设计特征单元信息增强网络框架，结合膨胀卷积模块提取特征单元感受野区域信息，并将信息融合进主干特征图中实现特征增强，在保持SSD网络深度情况下，通过特征增强的方式，提高主干网络特征单元感受野回归的精度，实现高精度目标检测定位；相较于传统的目标检测定位方法，精度方面显著提高，尤其在小目标检测方面效果显著；本发明设计方法在PASCAL VOC2007与 2012数据集上进行实验测试, FCE-VGG平均均值精度值（mAP)可以达到79.1%与79.3%，相比SSD300方法提升了1.6%和1.9%。

附图说明

图1为本发明所设计基于FCE-SSD方法的图像目标检测方法的实施流程图；

图2为本发明所设计基于FCE-SSD方法的图像目标检测方法中改进SSD算法框架图；

图3为特征单元感受野

图4为定焦原理图；

图5为膨胀卷积块结构图；

图6为检测效果图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明提出一种特征单元信息增强的网络框架fce-ssd（feature cell enhancedssd），具体结构在如图2。fce-ssd框架采用本专利提出了一种膨胀卷积模块DB（dilatedconvolutions block）提取特征单元感受野区域信息，并将该信息融合进主干特征图中实现特征增强。在保持SSD网络深度情况下，通过特征增强的方式，提高主干网络提取的特征单元感受野回归的精度。传统SSD算法挑选conv4_3，fc7，conv6_2，conv7_2，conv8_2，conv9_2层提取不同尺度的特征图，其中浅层特征图尺度较大，特征单元感受野较小，不同特征单元分别用于学习其感受野区域内的标签框信息，所以浅层特征图用于检测小目标。如图3所示，浅层特征图上特征单元的数量远大于较深层特征，在网络学习过程中，特征单元需要将其感受野区域收敛至靠近原图上的特征中心附近，相较于深层特征，浅层特征的感受野区域更小，数量也更多，导致浅层学习起来难度更大，因此传统的SSD算法对小物体的学习表现往往不如较大的物体。针对此缺点，fce-ssd对conv4_3,fc7,conv6_2特征提取层分别融合了对应尺度的DB1,DB2,DB3膨胀卷积块以达到增强浅层特征信息的效果。具体改进主要分为改进主干网络、设计卷积块卷积步长、卷积块中添加定焦分支、更改卷积方式为膨胀卷积、改进损失函数，实际应用中，具体如下。

本发明设计了一种基于FCE-SSD方法的图像目标检测方法，基于预设数量、已知其图像中目标类型对象定位信息的各幅样本图像，如图1所示，执行步骤i至步骤v，获得目标识别定位模型；并应用目标识别定位模型，针对目标图像实现目标类型对象的定位；这里对于各幅样本图像来说，即明确知晓各幅样本图像中所存在各目标类型对象的定位信息。

步骤i. 针对VGG16卷积神经网络结构，将conv5卷积块中池化层的kernel的strides设为1，padding设为same，移除其中3个全连接层，并在其中第五卷积块Conv5之后依次连接空洞卷积块FC7、第六卷积块Conv6、第七卷积块Conv7、第八卷积块Conv8、第九卷积块Conv9，构建主网络，然后进入步骤ii；其中，空洞卷积块FC7包括依次串联的两层空洞卷积层，第六卷积块Conv6、第七卷积块Conv7、第八卷积块Conv8、第九卷积块Conv9分别均包括两层卷积层，具体参数设计中，空洞卷积块FC7中第一层卷积核分辨率为3*3*1024、第二层卷积核分比率为1*1*1024；第六卷积块Conv6中包含conv6_1卷积层(kernel:3*3*1024*256；steride:1)与conv6_2卷积层（kernel:3*3*256*512；steride:2）；第七卷积块Conv7中包含conv7_1卷积层(kernel:1*1*512*128；steride:1)与conv7_2卷积层（kernel:3*3*128*256；steride:2）；第八卷积块Conv8中包含conv8_1卷积层(kernel:1*1*256*128；steride:1)与conv8_2卷积层（kernel:3*3*128*256；steride:1）；第九卷积块Conv9中包含conv9_1卷积层(kernel:1*1*256*128；steride:1)与conv9_2卷积层（kernel:3*3*128*256；sterid:1；padding：valid）。

步骤ii. 分别构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3，然后进入步骤iii。

具体实际应用中，上述步骤ii中按如下步骤ii-1至步骤ii-4，构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、以及第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3。

设计膨胀卷积块的初衷是对各浅层特征提取层的特征单元在原图的感受野区域进行信息二次学习，并将该信息融合进该特征单元中，以达到特征增强的效果，那么我们此时即需要知道各层特征单元的感受野大小，也需要实现膨胀卷积块输出尺寸与对应主干提取层输出特征的尺寸相匹配。其中，感受野区域我们参考了SSD先验框的生成方法，在SSD先验框生成方法中，特征图第（n，m）个特征单元对应的先验框中心坐标为（（offset+n-1）*step，（offset+m-1）*step），step是输入图片相对于特征图尺寸的比值，offset是一个比值一般取0.5，相邻的两个先验框中心坐标总是相差（step，step）。因此本发明提出一种用深度神经网络独立地学习每个标签框的信息的方法，即在输入图片上进行一种步长为step的卷积进行特征学习，设置步长为step的卷积方式输出的特征维度可以匹配对应主干特征图的输出维度，具体如下述步骤ii-1至步骤ii-2。

步骤ii-1. 基于目标识别定位模型输入端所接收图像的尺寸，以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸、空洞卷积块FC7所输出特征图的尺寸、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸，根据所接收图像尺寸分别与各输出特征图尺寸的比值，确定第一膨胀卷积块DB1中卷积核的步长、第二膨胀卷积块DB2中卷积核的步长、第三膨胀卷积块DB3中卷积核的步长，同时设定各膨胀卷积块的padding均为same，然后进入步骤ii-2。

具体来说，上述步骤ii-1中基于目标识别定位模型输入端所接收图像的尺寸300*300，以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸38*38、空洞卷积块FC7所输出特征图的尺寸19*19、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸10*10，根据所接收图像尺寸分别与各输出特征图尺寸的比值300/38、300/19、300/10，确定第一膨胀卷积块DB1中卷积核的步长为8、第二膨胀卷积块DB2中卷积核的步长为16、第三膨胀卷积块DB3中卷积核的步长为24。

步骤ii-2. 基于SSD先验框生成方法中第四卷积块中第三卷积层Conv4_3所对应先验框最长边、空洞卷积块FC7所对应先验框最长边、第六卷积块中第二卷积层Conv6_2所对应先验框最长边，确定第一膨胀卷积块DB1中卷积核分辨率、第二膨胀卷积块DB2中卷积核分辨率、第三膨胀卷积块DB3中卷积核分辨率，然后进入步骤ii-3。

具体来说，上述步骤ii-2中，基于SSD先验框生成方法中第四卷积块中第三卷积层Conv4_3所对应先验框最长边42、空洞卷积块FC7所对应先验框最长边104、第六卷积块中第二卷积层Conv6_2所对应先验框最长边192，确定第一膨胀卷积块DB1中卷积核分辨率60×60、第二膨胀卷积块DB2中卷积核分辨率120×120、第三膨胀卷积块DB3中卷积核分辨率240×240。

对于待检测图片，越靠近目标中心点区域内的像素值往往关注度越高。如图4，当卷积核覆盖该中心时，更希望让卷积核将注意力放在中心点附近。在SSD算法中，特别小的目标一般是用浅层特征去提取，对于一个远小与60×60分辨率的目标，往往周围很大一块区域的像素是无效的特征，所以单纯使用一种尺寸的卷积核去学习特征单元感受野区域内的信息，效率并不高，因此进一步设计执行如下步骤ii-3。

步骤ii-3. 根据第一膨胀卷积块DB1中卷积核分辨率，在第一膨胀卷积块DB1中并行添加a1分辨率的分支卷积核与a2分辨率的分支卷积核，其中，4*a2=2*a1=第一膨胀卷积块DB1中卷积核分辨率；根据第二膨胀卷积块DB2中卷积核分辨率，在第二膨胀卷积块DB2中并行添加b1分辨率的分支卷积核与b2分辨率的分支卷积核，其中，4*b2=2*b1=第二膨胀卷积块DB2中卷积核分辨率；根据第三膨胀卷积块DB3中卷积核分辨率，在第三膨胀卷积块DB3中并行添加c1分辨率的分支卷积核与c2分辨率的分支卷积核，其中，4*c2=2*c1=第三膨胀卷积块DB3中卷积核分辨率；然后进入步骤ii-4。

具体来说，上述步骤ii-3中，根据第一膨胀卷积块DB1中卷积核分辨率60×60，在第一膨胀卷积块DB1中并行添加30×30分辨率的分支卷积核与15×15分辨率的分支卷积核；根据第二膨胀卷积块DB2中卷积核分辨率120×120，在第二膨胀卷积块DB2中并行添加60×60分辨率的分支卷积核与30×30分辨率的分支卷积核；根据第三膨胀卷积块DB3中卷积核分辨率240×240，在第三膨胀卷积块DB3中并行添加120×120分辨率的分支卷积核与60×60分辨率的分支卷积核。

按上述设计各卷积核尺寸已经近似目标尺寸，这样的设计带来计算量剧增的问题，第三膨胀卷积块DB3中卷积核尺寸达到了240×240分辨率，虽然strides设为step（DB3卷积核的step为32）可以减少巨大的计算量，但是对于3通道的原图，完成单通道输出，参数量就高达172800，若是匹配特征map的通道数，单个卷积核完成卷积，参数量就高达88473600。常规的卷积方式显然是不可行，因此引入了膨胀卷积，在膨胀率大于1时，相同参数量的卷积核可以有更大的感受野，即具体继续执行如下步骤ii-4。

具体来说，上述步骤ii-4中，针对第一膨胀卷积块DB1中60×60卷积核分辨率、30×30卷积核分辨率、15×15卷积核分辨率，顺序按各膨胀率8、5、3进行转化，更新第一膨胀卷积块DB1中各卷积核的分辨率；针对第二膨胀卷积块DB2中120×120卷积核分辨率、60×60卷积核分辨率、30×30卷积核分辨率，顺序按各膨胀率8、5、3进行转化，更新第二膨胀卷积块DB2中各卷积核的分辨率；针对第三膨胀卷积块DB3中240×240卷积核分辨率、120×120卷积核分辨率、60×60卷积核分辨率，顺序按各膨胀率8、5、3进行转化，更新第三膨胀卷积块DB3中各卷积核的分辨率，更新后的结构如图5所示。

步骤iii. 第四卷积块中第三卷积层Conv4_3输出端的输出特征(38,38,512)与第一膨胀卷积块DB1的输出端分别对接第一融合模块的输入端，第一融合层的输出端对接一个卷积核尺寸为3×3的卷积层，空洞卷积块FC7输出端的输出特征(19,19,1024)与第二膨胀卷积块DB2的输出端分别对接第二融合模块的输入端，第二融合层的输出端对接一个卷积核尺寸为3×3的卷积层，第六卷积块中第二卷积层Conv6_2输出端的输出特征(10,10,512)与第三膨胀卷积块DB3的输出端分别对接第三融合模块的输入端，第三融合层的输出端对接一个卷积核尺寸为3×3的卷积层，并结合第七卷积块中第二卷积层Conv7_2输出端的输出特征(5,5,256)、第八卷积块中第二卷积层Conv8_2输出端的输出特征(3,3,256)、第九卷积块中第二卷积层Conv9_2输出端的输出特征(1,1,256),构成六路分支网络，然后进入步骤iv；实际应用中，第一融合模块、第二融合模块、第三融合模块均采用concate方式融合，且axis=2，其中第一融合层所对接卷积层的输出端输出channel为512，第二融合层所对接卷积层输出channel为1024，第三融合层所对接卷积层输出channel为256。

步骤iv. 六路分支网络中第一融合层所对接卷积层的输出端、第二融合层所对接卷积层的输出端、第三融合层所对接卷积层的输出端、第七卷积块中第二卷积层Conv7_2的输出端、第八卷积块中第二卷积层Conv8_2的输出端、第九卷积块中第二卷积层Conv9_2的输出端分别对接SSD方法中分类定位网络的各输入端，并结合主网络，构建以主网络中第一卷积块Conv1输入端、第一膨胀卷积块DB1输入端、第二膨胀卷积块DB2输入端、第三膨胀卷积块DB3输入端为输入，SSD方法中分类定位网络的输出端为输出，构成待训练网络，然后进入步骤v。

实际应用中，所述六路分支网络输出端分别与SSD方法中分类定位网络各输入端的对接结构中，SSD方法中分类定位网络包括末端合并模块、以及各路分支网络分别所对应的分类网络、定位网络、子合并模块；各路分支网络的输出端分别对接所对应分类网络的输入端、定位网络的输入端，该分类网络的输出端、该定位网络的输出端对接相对应子合并模块的输入端；各路分支网络分别所对应子合并模块的输出端对接末端合并模块的输入端，末端合并模块的输出端构成待训练网络进行训练的输出端。

步骤v. 根据各幅样本图像，以样本图像为输入，样本图像中目标类型对象定位信息为输出，结合如下损失函数，针对待训练网络进行训练，获得目标识别定位模型。

其中：

为权重系数；

表示第

个正例框与第

个真实框匹配，且该真实框的实际类别为第

个类别，

表示第

个正例框与第

个真实框不匹配，

表示第

个真实框对应的所有类别值，

表示与第

个真实框相匹配的第

个正例框，

表示第

个类别；

表示第

个正例框对应的第

个类别；

表示第

个正例框与第

个真实框差值的最大值；

表示正例框的集合，

表示负例框的集合。

将本发明所设计基于FCE-SSD方法的图像目标检测方法应用于实际当中，FCE-VGG模型在PASCAL VOC2007验证集上平均均值精度（mAP）可以达到79.1%，实验结果如下表1所示。

表1在PASCAL VOC2007上与SSD300实验对比

相比传统SSD方法提升了1.6%，该实验证明我们在传统SSD模型中融入特征单元信息增强网络的想法是可行的。我们选取了几个较为先进的模型在PASCAL VOC2012trainval集上训练，分别在PASCAL VOC2012test集上测试模型检测效果，实验结果如下表2所示。

表2 PASCAL VOC2012test上检测均值精度AP（%）

FCE-SSD检测的均值精度值（mAP）达到81.1%。，除了在“飞机”，“奶牛”，“马”，“火车”类别检测AP值外，FCE-VGG都是优于传统SSD300方法。与DSSD算法相比，fce-ssd精度值高了0.6%。除“奶牛”外，有19个种类，本发明设计模型检测精度优于两阶段的Faster RCNN，而SSD方法检测结果中存在更多类别的检测精度不如Fast RCNN，说明本方法提升了单阶段检测算法在检测精度上的优越性。在“盆栽”，“显示器”，“椅子”，“花瓶”这几个小目标的检测上，FCE-SSD检测效果最好，说明本方法对小目标的检测有一定帮助。

图6中挑选了一些具有典型特征的图片作为检测图片，分别是带有复杂多目标场景图，包含大小目标场景图，小目标场景图，以及大目标场景图。图6展示了使用SSD300，FCE-SSD分别在PASCAL VOC2007上检测效果，其中（a）、（d）、（g）、（j）是SSD检测效果图，（b）、（e）、（h）、（k）是FCE-SSD检测效果图，（c）、（f）、（i）（l）是Ground truth。从图（a）、（b）与（c）对比可以看出，两种方法在复杂的多目标场景下均存在一定的漏检情况，但是本方法相较于SSD300表现更好，漏检情况明显改善。（d）、（e）、（f）图中包含了不同尺度的目标，和GT对比可以看出传统SSD方法在该图上存在多检情况。（g）、（h）图展示了两种方法对于小目标检测的能力，从（i）中可以看出该图中共有6个盆栽，本模型可以检测出其中5个，而SSD只能检测出其中4个，显然本方法对提升小目标的检测效果是有效的。最后三张图（j）、（k）、（l）展示了两种方法对大目标的检测效果。两种方法对于大目标物体检测都较为准确，从这三张图中可以看出第一张图对汽车检测的置信度更高，第二张图对于目标定位更精确。

下面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于FCE-SSD方法的图像目标检测方法，其特征在于：基于预设数量、已知其图像中目标类型对象定位信息的各幅样本图像，执行步骤i至步骤v，获得目标识别定位模型；并应用目标识别定位模型，针对目标图像实现目标类型对象的定位；

2.根据权利要求1所述一种基于FCE-SSD方法的图像目标检测方法，其特征在于：所述步骤ii中按如下步骤ii-1至步骤ii-4，构建第四卷积块中第三卷积层Conv4_3所对应的第一膨胀卷积块DB1、空洞卷积块FC7所对应的第二膨胀卷积块DB2、以及第六卷积块的第二卷积层Conv6_2所对应的第三膨胀卷积块DB3；

3.根据权利要求2所述一种基于FCE-SSD方法的图像目标检测方法，其特征在于：所述步骤ii-1中，基于目标识别定位模型输入端所接收图像的尺寸300*300，以及第四卷积块中第三卷积层Conv4_3所输出特征图的尺寸38*38、空洞卷积块FC7所输出特征图的尺寸19*19、第六卷积块中第二卷积层Conv6_2所输出特征图的尺寸10*10，根据所接收图像尺寸分别与各输出特征图尺寸的比值300/38、300/19、300/10，确定第一膨胀卷积块DB1中卷积核的步长为8、第二膨胀卷积块DB2中卷积核的步长为16、第三膨胀卷积块DB3中卷积核的步长为24；

4.根据权利要求1所述一种基于FCE-SSD方法的图像目标检测方法，其特征在于：所述第一融合模块、第二融合模块、第三融合模块均采用concate方式融合，且axis=2。

5.根据权利要求1所述一种基于FCE-SSD方法的图像目标检测方法，其特征在于：所述六路分支网络输出端分别与SSD方法中分类定位网络各输入端的对接结构中，SSD方法中分类定位网络包括末端合并模块、以及各路分支网络分别所对应的分类网络、定位网络、子合并模块；各路分支网络的输出端分别对接所对应分类网络的输入端、定位网络的输入端，该分类网络的输出端、该定位网络的输出端对接相对应子合并模块的输入端；各路分支网络分别所对应子合并模块的输出端对接末端合并模块的输入端，末端合并模块的输出端构成待训练网络进行训练的输出端。

6.根据权利要求1所述一种基于FCE-SSD方法的图像目标检测方法，其特征在于，所述步骤v中的损失函数如下：