CN110084292A

CN110084292A - 基于DenseNet和多尺度特征融合的目标检测方法

Info

Publication number: CN110084292A
Application number: CN201910314505.8A
Authority: CN
Inventors: 曹毅; 翟明浩; 张威; 刘晨; 盛永健; 黄子龙; 李巍; 张宏越; 易灵杰
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-08-02
Anticipated expiration: 2039-04-18
Also published as: CN110084292B

Abstract

本发明提供基于DenseNet和多尺度特征融合的目标检测方法，其包括：S1构建特征提取网络模型；S2训练特征提取网络模型，通过多次迭代训练得到最优目标检测模型；S3将待检测图像数据输入到最优目标检测模型进行检测，在待检测图像上用矩形框标注每个物体的位置和类别；特征提取网络模型以DenseNet网络为基础网络，加深了网络层次，提高了特征质量，同时使用特征融合模块，引入上下文信息，得到六个用于最终预测的特征图，具有丰富的语义信息和较高的分辨率。本发明方法可在保证检测速度的基础上，降低模型规模，提升对小目标的检测精度。

Description

基于DenseNet和多尺度特征融合的目标检测方法

技术领域

本发明涉及计算机视觉技术领域，具体为基于DenseNet和多尺度特征融合的目标检测方法。

背景技术

目标检测是计算机视觉领域中的一个非常重要的研究方向。目标检测是对图像和视频中物体进行精准识别和定位，使计算机理解周围环境，实现良好的人机交互。近年来，目标检测在自动驾驶、环境监测、交通安防等领域都得到了广泛的应用。

实际应用中，有很多场景需要对待检测图像中的小目标进行识别。但是，因为待检测图像中小目标物体的分辨率和信息有限，所以，在现有技术中，针对小目标的检测目前为止仍然是一个难点。目前基于深度学习的目标检测方法主要分为两类：基于区域建议的方法、基于回归的方法。基于区域建议的目标检测方法由于使用区域建议，大大减少了目标检测搜索空间，目标检测精度得到了极大地提升，但是网络模型复杂、占用计算资源，所以检测速度较为缓慢，无法满足实时应用。基于回归的目标检测方法不用产生候选框，直接将目标边框定位的问题转化为回归问题处理，直接在原始图像的多个位置上回归，标记出目标位置边框以及目标类别。基于回归的目标检测方法取消区域建议阶段，大幅提升了目标检测的速度，达到了实时的要求，但检测精度有所下降，特别是对小目标物体检测时，检测精度不高。

发明内容

为了解决现有技术中针对小目标检测无法同时保证检测精度和检测速度的问题，本发明提供基于DenseNet和多尺度特征融合的目标检测方法，其可在保证检测速度的基础上，降低模型规模，提升对小目标检测的准确率。

本发明的技术方案是这样的：基于DenseNet和多尺度特征融合的目标检测方法，其包括以下步骤：

S1：构建特征提取网络模型；

S2：训练所述特征提取网络模型，利用融合后的特征图对模型进行分类和回归，得到目标检测模型，通过多次迭代训练得到最优目标检测模型；

S3：将待检测图像数据输入到S2中得到的所述最优目标检测模型，利用所述最优目标检测模型进行检测，在所述待检测图像上用矩形框标注每个物体的位置和类别；

其特征在于：

步骤S1中所述特征提取网络模型以DenseNet网络为基础网络，由4个Dense block与3个过渡层交替拼接而成；而后依次连接三组卷积层Conv1～Conv3；

其还包括特征融合模块，将低层细节特征图与高层语义特征图进行融合，引入上下文信息，提高特征的表征能力；

经过所述特征提取网络模型共提取出六个不同尺度的卷积特征图，分别为Denseblock2、Denseblock3、Denseblock4、Conv1、Conv2、Conv3，所述特征融合模块将特征图Denseblock2与Denseblock4相融合，特征图Denseblock3与Conv1相融合，得到六个用于最终预测的特征图。

其进一步特征在于：

步骤S1中，所述基础网络为121层的DenseNet网络；

所述特征融合模块在对所述低层细节特征图与所述高层语义特征图进行融合的时候，需要在所述高层语义特征图后使用两次逆卷积层来实现上采样，生成与所述低层细节特征图相同大小的高层特征图的输出图，然后对所述高层特征图的输出图与所述低层细节特征图进行融合操作，得到最终的输出特征图；

所述逆卷积层的卷积核尺寸为2×2，每个所述逆卷积层后接一个卷积核为3×3的卷积层、一个批量归一化层、一个ReLU激活函数层；

所述低层细节特征图后接一个卷积核为3×3的卷积层、一个批量归一化层、一个ReLU激活函数层；

所述融合操作通过Elts Sum融合方法进行，将所述高层特征图的输出图与所述低层细节特征图直接叠加，融合后接一个批量归一化层、一个ReLU激活函数层；

所述融合操作通过Concat融合方法进行，将所述高层特征图的输出图与所述低层细节特征图在通道维度上进行拼接，导致特征图维度的扩充，融合后接一个1×1的卷积层、一个批量归一化层、一个ReLU激活函数层；

所述特征提取网络模型中的所述三组卷积层Conv1～Conv3，每一组卷积层都包含卷积核为1×1的卷积层和卷积核为3×3的卷积层，这些卷积层的尺寸逐渐减小；

所述Dense Block中每一层输出的特征图都利用到了其前面所有层的信息，即每一个层都和前面的层有稠密连接，稠密连接将该层与之后的所有层进行连接；

则：第L层将之前所有层的输出的特征图X₀……X_L-1作为输入：

其中，X₁为第L层的输出的特征图，

为三种操作BN,RELU,3×3卷积的组合函数，

表示为第0,……,L-1层输出的特征图的拼接；

步骤S3中，将所述待检测图像数据输入到所述最优目标检测模型后，使用非极大值抑制过滤重复检测的边框，选出置信度最高的边框作为最终检测结果，根据所述最终检测结果在所述待检测图像上用矩形框标注每个物体的位置和类别。

本发明提供的基于DenseNet和多尺度特征融合的目标检测方法，以DenseNet网络为基础，利用DenseNet网络的特点解决了深层网络的梯度消失问题，有效防止网络模型过拟合，提高了特征的表征能力，同时大大缩小了模型规模，提高了检测速度；使用特征融合模块将深层特征和浅层特征融合，引入上下文信息，同时利用深层特征的语义信息和浅层特征的细节信息，提高了特征的表征能力。与现行的其他目标检测方法相比，有效提升了小目标的检测精度，检测速度更快，达到了实时的要求，占用计算资源少，有着较好的实用性。

附图说明

图1为本发明整体网络结构示意图；

图2为本发明中Dense block中各层特征图的连接示意图；

图3为本发明中Dense block的结构示意图；

图4为本发明中过渡层的结构示意图；

图5为使用Elts Sum融合方法的特征融合模块的结构示意图；

图6为使用Concat融合方法的特征融合模块的结构示意图。

具体实施方式

如图1~图6所示，本发明基于DenseNet和多尺度特征融合的目标检测方法，其包括以下内容。

S1：构建特征提取网络模型；以121层的稠密卷积神经网络DenseNet作为基础网络，添加多个卷积层，进行特征提取，提取出多尺度特征图；

特征提取网络模型由4个Dense block与3个过渡层交替拼接而成；而后依次连接三组卷积层Conv1～Conv3，每一组卷积层都包含卷积核为1×1的卷积层和卷积核为3×3的卷积层，这些卷积层的尺寸逐渐减小；还包括特征融合模块，将低层细节特征图与高层语义特征图进行融合，引入上下文信息，提高特征的表征能力；经过特征提取网络模型共提取出六个不同尺度的卷积特征图，分别为Denseblock2、Denseblock3、Denseblock4、Conv1、Conv2、Conv3，特征融合模块将特征图Denseblock2与Denseblock4相融合，特征图Denseblock3与Conv1相融合，得到六个用于最终预测的特征图。

特征提取网络模型使用DenseNet作为基础网络，DenseNet该网络中任意两个层之间都包含短连接short connection, DenseNet网络与传统卷积神经网络相比，缓解了梯度消失，减少了参数数量，提高了特征质量。DenseNet中每一个稠密模块(Dense Block)都利用到了该模块中前面所有层的信息，即每一个层都和前面的层有稠密连接，稠密连接将该层与之后的所有层进行连接；

也即是说，特征提取网络模型中的Dense Block中每一层输出的特征图都利用到了其前面所有层的信息，即每一个层都和前面的层有稠密连接，如图2所示；稠密连接将该层与之后的所有层进行连接；则：第L层将之前所有层的输出的特征图X₀……X_L-1作为输入：

其中，X₁为第L层的输出的特征图，

为三种操作BN,RELU,3×3卷积的组合函数，

表示为第0,……,L-1层输出的特征图的拼接。

每个稠密模块(Dense block)的growth rate设为32；其中稠密模块的结构和过渡层的基本卷积结构分别参照图3与图4；基础网络后连接依次添加3组卷积层Conv1～Conv3，这些卷积层的尺寸逐渐减小，得到多个尺度的特征图，实现多尺度特征图检测。最终输出的6个特征图为pred1、pred2、pred3、pred4、pred5、pred6。其中，特征图pred1为特征图Denseblock2与Denseblock4相融合后所得特征图，特征图pred2为特征图Denseblock3与Conv1相融合后所得特征图，特征图pred3为特征提取网络模型中提取出的第四层Denseblock输出的特征图，特征图pred4特征提取网络模型中第一组组卷积层Conv1输出的特征图，特征图pred5为特征提取网络模型中第二组组卷积层Conv2输出的特征图，特征图pred6为特征提取网络模型中第三组组卷积层Conv3输出的特征图；

表1 整体网络结构

整体网络结构的细节如上面表1所示。

特征融合模块在对低层细节特征图与高层语义特征图进行融合的时候，高层特征图分辨率低，为了保证高层特征图与低层特征图尺度相同，需要在高层语义特征图后使用两次逆卷积层来实现上采样，生成与低层细节特征图相同大小的高层特征图的输出图，然后对高层特征图的输出图与低层细节特征图进行融合操作，得到最终的输出特征图；逆卷积层的卷积核尺寸为2×2，每个逆卷积层后接一个卷积核为3×3的卷积层、一个批量归一化层、一个ReLU激活函数层；低层细节特征图后接一个卷积核为3×3的卷积层、一个批量归一化层、一个ReLU激活函数层；

本发明共设计了两种融合模块：Elts Sum特征融合模块、Concat特征融合模块；

Elts Sum特征融合模块融合操作使用Elts Sum融合方法进行，将高层特征图的输出图与低层细节特征图直接叠加，融合后接一个批量归一化层、一个ReLU激活函数层；具体参照附图5；

Concat特征融合模块融合操作使用Concat融合方法进行，将高层特征图的输出图与低层细节特征图在通道维度上进行拼接，导致特征图维度的扩充，融合后接一个1×1的卷积层、一个批量归一化层、一个ReLU激活函数层；具体参照附图6。

S2：训练特征提取网络模型，利用融合后的特征图对模型进行分类和回归，得到目标检测模型，通过多次迭代训练得到最优目标检测模型；

步骤S2中模型训练时采用以下学习策略：

（1）特征图默认框映射：在六个用于最终预测的特征图生成后，生成一系列特征图默认框；并在此基础上回归修正值以获得预测框；对于每个特征图默认框，预测对真实框的位置偏移和目标类别置信度，特征图默认框的尺度计算公式如下所示：

其中：s_min表示为最低层默认框尺度，设置为0.1；s_max表示为最高层默认框尺度，设置为0.9；m表示为选取的特征图数，本发明设置为6；

采用SSD算法的anchor机制，对于同一特征图上的默认框添加不同的纵横比，前四层特征图纵横比设为{1，2，3，1/2，1/3}，后两层特征图纵横比设为{1，2，1/2}；

（2）目标损失函数：模型训练时同时对目标类别和目标位置进行回归，目标损失函数是位置损失和分类置信损失的加权和，计算公式如下所示：

其中，L表示总损失；L_conf表示分类置信损失；L_loc表示位置损失；x表示每个默认框与真实框的匹配标记，若x=1,匹配成功，若x=0，匹配失败；c表示预测框的分类置信度；l表示预测框；g表示真实框；N是匹配的默认框数量；α表示交叉验证权重项，权衡分类置信损失和位置损失的参数，一般设置为1；

分类置信损失是多类别分类的softmax损失，计算公式如下所示

其中：

位置损失是预测框与真实框参数之间的Smooth L1损失，计算公式如下所示：

其中：(cx,cy)为预测框与真实框的中心偏移量、w为宽度偏移量、h为高度偏移量；

（3）匹配策略：检测时需要确定哪些预测框与真实框相匹配，并相应地训练网络；对于每个真实框，；从预测框中选择，计算每个预测框与真实框的重叠率，只要大于某个阈值时，则认为此预测框与真实框相匹配；

（4）数据增广：为了增强网络模型的鲁棒性，网络训练时采用以下方法进行数据增广：

4-1：使用整个原始输入图像；

4-2：采样一个图像块，使得与图像中目标框之间的重叠率为0.1，0.3，0.5，0.7或0.9；

4-3：对原始图像进行随机采样；

（5）负样本空间挖掘：将预测框与真实框按匹配策略进行匹配，匹配成功为正样本，匹配失败为负样本。匹配步骤后，会产生大量的负样本，导致正负样本显著不平衡，为了更好的优化网路，稳定地进行训练，在网络训练时不使用所有的负样本，实施负样本空间挖掘，按照置信度对所有预测框排序，挑选出排序在前的负样本，将正、负样本的比例保持在1:3左右。

S3：将待检测图像数据输入到S2中得到的最优目标检测模型，利用所属最优目标检测模型进行检测，在所属待检测图像上用矩形框标注每个物体的位置和类别；

步骤S3中，将待检测图像数据输入到最优目标检测模型后，使用非极大值抑制过滤重复检测的边框，选出置信度最高的边框作为最终检测结果，根据最终检测结果在待检测图像上用矩形框标注每个物体的位置和类别。

为了验证本发明技术方案中的目标检测方法的有效性和实用性，选取数据集PASCAL VOC 2007标准数据集和MSCOCO数据集进行实验，并与现行技术中的下述目标检测方法进行对比：

（1）Faster R-CNN（Faster Region-Convolutional Neural Network，更快速区域建议卷积神经网络），其基础网络为VGG16；

（2）ION（Inside-Outside Net，内外网络），其基础网络为VGG16；

（3）SSD（Single Shot MultiBox Detector，单次多框检测器），其基础网络为VGG16；

（4）DSSD（Deconvolutional Single Shot Detector，反卷积单次检测器），其基础网络为Residual-101。

PASCAL VOC（The PASCAL Visual Object Classes，PASCAL视觉目标分类）数据集是目标检测领域经典标准数据集，包括人、动物、交通工具、家具在内的20 个类别，VOC2007数据集共有9963张的图片，其中训练集2501张、验证集2510张、测试集4952张。MS COCO数据集是微软公司提供的大型图片数据集，包括目标检测、图像分割等任务，包括91个类别的物体，本实验使用的2015发布的版本，共有328124张的图片，其中训练集165482张、验证集81208张和测试集81,434张。

实验环境：Ubuntu16.04系统、显卡NVIDIA GeForce GTX-1080Ti、CPU i7-7700k,深度学习框架Keras2.2.4+tensorflow1.3.0；

参数配置：输入图像分辨率为300×300；批次规模为32；初始学习率为10^-3，迭代100K次后降为10^-4，迭代200K次后降为10^-5；优化器为SGD（Stochastic Gradient Descent，随机梯度下降）, 采用0.9的动量和0.0005的权值衰减率；

评价指标：PASCAL VOC数据集检测精度使用mAP(均值平均精度Mean AveragePrecision),MSCOCO数据检测精度使用Average Precision (平均精度，即正确识别物体的个数占总识别出的物体个数的比例)和Average Recall（平均召回率，即正确识别物体的个数占测试集中物体的总个数的比例）；检测速度使用fps（每秒帧数Frame Per Second）；

实验结果详细如下所示。

（1）本发明在VOC2007数据集上分别对两种特征融合模块进行实验，实验结果如表2和表3所示：

表2 基于VOC 2007数据集的实验结果

精度分析：由表2数据可知，本发明以121层的稠密卷积神经网络DenseNet作为基础网络，使用Elts Sum特征融合模块（本发明（Elts Sum）行所示内容），检测精度mAP达到78.8%；使用Concat特征融合模块（本发明（Concat）行所示内容），检测精度mAP达到77.9%，可得到以下结论：

第一，本发明方法与基于区域建议的方法Faster R-CNN 、ION等相比，检测精度得到了极大提升，同时也优于基于回归的方法SSD、DSSD等；

第二， Elts Sum特征融合方法比Concat特征融合方法更具有优势；

第三，与其他算法相比，本发明在小目标类别Bird（鸟），bottle（瓶子），plant（盆栽）等上取得最高的检测精度，本发明方法提高了小目标物体的检测精度。

表3 基于VOC 2007数据集的速度与精度对比实验结果

速度与参数规模分析：由表3可知，本发明以121层的稠密卷积神经网络DenseNet作为基础网络，使用Elts Sum特征融合模块（本发明（Elts Sum）行所示内容），检测速度达到45fps，参数规模为49.2M；使用Concat特征融合模块（本发明（Concat）行所示内容），检测速度达到40fps，参数规模为51.0M。由于网络层次的加深，导致参数规模的增加，从而影响了网络的推理速度，本发明检测速度较SSD算法有所下降。但是与Faster R-CNN 、ION，DSSD算法相比，本发明检测速度更快，参数规模大大降低，仍然能够满足实时应用要求。

（2）本发明在MS COCO数据集上对本发明小目标检测性能进行评估，实验结果如表4所示：

表4 基于MS COCO数据集的实验结果

MSCOCO数据集以图像中目标的像素面积来度量目标大小，其中面积小于32²为小目标S、面积大于32²小于96²为中目标M，面积大于96²为大目标L。根据PASCAL VOC实验结果，EltsSum特征融合方法更加优异，因此本实验以121层的DenseNet作为基础网络，使用Elts Sum特征融合模块。由表4可知，当重叠率IOU设置为0.5:0.95时,本发明的准确率为27.1%，SSD的准确率为25.1%， Faster R-CNN的准确率为21.9%，ION的准确率为23.6%，本发明方法高于SSD方法2%，高于Faster R-CNN方法5.2%，高于ION方法3.5%。本发明方法的检测效果要优于SSD算法和基于区域建议的RCNN系列算法。小目标物体检测精度结果见表中S（小）列，与其他方法相比，本发明方法的检测精度最高，为7.8%；同时，小目标物体检测的召回率也高于其他方法，表明本发明方法对小目标物体检测能力更强。

综上所述，本发明提供的目标检测方法使用DenseNet作为基础网络，提取出多尺度的特征图，实现多尺度特征检测；使用特征融合模块，充分利用上下文信息，降低了参数规模，提高了网络模型的检测精度，有效改善了小目标的检测效果，且保证了网络模型的检测速度，满足了实时要求。

Claims

1.基于DenseNet和多尺度特征融合的目标检测方法，其包括以下步骤：

S1：构建特征提取网络模型；

其特征在于：

2.根据权利要求1所述基于DenseNet和多尺度特征融合的目标检测方法，其特征在于：步骤S1中，所述基础网络为121层的DenseNet网络。

3.根据权利要求1所述基于DenseNet和多尺度特征融合的目标检测方法，其特征在于：所述特征融合模块在对所述低层细节特征图与所述高层语义特征图进行融合的时候，需要在所述高层语义特征图后使用两次逆卷积层来实现上采样，生成与所述低层细节特征图相同大小的高层特征图的输出图，然后对所述高层特征图的输出图与所述低层细节特征图进行融合操作，得到最终的输出特征图。

4.根据权利要求3所述基于DenseNet和多尺度特征融合的目标检测方法，其特征在于：所述特征融合模块中的所述逆卷积层的卷积核尺寸为2×2，每个所述逆卷积层后接一个卷积核为3×3的卷积层、一个批量归一化层、一个ReLU激活函数层。

5.根据权利要求3所述基于DenseNet和多尺度特征融合的目标检测方法，其特征在于：所述特征融合模块中的所述低层细节特征图后接一个卷积核为3×3的卷积层、一个批量归一化层、一个ReLU激活函数层。

6. 根据权利要求3所述基于DenseNet和多尺度特征融合的目标检测方法，其特征在于：所述融合操作通过Elts Sum融合方法进行，将所述高层特征图的输出图与所述低层细节特征图直接叠加，融合后接一个批量归一化层、一个ReLU激活函数层。

7.根据权利要求3所述基于DenseNet和多尺度特征融合的目标检测方法，其特征在于：所述融合操作通过Concat融合方法进行，将所述高层特征图的输出图与所述低层细节特征图在通道维度上进行拼接，导致特征图维度的扩充，融合后接一个1×1的卷积层、一个批量归一化层、一个ReLU激活函数层。

8.根据权利要求1所述基于DenseNet和多尺度特征融合的目标检测方法，其特征在于：所述特征提取网络模型中的所述三组卷积层Conv1～Conv3，每一组卷积层都包含卷积核为1×1的卷积层和卷积核为3×3的卷积层，这些卷积层的尺寸逐渐减小。

9. 根据权利要求1所述基于DenseNet和多尺度特征融合的目标检测方法，其特征在于：所述Dense Block中每一层输出的特征图都利用到了其前面所有层的信息，即每一个层都和前面的层有稠密连接，稠密连接将该层与之后的所有层进行连接；

其中，X₁为第L层的输出的特征图，

为三种操作BN,RELU,3×3卷积的组合函数，

表示为第0,……,L-1层输出的特征图的拼接。

10.根据权利要求1所述基于DenseNet和多尺度特征融合的目标检测方法，其特征在于：步骤S3中，将所述待检测图像数据输入到所述最优目标检测模型后，使用非极大值抑制过滤重复检测的边框，选出置信度最高的边框作为最终检测结果，根据所述最终检测结果在所述待检测图像上用矩形框标注每个物体的位置和类别。