CN111680705A

CN111680705A - 适于目标检测的mb-ssd方法和mb-ssd特征提取网络

Info

Publication number: CN111680705A
Application number: CN202010810771.2A
Authority: CN
Inventors: 夏景明; 张宇; 谈玲
Original assignee: Nanjing University of Information Science and Technology
Current assignee: YANCHENG XINFENG MICROELECTRONICS Co.,Ltd.
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-09-18
Anticipated expiration: 2040-08-13
Also published as: CN111680705B

Abstract

本发明公开了一种适于目标检测的MB‑SSD方法，包括：提取多小目标图像，采用生成对抗网络对提取的多小目标图像进行增强；构建MB‑SSD特征提取网络，所述MB‑SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络，将增强后数据输入MB‑SSD特征提取网络，分别获取主支特征提取网络和分支特征提取网络的分类定位结果；再根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征；将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维；计算模型损失，训练模型，优化模型参数。本发明能够在分类层中加入相对重合度调整分类结果的方法，来提高SSD算法的分类效果，同时有效的改善了对小目标的检测精度。

Description

适于目标检测的MB-SSD方法和MB-SSD特征提取网络

技术领域

本发明涉及计算机视觉技术领域，具体而言涉及一种用于适于目标检测的MB-SSD方法和MB-SSD特征提取网络。

背景技术

目标检测是计算机视觉领域较为流行的研究方向，可应用于无人驾驶，视屏监控，行人检测，遥感图像检测等领域。传统的目标检测算法首先人工的提取特征，列如SIFT (尺度不变特征变换匹配算法Scale Invariant Feature Transform), HOG(方向梯度直方图特征Histogram of Oriented Gradient), SURF( 加速稳健特征Speeded Up RobustFeatures)等，再将这些人为提取的特征结合分类器进行目标识别，最后再结合相应的策略对目标的位置进行定位，但是对于背景复杂多变，目标复杂多变的场景，人们很难总结出图像的抽象特征，所以传统方法对与目标检测由很大的局限性。基于深度学习提取特征的目标检测算法对于同一目标可以提取其较为丰富的特征，从而使得目标检测的算法更加泛化，对实际场景的目标检测更加适应。基于深度学习的目标检测算法起初是滑动窗口的思想，但是对一张图片截取的框的数量巨大，太过耗时。从而提出用卷积代替全连接的优化方法，该方法虽然可以加速网络的识别速度，但是对于多目标的检测难度剧增。R-CNN检测算法提出候选框区域的思想，通过选择性搜索方法提取大约2000个候选区域，输入神经网络提取特征，通过分类器分类，边框回归修正实现目标定位。R-CNN算法将VOC数据集的准确率由35.1%提升到53.7%。但是R-CNN需要将每个候选框都要再卷积网络中计算一次，非常耗时。

Fast R-CNN采纳了SPP net的方法，加入了ROI Pooling的层，对每个region的特征层上都提取一个固定维度的特征表示，实现通过一次卷积可以提取所有region的特征，并且Fast R-CNN实现了通过网络特征去学习边框信息，使得网络成为了multi-task模型。Faster R-CNN通过加入Region Proposal Network(RPN)网络去寻找目标框代替了Fast R-CNN中较为耗时的选择性搜索。不管是滑动窗口方法，R-CNN算法，Fast R-CNN算法，FasterR-CNN算法都需要提取region proposal,它们都需要two stage才能完成目标检测，对于one stage的算法，其不需要region proposal阶段，直接产生物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果，因此有着更快的检测速度，比较典型的算法如YOLO，SSD，YOLOv2，YOLOv3等。SSD方法结合了YOLO中回归的思想和Faster R-CNN中的Anchor机制，使用全图各个位置的多尺度区域进行回归，既保持了YOLO速度快的特性，也保证了窗口预测的跟Faster-RCNN一样比较精准。对于稀疏场景下大目标的检测，SDD算法检测的准确率可以超过较为精准的Faster R-CNN，但是对于小目标的检测效果并不好，存在小目标漏检，错检的情况。

发明内容

本发明针对现有技术中的不足，提供一种适于目标检测的MB-SSD方法和MB-SSD特征提取网络，在分类层中加入相对重合度调整分类结果的方法，来提高SSD算法的分类效果，同时有效的改善了对小目标的检测精度。

为实现上述目的，本发明采用以下技术方案：

一种适于目标检测的MB-SSD方法，所述MB-SSD方法包括以下步骤：

S1，提取多小目标图像，采用生成对抗网络对提取的多小目标图像进行增强。

S2，构建MB-SSD特征提取网络，所述MB-SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络，将增强后数据输入MB-SSD特征提取网络，分别获取主支特征提取网络和分支特征提取网络的分类定位结果；再根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征；其中，所述分支特征提取网络的结构与主支特征提取网络的新增的第二个卷积层的结构相同，其输入特征为主支特征提取网络新增的第一个卷积层Conv4_3层的特征。

S3，将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维。

S4，计算模型损失，训练模型，优化模型参数。

为优化上述技术方案，采取的具体措施还包括：

进一步地，步骤S1中，所述提取多小目标图像的过程包括以下步骤：

S11，将VOC数据集中所有的图片的分辨率调整至至预设的标准尺寸（如300*300），并更新标注中所有目标的位置信息。

S12，输入图片和与其对应的标注。

S13，统计标注中面积小于预设面积阈值（如8000）的目标数量n和标注中所有目标总数N。

S14，对图片进行判断，如果n/N大于预设比例阈值则提取该图片。

S15，输入下一张图片，重复步骤S12至S14，直至遍历VOC数据集中所有图片。

进一步地，所述预设比例阈值为2/3。

步骤S1将提取的多小目标图像输入生成对抗网络进行训练，并用生成对抗网络生成更多的多小目标图像，实现对VOC数据集中多小目标图像的增强。

进一步地，所述主支特征提取网络通过改进VGG16网络得到：将VGG16网络的第6，7，8全连接层去除，并增加依次连接的5个卷积层，得到11个卷积层。

所述步骤S2中，首先改进VGG16作为主支特征提取网络，将第6，7，8全连接层去除，并增加5个卷积层，得到11个卷积层。随后添加分支特征提取网络，分支网络输入特征为主支网络Conv4_3层的特征，首先对特征进行步幅为2的池化操作，随后进行3层步幅为3，卷积核数量为512的卷积操作，随后进行一层步幅为1的池化操作,一层卷积核尺寸为3，卷积核数量为1024的空洞卷积，最后进行2层卷积操作，卷积核尺寸均为1，数量分别为1024，256。添加分支网络的方法可以使浅层用于小目标学习的特征独立完成学习，分支网络中两层用于学习小目标的特征层可以不再受主支网络中较深的网络层反向更新的影响，使得小目标的学习更加精确。随后将主支网络6个特征图，假设其分辨率分别为38×38，19×19，10×10，5×5，3×3，1×1，分支网络的两个特征图假设其分辨率分别为38×38，19×19输入分类定位网络，分别得到[f，f，n×（c+1）]，[f，f，n×4]形状的输出，其中f代表输出了特征图的尺寸，n代表该层特征所具有的先验框的数量，c代表分类的类别数，随后根据定位网络的输出通过相对重合度调整分类网络的输出特征。

进一步地，所述根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征的过程包括以下步骤：

S21，假设主支网络的6个特征图的分辨率分别为38×38，19×19，10×10，5×5，3×3，1×1，分支网络的2个特征图的分辨率分别为38×38，19×19。

将主支网络的6个特征图和分支网络的2个特征图输入分类定位网络，分别得到[f，f，n×(c+1)]，[f，f，n×4]形状的输出；其中f代表输出特征图的尺寸，n代表该层特征所具有的先验框的数量，c代表分类的类别数。

S22，将分类定位网络的输出形状[38，38，n×(c+1)]转变为[38，38，n，1]，[38，38，n×4]转变为[38，38，n，4]。

S23，求同区域不同位置之间的相对IoU值，得到形状为[38，38，n×n]的相对 IoU矩阵

S24，将分类矩阵在第三个维度复制n次，并将其与相对IoU矩阵相乘得到形状为[f，f，n×n，(c+1)]的新分类矩阵。

S25，将更新的分类矩阵在第三个维度每n个元素相加，得到形状为[f，f，n，(c+1)]的分类矩阵，并最终以该分类矩阵作为最终的输出结果。

该方法可以充分利用邻近先验框之间的相似性，加快正例框置信度的学习，从而可以使网络匀出充分的资源去给目标定位，因此该方法对目标的分类与定位的精度的提升皆有作用。

进一步地，步骤S3中，所述将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维的过程包括以下步骤：

将主支特征提取网络前两个特征图的分类矩阵与位置矩阵分别与分支特征提取网络的分类矩阵与位置矩阵融合，随后将融合的特征进行1×1的卷积进行降维，匹配label的通道数。相较于传统SSD方法用较浅层学习小目标特征，用较深层学习大目标特征，使得网络对小目标的学习并不充分的缺陷，本发明融合了主支的第一个特征层与分支的第一个特征层，主支网络的第二个特征层与分支网络的第二个特征层，可以加深浅层学习的效果。

进一步地，所述MB-SSD特征提取网络的损失函数为：

其中：

为权重系数；

，

表示第

个正例框与第

个真实框匹配，

表示第

个类别；

表示第i个框第p个输出值；

表示第i个正例框与第j个真实框差值的最大值；

表示正类框的集合，

表示负类框的集合。

基于前述方法，本发明还提及一种用于提升目标检测效果的MB-SSD特征提取网络，所述MB-SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络，将增强后数据输入MB-SSD的特征提取网络，分别获取主支特征提取网络和分支特征提取网络的分类定位结果。

所述主支特征提取网络通过改进VGG16网络得到：将VGG16网络的第6，7，8全连接层去除，并增加依次连接的5个卷积层，得到11个卷积层，用于输出6个第一特征图。

所述分支特征提取网络的结构与主支特征提取网络的新增的第二个卷积层的结构相同，其输入特征为主支特征提取网络新增的第一个卷积层Conv4_3层的特征，用于输出2个第二特征图。

所述主支特征提取网络新增的5个卷积层的输出端与定位网络连接，所述分支特征提取网络的输出端与定位网络连接，分别将输出的6个第一特征图和2个第二特征图导入定位网络，根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征。

所述MB-SSD特征提取网络还包括融合网络，用于将主支特征提取网络前两个特征图的分类矩阵与位置矩阵分别与分支特征提取网络的分类矩阵与位置矩阵融合，随后将融合的特征进行1×1的卷积进行降维，匹配label的通道数。

本发明的有益效果是：

（1）在分类层中加入相对重合度调整分类结果的方法，来提高SSD算法的分类效果，同时有效的改善了对小目标的检测精度。

（2）对数据集进行提取，将提取出来的数据集通过生成对抗网络实现多小目标图片的增强，可以增加数据集中小目标可用于学习的特征数量。

（3）充分利用邻近先验框之间的相似性，加快正例框置信度的学习，从而可以使网络匀出充分的资源去给目标定位，因此该方法对目标的分类与定位的精度的提升皆有作用。

（4）针对传统SSD方法用较浅层学习小目标特征，用较深层学习大目标特征，使得网络对小目标的学习并不充分的缺陷，本发明融合了主支的第一个特征层与分支的第一个特征层，主支网络的第二个特征层与分支网络的第二个特征层，可以加深浅层学习的效果。

（5）在原始损失的基础上加上了

项，该项不仅可以加快分类的学习，同时可以平均非类的置信度，增加第一置信度与第二置信度之间的差距，提高置信度的权威性。

附图说明

图1是本发明的适于目标检测的MB-SSD方法的流程图。

图2为提取多小目标图片实施流程图。

图3为MB-SSD网络框架图。

图4为根据位置重合度调整置信度实施流程图。

图5是本发明与其他方法均值平均精度的对比图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

具体实施例一

结合图1，本发明提及一种适于目标检测的MB-SSD方法，所述MB-SSD方法包括以下步骤：

S4，计算模型损失，训练模型，优化模型参数。

图1是对本发明提供的一种适于目标检测的MB-SSD方法的流程示意图。具体包括以下步骤：

步骤（1）对数据集进行预处理，将数据里中的图片归一化到300×300的尺寸，随后通过多小目标提取方法将数据集中面积小于8000平方像素的目标数量占总目标数量2/3以上的图像提取出来。提取多小目标图片方法如图2所示，具体步骤如下：

步骤1-1）将VOC数据集中所有的图片resize到300×300，并跟新label中所有object的位置信息。

步骤1-2）输入图片，与其对应的label。

步骤1-3）统计label中面积小于8000的object数量n，与object的总数N。

步骤1-4）若n/N>2/3则提取该图片。

步骤1-5）输入下一张图片，直至遍历VOC数据集中所有图片。

随后将提取出的所有多小目标图像送入生成对抗网络，生成更多的多小目标图像，再将生成的图像放入初始数据集，实现对多小目标图像的增强。

步骤2）搭建MB-SSD网络框架，首先改进VGG16作为主干提取网络，将VGG16的第五个池化层步幅设为1，padding设为SAME，将第6，7，8全连接层去除，并增加5个卷积层，得到11个卷积层。随后添加分支特征提取网络，分支网络输入特征为主支网络Conv4_3层的特征，首先对特征进行步幅为2的pooling，随后进行3层步幅为3，卷积核数量为512的卷积操作，随后进行一层步幅为1的池化操作,一层卷积核尺寸为3，卷积核数量为1024的空洞卷积，最后进行2层卷积操作，卷积核尺寸均为1，数量分别为1024，256。提取主支网络conv4_3,fc7,conv6_2,conv7_2,conv8_2,conv9_2层的特征图，尺寸分别为38×38，19×19，10×10，5×，3×3，1×1，与分支网络对应主支网络conv4_3,fc7层的特征图，尺寸分别为38×38，19×19输入分类定位网络，分别得到[f，f，n×（c+1）]，[f，f，n×4]形状的输出，其中f代表输出了特征图的尺寸，n代表该层特征所具有的先验框的数量，c代表分类的类别数。在分支网络后添加相对重合度调整层，方法流程如图4，该层的方法思想为根据定位网络同cell上先验框的位置的重合度去调整分类值，具体操作如下：

（1）转换分类定位网络的输出形状[38，38，n×(c+1)]转变为[38，38，n，1]，[38，38，n×4]转变为[38，38，n，4]。

（2）求同cell不同位置之间的相对 IoU值，等到形状为[38，38，n×n]的相对 IoU矩阵。

（3）将分类矩阵在第三个维度复制n次，并将其与相对 IoU矩阵相乘得到形状为[f，f，n×n，(c+1)]的新分类矩阵。

（4）将更新的分类矩阵在第三个维度每n个元素想加，得到形状为[f，f，n，(c+1)]的分类矩阵，并最终以该分类矩阵作为最终的输出结果。

步骤3）将主支前两块类别特征位置特征分别与分支两块类别特征位置特征进行融合，并将融合特征经过1×1卷积进行降维，恢复分类网络与定位网络的通道数，分类网络的通道数为4×num_priors，定位网络得通道数为4×4。

步骤4）对网络进行训练与测试，首先对网络参数进行初始化，网络训练网络采用随机梯度下降法进行训练，分别计算图像位置的损失

与分类的损失

，再计算SSD方法的总损失

，这里的总损失是位置损失与分类损失的加权和。

总损失定义如下：

其中：

代表正例框的数量；

为权重系数，训练时设为1； c表示网络预测置信度的值。

位置损失定义如下：

其中：

表示网络预测位置的值；

表示groundtruth位置值；

分别表示候选框的中心的横坐标、纵坐标、宽和高。

分类损失定义如下：

其中：

为权重系数，训练时设为1；

，

表示第

个正例框与第

个真实框匹配，

表示第

个类别；

表示第i个框第p个输出值；

表示第i个正例框与第j个真实框差值的最大值；

表示正类框的集合，

表示负类框的集合。

具体实施例二

使用ILSVR数据集分别对SSD主支与分支特征提取网络进行预训练，选取分类效果最好的参数作为网络初始化参数。随后使用PASCAL VOC训练集对网络进行训练。

数据集：使用ILSVR数据集分别对SSD主支与分支特征提取网络进行预训练，选取分类效果最好的参数作为网络初始化参数。使用PASCAL VOC2012训练集对网络进行训练。使用PASCAL VOC测试集对检测效果进行测试。

实验参数:batch设为32，momentum设为0.9，学习率采用指数衰减方法，初始学习率设为0.01，衰减系数设为0.9。

实验环境：显卡：Nvidia GeForce RTX 2080 Ti，处理器：Intel Core i7-9700K，主板：微星MAG Z390 TOMAHAWK。

实验结果：为客观评价检测效果，本实验采用均值平均精度（MAP）来评估检测质量，本发明与较为主流的几种检测方法（YOLO，Faster R_CNN，SSD）在PASCAL VOC数据集上的测试效果对比，预训练集为ILSVR，数据集为PASCAL VOC2012，几种检测方法对应的均值平均精度mAP（%）分别为：（1）YOLO方法：60.8%，（2）Faster-RCNN方法：70.1%，（3）SSD方法：68.8%，（4）BR-SSD（本发明）：72.3%。可以看出，本发明检测精度较其他检测方法要好很多，高出了检测较好的Faster R-CNN方法2.2个百分点。相比于SSD方法如图5对置信度阈值相同的情况下，本发明对小目标检测有着更高的召回率（rescall）与精度（precision）。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种适于目标检测的MB-SSD方法，其特征在于，所述MB-SSD方法包括以下步骤：

S1，提取多小目标图像，采用生成对抗网络对提取的多小目标图像进行增强；

S2，构建MB-SSD特征提取网络，所述MB-SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络，将增强后数据输入MB-SSD特征提取网络，分别获取主支特征提取网络和分支特征提取网络的分类定位结果；再根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征；其中，所述分支特征提取网络的结构与主支特征提取网络的新增的第二个卷积层的结构相同，其输入特征为主支特征提取网络新增的第一个卷积层Conv4_3层的特征；

S3，将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维；

S4，计算模型损失，训练模型，优化模型参数。

2.根据权利要求1所述的适于目标检测的MB-SSD方法，其特征在于，步骤S1中，所述提取多小目标图像的过程包括以下步骤：

S11，将VOC数据集中所有的图片的分辨率调整至预设的标准尺寸，并更新标注中所有目标的位置信息；

S12，输入图片和与其对应的标注；

S13，统计标注中面积小于预设面积阈值的目标数量n和标注中所有目标总数N；

S14，对图片进行判断，如果n/N大于预设比例阈值则提取该图片；

3.根据权利要求2所述的适于目标检测的MB-SSD方法，其特征在于，所述预设比例阈值为2/3。

4.根据权利要求1所述的适于目标检测的MB-SSD方法，其特征在于，所述主支特征提取网络通过改进VGG16网络得到：将VGG16网络的第6，7，8全连接层去除，并增加依次连接的5个卷积层，得到11个卷积层。

5.根据权利要求4所述的适于目标检测的MB-SSD方法，其特征在于，所述根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征的过程包括以下步骤：

S21，假设主支网络的6个特征图的分辨率分别为38×38，19×19，10×10，5×5，3×3，1×1，分支网络的2个特征图的分辨率分别为38×38，19×19；

将主支网络的6个特征图和分支网络的2个特征图输入分类定位网络，分别得到[f，f，n×(c+1)]，[f，f，n×4]形状的输出；其中f代表输出特征图的尺寸，n代表该层特征所具有的先验框的数量，c代表分类的类别数；

S22，将分类定位网络的输出形状[38，38，n×(c+1)]转变为[38，38，n，1]，[38，38，n×4]转变为[38，38，n，4]；

S24，将分类矩阵在第三个维度复制n次，并将其与相对IoU矩阵相乘得到形状为[f，f，n×n，(c+1)]的新分类矩阵；

6.根据权利要求1所述的适于目标检测的MB-SSD方法，其特征在于，步骤S3中，所述将主支特征提取网络和分支特征提取网络的分类定位结果进行融合并降维的过程包括以下步骤：

将主支特征提取网络前两个特征图的分类矩阵与位置矩阵分别与分支特征提取网络的分类矩阵与位置矩阵融合，随后将融合的特征进行1×1的卷积进行降维，匹配label的通道数。

7.根据权利要求1所述的适于目标检测的MB-SSD方法，其特征在于，所述MB-SSD特征提取网络的损失函数为：

其中：

为权重系数；

，

表示第i个正例框与j个真实框匹配， p表示p个类别；

表示第i个框第p个输出值；

表示第i个正例框与第j个真实框差值的最大值；

表示正类框的集合，

表示负类框的集合。

8.一种适于目标检测的MB-SSD特征提取网络，其特征在于，所述MB-SSD特征提取网络包括主支特征提取网络、分支特征提取网络和定位网络，将增强后数据输入MB-SSD的特征提取网络，分别获取主支特征提取网络和分支特征提取网络的分类定位结果；

所述主支特征提取网络通过改进VGG16网络得到：将VGG16网络的第6，7，8全连接层去除，并增加依次连接的5个卷积层，得到11个卷积层，用于输出6个第一特征图；

所述分支特征提取网络的结构与主支特征提取网络的新增的第二个卷积层的结构相同，其输入特征为主支特征提取网络新增的第一个卷积层Conv4_3层的特征，用于输出2个第二特征图；

所述主支特征提取网络新增的5个卷积层的输出端与定位网络连接，所述分支特征提取网络的输出端与定位网络连接，分别将输出的6个第一特征图和2个第二特征图导入定位网络，根据定位网络上同区域不同候选框的IoU重合度调整分类网络的输出特征；