CN111783685A

CN111783685A - 一种基于单阶段网络模型的目标检测改进算法

Info

Publication number: CN111783685A
Application number: CN202010636213.9A
Authority: CN
Inventors: 王燕妮; 刘祥; 翟会杰; 余丽仙; 孙雪松
Original assignee: Xian University of Architecture and Technology
Current assignee: Xian University of Architecture and Technology
Priority date: 2020-05-08
Filing date: 2020-07-03
Publication date: 2020-10-16

Abstract

本发明公开了一种基于单阶段网络模型的目标检测改进算法，该方法使用深度残差网络Resnet‑50对原算法中基础网络VGG‑16进行替换，并且使用了7层特征层用于对目标进行检测；结合反卷积与特征融合，对提取出的高层特征层与底层特征层进行融合，融合形成的新特征层中同时包含了丰富的上下文信息，用以提高检测能力；设计更密集的检测框用于对目标进行检测，同时在算法中每个卷积层后添加批规范化操作来提高模型训练速度，防止过拟合，达到提高算法检测能力的效果。能够改善误检、漏检等问题，满足提高检测能力的需求。

Description

一种基于单阶段网络模型的目标检测改进算法

技术领域

本发明属于数字图像处理领域，涉及目标检测，特别涉及一种基于单阶段网络模型的目标检测改进算法。

背景技术

目标检测是计算机视觉领域中一个非常重要的研究问题，其任务可以分为两个，第一个是对输入目标的类别及置信度进行判别；第二个是对输入目标的位置进行检测，即“识别”和“定位”。它也是进行场景内容理解等高级视觉任务的前提，并应用于红外探测技术、智能视频监控、遥感影像目标检测和医疗诊断等任务中。目标检测算法发展至今，可以分为两类，一类是传统的目标检测算法，另一类是基于深度学习的目标检测算法。传统目标检测算法的典型算法有SIFT算法和V-J检测算法等，但滑动窗口的候选区域提取方法没有较好的针对性，时间复杂度高且产生很多冗余框；同时提取出的特征多围绕底层特征，鲁棒性较差。基于深度学习的目标检测算法根据是否有产生候选区域的机制分为两阶段目标检测算法和单阶段目标检测算法，其典型算法有R-CNN算法，Faster R-CNN算法，YOLO算法，SSD算法等。虽然现阶段有很多优秀的目标检测算法，但检测性能仍有很多不足，从而导致出现漏检、误检等问题。

发明内容

针对上述现有技术存在的缺陷或不足，本发明的目的在于，提供一种基于单阶段网络模型的目标检测改进算法。

为了实现上述任务，本发明采取如下的技术解决方案：

一种基于单阶段网络模型的目标检测改进算法，其特征在于，包括以下步骤：

步骤1)，使用深度残差网络Resnet-50对原始SSD算法中的基础网络VGG-16进行替换，替换后将Resnet-50的全连接层移除，并在移除全连接层后的Resnet-50网络添加三层卷积层；通过卷积、池化操作对输入图像进行处理，得到尺寸依次减小的多尺度特征层，其中：

尺寸大的特征层为底层特征层，用于对输入图像中的小尺度目标进行检测；

尺寸小的特征层为高层特征层，用于对输入图像中的中、大尺度目标进行检测；

将原始SSD算法的基础网络修改为深度残差网络Resnet-50，采用2层底层特征层和5层高层特征层用于检测；

步骤2)，通过反卷积操作，对步骤1)中用于目标检测的高层特征层进行放大，与底层特征层进行融合，融合后的特征层包含了语义信息，又包含了细节信息；

步骤3)，设计更密集的检测框用于对目标进行检测，同时在算法中对每个卷积层后添加批规范化操作来提高模型训练速度，防止过拟合。

根据本发明，步骤1)中所述输入图像尺寸为224×224；所述2层底层特征层的尺寸分别为56×56、28×28；所述5层高层特征层的尺寸分别为14×14、7×7、5×5、3×3、1×1；对尺寸较小的高层特征层进行反卷积操作，放大该高层特征层的尺寸，并通过特征融合，将其与尺寸较大的底层特征层进行融合。

进一步地，步骤3)中对步骤1)及步骤2)中提取出的底层特征层和高层特征层，共提取17340个框进行检测。

优选的，具体的检测算法过程如下：

a)利用回归的思想，直接通过一个卷积神经网络在输入图像上回归出目标的类别及边框，首先使用深度残差网络Resnet-50对原算法中基础网络VGG-16进行替换，移除Resnet-50原本的全连接层，并且在移除全连接层后的Resnet-50网络后添加三层卷积层；

由于算法中底层特征层未经过大量卷积池化操作，拥有丰富的细节信息，而高层特征层则拥有更丰富的语义信息，故底层特征图用于对小目标进行检测，高层特征图用于对中、大目标进行检测，算法在深度残差网络Resnet-50提取4层特征层、新增的3层卷积层也作为提取的特征层用于目标检测；

b)结合反卷积与特征融合，对不同层次的特征层进行融合，反卷积公式为：

d＝s(i-1)+k-2p (1)

式中，d为反卷积输出特征层，s为步长，i为输入特征层，k为卷积核尺寸，p为填充；

通过反卷积操作，将高层特征层中丰富的语义信息映射到底层特征层中，使底层特征层在拥有大量细节信息同时拥有足够的语义信息，增强网络的辨识度；

c)所提取出的用于目标检测的7层特征层，在每个单元设置不同尺寸、长宽比的检测框，对于候选框的尺度，按如下公式(2)进行计算：

式中，m代表特征层的个数；s_k表示候选框与图片的比例；s_max和s_min代表比例的最大值和最小值，s_max取值为0.9，s_min取值为0.2；利用上述公式(2)得到各个候选框的尺度；

对于长宽比，一般取值为

且按照如下公式(3)对候选框的宽度

及高度

进行计算：

对于宽高比为1的候选框，还增加一个尺度为

的候选框，该候选框的中心坐标为：

其中|f_k|代表特征层的大小；

d)使用3×3卷积核通过卷积操作对特征层的类别及置信度进行检测，并对检测模型进行训练，检测模型进行训练时，损失函数定义为位置损失(localization loss，loc)和置信度损失(confidence loss，conf)的加权和，计算公式如下式(4)所示：

式中，N为匹配的候选框的数量；x∈{1,0}表示候选框是否与真实框匹配，若匹配，则x＝1，反之x＝0；c为类别置信度预测值；g为真实框的位置参数；l为预测框的位置预测值；α权重系数，设置为1；

对于SSD中的位置损失函数，采用Smooth L1 loss，对候选框的中心(cx,cy)及宽度(w)、高度(h)的偏移量进行回归。公式如下：

对于SSD中的置信度损失函数，使用典型的softmax loss，其公式为：

本发明的基于单阶段网络模型的目标检测改进算法，以SSD算法为基础，在对输入图像进行特征层提取时考虑到特征图分辨率的大小以及特征提取网络深度对检测性能的影响，对算法的基础网络进行替换，使用深度残差网络Resnet-50对原始算法中基础网络VGG-16进行替换，并选择7层特征层对目标进行检测，结合反卷积与特征融合，对提取出的高层特征层与底层特征层进行融合并设计更密集的检测框来提高检测能力，同时在算法中卷积层后添加批规范化操作，加速了训练模型的速度也有效防止了过拟合现象。

附图说明

图1是用深度残差网络Resnet-50对原始SSD算法中的基础网络VGG-16替换后的提取网络结构示意图；

图2是原始SSD算法与改进后的目标检测算法检测效果对比图片，其中，(a)图、(c)图、(e)图、(g)图、(i)图、(k)图是原始SSD算法检测图片；(b)图、(d)图、(f)图、(h)图、(j)图、(l)图是目标检测算法检测图片；

以下结合附图和实施例对本发明做进一步详细描述。

具体实施方式

本发明的基于单阶段网络模型的目标检测改进算法，采取的技术思路是，以单阶段目标检测算法SSD为基础，对算法中的不足进行分析，提出改进的SSD目标检测算法。使用深度残差网络Resnet-50对基础网络进行替换，提取更优秀的特征图；对各层特征图的作用进行分析，新增一层用于检测小目标的底层特征层；结合反卷积和特征融合，对提取出的高层特征层与底层特征层进行融合，使新的特征层中拥有更丰富的上下文信息；同时设计更密集的检测框用于检测；在每层卷积层后都添加批规范化操作以提升模型训练速度，防止过拟合。通过对算法的改进以达到提高目标检测算法的检测能力，改善误检、漏检等问题。

本实施例给出一种基于单阶段网络模型的目标检测改进算法，包括以下步骤：

步骤1)，使用深度残差网络Resnet-50对原始SSD算法中的基础网络部分VGG-16进行替换，替换后将Resnet-50的全连接层移除，并在移除全连接层后的Resnet-50网络后添加三层卷积层，得到用深度残差网络Resnet-50对原始SSD算法中的基础网络VGG-16替换后的提取网络(参见图1)。通过卷积、池化操作对输入图像进行处理，得到尺寸依次减小的多尺度特征层，尺寸大的特征层为底层特征层，用于对输入图像中的小尺度目标进行检测，尺寸小的特征层为高层特征层，用于对输入图像中的中、大尺度目标进行检测；

在原始SSD算法中，使用1层底层特征层，尺寸为38×38，5层高层特征层，尺寸为19×19、10×10、5×5、3×3、1×1，共6层特征层用于目标检测。

本实施例将原始SSD算法的基础网络修改为深度残差网络Resnet-50，采用2层底层特征层，尺寸分别为56×56、28×28，5层高层特征层，尺寸分别为14×14、7×7、5×5、3×3、1×1，共7层特征层用于检测。

相比原始SSD算法，改进基础网络后的算法多使用了一层底层特征层用于检测。

步骤2)，反卷积操作，可以解决特征层经过一系列卷积池化操作后分辨率变小的问题，扩大感受野。通过反卷积，对步骤1)中用于目标检测的高层特征层进行放大，与底层特征层进行融合，融合后的特征层同时包括了高层特征层和底层特征层的优点，既包括了丰富的语义信息，又包括了丰富的细节信息，增强了网络的辨识能力。

步骤3)，设计更密集的检测框用于对目标进行检测，同时在算法中每个卷积层后添加批规范化操作来提高模型训练速度，防止过拟合，达到提高算法检测能力的效果。

步骤1)中，使用深度残差网络Resnet-50对原算法中基础网络VGG-16进行替换，共提取7层用于进行检测的特征层，输入图像尺寸为224×224，提取出特征层尺寸分别为56×56、28×28(底层特征层)、14×14、7×7、5×5、3×3、1×1(高层特征层)。

步骤2)中，对尺寸较小的高层特征层(14×14、7×7、5×5、3×3、1×1)进行反卷积操作，放大特征层的尺寸，并通过特征融合，将高层特征层与尺寸较大的底层特征层(56×56、28×28)进行融合。

步骤3)中，对步骤1)及步骤2)中提取出的7层特征层，共提取17340个框进行检测，且算法中每个卷积层后添加批规范化操作，提高了模型训练速度；通过卷积操作，使用3×3的卷积核分别对类别及置信度进行检测并对检测模型进行训练。

改进后的目标检测算法的检测过程如下：

a)基于单阶段网络模型的目标检测，利用回归的思想，直接通过一个卷积神经网络在输入图像上回归出目标的类别及边框，首先使用深度残差网络Resnet-50对原算法中基础网络VGG-16进行替换，移除Resnet-50的原本全连接层，在移除全连接层后的Resnet-50网络后新增3层卷积层；算法在深度残差网络Resnet-50中提取4个特征层conv1_x、conv2_x、conv3_x、conv4_x用于进行检测，新增的3个卷积层conv5_x、conv6_x、conv7_x也作为用于检测的特征层，共提取7级特征层用于检测。

若保存在用于检测的底层特征层上的目标较小，那么底层特征层在经过一系列复杂的卷积操作后，得到的高层特征层上保留的该目标信息将会变得更少，对其的检测也更加不敏感。因此，在SSD算法中，底层特征层包含丰富的细节信息，用于对小目标进行检测，高层特征层则包含更多语义信息，用于对中、大型目标进行检测。因此，改进后的算法使用了2层底层特征层，尺寸为56×56、28×28，5层高层特征层，尺寸为14×14、7×7、5×5、3×3、1×1。

b)结合反卷积与特征融合的思想，对不同层次的特征层进行融合，反卷积公式为：

d＝s(i-1)+k-2p (1)

式中，d为反卷积输出特征层，s为步长，i为输入特征层，k为卷积核尺寸，p为填充。通过反卷积操作，可以将高层特征层中丰富的语义信息映射到底层特征层中，使底层特征层在拥有大量细节信息同时拥有足够的语义信息，增强了网络的辨识度。

用深度残差网络Resnet-50对原始SSD算法中的基础网络VGG-16替换后的提取网络(以下简称特征图提取网络)，所提取出的7层特征层，尺寸大小分别为56×56、28×28、14×14、7×7、5×5、3×3、1×1，如a)中所述，底层特征层包含丰富的细节信息，高层特征层包含丰富的语义信息，导致在不同的特征层中，对大目标以及小目标的检测效果参差不一，因此，结合特征融合与反卷积，对提取出的尺寸为7×7的conv4_x特征层进行反卷积操作，并通过element sum的融合方式，直接对两个的特征层相加，没有改变特征层的通道数，融合后的新特征层在同一维度下的信息量增多；由于对基础网络VGG-16的替换以及特征融合操作本身就引入了大量额外参数和计算量，为了尽量减少计算量，选取该融合方式进行融合。

c)特征图提取网络所提取出的用于进行检测的7层特征层，在每个单元设置不同尺寸、长宽比的检测框，对于候选框的尺度，按如下公式进行计算：

其中，m代表特征层的个数；s_k表示候选框与图片的比例；S_max和S_min分别代表比例的最大值和最小值；S_max和S_min分别取值为0.9和0.2，利用上述公式(2)可以得到各个候选框的尺度。

对于长宽比，一般取值为

且可以按照如下公式(3)对候选框的宽度及高度进行计算：

对于宽高比为1的候选框，还会增加一个尺度为

的候选框，该候选框的中心坐标为

i,j∈[0,|f_k|)，|f_k|代表特征层的大小。

结合公式(2)与公式(3)，对改进后算法提取的检测框的尺度、长宽比进行计算；提取出的7个特征层中每个单元分别设置4、4、6、6、6、4、4个不同的检测框，共用17340个检测框进行检测。

d)使用3×3卷积核通过卷积操作对特征层的类别及置信度进行检测，并对检测模型进行训练，模型训练时损失函数定义为位置损失(localization loss，loc)和置信度损失(confidence loss，conf)的加权和，计算公式如下：

式中，N为匹配的候选框的数量；x∈{1,0}表示候选框是否与真实框匹配，若匹配，则x＝1，反之x＝0；c为类别置信度预测值；g为真实框的位置参数；l为预测框的位置预测值；α权重系数，设置为1。

对于SSD算法中的置信度损失函数，使用的是典型的softmax loss，其公式为：

然后对改进后的目标检测算法模型进行训练：在本实施例中，将PASCAL VOC2007数据集和PASCAL VOC2012数据集作为模型训练所用的数据集，并采用数据扩增技术，通过对数据集进行水平翻转、随机裁剪、颜色扭曲等操作，对训练集图像进行扩充。

实验所用的数据：PASCAL VOC数据集，是一套用于图像识别和分类的标准化的数据集，该数据集中包含20个类别，分别为人、鸟、猫、牛、狗、马、羊、飞机、自行车、船、巴士、汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽植物、沙发、电视。其中VOC2007数据集包含9963张标注过的图片，共有标注出的物体24640个；VOC2012数据集包含11540张标注过的图片，共有标注出的物体27450个。

本实施例使用上述VOC2007数据集和VOC2012数据集进行训练，使用VOC2007数据集进行测试。训练时采用随机梯度下降法(SGD)，batchsize设置为32，初始学习率设置为0.001，动量参数monmentum设置为0.9，学习率在迭代次数为180000和230000时调小90％，共训练280000次。

为了验证本实施例的基于单阶段网络模型的目标检测改进算法的检测效果，申请人选用PASCAL VOC2007数据集中的测试集进行检测，并与其他目标检测模型从主观和客观两方面进行检测效果对比(参见表1)。

表1

Tab.1Comparison of VOC2007

客观评价使用mAP(mean Average Precision)来作为评价指标，mAP由查准率和查全率构成，公式如下：

P_precisio_n＝TP/TP+FP (9)

P_recall＝TP/TP+FN (10)

式中，TP代表正样本被正确识别的样本；FP代表负样本被错误识别为正样本的样本；FN代表正样本被错误识别为负样本的样本。

改进后的目标检测算法中，检测的每一个类别都会得到由查准率和查全率构成的曲线(P-R曲线)，曲线下的面积就是平均精度值(AP值)，即衡量模型在单独一个类别上的评价指标。对检测的所有类别的AP值再求平均，即可得到mAP值，用以衡量模型在所有类别上的好坏，mAP值计算公式如下所示：

式中，Q代表检测中总类别数目，AP(q)代表检测中第q类的AP值。

检测效果客观评价中，改进后的目标检测算法，mAP值较其他算法有了明显的提高，但由于网络过于复杂，检测框数目较多，且引入了其他额外计算量，导致检测速度fps有所下降。

检测效果主观评价中，对比原始SSD算法及改进后的检测算法效果图(如图2所示，其中，(a)图、(c)图、(e)图、(g)图、(i)图、(k)图是原始SSD算法检测图片；(b)图、(d)图、(f)图、(h)图、(j)图、(l)图是目标检测算法检测图片)。从图中可以看出，改进后的目标检测算法相比原始SSD算法，在检测出相同目标时，检测框位置更准确，检测出目标的置信度更高；同时显著改善了原始算法中的误检、漏检等问题，并且在复杂背景的条件下也具有一定能力的检测效果，检测效果较原始SSD算法有了较明显的提升。

Claims

1.一种基于单阶段网络模型的目标检测改进算法，其特征在于，包括以下步骤：

2.如权利要求1所述的算法，其特征在于，步骤1)中所述输入图像尺寸为224×224；所述2层底层特征层的尺寸分别为56×56、28×28；所述5层高层特征层的尺寸分别为14×14、7×7、5×5、3×3、1×1；对尺寸较小的高层特征层进行反卷积操作，放大该高层特征层的尺寸，并通过特征融合，将其与尺寸较大的底层特征层进行融合。

3.如权利要求1所述的算法，其特征在于，步骤3)中对步骤1)及步骤2)中提取出的底层特征层和高层特征层，共提取17340个框进行检测。

4.如权利要求1至3其中之一所述的算法，其特征在于，具体的检测算法过程如下：

由于算法中底层特征层未经过大量卷积池化操作，拥有丰富的细节信息，而高层特征层则拥有更丰富的语义信息，故底层特征图用于对小目标进行检测，高层特征层用于对中、大目标进行检测，算法在深度残差网络Resnet-50提取4层特征层、新增的3层卷积层也作为提取的特征层用于目标检测；

d＝s(i-1)+k-2p (1)