CN112149533A

CN112149533A - 一种基于改进ssd模型的目标检测方法

Info

Publication number: CN112149533A
Application number: CN202010945055.5A
Authority: CN
Inventors: 韩清鹏; 李明山; 王道累; 朱瑞; 袁斌霞; 李超; 张天宇; 孙嘉珺
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-29

Abstract

本发明涉及一种基于改进SSD模型的目标检测方法，包括以下步骤：建立图像集，并对图像集中的图像进行预处理；构建改进SSD模型，改进SSD模型在标准SSD模型上加入分支网络模块，分支网络模块对标准SSD模型进行特征融合；将图像集输入改进SSD模型，对改进SSD模型进行训练；将待检测图像输入到训练好的改进SSD模型检测。与现有技术相比，本发明采用分支网络模块对不同下采样阶段的特征图进行融合，使SSD对不同尺度安全帽检测的平均精度均值都得到提升，采用更先进的分类损失函数，加强对难样例的检测准确度，调整优化模型参数，增加小目标检测过程中的正例数目并进一步降低漏检率，提高检测器的准确度，检测速度更快。

Description

一种基于改进SSD模型的目标检测方法

技术领域

本发明涉及图像检测领域，尤其是涉及一种基于改进SSD模型的目标检测方法。

背景技术

安全帽佩戴能够减轻因坠落物对施工人员头部造成的损害，保护施工人员的人身安全，佩戴安全帽是安全施工的重要一环。由于监控拍摄距离限制，工人的头部在画面中尺度普遍偏小，这种小目标为安全帽检测带来很大工作难度，改善安全帽检测准度的关键是如何对争抢目标检测算法对小目标检测的准度。

现有技术中，大部分基于SSD的安全帽检测方法多为对参数微调，难以解决SSD对小目标检测能力弱的缺陷。中国专利CN202010082338.1公开了一种电力员工安全帽佩戴自动识别方法，该方法将行人检测模型得到的行人上半身图像输入SSD模型中，该方法通过二阶段的方法提取特征，相较于端到端的方法检测速度低下，且并未能实质提升SSD对小尺度安全帽目标检测的能力。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于改进SSD模型的目标检测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于改进SSD模型的目标检测方法，包括以下步骤：

S1：建立图像集，并对图像集中的图像进行预处理，所述的图像集内包括施工现场照片；

S2：构建改进SSD模型，所述的改进SSD模型在标准SSD模型上加入分支网络模块，所述的分支网络模块对标准SSD模型的Fc7层、Conv8_2层和Conv9_2层的特征图进行特征融合处理；

S3：将图像集输入改进SSD模型，对改进SSD模型进行训练，获取训练好的改进SSD模型；

S4：将待检测图像输入到训练好的改进SSD模型，输出图像的安全帽检测结果。

优选地，所述的图像集内包括施工现场图像，所述的改进SSD模型以安全帽为目标对施工现场图像进行检测。

优选地，所述的改进SSD模型VGG-16、extras层、分支网络模块和检测头，所述的VGG16全连接层中的Fc6层和Fc7层分别替换为3x3卷积层和1x1卷积层，所述的extras层包括Conv8_2层、Conv9_2层、Conv10_2层和Conv11_2层，

所述的Fc7层、Conv10_2层和Conv11_2层的特征图送入检测头，所述的分支网络模块对Fc7层、Conv8_2层、Conv9_2层的特征图进行处理，将处理后的特征图送入检测头。

优选地，所述的分支网络模块包括三个1x1卷积滤波器、三个3x3卷积滤波器、第一上采样层和第二上采样层，

所述的1x1卷积滤波器对Conv9_2层的特征图进行平滑获取特征图P1，并将特征图P1送入第一上采样层进行上采样，所述的1x1卷积滤波器对Conv8_2层的特征图进行平滑，平滑后的Conv8_2层的特征图与第一上采样层的输出进行融合获取特征图P2，并将特征图P2送入第二上采样层进行上采样，所述的1x1卷积滤波器对Fc7层的特征图进行平滑，平滑后的Fc7层特征图与第二上采样层的输出进行融合获取特征图P3，

所述的特征图P1、特征图P2和特征图P3分别通过3x3卷积滤波器平滑后送入检测头。

优选地，所述的第一上采样层对特征图P1进行最邻近上采样插值处理，所述的第二上采样层对特征图P2进行最邻近上采样插值处理。

优选地，所述的检测头包括多个1x1卷积层，所述的检测头对送入的特征图进行卷积后分别进行边框回归与分类，获取预测框的坐标编码和分类得分。

优选地，所述的步骤S3具体包括：

S31：设置改进SSD模型的初始参数；

S32：将图像集中的图像输入到改进SSD模型；

S33：改进SSD模型输出预测框的坐标编码和分类得分；

S34：计算改进SSD模型的总损失并更新SSD模型的参数，判断参数是否收敛，若是，完成训练，否则返回步骤S32。

优选地，改进SSD模型的总损失函数为：

其中，N为匹配的默认框个数，L_conf(q,c)为分类损失，β为总损失参数，q＝{1,0}，代表某个预测框是否匹配真实框，L_loc(q,l,g)为位置损失，l为预测框，c为标签分类，g为真实框。

优选地，所述的分类损失为：

其中，

为改进损失函数，α为分类损失权重调整参数，用于对各类分类损失权重调整，

为第

类物体检测头的输出经过SoftMax函数处理后得到的logit值，γ为分类损失参数。

优选地，所述的

的计算公式为：

其中，

为检测头针对预测框中目标属于各类别分别输出的信号值。

优选地，所述的位置损失为：

其中，Pos为样本中的正例，cx、cy为预测框的中心点坐标，w为预测框的宽，h为预测框的高，

为类别为

的第i个预测框与第j个真实框是否匹配，

为预测框，

为真实框，m为产生损失的特征图对应的序号。

与现有技术相比，本发明具有如下优点：

(1)采用分支网络模块对不同下采样阶段的特征图进行融合，目标因下采样丢失的特征补充，使SSD对不同尺度安全帽检测的平均精度均值都得到提升，对小目标改善尤为明显；

(2)对SSD对安全帽检测的默认框参数进行调整，通过设置更多小尺度的先验框进行边框回归，增加小目标检测过程中的正例数目并进一步降低漏检率；

(3)采用更先进的损失函数Focal Loss，在模型训练过程中，Focal Loss通过对检测过程中难以区分的目标分类损失赋予更大的损失，同时降低易于区分的目标分类损失，让训练阶段模型专注学习如何区分难以正确分类的目标，提高模型对难样例正确分类的能力，提高检测的准确度；

(4)与其他将安全帽检测划分为二阶段的方法不同，本发明在端到端的一阶段检测器基础上改进，图像输入、特征提取、目标检测都交由模型一次性完成，安全帽检测速度更快。

附图说明

图1为本发明的流程图；

图2为本发明的改进SSD模型的结构示意图；

图3为最近邻插值算法的原理图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

一种基于改进SSD模型的目标检测方法，包括以下步骤：

S1：建立图像集，并对图像集中的图像进行预处理。

本实施例中，图像集内包括施工现场图像，所述的改进SSD模型以安全帽为目标对施工现场图像进行检测。

步骤S1中，通过网络爬虫、监控视频、施工现场拍摄方式构建图像集。本实验所选取的图像集的图像包含两类物体：佩戴安全帽(hat)，未佩戴安全帽(person)，图像集中共计7226张图片，按照7：2：1的比例进行划分为训练集、测试集和校验集。

对图像集的图像构建包含两类分类标签以及待检目标真实框坐标的数据集，其中佩戴安全帽标签为0，未佩戴安全帽标签为1。真实框坐标为(x1，y1，x2，y2)形式，其中x1与y1为边框左上角顶点的横坐标与纵坐标，x2与y2为右下角顶点的横坐标与纵坐标。

S2：构建改进SSD模型，所述的改进SSD模型在标准SSD模型上加入分支网络模块，所述的分支网络模块对标准SSD模型的Fc7层、Conv8_2层和Conv9_2层的特征图进行特征融合处理。

本实施例中，改进SSD模型VGG-16、extras层、分支网络模块和检测头，VGG16全连接层中的Fc6层和Fc7层分别替换为3x3卷积层和1x1卷积层，extras层包括Conv8_2层、Conv9_2层、Conv10_2层和Conv11_2层，Fc7层、Conv10_2层和Conv11_2层的特征图送入检测头，分支网络模块对Fc7层、Conv8_2层、Conv9_2层的特征图进行处理，将处理后的特征图送入检测头。

具体地，分支网络模块包括三个1x1卷积滤波器、三个3x3卷积滤波器、第一上采样层和第二上采样层，

1x1卷积滤波器对Conv9_2层的特征图进行平滑获取特征图P1，并将特征图P1送入第一上采样层进行上采样，1x1卷积滤波器对Conv8_2层的特征图进行平滑，平滑后的Conv8_2层的特征图与第一上采样层的输出进行融合获取特征图P2，并将特征图P2送入第二上采样层进行上采样，1x1卷积滤波器对Fc7层的特征图进行平滑，平滑后的Fc7层特征图与第二上采样层的输出进行融合获取特征图P3，

特征图P1、特征图P2和特征图P3分别通过3x3卷积滤波器平滑后送入检测头。

分支网络模块的上采样层采用最邻近上采样方法，第一上采样层对特征图P1进行最邻近上采样插值处理，第二上采样层对特征图P2进行最邻近上采样插值处理。

最近邻插值算法原理如图3所示，在待求象素的四邻象素中，将距离待求象素最近的邻象素灰度赋给待求象素设e+u,f+v(e，f为正整数，u，v为大于零小于1的小数，下同)为待求象素坐标，则待求象素灰度的值f(e+u,f+v)。如果(e+u,f+v)落在A区，即u<0.5,v<0.5，则将左上角象素的灰度值赋给待求象素，同理，落在B区则赋予右上角的象素灰度值落在C区则赋予左下角象素的灰度值，落在D区则赋予右下角象素的灰度值。通过最近领插值实现特征图尺度放大2倍，最后将对应尺度特征图进行元素累加实现特征融合并由3x3的滤波器进行平滑。

检测头中包括位置检测头和分类检测头。位置检测头输出坐标编码。分类检测头通过卷积操作与逻辑回归得到各类分类的得分。分类检测头对N个预测框进行卷积输出结果，分别对这些数值通过SoftMax函数输出logit值，即为得到物体的类别得分。

具体地，检测头包括多个1x1卷积层，检测头对送入的特征图进行卷积后分别进行边框回归与分类，获取预测框的坐标编码和分类得分。检测头包括位置检测头和分类检测头，假定预测框总数为N，共计M个种类的目标，位置检测头最终输出数目为4xN的坐标编码，分类检测头输出NxM个分类得分。

S3：将图像集输入改进SSD模型，对改进SSD模型进行训练，获取训练好的改进SSD模型。

S3具体包括：

S31：设置改进SSD模型的初始参数；

S32：将图像集中的图像输入到改进SSD模型；

S33：改进SSD模型输出预测框的坐标编码和分类得分；

本实施例中，S32图像输入时使用RGB三通道的图像作为输入，并通过减去ImageNet三通道均值的方法进行预处理，提高检测头的鲁棒性。

改进SSD模型中，给定先验框P，真实框G，令d为相关变换操作，杰卡德系数J是衡量预测框d(P)与G相似度的重要指标，如公式所示：

当J大于某一阈值，称d(P)为G的正例进行保留，反之称为负例。在训练阶段，对每个真实框匹配杰卡德系数最大的预测框为正例，剩余预测框与真实框的杰卡德系数大于阈值也算作正例，其余都作为负例。

本发明的改进SSD模型的总损失函数为：

总损失由位置损失与分类损失两部分加权求和得到，其中q＝{1,0}，代表某个预测框是否匹配真实框，N代表最终与真实框匹配的默认框总数。

基于Multibox Loss计算预测值与待检测目标实际位置与类别的误差，依靠链式求导法则反向传播，模型参数在多轮迭代中不断更新，待参数收敛后最终得到较为稳定的检测模型。筛选出的正例预测框将参与位置损失的计算，负例不参与。

分类损失为：

其中，

为第

分类损失公式中

的计算公式为：

其中，

为分类检测头针对预测框中目标属于各类别分别输出的信号值。

位置损失为：

为类别为

的第i个预测框与第j个真实框是否匹配，

为预测框，

为真实框，m为产生损失的特征图对应的序号。

本发明对分类损失进行优化，通过Focal Loss强化难样例对分类损失的影响，提升检测头对难样例的正确分类能力。其中β是各类样本对损失函数的一个细化的参数，p_t为SoftMax函数输出的logit值。通过γ即可实现调整样例对损失的影响，如p_t取值较大时认为是易于区分的样例，此时(1-pt)^γ降低，对损失影响降低，p_t较小时，认为为难以区分的样例，(1-pt)^γ增大，对损失影响增大。通过增加难样例对损失的影响实现模型对难样例区分能力的提升。

当模型训练好后，将待检测图像输入到改进SSD模型，

模型参数判断为收敛后将待检测图像输入检测模型，改进SSD模型处理待检测图像，改进SSD模型输出的置信度得分进行排序，取前景得分排名前K的预测框进行非极大抑制处理(NMS)，将筛选后的预测框坐标编码进行解码得到原图上的目标位置。

改进SSD模型中，假定m个尺度的特征图负责检测，SSD算法根据公式

S_k＝S_min+(S_max-S_min)*(k-1)/(m-1),k∈[1,m]

分阶段设置默认框边长，其中S_min与S_max分别代表最底层以及最高层用以检测的特征图对应区域占原始图像尺度的比例，m为产生损失的特征图对应的序号，k为特征图所述层数的排序。

本发明对SSD的默认框进行参数调优，S_min与S_max通常取0.2与0.9，针对安全帽检测，由于小目标自身尺度限制，|G∩d(P)|取值必然较小。当S_min取常规取值0.2，此时默认框尺度偏大导致先验框P与目标尺度相差较大，不利于检测器回归得到正确坐标且结果往往偏大，|G∪d(P)|的面积相应增大，较多预测框因杰卡德系数小于阈值导致难以获得正例，但本发明中分别设置为0.1与0.9，设置与小目标更为匹配的先验框P以帮助正确回归并增加预测框中的正例数。

设置宽高比a_r∈{1,2,3,1/2,1/3}，分别计算得到多阶段特征图对应先验框宽高：

其中，

为第k层特征图的第a个先验框的高与宽。

给定预测框坐标为

其中

与

为预测框中心点的x与y坐标，

与

为预测框的宽与高。给定先验框坐标为

其中

与

为先验框中心点的x与y坐标，

与

为先验框的宽与高。SSD输出坐标编码信息为

其中

分别为检测头输出的水平与竖直方向的平移系数，

为检测头输出的宽、高放缩系数。

根据下列公式获取预测框坐标：

即为输出的最终待检测目标的解码坐标。

将目标检测的坐标与分类可视化，本实施例实验环境为：系统Win10，显卡GTX1660Ti，深度学习框架Pytorch1.3，对比算法为SSD。

本实施例的改进SSD模型的训练参数如下表所示：

参数	数值
		Image size	300x300
Batch size	16
		Epoch	100
Momentum	0.9
		Weight decay	10-8
Gamma	0.1
		Conf thresh	0.01
Nms thresh	0.5
		Top K	200
Smin	0.1
		Smax	0.9
Beta	1
		Focal Loss Alpha	[0.25,0.75,0.75]
Focal Loss Gamma	2

输入图像分辨率为300x300情况下，SSD模型和改进的SSD模型在测试集上的平均精度均值与检测速度如下表所示，其中Hat AP为安全帽检测平均精度，Person AP为人检测平均精度，mAP为平均精度均值，FPS为训练中batch size为1时模型每秒能检测的图片数目。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims

1.一种基于改进SSD模型的目标检测方法，其特征在于，包括以下步骤：

S1：建立图像集，并对图像集中的图像进行预处理；

S4：将待检测图像输入到训练好的改进SSD模型，输出图像的目标检测结果。

2.根据权利要求1所述的一种基于改进SSD模型的目标检测方法，其特征在于，所述的改进SSD模型VGG-16、extras层、分支网络模块和检测头，所述的VGG16全连接层中的Fc6层和Fc7层分别替换为3x3卷积层和1x1卷积层，所述的extras层包括Conv8_2层、Conv9_2层、Conv10_2层和Conv11_2层，

3.根据权利要求2所述的一种基于改进SSD模型的目标检测方法，其特征在于，所述的分支网络模块包括三个1x1卷积滤波器、三个3x3卷积滤波器、第一上采样层和第二上采样层，

所述的特征图P1、特征图P2和特征图P3分别通过3x3卷积滤波器平滑后送入检测器。

4.根据权利要求3所述的一种基于改进SSD模型的目标检测方法，其特征在于，所述的第一上采样层对特征图P1进行最邻近上采样插值处理，所述的第二上采样层对特征图P2进行最邻近上采样插值处理。

5.根据权利要求2所述的一种基于改进SSD模型的目标检测方法，其特征在于，所述的检测头包括多个1x1卷积层，所述的检测头对送入的特征图进行卷积后分别进行边框回归与分类，获取预测框的坐标编码和分类得分。

6.根据权利要求1所述的一种基于改进SSD模型的目标检测方法，其特征在于，所述的步骤S3具体包括：

S31：设置改进SSD模型的初始参数；

S32：将图像集中的图像输入到改进SSD模型；

S33：改进SSD模型输出预测框的坐标编码和分类得分；

7.根据权利要求1所述的一种基于改进SSD模型的目标检测方法，其特征在于，所述的改进SSD模型的总损失函数为：