CN114419306A

CN114419306A - 基于改进型ssd的小目标物体高精度检测方法、系统及装置

Info

Publication number: CN114419306A
Application number: CN202111393713.5A
Authority: CN
Inventors: 成鑫才; 吴新春; 孙彪; 朱书霖; 杨柯; 李德鑫
Original assignee: Ningbo Handa Information Technology Co ltd; Southwest Jiaotong University
Current assignee: Ningbo Handa Information Technology Co ltd; Southwest Jiaotong University
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-04-29

Abstract

本发明为基于改进型SSD的小目标物体高精度检测方法、系统及装置，获取包含有小目标对象的训练数据集；构建初始小目标物体检测网络，以SSD快速目标检测方法的模型结构为基础，改造SSD中的特征提取方法，将原始VGG16卷积网络中的普通卷积替换为深度可分离卷积；加入特征融合的卷积神经网络，并初始化随机参数得到初始小目标物体检测网络；使用步骤1中的训练数据集，采用随机梯度下降方法进行网络训练；对初始小目标物体检测网络进行训练；使总损失函数收敛到最优，得到训练后的小目标物体检测网络；将待检测的图片输入到小目标物体检测网络中，进行特征提取得到模型输出结果；提高小目标物体的检测准确度，并且保证较高的检测速度。

Description

基于改进型SSD的小目标物体高精度检测方法、系统及装置

技术领域

本发明涉及目标检测技术领域，更为具体地是特别涉及一种基于SSD的特征融合与可分离卷积相结合的小目标高精度检测方法、系统及装置。

背景技术

在一些特定的场合，可能会发生各种安全事故，目前，开源和应用的目标检测算法和物种分类算法都属于深度学习领域。通过设计目标检测，并进行物种分类，从而达到检测目的。

对于目标检测，卷积神经网络的算法有多种，例如YOLO系列，该方法将图像分为若干单元格，如果有一个物体的中心是在某一个单元格中，那么这个单元格就负责检测这个物体，然后进行目标检测识别，该方法有着速度快的特性，但是精确度较低，不能很好的识别较小物体并且当一个格子内包含多个物体时，只能检测出来一个，会导致漏检问题。又如Faster-RCNN系列，该算法引进Region Proposal Networks(RPNs)替代SelectiveSearch提取候选框，同时引入anchor box。简要流程：1.将整张图片作为CNN的输入，提取image的特征图，该特征图被共享用于后续RPN层和全连接层卷积。2.特征图作为RPN网络的输入，生成候选区域。3.以RPN提取的候选区域和卷积网络生成的特征图作为RoI池化层的输入，送到后续全连接层中进行判定目标。这种算法由于提取图像中目标的特征较多，所以该网络准确度相对较高，但是由于产生了过多的候选网络，因此参数量以及计算量过于巨大，导致检测速度较慢而且并不是很适合移植在一些小型的系统中。

而SSD网络是当下最主要的单步目标检测方法之一，由Wei Liu于2016年提出。它是由VGG(Visual Geometry Group)特征提取网络和辅助检测网络组成； SSD网络检测方法对设置的默认框进行定位和分类，省略了双阶段方法中提取候选区域的操作，检测速度得到了提升，但是检测精度较双阶段方法略有下降，尤其是对小尺寸目标的检测。作为一阶段检测中最为热点的算法之一。该类算法的核心思想是将目标检测任务转化为一个回归问题进行求解，输入原始图像直接输出其位置及类型的判别结果，这使得单阶段算法在检测速度方面具有优势，但对于小目标和相互靠的很近的物体检测效果不佳；导致小目标的检测效果仍然不尽如人意，导致常有未识别出小目标或识别错误的现象发生；所以，SSD针对小目标物体的检测速度和精度也有待提高。

发明内容

为了解决现有问题，本发明提供一种基于改进型SSD的小目标物体高精度检测方法，采用SSD算法进行目标检测，SSD算法的核心是在特征图上使用小卷积核来预测固定尺寸default bounding boxes的类别分数和偏移量；为了提高准确率，SSD在不同大小的特征图上进行预测，通过纵横比分开预测。这些改进设计，实现了end-to-end训练并且保证较高的准确率，即是在低分辨率的图片上也能够保持高精度，因此，运行速度要比YOLO要快，同时准确率却能和Faster RCNN相媲美。

本发明为一种基于改进型SSD的小目标物体高精度检测方法，包括以下步骤：

步骤1：获取包含有小目标对象的训练数据集；

步骤2：构建初始小目标物体检测网络，具体方式如下：

步骤201：以SSD快速目标检测方法的模型结构为基础，改造SSD中的特征提取方法，将原始VGG16卷积网络中的普通卷积替换为深度可分离卷积；

步骤202：加入特征融合的卷积神经网络，并初始化随机参数得到所述初始小目标物体检测网络；

步骤3：使用步骤1中所述的训练数据集，采用随机梯度下降方法进行网络训练；对所述初始小目标物体检测网络进行训练；训练时设定超参数、学习速率；使总损失函数收敛到最优，得到训练完成的小目标物体检测网络；

步骤4：将待检测的图片依次输入到所述小目标物体检测网络中，进行特征提取得到模型输出结果。

作为优选，在步骤201中，将原始VGG16卷积网络中的3×3普通卷积层、 BN函数和ReLU函数排布顺序对应修改为3×3逐通道卷积层、BN函数、ReLU 函数；1×1逐点卷积层、BN函数、ReLU函数。

作为优选，同时将原始VGG16卷积网络中的最大池化层Maxpooling2D采用过滤器大小为2×2、步长stride为2的逐通道卷积替代。

作为优选，在步骤202中，在SSD检测网络中将第四层和第五层的特征通过自上而下进行模块融合，产生排列顺序在第四特征层检测层、第七特征检测层之间的中间特征层。

作为优选，在生成了中间特征层之后，同时删除第十一层。

作为优选，在步骤3中，先除此设定各个超参数；并设定所需训练的epoch 次数，同时在训练过程中，设定损失函数loss为一个或多个batch个输入图像进行卷积网络提取特征并分类所得结果与数据集本身预测结果差值的平方；并用该损失函数loss对各个权重和偏差量进行梯度下降更新。

作为优选，更进一步的，在在经过多次epoch训练后，查看所得损失函数loss 是否有下降和收敛趋势，如果没有收敛和下降趋势，则重新设定超参数，如果逐渐收敛则接近收敛时候停止训练。

作为优选，在步骤4中，进行特征提取后，通过softmax分类器完成目标的分类识别；得到模型输出结果。

还公开一种基于改进型SSD的小目标物体高精度检测系统，应用上述的方法，包括，

存储模块，用于存储包含有小目标对象的训练数据集；

训练模块，用于利用所述训练数据集对初始小目标物体检测网络训练，以得到小目标物体检测网络

特征提取模块，用于运行小目标物体检测网络，通过小目标物体检测网络得到特征数据集；

分类模块，用于对特征数据集进行分类，并根据分类结果作出响应；当分类结果包含有危险品目标时，发送报警指令；当分类结果正常时，读取下一帧图像。

还公开一种基于改进型SSD的小目标物体高精度检测装置，包括有中央处理器，所述中央处理器运行上述的方法。

本发明的有益效果是：本发明提供一种基于改进型SSD的小目标物体高精度检测方法、系统及装置，通过以下步骤实现：步骤1：获取包含有小目标对象的训练数据集；步骤2：构建初始小目标物体检测网络，具体方式如下：步骤201：以SSD快速目标检测方法的模型结构为基础，改造SSD中的特征提取方法，将原始VGG16卷积网络中的普通卷积替换为深度可分离卷积；步骤202：加入特征融合的卷积神经网络，并初始化随机参数得到所述初始小目标物体检测网络；步骤3：使用步骤1中所述的训练数据集，采用随机梯度下降方法进行网络训练；对所述初始小目标物体检测网络进行训练；训练时设定超参数、学习速率；使总损失函数收敛到最优，得到训练完成的小目标物体检测网络；步骤4：将待检测的图片依次输入到所述小目标物体检测网络中，进行特征提取得到模型输出结果；挺高了小目标物体的检测准确度，并且保证了较高的检测速度。

附图说明

图1为本发明的方法流程图；

图2为本发明的步骤2的细化流程图；

图3为本发明的进一步方法流程图；

图4为本发明的进一步方法流程图；

图5为本发明的进一步方法流程图；

图6为本发明的系统架构图；

图7为本发明的工作流程图。

元器件符号说明

1、存储模块；2、训练模块；3、特征提取模块；4、分类模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下获得的所有其他实施例，都属于本发明保护的范围。

本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、 “宽度、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、 “底”、内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义两个或两个以上，除非另有明确具体的限定。

在申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对已知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理的最广范围相一致。

正如背景技术所说，现有技术中心没有良好能够针对小目标物体进行的检测方法，要么其改造的SSD模型运算量过大，导致无法应用在实时检测的一些场景中，要么运算速度快，但是准确率和误检率较高，因此需要一种既能达到快速检测，又能达到高精准度的，针对小目标物体的检测方法。

对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。在本发明方案中，还是采用了以VGG16为基础的SSD算法进行改进得到的SSD检测模型，改进的SSD算法SSD算法的核心是在特征图上使用小卷积核来预测固定尺寸defaultbounding boxes的类别分数和偏移量；为了提高准确率，SSD在不同大小的特征图上进行预测，通过纵横比分开预测。这些改进设计，实现了end-to-end训练并且保证较高的准确率，即是在低分辨率的图片上也能够保持高精度，因此，运行速度要比YOLO要快，同时准确率却能和Faster RCNN 相媲美。

请参阅图1-2、图7；本发明公开一种基于改进型SSD的小目标物体高精度检测方法，包括以下步骤：

步骤1：获取包含有小目标对象的训练数据集；

步骤2：构建初始小目标物体检测网络，具体方式如下：

步骤202：加入特征融合的卷积神经网络，并初始化随机参数得到初始小目标物体检测网络；

步骤3：使用步骤1中的训练数据集，采用随机梯度下降方法进行网络训练；对初始小目标物体检测网络进行训练；训练时设定超参数、学习速率；使总损失函数收敛到最优，得到训练完成的小目标物体检测网络；

步骤4：将待检测的图片依次输入到小目标物体检测网络中，进行特征提取得到模型输出结果。

原始的SSD算法的网络结构采用了VGG16模型来实现目标检测，其中的问题就是对于小物体的检测效果较差。由于这些危险物品在摄像头的拍摄下为小物体；因此本发明为了能识别出刀，枪各种对人身有危害的工具，并且也能识别出火焰；通过两种思路对目标检测进行改进，以达到相应目的；第一是将原始 VGG16中的普通卷积全部换成深度可分离卷积；第二是使用特征融合的方法，由于在摄像机的拍摄下，刀，枪等有危害的物体变成小物体，而SSD算法加深度可分离卷积的网络结构对小物体的检测效果不是特别好，所以需要使用特征融合的方法来提高对小物体的检测。故而达到小目标物体检测速度快、检测精度准确两者兼顾的技术效果。

在本实施例中，请参阅图2，在步骤201中，将原始VGG16卷积网络中的 3×3普通卷积层、BN函数和ReLU函数排布顺序对应修改为3×3逐通道卷积层、BN函数、ReLU函数；1×1逐点卷积层、BN函数、ReLU函数；所谓BN 函数可以使用更高的学习率；移除或使用较低的dropout；降低L2权重衰减系数；取消Local Response Normalization层减少图像扭曲的使用。卷积神经网络中，若不采用非线性激活，会导致神经网络只能拟合线性可分的数据，因此通常会在卷积操作后，添加非线性激活单元；这样做可以保证在得到相同的特征图的情况下深度可分离卷积所用的参数量是普通卷积的1/3，计算速度也会比原始的 VGG16网络模型要快。深度可分离卷积主要分为两个过程，分别为逐通道卷积 (DepthwiseConvolution)和逐点卷积(Pointwise Convolution)；逐通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，这个过程产生的 feature map通道数和输入的通道数完全一样；逐点卷积的运算与常规卷积运算非常相似，它的卷积核的尺寸为1×1×M，M为上一层的通道数。所以这里的卷积运算会将上一步的map在深度方向上进行加权组合，生成新的Feature map。有几个卷积核就有几个输出Feature map；因此在相同输入下，可分离卷积的参数个数是常规卷积的约1/3。因此，在参数量相同的前提下，采用深度可分离卷积的神经网络层数可以做的更深。

进一步的，在本实施例中，请参阅图3-图4，同时将原始VGG16卷积网络中的最大池化层Maxpooling2D采用过滤器大小为2×2、步长stride为2的逐通道卷积depthwise-convolution。从本质上说，深度可分离卷积就是3D卷积kernel 的分解(在深度channel上的分解)，而空间可分离卷积就是2D卷积kernel的分解(在WH上的分解)因此，深度可分离卷积的优势是高效。相比于2D卷积，深度可分离卷积的执行次数要少得多；但是在前述普通卷积层替换修改的基础上，能够对小目标物体进行精准提取组合。

更为优选的，请参阅图3-5，在步骤202中，在SSD检测网络中将第四层和第五层的特征通过自上而下进行模块融合，产生排列顺序在第四特征层检测层、第七特征检测层之间的中间特征层。传统SSD检测网络以VGG16为基础，形成 conv4_3、conv6、conv7、conv8_2、conv9_2、conv10_2、conv11_2；那么在本方法中就是将第四层和第五层的特征通过自上而下模块融合，产生中间特征用第 12层表示，同时删除第11层；原因就是：原始SSD网络结构的特征层第四层，第七层用来检测小物体，效果并不好，但现在我们又加上一个特征层第五层，用三个特征层来检测小物体，小对象的特征在低级层中很明显，所以，检测小物体的准确度会很高。而删除第11层是为了保持参数量不会太过庞大，保持检测速度不变(至少不能比原始的慢)，只用第10层来检测大物体。

在本实施例中，在步骤3中，先除此设定各个超参数，所谓超参数就是定义关于模型的更高层次的概念，如复杂性或学习能力。不能直接从标准模型培训过程中的数据中学习，需要预先定义。可以通过设置不同的值，训练不同的模型和选择更好的测试值来决定，在本方案中，超参数至少为：更新一次参数所需的图片批次(batch)，学习速率(learning-rate)等；并设定所需训练的epoch次数，所谓依次epoch次数代表为遍历整个训练集；同时在训练过程中，设定损失函数 loss为一个或多个batch个输入图像进行卷积网络提取特征并分类所得结果与数据集本身预测结果差值的平方；并用该损失函数loss对各个权重和偏差量进行梯度下降更新。作为优选，更进一步的，在经过多次epoch训练后，查看所得损失函数loss是否有下降和收敛趋势，如果没有收敛和下降趋势，则重新设定超参数，如果逐渐收敛则接近收敛时候停止训练。训练时采用水平反转、随机采集块域、随机裁剪等数据扩增方法来增强小目标训练样本，以此来提升网络的性能

在本实施例中，在步骤4中，进行特征提取后，通过softmax分类器完成目标的分类识别；得到模型输出结果。对于含有刀枪棍棒等危险物品的图片，分别放入训练好的卷积神经网络当中，提取好特征后，通过softmax分类器完成目标的分类识别。并判定是否含有刀，枪，火焰等，如果含有上述物品，则发送报警指令，否则读入下一帧图像。

还公开一种基于改进型SSD的小目标物体高精度检测系统，请参阅图6，应用上述的方法，包括，

存储模块1，用于存储包含有小目标对象的训练数据集；

训练模块2，用于利用训练数据集对初始小目标物体检测网络训练，以得到小目标物体检测网络

特征提取模块3，用于运行小目标物体检测网络，通过小目标物体检测网络得到特征数据集；

分类模块4，用于对特征数据集进行分类，并根据分类结果作出响应；当分类结果包含有危险品目标时，发送报警指令；当分类结果正常时，读取下一帧图像。通过内部运行有实现上述检测方法的系统程序，来达到在特定场景下的使用。

还公开一种基于改进型SSD的小目标物体高精度检测装置，包括有中央处理器，中央处理器运行上述的方法。

本发明的技术效果有：

采用SSD算法进行目标检测，SSD算法的核心是在特征图上使用小卷积核来预测固定尺寸default bounding boxes的类别分数和偏移量；为了提高准确率， SSD在不同大小的特征图上进行预测，通过纵横比分开预测。这些改进设计，实现了end-to-end训练并且保证较高的准确率，即是在低分辨率的图片上也能够保持高精度，因此，运行速度要比YOLO要快，同时准确率却能和Faster RCNN 相媲美。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、 “一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上” 来修饰。除非另外说明，“大约”、“近似”或“大体上”表明数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考，但与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

以上对本申请实施例所提供的基于SSD的特征融合与深度可分离卷积相结合的一种目标检测方法、系统及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于改进型SSD的小目标物体高精度检测方法，其特征在于，包括以下步骤：

步骤1：获取包含有小目标对象的训练数据集；

步骤2：构建初始小目标物体检测网络，具体方式如下：

2.根据权利要求1所述的基于改进型SSD的小目标物体高精度检测方法，其特征在于，在步骤201中，将原始VGG16卷积网络中的3×3普通卷积层、BN函数和ReLU函数排布顺序对应修改为3×3逐通道卷积层、BN函数、ReLU函数；1×1逐点卷积层、BN函数、ReLU函数。

3.根据权利要求2所述的基于改进型SSD的小目标物体高精度检测方法，其特征在于，同时将原始VGG16卷积网络中的最大池化层Maxpooling2D采用过滤器大小为2×2、步长stride为2的逐通道卷积替代。

4.根据权利要求1所述的基于改进型SSD的小目标物体高精度检测方法，其特征在于，在步骤202中，在SSD检测网络中将第四层和第五层的特征通过自上而下进行模块融合，产生排列顺序在第四特征层检测层、第七特征检测层之间的中间特征层。

5.根据权利要求4所述的基于改进型SSD的小目标物体高精度检测方法，其特征在于，在生成了中间特征层之后，同时删除第十一层。

6.根据权利要求1所述的基于改进型SSD的小目标物体高精度检测方法，其特征在于，在步骤3中，先除此设定各个超参数；并设定所需训练的epoch次数，同时在训练过程中，设定损失函数loss为一个或多个batch个输入图像进行卷积网络提取特征并分类所得结果与数据集本身预测结果差值的平方；并用该损失函数loss对各个权重和偏差量进行梯度下降更新。

7.根据权利要求6所述的基于改进型SSD的小目标物体高精度检测方法，其特征在于，更进一步的，在经过多次epoch训练后，查看所得损失函数loss是否有下降和收敛趋势，如果没有收敛和下降趋势，则重新设定超参数，如果逐渐收敛则接近收敛时候停止训练。

8.根据权利要求1所述的基于改进型SSD的小目标物体高精度检测方法，其特征在于，在步骤4中，进行特征提取后，通过softmax分类器完成目标的分类识别；得到模型输出结果。

9.一种基于改进型SSD的小目标物体高精度检测系统，其特征在于，应用权利要求1-8任一项所述的方法，包括，

存储模块，用于存储包含有小目标对象的训练数据集；

10.一种基于改进型SSD的小目标物体高精度检测装置，其特征在于，包括有中央处理器，所述中央处理器运行权利要求1-8任一项所述的方法。