CN109492674B

CN109492674B - 用于目标检测的ssd框架的生成方法及装置

Info

Publication number: CN109492674B
Application number: CN201811222696.7A
Authority: CN
Inventors: 朱睿; 石海林; 张士峰; 王晓波; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2020-11-03
Anticipated expiration: 2038-10-19
Also published as: CN109492674A

Abstract

本发明实施例提供一种用于目标检测的SSD框架的生成方法及装置，获取初始SSD框架，初始SSD框架中的特征提取网络和目标检测网络均未经过预训练，对初始SSD框架的结构进行改进，得到改进SSD框架，改进SSD框架中的特征提取网络的第一个单元为卷积单元，改进SSD框架中包括批标准化操作，对改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对改进SSD框架进行训练，得到训练后的SSD框架；可见，在生成SSD框架时，无需借助预训练网络模型，而是对初始SSD框架的结构进行改进，使得改进SSD框架在保证目标检测准确性的前提下，避免预训练网络对SSD框架带来的局限性，提高SSD框架的灵活性。

Description

用于目标检测的SSD框架的生成方法及装置

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种用于目标检测的SSD框架的生成方法及装置。

背景技术

目标检测(Object Detection)是计算机视觉研究领域的热点和难点问题，应用在无人驾驶、无人仓储物流中、智能机器人等。目标检测要解决的问题是：通过目标框找出图像或视频中某些类别的物体，并且给出该物体属于某一类别的概率，即一种位置坐标回归与类别预测结合的任务。近年来，随着深度学习与卷积神经网络的发展，目标检测技术得以应用在实际场景中。

目前，基于深度学习的目标检测算法包括：R-CNN、Faster-RCNN(中文全称快速区域候选网络，英文全称：Towards Real-Time Object Detection with Region ProposalNetworks)、SSD(中文全称：单次多框检测器，英文全称：Single Shot MultiBoxDetector)。下面以SSD框架为例进行说明：SSD框架包括特征提取网络和目标检测网络，其中，特征提取网络用于对图像进行特征提取，目标检测网络用于根据提取的特征进行位置回归和目标类别的预测，从而识别该图像中的物体类别。

由于深度学习过程需要大量的训练数据，而针对某种特定需求的目标数据集中的样本数量通常是有限的。因此，现有技术中，为了提高检测准确率，在使用SSD框架时，通常会借助预训练网络模型(例如：借助在ImageNet数据库上经过预训练的VGG网络模型)。具体的，首先获取在ImageNet数据库上经过预训练的VGG网络模型，然后使用目标数据集中的样本对预训练的VGG网络模型进行微调(fine-tune)，以使微调后的VGG网络模型适用于该特定需求的检测任务；将微调后的VGG网络模型应用到SSD框架中作为特征提取网络。在使用该SSD框架进行目标提取时，将待检测图像输入至SSD框架中，根据SSD框架的输出结果则可以确定该图像的目标检测结果。

然而，上述现有技术至少存在如下问题：使用预训练网络模型使得SDD框架在使用过程中存在很多限制，导致SDD框架的灵活度不高。主要体现在以下方面：ImageNet数据库与目标数据集之间存在图像“域”的差距，导致预训练网络模型在目标数据集的检测结果并不是最优；另外，如果需要修改SSD框架中的网络模型的结构，则需要在ImgeNet数据库上重新训练新的网络模型，需要耗费较大的计算资源和时间成本。

发明内容

本发明实施例提供一种用于目标检测的SSD框架的生成方法及装置，通过对现有的SSD框架的结构进行改进，使得改进后的SSD框架在保证目标检测准确性的前提下，避免预训练网络对SSD框架带来的局限性，提高SSD框架的灵活性。

第一方面，本发明实施例提供一种用于目标检测的SSD框架的生成方法，包括：

获取初始SSD框架，所述初始SSD框架包括：特征提取网络和目标检测网络，所述特征提取网络中包括至少一个卷积单元和至少一个降采样单元，所述卷积单元和所述降采样单元间隔设置，所述目标检测网络包括至少一个检测单元，各所述检测单元与各所述卷积单元一一对应连接；所述特征提取网络和所述目标检测网络均未经过预训练；

对所述初始SSD框架的结构进行改进处理，得到改进SSD框架，所述改进SSD框架中的所述特征提取网络的第一个单元为卷积单元，所述改进SSD框架中包括批标准化操作；

对所述改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对所述改进SSD框架进行训练，得到训练后的SSD框架。

可选的，所述特征提取网络中的部分卷积单元和部分降采样单元组成第一子网络，其余卷积单元和其余降采样单元组成第二子网络，所述第一子网络的结构为VGG网络模型的结构；

所述对所述初始SSD框架的结构进行改进处理，得到改进SSD框架，包括：

对所述特征提取网络和/或所述目标检测网络进行批标准化处理，得到改进SSD框架。

可选的，所述卷积单元包括卷积层和激活层，所述检测单元包括卷积层和激活层；

所述对所述特征提取网络和/或所述目标检测网络进行批标准化处理，得到改进SSD框架，包括：

针对所述特征提取网络中的各所述卷积单元和/或所述目标检测网络中的各所述检测单元，在所述卷积层和所述激活层之间增加批标准化层。

可选的，所述VGG网络模型为VGG-16网络模型。

可选的，所述特征提取网络中的部分卷积单元和部分降采样单元组成第一子网络，其余卷积单元和其余降采样单元组成第二子网络，所述第一子网络的结构为ResNet网络的结构；

将所述ResNet网络中的第一个降采样单元删除，以使所述特征提取网络的第一个单元为卷积单元。

可选的，所述对所述初始SSD框架的结构进行改进处理，得到改进SSD框架，还包括：

将所述ResNet网络中第一个卷积单元中的7*7的卷积层替换为3个3*3的卷积层。

将所述第二子网络中的各卷积单元的结构修改为与所述ResNet网络中的各卷积单元相同的残差结构。

可选的，所述ResNet网络为ResNet-18网络或者ResNet-34网络。

第二方面，本发明实施例提供一种用于目标检测的SSD框架的生成装置，包括：

获取模块，用于获取初始SSD框架，所述初始SSD框架包括：特征提取网络和目标检测网络，所述特征提取网络中包括至少一个卷积单元和至少一个降采样单元，所述卷积单元和所述降采样单元间隔设置，所述目标检测网络包括至少一个检测单元，各所述检测单元与各所述卷积单元一一对应连接；所述特征提取网络和所述目标检测网络均未经过预训练；

改进模块，用于对所述初始SSD框架的结构进行改进处理，得到改进SSD框架，所述改进SSD框架中的所述特征提取网络的第一个单元为卷积单元，所述改进SSD框架中包括批标准化操作；

训练模块，用于对所述改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对所述改进SSD框架进行训练，得到训练后的SSD框架。

所述改进模块具体用于：对所述特征提取网络和/或所述目标检测网络进行批标准化处理，得到改进SSD框架。

所述改进模块具体用于：针对所述特征提取网络中的各所述卷积单元和/或所述目标检测网络中的各所述检测单元，在所述卷积层和所述激活层之间增加批标准化层。

可选的，所述VGG网络模型为VGG-16网络模型。

所述改进模块具体用于：将所述ResNet网络中的第一个降采样单元删除，以使所述特征提取网络的第一个单元为卷积单元。

可选的，所述改进模块还具体用于：将所述ResNet网络中第一个卷积单元中的7*7的卷积层替换为3个3*3的卷积层。

可选的，所述改进模块还具体用于：将所述第二子网络中的各卷积单元的结构修改为与所述ResNet网络中的各卷积单元相同的残差结构。

可选的，所述ResNet网络为ResNet-18网络或者ResNet-34网络。

第三方面，本发明实施例提供一种用于目标检测的SSD框架的生成设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的方法。

本发明实施例提供的用于目标检测的SSD框架的生成方法及装置，该方法获取初始SSD框架，所述初始SSD框架包括：特征提取网络和目标检测网络，所述特征提取网络和所述目标检测网络均未经过预训练，对所述初始SSD框架的结构进行改进处理，得到改进SSD框架，所述改进SSD框架中的所述特征提取网络的第一个单元为卷积单元，所述改进SSD框架中包括批标准化操作，对所述改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对所述改进SSD框架进行训练，得到训练后的SSD框架；可见，在生成SSD框架时，无需借助经过预训练的网络模型，而是通过对现有的SSD框架的结构进行改进，使得改进后的SSD框架在保证目标检测准确性的前提下，避免预训练网络对SSD框架带来的局限性，提高SSD框架的灵活性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中使用SSD框架进行目标检测的过程示意图；

图2为本发明实施例提供的SSD框架的生成方法的流程示意图一；

图3为本发明实施例提供的SSD框架的结构示意图一；

图4为本发明实施例提供的SSD框架的生成方法的流程示意图二；

图5为本发明实施例提供的SSD框架的结构示意图二；

图6A为现有技术中的卷积单元的结构示意图；

图6B为本发明实施例提供的卷积单元的结构示意图；

图7A至图7C为本发明实施例提供的SSD框架的实验结果对比示意图一；

图8A至图8C为本发明实施例提供的SSD框架的实验结果对比示意图二；

图9为本发明实施例提供的SSD框架的生成方法的流程示意图三；

图10A为现有技术的ResNet网络的结构示意图；

图10B为本发明实施例提供的ResNet网络的结构示意图；

图11为本发明实施例提供的卷积单元的残差结构的示意图；

图12为本发明实施例提供的用于目标检测的SSD框架的生成装置的结构示意图；

图13为本发明实施例提供的用于目标检测的SSD框架的生成设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对本发明实施例中涉及到的英文缩写以及专业名词进行简单介绍。

SSD：中文全称为单次多框检测器，英文全称为Single Shot MultiBox Detector，SSD框架属于一种一阶段的目标检测技术，SSD框架在应用了多种数据增广方法的同时，使用多个尺度的特征图来进行特征提取，极大的提高了目标检测速度，从而SSD检测框架能够达到实时检测。

VGG网络模型：VGG全称是Visual Geometry Group属于牛津大学科学工程系，其发布了一些列以VGG开头的卷积网络模型，可以应用在人脸识别、图像分类等方面，分别从VGG16～VGG19。

ResNet网络模型：ResNet的英文全称为Residual Neural Network，是一种深度残差网络模型，包括ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152等。

批标准化：英文全称为Batch Normalization，英文简称为BN，又叫批量归一化，是一种用于改善人工神经网络的性能和稳定性的技术。批标准化是一种为神经网络中的任何层提供零均值/单位方差输入的技术。

图1为现有技术中使用SSD框架进行目标检测的过程示意图，如图1所示，需要首先获取在ImageNet数据库上经过预训练的VGG网络模型，然后使用目标数据集中的样本对预训练的VGG网络模型进行微调，将微调后的VGG网络模型应用到SSD框架中作为特征提取网络。在使用该SSD框架进行目标提取时，将待检测图像输入至SSD框架中，根据SSD框架的输出结果则可以确定该图像的目标检测结果。

然而，上述现有技术中，使用预训练网络模型使得SDD框架在使用过程中存在很多限制，导致SDD框架的灵活度不高。主要体现在以下方面：(1)ImageNet数据库与目标数据集之间存在图像“域”的差距，例如：当目标数据集为医疗图像、卫星图像、多通道图像时，ImageNet数据库中的图像与目标数据集中的中图像存在的图像“域”的差距较大。虽然使用目标数据集对预训练网络模型进行了微调，但是，微调作为一种迁移学习，图像“域”之间的差距很难弥补，导致借助预训练网络生成的SSD框架的检测结果并不是最优。(2)借助预训练网络模型生成SSD框架，使得SSD框架中的特征提取网络的结构无法修改，如果需要修改SSD框架中的特征提取网络的结构，则需要在ImgeNet数据库上重新训练新的网络模型，需要耗费较大的计算资源和时间成本。

为了解决上述问题，本发明实施例提供一种用于目标检测的SSD框架的生成方法及装置，其中，在生成SSD框架时，无需借助经过预训练的网络模型，而是通过对现有的SSD框架的结构进行改进，使得改进后的SSD框架在保证目标检测准确性的前提下，避免预训练网络对SSD框架带来的局限性，提高SSD框架的灵活性。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明实施例提供的SSD框架的生成方法的流程示意图一，如图2所示，本实施例的方法，包括：

S201：获取初始SSD框架，所述初始SSD框架包括：特征提取网络和目标检测网络，所述特征提取网络中包括至少一个卷积单元和至少一个降采样单元，所述卷积单元和所述降采样单元间隔设置，所述目标检测网络包括至少一个检测单元，各所述检测单元与各所述卷积单元一一对应连接；所述特征提取网络和所述目标检测网络均未经过预训练。

图3为本发明实施例提供的SSD框架的结构示意图一，如图3所示，SSD框架包括特征提取网络和目标检测网络，所述特征提取网络用于对图像进行特征提取，所述目标检测网络用于根据提取的特征进行位置回归和目标类别的预测，从而得到图像的目标检测结果。

具体的，特征提取网络中包括至少一个卷积单元和至少一个降采样单元，如图3所示，卷积单元前面或者后面的黑色竖线表示降采样单元。可以理解的，卷积单元用于通过卷积操作提取图像中的特征。在两个卷积单元之间设置降采样单元，使得各卷积单元可提取图像中不同尺度的特征。

下面举例说明，假设图3中第一个卷积单元提取的特征尺度为300*300，经过一个降采样单元后，使得第二个卷积单元提取的特征尺度为150*150，再经过一个降采样单元后，使得第三个卷积单元提取的特征尺度为75*75，以此类推。

需要说明的是，本发明实施例对于特征提取网络中的卷积单元的数量以及降采样单元的数量不作限定，可以根据实际应用中图像的大小进行合理设置。图3中示例的是特征提取网络中包括9个卷积单元的情况，9个卷积单元分别用于提取不同尺度的特征。

如图3所示，目标检测网络包括至少一个检测单元，其中，每个检测单元中包括用于位置回归的卷积核和用于分类的卷积核。可以理解的，卷积单元提取到图像的特征后，将提取的特征输入到对应的检测单元，由检测单元进行位置回归和目标类别的预测，从而得到图像的目标检测结果。

需要说明的是，检测单元的数量可以与卷积单元的数量相同，即每个卷积单元均连接一个检测单元；当然，检测单元的数量还可以小于卷积单元的数量，即只有部分卷积单元连接检测单元。在具体应用过程中，可以根据图像的大小以及SSD框架的目标检测速度合理设置检测单元的数量，以及检测单元与卷积单元的连接关系，本发明实施例对此不作具体限定。

一种可选的实施方式中，如图3所示，图3示例的只有部分卷积单元连接了检测单元的情况，由于图3中前3个卷积单元并未连接检测单元，前3个卷积单元提取的特征并未参与位置回归和目标类别的预测，也就是说，图3所示的SSD框架中前3个卷积单元并未使用。由于前面的卷积单元与后面的卷积单元相比提取的特征尺度较大，使得计算量较大，进而会拉低SSD框架的目标检测速度，因此，图3所示的实施方式中，为了提高SSD框架的目标检测速度，前3个卷积单元未使用。需要说明的是，在具体应用中，可以根据实际情况设计使用哪些卷积单元，图3所示仅为示例，本发明并不以此为限。

可选的，所述特征提取网络为卷积神经网络，具体可以为下述网络模型中的任一：VGG网络模型、ResNet网络模型。针对两种可选网络模型的具体实施方式可以参见后续实施例的详细描述，本发明实施例不作具体限定。

本发明实施例与现有技术不同之处在于，现有技术中的特征提取网络采用的是经过预训练的网络模型，而本发明实施例中，初始SSD框架中的特征提取网络和目标检测网络均是未经过任何预训练的网络模型。并且，在后续S202和S203的实施过程中，也无需对特征提取网络和目标检测网络进行任何的预训练过程。

S202：对所述初始SSD框架的结构进行改进处理，得到改进SSD框架，所述改进SSD框架中的所述特征提取网络的第一个单元为卷积单元，所述改进SSD框架中包括批标准化操作。

本实施例中，基于未经过任何预训练过程的初始SSD框架，对初始SSD框架的结构进行改进，以使所述改进SSD框架中的所述特征提取网络的第一个单元为卷积单元，所述改进SSD框架中包括批标准化操作。

具体的，现有的可用于特征提取的卷积神经网络模型，通常由多个卷积单元和多个降采样单元间隔设置组成，其中，有些网络模型的第一个单元为卷积单元，例如VGG网络模型，有些网络模型的第一个单元为降采样单元，例如ResNet网络模型。对于上述两种类型的网络模型，分别具有各自的优势，其中，第一个单元为卷积单元的网络模型，由于提取的特征最大程度保留了原图位置信息和细节，因此，该类任务适用于检测任务；而第一个单元为降采样单元的网络模型则更适用于分类任务，因为分类任务更看重的是图像的整体信息，并且，第一个单元为降采样单元还能够减少计算量，提升网络模型的处理速度。

本实施例中，对于第一个单元为卷积单元的网络模型(例如VGG网络模型)，由于第一个卷积单元是对原始图像进行特征提取，能够保证原图特征信息不丢失，因此，在对初始SSD框架进行改进过程中，若初始SSD框架中特征提取网络中的第一个单元为卷积单元，则该特征提取网络的结构可以保持不变；对于第一个单元为降采样单元的网络模型(例如ResNet网络模型)，由于是对图像进行先进行降采样再进行卷积，使得图像中的原始信息损失较多，因此，为了提升目标检测的性能，在对初始SSD框架进行改进过程中，若初始SSD框架中特征提取网络中的第一单元为降采样单元，则可以对特征提取网络的结构进行改进，以使特征提取网络中的第一个单元为卷积单元。

另外，本实施例中改进SSD框架中还包括了批标准化操作。由于在卷积神经网络中，每一层的输入值随着网络层数的加深，其分布逐渐发生偏移或者变动，导致训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近，因此导致反向传播时低层神经网络的梯度消失。而本实施例中的批标准化操作，用于将每个神经元的输入的分布强制拉回到标准的正态分布，使得非线性变换的函数值落入到对输入比较敏感的区域，从而使得梯度消失大幅度减缓。本实施例中，通过在SSD框架中包括批标准化操作，使得各层的梯度一直保持正态分布，在训练过程中对神经网络的参数调整效率较高，能够提高SSD框架的收敛速度。

S203：对所述改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对所述改进SSD框架进行训练，得到训练后的SSD框架。

本实施例中，通过对初始SSD框架进行改进得到改进SSD框架后，采用随机初始化的方式对改进SSD框架的参数进行初始化。然后，采用目标数据集中的样本对改进SSD框架进行训练，得到训练后的SSD框架。

需要说明的是，采用目标数据集中的样本对改进SSD框架进行训练的过程与现有技术中的微调过程类似，此处不再赘述。

得到训练后的SSD框架后，采用该SSD框架对图像进行目标检测的过程，与现有技术类此，此处不再赘述。

本实施例中，由于改进SSD框架中特征提取网络的第一个单元为卷积单元，即第一个卷积单元提取的特征尽量保证了原图信息不丢失，提高了目标检测的准确性，尤其提高了对小物体的检测准确率；由于改进SSD框架包括批标准化操作，避免了梯度消失的问题，使得各层的梯度一直保持正态分布，在训练过程中对神经网络的参数调整效率较高，能够提高SSD框架的收敛速度。因此，本实施例生成的SSD框架能够保证快速收敛，并保证目标检测的准确性。

本发明实施例提供的SSD框架的生成方法，获取初始SSD框架，所述初始SSD框架包括：特征提取网络和目标检测网络，所述特征提取网络和所述目标检测网络均未经过预训练，对所述初始SSD框架的结构进行改进处理，得到改进SSD框架，所述改进SSD框架中的所述特征提取网络的第一个单元为卷积单元，所述改进SSD框架中包括批标准化操作，对所述改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对所述改进SSD框架进行训练，得到训练后的SSD框架；可见，本实施例在生成SSD框架时，无需借助经过预训练的网络模型，而是通过对现有的SSD框架的结构进行改进，使得改进后的SSD框架在保证目标检测准确性的前提下，避免预训练网络对SSD框架带来的局限性，提高SSD框架的灵活性。

下面采用一个具体的实施例描述采用VGG网络模型时的SSD框架的生成过程以及目标检测效果。

图4为本发明实施例提供的SSD框架的生成方法的流程示意图二，再上述实施例的基础上，如图4所示，本实施例的方法，包括：

S401：获取初始SSD框架，所述初始SSD框架包括：特征提取网络和目标检测网络，所述特征提取网络中包括至少一个卷积单元和至少一个降采样单元，所述卷积单元和所述降采样单元间隔设置，所述目标检测网络包括至少一个检测单元，各所述检测单元与各所述卷积单元一一对应连接；所述特征提取网络和所述目标检测网络均未经过预训练；所述特征提取网络中的部分卷积单元和部分降采样单元组成第一子网络，其余卷积单元和其余降采样单元组成第二子网络，所述第一子网络的结构为VGG网络模型的结构。

可选的，所述VGG网络模型为VGG-16网络模型。

图5为本发明实施例提供的SSD框架的结构示意图二。本实施例的S401与上述实施例中S201的实施方式类似，此处不再赘述，不同之处在于，如图5所示，本实施例中，特征提取网络被划分为第一子网络和第二子网络，第一子网络中各卷积单元和降采样单元采用VGG网络模型的结构。第二子网络用于对第一子网络进行扩充，以使特征提取网络能够提取图像的多个不同尺度的特征。如图5所示，第一子网络的各卷积单元分别用于提取如下尺度的特征：300*300、150*150、75*75、38*38、19*19，第二子网络的各卷积单元分别用于提取如下尺度的特征：10*10、5*5、3*3、1*1。

具体的，本实施例中第二子网络中的各卷积单元和降采样单元可以采用与VGG网络模型相同的堆叠结构。

S402：对所述特征提取网络和/或所述目标检测网络进行批标准化处理，得到改进SSD框架。

本实施例中，特征提取网络中采用的是VGG网络模型，VGG网络模型中的第一个单元是卷积单元，因此，无需对卷积单元和降采样单元的顺序进行任何调整。

在对初始SSD框架进行改进时，需要对特征提取网络和/或目标检测网络进行批标准化处理。也就是说，包括3种改进方式，第一种改进方式中，仅对目标检测网络进行批标准化处理，第二种改进方式中，仅对特征提取网络进行批标准化处理，第三种改进方式中，对特征提取网络和目标检测网络均进行批标准化处理。

下面给出一种可选的进行批标准化处理的实施方式。针对所述特征提取网络中的各所述卷积单元和/或所述目标检测网络中的各所述检测单元，在所述卷积层和所述激活层之间增加批标准化层。

下面举例说明：图6A为现有技术中的卷积单元的结构示意图，图6B为本发明实施例提供的卷积单元的结构示意图。如图6A所示，现有技术中卷积单元包括卷积层和激活层，在对特征提取网络进行批标准化处理时，可以针对每个卷积单元，在卷积层和激活层之间增加批标准化层，得到如图6B的改进后的卷积单元。其中，批标准化层可以具体包括批处理层和扰动层。

可以理解的，由于现有技术中检测单元的结构与卷积单元的结构类似，在对检测单元进行批标准化处理时，同样可以采用在卷积层和激活层之间添加批标准化层的方式，此处不作赘述。

S403：对所述改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对所述改进SSD框架进行训练，得到训练后的SSD框架。

本实施例中S403的实施方式与上述实施例中的S203类似，此处不作赘述。

下面针对上述三种改进方式分别描述图5所示的SSD框架的目标检测效果。

首先，本发明实施例验证SSD框架的目标检测效果所使用的数据集为PASCAL VOC2007、2012，其中，在PASCAL VOC 2007、2012的训练集+验证集上进行训练，在VOC 2007上的测试集进行结果验证。

(1)仅对目标检测网络进行批标准化处理。

该改进方式下，下面结合下述三种情况的对比结果进行分析。

情况一：在SSD框架的任意位置均未添加批标准化操作，随机初始化SSD框架的参数，并采用SSD的默认学习率0.001；

情况二：在SSD框架的目标检测网络中添加批标准化操作，随机初始化SSD框架的参数，并采用SSD的默认学习率0.001；

情况三：在SSD框架的目标检测网络中添加批标准化操作，随机初始化SSD框架的参数，并采用SSD的10倍学习率0.01。

图7A示例的是情况一、情况二和情况三对应的训练损失函数值，图7B示例的是情况一、情况二和情况三对应的梯度的L2正则化值，图7C示例的是情况一、情况二和情况三对应的梯度的L2正则化值的波动幅度。

需要说明的是，图7A至图7C所示的实验结果数据可以通过多种方式得到，本发明实施例对此不作具体限定。下面仅以其中一种可选的方式为例进行说明，在训练过程中，根据目标检测网络的损失函数输出的损失函数值，得到图7A中的曲线，通过对全部梯度的L2正则化值进行求和，得到图7B中的曲线，然后对图7B中的L2正则化值进行差分并平滑处理得到图7C中的曲线。

其中，情况一对应的SSD框架的目标检测准确率67.6％mAP，情况二对应的SSD框架的目标检测准确率提升为71.0％mAP，情况三对应的SSD框架的目标检测准确率提升为75.6％mAP。

对比情况一和情况二，在目标检测网络中添加了批标准化操作之后，梯度的L2正则化值的波动情况有所缓解(梯度变得相对可预测)，损失函数值下降，优化空间相对更加平滑，使得目标检测准确率从67.6％提升到71.0％mAP。某种程度上降低了不稳定梯度带来的梯度爆炸、损失函数值突变以及收敛到局部最优的概率。

对比情况二和情况三，由于在目标检测网络添加了批标准化操作，优化空间相对更加平滑，梯度更加稳定可预测，情况三中在梯度稳定可预测的基础上，使用相对较大的学习率，可以进行较大步长的迭代学习，因此能够搜索到全局最优的点，使得检测准确率也进一步从71.0％mAP提升到75.6％mAP。

(2)仅对特征提取网络进行批标准化处理。

情况二：在SSD框架的特征提取网络中添加批标准化操作，随机初始化SSD框架的参数，并采用SSD的默认学习率0.001；

情况三：在SSD框架的特征提取网络中添加批标准化操作，随机初始化SSD框架的参数，并采用SSD的10倍学习率0.01；

图8A示例的是情况一、情况二和情况三对应的训练损失函数值，图8B示例的是情况一、情况二和情况三对应的梯度的L2正则化值，图8C示例的是情况一、情况二和情况三对应的梯度的L2正则化值的波动幅度。

需要说明的是，图8A至图8C所示的实验结果数据的生成方法与图7A至图7C类似，此处不作赘述。

其中，情况一对应的SSD框架的目标检测准确率67.6％mAP，情况二对应的SSD框架的目标检测准确率提升为72.8％mAP，情况三对应的SSD框架的目标检测准确率提升为77.8％mAP。

对比情况一、情况二和情况三的趋势也与第一种改进方式中相同，在特征提取网络中添加批标准化操作之后，梯度变得稳定可预测，损失函数值也进一步下降，使用10倍的学习率亦然。但是，只在特征提取网络上添加批标准化操作得到的性能提升，相比只在目标检测网络上添加批标准化操作得到的性能提升大很多(77.8％mAP vs 75.6％mAP)，其原因可以归结到卷积层的数目上，特征提取网络包含的卷积层数、参数量比目标检测网络包含的卷积层数、参数量多很多，因此，得到的目标检测性能提升也更好。

(3)对特征提取网络和目标检测网络均进行批标准化处理。

该改进方式中，在特征提取网络和目标检测网络都添加批标准化操作，并且使用更大的学习率(50倍，0.05)，得到了更好的目标检测准确率78.7％mAP，与现有技术中使用预训练网络模型初始化的SSD框架的参数得到的目标检测准确率77.2％mAP相比，提升了1.5％mAP。

在现有的卷积神经网络模型中，ResNet网络在分类任务中表现出较好的分类能力。因此，在上述实施例的基础上，本发明实施例还结合ResNet网络模型的优势，通过对ResNet网络模型的结构进行改进，使其同样适用于检测任务，并将其应用到SSD框架中，以进一步提升SSD框架的目标检测性能。下面采用一个具体的实施例描述采用ResNet网络模型时的SSD框架的生成过程以及目标检测效果。

图9为本发明实施例提供的SSD框架的生成方法的流程示意图三，在上述图2所示实施例的基础上，如图9所示，本实施例的方法，包括：

S901：获取初始SSD框架，所述初始SSD框架包括：特征提取网络和目标检测网络，所述特征提取网络中包括至少一个卷积单元和至少一个降采样单元，所述卷积单元和所述降采样单元间隔设置，所述目标检测网络包括至少一个检测单元，各所述检测单元与各所述卷积单元一一对应连接；所述特征提取网络和所述目标检测网络均未经过预训练；所述特征提取网络中的部分卷积单元和部分降采样单元组成第一子网络，其余卷积单元和其余降采样单元组成第二子网络，所述第一子网络的结构为ResNet网络的结构。

可选的，所述ResNet网络为ResNet-18网络或者ResNet-34网络。

需要说明的是，由于ResNet网络中，各卷积单元中本身已包括了批标准化层，因此，本实施例中，对ResNet网络进行改进时，无需再增加批标准化的处理。

本实施例中的S902、S903和S904均是对ResNet网络结构的改进方式，这三种方式可以分别独立实施，还可以结合在一起实施，本发明实施例不作具体限定。

S902：将所述ResNet网络中的第一个降采样单元删除，以使所述特征提取网络的第一个单元为卷积单元。

具体的，图10A为现有技术的ResNet网络的结构示意图，图10B为本发明实施例提供的ResNet网络的结构示意图，如图10A所示，现有技术中ResNet网络中的第一个单元为降采样单元。由于分类与检测任务对平移不变性的敏感度不同，分类任务需要降采样来获得用于分类的特征图，而检测任务中的位置信息却容易伴随着降采样而丢失。现有的ResNet网络中，由于第一个处理单元为降采样单元，使得ResNet网络在分类任务中的性能较好。然而，当ResNet网络应用到本实施例中的检测任务中时，由于第一个卷积单元是对降采样后的图像进行特征提取，损失了一半的原图信息，尤其是小物体的位置信息更易损失。本发明实施例中，为了最大程度的保留原图信息，将ResNet网络中的第一个降采样单元删除，得到如图10B所示的结构，即，ResNet网络中第一个单元为卷积单元。

本实施例中，在特征提取网络中采用ResNet-18的结构，在PASCALVOC 2007、2012的训练集+验证集上训练，在VOC 2007上的测试集做结果验证。对SSD框架中采用现有技术中的ResNet网络结构进行实验，得到的目标检测性能为73.1％mAP；对SSD框架中采用经过S902改进后的ResNet网络的结构进行实验，得到的目标检测性能从73.1％mAP提升到77.6％mAP，即，通过步骤S902的改进使测试结果得到了4.5％mAP的增长。

S903：将所述ResNet网络中第一个卷积单元中的7*7的卷积层替换为3个3*3的卷积层。

现有技术中的ResNet网络中，第一个卷积单元中均为7*7的卷积层，本实施例中，在S902的基础上，将现有技术中的ResNet网络中第一个卷积单元中的7*7的卷积层替换为同等参数量的3个3*3的卷积层，使得SSD框架的目标检测性能从77.6％mAP提升到78.5％mAP。

在S903的基础上，将ResNet-18换成相对较深的网络ResNet-34，使得SSD框架的目标检测性能从78.5％mAP提升到80.5％mAP。

本实施例提供的SSD框架的结构与图5类似，不同之处在于将VGG网络替换为本实施例中通过上述步骤改进后的ResNet网络，此处不再赘述。

S904：将所述第二子网络中的各卷积单元的结构修改为与所述ResNet网络中的各卷积单元相同的残差结构。

在上述改进步骤的基础上，为了减少参数量与计算量以提升目标检测速度，本实施例中，将图5中的第二子网络中的各卷积单元的结构修改为与ResNet网络中的各卷积单元相同的残差结构，其中，每个卷积单元的残差结构如图11所示。得到的SSD框架的目标检测性能为80.4％mAP。

可见，本实施例中，通过将第二子网络的各卷积单元的结构修改为残差结构，在SSD框架的目标检测性能小幅降低(只有0.1％mAP)的同时，能够大大减少SSD框架的参数量和计算量。

S905：对所述改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对所述改进SSD框架进行训练，得到训练后的SSD框架。

为了进一步验证本发明实施例生成的SSD框架的目标检测性能，还采用MS COCO数据集中进行验证。具体的，在同等输入图片大小的情况下，在MS COCO数据集达到的目标检测性能为32.7％AP，尤其在小物体检测上，达到的目标检测性能为13.0％AP，均高于大部分使用预训练网络的算法。具体测试结果数据详见表1所示，其中，Det300表示采用本发明实施例生成的SSD框架在MS COCO数据集中进行测试，“Det300+”表示在本发明实施例生成的SSD框架的基础上使用多尺度的测试方法进行测试，根据表1可知，采用多尺度测试方法，本发明实施例生成的SSD框架能够达到更优的目标检测性能。

表1

方法	AP	AP<sub>50</sub>	AP<sub>75</sub>	AP<sub>S</sub>	AP<sub>M</sub>	AP<sub>L</sub>
							Det300	32.7	52.2	34.9	13.0	35.6	49.0
Det300+	39.1	59.2	42.6	23.1	43.5	51.0

图12为本发明实施例提供的用于目标检测的SSD框架的生成装置的结构示意图，如图12所示，本实施例的用于目标检测的SSD框架的生成装置1200，包括：获取模块1201、改进模块1202和训练模块1203。

其中，获取模块1201，用于获取初始SSD框架，所述初始SSD框架包括：特征提取网络和目标检测网络，所述特征提取网络中包括至少一个卷积单元和至少一个降采样单元，所述卷积单元和所述降采样单元间隔设置，所述目标检测网络包括至少一个检测单元，各所述检测单元与各所述卷积单元一一对应连接；所述特征提取网络和所述目标检测网络均未经过预训练；

改进模块1202，用于对所述初始SSD框架的结构进行改进处理，得到改进SSD框架，所述改进SSD框架中的所述特征提取网络的第一个单元为卷积单元，所述改进SSD框架中包括批标准化操作；

训练模块1203，用于对所述改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对所述改进SSD框架进行训练，得到训练后的SSD框架。

所述改进模块1202具体用于：对所述特征提取网络和/或所述目标检测网络进行批标准化处理，得到改进SSD框架。

所述改进模块1202具体用于：针对所述特征提取网络中的各所述卷积单元和/或所述目标检测网络中的各所述检测单元，在所述卷积层和所述激活层之间增加批标准化层。

可选的，所述VGG网络模型为VGG-16网络模型。

所述改进模块1202具体用于：将所述ResNet网络中的第一个降采样单元删除，以使所述特征提取网络的第一个单元为卷积单元。

可选的，所述改进模块1202还具体用于：将所述ResNet网络中第一个卷积单元中的7*7的卷积层替换为3个3*3的卷积层。

可选的，所述改进模块1202还具体用于：将所述第二子网络中的各卷积单元的结构修改为与所述ResNet网络中的各卷积单元相同的残差结构。

可选的，所述ResNet网络为ResNet-18网络或者ResNet-34网络。

本发明实施例提供的用于目标检测的SSD框架的生成装置，可用于执行上述任一方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

图13为本发明实施例提供的用于目标检测的SSD框架的生成设备的结构示意图，如图13所示，本实施例提供的用于目标检测的SSD框架的生成设备1300，包括：至少一个处理器1301和存储器1302。其中，处理器1301、存储器1302通过总线1303连接。

在具体实现过程中，至少一个处理器1301执行所述存储器1302存储的计算机执行指令，使得至少一个处理器1301执行上述任一方法实施例提供的SSD框架的生成方法。

处理器1301的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图13所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述任一方法实施例中的SSD框架的生成方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用于目标检测的单次多框检测SSD框架的生成方法，其特征在于，包括：

对所述改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对所述改进SSD框架进行训练，得到训练后的SSD框架；

其中，对所述初始SSD框架的结构进行改进处理，包括：

若所述特征提取网络的第一个单元为降采样单元，则将所述第一个单元删除；

若所述特征提取网络和所述目标检测网络中不包括批标准化层，则针对所述特征提取网络中的各所述卷积单元和所述目标检测网络中的各所述检测单元，在卷积层和激活层之间增加批标准化层。

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络中的部分卷积单元和部分降采样单元组成第一子网络，其余卷积单元和其余降采样单元组成第二子网络，所述第一子网络的结构为VGG网络模型的结构。

3.根据权利要求2所述的方法，其特征在于，所述VGG网络模型为VGG-16网络模型。

4.根据权利要求1所述的方法，其特征在于，所述特征提取网络中的部分卷积单元和部分降采样单元组成第一子网络，其余卷积单元和其余降采样单元组成第二子网络，所述第一子网络的结构为ResNet网络的结构。

5.根据权利要求4所述的方法，其特征在于，所述对所述初始SSD框架的结构进行改进处理，得到改进SSD框架之后，还包括：

6.根据权利要求4所述的方法，其特征在于，所述对所述初始SSD框架的结构进行改进处理，得到改进SSD框架之后，还包括：

7.根据权利要求4至6任一项所述的方法，其特征在于，所述ResNet网络为ResNet-18网络或者ResNet-34网络。

8.一种用于目标检测的单次多框检测SSD框架的生成装置，其特征在于，包括：

训练模块，用于对所述改进SSD框架中参数进行随机初始化，并采用目标数据集中的样本对所述改进SSD框架进行训练，得到训练后的SSD框架；

其中，所述改进模块具体用于：

9.根据权利要求8所述的装置，其特征在于，所述特征提取网络中的部分卷积单元和部分降采样单元组成第一子网络，其余卷积单元和其余降采样单元组成第二子网络，所述第一子网络的结构为VGG网络模型的结构。

10.根据权利要求9所述的装置，其特征在于，所述VGG网络模型为VGG-16网络模型。

11.根据权利要求8所述的装置，其特征在于，所述特征提取网络中的部分卷积单元和部分降采样单元组成第一子网络，其余卷积单元和其余降采样单元组成第二子网络，所述第一子网络的结构为ResNet网络的结构。

12.根据权利要求11所述的装置，其特征在于，所述改进模块还具体用于：将所述ResNet网络中第一个卷积单元中的7*7的卷积层替换为3个3*3的卷积层。

13.根据权利要求11所述的装置，其特征在于，所述改进模块还具体用于：将所述第二子网络中的各卷积单元的结构修改为与所述ResNet网络中的各卷积单元相同的残差结构。

14.根据权利要求11至13任一项所述的装置，其特征在于，所述ResNet网络为ResNet-18网络或者ResNet-34网络。

15.一种用于目标检测的单次多框检测SSD框架的生成设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至7任一项所述的方法。