CN111199255A

CN111199255A - 基于darknet53网络的小目标检测网络模型及检测方法

Info

Publication number: CN111199255A
Application number: CN201911426015.3A
Authority: CN
Inventors: 王伟栋; 沈修平
Original assignee: SHANGHAI ULUCU ELECTRONIC TECHNOLOGY CO LTD
Current assignee: SHANGHAI ULUCU ELECTRONIC TECHNOLOGY CO LTD
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-26

Abstract

本发明提供了一种基于darknet53网络的小目标检测网络模型及检测方法。检测网络模型包括基于darknet53网络的特征提取模块，多尺寸特征融合模块，特征增强模块以及边界回归模块。检测方法的具体步骤为：将待检测的图像输入特征提取模块获取图像的多尺寸深层特征；多尺寸特征融合模块对上述多尺寸深层特征进行分组融合；融合后的特征分别通过特征增强模块进一步增强特征表现力；将边界回归模块作用于增强后的特征定位图中的目标物体。该项发明能够获取到更多小目标的位置信息并将其与小目标的语义信息有效地结合，大大增加了小目标的检出率。

Description

基于darknet53网络的小目标检测网络模型及检测方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于darknet53网络的小目标检测网络模型及检测方法。

背景技术

目标检测是计算机视觉领域中的热门研究方向，其被广泛应用于人脸识别、智能驾驶及智能监控等多种领域。目标检测的任务是从图像中判断目标物体的存在与否并对其进行定位。由于人工智能技术的迅速发展，基于深度神经网络的目标检测方法在检测效率及准确率方面均要优于传统的目标检测方法。

基于深度神经网络的目标检测网络模型可分为单阶和双阶两种类型，单阶网络因其轻量、高效的特点加上不弱于双阶网络的检测准确率成为工业应用的首选，但只能对固定大小的图像进行检测，即对输入图像的尺寸存在较大的限制。

相对于大目标，小目标在图像中特性是占用的像素少，纹理及边缘特征不明显，由于单阶网络对于图像尺寸的限制进一步放大了小目标的特性，导致了单阶网络对于小目标检测的检出率较低。

发明内容

本发明的目的在于提供一种基于darknet53网络的小目标检测网络模型及检测方法，用于提高单阶检测网络对于小目标的检出率，实现对于小目标的有效检测。

第一方面，本发明提供一种基于darknet53网络的小目标检测网络模型，该网络模型由特征提取模块、多尺寸特征融合模块、特征增强模块以及边界回归模块组成；

其中，特征提取模块以经过预处理的待检图像作为输入，特征提取模块的输出端连接多尺寸特征融合模块的输入端，每一个多尺寸特征融合模块的输出端分别依次连接一个特征增强模块和一个边界回归模块；

所述特征提取模块通过对输入图像的非线性变换得到多种尺寸的深层特征，模块内部结构基于darknet53网络，该网络每一个残差块的输出特征的宽高均为前一个残差块输出特征尺寸的1/2；多尺寸特征融合模块对输入的深层特征通过上采样至相同尺寸后进行融合；

特征增强模块和边界回归模块由一系列的卷积层组成，每一个融合得到的特征图经过特征增强模块和边界回归模块中卷积操作得到小目标的检测结果。

进一步的，作为优选的实现方式，在darknet53网络的第二个残差块中增加两个残差单元。

进一步的，作为优选的实现方式，多尺寸特征融合模块包含多个反卷积层和融合模块，每一反卷积层的输入端用于接收一种尺寸的深层特征，输出端连接一个融合模块的输入端。

进一步的，作为优选的实现方式，特征增强模块的网络采用残差块的网络结构，可包含2-3个残差单元。

进一步的，作为优选的实现方式，特征提取模块中的残差块内核大小为3x3，步长为1的卷积层结构为分组卷积。

进一步的，作为优选的实现方式，特征融合模块中在反卷积层前加入深度可分离卷积层用于接收深层特征。

第二方面，本项发明提供一种基于darknet53网络的小目标检测方法，该方法包括如下步骤：

1)对训练集中的图像进行归一化并缩放至32的整数倍大小；

2)设置边界回归模块中初始候选框的宽高；

3)使用经过预处理的训练集图像对网络模型进行训练；

4)将待检测的图像输入经过训练的网络模型对图中的小目标进行检测，输出小目标类别和位置的检测结果；

5)根据预设的类别置信度阈值及重叠度阈值对检测结果进行过滤，得到最终的检测结果。

进一步的，作为优选的实现方式，步骤1中将图像的像素归一化至0～1之间，并通过最近邻插值将图像尺寸缩放至512x512。

进一步的，作为优选的实现方式，步骤2中使用Kmeans算法找到训练数据目标框在不同类别数下的聚类中心并通过计算相应的平均重叠度，根据平均重叠度随着类别数增多的梯度变化选择最佳的类别个数及对应的聚类中心作为初始候选框。

进一步的，作为优选的实现方式，步骤3对网络的训练过程中提取后四个残差块的输出，依次得到尺寸大小分别为128x128,64x64,32x32,16x16四层的深层特征；分别融合前三层特征和后三层特征，融合从最下层的特征开始，依次通过深度可分离卷积层和反卷积层将宽高调整至与上一层特征相同后向上逐层进行融合。

进一步的，作为优选的实现方式，步骤5中对于检测结果的过滤方法可采用软性非极大值抑制。

附图说明

图1是darknet53结构图。

图2是残差单元的结构图。

图3是检测网络中作为优选的特征提取模块的结构图。

图4是检测网络中作为优选的多尺寸特征融合模块的结构图。

图5是本发明中检测方法的流程图。

图6是本发明检测方法a)与ssd，faster-rcnn等方法b)在较大场景中检测小目标的对比结果。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的说明：

本发明提供一种基于darknet53网络的小目标检测网络模型及检测方法。

图3和图4是检测网络的结构图，如图所示，检测网络包括特征提取模块，多尺寸特征融合模块，特征增强模块以及边界回归模块。

其中特征提取模块的内部网络结构基于darknet53网络，darknet53网络的结构如图1所示。特征提取模块在darknet53网络的基础上移除了最后的平均池化层，全连接层和softmax层，同时在第二个残差块中增加了两个残差单元，以获取更多小目标的位置信息；同时将残差单元中核大小为3x3的卷积层的卷积方式由全通道卷积调整为分组卷积，以减少网络参数。残差单元的结构如图2所示。

残差单元内1x1大小的全通道卷积层的输出特征图在输入到后一层分组卷积层中后按通道数被均分成四组，同样层内的卷积核数量也被分成与之对应的4组。每一组卷积核在与其对应的每一组输入特征图上执行全卷积操作。

进一步地，将2、3、4、5四个残差块的输出定义为特征提取模块输出端与多尺寸特征融合模块的输入端相连，输出四层特征对应的尺寸分别为128x128、64x64、32x32、16x16。

多尺度特征融合模块分别将128x128、64x64、32x32以及64x64、32x32、16x16三种尺寸的特征进行融合，融合的具体步骤如下：

1)将尺寸最小的特征图通过深度可分离卷积与反卷积生成尺寸大小为原来两倍的新特征图；

2)将步骤1)中生成的特征图与中间层的特征图按通道数拼接；

3)将拼接后的特征重复上述步骤1)、2)的操作，最终分别得到尺寸大小为128x128及64x64的两种特征图。

两种特征图分别通过特征增强和边界回归输出尺寸为(n/2)x128x128x(类别数+5)和(n/2)x64x64x(类别数+5)预测结果，该结果包含目标所属类别的置信度以及相对于n种不同尺寸候选框的偏移量。

图5是检测方法的流程图，具体步骤如下：

1)首先将训练图像的尺寸通过最近邻插值法缩放至512x512，随后将像素值归一化至[0,1]区间。

2)根据图像尺寸缩放的比例调整对应目标框的大小，通过Kmeans聚类算法计算出当前训练数据集关于聚类中心数量的平均重叠度。平均重叠度的计算公式如下：

上式中N表示训练样本中目标框的总数，n表示聚类中心的个数，n_j表示第j个类中包含目标框的个数，s_i,j表示位于第i个类中的第j个目标框，c_i表示第i个聚类中心。随着聚类中心数量的增多，平均重叠度的梯度变化逐渐趋向于0，在此前提下，选择平均重叠度最高的聚类中心作为用于边界回归的初始候选框。

3)将预处理后的训练样本输入检测网络，根据网络输出的检测结果以及真实的目标框位置和类别信息计算对应的定位损失，分类损失及置信度损失；将三者求和做为训练网络的目标损失函数。公式如下：

L＝L_loc+L_cls+L_conf

L_loc＝L_Δ(cx,xy)+L_Δ(w,h)

其中L_loc是定位损失，其大小由Smooth L1计算预测目标框相对于真实目标框的中心位置偏移和宽高偏移的误差得到。

分类损失L_cls是对包含目标的预测目标框对于目标类别判断的误差，具体的计算公式如下：

其中n表示包含目标的预测目标框的总数，m表示类别数，{y_i＝j}是指示函数，当第i个预测目标框包含第j类目标时为1，反之为0。p_i ^j表示第i个目标框包含第j类目标的概率。

置信度损失L_conf是对所有预测目标框对于属于前、背景判断的误差，具体的计算公式如下：

其中c表示预测框属于前景的置信度。

4)完成待测图像的预处理操作后，用训练好的网络模型对待测图像中的目标进行检测，输出预测结果。

5)将每个预测目标框类别置信度与预设的类别置信度阈值进行比较，删除最大置信度小于该阈值的预测目标框；对余下的预测目标框利用软性非极大值抑制作进一步过滤，得到最终的检测结果。

Claims

1.基于darknet53网络的小目标检测网络模型，其特征在于，该网络模型由特征提取模块、多尺寸特征融合模块、特征增强模块以及边界回归模块组成；

2.根据权利要求1所述的基于darknet53网络的小目标检测网络模型，其特征在于，在darknet53网络的第二个残差块中增加两个残差单元。

3.根据权利要求1所述的基于darknet53网络的小目标检测网络模型，其特征在于，多尺寸特征融合模块包含多个反卷积层和融合模块，每一反卷积层的输入端用于接收一种尺寸的深层特征，输出端连接一个融合模块的输入端。

4.根据权利要求1所述的基于darknet53网络的小目标检测网络模型，其特征在于，特征增强模块的网络采用残差块的网络结构，可包含2-3个残差单元。

5.根据权利要求1所述的基于darknet53网络的小目标检测网络模型，其特征在于，特征提取模块中的残差块内核大小为3x3，步长为1的卷积层结构为分组卷积。

6.根据权利要求1所述的基于darknet53网络的小目标检测网络模型，其特征在于，特征融合模块中在反卷积层前加入深度可分离卷积层用于接收深层特征。

7.基于darknet53网络的小目标检测方法，该方法包括如下步骤：

1)对训练集中的图像进行归一化并缩放至32的整数倍大小；

2)设置边界回归模块中初始候选框的宽高；

3)使用经过预处理的训练集图像对网络模型进行训练；

8.根据权利要求7所述的基于darknet53网络的小目标检测方法，其特征在于，步骤1中将图像的像素归一化至0～1之间，并通过最近邻插值将图像尺寸缩放至512x512。

9.根据权利要求7所述的基于darknet53网络的小目标检测方法，其特征在于，步骤2中使用Kmeans算法找到训练数据目标框在不同类别数下的聚类中心并通过计算相应的平均重叠度，根据平均重叠度随着类别数增多的梯度变化选择最佳的类别个数及对应的聚类中心作为初始候选框。

10.根据权利要求7所述的基于darknet53网络的小目标检测方法，其特征在于，步骤3对网络的训练过程中提取后四个残差块的输出，依次得到尺寸大小分别为128x128,64x64,32x32,16x16四层的深层特征；分别融合前三层特征和后三层特征，融合从最下层的特征开始，依次通过深度可分离卷积层和反卷积层将宽高调整至与上一层特征相同后向上逐层进行融合。