CN116612292A

CN116612292A - 一种基于深度学习的小目标检测方法

Info

Publication number: CN116612292A
Application number: CN202310617739.6A
Authority: CN
Inventors: 卢奕南; 赵浩权; 赵柯贤
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-18

Abstract

本发明公开了一种基于深度学习的小目标检测方法，其方法为：第一步、获取图像样本，构建训练集；第二步、小目标检测模型的构建；第三步：将待检测的图像，利用上述第二步得到的小目标检测模型实现目标检测，有益效果：通过训练得到用于检测的改进版YOLO模型，使得整体网络结构不再臃肿，不仅压缩了网络模型，有效减少了计算量，并且更有效地利用了浅层次网络中提取的特征信息，在识别小目标物体上达到了理想的效果。采用基于双参数加权的完全交并比损失函数能让网络模型更加关注高交并比值目标，并有效提升小目标物体的检测准确度。

Description

一种基于深度学习的小目标检测方法

技术领域

本发明涉及一种小目标检测方法，特别涉及一种基于深度学习的小目标检测方法。

背景技术

目前，深度学习技术在计算机视觉领域取得了长足的进步。目标检测在输入图像中检测出所有感兴趣的目标，并确定这些目标出现的位置及对应的类别。传统的目标检测算法先通过滑动窗口获得大量候选区域，再对初步定位的区域提取特征，最后根据提取的特征使用训练的分类器进行检测。传统目标检测算法运算量大，并且识别效果和准确率并不理想。基于深度学习的目标检测方法主要分为两类，即两阶段目标检测和一阶段目标检测。YOLOv5作为一阶段目标检测算法，将对象检测重新定义为一个回归问题，使用CSPDarkNet-53作为主干网络对输入图像进行特征提取，并采用特征金字塔网络(FeaturePyramid Network，FPN)和路径聚合网络(Path Aggregation Network，PAN)进行多尺度特征融合，得到三个不同尺度的输出特征层，最终经过预测部分检测出物体类别和位置。当前的方法虽然对目标检测的速度和精度都有了一定程度的提高，但无法兼顾较小的局部特征，不足以在一些应用场景下应对小目标检测任务的精度要求，因此需要改进多尺度特征融合结构，优化损失函数计算，以便提升基于深度学习的目标检测模型对于小目标的检测性能。

发明内容

本发明的目的是为了解决现有的小目标检测方法中存在的无法兼顾较小的局部特征，不足以在一些应用场景下应对小目标检测任务的精度要求的问题，而提供的一种基于深度学习的小目标检测方法。

本发明提供的基于深度学习的小目标检测方法，其方法包括的步骤如下：

第一步、获取图像样本，构建训练集；

第二步、小目标检测模型的构建，具体步骤如下：

步骤1、在输入端对输入图像采用马赛克增强的方式进行数据预处理；

步骤2、通过主干网络来提取图像的特征；

步骤3、通过基于特征金字塔的结构将提取的特征进行处理得到多尺度融合特征；

在输入图像上进行深度卷积，不断进行下采样操作，再对高层特征进行上采样，对具有相同尺寸的特征图在通道维度上进行拼接操作，达到特征融合目的，即通过结合自上而下和自下而上方法获得较强的语义特征，运用浅层的细节信息提升模型对于小目标的检测性能；

步骤4、采用综合矩形框损失、分类损失和置信度损失的损失函数，其中矩形框损失是通过基于双参数加权的完全交并比损失来计算的，对深度网络进行训练，得到小目标检测模型，矩形框损失等同于基于双参数加权的完全交并比损失Loss_αβ-CIoU，具体公式如下：

其中b和bgt分别表示预测框和真实框的中心点，ρ表示两个中心点之间的欧式距离，c表示预测框和真实框的最小闭包区域的对角线距离，δ是权重参数，v用来衡量预测框宽高比和真实框宽高比的相似度，IoU是预测框与真实框的交并比，其中：

第三步：将待检测的图像，利用上述第二步得到的小目标检测模型实现目标检测，具体步骤如下：

在输入端对待检测的图像进行自适应黑边填充预处理；通过主干网络对输入图像进行特征提取；通过基于特征金字塔的网络结构将提取到的特征进行处理，得到多尺度的融合特征；通过预测端对于得到的多尺度融合特征图进行网格化预测，由预测出来的物体目标框和置信度获得图像的目标检测效果。

第二步的步骤2中的主干网络包括CBS卷积模块、CSP1_x模块和SPPF模块，在CBS模块中，Conv为卷积层，用于提取特征，通过对输入图像进行采样从而获得更加丰富的特征信息；BN为批量归一化，利用优化方差大小和均值分布，加速模型训练；SiLU为Swish激活函数，是Sigmoid加权线性组合。

第二步的步骤3中包含CBS模块、Upsample、Concat和CSP2_x模块，特征金字塔浅层的特征图语义信息较少，主要反映细节信息，其所携带的位置信息更强，深层的特征所携带的语义信息较丰富，而位置信息更弱，特征金字塔结构的思想就是通过特征融合把深层的语义信息与浅层的细节信息相结合，兼顾了细节和整体，基于FPN结构进行改进的具体实现过程如下：

网络主干部分的快速空间金字塔池化模块的输出经过1个卷积核大小为1×1的CBS模块，再通过采用最近邻差值方式的2倍上采样后与第6层的CSP1_x模块的输出执行拼接操作，将特征图在通道维度上进行拼接形成融合特征图，经过1个CSP2_x模块后，作为预测端的其中一个输入；在CSP2_x模块后继续通过1个卷积核大小为1×1的CBS模块和最近邻差值方式的2倍上采样，与第4层的CSP1_x模块的输出执行拼接操作，将特征图在通道维度上进行拼接形成融合特征图，再经过1个CSP2_x模块后，作为预测端的第二个输入；继续通过1个卷积核大小为1×1的CBS模块和最近邻差值方式的2倍上采样，与第2层的CSP1_x模块的输出执行拼接操作，将特征图在通道维度上进行拼接形成融合特征图，再经过CSP2_x模块后，作为预测端的第三个输入，此时获得3个不同尺寸的融合特征图。

第二步步骤4中得到小目标检测模型的具体步骤如下：

1)、网络模型的预测部分中，在3个不同尺寸的特征图上划分网格，每个网格都预设3个不同宽高比的锚框，用来预测和回归目标，预测时采取跨网格扩充的策略，即当1个GT的中心点落在某个检测层上的某个网格中，除了中心点所在的网格之外，其左、上、右、下4个邻域的网格中，靠近GT中心点的两个网格中的锚框也会参与预测和回归，具体公式如下所示：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w×(2σ(t_w))²

b_h＝p_h×(2σ(t_h))² (1)

其中bx、by、bw、bh表分别示预测框的中心点坐标、宽度和高度，cx、cy分别表示预测框中心点所在网格的左上角坐标，tx、ty分别控制预测框的中心点相对于网格左上角坐标的偏移量大小，tw、th分别控制预测框的宽高相对于锚框宽高的缩放比例，pw、ph分别表示先验锚框的宽和高，公式中使用Sigmoid函数处理偏移量，使预测的偏移值保持在(0,1)范围内，从而使得预测框中心点坐标的偏移量保持在(-0.5,1.5)范围内；

2)、对特征图的每个网格进行预测之后，将得到的预测信息与真实信息进行对比，从而调整模型的改进方向，损失函数能够衡量预测信息和真实信息之间的差距，若预测信息越接近真实信息，则损失函数值越小，损失函数主要包含三个方面：矩形框损失Loss_bbox、分类损失Loss_cls和置信度损失Loss_obj，具体公式如下：

Loss＝box_gain×Loss_bbox+cls_gain×Loss_cls+obj_gain×Loss_obj (2)

其中box_gain为矩形框损失的权重系数，设置为0.05，cls_gain为分类损失的权重系数，设置为0.5，obj_gain为置信度损失的权重系数，设置为1.0；

对于矩形框损失，使用基于交并比的损失函数进行计算，交并比能够衡量目标检测中预测框与真实框的重叠程度，若预测框为A，真实框为B，则交并比的具体公式如下：

YOLOv5计算矩形框损失，公式如下：

其中b和bgt分别表示预测框和真实框的中心点，ρ表示两个中心点之间的欧式距离，c表示预测框和真实框的最小闭包区域的对角线距离，δ是权重参数，v用来衡量预测框和真实框宽高比的相似度，具体公式如下：

在此基础上采用基于双参数加权的完全交并比损失Loss_αβ-CIoU的计算矩形框损失，具体公式如下：

对于分类损失，使用二元交叉熵函数计算，具体公式如下：

其中y为输入样本对应的标签，正样本为1，负样本为0，p为模型预测该输入样本为正样本的概率；

对于置信度损失，根据网格对应的预测框与真实框的αβ-CIoU值作为该预测框的置信度标签，并结合二元交叉熵函数进行计算，具体公式如下：

Loss_obj＝-Lable×log P-(1-Lable)×log(1-P) (8)

其中Lable为置信度标签矩阵，P为预测置信度矩阵；

对于不同尺度上检测到的置信度损失，按照检测层尺度从大到小的顺序，将对应尺度默认的权重系数分别改进为3.0、1.0、0.4，即用于检测小目标的大尺度特征图上的损失权重系数为3.0，能使得网络在训练时侧重于小目标；

3)、通过上述的损失函数，对网络模型进行多轮训练，在训练中不断调整参数，损失函数值逐渐减低，直至模型达到收敛，得到训练好的目标检测模型。

本发明的有益效果：

本发明提供的基于深度学习的小目标检测方法预先利用公开的图像数据集对YOLOv5 v6.1的模型进行改进，通过训练得到用于检测的改进版YOLO模型，该模型包括输入部分、主干部分，多尺度特征融合网络部分和预测部分。该方法改进特征融合部分的网络结构，使用FPN代替原先网络模型中的FPN+PAN结构，使得整体网络结构不再臃肿，不仅压缩了网络模型，有效减少了计算量，并且更有效地利用了浅层次网络中提取的特征信息，在识别小目标物体上达到了理想的效果。采用基于双参数加权的完全交并比损失函数能让网络模型更加关注高交并比值目标，并有效提升小目标物体的检测准确度。

附图说明

图1为本发明所述的利用公开的目标检测数据集训练模型的流程示意图。

图2为本发明所述的改进的目标检测网络模型结构示意图。

图3为本发明所述的CSB模块结构示意图。

图4为本发明所述的CSP1_x模块结构示意图。

图5为本发明所述的SPPF模块结构示意图。

图6为本发明所述的CSP2_x模块结构示意图。

图7为本发明所述的FPN结构示意图。

具体实施方式

请参阅图1至图7所示：

本发明提供的基于深度学习的小目标检测方法；

所需条件：普通PC机，操作系统采用Ubuntu 18.04.3，显卡NVIDIA GeForce RTX2080Ti，深度学习框架为Pytorch 1.8.1，编译环境Python3.6.13。

具体步骤如下：

第一步、获取图像样本，构建训练集；

第二步、小目标检测模型的构建，具体步骤如下：

步骤1、将待训练的图像数据集进行马赛克增强数据预处理。采用马赛克数据增强的方式，从数据集中每次随机读取4张图片分别进行翻转、缩放、色域变化等操作，再将4张图片按照左上、左下、右上、右下排列拼接成一张新的图片，主要用于丰富数据集并在训练过程中提升小目标检测的性能；

在本申请实施例中，目标检测数据集为VisDrone目标检测数据集。可以根据实际应用进行选取，本申请实施例不加以限定。

步骤2、通过主干网络提取图像特征，主要包括CBS卷积模块、CSP1_x模块和SPPF模块。在CBS模块中，Conv为卷积层，用于提取特征，通过对输入图像进行采样从而获得更加丰富的特征信息；BN为批量归一化，利用优化方差大小和均值分布，加速模型训练；SiLU为Swish激活函数，是Sigmoid加权线性组合，该模块结构如图3所示。另包含CSP1_x模块，如图4所示；SPPF模块如图5所示。通过以上模块提取图像特征；

步骤3、通过基于FPN结构的特征融合部分，将提取的图像特征进行多尺度融合，该部分包含CBS模块、Upsample、Concat、CSP2_x模块，CSP2_x模块结构如图6所示，FPN结构如图7所示。特征金字塔浅层的特征图语义信息较少，主要反映细节信息，其所携带的位置信息更强，深层的特征所携带的语义信息较丰富，而位置信息更弱。特征金字塔结构的思想就是通过特征融合把深层的语义信息与浅层的细节信息相结合，兼顾了细节和整体。基于FPN结构进行改进的具体实现过程如下：

步骤4、采用综合矩形框损失、分类损失和置信度损失的损失函数，其中矩形框损失是通过基于双参数加权的完全交并比损失来计算的，对深度网络进行训练，得到小目标检测模型。具体如下：

1)、网络模型的预测部分中，在3个不同尺寸的特征图上划分网格，每个网格都预设3个不同宽高比的锚框，用来预测和回归目标。预测时采取跨网格扩充的策略，即当1个GT的中心点落在某个检测层上的某个网格中，除了中心点所在的网格之外，其左、上、右、下4个邻域的网格中，靠近GT中心点的两个网格中的锚框也会参与预测和回归，具体公式如下所示：

其中bx、by、bw、bh表分别示预测框的中心点坐标、宽度和高度，cx、cy分别表示预测框中心点所在网格的左上角坐标，tx、ty分别控制预测框的中心点相对于网格左上角坐标的偏移量大小，tw、th分别控制预测框的宽高相对于锚框宽高的缩放比例，pw、ph分别表示先验锚框的宽和高。公式中使用Sigmoid函数处理偏移量，使预测的偏移值保持在(0,1)范围内，从而使得预测框中心点坐标的偏移量保持在(-0.5,1.5)范围内。

2)、对特征图的每个网格进行预测之后，将得到的预测信息与真实信息进行对比，从而调整模型的改进方向。损失函数可以衡量预测信息和真实信息之间的差距，若预测信息越接近真实信息，则损失函数值越小。本发明的损失函数主要包含三个方面：矩形框损失(Loss_bbox)、分类损失(Loss_cls)、置信度损失(Loss_obj)具体公式如下：

Loss＝box_gain×Loss_bbox+cls_gain×Loss_cls+obj_gain×Loss_obj (2)

其中box_gain为矩形框损失的权重系数，本发明设置为0.05，cls_gain为分类损失的权重系数，本发明设置为0.5，obj_gain为置信度损失的权重系数，本发明设置为1.0。

对于矩形框损失，使用基于交并比的损失函数进行计算。交并比可以衡量目标检测中预测框与真实框的重叠程度，若预测框为A，真实框为B，则交并比的具体公式如下：

YOLOv5计算矩形框损失，公式如下：

本发明在此基础上采用基于双参数加权的完全交并比损失Loss_αβ-CIoU的计算矩形框损失，具体公式如下：

对于分类损失，使用二元交叉熵函数计算，具体公式如下：

其中y为输入样本对应的标签(正样本为1，负样本为0)，p为模型预测该输入样本为正样本的概率。

Loss_obj＝-Lable×log P-(1-Lable)×log(1-P) (8)

其中Lable为置信度标签矩阵，P为预测置信度矩阵。

对于不同尺度上检测到的置信度损失，按照检测层尺度从大到小的顺序，将对应尺度默认的权重系数分别改进为3.0、1.0、0.4，即用于检测小目标的大尺度特征图上的损失权重系数为3.0，能使得网络在训练时侧重于小目标。

第三步、将待检测的图像，利用上述第二步得到的小目标检测模型实现目标检测，具体实现过程如下。

先对输入图像进行自适应图片缩放，将原始图片自适应添加最少黑边，再将处理后的待检测图像输入主干网络提取特征；通过FPN结构的特征融合部分将提取的特征进行处理得到多尺度融合特征图；通过预测端处理多尺度融合特征图预测出物体的类别、边界框以及置信度；由预测出来的物体类别、置信度、边界框信息获得图像最终的目标检测效果。

Claims

1.一种基于深度学习的小目标检测方法，其特征在于：其方法包括的步骤如下：

第一步、获取图像样本，构建训练集；

第二步、小目标检测模型的构建，具体步骤如下：

步骤2、通过主干网络来提取图像的特征；

2.根据权利要求1所述的一种基于深度学习的小目标检测方法，其特征在于：所述的第二步的步骤2中的主干网络包括CBS卷积模块、CSP1_x模块和SPPF模块，在CBS模块中，Conv为卷积层，用于提取特征，通过对输入图像进行采样从而获得更加丰富的特征信息；BN为批量归一化，利用优化方差大小和均值分布，加速模型训练；SiLU为Swish激活函数，是Sigmoid加权线性组合。

3.根据权利要求1所述的一种基于深度学习的小目标检测方法，其特征在于：所述的第二步的步骤3中包含CBS模块、Upsample、Concat和CSP2_x模块，特征金字塔浅层的特征图语义信息较少，主要反映细节信息，其所携带的位置信息更强，深层的特征所携带的语义信息较丰富，而位置信息更弱，特征金字塔结构的思想就是通过特征融合把深层的语义信息与浅层的细节信息相结合，兼顾了细节和整体，基于FPN结构进行改进的具体实现过程如下：

4.根据权利要求1所述的一种基于深度学习的小目标检测方法，其特征在于：所述的第二步的步骤4中得到小目标检测模型的具体步骤如下：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w×(2σ(t_w))²

b_h＝p_h×(2σ(t_h))² (1)

Loss＝box_gain×Loss_bbox+cls_gain×Loss_cls+obj_gain×Loss_obj (2)

YOLOv5计算矩形框损失，公式如下：

对于分类损失，使用二元交叉熵函数计算，具体公式如下：

Loss_obj＝-Lable×logP-(1-Lable)×log(1-P) (8)

其中Lable为置信度标签矩阵，P为预测置信度矩阵；