CN115272819A

CN115272819A - 一种基于改进Faster-RCNN的小目标检测方法

Info

Publication number: CN115272819A
Application number: CN202210836139.4A
Authority: CN
Inventors: 邵香迎; 郭颖; 王友伟; 王季宇; 鲍正位
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-01

Abstract

本发明涉及计算机视觉技术领域，具体是一种基于改进Faster‑RCNN的小目标检测方法，包括以下步骤：数据预处理：将研究数据加载，进行数据增强处理；模型训练：将增强处理过的数据送入检测网络中，经过多次迭代训练，获得最优的网络模型；模型测试：加载训练好的网络模型，提取测试集中的目标特征信息，判断其位置及对应类别，得到最终的检测结果；本发明提出将全局与局部特征进行交互，得到全局‑局部特征信息，送入检测头进行检测，解决误检、漏检问题。此外，主干网络特征经过横向增强模块送入FPN中，加强对通道目标信息的关注，提升小目标检测效果。

Description

一种基于改进Faster-RCNN的小目标检测方法

技术领域

本发明涉及计算机视觉技术领域，具体是一种基于改进Faster-RCNN的小目标检测方法。

背景技术

目标检测是计算机视觉领域的重要研究方向之一，主要任务是对所获得的图片数据中的目标进行检测，获得其精确的位置以及类别信息。随着卷积神经网络的快速发展，目标检测目前已经取得了很好的研究效果，在实际生活中也得到了广泛应用。但是针对于小目标检测(目标像素在整体图片所占区域小于32x32像素)仍然存在一些困难。由于其目标像素少，特征表达能力弱，容易与背景混淆的特性，导致小目标难以被检测。目前主流的目标检测算法在小目标上的检测效果远远低于中、大目标的检测效果。

经检索，专利CN202110204503.2提出一种基于Faster-RCNN的小目标检测识别方法，采用DIOU处理锚框，有效表示预测框与真实框的位置关系，对微小偏差有很强的鲁棒性。在ROI Align采用双三性插值计算四个坐标位置，使得小目标信息丢失更少。专利CN202010760862.X提出一种基于过采样Faster-RCNN提高小目标检测率的方法，通过对数据集中的小目标进行过采样，训练网络模型，提高模型对小目标特征的学习程度，从而提高小目标的检测效率，而本发明提出了一种不同于上述乃至现有技术中的小目标检测方法。

发明内容

本发明的目的在于提供一种基于改进Faster-RCNN的小目标检测方法，以解决上述背景技术中提出的问题。

本发明的技术方案是：一种基于改进Faster-RCNN的小目标检测方法，包括以下步骤：

S1、数据预处理：将研究数据加载，进行数据增强处理；

S2、模型训练：将增强处理过的数据送入检测网络中，经过多次迭代训练，获得最优的网络模型；包括将增强处理过的数据送入主干网络，经过局部自注意力模块与全局自注意力模块得到不同尺寸的特征图以及将得到的特征图送入横向增强模块，获得新的特征图M2-M5；

S3、模型测试：加载训练好的网络模型，提取测试集中的目标特征信息，判断其位置及对应类别，得到最终的检测结果。

优选的，所述S1中，数据预处理的具体操作为：将原始数据经过DataLoader，得到图片及其标签信息，经过预处理操作，将原始数据首先进行逐步裁剪，重叠尺寸为50，得到多个固定尺寸640x640大小的图片，其次进行包括随机翻转、填充的操作，以提高小目标在图像中的多样性，得到更多的图片，优化增强小目标信息，加强对其检测程度。

优选的，所述S2中，模型训练的具体操作为：

S21、将图片送入主干网络，经过局部自注意力模块与全局自注意力模块得到不同尺寸的特征图；

S22、将得到的特征图送入横向增强模块，小尺度特征图经过卷积和亚像素卷积得到大尺度特征图，将其与相邻高分辨特征图进行融合，得到包含更多信息的特征；经过全局最大池化、卷积、sigmoid激活函数得到对应通道权值信息，与特征进行加权求和，得到Mi(i＝2，3，4)，以加强通道信息关注度，优化小目标检测；

S23、将所得到的特征图进行融合，经过反卷积和3x3卷积操作，得到P2-P5；

S24、通过3x3卷积，以滑动窗口机制，得到多个锚点位置，在每个锚点位置以3个尺度、3个比例得到9个锚框，整体获得K个锚框，利用IOU确定正、负、忽略样本；经过采样策略，分别选择256个正负样本对RPN进行训练，将锚框送入训练好的RPN网络，最终经过NMS得到2000个proposal；

S25、将proposal映射到特征图上，获得该特征图上对应该proposal的目标特征信息，经过FC全连接层得到特征向量，分别送入两个检测分支，进行分类与回归检测。

优选的，所述S21中，全局注意力模块的Q来自于该层的初始输入特征，其K，V来自该层局部自注意力模块的输出特征。

优选的，所述S21中，特征图作为全局特征，直接与局部特征进行拼接融合，得到含有全局与局部信息的特征，然后送入检测头进行检测。

优选的，所述S21中，特征图送入LEM、FPN模块，通过特征提取、融合得到局部特征。

优选的，所述S23中，将最深层输出经过以步长为2的最大池化下采样操作，得到更深层P6。

优选的，所述S24中，分类采用softmax损失函数，回归采用smoothL1损失函数。

优选的，所述S25中，分类分支采用两个全连接层对特征向量进行学习，获得预测的类别精度值，将其与真实类别进行focal loss损失函数学习，经过多次迭代学习，得到最精确的类别精度。

优选的，所述S25中，回归分支采用两个卷积层，得到对应的位置参数预测，将其与GT框得到的位置参数进行smoothL1损失函数学习，经过多次迭代，得到最终的精确网络模型。

本发明通过改进在此提供一种基于改进Faster-RCNN的小目标检测方法，与现有技术相比，具有如下改进及优点：

对于小目标在图片中占比小，涵盖信息少，特征表达能力不足等问题，对原始数据进行均匀裁剪，大尺寸图片转变为多个小尺寸图片，这既增加了数据集的数量，又在一定程度上增强了小目标的信息表示；对裁剪后的图片进行随机翻转，填充等操作，可扩充数据集数量；生成全局与局部特征，经融合后送入检测头，可提升检测效果；提出横向增强模块，加强关注通道信息，可提高小目标特征表达能力；针对上述改进，得到一个新的小目标网络模型，提高小目标检测精度。

附图说明

下面结合附图和实施例对本发明作进一步解释：

图1为本发明的结构流程图；

图2为本发明的模型框架图；

图3为本发明的GL特征生成图；

图4为本发明的LEM结构图。

具体实施方式

下面对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种基于改进Faster-RCNN的小目标检测方法，本发明的技术方案是：

一种基于改进Faster-RCNN的小目标检测方法，其结构流程图如图1所示，整体分为三个阶段，第一阶段为数据预处理阶段，将研究数据加载，进行数据增强处理后，送入网络模型中。第二阶段为训练阶段，将处理过的数据送入检测网络中，经过多次迭代训练，获得最优的网络模型。第三阶段为测试阶段，根据训练模型学习到的最优参数，对测试集数据进行学习，判断其位置及对应类别，得到最终的检测结果，具体步骤如下：

S1、数据预处理阶段：

首先，对图片及其标签信息进行加载，其次对其进行均匀裁剪，使得大尺寸图片转变为多个小尺寸图片，这既增加了数据集的数量，又在一定程度上增强了小目标的信息表示。其中重叠度设置为50，这是为了防止获得的数据存在目标截断现象。最后对裁剪后的图片进行随机翻转，填充等操作，进一步扩充数据集数量；

S2、模型训练阶段：

S21、参考图3，将图片送入主干网络，经过局部自注意力机制与全局自注意力机制得到目标特征信息，全局注意力模块的Q来自于该模块的初始输入特征，其K，V来自该层局部自注意力模块的输出特征。经过3x3卷积操作，特征图尺寸变为原来的1/2，送入图3的GL模块，得到新的特征图。依次操作，得到不同尺寸的特征图。所得的特征图有两个作用：1.作为全局特征，在ROI部分与局部特征进行拼接融合，得到含有全局与局部信息的特征，然后送入检测头进行检测。2.送入LEM、FPN模块，通过特征提取、融合得到局部特征；

S22、参考图4，将特征图送入LEM模块，获得新的特征图M2-M5。具体操作如下：将C5经过3x3卷积，使得通道数转变为原来的4倍，随后将其经过sub-pixel卷积，得到与C4尺寸相同的特征图C5*。随即将特征图C5*与C4进行add融合，得到包含更多信息的特征图。经过全局最大池化、普通卷积、sigmoid激活函数得到对应通道权值信息，与特征进行加权求和，得到M4。依次操作，得到特征图M2，M3。通过此操作可加强对通道目标信息的关注，从而增强小目标检测效果。针对C5层，采用多比例操作获得多个尺度特征图，利用注意力机制对其进行加权求和，得到M5；

S23、将所得到的特征图进行融合，经过反卷积和3x3卷积，BN，ReLU操作，得到P2-P5。将最深层输出经过以步长为2的最大池化下采样操作，得到更深层P6；

S24、RPN网络首先对得到的特征图经过3x3卷积，利用滑动窗口机制得到多个锚点，根据不同的比例和尺度，每个锚点处得到9个锚框，最终一共获得K个锚框。利用IOU将其与数据标注的真实框进行计算，若得到的IOU值大于所设定阈值，则为正样本，否则为负样本或忽略样本。在正负样本中进行随机采样，分别获得256个正负样本，送入RPN网络进行训练，得到RPN网络模型。将锚框送入学习，对其进行位置回归和判定前背景操作。得到该锚框更加接近于GT框的proposal并判定其属于前背景类别后，仍存在大量proposal。结合每个proposal的类别值及其回归值，对其进行降序排列，采用NMS操作，保留前2000个proposal，去除其余冗余框。在RPN训练过程中，采用softmax损失对其进行粗分类，采用SmoothL1损失函数进行位置回归。

L_cls(p_i,p_i*)＝-[p_i*log(p_i)+(1-p_i*)log(1-p_i)]

S25、参考图2，将全局特征与局部特征进行拼接融合，得到包含全局与局部的特征信息。将RPN输出的proposal与该特征图进行特征对齐，得到该proposal在该特征图上对应的特征信息，送入后续检测头进行精细检测，确定其具体类别和更加接近于真实框的检测框。将得到的特征向量送入FC全连接层，最后将其送入两个检测分支网络中。一个是分类分支，采用两个全连接层，得到预测的类别精度值，将其与真实类别进行损失函数学习，经过多次迭代学习，得到精确的类别精度。损失函数采用的是Focal Loss函数。具体公式如下：

L_cls(p_t)＝-α_t(1-p_t)^γlog(p_t)

一个是回归预测分支，采用两个卷积层，得到对应的位置参数预测，将其与GT框得到的位置参数进行损失函数学习，经过多次迭代，得到最终的精确检测框。回归损失函数采用的是SmoothL1函数。具体公式如下：

总损失函数为：

S3、模型测试阶段：

针对测试集的研究数据，对其进行与训练集数据操作相同的数据预处理操作，得到尺寸更小，数量更多的数据图片。通过上面的模型训练阶段，得到了一个训练好的目标检测网络。采用训练好的模型参数，检测测试数据的位置信息及其类别信息，得到最终的检测结果。

需要进一步说明的是，本方案的操作系统为Ubuntu16.04，深度学习框架为Pytorch1.5.0、torchvision0.6.0，Python版本为3.7，2张RTX2080 Ti GPU进行实现。输入图像的尺寸为640x640，初始学习率为0.005，batch size设置为4，设置最大训练epoch为24个，在训练到第16个epoch和第20个epoch时，分别将学习率减少为原来的1/10。采用随机梯度下降(SGD)算法来优化网络的权重，其动量设置为0.9，衰减为0.0001。采用平均精度(Average Precision，AP)和平均召回率(Average Recall，AR)作为评价指标。

综上，对于小目标在图片中占比小，涵盖信息少，特征表达能力不足等问题，对原始数据进行均匀裁剪，大尺寸图片转变为多个小尺寸图片，这既增加了数据集的数量，又在一定程度上增强了小目标的信息表示；对裁剪后的图片进行随机翻转，填充等操作，可扩充数据集数量；生成全局与局部特征，经融合后送入检测头，可提升检测效果；提出横向增强模块，加强关注通道信息，可提高小目标特征表达能力；针对上述改进，得到一个新的小目标网络模型，提高小目标检测精度。

上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于改进Faster-RCNN的小目标检测方法，其特征在于：包括以下步骤：

S1、数据预处理：将研究数据加载，进行数据增强处理；

2.根据权利要求1所述的一种基于改进Faster-RCNN的小目标检测方法，其特征在于：所述S1中，数据预处理的具体操作为：将原始数据经过DataLoader，得到图片及其标签信息，经过预处理操作，将原始数据首先进行逐步裁剪，重叠尺寸为50，得到多个固定尺寸640x640大小的图片，其次进行包括随机翻转、填充的操作，以提高小目标在图像中的多样性，得到更多的图片，优化增强小目标信息，加强对其检测程度。

3.根据权利要求2所述的一种基于改进Faster-RCNN的小目标检测方法，其特征在于：所述S2中，模型训练的具体操作为：

S21、将增强处理过的数据送入主干网络，经过局部自注意力模块与全局自注意力模块得到不同尺寸的特征图；

4.根据权利要求3所述的一种基于改进Faster-RCNN的小目标检测方法，其特征在于：所述S21中，全局注意力模块的Q来自于该模块的初始输入特征，其K，V来自该层局部自注意力模块的输出特征。

5.根据权利要求4所述的一种基于改进Faster-RCNN的小目标检测方法，其特征在于：所述S21中，特征图作为全局特征，直接与局部特征进行拼接融合，得到含有全局与局部信息的特征，然后送入检测头进行检测。

6.根据权利要求4所述的一种基于改进Faster-RCNN的小目标检测方法，其特征在于：所述S21中，特征图送入LEM、FPN模块，通过特征提取、融合得到局部特征。

7.根据权利要求4所述的一种基于改进Faster-RCNN的小目标检测方法，其特征在于：所述S23中，将最深层输出经过以步长为2的最大池化下采样操作，得到更深层P6。

8.根据权利要求7所述的一种基于改进Faster-RCNN的小目标检测方法，其特征在于：所述S24中，分类采用softmax损失函数，回归采用smoothL1损失函数。

9.根据权利要求8所述的一种基于改进Faster-RCNN的小目标检测方法，其特征在于：所述S25中，分类分支采用两个全连接层对特征向量进行学习，获得预测的类别精度值，将其与真实类别进行focal loss损失函数学习，经过多次迭代学习，得到最精确的类别精度。

10.根据权利要求8所述的一种基于改进Faster-RCNN的小目标检测方法，其特征在于：所述S25中，回归分支采用两个卷积层，得到对应的位置参数预测，将其与GT框得到的位置参数进行smoothL1损失函数学习，经过多次迭代，得到最终的精确网络模型。