CN115331146A

CN115331146A - 一种基于数据增强与特征融合的微小目标自适应检测方法

Info

Publication number: CN115331146A
Application number: CN202210973844.9A
Authority: CN
Inventors: 卢旭; 郭雨洁
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-11-11

Abstract

本发明涉及一种基于数据增强与特征融合的微小目标自适应检测方法，包括以下步骤：S1、像素筛选式处理数据集中的所有目标；S2、构建骨干网络；S3、构建适配型图像金字塔网络；S4、提取多尺度融合特征信息；S5、构建检测预测网络。本发明通过利用对目标对象进行筛选式重采样处理方法，在不增加图像数据量的前提下成功增加小目标样本数目，方法更加简单直接，检测性能提升明显；通过使用深度学习中卷积神经网络提取图像多尺度融合特征信息，适应性更强，检测效果更佳。

Description

一种基于数据增强与特征融合的微小目标自适应检测方法

技术领域

本发明涉及深度学习的计算机视觉技术领域，尤其涉及一种基于数据增强与特征融合的微小目标自适应检测方法。

背景技术

小目标检测在现实生活中有许多应用场景。在自动驾驶中，为了安全驾驶需要从汽车摄像头拍摄的驾驶场景照片中检测到远处的路标和行人。在医学病灶检测成像中初期病变区域面积小，因此在早期检测到肿块和肿瘤对做出准确诊疗的难易程度至关重要。在智能安防中需要检测远处作业工人是否正确佩戴安全帽，而分散各处作业的工人在拍摄图像中只有几十甚至几个像素，因此小目标检测问题在智能安防中亟需解决。目前许多专家提出了基于深度学习的目标检测算法，但由于小目标在数据集中样本数量的不足，特征信息提取不完整的问题导致小目标检测性能依然不佳。

基于卷积神经网络的目标检测算法总体可以分为两阶段检测算法与一阶段检测算法。两阶段检测算法如R-CNN系列、R-FCN、AAAI等，这类算法利用选择性搜索算法筛选出大量候选区域，将其作为后续卷积神经网络的输入来获取特征，最后通过对候选区域进行分类和回归得到检测结果；一阶段检测算法如SSD(Single Shot MultiBox Detector)，YOLO(You Only Look Once)系列等，这类算法通过输入图片到卷积神经网络，可直接预测目标位置和类别信息。

一些算法通过确定目标的上下文信息定位区域以避免提取特征信息过程中丢失小目标关键位置信息的问题。Lin利用FPN的多尺度融合策略对不同尺度的特征进行提取与融合，得到深层语义信息和浅层位置信息(Lin T Y,Dollar P,Girshick R,et al.Featurepyramid networks for object detection[C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition.2017:2117-2125.)。Chen等利用深层与浅层特征所采取的不同特征提取方法来改善对小目标的检测效果(CHEN H J,WANG Q Q,YANG G W,et al.SSD object detection algorithm with multi-scale convolutionfeature fusion[J].Journal of Frontiers of Computer Science and Technology,2019,13(6):1049-1061.)。Zhai等提出一种多尺度特征融合机制，将网络结构中的浅层位置特征与深层语义特征进行融合(ZHAI S,SHANG D,WANG S,et al.DF-SSD:An improvedSSD object detection algorithm based on DenseNet and feature fusion[J].IEEEAccess,2020,8:24344-24357.)。Huang等提出一个跨尺度特征融合的方法来增强上下文联系，但跨尺度特征图存在语义差异，直接跨层融合可能导致位置偏移和混叠效应(HUANG W,LI G,CHEN Q,et al.Cf2pn:A cross-scale feature fusion pyramid network basedremote sensing target detection[J].Remote Sensing,2021,13(5):847.)。

针对以上问题，提出注意力机制来提高特征信息提取能力。AFF通过注意力特征融合将局部信道上下文信息添加到全局信道，以克服输入特征之间语义差异和尺度不一致的问题。Liang等采用密集连接结构提高特征信息提取能力，增强浅层特征中小目标的上下文语义信息(LIANG YANYU,LI JINBAO.Small target detection algorithm for multi-scale non-local attention networks[J].Computer Science and Exploration,2020,14(10):1744-1753.)。RFB-Net构建多分支卷积层感受野模块，并利用空洞卷积扩大特征图感受野，一定程度上提高对小目标的检测能力。

现有的一些算法通过基于角度分类的密集编码标签代替稀疏编码标签；将任意旋转矩形近似成一个二维高斯分布；利用等速旋转网络与检测器合并的方法提取等速旋转特征，以解决小目标位置信息复杂而出现的多角度检测难点问题。

CenterNet作为一个结构简单且可拓展性强的单阶段目标检测算法，只通过全卷积网络即可实现对目标的检测与分类，无需锚框与非极大值抑制(Non MaximumSuppression，NMS)，对上述问题有一定作用。但CenterNet也存在一些问题，例如仅通过最后一层特征进行预测，导致丢失部分目标特征信息，在检测小尺度目标时效果不佳。

发明内容

为解决现有技术所存在的技术问题，本发明提供一种基于数据增强与特征融合的微小目标自适应检测方法，通过利用对目标对象进行筛选式重采样处理方法，在不增加图像数据量的前提下成功增加小目标样本数目，方法更加简单直接，检测性能提升明显；通过使用深度学习中卷积神经网络提取图像多尺度融合特征信息，适应性更强，检测效果更佳。

本发明采用以下技术方案来实现：一种基于数据增强与特征融合的微小目标自适应检测方法，包括以下步骤：

S1、像素筛选式处理数据集中的所有目标：通过选取安全帽佩戴公共数据集，利用选择型小目标复制算法对数据集图像中所有的目标进行像素筛选式处理，并将处理后的目标框放回对应原图像以扩充图像数据集；

S2、构建骨干网络：对步骤S1处理得到的数据集图像进行下采样，获取深层次的特征映射图；

S3、构建适配型图像金字塔网络：解耦各目标物体的检测，针对具有高分辨率特征映射的小目标，为其分配更合适的特征层级；

S4、提取多尺度融合特征信息：融合骨干网络与适配型图像金字塔网络特征信息，通过将骨干网络与适配型图像金字塔网络通过横向连接得到多尺度融合特征信息，构建一条自底向上和自顶向的融合路径，将深层语义信息融合到浅层位置信息中；

S5、构建检测预测网络：通过步骤S4中生成映射图后，输出融合特征进行预测，生成关键点热力图、边界框的尺度预测和关键点的偏差预测，进行损失函数优化，直至损失函数收敛；利用预测得到的中心关键点坐标估测目标的位置，完成多语义特征融合的小目标对象的多尺度检测模型的训练。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明通过利用对目标对象进行筛选式重采样处理方法，在不增加图像数据量的前提下成功增加小目标样本数目，方法更加简单直接，检测性能提升明显。

2、本发明通过使用深度学习中卷积神经网络提取图像多尺度融合特征信息，适应性更强，检测效果更佳。

附图说明

图1是本发明的方法流程图；

图2是选择型小目标复制算法的整体流程图；

图3是适配型特征提取模块的组成结构示意图；

图4是不使用和使用选择型小目标复制算法的前提下，数据集目标样本数目及差值的比较示意图；

图5(a)是经选择型小目标复制算法处理后的示例一数据图像示意图；

图5(b)是经选择型小目标复制算法处理后的示例二数据图像示意图；

图5(c)是经选择型小目标复制算法处理后的示例三数据图像示意图；

图5(d)是经选择型小目标复制算法处理后的示例四数据图像示意图；

图5(e)是经选择型小目标复制算法处理后的示例五数据图像示意图；

图5(f)是经选择型小目标复制算法处理后的示例六数据图像示意图；

图6(a)是原始方法的可视化检测结果1示意图；

图6(b)是本发明所提方法的可视化检测结果1示意图；

图6(c)是原始方法的可视化检测结果2示意图；

图6(d)是是本发明所提方法的可视化检测结果2示意图

图6(e)是原始方法的可视化检测结果3示意图；

图6(f)是是本发明所提方法的可视化检测结果3示意图

图6(g)是原始方法的可视化检测结果4示意图；

图6(h)是是本发明所提方法的可视化检测结果4示意图

图6(i)是原始方法的可视化检测结果5示意图；

图6(j)是是本发明所提方法的可视化检测结果5示意图

图6(k)是原始方法的可视化检测结果6示意图；

图6(l)是是本发明所提方法的可视化检测结果6示意图；

图7是本发明所提方法与原始方法在Log-Average Miss Rate(MR^-2)指标中的结果对比示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本实施例一种基于数据增强与特征融合的微小目标自适应检测方法，包括以下步骤：

具体地，本实施例中，步骤S1的具体过程如下：

S11、选取安全帽佩戴公共数据集，利用选择型小目标对象复制算法，如图2所示，对数据集中的所有目标框进行一个筛选式重复采样，筛选出像素值在阈值内的所有目标并将其视为小目标，将所有小目标全部提出并找到分别对应的原图像；

S12、对提取出的小目标进行二次复制，并且在第二次复制时对原小目标图像进行一次水平翻转处理；

S13、复制完后将这些小目标对象按照最初提取出来的初始大小放回分别对应的数据集的原图像中，在图像对应的xml文件中添加这些小目标对象的相关信息，获取扩充后的图像数据集。

具体地，本实施例中，步骤S2的具体过程如下：

S21、构建ST-CenterNet骨干网络，采用标准残差网络实现；

S22、采用四层特征层进行目标的下采样处理，获得深层语义信息的同时尽可能最大化保留浅层小目标的位置信息；第一个层级利用一个步长为2的卷积层，得到一个为原始图像分辨率1/2的特征映射图；第二个层级利用一个步长为2的卷积层，得到一个为原始图像分辨率1/4的特征映射图；第三至第四个层级都采用步长为2的卷积层提取特征，最终输出的特征映射图为原始图像分辨率的1/16；

S23、将残差网络提取到的特征图表示为C：

C＝{C₂,C₃,C₄,C₅}

其中，c₂,c₃,c₄,C₅分别表示提取的ResNet-50网络的各个层级。

具体地，本实施例中，步骤S3的具体过程如下：

S31、利用浅层特征层提取小目标对象特征信息来获取位置区域信息；

S32、将步骤S2下采样获得的特征映射图作为输入，构建其金字塔集P：

p＝{P₂,P₃,P₄,P₅}

其中，P₂,P₃,P₄,P₅分别表示提取的图像金字塔的各个层级，与步骤S2中残差网络的层级数对应一致。

具体地，如图3所示，本实施例中，步骤S4的具体过程如下：

S41、将两倍上采样后的深层特征层Ci与相邻特征层Pi进行逐像素相加融合处理：

P_i＝P_i+1↑_2×+C_i

其中，C_i表示对应于第i层的最后一个残差块特征；P_i表示对应于第i层的最终特征；P_i+1表示对应于第i+1层的最终特征；↑_2×表示通过最近邻插值进行两倍上采样处理；

S42、为解决随着网络层数加深而出现的梯度爆炸问题，在原有网络的基础上对网络层进行线性组合：

其中，W为特征层线性组合处理后的输出向量；

表示多个卷积层，其中

为sigmoid函数，γ为特征层的输入向量，L_i为权重层；方阵α用于具体的线性操作；

S43、通过卷积核提升每张特征图为相同的通道数，增强每个预测特征图的特征信息；利用横向连接将其与浅层特征进行前后融合，横向连接同残差结构中的跳跃连接，通过上下采样得到的各层特征被传递到一个由多个卷积核和激活函数前后组合而成的激活门，生成特征横向融合因子，将深层语义特征信息和浅层位置特征信息相融合：

A_F＝P(S_i(P_i，f，s))

其中，A_F为将深层语义特征信息和浅层位置特征信息融合的特征信息；β为激活函数；S_i为第i层的卷积，i分别取{2,3,4,5}；f为横向连接；s＝2^i-1为卷积步长；

S44、使用卷积消除上采样的混叠效应，生成适配于目标的新特征图：

其中，i取{2,3}；w和h分别为目标框的宽和高。

具体地，本实施例中，步骤S5构建检测预测网络的过程中，生成的损失分为三部分：热力图损失、包围框宽高的损失、中心关键点的偏置损失；总的损失函数表示为：

L_SHL--L_H+λ_sIzEL_sIzE+λ_oFFL_oFF

其中，L_H表示热力图损失值，借鉴focal loss来解决检测类别不均衡的问题；L_SIZE表示包围框宽高损失值，设置λ_SIZE为0.1；L_OFF表示中心点的偏置损失值，并设置λ_OFF为1，来提高中心点坐标预测的精确度。

以下结合实验结果对比图表实施例对本发明效果进行详细描述：

如图4所示，为本发明在安全帽佩戴数据集上不使用和使用选择型小目标复制算法的前提下，数据集目标样本数目及差值的比较。从图4中可以看出，在使用选择型小目标复制算法对小目标进行二次复制和翻转处理后，增加了各类目标的样本数。

如图5(a)、5(b)、5(c)、5(d)、5(e)、5(f)所示，从图中可以看出，像素值小于或等于32×32的目标框进行二次复制，并在第二次复制进行水平翻转处理，且复制的目标放回原图像时不与原目标框相互重叠，进一步丰富小目标的位置信息。

如图6(a)、6(b)、6(c)、6(d)、6(e)、6(f)、6(g)、6(h)、6(i)、6(j)、6(k)、6(l)所示，从图中的定性检测结果对比图可看出本发明对数据集图像中的小目标检测效果明显优于原始算法，难以检测的小尺度目标以及被遮挡住的小目标都能更多更准确地检测出来，更进一步证明本发明采取的改进方法有效的提高了模型对小目标的检测性能。

如图7所示，为本发明所提方法与原始算法在Log-Average Miss Rate指标中的结果对比图。从图7可以看出，本发明所提方法的Log-Average Miss Rate指标在各类目标中的数值较原始算法都有所降低，体现出本发明的检测性能提升明显。

为验证本发明提出的基于数据增强与特征融合的微小目标自适应检测方法对小目标物体检测的有效性，在安全帽佩戴数据集Safety Helmet Wearing Dataset进行了实验验证，首先将本算法与常用算法进行性能比较，如表1各类目标检测算法与本发明算法在安全帽佩戴检测数据集中的检测性能对比情况所示，可以看出所提算法在检测性能上的优势；具体地，表1如下所示：

表1

其次，在消融实验中，针对Safety Helmet数据集分析各个模块对模型性能的贡献和这些模块产生效果的具体原因，具体通过逐步应用这些模块来分析提出方法中每个模块的效果，并在表2中记录各个模块的贡献；具体地，表2如下所示：

表2

从表2的结果可以看出，所提算法利用选择型小目标对象复刻算法使检测效果较原始算法在mAP上有13.90％的提高，说明采用复制小目标对象来增加小目标样本数的方法对于提升目标检测结果有一定效果。目标适配型特征提取模块将深层和浅层特征相融合，检测效果较原始算法在mAP上有13.22％的提高，证明该模块能够一定意义上将浅层的细节信息与深层语义信息进行有效融合，增强浅层特征图的语义信息和特征的表达能力。最后两个模块都加入，即本发明，得到的检测效果较原始算法在mAP上有18.08％的提高。

本发明提出的微小目标数据增强与检测算法，旨在解决小目标检测所需的浅层特征信息提取不足和数据集中小目标样本数不足的问题。本发明算法首先利用对目标对象进行筛选式重采样的方法，在不增加图像数据量的前提下成功地增加了小目标的样本数目；然后提出一种目标适配型特征提取模块，通过使用残差网络与适配型特征金字塔网络前后结合的方法来增强提取图像浅层语义信息的能力，以提取到目标更完整的特征语义信息。在安全帽公开数据集上实验，实验结果表明，通过选择型小目标对象复刻算法对小目标进行复制和翻转处理后的数据集较原数据集，模型的mAP指标提升了13.9％；利用目标适配型特征提取模块增强对目标特征提取的能力，模型mAP较原始模型提升了13.22％；将本发明算法ST-CenterNet与原始算法比较，mAP指标提升了18.08％。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于数据增强与特征融合的微小目标自适应检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于数据增强与特征融合的微小目标自适应检测方法，其特征在于，步骤S1的具体过程如下：

S11、选取安全帽佩戴公共数据集，利用选择型小目标对象复制算法，对数据集中的所有目标框进行一个筛选式重复采样，筛选出像素值在阈值内的所有目标并将其视为小目标，将所有小目标全部提出并找到分别对应的原图像；

3.根据权利要求1所述的一种基于数据增强与特征融合的微小目标自适应检测方法，其特征在于，步骤S2的具体过程如下：

S21、构建ST-CenterNet骨干网络，采用标准残差网络实现；

S22、采用四层特征层进行目标的下采样处理；第一个层级利用一个步长为2的卷积层，得到一个为原始图像分辨率1/2的特征映射图；第二个层级利用一个步长为2的卷积层，得到一个为原始图像分辨率1/4的特征映射图；第三至第四个层级都采用步长为2的卷积层提取特征，最终输出的特征映射图为原始图像分辨率的1/16；

S23、将残差网络提取到的特征图表示为C：

C＝{C₂,C₃,C₄,C₅}

4.根据权利要求1所述的一种基于数据增强与特征融合的微小目标自适应检测方法，其特征在于，步骤S3的具体过程如下：

P＝{P₂,P₃,P₄,P₅}

其中，P₂,P₃,P₄,P₅分别表示提取的图像金字塔的各个层级。

5.根据权利要求1所述的一种基于数据增强与特征融合的微小目标自适应检测方法，其特征在于，步骤S4的具体过程如下：

S41、将两倍上采样后的深层特征层与相邻特征层进行逐像素相加融合处理：

P_i＝P_i+1↑_2×+C_i

S42、在原有网络的基础上对网络层进行线性组合：