CN114821246A

CN114821246A - 基于多层次残差网络感知和注意力机制的小目标检测方法

Info

Publication number: CN114821246A
Application number: CN202210737757.3A
Authority: CN
Inventors: 高赞; 纪威; 王水跟; 徐国智; 顾竟潇; 刘大扬; 郝敬全
Original assignee: Suzhou Calmcar Vision Electronic Technology Co ltd; Iray Technology Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Current assignee: Suzhou Calmcar Vision Electronic Technology Co ltd; Iray Technology Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-07-29
Anticipated expiration: 2042-06-28
Also published as: CN114821246B

Abstract

本发明公开了基于多层次残差网络感知和注意力机制的小目标检测方法，Baseline采用单阶段检测器YOLOv5；方法的具体步骤如下：（1）构建虚拟训练样本，扩充训练数据集的规模，提升模型整体性能；（2）使用多层残差卷积提取图像多维度特征；（3）注意力机制增强浅层特征图；（4）特征金字塔连接浅层特征图；（5）利用损失函数优化模型预测目标位置信息和类别信息以及置信度；（6）P2检测层配合L_ufl与VIoU Loss预测小目标。本发明发明了选择性样本增强扩充了数据集，平衡样本之间的差异，充分利用浅层特征图，显著提高小目标检测的召回率和准确率。

Description

基于多层次残差网络感知和注意力机制的小目标检测方法

技术领域

本发明涉及目标检测与识别领域，涉及基于多层次残差网络感知和注意力机制的小目标检测方法。

背景技术

当前不同场景对于小目标的定义各不相同，目前尚未形成统一的标准。现有的主流小目标定义方式主要分为以下两类，即基于相对尺度的定义与基于绝对尺度的定义。相对尺度一般定义为边界框面积与图像面积之比的中位数在0.08%到0.58%之间。绝对尺度一般定义为分辨率小于32像素×32像素的目标。现有算法的设计往往更为关注大、中尺度目标的检测性能。针对小目标特性的优化设计并不多，加之小目标缺乏充足的外观信息，定位困难，导致现有算法在小目标检测上普遍表现不佳。

小目标检测是目标检测下的一个分支，和目标检测一样，即找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，同时确定物体的类别和位置。目前主流的目标检测算法主要是基于深度学习模型，大概可以分成两大类别：（1）One-Stage目标检测算法，这类检测算法不需要Region Proposal阶段，可以通过一个Stage直接产生物体的类别概率和位置坐标值，比较典型的算法有YOLO、SSD和CornerNet；（2）Two-Stage目标检测算法，这类检测算法将检测问题划分为两个阶段，第一个阶段首先产生候选区域（RegionProposals），包含目标大概的位置信息，然后第二个阶段对候选区域进行分类和确定位置，这类算法的典型代表有Fast R-CNN，Faster R-CNN，Cascade R-CNN等。目标检测模型的主要性能指标是检测准确度和速度，其中准确度主要考虑物体的定位以及分类准确度。一般情况下，Two-Stage算法在准确度上有优势，而One-Stage算法在速度上有优势。不过，随着研究的发展，两类算法都在两个方面做改进，均能在准确度以及速度上取得较好的结果。

目前小目标检测主要从四个方面入手：数据增强、多尺度学习、上下文学习、无锚框机制。小目标面临着分辨率低、可提取特征少、样本数量匮乏等诸多挑战，提高小目标检测精度需要引入多种策略，实际应用中，往往需要针对目标特性做出优化，设计不当的数据增强、上下文学习、多尺度学习测策略可能会引入新的噪声，损害特征提取的性能，大多方法在提高检测性能的同时也增加了额外的计算量，用牺牲时间的方式换取准确度的提升，或者牺牲准确度的方式换取时间，并且在特征融合过程中难以避免干扰噪声的影响，这些问题导致了小目标检测性能难以得到进一步提升。

发明内容

本发明提供了基于多层次残差网络感知和注意力机制的小目标检测方法，解决了传统目标检测方法中，小目标物体漏检，误检，分辨率导致低可利用特征少，训练样本少，对损失函数贡献少，定位困难等诸多问题。

该方法具体包含以下步骤：

1）选择性样本复制增强扩充训练集，具体操作如下：

预先统计好各类样本数量，选择性复制样本增强后所有样本保证比例统一，将缩放或放大图片随机放置任意图片任意位置并随机添加一种图像抖动，所述图像抖动包括小幅度旋转变换、高斯模糊、椒盐噪声，并添加对应位置和类别图片标注文件。

2）将训练集图像输入到骨干网络中，按照骨干网络结构顺序，使用多层残差卷积提取图像多维度特征，再将提取到多尺度特征输入到下采样层，生成待检测图像尺度依次减小的特征映射图。

3）将经过下采样层得到最小特征映射图输入到普通卷积层和上采样层，经过两次最近邻插值上采样，生成检测图像尺度依次增大的特征映射图。

4）利用注意力机制增强浅层特征图，将上采样得到最后一层特征图输入到空间和通道注意力层，放大空间和通道特征。

5）融合经过骨干网络得到的尺度特征图，得到尺度检测层，通过滑动窗口依次在不同检测层从左向右，从上到下检测特征图，将选中特征输入到全连接层中，给出目标预测框，使用非极大值抑制过滤预测框，最终给出目标位置信息、置信度、类别信息，再将得到的信息对比真实框信息，得到总的损失，通过反向传播的方式更新每层卷积权重和偏置。

6）采集待检测图像，将图像送入到已经训练好的模型中，进一步地生成大量预测框，接着采用非极大值抑制算法消除重叠框后生成最终的检测结果。

优选的，所述步骤一中目标样本面积缩放方式具体如下：将目标样本面积小于500像素随机放大到原图的1.5 - 2倍，样本面积在500到1000像素之间随机缩放至原图的0.9–1倍，样本面积在1000到1500像素之间随机缩放至原图的0.8–0.9倍，样本面积在1000到2000像素之间随机缩放至原图的0.7–0.8倍，样本面积在2000到3500像素之间随机缩放至原图的0.6–0.7倍，样本面积在3500到5500像素之间随机缩放至原图的0.5–0.6倍，样本面积在5500到7500像素之间随机缩放至原图的0.3 –0.4倍，样本面积大于7500像素目标图片随机缩放至原图的0.2–0.3倍。

优选的，所述使用多层残差卷积提取图像多维度特征具体步骤如下：

将采集到的待检测图像输入到卷积神经网络中，输入尺寸W×H像素，W为图片长度，H为图片宽度，单位是像素。

通过Focus切片操作，由原来的B×3×W×H变为B×64×W/2×H/2，其中B为Batchsize大小。

使用残差卷积将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层，x是自定义的参数。

第一层不经过卷积直接添加到x_空张量中，第二层至第x层由上一层切片加上本层切片经过卷积得到，将每一层特征图按列融合，得到经过多层残差卷积后的特征图变为B×1024×W/32×H/32。

优选的，所述利用注意力机制增强浅层特征图具体步骤如下：

将得到的特征图放入通道和空间注意力模块。

特征图在通道注意力中同时沿着通道方向分别做平均池化和最大池化操作，池化后的两个特征图按通道维度融合成一个特征图。

对融合后的特征图使用s×s卷积核卷积，得到特征图经过通道注意力的结果。

将经过通道注意力特征图放入空间注意力中，将图片中的空间域信息做空间变换，提取关键相对空间位置信息和绝对空间位置信息。

优选的，所述尺度检测层具体如下：

原始待检测图像经过Focus卷积和一层残差卷积后与高层特征图融合得到特征金字塔P2层，P2经过下采样与二层残差卷积融合得到特征金字塔P3层，P3层经过下采样与P2层之前第3层相结合得到P4层，P4层经过下采样与经过三层残差卷积和多次普通卷积融合得到P5层。

优选的，利用损失函数反向传播优化模型权重和偏置，所述损失函数具体如下：

式中：

为分类损失函数，具体公式如下：

其中，

是特征经过激活函数后的输出，值在0到1之间；

是

经过处理后得到的，目的是让难分样本占比更大，使模型关注难分样本，

是影响因子，当

大于0时可以减少易分类样本损失；

为平衡因子，

取0到1之间。

为边框回归损失函数，具体公式如下：

其中

、

、

、

分别代表预测框左上、右上、左下、右下顶点，

、

、

、

分别代表真实框左上、右上、左下、右下顶点。

为二分类交叉熵逻辑损失，具体公式如下所示：

其中

代表模型预测是物体的概率，经过

可将

映射到0到1之间，

代表是否为真实物体，0代表否，1代表是。

本发明的优点和有益效果：

1）通过选择性样本复制生成，解决了训练数据集中小目标数据量少的问题，并且选取的困难样本有助于提高模型的泛化能力。

2）使用多层残差卷积提取多维度特征，提高小目标检测到概率同时不影响检测中、大目标的性能。

3）使用低维特征提取及注意力机制增强浅层特征图，可以提取到关键信息，放大小目标特征。

4）改变特征金字塔连接方式，增强语义信息和定位信息。

5）多损失函数联合训练，减少易分类样本的权重，使得模型在训练时更专注于难分类的样本。

6）多检测层预测，使各个尺度的锚框有合理的铺设间隔。不同尺度的锚框用来检测不同尺度的物体，检测效果更好。

7）本文发明的基于多层次残差网络感知和注意力机制的小目标检测方法，在相关的小目标数据集中达到了优异的效果。

附图说明

图1为本发明的简要结构图；图中：Cat表示特征拼接。

图2为本发明具体网络结构图；图中：Cat表示特征拼接。

图3为训练和验证loss（包括边框回归损失、分类损失、物体得分损失）下降图，x轴是epoch次数，y轴是loss值。

图4为原始图片与数据增强后的对比图，其中，(a)图是原始图片，(b)图是增强后的图片。

图5为原始YOLOv5l模型与改进后的模型检测效果对比图，其中，(a)图、(c)图、(e)图是原始YOLOv5l模型检测的图片；(b)图、(d)图、(f)图是改进后模型检测的图片。

图6为特征图可视化图，其中（a）为原模型第一次Concat后特征图，（b）为改进后模型第一次Concat后特征图。

图7为不同模块对模型性能的影响示意图；图中：mAP(0.5:0.95)表示在不同IoU阈值（从0.5到0.95，步长0.05）上的平均mAP；mAP0.5表示在不同IoU阈值0.5上的平均mAP；Params(M)表示参数个数，单位是兆字节；GFLOPs(640B)表示正向推理的计算量，表示模型复杂度，640B代表在图片大小为640×640情况下。

图8为原分类采用

函数与本发明设计

在

和

可视化曲线图。

具体实施方式

下面结合附图对本发明作进一步的描述。

实施例：

如图1所示，为本发明的基于多层次残差网络感知和注意力机制的小目标检测方法的操作流程图，该方法的实现步骤细节如下：

1）选择性样本复制增强扩充训练集，具体操作如下：

由于训练数据集样本数小目标较少，训练后会使得模型的泛化能力差，模型不能很好地拟合目标数据，选择性样本复制增强可以更好的解决上述问题；本发明设计选择性样本复制增强不同于以往Copy-Paste。本发明设计将目标样本面积小于500像素随机放大到原图的1.5 - 2倍，样本面积在500到1000像素之间随机缩放至原图的0.9 – 1倍，样本面积在1000到1500像素之间随机缩放至原图的0.8 – 0.9倍，样本面积在1000到2000像素之间随机缩放至原图的0.7 –0.8倍，样本面积在2000到3500像素之间随机缩放至原图的0.6– 0.7倍，样本面积在3500到5500像素之间随机缩放至原图的0.5 – 0.6倍，样本面积在5500到7500像素之间随机缩放至原图的0.3 – 0.4倍，样本面积大于7500像素目标图片随机缩放至原图的0.2 – 0.3倍，这样做可以得到多尺度样本，让模型泛化性能进一步提升。为了使样本平衡，避免出现某个样本因为数量少导致过拟合，本发明设计选择性复制样本增强会预先统计好各类样本数量，选择性复制样本增强后尽量让所有样本保证相同比例，将缩放或放大图片随机放置任意图片任意位置并添加适量抖动，减小每个图片之间的相似性，并添加相应的图片标注文件添加增加的目标信息。

具体公式如下：

（1）

（2）

式中：

代表样本像素值，

)代表随机在

与

区间取个数，

代表所有样本数量，

代表类为x样本数量，

代表

类选择复制增强的样本数量比类别

原始样本数量的比值。

将原始模型采用的C3卷积替换为提取多尺度特征能力更强的残差卷积。将增强后的RGB图像输入到卷积神经网络中，输入尺寸W×H像素，W为图片长度，H为图片宽度，单位是像素。先经过Focus切片操作，由原来的B×3×W×H变为B×64×W/2×H/2，其中B为Batchsize大小。用残差卷积代替模型原先采用的C3卷积，残差卷积先将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层，x是自定义的参数，默认为4。第一层不经过卷积直接添加到x_空张量中，其余部分由上一层切片加上本层切片经过卷积得到，最终将每一层特征图按列融合，得到经过多层残差卷积后的特征图。经过3次多层残差卷积，最终得到B×1024×W/32×H/32特征图，具体流程可见图2。

原图经过步骤二得到B×1024×W/32×H/32特征图，在经过两次最近邻插值上采样，分别是2倍上采样和4倍上采样，会得到B×256×W/4×H/4特征图。

将得到的特征图放入通道和空间注意力模块（CBAM, Convolution BlockAttention Module），注意力机制可以根据网络中每层不同的特征的重要性不同，注重其中重要的信息，抑制不重要的信息。其中通道维度计算公式如下：

（3）

其中

代表输入的特征图，ANN代表人工神经网络，

代表平均池化操作，

代表最大池化操作，

代表经过平均池化后的特征图，

代表经过最大池化后的特征图，

和

代表人工神经网络前两层参数，

和

之间参数需要通过ReLU函数激活。

空间注意力计算公式如下：

（4）

其中

代表使用s×s大小卷积核，特征图在通道注意力中同时沿着通道方向分别做平均池化和最大池化操作，池化后的两个特征图按通道维度融合成一个特征图，然后在对融合后的特征图使用s×s卷积核卷积，最终得到特征图经过通道注意力的结果，可视化特征图见图6，图6中a为yolov5l经过上采样和concat操作后特征图，图6中b为本发明模型经过上采样和concat后特征图，通过对比可以发现，经过空间和通道维度双重注意力后特征图噪点更少，特征分布更为明确。

5）融合经过骨干网络得到的尺度特征图，得到尺度检测层。具体如下：

RGB图经过残差卷积提取到的浅层特征图与RGB图经过下采样和下采样双重操作后的特征图融合。图像的低层的特征语义信息比较少，但是目标位置准确，愈深层特征包含的高层语义性愈强、分辨能力也愈强，但目标定位信息不明确。图像经过上采样到与之相匹配浅层特征图同样大小，两者进行融合操作，保留定位信息的同时也保留了强语义信息。

原始模型只包含P3、P4、P5检测层，本发明中加入P2检测层。原始RGB图像经过Focus卷积和一层残差卷积后与高层特征图融合得到P2层，P3层由P2经过下采样与二层残差卷积融合而得，P4层由P3层经过下采样与P2层之前第3层相结合而得，P5层由P4层经过下采样与经过三层残差卷积和多次普通卷积融合而得。改变原模型浅层特征图与高层特征图连接方式，语义信息与定位信息相互结合，更好的检测到小目标。

通过滑动窗口依次在不同检测层从左向右，从上到下检测特征图，将选中特征输入到全连接层中，给出目标预测框，使用非极大值抑制过滤预测框，最终给出目标位置信息、置信度、类别信息，再将得到的信息对比真实框信息，得到总的损失，通过反向传播的方式更新每层卷积权重和偏置。

特别的，原模型分类采用的是交叉熵损失函数，本发明发明的分类损失函数（Ultra Focal Loss）是基于焦点损失（Focal Loss）改进而来的。由于检测任务中小目标负样本数量往往比较大，占总的loss的大部分，而且多是容易分类的，因此使得模型的优化变得异常困难，使用改进后的函数可以通过减少易分类样本的权重，增加难分样本损失值，使得模型在训练时更专注于难分类的样本。不同于焦点损失的是，改进后的损失比焦点损更注重难分样本，损失函数变化更大，更加适合本发明模型。分类损失函数公式如下：

（5）

（6）

其中，

是特征经过激活函数后的输出，值在0到1之间。

是

经过处理后得到的，为了适应

的输入，让损失变为可优化的连续函数。

是影响因子，当

大于0时可以减少易分类样本损失，使得模型更关注于难分、困难样本。

为平衡因子，用来平衡正负样本本身不均匀，

取0到0.5之间时，即正样本要比负样本占比少，

取0.5到1之间时，即负样本要比正样本占比少。

在本发明原模型边框回归采用的是CIoU损失，其公式如下：

（7）

（8）

（9）

其中

为预测框，

为真实框，

为包含

与

最小凸闭包框，

代表的是真实框与预测框交集比上真实框与预测框并集，简称交并比，

和

分别代表真实框的宽高，

和

分别代表预测框宽高，

代表检测框尺度loss，越接近真实框，loss越小。

代表最小凸闭包框对角线距离，

代表两中心点距离。由于小目标真实框与预测框往往相差比较大，引入VIoU损失可以更好反应边框回归真实变化。

改进后的边框回归损失VIoU如下所示：

（10）

（11）

其中

、

、

、

分别代表预测框左上、右上、左下、右下顶点，

、

、

、

分别代表真实框左上、右上、左下、右下顶点，将原模型CIoU中对角线欧氏距离替换为四顶点平均欧氏距离，更能真实反映预测框与真实框的位置，当预测框与真实框重合时，此时的

为0，符合实际要求。VIoU可以反映真实框与预测框四边差异，再加上宽高比损失，可以拉近预测框与真实框之间的距离，使预测框更为准确。

物体得分损失采用原模型的二分类交叉熵逻辑（BCEWithLogitsLoss）损失，公式如下所示：

（12）

（13）

（14）

其中

代表模型预测是物体的概率，经过

可将映射到0到1之间，

代表是否为真实物体，0代表否，1代表是。Loss下降曲线如图3所示，最终损失函数如下所示：

（15）

为了证明本发明的有效性，在公开的小目标数据集VisDrone2019上进行了实验，GPU采用Tesla A100（40G），BatchSize设为16，epochs设为200，Conf-thres设为0.7（验证集得出的最佳结果），Iou-thres设为0.45（验证集得出的最佳结果），测试数据采用的是VisDrone2019-DET-test-dev。实验的评价指标采用的是mAP0.5:0.95和mAP0.5。其中，mAP0.5:0.95表示在不同IoU阈值（从0.5到0.95，步长0.05）（0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95）上的平均准确率，mAP0.5表示IoU阈值设为0.5时的平均准确率。最终在640×640分辨率且不使用预训练模型的情况下mAP0.5:0.95可以到达36.8，mAP0.5可以达到51.3，在1536×1536分辨率下mAP0.5:0.95可以到达37.1，mAP0.5可以达到52.2。

不同模块对本发明方法的性能比较如图5所示，从图中可以看出，本发明提出的基于多层次残差网络感知和注意力机制的小目标检测方法具有优良的性能。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制；尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多层次残差网络感知和注意力机制的小目标检测方法，其特征在于，该方法具体包含以下步骤：

1）选择性样本复制增强扩充训练集，具体操作如下：

预先统计好各类样本数量，选择性复制样本增强后所有样本保证比例统一，将缩放或放大图片随机放置任意图片任意位置并随机添加一种图像抖动，所述图像抖动包括小幅度旋转变换、高斯模糊、椒盐噪声，并添加对应位置和类别图片标注文件；

2）将训练集图像输入到骨干网络中，按照骨干网络结构顺序，使用多层残差卷积提取图像多维度特征，再将提取到多尺度特征输入到下采样层，生成待检测图像尺度依次减小的特征映射图；

3）将经过下采样层得到最小特征映射图输入到普通卷积层和上采样层，经过两次最近邻插值上采样，生成检测图像尺度依次增大的特征映射图；

4）利用注意力机制增强浅层特征图，将上采样得到最后一层特征图输入到空间和通道注意力层，放大空间和通道特征；

5）融合经过骨干网络得到的尺度特征图，得到尺度检测层，通过滑动窗口依次在不同检测层从左向右，从上到下检测特征图，将选中特征输入到全连接层中，给出目标预测框，使用非极大值抑制过滤预测框，最终给出目标位置信息、置信度、类别信息，再将得到的信息对比真实框信息，得到总的损失，通过反向传播的方式更新每层卷积权重和偏置；

2.根据权利要求1所述的基于多层次残差网络感知和注意力机制的小目标检测方法，其特征在于，所述步骤一中目标样本面积缩放方式具体如下：将目标样本面积小于500像素随机放大到原图的1.5 - 2倍，样本面积在500到1000像素之间随机缩放至原图的0.9–1倍，样本面积在1000到1500像素之间随机缩放至原图的0.8–0.9倍，样本面积在1000到2000像素之间随机缩放至原图的0.7–0.8倍，样本面积在2000到3500像素之间随机缩放至原图的0.6–0.7倍，样本面积在3500到5500像素之间随机缩放至原图的0.5–0.6倍，样本面积在5500到7500像素之间随机缩放至原图的0.3 –0.4倍，样本面积大于7500像素目标图片随机缩放至原图的0.2–0.3倍。

3.根据权利要求1所述的基于多层次残差网络感知和注意力机制的小目标检测方法，其特征在于，所述使用多层残差卷积提取图像多维度特征具体步骤如下：

将采集到的待检测图像输入到卷积神经网络中，输入尺寸W×H像素，W为图片长度，H为图片宽度，单位是像素，

通过Focus切片操作，由原来的B×3×W×H变为B×64×W/2×H/2，其中B为Batchsize大小；

使用残差卷积将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层，x是自定义的参数；

第一层不经过卷积直接添加到x_空张量中，第二层至第x层由上一层切片加上本层切片经过卷积得到，将每一层特征图按列融合，得到经过多层残差卷积后的特征图变为 B×1024×W/32×H/32。

4.根据权利要求3所述的基于多层次残差网络感知和注意力机制的小目标检测方法，其特征在于，所述利用注意力机制增强浅层特征图具体步骤如下：

将得到的特征图放入通道和空间注意力模块，

特征图在通道注意力中同时沿着通道方向分别做平均池化和最大池化操作，池化后的两个特征图按通道维度融合成一个特征图，

对融合后的特征图使用s×s卷积核卷积，得到特征图经过通道注意力的结果；

5.根据权利要求4所述的基于多层次残差网络感知和注意力机制的小目标检测方法，其特征在于，所述尺度检测层具体如下：

6.根据权利要求1所述的基于多层次残差网络感知和注意力机制的小目标检测方法，其特征在于，利用损失函数反向传播优化模型权重和偏置，所述损失函数具体如下：