CN114202672A

CN114202672A - 一种基于注意力机制的小目标检测方法

Info

Publication number: CN114202672A
Application number: CN202111504006.9A
Authority: CN
Inventors: 李军; 刘杰强; 李臣岳; 张书恒; 张礼轩
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-18

Abstract

本发明公开了一种基于注意力机制的小目标检测方法，该方法使用改进型Resnet网络作为特征提取网络，将Resnet网络的Bottle Net网络架构分解成多个均匀的分支结构，从而降低超参数的量并得到更好的效果；并引入空间、通道注意力并对多层间的信息进行融合，使用改进的FPN进行多尺度预测，使得模型不仅能检测出小目标，还能对中、大型目标进行检测；每个检测输出对每个类别预测一个条件概率值，直接从图片获得预测结果，从而获得目标信息；并将三个尺度的特征图传递至检测头中进行联合训练。本发明使用深度神经网络进行检测，根据不同的应用场景获取不同数据集用于训练，能够使用多种不同的领域，并保持较高的检测准确率。

Description

一种基于注意力机制的小目标检测方法

技术领域

本发明属于生物特征认证技术领域，涉及一种基于注意力机制的小目标检测方法。

背景技术

目标检测也是计算机视觉四大基本任务中的一个，有着十分广阔的应用前景。目标检测技术在军事和民用领域都有着的极大的应用价值，如在机场、火车站、港口、无人机对地侦测等重要场合下，以及视频监控、人脸识别、智能交通等方面都有应用，并且取得了不错的效果，同时也为图像分析、理解和行为识别等任务提供技术基础。但是该技术还不是完美的，存在着一些难以解决的问题，如小目标难以检测的问题。这个问题在日常生活中普遍存在，如监控视频中的比较小的车辆和行人、自动驾驶中需要远距离识别行人和车辆、卫星图中的众多小目标等。小目标通常是由于场景中待检测目标距离摄像头较远或者实际物理尺寸较小从而导致目标在图片中的像素占比少。因此，在目标检测过程中，由于不同尺寸目标其特征表征能力的不同，从而导致多尺度特征学习困难，最终造成小尺寸目标检测精度较低甚至产生大量漏检的现象。目前对于这些小目标的检测效果完全不能应用到日常生活和工业生产中，还需要极大的提升才能够得到应用。正是基于这样的发展背景，对于小尺寸目标的检测一直是目标检测任务中一个极具挑战且重要的分支。

小目标检测技术是在给定的图像上判断是否有小目标，并且要标注出小目标的位置，一般使用矩形框进行标注，小目标的检测在自动驾驶、医学检测、工业生产、卫星遥感以及刑侦等领域中都有着广泛且重要的应用。在自动驾驶领域，汽车常常通过摄像头等装置采集到的高分辨率场景照片，但是由于距离等原因，照片中的行人目标或交通标志不可能会很大。但这些小目标的准确检测却深刻影响着安全自动驾驶的实现；而在医学领域，医学图像中微小肿块的成功检测是早期准确诊断肿瘤的重要前提；工业生产中的缺陷检测能够检测以及定位材料表面上的小缺陷从而尽快发现问题，这也体现了小目标检测的优点；卫星遥感图像中需要有效地注释诸如汽车，船和房屋之类的目标，但是由于距离的原因这些目标常常表现为小目标，这也急需小目标检测的方法来检测这种目标；而在刑侦图像中，异常的小包裹、小行人、车里面的小挂件、衣服上的小标志、室内的一些小摆设等都是破案的关键线索。此外还有很多的应用场景，因此小目标检测有很大的价值。

由于小目标对象在图像中所占像素很少，可用的信息不多。小目标检测的难点在于以下三方面：一是小目标所占像素少，在深度神经网络中经过多次卷积、池化操作后，检测器提取的特征较少，甚至小目标对象可能就成为一个像素点，无法进行检测。二是小目标因为小在检测过程中，会被附近其他目标遮挡、或者重叠，以至于难以与其他的目标进行分割，并实现小目标的定位和分类。三是现有的基于锚框的目标检测方法中的锚框的大小和宽高比都是基于中、大型目标进行设置，使得小目标在整个学习过程被忽视，以及一般目标检测中的感受野对小目标不是很友好，小目标特征的感受野映射回原图将可能大于小目标在原图的尺寸，造成检测效果差。

传统的目标检测方法主要由区域选择、特征提取和分类器设计组成。首先是在图像上选择候选区域，可以有多个且大小不一的候选框，然后对每一个候选区域做特征提取，将提取到的特征放入分类器中进行类别判断和回归处理，得到最终的检测结果。该方法常常使用人工选择的特征，如Haar特征、HOG特征以及积分图特征等，但是在不同的检测任务中需要选择不同的特征，使其在通用性、鲁棒性以及可移植性等方面难以满足要求。

随着深度学习技术的发展，深度学习方法被应用于目标检测，2014年Girshick、Donahue等人首次将深度学习引入到目标检测并提出R-CNN网络，只有又出现的Fast R-CNN、Faster R-CNN等被称为二阶段法的技术，这些技术大大提高了目标检测的精度，但是由于使用二阶段法，其速度不是很好，因而有了如YOLO v1、YOLO v2、YOLO v3、YOLO v4、SSD、DSSD等单阶段的技术，虽然这些技术在检测精度上可能略逊于两阶段法，但是其在检测速度上是优于两阶段法。然而，这些方法局限于都是为了中、大型的目标进行设计的，虽然能检测小目标，但是检测效果不是很理想。有学者提出FPN网络，在不同的尺度上对目标进行检测，从而实现对小目标的检测，小目标的检测性能得到了很大的提升。但是FPN网络仅仅简单的将骨干网络得到的特征图与去自顶向下上采样得到特征图进行简单的叠加得到新的特征图，特征图中的空间信息和通道信息并没有完全得到利用。

发明内容

本发明的目的在于提供一种检测精度较高、鲁棒性好的基于注意力机制的小目标检测方法。

本发明的原理为：通过COCO、PASCAL VOC等数据集以及自己标注的图像来构建数据集，然后将些数据集划分出训练集、测试集和验证集；然后构建预处理网络，对其输入的图像进行预处理，然后构建特征提取网络、特征融合网络以及小目标回归网络，并对网络进行初始化处理，然后利用训练集、测试集以及验证集的数据对网络进行训练，获得最优的网络参数；然后使用训练好的网络来处理输入的图像，回归得到小目标的位置边框。

实现本发明目的的技术解决方案为：一种基于注意力机制的小目标检测方法，该方法具体包括以下步骤：

步骤1、使用目标检测数据集以及自己标注图像数据相结合的方法，构建小目标检测数据集，对数据集中的图像进行预处理，然后按照设定比例划分为训练集、测试集以及验证集；

步骤2、构建卷积神经网络的网络结构，包括特征提取网络、特征融合网络以及小目标预测网络，并对参数进行初始化；使用改进型Resnet网络作为特征提取网络，将Resnet网络的Bottle Net网络架构分解成多个均匀的分支结构；特征融合网络采用一种基于通道和空间注意力的模块即CBAM模块，将CBAM模块嵌入到特征金字塔网络FPN中进行多尺度预测，对多层间的信息进行融合；

步骤3、将训练集中的训练样本输入到初始化的卷积神经网络中，根据网络传播流程计算出各部分损失，并根据损失来调整各个参数，从而得到最佳的网络参数；然后在测试集合中进行测试，以及在验证集合中进行验证，最终得到训练好的神经网络模型；

步骤4、利用训练好的深度卷积神经网络模型检测图像中的小目标，得到小目标检测框、分类以及置信度信息并在图像中标注出来。

本发明与现有技术相比，其显著优点为：(1)利用深度学习构建的小目标检测方法的检测精度较高，对实际检测环境的变化不敏感，鲁棒性较好，能够应用在实际的生产环境中；(2)由于在网络使用多尺度的检测方法，整个网络不仅能对小目标进行检测，还能对中、大型目标进行检测，而且检测速度以及检测精度都能够很好的满足工程中的检测要求。

附图说明

图1为本发明具体实施流程图。

图2为ResNet残差模块和改进的ResNet模块示意图。

图3为双线性插值示意图。

图4为通道、空间注意力模块示意图。

图5为通道注意力模块示意图。

图6为空间注意力模块示意图。

图7为添加注意力机制的FPN模块示意图。

图8为训练流程图。

具体实施方式

本发明一种基于注意力机制的小目标检测方法，该方法具体包括以下步骤：

进一步地，所述步骤1，具体包括以下步骤：

(1.1)获取目标检测图像，构建小目标检测数据集。虽然现今没有专门用于通用小目标检测的数据集，但是COCO数据集中有大量的小目标对象，可以收集这些图像数据来构建小目标检测数据集。

(1.2)对小目标数据集进行预处理。由于采集到的自然场景下的图像数据和数据集中的图像数据与预期样本存在很大差别，存在宽高不满足输入要求，所以对步骤一中采集获取的数据进行处理，主要包括放缩、填充处理和归一化等；小目标检测训练中，网络需要的输入图像的为512*512，我们的数据集尺寸大部分图像都不是符合网络输入的，因而需要对尺寸进行修改这种方法就是简单的对图片尺寸进行等比例缩放，然后使用0进行填充，从而得到512*512的输入图像。

预处理方法中的归一化处理就是将图像数据格式转换为统一的图像数据格式，以及采用归一化公式

对图像样本中的每一个像素点进行归一化。

(1.3)在划分训练集、测试集和验证集的时候需要根据数据集的大小来通过不同的方式来进行划分，如果当数据量不是很大的时候(万级别以下)的时候将训练集、验证集以及测试集划分为3:1:1；若是数据很大，可以将训练集、验证集、测试集的比例调整为98:1:1；但是当可用的数据很少的情况下可以使用一些例如K折交叉验证的方法来进行训练和验证等。

进一步地，所述步骤2，构建特征提取网络、特征融合网络以及小目标回归网络；具体包括以下子步骤：

(2.1)构建特征提取网络，该特征提取网络可以对输入图像的深、浅层语义特征低进行提取。

(2.2)构建特征融合网络，将特征提取网络获得的深层语义信息进行上采样然后和浅层的细节信息进行融合，获得最终的特征图。

(2.3)构建小目标预测网络，小目标预测网络分为两部分，一是回归任务模块，该回归任务模块用于对目标框进行定位，另一个是分类模块，用于对目标框的进行目标分类。根据特征融合网络得到的特征图作为输入，小目标检测网络通过这些特征来获得最终的结果。

进一步地，所述子步骤(2.1)，具体包括：

构建特征提取网络：特征提取网络使用的改进的Resnet网络，整个特征提取网络由多个残差模块构成，普通残差模块的前向传播公式如下：

y＝F(x,w)+x (1)

其中x，y分别为输入和输出，F(x,w)为一般神经网络前向传播公式，w为传播相关参数。

将Resnet网络的BottleNet网络架构分解成多个均匀的分支结构，参考深度可分离卷积，并利用分组卷积，通过变量基数来控制组的数量，即每个分支产生的特征图的通道数为n，n＞1。

则其前向传播公式为：

其中x，y分别为输入和输出，F(x,w_i)为各个分支的神经网络前向传播公式，w_i为各个分支传播相关参数，也就是网络中需要训练的参数。

方法中涉及到卷积和池化操作。卷积操作的目的是提取图像的特征。根据不同的卷积核、不同的计算方式，会得到不同的特征提取图。而池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合。简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。具有特征不变性以及特征降维，从而将冗余信息去除，把最重要的特征抽取出来，此外池化操作能在一定程度上防止过拟合，更方便优化。

特征提取网络还包括卷积模块和池化模块：卷积模块的目的是提取图像的特征，根据不同的卷积核、不同的计算方式，得到不同的特征提取图；池化模块夹在连续的卷积模块中间，用于压缩数据和参数的量；

将上述的卷积模块、池化模块以及改进残差模块，按照表1格式构建特征提取网络，其中conv1、conv2_x、conv3_x、conv4_x、conv5_x分别表示五个由多个卷积层组成的模块，max pooling表示最大值池化，stride为池化步长；

表1

如表1所示，特征提取网络共有49层卷积神经网络层，还有一层最大池化层。

进一步地，所述子步骤(2.2)，包括：

构建特征融合网络：在深度卷积网络中浅层网络提取的特征具有较深层网络提取的特征的分辨率高、表征能力强，但是其包含的语义信息却很少，而深层网络的特征虽然分辨率低，但是其特征图包含丰富的语义信息。单独使用浅层网络特征图或者深层网络特征图都无法得到满意的结果，因此需要一种特征融合的方法融合浅层网络以及深层网络的特征，从而结合两类网络的优点来得到满意的小目标检测效果。

①在特征融合的过程中需要使用上采样的方法来实现，发明中使用的上采样方法是双线性插值的方法。其示意图如附图3所示。双线性插值就是做两次线性变换，先在X轴上做一次线性变换，求出每一行的R点：

再通过一次线性变换求出在该区域中的P点：

其中(x,y)表示待插入位置，P₁₁，P₁₂，P₂₁，P₂₂分别是双线性插值法中待插入位置4个角点，其坐标分别为(x₁,y₁)，(x₁,y₂)，(x₂,y₁)，(x₂,y₂)，f(·)表示·处的像素值，T₁为P₁₁与P₂₁的中点，T₂为P₁₁与P₂₂的中点。

②在进行特征图融合时，为了充分利用到不同的通道和空间的信息，发明中采用一种基于通道和空间注意力的模块(CBAM)，CBAM模块结构如图4所示，其包含2个独立的子模块，通道注意力模块(CAM)(其结构如图5所示)和空间注意力模块(SAM)(其结构如图6所示)，分别进行通道与空间上的信息聚合。这样不仅仅节约参数和计算力，并且保证了其能够集成到现有的网络架构中去。

通道注意力模块的公式为：

其中σ表示sigmoid函数，W₁,W₀为MLP网络的权重，并且W₁,W₀共享W₀后的ReLU激活函数。

而空间注意力模块的公式为：

其中σ表示sigmoid函数，f^7×7为卷积操作，其卷积核为7*7，

表示通过平均池化后获得的特征图，

表示通过最大池化后获得的特征图；

③CBAM的具体流程分为两阶段：首先是进行通道注意力模块，然后再是经过空间注意力模块。

将输入的特征图F(H×W×C)分别经过全局最大池化和全局平均池化，得到两个1×1×C的特征图，接着，再将它们分别送入一个两层的神经网络，这个神经网络的两层的神经网络是共享。第一层神经元个数为C/rate(rate为减少率)，使用ReLU作为激活函数，第二层神经元个数为C。而后，将两层的神经网络输出的特征进行基于element-wise的加和操作，再经过sigmoid激活操作，生成最终的通道注意力特征图。最后，将注意力特征图和输入特征图F做element-wise乘法操作，生成Spatial attention模块需要的输入特征。

将通道attention模块输出的特征图作为本模块的输入特征图。首先做一个基于通道的全局最大值池化和全局平均值池化，得到两个H×W×1的特征图，然后将这2个特征图基于通道做拼接操作。然后经过一个7×7卷积操作，降维为1个通道。再经过sigmoid生成空间注意力特征图。最后将空间注意力特征图和该模块的输入feature做乘法，得到最终生成的特征。

经过注意力模块后，在进行特征融合的过程中只需要对其进行拼接，就能实现特征融合。而且该特征融合模块不仅降低了模型复杂度，还提高了模型的检测性能。

④将注意力模块CBAM嵌入到特征金字塔网络(FPN)中，FPN网络中包含自底向上和自顶向下的连部分组成。在每个进行特征融合的地址前加入注意力模块。FPN中特征融合由两部分构成，前馈Backbone的一部分，每一级往上使用步长为2的下采样。选择每一级的最后一层特征图，作为自下而上路径的对应相应层数，先经过注意力模块，然后经过1x 1卷积过后获得特征图。自顶向下的过程通过上采样的方式将顶层的小特征图。放大到上一个stage的特征图一样的大小。将1x1卷积后获得的特征图和自顶向下上采样获得的特征图进行拼接操作从而得到最终的用于预测的特征图。然后在三个尺度上进行预测与回归获得结果。

进一步地，子步骤(2.3)包括：

构建小目标预测网络：因为整个模型会在三个尺度上输出预测结果，因此不仅仅会构建小目标预测网络，还会构建中、大型目标的预测网络。但是这三个网络具有相同的网络结构。

以小目标预测网络为例，利用卷阶层以及池化层构建小目标预测网络，构建的预测网络由两部分组成，一个是判断该锚框anchor产生的候选框是否为目标的二分类任务网络，另一个是对该候选框进行边框回归的回归任务网络。预测网络的两个子网络都是由卷积层组成，其卷积核为3×3，最终都具有两个输出通道，但代表的含义不同，分别代表所检测小目标的回归框，以及目标的分类信息及置信度。

进一步地，所述步骤3中进行以下的输入训练集数据进入网络中进行训练，最终得到训练好的神经网络模型，具体包括：

将训练集中的图像送入到步骤二设计好的网络中，图像的具体训练过程为：将512×512大小的图像经过一个卷积层，其卷积核如表1所示为7×7，然后依次经过表中所示的卷积层，通过整个网络模型从，从而预测出多个预测框，然后通过这些预测框以及真实标注出来的框一起计算损失，从而指导各项参数是变化，最终得到最佳的模型参数。

将分类与回归做到了一个网络里面，因此损失函数必定是多任务的：

其中p_i为anchor预测为目标的概率，

为GT框的概率，t_i为一个向量，表示预测框的四个参数化坐标，

为正样本框对应的参数化坐标，N_cls为mini-batch的大小，λ

为回归损失的权重；

损失函数可以分成两部分，左边为分类的损失值，右边为回归的损失值。

先考虑分类损失其中

为：

而分类损失为交叉熵，其公式为：

当

为0时：

当

为1时：

鉴于普通的交叉熵对于正样本而言，输出概率越大损失越小；对于负样本而言，输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。引入焦点损失Focal Loss来解决这个问题，焦点损失Focal Loss的公式为：

并在此基础上引入平衡因子α，用于平衡正负样本不均衡的问题，其公式为：

其中α取0.25，γ取2。

第二部分的损失为回归损失：当

为0时，回归损失为0，当

为1是才需要考虑回归损失，回归损失公式为：

其中R为：

使用Faster RCNN的RPN网络用于获取候选框。具体的训练流程为：首先初始化化模型参数，先独立训练RPN网络。然后利用训练好的RPN网络来训练特征提取网络、特征融合网络。然后冻结训练好的特征提取网络和特征融合网络，并重新训练RPN网络。最后需要将训练好RPN网络参数冻结，然后重新训练特征提取和特征融合网络。

在上述卷积网络的训练过程中，一次迭代的过程(如附图8所示)包括：通过反向传播和梯度下降算法来拟合目标检测，通过降低检测目标位置，偏置以及类别的误差来达到降低整个卷积神经网络误差的目的，再通过前向传播更新模型中的权重，每次达到10000次迭代或者神经网络的输出与真实目标的误差小于设定值后，终止本轮次的训练。

进一步地，所述回归预测小目标的位置、类别以及置信度，包括：

根据以上步骤得到的训练好的神经网络输入待测测图像后，可以通过回归，得到小目标的位置，同时与能够回归获得其他中、大型目标的位置。

下面结合说明书附图进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

实施例

如图1所示，本发明的实施主要包含四个步骤：

步骤一：首先对输入的图像数据集中的图像进行预处理，并将其按照一定比例划分为训练集、测试集以及验证集；

步骤二：构建卷积神经网络的网络结构，包括特征提取网络、特征融合网络以及小目标回归网络；

步骤三：输入训练集数据进入网络中进行训练，最终得到训练好的神经网络模型；

步骤四：利用训练好的深度卷积神经网络模型检测图像中的小目标，得到准确位置的小目标检测框。

在步骤一中，可以细致划分为以下几个子步骤：

(1.1)获取图像数据构建小目标数据集。

虽然现在还没有一个专门用于小目标检测的数据集，但是可以通过收集公开的目标检测图像数据集(例如COCO数据集、Pascal VOC数据集等)以及自己标注的图像信息来构建小目标检测数据集。

(1.2)对小目标数据集进行预处理。

由于采集到的自然场景下的图像数据和数据集中的图像数据与预期样本存在很大差别，存在宽高不满足输入要求，所以对步骤一中采集获取的数据进行处理，主要包括放缩、填充处理和归一化等；小目标检测训练中，网络需要的输入图像的为512*512，我们的数据集尺寸大部分图像都不是符合网络输入的，因而需要对尺寸进行修改这种方法就是简单的对图片尺寸进行等比例缩放，然后使用0进行填充，从而得到512*512的输入图像。具体的操作是将输入的宽为iw、高为ih的图像进行放缩,其公式如下：

scale＝min(w/iw,h/ih) (1)

nw＝iw×scale (2)

nh＝ih×scale (3)

其中w和h期望的宽高即发明中为的512，scale为放缩比例，nw和nh分别是放缩后的宽高，之后便是将放缩后的图像至于中央，然后边界以0进行填充。

对待图像样本中的每一个像素点进行归一化，其中x_ij表示在(i,j)位置上点的像素值，x_min,x_max表示图像样本中所有像素的最小值与最大值。

(1.3)在划分训练集、测试集和验证集的时候需要根据数据集的大小来通过不同的方式来进行划分，如果当数据量不是很大的时候(万级别以下)的时候将训练集、验证集以及测试集划分为3：1：1；若是数据很大，可以将训练集、验证集、测试集的比例调整为98：1：1；但是当可用的数据很少的情况下可以使用一些例如K折交叉验证的方法来进行训练和验证等。

在步骤二中，可以细致划分为以下三个子步骤：构建特征提取网络、特征融合网络以及小目标回归网络；具体包括以下步骤：

(2.1)构建特征提取网络。

特征提取网络使用的改进的Resnet网络，如图2所示，整个特征提取网络由多个残差模块构成，每个残差模块的前向传播公式如下：

y＝F(x,w)+x (4)

而改进的Resnet网络模块参考深度可分离卷积，并利用分组卷积，通过变量基数来控制组的数量。即每个分支产生的特征图的通道数为n(n＞1)。

则其前向传播公式为：

将上述的卷积模块、池化模块以及改进残差模块，按照下表的格式就能够构建特征提取网络，具体采用的每一层的卷积核如表1所示。

表1特征提取网络结构

如上表所示，特征提取网络共有49层卷积神经网络层，还具有一层最大池化层，对于此网络的参数初始化，在具体实施中可以将此网络的网络层数适当的增加或减少。

(2.2)构建特征融合块

在深度卷积网络中浅层网络提取的特征具有较深层网络提取的特征的分辨率高、表征能力强，但是其包含的语义信息却很少，而深层网络的特征虽然分辨率低，但是其特征图包含丰富的语义信息。单独使用浅层网络特征图或者深层网络特征图都无法得到满意的结果，因此需要一种特征融合的方法融合浅层网络以及深层网络的特征，从而结合两类网络的优点来得到满意的小目标检测效果。

在特征融合的过程中需要使用上采样的方法来实现，发明中使用的上采样方法是双线性插值的方法。其示意图如附图3所示。双线性插值就是做两次线性变换，先在X轴上做一次线性变换，求出每一行的R点：

再通过一次线性变换求出在该区域中的P点：

在进行特征图融合时，为了充分利用到不同的通道和空间的信息，发明中采用一种基于通道和空间注意力的模块(CBAM)，CBAM模块结构如图4所示，其包含2个独立的子模块，通道注意力模块(CAM)(其结构如图5所示)和空间注意力模块(SAM)(其结构如图6所示)，分别进行通道与空间上的注意力。这样不仅仅节约参数和计算力，并且保证了其能够集成到现有的网络架构中去。

通道注意力模块的公式为：

其中σ(·)为特征融合函数，使用的是sigmoid函数，W₁,W₀为MLP网络的权重，并且W₁,W₀共享W₀后使用ReLU函数作为激活函数，F表示特征图，AvgPool(·)为平均池化函数，MaxPool(·)为最大池化函数；

而空间注意力模块的公式为：

其中σ表示sigmoid函数，f^7×7为卷积操作，其卷积核为7*7，

表示通过平均池化后获得的特征图，

表示通过最大池化后获得的特征图；

CBAM的具体流程分为两阶段：首先是进行通道注意力模块，然后再是经过空间注意力模块。

将通道注意力模块输出的特征图作为本模块的输入特征图。首先做一个基于通道的全局最大值池化和全局平均值池化，得到两个H×W×1的特征图，然后将这2个特征图基于通道做拼接操作。然后经过一个7×7卷积操作，降维为1个通道。再经过sigmoid生成空间注意力特征图。最后将空间注意力特征图和该模块的输入feature做乘法，得到最终生成的特征。

如图7所示，将注意力模块CBAM嵌入到特征金字塔网络(FPN)中，FPN网络中包含从骨干网络中获得的原始特征图和自顶向下过程中得到的新生成的特征图。在每个特征融合之前加入注意力模块。原始特征图的每一层都先经过一个注意力模块，然后经过1×1卷积对特征图进行调整，从而得到一个融合注意力的改进的原始特征图。而与之进行融合的是新生成特征图中与原始特征图相对应的特征层更深的一层的特征图，该特征图首先使用双线性插值的丰富将该特征图放大到与改进后的原始特征图相同的尺寸。最后使用1x1卷积将两个相同尺寸的特征图进行融合从而获得最终改进后的特征金字塔。

(2.3)构建小目标预测网络。因为整个模型会在三个尺度上输出预测结果，因此不仅仅会构建小目标预测网络，还会构建中、大型目标的预测网络。但是这三个网络具有相同的网络结构。

以小目标预测网络为例，利用卷阶层以及池化层构建小目标预测网络，构建的预测网络由两部分组成，一个是判断该anchor产生的候选框是否为目标的二分类任务网络，另一个是对该候选框进行边框回归的回归任务网络。预测网络的两个子网络都是由卷积层组成，其卷积核为3×3，最终都具有两个输出通道，但代表的含义不同，分别代表所检测小目标的回归框，以及目标的分类信息及置信度。

在步骤三中主要进行以下的输入训练集数据进入网络中进行训练，最终得到训练好的神经网络模型；

将训练集中的图像送入到步骤B设计好的网络中，图像的具体训练过程为：将512×512大小的图像经过一个卷积层，其卷积核如表1所示为7×7，然后依次经过表中所示的卷积层，通过整个网络模型从，从而预测出多个预测框，然后通过这些预测框以及真实标注出来的框一起计算损失，从而指导各项参数是变化，最终得到最佳的模型参数。

其中p_i为anchor预测为目标的概率，

为正样本框对应的参数化坐标。N_cls为mini-batch的大小。λ为回归损失的权重。

先考虑分类损失其中

为：

而分类损失为交叉熵，其公式为：

当

为0时：

当

为1时：

普通的交叉熵对于正样本而言，输出概率越大损失越小。对于负样本而言，输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优。

因此引入Focal Loss来解决这个问题，Focal Loss的公式为：

其中α取0.25，γ取2。

第二部分的损失为回归损失：当

为0时，回归损失为0，当

为1是才需要考虑回归损失，回归损失公式为：

其中R为：

使用了Faster RCNN的RPN网络用于获取候选框。具体的训练流程为：首先初始化化模型参数，先独立训练RPN网络。然后利用训练好的RPN网络来训练特征提取网络、特征融合网络。然后冻结训练好的特征提取网络和特征融合网络，并重新训练RPN网络。最后需要将训练好RPN网络参数冻结，然后重新训练特征提取和特征融合网络。

步骤四：根据以上步骤得到的训练好的神经网络输入待测测图像后，可以通过回归，得到小目标的位置，同时与能够回归获得其他中、大型目标的位置。

Claims

1.一种基于注意力机制的小目标检测方法，其特征在于：该方法具体包括以下步骤：

2.根据权利要求1所述的基于注意力机制的小目标检测方法，其特征在于，所述步骤1，具体包括以下步骤：

(1.1)获取目标检测图像，构建小目标检测数据集：收集COCO数据集中的小目标对象的图像数据来构建小目标检测数据集；

(1.2)对小目标检测数据集进行预处理：对采集获取的图像数据进行处理，包括放缩、填充处理和归一化；归一化是指将图像数据格式转换为统一的图像数据格式，以及采用归一化公式

对图像样本中的每一个像素点进行归一化；

(1.3)划分训练集、测试集和验证集：根据数据集的大小通过不同的方式进行划分，如果当数据量不大于一万的时候将训练集、验证集以及测试集划分为3:1:1；若是数据量大于一万，将训练集、验证集、测试集的比例调整为98:1:1。

3.根据权利要求1所述的基于注意力机制的小目标检测方法，其特征在于，所述步骤2，具体包括以下步骤：

(2.1)构建特征提取网络，该特征提取网络对输入图像的深、浅层语义特征低进行提取；

(2.2)构建特征融合网络，将特征提取网络获得的深层语义信息进行上采样，然后和浅层的细节信息进行融合，获得最终的特征图；

(2.3)构建小目标预测网络，小目标预测网络分为两部分，一是回归任务模块，用于对目标框进行定位，另一个是分类模块，用于对目标框进行目标分类；特征融合网络得到的特征图作为输入，小目标检测网络通过这些特征获得最终的检测结果。

4.根据权利要求3所述的基于注意力机制的小目标检测方法，其特征在于，步骤(2.1)所述构建特征提取网络，具体如下：

特征提取网络使用改进的Resnet网络，整个特征提取网络由多个残差模块构成，传统残差模块的前向传播公式如下：

y＝F(x,w)+x (1)

其中x，y分别为输入和输出，F(x,w)为一般神经网络前向传播公式，w为传播相关参数；

将Resnet网络的BottleNet网络架构分解成多个均匀的分支结构，参考深度可分离卷积，并利用分组卷积，通过变量基数来控制组的数量，即每个分支产生的特征图的通道数为n，n＞1；

则残差模块的前向传播公式为：

其中x，y分别为输入和输出，F(x,w_i)为各个分支的神经网络前向传播公式，w_i为各个分支传播相关参数，也就是网络中需要训练的参数；

将上述的卷积模块、池化模块以及改进残差模块，按照表1格式构建特征提取网络，其中conv1、conv2_x、conv3_x、conv4_x、conv5_x分别表示五个由多个卷积层组成的模块，maxpooling表示最大值池化，stride为池化步长；

表1

5.根据权利要求3所述的基于注意力机制的小目标检测方法，其特征在于，步骤(2.2)所述构建特征融合网络，具体如下：

①在特征融合的过程中使用双线性插值的上采样方法，双线性插值就是做两次线性变换，先在X轴上做一次线性变换，求出每一行的R点：

再通过一次线性变换求出在该区域中的P点：

其中(x,y)表示待插入位置，P₁₁，P₁₂，P₂₁，P₂₂分别是双线性插值法中待插入位置4个角点，其坐标分别为(x₁,y₁)，(x₁,y₂)，(x₂,y₁)，(x₂,y₂)，f(·)表示·处的像素值，T₁为P₁₁与P₂₁的中点，T₂为P₁₁与P₂₂的中点；

②在进行特征图融合时，采用一种基于通道和空间注意力的模块，称为CBAM模块，CBAM模块包含2个独立的子模块，通道注意力模块即CAM和空间注意力模块即SAM；

通道注意力模块的公式为：

而空间注意力模块的公式为：

其中σ表示sigmoid函数，f^7×7为卷积操作，其卷积核为7*7，

表示通过平均池化后获得的特征图，

表示通过最大池化后获得的特征图；

③CBAM模块的处理流程分为两阶段：首先是进行通道注意力模块，然后再是经过空间注意力模块；

将输入的特征图F,H×W×C分别经过全局最大池化和全局平均池化，得到两个1×1×C的特征图，分别送入一个两层的神经网络，共享这个两层的神经网络；第一层神经元个数为C/rate，rate为减少率，使用ReLU作为激活函数；第二层神经元个数为C；而后，将两层的神经网络输出的特征进行基于对应元素逐个相乘的加和操作，再经过sigmoid激活操作，生成最终的通道注意力特征图；最后，将通道注意力特征图和输入特征图F做element-wise乘法操作，生成空间注意力模块需要的输入特征图；

将通道注意力模块输出的特征图作为空间注意力模块的输入特征图；首先做一个基于通道的全局最大值池化和全局平均值池化，得到2个H×W×1的特征图，然后将这2个特征图基于通道做拼接操作；然后经过一个7×7卷积操作，降维为1个通道；再经过sigmoid激活操作，生成空间注意力特征图；最后将空间注意力特征图和空间注意力模块的输入特征图做乘法，得到最终生成的特征；

④经过CBAM模块后，对特征进行拼接实现特征融合：将CBAM模块嵌入到特征金字塔网络FPN中。

6.根据权利要求2所述的基于注意力机制的小目标检测方法，其特征在于，步骤(2.3)所述构建小目标预测网络，具体如下：

利用卷阶层以及池化层构建小目标预测网络，构建的预测网络由两部分组成，一个是判断锚框anchor产生的候选框是否为目标的二分类任务网络，另一个是对该候选框进行边框回归的回归任务网络；预测网络的两个子网络都是由卷积层组成，其卷积核为3×3，最终都具有两个输出通道，一个输出通道用于输出小目标的回归框位置，另一个输出通道用于输出对应回归框的分类信息以及置信度信息。

7.根据权利要求1所述的基于注意力机制的小目标检测方法，其特征在于，所述步骤3，具体过程如下：

将训练集中的图像送入步骤2构建的卷积神经网络中，图像的具体训练过程为：将512×512大小的图像经过一个卷积层，卷积核为7×7，然后依次经过卷积层，通过整个网络模型预测出多个预测框，然后通过这些预测框以及真实标注出来的框计算损失，从而指导各项参数变化，最终得到最佳的模型参数；

将分类与回归做到了一个网络里面，因此损失函数是多任务的：

其中p_i为anchor预测为目标的概率，

为正样本框对应的参数化坐标，N_cls为mini-batch的大小，λ为回归损失的权重；

损失函数分成两部分，左边为分类的损失值，右边为回归的损失值；

先考虑分类损失其中

为：

而分类损失为交叉熵损失，公式为：

当

为0时：

当

为1时：

鉴于交叉熵对于正样本而言，输出概率越大损失越小；对于负样本而言，输出概率越小则损失越小；引入焦点损失FocalLoss来解决这个问题，其数学表达式如下所示：

并在此基础上引入平衡因子α，用于平衡正负样本不均衡的问题，公式为：

其中α取0.25，γ取2；

第二部分的损失为回归损失：当

为0时，回归损失为0，当

为1是才需要考虑回归损失，回归损失公式为：

其中R为：

使用Faster R-CNN模型中的RPN网络获取候选框，具体的训练流程为：首先初始化化模型参数，先独立训练RPN网络；然后利用训练好的RPN网络来训练特征提取网络、特征融合网络；然后冻结训练好的特征提取网络和特征融合网络，并重新训练RPN网络；最后将训练好RPN网络参数冻结，然后重新训练特征提取和特征融合网络；

在上述卷积网络的训练过程中，一次迭代的过程包括：通过反向传播和梯度下降算法来拟合目标检测，再通过前向传播更新模型中的权重，每次达到10000次迭代或者神经网络的输出与真实目标的误差小于设定值后，终止本轮次的训练。

8.根据权利要求1所述的基于注意力机制的小目标检测方法，其特征在于，回归预测小目标候选框的位置、类别以及置信度，包括：

根据得到的训练好的神经网络输入待测测图像后，通过回归，得到小目标的位置，同时与能够回归获得其他中、大型目标的位置。