CN116758340A

CN116758340A - 基于超分辨率特征金字塔和注意力机制的小目标检测方法

Info

Publication number: CN116758340A
Application number: CN202310631844.5A
Authority: CN
Inventors: 王蒙; 何效宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-09-15

Abstract

本发明公开了一种基于超分辨率特征金字塔和注意力机制的小目标检测方法，主要涉及计算机视觉、人工智能领域；包括步骤：S1、数据增强；S2、特征提取；S3、图像超分辨率和特征金字塔生成；S4、基于注意力机制建议区域生成；S5、感兴趣区域对齐；S6、步骤S5所生成的特征R同时送入ROI特征提取模块ROI Head，ROI Head有两层全连接层将R提取为1024维的特征F；S7、目标分类和回归；本发明降低了模型对小目标的漏检率和误检率，提高了模型对小目标的检测精准度。

Description

基于超分辨率特征金字塔和注意力机制的小目标检测方法

技术领域

本发明涉及计算机视觉、人工智能领域，具体是基于超分辨率特征金字塔和注意力机制的小目标检测方法。

背景技术

目标检测旨在从图像或视频中识别和定位特定的对象。它是一种基于分类和定位的视觉对象识别技术，可以检测图像或视频中存在的对象，并准确地标识出它们的位置和边界框。

卷积神经网络(CNN)的发展给一般目标检测带来了巨大的进步。深度学习目标检测器需要大量带注释的训练数据来提升其性能。而对于小目标检测的场景，目前技术想要实现对小目标的精准检测还存在一些难点。在小样本学习场景中，目标检测器存在严重的过拟合，小样本目标检测与一般目标检测之间的差距比小样本图像分类中相应的差距更大。在进行小目标检测时，目标特征难以提取，形态难以区分，边界难以定位。小目标检测与一般目标检测之间的差距比小目标分类中相应的差距更大。因此，小目标检测的模型要比小目标分类要复杂得多。

目前，现有小目标检测模型所采用的网络结构有：普通特征提取网络、特征金字塔网络(FPN)、传统的区域建议网络(RPN)、ROI Pooling，但是其各有各自的不足之处：

1)普通特征提取网络对小目标表示能力不足

VGG-16网络深度相对较浅，只有16层，包含13个卷积层和3个全连接层，网络深度较小，可能会导致一些复杂的场景下识别能力不足。VGG-16网络中包含大量卷积层和全连接层，导致模型的计算复杂度非常高。在进行模型训练和推理时，需要大量的计算资源，可能会导致速度较慢，不适用于实时场景。由于VGG-16模型的网络结构比较简单，多个连续的卷积层可能会导致梯度消失的问题，导致模型训练困难或者收敛缓慢。VGG-16模型中没有采用ResNeSt中的残差结构，无法有效地解决梯度爆炸的问题，可能会导致模型无法收敛。

2)FPN容易丢失多分辨率特征信息

在进行特征上采样的过程中，FPN会将低分辨率的特征向上采样，与高分辨率的特征进行融合，但这样可能会导致一些特征信息的丢失，进而在进行小目标检测时可能会造成误检和漏检。而且FPN对于多尺度目标的处理不够精准，FPN将底层特征与高层特征进行融合，但由于底层特征的感受野较小，对于小尺寸目标的检测可能不够准确。

3)RPN对于小目标检测容易漏检或误检

RPN网络只能提取特定尺度的特征，对于不同尺度的目标检测效果较差。在实际场景中，目标的大小和尺度不一定相同，如果使用单一尺度的RPN网络进行目标检测，可能会漏检或误检。RPN网络只能提取单一尺度的特征，如果目标尺度与RPN网络提取的特征尺度不匹配，可能会影响目标检测的效果。RPN网络在检测小目标时效果不佳，可能会导致漏检或误检。

4)ROI Pooling处理小目标时会丢失细节信息

Faster R-CNN的原始ROI池化操作中两次量化造成的区域不匹配的问题，会带造成精度的丢失，因此改变这个定位池化或者特征尺度输出的问题也需要改进。ROI池化操作将不同大小的区域映射到固定大小的特征图上，这可能会导致一些目标过小或过大而无法很好地检测。特别是对于非常小的目标，ROI池化操作可能会导致信息的丢失，从而影响检测的准确性。

发明内容

本发明的目的在于解决现有技术中存在的问题，提供基于超分辨率特征金字塔和注意力机制的小目标检测方法，降低了模型对小目标的漏检率和误检率，提高了模型对小目标的检测精准度。

本发明为实现上述目的，通过以下技术方案实现：

基于超分辨率特征金字塔和注意力机制的小目标检测方法，包括步骤：

S1、由数据增强模块基于强化学习算法选择增强策略对原始图片进行一系列的随机变换，进行增强操作，生成新的训练样本S，其中，数据增强模块包括搜索策略、强化学习算法、图像处理；增强操作包括旋转、缩放、剪切；

S2、训练样本S经过图像多尺度特征提取网络，进行特征提取，得到输入图像的特征图C1、C2、C3、C4、C5，其中，图像多尺度特征提取网络包括分散注意力网络，分散注意力网络的步骤为：

首先输入图像通过一个卷积层，提取图像的低级特征；

然后经过多个残差块的堆叠，每个残差块包含多个卷积层和跳跃连接，提取图像的高级特征；

然后分散注意力网络使用了一种分散注意力机制，该机制通过将特征图分成不同的组并引入注意力机制来提高特征表达的能力；

最后在特征提取阶段结束后，特征图通过一个全局平均池化层，将其转换为一个向量I，这个向量包含了整个图像的特征；

S3、将特征图C2、C3、C4、C5接超分辨率特征金字塔提取网络产生主干输出特征：P2、P3、P4、P5、P6，其中，超分辨率特征金字塔提取网络包括感受野增大模块、超分辨率模块、局部位置注意力模块、降噪模块；C2、C3、C4都经过一个感受野增大模块模块，感受野增强模块主要用来在不牺牲特征图分辨率的同时扩大感受野；C5特征图经过一个1×1卷积改变维度与一个3×3卷积提取特征后输出得到特征图P5；P5分两分支，一支是经过2×2最大池化层后进入局部位置注意力模块，加强特征图局部特征位置的联系性得到P6；另一支则是P5上采样后与通过感受野增大模块后的C4相加得到P4，P5经过超分辨率模块后再于经过感受野增大模块后的C3相加得到P3输出，超分辨率模块主要是用来增强中、小目标的特征信息，并且让特征提取网络中深层信息与浅层信息相融合，使得浅层的特征信息变得更丰富；最后C2经过感受野增大操作后与P3上采样后的特征图相加得到最后P2，最终输出特征图P2、P3、P4、P5、P6；

S4、回归坐标补偿注意力区域建议网络以P2、P3、P4、P5、P6为输入，送入3×3卷积特征提取特征，接1×1卷积网络分别产出回归坐标预测和前景背景分类预测，同时也送入回归坐标补偿注意力分支生成回归坐标补偿，最终的坐标预测由前述的回归坐标预测与回归坐标补偿生成，再经过锚框生成器和后处理得到建议区域，其中，回归坐标补偿注意力区域建议网络包括区域建议网络、回归坐标补偿注意力分支、坐标补偿损失；

S5、感兴趣区域对齐模块将步骤S4得到的不同大小和位置的建议区域对步骤S2生成的P2、P3、P4、P5、P6特征进行ROI Align操作生成特征R；首先，ROI Align将感兴趣区域的坐标映射到特征图上，得到对应的ROI在特征图上的位置和大小信息；然后将ROI划分成k×k个小区域；然后对于每个小区域，通过双线性插值从特征图中提取出对应位置的特征，得到k×k个特征值；然后对于每个小区域内的特征值，通过对其四个角落的位置进行加权平均来得到最终的特征值；最后，将所有小区域的特征值拼接在一起，得到最终的感兴趣区域特征表示R；其中，感兴趣区域对齐模块包括坐标映射、感兴趣区域划分、双线性插值；

S6、步骤S5所生成的特征R同时送入ROI特征提取模块ROI Head，ROI Head有两层全连接层将R提取为1024维的特征F；

S7、将步骤S6得到的1024维的特征F输入到全连接层中的分类器Classification、回归器Regression进行目标分类和回归预测，同时特征F也输入到对比学习模块的MLP网络进行对比学习；最后由分类器、回归器和对比学习模块综合得到最终结果：目标的类别和位置信息；

其中，分类器的作用是生成对目标分类的预测分数，最终选择概率最大的类别作为预测结果；回归器的作用是对候选目标框进行位置微调，以更准确地包含目标；对比学习模块的作用是通过将正负样本进行比较学习到更具区分度的特征表示，从而提高小目标的特征表征能力，更好地区分小目标与背景，以达到降低模型对小目标的漏检率和误检率的目的。

优选的，步骤S1中，数据增强模块的运行步骤包括：

S11、使用强化学习算法对于输入的样本图像自动的搜索并随机选择一种增强策略，增强策略包括翻转、旋转、颜色变换、剪裁；

S12、在步骤S11选择的增强策略中自动的随机选择一些参数，所述参数包括旋转角度、剪裁比例；

S13、使用一个子网来预测增强策略，并使用另外一个子网来评估每个策略的效果，一旦找到最优的增强策略和参数，就将其应用到训练集中所有的样本图像，从而生成增强后的样本图像；

S14、重复步骤S11到S13，生成一组增强后的样本图像S。

优选的，步骤S2中，图像多尺度特征提取网络的运行步骤包括：

S21、增强后的样本图像S通过一个7×7卷积层，步长为2，padding为3，输出通道数64，进行下采样，减小图像尺寸；

S22、经过一个窗口大小为3×3的最大值池化层，步长为2，降低图像尺寸；

S23、经过四个残差块的堆叠，提取图像的高级特征，每个残差块包含多个卷积层和跳跃连接；残差基础块的数量为33，每个残差基础块的类型为分散注意力块，分散注意力块里共有2个卷积层和1个注意力模块，共101层；

S24、然后通过一个全局平均池化层，将特征图转换为一个向量，这个向量包含了整个图像的特征；

S25、最后通过一个全连接层将特征向量映射到类别标签上。

优选的，步骤S3中，超分辨率特征金字塔提取网络的运行步骤包括：

S31、将由图像多尺度特征提取网络提取到的图像特征即特征图C2、C3、C4、C5输入到超分辨率特征金字塔SRFPN中；

S32、特征图C2、C3、C4都经过一个感受野增大模块，感受野增强模块主要用来在不牺牲特征图分辨率的同时扩大感受野，从而提高小目标的检测精度；感受野增大模块中采用的是1×1和两个3×3空洞卷积还有一个平均池化操作，扩张率分别为1，3，6；平均池化后的特征图再经过一个1×1卷积来变换通道维数，最后将特征图沿通道拼接后输出；感受野增大的公式为：

y_i,j,k＝max_{(p,q)∈R(i,j)}x_p,q,k

其中，x_p,q,k是输入的特征图上第k个通道上位置为(p,q)的像素值，y_i,j,k是输出特征图上第k个通道上位置为(i,j)的像素值；R(i,j)表示以位置(i,j)为中心，大小为2r+1的感受野；通过对输入特征图上每个位置的感受野内的像素值取最大值，得到输出特征图上每个位置的像素值；r表示感受野增大模块的半径；

空洞卷积的公式为：

其中，y(i)是输出，x是输入，w是卷积核，K是卷积核的通道数，R是卷积核大小，s是空洞率，i是输出的空间位置；

平均池化的公式为：

其中，x(i,j)表示输入的特征图上位置(i,j)处的像素值，k表示池化窗口的大小，s表示池化窗口的步长，y_i,j表示池化后输出的特征图上位置(i,j)处的像素值；池化操作将池化窗口内所有像素值的平均值作为输出特征图上对应位置的像素值；

S33、顶层特征图C5经过一个1×1卷积改变维度与一个3×3卷积提取特征后输出得到特征图P5；

S34、P5分两分支，一支是经过2×2最大池化层后进入局部位置注意力模块，加强特征图局部特征位置的联系性得到P6；

局部位置注意力的公式为：

其中，x(i,j)为输入的特征图像素值，y_i,j为输出特征图像素值，w_m,n为权重矩阵，用于计算中心像素点(i,j)的输出值；

权重矩阵的大小为k×k，k为奇数，取值为3或5；

S35、另一支则是P5上采样后与通过感受野增大模块后的C4相加得到P4；

S36、P5经过超分辨率模块后再于经过感受野增大模块后的C3相加得到P3输出，超分辨模块中主要是通过超分辨的方法扩大P4特征图的面积，P4的特征图经过一个残差块进行特征提取和通道变换后，再经过亚像素卷积进行特征图面积的扩大，扩大后的特征图P4'与P3特征图通道拼接；最后，再与经过亚像素卷积后的上层特征图P4′相加得到最后的特征图输出；

图像超分辨率的公式为：

其中，I_LR为低分辨率图像，为超分辨率图像，f(·)是超分辨率模型，θ是模型参数；

图像降噪的公式为：

其中，I是原始图像，n是噪声，是降噪后的图像，f(·)是降噪函数；

亚像素卷积的公式为：

其中，r是上采样倍数，即高分辨率图像的宽和高都是低分辨率图像宽和高的r倍；c是通道维度，i和j分别是高和宽的维度；

S37、最后C2经过感受野增大操作后与P3上采样后的特征图相加得到最后P2，最终输出特征图P2、P3、P4、P5、P6。

优选的，步骤S4中，回归坐标补偿注意力区域建议网络的运行步骤包括：

S41、将SRFPN的输出特征P2、P3、P4、P5、P6输入一层3×3卷积网络生成特征A；

S42、将特征A分别通过两层1×1卷积为每个像素点生成前景背景预测分数与回归坐标预测j∈(0,1)，0代表前景得分，1代表背景得分，i∈(0,1,2,3)分别代表中心(x,y)和宽高(w,h)的值；

S43、将特征A送入回归坐标补偿注意力分支生成补偿坐标其运算公式为：

其中，W_K为可学习的注意力矩阵，conv(·)为1×1卷积操作；

S44、由与共同生成最终回归坐标预测其运算公式为：

S45、坐标补偿注意力区域建议网络的损失函数为：

其中，L_RPN为RPN网络总损失，和分别为RPN网络分类任务损失、回归任务损失和注意力分支损失：

其中，t_i为回归坐标标签值，smooth_L1(·)为smooth L1类型的损失函数。

优选的，步骤S5中，感兴趣区域对齐模块的运行步骤包括：

S51、首先，将感兴趣区域的坐标映射到特征图上，得到对应的ROI在特征图上的位置和大小信息；

具体实施该步骤的公式为：

首先，对于ROI的左上角坐标x_roi,y_roi和宽度高度w_roi,h_roi，分别计算它们相对于特征图的缩放比例p_w,p_h：

其中，w_feat,h_feat分别表示特征图的宽度和高度；

然后，将左上角坐标x_roi,y_roi映射到特征图上的位置x_feat,y_feat，计算公式如下：

接着，将x_feat,y_feat映射到最近的四个特征点的坐标(x₁,y₁),(x₂,y₂),(x₃,y₃),(x₄,y₄)，如下所示：

x_diff＝x_feat-x₁

y_diff＝y_feat-y₁

w₁＝(1-x_diff)·(1-y_diff)

w₂＝x_diff·(1-y_diff)

w₃＝(1-x_diff)·y_diff

w₃＝x_diff·y_diff

其中，x_diff,y_diff表示x_feat,y_feat相对于(x₁,y₁)的偏移量，w₁,w₂,w₃,w₄分别表示四个特征点的权重；

S52、然后，将感兴趣区域划分成个k×k子区域，k＝2或k＝3，并在每个子区域上进行双线性插值，从而获得子区域内的特征值；

双线性插值的公式为：

其中v_i,j表示小区域中的第i,j个位置的特征值，P_i,j表示第i,j个位置对应的特征图上的像素位置集合，w(p)表示双线性插值权重，f(p)表示特征图上位置p的特征值；

S53、对于每个子区域内的特征值，通过对其四个角落的位置进行加权平均来得到最终的特征值；

加权平均值的计算公式为：

其中c₁＝(0,0)，c₂＝(0,k-1)，c₃＝(k-1,0)，c₄＝(k-1,k-1)，表示小区域内的四个角落的位置；

S54、最后，将所有子区域的特征值拼接在一起，得到最终的感兴趣区域特征表示R。

优选的，步骤S7中，对比学习模块的运行步骤包括：

S71、由ROI的特征提取结果向量F经过两层MLP网络映射成为128维的实例向量Z_i；

S72、由实例向量Z_i来计算对比损失，其对比损失的运算公式为：

其中，N为Z_i的总数，为Z_i实例标签为y_i的总数，α_i是步骤(5.2)的第i行的数值，τ为温度系数，是一个超参，是实例向量Z_i的正则化，为索引为j的实例特征Z_j的正则化，其中f(u_i)的运算公式如下：

f(u_i)＝Ι{u_i≥0.7}·u_i

其中，u_i为对应的Z_i所对应的锚框的IOU值，IOU值为锚框与标注框的交并比；

S73、由对比损失联合上回归头与分类头的损失、坐标补偿注意力区域提议网络的损失构成总损失：

L＝L_c+L_reg+L_RPN+e^1-βL_CPE

其中，L_c和L_reg分别为FasterR-CNN输出头的分类损失与回归损失，L_RPN为RPN网络总损失，β为训练的次数。

对比现有技术，本发明的有益效果在于：

本发明采用自动增强数据模块自动选择增强策略对原始图片进行变换增强操作；增加对比学习模块，增强小目标特征的表达从而更好的区分小目标与背景。降低了模型对小目标的漏检率和误检率。采用注意力分散网络代替原本的VGG-16，实现深层特征提取和融合；通过超分辨率特征金字塔网络，提高图像分辨率，提取并融合多尺度、多层次的空间特征；用基于回归坐标补偿的注意力区域建议网络代替原本的区域建议网络，对每个建议区域进行加权从而加强模型对前景的关注；用感兴趣区域对齐代替原本的感兴趣区域池化，更好的保留ROI内部的细节信息以实现更准确的对ROI进行采样。提高了模型对小目标的检测精准度。

附图说明

图1是本发明的总体框架图；

图2是本发明的详细架构图；

图3是自动增强(AutoAugment)数据增强模块原理图；

图4是超分辨率特征金字塔网络SRFPN原理图；

图5是感受野增大模块(RFE)原理图；

图6是超分辨率模块(SR)原理图；

图7是局部位置注意力模块(LPA)原理图；

图8是降噪模块(NR)原理图；

图9是注意力区域建议网络Attention RPN原理图；

图10是感兴趣区域对齐ROI Align原理图；

图11是对比学习模块原理图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

实施例1：如附图1-11所示，本发明所述是基于超分辨率特征金字塔和注意力机制的小目标检测方法，结合了数据增强、分散注意力网络、超分辨率特征金字塔网络、注意力区域建议网络、感兴趣区域对齐、对比学习的目标检测方法。该方法基于FasterR-CNN网络，为降低模型对小目标的漏检率和误检率，采用自动增强(AutoAugment)数据模块自动选择增强策略对原始图片进行变换增强操作；增加对比学习模块(CL)，增强小目标特征的表达从而更好的区分小目标与背景。为提高模型对小目标的检测精准度，采用注意力分散网络(Split-Attention Networks，ResNeSt)代替原本的VGG-16，实现深层特征提取和融合；通过超分辨率特征金字塔网络(SRFPN)，提高图像分辨率，提取并融合多尺度、多层次的空间特征；用基于回归坐标补偿的注意力区域建议网络(ARPN)代替原本的区域建议网络(RPN)，对每个建议区域进行加权从而加强模型对前景的关注；用感兴趣区域对齐(ROI Align)代替原本的感兴趣区域池化(ROI Pooling)，更好的保留ROI内部的细节信息以实现更准确的对ROI进行采样。

包括数据增强模块、超分辨率特征金字塔提取网络、回归坐标补偿注意力区域建议网络、感兴趣区域对齐模块、对比学习模块，各模块具体构成如下：

1)数据增强模块，包括搜索策略(Policy Search)、强化学习算法(ReinforcementLearning，RL)、图像处理(Image Processing)；

2)图像多尺度特征提取网络，包础分散注意力网络(ResNeSt-101)；

3)超分辨率特征金字塔提取网络，包括感受野增大模块(RFE)、超分辨率模块(SR)、局部位置注意力模块(LPA)、降噪模块(NR)；

4)回归坐标补偿注意力区域建议网络，包括区域建议网络、回归坐标补偿注意力分支、坐标补偿损失；

5)感兴趣区域对齐模块，包括坐标映射、感兴趣区域划分、双线性插值；

6)对比学习模块，包括特征映射层、对比损失和联合训练策略；

在通用两阶段目标检测基线Faster R-CNN的基础上，增加上述模块。采用自动增强(AutoAugment)数据模块自动选择增强策略对原始图片进行变换增强操作；增加对比学习模块(CL)，增强小目标特征的表达从而更好的区分小目标与背景。降低了模型对小目标的漏检率和误检率。采用注意力分散网络(Split-Attention Networks，ResNeSt)代替原本的VGG-16，实现深层特征提取和融合；通过超分辨率特征金字塔网络(SRFPN)，提高图像分辨率，提取并融合多尺度、多层次的空间特征；用基于回归坐标补偿的注意力区域建议网络(ARPN)代替原本的区域建议网络(RPN)，对每个建议区域进行加权从而加强模型对前景的关注；用感兴趣区域对齐(ROI Align)代替原本的感兴趣区域池化(ROI Pooling)，更好的保留ROI内部的细节信息以实现更准确的对ROI进行采样。提高了模型对小目标的检测精准度。

通过上述模块，减小了Faster R-CNN模型对小目标的误检率和漏检率；提高了模型多尺度特征融合能力、对小目标的检测精度以及鲁棒性和泛化能力。使得模型在针对小目标检测任务时拥有更优秀的性能。

训练方面的超参数设置：本实验是基于Faster R-CNN网络的，Faster R-CNN网络需要设置anchor大小，这里设置anchor的size分别为4²，8²，16²，32²，64²，设置anchor ratio分为1:2，1:1，2:1，这样设置的好处则是基本包含了所有大、中、小目标。对于目标检测中的分类损失与回归损失权值设置，这里设置权值为1:1，按1:1的比例方式进行训练。接着就是常规训练网络时的一些设置，对图片进行缩放处理，统一缩放到1333×800，扩大图片分辨率有助于小目标检测，按照均值为123.675，116.28，103.53，方差为58.395，57.12，57.375进行归一化处理。受硬件水平限制，Batch Size设置为2，训练的总epoch数为12。在学习率设置方面，使用目标检测中经常使用的预热学习率策略(warm up)，初始学习率为0.0025，学习率分别在第9个epoch和第12个epoch后调整为上一个epoch时学习率大小的1/10，优化器选用动量参数为(Momentum)为0.9，衰减系数为0.001的随机梯度下降(SGD)算法，训练时加载ResNeSt-101在ImageNet上训练好的模型，其他采用kaiming初始化。

结果验证时，对于每个类别，按照一定的IoU阈值(通常为0.5)计算Precision-Recall曲线，然后计算出该类别的平均精度mAP。将所有类别的平均精度求平均，得到整个模型的平均精度mAP。并且在COCO 2014和PASCALVOC数据集上同时验证，检测标准采用nAP50。

所述方法的具体步骤如下：

(1)AutoAugment数据增强模块预定义一组数据增强策略集合，并规定每个策略集合中包含一定数量的数据增强策略。然后使用基于强化学习算法(ReinforcementLearning)选择增强策略对原始图片进行一系列的随机变换，如旋转、缩放、剪切等增强操作，生成新的训练样本S，并将增强后的训练样本S输入到Faster R-CNN中进行目标检测。

(2)FasterR-CNN将步骤(1)获取到的增强后的样本S经过主干网络进行特征提取，得到输入图像的特征图。主干网络采用ResNeSt-101，其中主干网络的5层分别为Conv1(BN+ReLu)、Conv2_x、Conv3_x、Conv4_x、Conv5_x，BN代表归一层，ReLu代表激活函数，Convi_x代表第i层卷积层，其中第2、3、4、5层分别分别生成C2、C3、C4、C5特征；

(3)图像超分辨率和特征金字塔生成：将第(2)步提取到的后四层特征图C2、C3、C4、C5接超分辨率特征金字塔网络FPN产生主干输出特征：P2、P3、P4、P5、P6。C2、C3、C4都经过一个感受野增大模块(RFE)模块，感受野增强模块主要用来在不牺牲特征图分辨率的同时扩大感受野。顶层特征图C5不需要经过RFE，因为前面的卷积操作和下采样操作，顶层的感受野已经足够大，C5特征图经过一个1×1卷积改变维度与一个3×3卷积提取特征后输出得到特征图P5。P5分两分支，一支是经过2×2最大池化层(MaxPooling)后进入局部位置注意力模块(LPA)，加强特征图局部特征位置的联系性得到P6。另一支则是P5上采样后与通过RFE模块后的C4相加得到P4，P5经过超分辨率模块(SR)后再于经过RFE模块后的C3相加得到P3输出，超分辨率模块主要是用来增强中、小目标的特征信息，并且让特征提取网络中深层信息与浅层信息相融合，使得浅层的特征信息变得更丰富。最后C2经过RFE操作后与P3上采样后的特征图相加得到最后P2，最终输出特征图P2、P3、P4、P5、P6。

(3)坐标补偿注意力区域建议网络(AttentionRPN)以步骤(2)所产生的P2、P3、P4、P5、P6特征为输入，送入卷积特征提取网络(RPN Head)，后由1×1卷积网络Conv 1×1分别产出回归坐标预测(RPN logistic)和前景背景分类预测，同时也送入回归坐标补偿注意力分支(Attention)生成回归坐标补偿，最终的坐标预测由前述的回归坐标预测与回归坐标补偿生成；再经过锚框生成器(AnchorGenerator)和后处理(Proposals、FilterProposals)得到建议区域，RPN Loss是根据锚框结合预测分数在特征图中随机选取数目一定的正负样本，选取操作为Filter Proposals，正负样本划分依据是标签(Ground truth)；

(4)ROI Align层根据步骤(3)生成的建议区域对步骤(2)生成的P2、P3、P4、P5、P6特征进行ROI Align操作生成实例特征R，首先，ROI Align将感兴趣区域(ROI)的坐标映射到特征图上，得到对应的ROI在特征图上的位置和大小信息；然后将ROI划分成多个小区域，通常是k×k个小区域；然后对于每个小区域，通过双线性插值(Bilinear Interpolation)从特征图中提取出对应位置的特征，得到k×k个特征值；然后对于每个小区域内的特征值，通过对其四个角落的位置进行加权平均来得到最终的特征值；最后，将所有小区域的特征值拼接在一起，得到最终的感兴趣区域特征表示R；

(5)步骤(4)所生成的特征R同时送入ROI特征提取模块ROI Head，生成特征1024维的特征F；

(6)ROI特征提取模块有两层全连接层将特征R提取为1024维的特征F，后送入对比学习输出头(Contrastive Head)，它包含Faster R-CNN输出头(Faster R-CNNHead)与对比学习模块(Contrastive Learning)，其中框坐标回归头(Regression)、分类头(Classification)由两层全连接层(FC)组成。其中Regression与Classification的损失函数分别为交叉熵(Softmax Cross Entropy Loss)、L1范数损失函数(Smooth L1 Loss)。Faster R-CNNHead结果通过预测结果后处理生成最终检测结果。

进一步地，数据增强模块具体运行步骤包括：

(2.1)AutoAugment数据增强模块使用强化学习算法(Reinforcement Learning)算法对于输入的样本图像自动的搜索并随机选择一种增强策略，例如翻转、旋转、颜色变换或剪裁；

(2.2)在步骤(2.1)选择的增强策略中自动的随机选择一些参数，例如旋转角度或剪裁比例；

数据增强模块搜索策略(Policy Search)部分的公式如下：

其中，θ表示参数，x表示输入的数据集，a表示一个增强策略，p_θ表示根据当前参数θ得到的策略分布，R(x,a)表示策略a在数据集x上的性能评估指标。该损失函数的目标是最大化在数据集上的性能评估指标。

(2.3)AutoAugment使用一个子网(Policy Network)来预测增强策略，并使用另外一个子网(Value Network)来评估每个策略的效果，一旦找到最优的增强策略和参数，就将其应用到训练集中所有的样本图像，从而生成增强后的样本图像；

数据增强模块图像处理(Image Processing)部分的公式如下：

S＝apply_policy(x,p)

其中，x表示输入图像，p表示从Policy Search部分得到的增强策略，apply_policy表示将增强策略p应用于输入图像x的函数，S表示增强后的图像。

(2.4)重复步骤(2.1)到(2.3)，生成一组增强后的样本图像S。

进一步地，图像多尺度特征提取网络具体运行步骤包括：

(3.1)增强后的样本图像S通过一个7×7卷积层，步长为2，padding为3，输出通道数64，进行下采样，减小图像尺寸；

(3.2)经过一个窗口大小为3x3的最大值池化层，步长为2，降低图像尺寸；

(3.3)经过四个残差块的堆叠，提取图像的高级特征，每个残差块包含多个卷积层和跳跃连接。残差基础块的数量为：3+4+23+3＝33，每个残差基础块的类型为分散注意力块(Split-Attention Block)，Split-Attention Block里共3个卷积层(2个1×1卷积层+1个3×3卷积层)，33×3＝99，加上一开始的7×7卷积层和最后的全连接层，99+1+1＝101，共101层。分散注意力块的原理可以用以下公式表示：

其中C是子张量的通道数，W_j是注意力机制中的可学习权重，x_ij是输入张量中第i个子张量中的第j个通道，α_ij是注意力权重，可以根据输入特征动态计算得到，一般可以采用softmax归一化实现。

(3.4)然后通过一个全局平均池化层，将特征图转换为一个向量。这个向量包含了整个图像的特征；

(3.5)最后通过一个全连接层将特征向量映射到类别标签上。根据向后传播中使用的导数的链式法则，分散注意力网络损失函数∈关于的梯度可以表示为：

在整个训练过程中，不可能一直为-1，所以分散注意力网络中不会出现梯度消失的问题。表示L层的梯度可以直接传递到任何一个比它浅的l层。

进一步地，图像多尺度特征金字塔提取网络具体运行步骤包括：

(4.1)将由ResNeSt-101网络提取到的图像特征即特征图C2、C3、C4、C5输入到超分辨率特征金字塔SRFPN中；

(4.2)特征图C2、C3、C4都经过一个感受野增大模块(RFE)，感受野增强模块主要用来在不牺牲特征图分辨率的同时扩大感受野。RFE模块中采用的是1×1和两个3×3空洞卷积还有一个平均池化操作(AvgPooling)，扩张率为1，3，6，代替了原来的扩张率分别为6，12，18，24的4个3×3卷积。平均池化后的特征图还要经过一个1×1卷积来变换通道维数，最后将特征图沿通道拼接后输出。感受野增大的公式为：

y_i,j,k＝max_{(p,q)∈R(i,j)}x_p,q,k

其中，x_p,q,k是输入的特征图上第k个通道上位置为(p,q)的像素值，y_i,j,k是输出特征图上第k个通道上位置为(i,j)的像素值。R(i,j)表示以位置(i,j)为中心，大小为2r+1的感受野。通过对输入特征图上每个位置的感受野内的像素值取最大值，得到输出特征图上每个位置的像素值。r表示RFE模块的半径。

空洞卷积的公式为：

其中，y(i)是输出，x是输入，w是卷积核，K是卷积核的通道数，R是卷积核大小，s是空洞率(Dilation Rate)，i是输出的空间位置。空洞卷积相当于在普通卷积的基础上，将卷积核中的零元素替换成了i-1个空洞元素，从而使得卷积核在输入特征图上的采样间隔增大了s倍，从而扩大了感受野。

平均池化的公式为：

其中，x(i,j)表示输入的特征图上位置(i,j)处的像素值，k表示池化窗口的大小，s表示池化窗口的步长，y_i,j表示池化后输出的特征图上位置(i,j)处的像素值。池化操作将池化窗口内所有像素值的平均值作为输出特征图上对应位置的像素值。

(4.3)顶层特征图C5不需要经过RFE，因为前面的卷积操作和下采样操作，顶层的感受野已经足够大，C5特征图经过一个1×1卷积改变维度与一个3×3卷积提取特征后输出得到特征图P5；

(4.4)P5分两分支，一支是经过2×2最大池化层(MaxPooling)后进入局部位置注意力模块(LPA)，加强特征图局部特征位置的联系性得到P6。局部位置注意力的公式为：

其中，x(i,j)为输入的特征图像素值，y_i,j为输出特征图像素值，w_m,n为权重矩阵，用于计算中心像素点(i,j)的输出值。权重矩阵的大小为k×k，k为奇数，通常取值为3或5。在局部注意力LPA中，权重矩阵根据像素点的位置来自适应地调整，以实现对不同位置的特征提取。

(4.5)另一支则是P5上采样后与通过RFE模块后的C4相加得到P4；

(4.6)P5经过超分辨率模块(SR)后再于经过RFE模块后的C3相加得到P3输出，超分辨率模块主要是用来增强中、小目标的特征信息，并且让特征提取网络中深层信息与浅层信息相融合，使得浅层的特征信息变得更丰富。考虑到过多的特征会导致无用的信息增多，在这模块中又增加了降噪模块(NR)，使用卷积与反卷积残差相连的结构的来进行特征修复与降噪。超分辨模块中主要是通过超分辨的方法扩大P4特征图的面积。P4的特征图经过一个残差块进行特征提取和通道变换后，再经过亚像素卷积进行特征图面积的扩大，扩大后的特征图(P4')与P3特征图通道拼接。最后，再与经过亚像素卷积后的上层特征图(P4′)相加得到最后的特征图输出。图像超分辨率的公式为：

其中，I_LR为低分辨率图像，为超分辨率图像，f(·)是超分辨率模型，θ是模型参数。

图像降噪的公式为：

其中，I是原始图像，n是噪声，是降噪后的图像，f(·)是降噪函数。

亚像素卷积的公式为：

其中r是上采样倍数，即高分辨率图像的宽和高都是低分辨率图像宽和高的r倍。c是通道维度，i和j分别是高和宽的维度。可以看到，亚像素卷积是通过取均值的方式将r×r个相邻像素合并成一个像素，从而将低分辨率图像上的一个像素映射到高分辨率图像上的r²个像素上。

(4.7)最后C2经过RFE操作后与P3上采样后的特征图相加得到最后P2，最终输出特征图P2、P3、P4、P5、P6。上采样的运算公式为：

其中，upsample(F^(l))_i,j表示上采样后的特征图在位置(i,j)处的值，(F^(l))_i,j表示原始的低分辨率特征图在位置(i,j)处的值。该公式的含义是，对于每个上采样后的像素位置(i,j)，计算其在原始低分辨率特征图上所对应的3×3像素区域的平均值，并将其作为上采样后的像素值。因此，上采样操作可以将低分辨率的特征图放大到高分辨率，从而获得更多的细节信息。

进一步地，基于注意力机制建议区域生成网络具体运行步骤包括：

(5.1)将FPN的输出特征输入一层3×3卷积网络生成特征A，特征尺寸为N×N×256，N的大小依赖于输入尺寸大小，如图4所示；

(5.2)将步骤(2.1)生成的特征A分别通过两层1×1卷积为每个像素点生成前景背景预测分数与回归坐标预测j∈(0,1)，0代表前景得分，1代表背景得分，i∈(0,1,2,3)分别代表中心(x,y)和宽高(w,h)的值，运算公式为：

其中conv(·)为1×1卷积操作；

(5.3)步骤(3.1)生成的特征A也送入了回归坐标补偿注意力分支生成补偿坐标为误差预测，其运算公式为：

其中W_K为可学习的注意力矩阵，尺寸随A的尺寸变化，通常为5种维度，对应于不同的输入特征层，conv(·)为1×1卷积操作；

(5.4)由步骤(3.2)与步骤(3.3)生成的与共同生成最终回归坐标预测其运算公式为：

(5.5)坐标补偿注意力区域提议网络的损失函数为：

其中L_RPN为RPN网络总损失，和分别为RPN网络分类任务损失、回归任务损失和注意力分支损失。

RPN的分类任务使用的是二元交叉熵损失函数，它的具体公式如下：

其中，N_C是正负样本的数量，y_i表示第i个样本的真实标签，p_i表示预测为正样本的概率。

回归任务损失和注意力分支损失的具体公式如下：

其中t_i为回归坐标标签值，smooth_L1(·)为smooth L1类型的损失函数。的梯度回传除了注意力分支的整个RPN网络，梯度只回传注意力分支。

smoothL1型损失函数可以表示为：

其中x表示预测框与真实框之间的差异。当|x|<1时，使用0.5x²，此时损失函数的斜率接近于0，更加平滑，而当|x|≥1时，使用|x|-0.5，此时相当于使用了L1 Loss。

进一步地，感兴趣区域对齐和采样模块具体运行步骤包括：

(6.1)首先，将感兴趣区域(ROI)的坐标映射到特征图上，得到对应的ROI在特征图上的位置和大小信息。即对于给定的感兴趣区域，根据其在原始图像中的坐标和特征图与原始图像之间的缩放关系，计算出其在特征图上的坐标和大小。具体实施该步骤的公式为：

其中，w_feat,h_feat分别表示特征图的宽度和高度；

x_diff＝x_feat-x₁

y_diff＝y_feat-y₁

w₁＝(1-x_diff)·(1-y_diff)

w₂＝x_diff·(1-y_diff)

w₃＝(1-x_diff)·y_diff

w₃＝x_diff·y_diff

(6.2)然后，将感兴趣区域划分成个k×k子区域(通常取k＝2或k＝3)，并在每个子区域上进行双线性插值，从而获得子区域内的特征值。双线性插值的公式为：

(6.3)对于每个子区域内的特征值，通过对其四个角落的位置进行加权平均来得到最终的特征值。加权平均值的计算公式为：

(6.4)最后，将所有子区域的特征值拼接在一起，得到最终的感兴趣区域特征表示。通过以上步骤，ROI Align可以有效地解决ROI Pooling所存在的精度损失问题，从而提高目标检测等任务的准确性；

(6.5)ROI Align的反向传播公式：

上式中，x_i代表ROI Align操作前特征图上的像素点；y_rj代表操作后的第r个候选区域的第j个点；i^*(r,j)代表点y_rj像素值的来源，d(·)表示两点之间的距离函数，Δh和Δw表示x_i与x_i*(r,j)横纵坐标的差值，这里作为双线性内插的系数乘在原始的梯度上。

进一步地，对比学习模块具体运行步骤包括：

(7.1)由ROI的特征提取结果向量F经过两层MLP网络映射成为128维的实例向量Proposal(p_i,y_i)，i为第i个实例特征的索引，其中MLP由分别由全连接层FC、激活层ReLu。Proposal(p_i,y_i)中p_i是的第i个实例特征，y_i指的是对应标签值，Box Regressor与BoxClassifier为的Faster R-CNN输出头的框坐标回归头、分类头；

(7.2)Proposal(p_i,y_i)经过对比头(Contrastive Head)实例向量Z_i∈Z计算对比损失，其对比损失的运算公式为：

其中，N为Z_i的总数，N_yi为Z_i实例标签为y_i的总数，α_i是步骤(5.2)的第i行的数值，τ为温度系数，是一个超参，是实例向量Z_i的正则化，为索引为j的实例特征Z_j的正则化，其中f(u_i)的运算公式如下：

f(u_i)＝Ι{u_i≥0.7}·u_i

(7.3)由步骤(5.2)所计算的对比损失联合上回归头与分类头的损失、坐标补偿注意力区域提议网络的损失构成总损失：

L＝L_c+L_reg+L_RPN+e^1-βL_CPE

其中，L_c和L_reg分别为FasterR-CNN输出头的分类损失与回归损失，L_RPN为步骤(5.5)所述RPN网络总损失，β为训练的次数。

实施例2：本实施例结合具体数据对本发明进行具体说明。

模型训练分为两个阶段:第一阶段为超频率特征金字塔网络(SRFPN)训练；第二阶段为基于回归坐标补偿感兴趣建议区域网络(ARPN)训练阶段；模型在COCO和PASCALVOC数据集上分别进行训练和验证，其中COCO数据集包含118,287张图像，验证集包含5,000张图像，测试集包含40,670张图像。PASCALVOC数据集包含2,500张图像，验证集包含2,500张图像，测试集包含4,952张图像。

软件环境为Ubuntu18.04，Cuda10.2，Pytorch1.4.0，Python3.6；硬件环境为8张显卡RTX 2080ti，CPU为AMD RYZEN7 R7 3500x。

结果：在COCO数据集的结果如表1所示，在PASCAL VOC的结果如表2所示：

表1：该发明在COCO上的结果：

表2：该发明在PASCAL VOC上的结果：

与其它模型相比，该模型本发明减少了FasterR-CNN计算量和时间消耗，提高目标检测的效率；减小了Faster R-CNN对小目标的误检率和漏检率；提高了Faster R-CNN多尺度特征融合能力、对小目标的检测精度以及鲁棒性和泛化能力。与优化前的FasterR-CNN算法相比，本发明具有更好的小目标特征表示能力、更好的泛化能力、更低的小目标误检率和漏检率，可以适用于更复杂的小目标检测场景。

Claims

1.基于超分辨率特征金字塔和注意力机制的小目标检测方法，其特征在于，包括步骤：

首先输入图像通过一个卷积层，提取图像的低级特征；

S6、步骤S5所生成的特征R同时送入ROI特征提取模块ROIHead，ROIHead有两层全连接层将R提取为1024维的特征F；

2.根据权利要求1所述的基于超分辨率特征金字塔和注意力机制的小目标检测方法，其特征在于，步骤S1中，数据增强模块的运行步骤包括：

S14、重复步骤S11到S13，生成一组增强后的样本图像S。

3.根据权利要求1所述的基于超分辨率特征金字塔和注意力机制的小目标检测方法，其特征在于，步骤S2中，图像多尺度特征提取网络的运行步骤包括：

S25、最后通过一个全连接层将特征向量映射到类别标签上。

4.根据权利要求1所述的基于超分辨率特征金字塔和注意力机制的小目标检测方法，其特征在于，步骤S3中，超分辨率特征金字塔提取网络的运行步骤包括：

y_i,j,k＝max_{(p,q)∈R(i,j)}x_p,q,k

空洞卷积的公式为：

平均池化的公式为：

局部位置注意力的公式为：

权重矩阵的大小为k×k，k为奇数，取值为3或5；

图像超分辨率的公式为：

图像降噪的公式为：

亚像素卷积的公式为：

5.根据权利要求1所述的基于超分辨率特征金字塔和注意力机制的小目标检测方法，其特征在于，步骤S4中，回归坐标补偿注意力区域建议网络的运行步骤包括：

其中，W_K为可学习的注意力矩阵，conv(·)为1×1卷积操作；

S44、由与共同生成最终回归坐标预测其运算公式为：

S45、坐标补偿注意力区域建议网络的损失函数为：

6.根据权利要求1所述的基于超分辨率特征金字塔和注意力机制的小目标检测方法，其特征在于，步骤S5中，感兴趣区域对齐模块的运行步骤包括：

具体实施该步骤的公式为：

其中，w_feat,h_feat分别表示特征图的宽度和高度；

x_diff＝x_feat-x₁

y_diff＝y_feat-y₁

w₁＝(1-x_diff)·(1-y_diff)

w₂＝x_diff·(1-y_diff)

w₃＝(1-x_diff)·y_diff

w₃＝x_diff·y_diff

双线性插值的公式为：

加权平均值的计算公式为：

7.根据权利要求1所述的基于超分辨率特征金字塔和注意力机制的小目标检测方法，其特征在于，步骤S7中，对比学习模块的运行步骤包括：

f(u_i)＝Ι{u_i≥0.7}·u_i

L＝L_c+L_reg+L_RPN+e^1-βL_CPE