CN113392855A

CN113392855A - 一种基于注意力和对比学习的小样本目标检测方法

Info

Publication number: CN113392855A
Application number: CN202110793593.1A
Authority: CN
Inventors: 王蒙; 王强; 陈家兴; 李鑫凯; 邵逸轩
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-09-14

Abstract

本发明涉及了一种基于注意力和对比学习的小样本目标检测方法，属于人工智能、图像处理领域。本发明为一种结合了数据增强、注意力区域建议网络(AttentionRPN)、对比学习的小样本目标检测方法。该方法基于FasterR‑CNN网络，包括采用小样本马赛克(Few‑shot Mosaic)数据增强模块用于丰富小样本背景实例与新类(Novelclasses)和基类(Base classes)实例的对比，基于回归坐标补偿的Attention RPN模块加强模型对前景的关注，以及对比学习模块改善实例级特征的表达。本发明提高了FasterR‑CNN在小样本上新类的检测精度，同时保持了较高的基类检测精度；减少了FasterR‑CNN对新类训练样本量的依赖，提高对新类的迁移能力，在COCO和VOC数据集上验证了该方法的有效性。

Description

一种基于注意力和对比学习的小样本目标检测方法

技术领域

本发明涉及一种小样本目标检测的方法，具体设计了一种基于注意力和对比学习的小样本目标检测方法，属于人工智能、图像处理领域。

背景技术

目标检测是在图片中同时检测出目标和标定目标位置，故目标检测的任务比图片分类要复杂，不仅涉及分类任务也涉及回归任务。由于数据样本一方面有长尾分布特征，另一方面有的样本获取困难，标注代价巨大。故目标检测也存在小样本问题，即在样本量丰富的基类样本训练后，再在样本量稀少的小样本新类上作微调训练，使模型能在新类上的检测性能堪比基类检测性能。由于目标检测比分类的任务更加复杂，故小样本目标检测不能单纯的从小样本分类任务移植现成的技术。

卷积神经网络(CNNs)的发展给一般目标检测带来了巨大的进步。深度学习目标检测器需要大量带注释的训练数据来提升其性能。在小样本学习场景中，目标检测器存在严重的过拟合，小样本目标检测与一般目标检测之间的差距比小样本图像分类中相应的差距更大。因此小样本目标检测的模型要比小样本图像分类要复杂得多。

对比学习与注意力网络逐渐被很多人用于提高模型性能。其中对比学习自监督模式的成功归功于人们对对比学习的重新研究。优化对比实例同时最大化相似实例(定义为正对)之间的一致性，并鼓励不同实例或负对之间的差异。通过对比学习，该网络学习构建不集中于像素级细节的表示，而是编码足以区分不同图像的高级特征。然而监督对比学习将批量对比方法扩展到监督训练中，但是它们用于图像分类中。通过将对比学习作一定的修改，迁移到小样本目标检测任务中，提高模型对实例级特征表示的能力。

马赛克数据增强方法在目标检测领域首次在YOLOV4中被提出，参考了CutMix数据增强。马赛克数据增强利用了四张图片，其优点是丰富检测物体的背景，且在一个批次计算的时候同时会计算四张图片的数据，使得训练批次大小不需要很大，那么少许GPU就可以达到比较好的效果。争对小样本新旧类的对比关系，将马赛克数据增强作一定得更改更适于小样本目标检测。

注意力方法在目标检测中被广泛应用，例如基于多头自注意力网络的DETR、基于元学习注意力的MetaR-CNN、基于空间注意力的DAnA等。注意力不拘泥于特定形式或特定结构，本发明涉及的注意力本质上是通道乘法，通过注意力矩阵保存实例坐标偏移预测信息。

该发明的基线是Faster R-CNN，它是经典的两阶段检测算法，被作者RossB.Girshick在2016年提出。其优点是准确度高、定位能力较强，缺点是检测速度慢、参数较多。经过数年发展，在Faster R-CNN基础上已发展出一系列的改进方法，其中小样本目标检测也是其主要发展方向。

小样本目标检测解决具有挑战性的少镜头目标检测(FSOD)问题有两条工作路线。一是基于元学习的注意力，例如Meta R-CNN、FSRW和FSIW等；二是基于微调方法的TFA、MPSR等。

元学习方法实际上是一种注意力机制，基于支持集和查询集的注意力，但是没有充分地利用实例间地关系，注意力更注重不同实例间地差异性，对比学习能同时关注差异和共同。微调方法根据数据集不同，参数设置也很会不同，并不是一种端到端地自学习模型，虽然在经验上是可行的，但是并没有解决根本问题，即知识迁移时地遗忘。所以依据上述问题，针对性地提出本发明的方案。

发明内容

本发明的目的是针对上述已有技术存在的不足和缺陷，在少样本目标检测任务中，提供了基于注意力和对比学习小样本目标检测方法。

本发明采用的技术方案是：一种基于注意力和对比学习的小样本目标检测方法，小样本目标检测任务是指目标检测模型在少量样本训练后也能达到较好性能。该方法特征在于：基于小样本马赛克数据增强模块、基于坐标补偿注意力的区域提议网络、新旧类判别模块和对比学习模块。小样本马赛克数据增强模块丰富了实例背景和减少数据块尺寸，坐标补偿注意力的区域提议网络促使模型的区域提议网络关注前景实例，新旧类判别模块和对比学习模块增强实例特征表达和对比，增大新类和基类实例特征的表达区别，也增强从基类到新类的知识迁移。各模块具体构成如下：

小样本马赛克数据增强模块，包括样本选择策略、马赛克数据增强方法；

坐标补偿注意力区域提议网络，包括区域提议网络、回归坐标补偿注意力分支、坐标补偿损失；

新旧类判别模块，包括特征提取层、类别判别层；

对比学习模块，包括特征映射层、对比损失和联合训练策略；

方法的具体步骤如下：

(1)小样本马赛克数据增强模块从基类和新类训练样本随机选取样本后生成训练样本；

(2)FasterR-CNN按照步骤(1)所产生的训练样本经过主干网络ResNet 101进行特征提取，后接特征金字塔网络产生主干输出特征：P2、P3、P4、P5、P6；

(3)坐标补偿注意力区域提议网络以步骤(2)所产生的主干输出特征为输入，送入3x3卷积特征提取特征，接1x1卷积网络分别产出回归坐标预测和前景背景分类预测，同时也送入回归坐标补偿注意力分支生成回归坐标补偿，最终的坐标预测由前述的回归坐标预测与回归坐标补偿生成，再经过锚框生成器和后处理得到建议区域；

(4)ROIPooling层根据步骤(3)生成的建议区域对步骤(2)生成的P2、P3、P4、P5、P6特征进行ROIPooling操作生成特征R；

(5)步骤(4)所生成的特征R同时送入ROI特征提取模块ROIHead和新旧类判别模块Discriminator；

(6)新旧类判别模块将特征R送入两层全连接层后生成关于新类与基类的二分类预测分数；

(7)ROI特征提取模块有两层全连接层将特征R提取为1024维的特征F，同时送入框坐标回归头Regression、分类头Classification和对比学习头Contrastivelearning，其中回归头Regression和分类头Classification结果通过后处理生成最终检测结果。

具体地，小样本马赛克数据增强模块具体运行步骤包括：

(2.1)按比例分别从基类样本集D_base和新类样本集D_novel中抽取样本；

(2.2)每4张样本按新类与基类1：3的比例，分别采用不同的数据增强方法处理后以某一随机的尺寸裁剪后拼接为一张样本，目的是为了让稀有的新类样本充分地与基类样本混合在一起，一方面从图片级作数据增强，另一方面为后续实例级对比学习作铺垫；

(2.3)反复重复步骤(2.2)生成批次大小的训练样本D_train。

具体地，坐标补偿注意力区域提议网络具体运行步骤包括：

(3.1)将FPN的输出特征输入一层3x3卷积网络生成特征A；

(3.2)将步骤(3.1)生成的特征A分别通过两层1x1卷积为每个像素点生成前景背景预测分数

与回归坐标预测

j∈(0，1)，0代表前景得分，1代表背景得分，i∈(0，1，2，3)分别代表中心(x，y)和宽高(w，h)的值；

(3.3)步骤(3.1)生成的特征A也送入了回归坐标补偿注意力分支生成补偿坐标

其运算公式为：

其中W_K为可学习的注意力矩阵，conv(·)为1x1卷积操作；

(3.4)由步骤(3.2)与步骤(3.3)生成的

与

共同生成最终回归坐标预测

其运算公式为：

(3.5)坐标补偿注意力区域提议网络的损失函数为：

其中L_RPN为RPN网络总损失，

和

分别为RPN网络分类任务损失、回归任务损失和注意力分支损失：

其中t_i为回归坐标标签值，smooth()为smooth类型的损失函数。

具体地，新旧类判别模块具体运行步骤包括：

(4.1)新旧类判别模块以R为输入，R为维度为7x7xN的张量，先经过展开层生成49xN的二维向量R^*；

(4.2)步骤(4.1)的结果R^*通过两层全连接层生成新旧类预测α，为1xN维向量，其运算公式为：

α＝FC(P(R))

其中，FC(·)为两层全连接层，P(·)为展平操作。

具体地，对比学习模块具体运行步骤包括：

(5.1)由ROI的特征提取结果向量F经过两层MLP网络映射成为128维的实例向量Z_i；

(5.2)由步骤(5.1)生成的实例向量Z_i来计算对比损失，其对比损失的运算公式为：

其中，N为Z_i的总数，

为Z_i实例标签为y_i的总数，α_i是步骤(3.2)的第i行的数值，τ为温度系数，是一个超参，

是实例向量Z_i的正则化，

为索引为j的实例特征Z_j的正则化，其中f(u_i)的运算公式如下：

f(u_i)＝I{u_i≥0.7}·u_i

其中，u_i为对应的Z_i所对应的锚框的IOU值，IOU值为锚框与标注框的交并比；

(5.3)由步骤(5.2)所计算的对比损失联合上回归头与分类头的损失、坐标补偿注意力区域提议网络的损失构成总损失：

L＝L_c+L_reg+L_RPN+e^1-β(L_CPE+L_D)

其中，L_c和L_reg分别为FasterR-CNN输出头的分类损失与回归损失，L_RPN为步骤(3.5)所述RPN网络总损失，L_D是新旧类判别器的损失函数，β为训练的次数。

本发明的有益效果是：基于注意力和对比学习的小样本检测模型中，有效地结合了马赛克数据增强和对比学习，增强特征表示的鲁棒性，丰富了实例特征表示；本方法还将注意力区域建议网络与注意力结合，引导模型更加关注前景实例，提高了训练效率和质量；新旧类判别网络是对对比学习的有机补充，在不增加模型负担的情况下，提高相似地新旧类学习率。总之减小模型对新类训练样本的依赖度，同时尽可能地保留了基类检测精度。

附图说明

图1是基于注意力和对比学习的小样本目标检测方法摘要图；

图2是基于注意力和对比学习的小样本目标检测方法详细框架图；

图3是小样本马赛克数据增强模块示意图；

图4是注意力区域建议网络模块示意图；

图5是新旧类判别网络模块示意图；

图6是对比学习模块示意图。

具体实施方式

下面结合附图对本发明的具体实施进行相关阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

实施例1：如图1-6所示，一种基于注意力和对比学习的小样本目标检测方法，其特征在于：包括基于小样本马赛克数据增强模块、坐标补偿注意力区域提议网络、新旧类判别模块和对比学习模块。

新旧类判别模块，包括特征提取层、类别判别层；

在通用两阶段目标检测基线R-CNN的基础上，增加上述模块。其中，小样本马赛克数据增强模块丰富了实例背景，尤其对于数目稀少的小样本新类实例，同时有效地将新类与基类进行对比，提高从基类到新类的知识迁移效率；坐标补偿注意力区域提议网络在直观上是提高RPN网络的建议框的坐标精度，本质上是让RPN网络将注意力从背景向前景实例迁移，提高模型对新类实例的关注度；新旧类判别模块是为了找出难以区分的新旧类实例对比对，难以区分说明有更有用的信息富含其中，故通过提高对应的损失函数的权重来提高模型对实例对的学习；对比学习模块提高模型对实例级特征的表示，增加同类实例特征的相似度，减少不同类实例特征的相似度。

通过上述模块，增强模型的实例表示能力，减少模型对新类的样本需求量，提高检测器从基类向旧类的知识迁移能力；并且在提高对新类的检测精度的同时尽可能保留对基类的检测精度。

详细的模型结构如图2所示，训练步骤分为两阶段：第一阶段时模型只在基类上进行训练，使用普通马赛克数据增强模块和坐标补偿注意力区域提议网络，未使用新旧类判别模块和对比学习模块；第二阶段时模型在基类和新类上同时训练，使用全部的新类数据和用小样本马赛克数据增强模块随机抽取的少量基类数据。结果验证时，同时检测基类和新类的检测精度，并且在COCO 2014和PASCALVOC数据集上同时验证，检测标准采用nAP50。

所述方法的具体步骤如下：

(1)小样本马赛克数据增强模块分别从基类(Baseclass)和新类(Novelclass)训练样本中按一定比例和数目随机选取样本，每4张样本按马赛克数据增强方法生成一张训练样本，这每4张样中含一定比例的新类样本，新类与基类样本比例为1：3，新类样本采用更加丰富的数据增强方法，样本尺寸统一为640x640x3；

(2)FasterR-CNN按照步骤(1)所产生的训练样本经过主干网络进行特征提取，主干网络采用ResNet 101，其中主干网络的5层分别为Conv1(BN+ReLu)、Conv2_x、Conv3_x、Conv4_x、Conv5_x，BN代表归一层，ReLu代表激活函数，Convi_x代表第i层卷积层，其中第2、3、4、5层分别分别生成Res2、Res3、Res4、Res5特征，这些特征送入FPN(特征金字塔网络)产生P2、P3、P4、P5、P6特征，FPN网络由4层Conv2d 1x1、5层Conv2d 3x3和一层Maxpool 1x1组成，Conv2d 1x1代表1x1卷积层，Conv2d 3x3代表3x3卷积层，Maxpool 1x1代表maxpool操作，其中Upsample代表上采样，如图2所示；

(3)坐标补偿注意力区域提议网络(AttentionRPN)以步骤(2)所产生的P2、P3、P4、P5、P6特征为输入，送入卷积特征提取网络(RPN Head)，后由1x1卷积网络Conv 1x1分别产出回归坐标预测(RPN logistic)和前景背景分类预测，同时也送入回归坐标补偿注意力分支(Attention)生成回归坐标补偿，最终的坐标预测由前述的回归坐标预测与回归坐标补偿生成；再经过锚框生成器(AnchorGenerator)和后处理(Proposals、Filter Proposals)得到建议区域，RPNloss是根据锚框结合预测分数在特征图中随机选取数目一定的正负样本，选取操作为Filter Proposals，正负样本划分依据是标签(Ground truth)；

(4)ROIPooling层根据步骤(3)生成的建议区域对步骤(2)生成的P2、P3、P4、P5、P6特征进行ROIPooling操作生成实例特征R，该特征尺寸归一化为7x7xN大小；

(5)步骤(4)所生成的特征R同时送入ROI头和新旧类判别模块(Discriminator)：

(6)新旧类判别模块将特征R送入展平层(Flatten)、两层全连接层(Fc1、Fc2)和Relu层后生成关于新类与基类的二分类预测分数；

(7)ROI特征提取模块有两层全连接层将特征R提取为1024维的特征F，后送入对比学习输出头(ContrastiveHead)，它包含Faster R-CNN输出头(Faster R-CNNHead)与对比学习模块(Contrastivelearning)，如图2所示，其中框坐标回归头(Regression)、分类头(Classification)由两层全连接层(FC)组成，Contrastivelearning如图6所示。其中Regression与Classification的损失分别为交叉熵(Softmax cross entropy loss)、L1范数损失函数(Smooth L1 loss)，Faster R-CNNHead结果通过预测结果后处理生成最终检测结果。

进一步地，小样本马赛克数据增强模块具体运行步骤包括：

(2.1)按比例分别从基类D_base和新类D_noval样本中抽取样本；

(2.2)每4张样本按新类与基类1：3的比例，分别采用不同的数据增强方法处理后以某一随机的尺寸裁剪后拼接为一张样本，新类样本会使用不用的数据增强方法而重复使用；

(3.3)反复重复步骤(1.2)生成批次大小的批次训练样本D_train，其中基类样本和新类样本的类别不相同，D_train＝D_baseUD_novel，D_base∩D_novel＝φ，如图3所示。

进一步地，坐标补偿注意力区域提议网络具体运行步骤包括：

(3.1)将FPN的输出特征输入一层3x3卷积网络生成特征A，特征尺寸为NxNx256，N的大小依赖于输入尺寸大小，如图4所示；

(3.2)将步骤(2.1)生成的特征A分别通过两层1x1卷积为每个像素点生成前景背景预测分数

与回归坐标预测

j∈(0，1)，0代表前景得分，1代表背景得分，i∈(0，1，2，3)分别代表中心(x，y)和宽高(w，h)的值，运算公式为：

其中conv(·)为1x1卷积操作；

为误差预测，其运算公式为：

其中W_K为可学习的注意力矩阵，尺寸随A的尺寸变化，通常为5种维度，对应于不同的输入特征层，conv(·)为1x1卷积操作；

(3.4)由步骤(3.2)与步骤(3.3)生成的

与

共同生成最终回归坐标预测

其运算公式为：

(3.5)坐标补偿注意力区域提议网络的损失函数为：

其中L_RPN为RPN网络总损失，

和

其中t_i为回归坐标标签值，smooth(·)为smooth类型的损失函数。

的梯度回传除了注意力分支的整个RPN网络，

梯度只回传注意力分支。

进一步地，新旧类判别模块具体运行步骤包括：

(4.1)新旧类判别模块以R为输入，R为维度为7x7xN的张量，N通常取512，是一个超参，先经过展开层生成49xN的二维向量R^*；

(4.2)步骤(4.1)的结果R^*通过两层全连接层生成新旧类预测α，为1xN维向量，其中标签值0表示为基类，1表示为新类，N为实例总数，运算公式为：

α＝FC(P(R))

其中，FC(·)为两层全连接层(FC1、FC2)，P(·)为展平操作。

(4.3)新旧类判别模块的损失函数为：

L_D＝smooth(y-α)

其中y为新旧类标签，0表示基类，1表示新类，梯度只回传新旧类判别模块，如图5所示。

进一步地，对比学习模块具体运行步骤包括：

(5.1)由ROI的特征提取结果向量F经过两层MLP网络映射成为128维的实例向量Proposal(p_i，y_i)，i为第i个实例特征的索引，其中MLP由分别由全连接层FC、激活层ReLu、全连接层FC组成如图2所示。对比学习模块如图6所示，Proposal(p_i，y_i)中p_i是的第i个实例特征，y_i指的是对应标签值，Box Regressor与Box Classifier为图1的Faster R-CNN输出头的框坐标回归头、分类头；

(5.2)由Proposal(p_i，y_i)经过对比头(Contrastive Head)实例向量Z_i∈Z计算对比损失，其对比损失的运算公式为：

其中，N为Z_i的总数，

为Z_i实例标签为y_i的总数，α_i是步骤(3.2)的第i个实例的新旧类预测数值，τ为温度系数，是一个超参，常取0.2，

是实例向量Z_i的正则化，

为索引为j的实例特征Z_j的正则化。其中f(u_i)的运算公式如下：

f(u_i)＝I{u_i≥0.7}·u_i

L＝L_c+L_reg+L_RPN+e^1-β(L_CPE+L_D)

其中，L_c和L_reg分别为FasterR-CNN输出头的分类损失与回归损失，L_RPN为步骤(3.5)所述RPN网络总损失，β为训练的次数，表示对比损失随训练轮次比重逐渐降低。

实施例2：本实施例结合具体数据对本发明进行具体说明。

模型训练分为两个阶段:第一阶段为基类训练；第二阶段为小样本新类的微调阶段。其中基类训练样本数目足够丰富，新类训练数据按任务分为每一类样本数为1张、3张、5张和10张。模型在COCO数据集和VOC数据集上分别进行训练和验证，其中COCO数据集类别为80类，其中60个类为基类，20个为新类；VOC数据集类别为20个类，其中15个类为基类，5个类为新类。

超参设置:梯度下降使用标准SGD，动量为0.9，权值衰减为e^-4，batchsize为16.软件环境为Ubuntu18.04，Cuda10.2，Pytorch1.4.0，Python3.6；硬件环境为8张显卡RTX2080ti，CPU为AMD RYZEN7 R7 3500x。

第一阶段和第二阶段的训练时，模型结构有所区别。第一阶段的数据处理为普通的马赛克数据增强，数据送入主干网络ResNet 101，如图2所示，生成的res2，res3..特征后送入FPN结构，主干网络与FPN网络均在分类数据集ImageNet上预训练过。后接注意力区域建议网络，该网络的的注意力分支在基类训练时就已经加入，其损失函数梯度不回传其它结构，只回传自身。注意力区域建议网络的结果送入ROI头中生成实例级ROI特征，其中新旧类判别器未使用。ROI特征送入对比学习头，对比学习头的三个损失函数的梯度均回传整个网络。

第二阶段的数据处理为小样本马赛克数据增强，具体过程为:分别随机在基类数据和新类数据按3:1比例分别取3倍batch size和1倍batch size大小的样本集；每次分别从基类随机选取3张图片，新类按顺序选取1张图片，这4张图片随机使用普通的数据增强方法处理；后将这4张图片按随机尺寸大小裁剪拼接为一张新图片；上述过程重复batch size次，一共生成batch size大小的训练集后送入模型。主干网络、FPN网络、注意力区域建议网络和一阶段保持不变。ROI头前接入新旧类判别模块，该模块全连接层1的参数初始化与ROI头第一层软件层相同；还模块的作用是区分新类和基类的相似度。后接对比学习头与一阶段保持一致，其中主干网络和FPN网络的参数被冻结，不参与训练。

在测试阶段，数据增强、新旧类判别器和对比学习模块将被弃用；同时所以损失部分也不再使用。

结果:在PASCAL VOC的结果如表1所示：该结果是在第二阶段训练后的检测数据，参数设置和前述一致，其中一阶段基类训练后的基类检测结果是AP50为80.8。

表1：该发明在PASCAL VOC上的结果，其中AP50代表mAP>0.5。

在COCO数据集的结果如表2所示：

表2：该发明在COCO上的结果，其中AP75代表mAP>0.75

与其它模型相比，该模型增强了实例表示能力，减少模型对新类的样本需求量，提高检测器从基类向旧类的知识迁移能力；并且在提高对新类的检测精度的同时尽可能保留对基类的检测精度。并且在实验结果中表明，该发明拥有良好的性能和广泛的适用性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。