CN113392855A - 一种基于注意力和对比学习的小样本目标检测方法 - Google Patents

一种基于注意力和对比学习的小样本目标检测方法 Download PDF

Info

Publication number
CN113392855A
CN113392855A CN202110793593.1A CN202110793593A CN113392855A CN 113392855 A CN113392855 A CN 113392855A CN 202110793593 A CN202110793593 A CN 202110793593A CN 113392855 A CN113392855 A CN 113392855A
Authority
CN
China
Prior art keywords
attention
new
network
coordinate
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110793593.1A
Other languages
English (en)
Inventor
王蒙
王强
陈家兴
李鑫凯
邵逸轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110793593.1A priority Critical patent/CN113392855A/zh
Publication of CN113392855A publication Critical patent/CN113392855A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及了一种基于注意力和对比学习的小样本目标检测方法,属于人工智能、图像处理领域。本发明为一种结合了数据增强、注意力区域建议网络(AttentionRPN)、对比学习的小样本目标检测方法。该方法基于FasterR‑CNN网络,包括采用小样本马赛克(Few‑shot Mosaic)数据增强模块用于丰富小样本背景实例与新类(Novelclasses)和基类(Base classes)实例的对比,基于回归坐标补偿的Attention RPN模块加强模型对前景的关注,以及对比学习模块改善实例级特征的表达。本发明提高了FasterR‑CNN在小样本上新类的检测精度,同时保持了较高的基类检测精度;减少了FasterR‑CNN对新类训练样本量的依赖,提高对新类的迁移能力,在COCO和VOC数据集上验证了该方法的有效性。

Description

一种基于注意力和对比学习的小样本目标检测方法
技术领域
本发明涉及一种小样本目标检测的方法,具体设计了一种基于注意力和对比学习的小样本目标检测方法,属于人工智能、图像处理领域。
背景技术
目标检测是在图片中同时检测出目标和标定目标位置,故目标检测的任务比图片分类要复杂,不仅涉及分类任务也涉及回归任务。由于数据样本一方面有长尾分布特征,另一方面有的样本获取困难,标注代价巨大。故目标检测也存在小样本问题,即在样本量丰富的基类样本训练后,再在样本量稀少的小样本新类上作微调训练,使模型能在新类上的检测性能堪比基类检测性能。由于目标检测比分类的任务更加复杂,故小样本目标检测不能单纯的从小样本分类任务移植现成的技术。
卷积神经网络(CNNs)的发展给一般目标检测带来了巨大的进步。深度学习目标检测器需要大量带注释的训练数据来提升其性能。在小样本学习场景中,目标检测器存在严重的过拟合,小样本目标检测与一般目标检测之间的差距比小样本图像分类中相应的差距更大。因此小样本目标检测的模型要比小样本图像分类要复杂得多。
对比学习与注意力网络逐渐被很多人用于提高模型性能。其中对比学习自监督模式的成功归功于人们对对比学习的重新研究。优化对比实例同时最大化相似实例(定义为正对)之间的一致性,并鼓励不同实例或负对之间的差异。通过对比学习,该网络学习构建不集中于像素级细节的表示,而是编码足以区分不同图像的高级特征。然而监督对比学习将批量对比方法扩展到监督训练中,但是它们用于图像分类中。通过将对比学习作一定的修改,迁移到小样本目标检测任务中,提高模型对实例级特征表示的能力。
马赛克数据增强方法在目标检测领域首次在YOLOV4中被提出,参考了CutMix数据增强。马赛克数据增强利用了四张图片,其优点是丰富检测物体的背景,且在一个批次计算的时候同时会计算四张图片的数据,使得训练批次大小不需要很大,那么少许GPU就可以达到比较好的效果。争对小样本新旧类的对比关系,将马赛克数据增强作一定得更改更适于小样本目标检测。
注意力方法在目标检测中被广泛应用,例如基于多头自注意力网络的DETR、基于元学习注意力的MetaR-CNN、基于空间注意力的DAnA等。注意力不拘泥于特定形式或特定结构,本发明涉及的注意力本质上是通道乘法,通过注意力矩阵保存实例坐标偏移预测信息。
该发明的基线是Faster R-CNN,它是经典的两阶段检测算法,被作者RossB.Girshick在2016年提出。其优点是准确度高、定位能力较强,缺点是检测速度慢、参数较多。经过数年发展,在Faster R-CNN基础上已发展出一系列的改进方法,其中小样本目标检测也是其主要发展方向。
小样本目标检测解决具有挑战性的少镜头目标检测(FSOD)问题有两条工作路线。一是基于元学习的注意力,例如Meta R-CNN、FSRW和FSIW等;二是基于微调方法的TFA、MPSR等。
元学习方法实际上是一种注意力机制,基于支持集和查询集的注意力,但是没有充分地利用实例间地关系,注意力更注重不同实例间地差异性,对比学习能同时关注差异和共同。微调方法根据数据集不同,参数设置也很会不同,并不是一种端到端地自学习模型,虽然在经验上是可行的,但是并没有解决根本问题,即知识迁移时地遗忘。所以依据上述问题,针对性地提出本发明的方案。
发明内容
本发明的目的是针对上述已有技术存在的不足和缺陷,在少样本目标检测任务中,提供了基于注意力和对比学习小样本目标检测方法。
本发明采用的技术方案是:一种基于注意力和对比学习的小样本目标检测方法,小样本目标检测任务是指目标检测模型在少量样本训练后也能达到较好性能。该方法特征在于:基于小样本马赛克数据增强模块、基于坐标补偿注意力的区域提议网络、新旧类判别模块和对比学习模块。小样本马赛克数据增强模块丰富了实例背景和减少数据块尺寸,坐标补偿注意力的区域提议网络促使模型的区域提议网络关注前景实例,新旧类判别模块和对比学习模块增强实例特征表达和对比,增大新类和基类实例特征的表达区别,也增强从基类到新类的知识迁移。各模块具体构成如下:
小样本马赛克数据增强模块,包括样本选择策略、马赛克数据增强方法;
坐标补偿注意力区域提议网络,包括区域提议网络、回归坐标补偿注意力分支、坐标补偿损失;
新旧类判别模块,包括特征提取层、类别判别层;
对比学习模块,包括特征映射层、对比损失和联合训练策略;
方法的具体步骤如下:
(1)小样本马赛克数据增强模块从基类和新类训练样本随机选取样本后生成训练样本;
(2)FasterR-CNN按照步骤(1)所产生的训练样本经过主干网络ResNet 101进行特征提取,后接特征金字塔网络产生主干输出特征:P2、P3、P4、P5、P6;
(3)坐标补偿注意力区域提议网络以步骤(2)所产生的主干输出特征为输入,送入3x3卷积特征提取特征,接1x1卷积网络分别产出回归坐标预测和前景背景分类预测,同时也送入回归坐标补偿注意力分支生成回归坐标补偿,最终的坐标预测由前述的回归坐标预测与回归坐标补偿生成,再经过锚框生成器和后处理得到建议区域;
(4)ROIPooling层根据步骤(3)生成的建议区域对步骤(2)生成的P2、P3、P4、P5、P6特征进行ROIPooling操作生成特征R;
(5)步骤(4)所生成的特征R同时送入ROI特征提取模块ROIHead和新旧类判别模块Discriminator;
(6)新旧类判别模块将特征R送入两层全连接层后生成关于新类与基类的二分类预测分数;
(7)ROI特征提取模块有两层全连接层将特征R提取为1024维的特征F,同时送入框坐标回归头Regression、分类头Classification和对比学习头Contrastivelearning,其中回归头Regression和分类头Classification结果通过后处理生成最终检测结果。
具体地,小样本马赛克数据增强模块具体运行步骤包括:
(2.1)按比例分别从基类样本集Dbase和新类样本集Dnovel中抽取样本;
(2.2)每4张样本按新类与基类1:3的比例,分别采用不同的数据增强方法处理后以某一随机的尺寸裁剪后拼接为一张样本,目的是为了让稀有的新类样本充分地与基类样本混合在一起,一方面从图片级作数据增强,另一方面为后续实例级对比学习作铺垫;
(2.3)反复重复步骤(2.2)生成批次大小的训练样本Dtrain
具体地,坐标补偿注意力区域提议网络具体运行步骤包括:
(3.1)将FPN的输出特征输入一层3x3卷积网络生成特征A;
(3.2)将步骤(3.1)生成的特征A分别通过两层1x1卷积为每个像素点生成前景背景预测分数
Figure BDA0003157768270000041
与回归坐标预测
Figure BDA0003157768270000042
j∈(0,1),0代表前景得分,1代表背景得分,i∈(0,1,2,3)分别代表中心(x,y)和宽高(w,h)的值;
(3.3)步骤(3.1)生成的特征A也送入了回归坐标补偿注意力分支生成补偿坐标
Figure BDA0003157768270000043
其运算公式为:
Figure BDA0003157768270000044
其中WK为可学习的注意力矩阵,conv(·)为1x1卷积操作;
(3.4)由步骤(3.2)与步骤(3.3)生成的
Figure BDA0003157768270000045
Figure BDA0003157768270000046
共同生成最终回归坐标预测
Figure BDA0003157768270000047
其运算公式为:
Figure BDA0003157768270000048
(3.5)坐标补偿注意力区域提议网络的损失函数为:
Figure BDA0003157768270000049
其中LRPN为RPN网络总损失,
Figure BDA00031577682700000410
Figure BDA00031577682700000411
分别为RPN网络分类任务损失、回归任务损失和注意力分支损失:
Figure BDA00031577682700000412
Figure BDA00031577682700000413
其中ti为回归坐标标签值,smooth()为smooth类型的损失函数。
具体地,新旧类判别模块具体运行步骤包括:
(4.1)新旧类判别模块以R为输入,R为维度为7x7xN的张量,先经过展开层生成49xN的二维向量R*
(4.2)步骤(4.1)的结果R*通过两层全连接层生成新旧类预测α,为1xN维向量,其运算公式为:
α=FC(P(R))
其中,FC(·)为两层全连接层,P(·)为展平操作。
具体地,对比学习模块具体运行步骤包括:
(5.1)由ROI的特征提取结果向量F经过两层MLP网络映射成为128维的实例向量Zi
(5.2)由步骤(5.1)生成的实例向量Zi来计算对比损失,其对比损失的运算公式为:
Figure BDA0003157768270000051
Figure BDA0003157768270000052
其中,N为Zi的总数,
Figure BDA0003157768270000053
为Zi实例标签为yi的总数,αi是步骤(3.2)的第i行的数值,τ为温度系数,是一个超参,
Figure BDA0003157768270000054
是实例向量Zi的正则化,
Figure BDA0003157768270000055
为索引为j的实例特征Zj的正则化,其中f(ui)的运算公式如下:
f(ui)=I{ui≥0.7}·ui
其中,ui为对应的Zi所对应的锚框的IOU值,IOU值为锚框与标注框的交并比;
(5.3)由步骤(5.2)所计算的对比损失联合上回归头与分类头的损失、坐标补偿注意力区域提议网络的损失构成总损失:
L=Lc+Lreg+LRPN+e1-β(LCPE+LD)
其中,Lc和Lreg分别为FasterR-CNN输出头的分类损失与回归损失,LRPN为步骤(3.5)所述RPN网络总损失,LD是新旧类判别器的损失函数,β为训练的次数。
本发明的有益效果是:基于注意力和对比学习的小样本检测模型中,有效地结合了马赛克数据增强和对比学习,增强特征表示的鲁棒性,丰富了实例特征表示;本方法还将注意力区域建议网络与注意力结合,引导模型更加关注前景实例,提高了训练效率和质量;新旧类判别网络是对对比学习的有机补充,在不增加模型负担的情况下,提高相似地新旧类学习率。总之减小模型对新类训练样本的依赖度,同时尽可能地保留了基类检测精度。
附图说明
图1是基于注意力和对比学习的小样本目标检测方法摘要图;
图2是基于注意力和对比学习的小样本目标检测方法详细框架图;
图3是小样本马赛克数据增强模块示意图;
图4是注意力区域建议网络模块示意图;
图5是新旧类判别网络模块示意图;
图6是对比学习模块示意图。
具体实施方式
下面结合附图对本发明的具体实施进行相关阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
实施例1:如图1-6所示,一种基于注意力和对比学习的小样本目标检测方法,其特征在于:包括基于小样本马赛克数据增强模块、坐标补偿注意力区域提议网络、新旧类判别模块和对比学习模块。
小样本马赛克数据增强模块,包括样本选择策略、马赛克数据增强方法;
坐标补偿注意力区域提议网络,包括区域提议网络、回归坐标补偿注意力分支、坐标补偿损失;
新旧类判别模块,包括特征提取层、类别判别层;
对比学习模块,包括特征映射层、对比损失和联合训练策略;
在通用两阶段目标检测基线R-CNN的基础上,增加上述模块。其中,小样本马赛克数据增强模块丰富了实例背景,尤其对于数目稀少的小样本新类实例,同时有效地将新类与基类进行对比,提高从基类到新类的知识迁移效率;坐标补偿注意力区域提议网络在直观上是提高RPN网络的建议框的坐标精度,本质上是让RPN网络将注意力从背景向前景实例迁移,提高模型对新类实例的关注度;新旧类判别模块是为了找出难以区分的新旧类实例对比对,难以区分说明有更有用的信息富含其中,故通过提高对应的损失函数的权重来提高模型对实例对的学习;对比学习模块提高模型对实例级特征的表示,增加同类实例特征的相似度,减少不同类实例特征的相似度。
通过上述模块,增强模型的实例表示能力,减少模型对新类的样本需求量,提高检测器从基类向旧类的知识迁移能力;并且在提高对新类的检测精度的同时尽可能保留对基类的检测精度。
详细的模型结构如图2所示,训练步骤分为两阶段:第一阶段时模型只在基类上进行训练,使用普通马赛克数据增强模块和坐标补偿注意力区域提议网络,未使用新旧类判别模块和对比学习模块;第二阶段时模型在基类和新类上同时训练,使用全部的新类数据和用小样本马赛克数据增强模块随机抽取的少量基类数据。结果验证时,同时检测基类和新类的检测精度,并且在COCO 2014和PASCALVOC数据集上同时验证,检测标准采用nAP50。
所述方法的具体步骤如下:
(1)小样本马赛克数据增强模块分别从基类(Baseclass)和新类(Novelclass)训练样本中按一定比例和数目随机选取样本,每4张样本按马赛克数据增强方法生成一张训练样本,这每4张样中含一定比例的新类样本,新类与基类样本比例为1:3,新类样本采用更加丰富的数据增强方法,样本尺寸统一为640x640x3;
(2)FasterR-CNN按照步骤(1)所产生的训练样本经过主干网络进行特征提取,主干网络采用ResNet 101,其中主干网络的5层分别为Conv1(BN+ReLu)、Conv2_x、Conv3_x、Conv4_x、Conv5_x,BN代表归一层,ReLu代表激活函数,Convi_x代表第i层卷积层,其中第2、3、4、5层分别分别生成Res2、Res3、Res4、Res5特征,这些特征送入FPN(特征金字塔网络)产生P2、P3、P4、P5、P6特征,FPN网络由4层Conv2d 1x1、5层Conv2d 3x3和一层Maxpool 1x1组成,Conv2d 1x1代表1x1卷积层,Conv2d 3x3代表3x3卷积层,Maxpool 1x1代表maxpool操作,其中Upsample代表上采样,如图2所示;
(3)坐标补偿注意力区域提议网络(AttentionRPN)以步骤(2)所产生的P2、P3、P4、P5、P6特征为输入,送入卷积特征提取网络(RPN Head),后由1x1卷积网络Conv 1x1分别产出回归坐标预测(RPN logistic)和前景背景分类预测,同时也送入回归坐标补偿注意力分支(Attention)生成回归坐标补偿,最终的坐标预测由前述的回归坐标预测与回归坐标补偿生成;再经过锚框生成器(AnchorGenerator)和后处理(Proposals、Filter Proposals)得到建议区域,RPNloss是根据锚框结合预测分数在特征图中随机选取数目一定的正负样本,选取操作为Filter Proposals,正负样本划分依据是标签(Ground truth);
(4)ROIPooling层根据步骤(3)生成的建议区域对步骤(2)生成的P2、P3、P4、P5、P6特征进行ROIPooling操作生成实例特征R,该特征尺寸归一化为7x7xN大小;
(5)步骤(4)所生成的特征R同时送入ROI头和新旧类判别模块(Discriminator):
(6)新旧类判别模块将特征R送入展平层(Flatten)、两层全连接层(Fc1、Fc2)和Relu层后生成关于新类与基类的二分类预测分数;
(7)ROI特征提取模块有两层全连接层将特征R提取为1024维的特征F,后送入对比学习输出头(ContrastiveHead),它包含Faster R-CNN输出头(Faster R-CNNHead)与对比学习模块(Contrastivelearning),如图2所示,其中框坐标回归头(Regression)、分类头(Classification)由两层全连接层(FC)组成,Contrastivelearning如图6所示。其中Regression与Classification的损失分别为交叉熵(Softmax cross entropy loss)、L1范数损失函数(Smooth L1 loss),Faster R-CNNHead结果通过预测结果后处理生成最终检测结果。
进一步地,小样本马赛克数据增强模块具体运行步骤包括:
(2.1)按比例分别从基类Dbase和新类Dnoval样本中抽取样本;
(2.2)每4张样本按新类与基类1:3的比例,分别采用不同的数据增强方法处理后以某一随机的尺寸裁剪后拼接为一张样本,新类样本会使用不用的数据增强方法而重复使用;
(3.3)反复重复步骤(1.2)生成批次大小的批次训练样本Dtrain,其中基类样本和新类样本的类别不相同,Dtrain=DbaseUDnovel,Dbase∩Dnovel=φ,如图3所示。
进一步地,坐标补偿注意力区域提议网络具体运行步骤包括:
(3.1)将FPN的输出特征输入一层3x3卷积网络生成特征A,特征尺寸为NxNx256,N的大小依赖于输入尺寸大小,如图4所示;
(3.2)将步骤(2.1)生成的特征A分别通过两层1x1卷积为每个像素点生成前景背景预测分数
Figure BDA0003157768270000081
与回归坐标预测
Figure BDA0003157768270000082
j∈(0,1),0代表前景得分,1代表背景得分,i∈(0,1,2,3)分别代表中心(x,y)和宽高(w,h)的值,运算公式为:
Figure BDA0003157768270000083
Figure BDA0003157768270000084
其中conv(·)为1x1卷积操作;
(3.3)步骤(3.1)生成的特征A也送入了回归坐标补偿注意力分支生成补偿坐标
Figure BDA0003157768270000091
为误差预测,其运算公式为:
Figure BDA0003157768270000092
其中WK为可学习的注意力矩阵,尺寸随A的尺寸变化,通常为5种维度,对应于不同的输入特征层,conv(·)为1x1卷积操作;
(3.4)由步骤(3.2)与步骤(3.3)生成的
Figure BDA0003157768270000093
Figure BDA0003157768270000094
共同生成最终回归坐标预测
Figure BDA0003157768270000095
其运算公式为:
Figure BDA0003157768270000096
(3.5)坐标补偿注意力区域提议网络的损失函数为:
Figure BDA0003157768270000097
其中LRPN为RPN网络总损失,
Figure BDA0003157768270000098
Figure BDA0003157768270000099
分别为RPN网络分类任务损失、回归任务损失和注意力分支损失:
Figure BDA00031577682700000910
Figure BDA00031577682700000911
其中ti为回归坐标标签值,smooth(·)为smooth类型的损失函数。
Figure BDA00031577682700000912
的梯度回传除了注意力分支的整个RPN网络,
Figure BDA00031577682700000913
梯度只回传注意力分支。
进一步地,新旧类判别模块具体运行步骤包括:
(4.1)新旧类判别模块以R为输入,R为维度为7x7xN的张量,N通常取512,是一个超参,先经过展开层生成49xN的二维向量R*
(4.2)步骤(4.1)的结果R*通过两层全连接层生成新旧类预测α,为1xN维向量,其中标签值0表示为基类,1表示为新类,N为实例总数,运算公式为:
α=FC(P(R))
其中,FC(·)为两层全连接层(FC1、FC2),P(·)为展平操作。
(4.3)新旧类判别模块的损失函数为:
LD=smooth(y-α)
其中y为新旧类标签,0表示基类,1表示新类,梯度只回传新旧类判别模块,如图5所示。
进一步地,对比学习模块具体运行步骤包括:
(5.1)由ROI的特征提取结果向量F经过两层MLP网络映射成为128维的实例向量Proposal(pi,yi),i为第i个实例特征的索引,其中MLP由分别由全连接层FC、激活层ReLu、全连接层FC组成如图2所示。对比学习模块如图6所示,Proposal(pi,yi)中pi是的第i个实例特征,yi指的是对应标签值,Box Regressor与Box Classifier为图1的Faster R-CNN输出头的框坐标回归头、分类头;
(5.2)由Proposal(pi,yi)经过对比头(Contrastive Head)实例向量Zi∈Z计算对比损失,其对比损失的运算公式为:
Figure BDA0003157768270000101
Figure BDA0003157768270000102
其中,N为Zi的总数,
Figure BDA0003157768270000103
为Zi实例标签为yi的总数,αi是步骤(3.2)的第i个实例的新旧类预测数值,τ为温度系数,是一个超参,常取0.2,
Figure BDA0003157768270000104
Figure BDA0003157768270000105
是实例向量Zi的正则化,
Figure BDA0003157768270000106
为索引为j的实例特征Zj的正则化。其中f(ui)的运算公式如下:
f(ui)=I{ui≥0.7}·ui
其中,ui为对应的Zi所对应的锚框的IOU值,IOU值为锚框与标注框的交并比;
(5.3)由步骤(5.2)所计算的对比损失联合上回归头与分类头的损失、坐标补偿注意力区域提议网络的损失构成总损失:
L=Lc+Lreg+LRPN+e1-β(LCPE+LD)
其中,Lc和Lreg分别为FasterR-CNN输出头的分类损失与回归损失,LRPN为步骤(3.5)所述RPN网络总损失,β为训练的次数,表示对比损失随训练轮次比重逐渐降低。
实施例2:本实施例结合具体数据对本发明进行具体说明。
模型训练分为两个阶段:第一阶段为基类训练;第二阶段为小样本新类的微调阶段。其中基类训练样本数目足够丰富,新类训练数据按任务分为每一类样本数为1张、3张、5张和10张。模型在COCO数据集和VOC数据集上分别进行训练和验证,其中COCO数据集类别为80类,其中60个类为基类,20个为新类;VOC数据集类别为20个类,其中15个类为基类,5个类为新类。
超参设置:梯度下降使用标准SGD,动量为0.9,权值衰减为e-4,batchsize为16.软件环境为Ubuntu18.04,Cuda10.2,Pytorch1.4.0,Python3.6;硬件环境为8张显卡RTX2080ti,CPU为AMD RYZEN7 R7 3500x。
第一阶段和第二阶段的训练时,模型结构有所区别。第一阶段的数据处理为普通的马赛克数据增强,数据送入主干网络ResNet 101,如图2所示,生成的res2,res3..特征后送入FPN结构,主干网络与FPN网络均在分类数据集ImageNet上预训练过。后接注意力区域建议网络,该网络的的注意力分支在基类训练时就已经加入,其损失函数梯度不回传其它结构,只回传自身。注意力区域建议网络的结果送入ROI头中生成实例级ROI特征,其中新旧类判别器未使用。ROI特征送入对比学习头,对比学习头的三个损失函数的梯度均回传整个网络。
第二阶段的数据处理为小样本马赛克数据增强,具体过程为:分别随机在基类数据和新类数据按3:1比例分别取3倍batch size和1倍batch size大小的样本集;每次分别从基类随机选取3张图片,新类按顺序选取1张图片,这4张图片随机使用普通的数据增强方法处理;后将这4张图片按随机尺寸大小裁剪拼接为一张新图片;上述过程重复batch size次,一共生成batch size大小的训练集后送入模型。主干网络、FPN网络、注意力区域建议网络和一阶段保持不变。ROI头前接入新旧类判别模块,该模块全连接层1的参数初始化与ROI头第一层软件层相同;还模块的作用是区分新类和基类的相似度。后接对比学习头与一阶段保持一致,其中主干网络和FPN网络的参数被冻结,不参与训练。
在测试阶段,数据增强、新旧类判别器和对比学习模块将被弃用;同时所以损失部分也不再使用。
结果:在PASCAL VOC的结果如表1所示:该结果是在第二阶段训练后的检测数据,参数设置和前述一致,其中一阶段基类训练后的基类检测结果是AP50为80.8。
表1:该发明在PASCAL VOC上的结果,其中AP50代表mAP>0.5。
Figure BDA0003157768270000121
在COCO数据集的结果如表2所示:
表2:该发明在COCO上的结果,其中AP75代表mAP>0.75
Figure BDA0003157768270000122
与其它模型相比,该模型增强了实例表示能力,减少模型对新类的样本需求量,提高检测器从基类向旧类的知识迁移能力;并且在提高对新类的检测精度的同时尽可能保留对基类的检测精度。并且在实验结果中表明,该发明拥有良好的性能和广泛的适用性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种基于注意力和对比学习的小样本目标检测方法,其特征在于:基于小样本马赛克数据增强模块、坐标补偿注意力区域提议网络、新旧类判别模块和对比学习模块,
各模块具体构成如下:
小样本马赛克数据增强模块,包括样本选择策略、马赛克数据增强方法;
坐标补偿注意力区域提议网络,包括区域提议网络、回归坐标补偿注意力分支、坐标补偿损失;
新旧类判别模块,包括特征提取层、类别判别层;
对比学习模块,包括特征映射层、对比损失和联合训练策略;
方法的具体步骤如下:
(1)小样本马赛克数据增强模块从基类和新类训练样本随机选取样本后生成训练样本;
(2)FasterR-CNN按照步骤(1)所产生的训练样本经过主干网络ResNet 101进行特征提取,后接特征金字塔网络产生主干输出特征:P2、P3、P4、P5、P6;
(3)坐标补偿注意力区域提议网络以步骤(2)所产生的主干输出特征为输入,送入3x3卷积特征提取特征,接1x1卷积网络分别产出回归坐标预测和前景背景分类预测,同时也送入回归坐标补偿注意力分支生成回归坐标补偿,最终的坐标预测由前述的回归坐标预测与回归坐标补偿生成,再经过锚框生成器和后处理得到建议区域;
(4)ROIPooling层根据步骤(3)生成的建议区域对步骤(2)生成的P2、P3、P4、P5、P6特征进行ROIPooling操作生成特征R;
(5)步骤(4)所生成的特征R同时送入ROI特征提取模块ROIHead和新旧类判别模块Discriminator;
(6)新旧类判别模块将特征R送入两层全连接层后生成关于新类与基类的二分类预测分数;
(7)ROI特征提取模块有两层全连接层将特征R提取为1024维的特征F,同时送入框坐标回归头Regression、分类头Classification和对比学习头Contrastiveleaming,其中回归头Regression和分类头Classification结果通过后处理生成最终检测结果。
2.根据权利要求1所述的基于注意力和对比学习的小样本目标检测方法,其特征在于:小样本马赛克数据增强模块具体运行步骤包括:
(2.1)按比例分别从基类样本集Dbase和新类样本集Dnovel中抽取样本;
(2.2)每4张样本按新类与基类1∶3的比例,分别采用不同的数据增强方法处理后以某一随机的尺寸裁剪后拼接为一张样本,目的是为了让稀有的新类样本充分地与基类样本混合在一起,一方面从图片级作数据增强,另一方面为后续实例级对比学习作铺垫;
(2.3)反复重复步骤(2.2)生成批次大小的训练样本Dtrain
3.根据权利要求1所述的基于注意力和对比学习的小样本目标检测方法,其特征在于:坐标补偿注意力区域提议网络具体运行步骤包括:
(3.1)将FPN的输出特征输入一层3x3卷积网络生成特征A;
(3.2)将步骤(3.1)生成的特征A分别通过两层1x1卷积为每个像素点生成前景背景预测分数
Figure FDA0003157768260000021
与回归坐标预测
Figure FDA0003157768260000022
j∈(0,1),0代表前景得分,1代表背景得分,i∈(0,1,2,3)分别代表中心(x,y)和宽高(w,h)的值;
(3.3)步骤(3.1)生成的特征A也送入了回归坐标补偿注意力分支生成补偿坐标
Figure FDA0003157768260000023
其运算公式为:
Figure FDA0003157768260000024
其中WK为可学习的注意力矩阵,conv(·)为1x1卷积操作;
(3.4)由步骤(3.2)与步骤(3.3)生成的
Figure FDA0003157768260000025
Figure FDA0003157768260000026
共同生成最终回归坐标预测
Figure FDA0003157768260000027
其运算公式为:
Figure FDA0003157768260000028
(3.5)坐标补偿注意力区域提议网络的损失函数为:
Figure FDA0003157768260000029
其中LRPN为RPN网络总损失,
Figure FDA00031577682600000210
Figure FDA00031577682600000211
分别为RPN网络分类任务损失、回归任务损失和注意力分支损失:
Figure FDA00031577682600000212
Figure FDA0003157768260000031
其中ti为回归坐标标签值,smooth()为smooth类型的损失函数。
4.根据权利要求1所述的基于注意力和对比学习的小样本目标检测方法,其特征在于:新旧类判别模块具体运行步骤包括:
(4.1)新旧类判别模块以R为输入,R为维度为7x7xN的张量,先经过展开层生成49xN的二维向量R*
(4.2)步骤(4.1)的结果R*通过两层全连接层生成新旧类预测α,为1xN维向量,其运算公式为:
α=FC(P(R))
其中,FC(·)为两层全连接层,P(·)为展平操作。
5.根据权利要求1所述的基于注意力和对比学习的小样本目标检测方法,其特征在于:对比学习模块具体运行步骤包括:
(5.1)由ROI的特征提取结果向量F经过两层MLP网络映射成为128维的实例向量Zi
(5.2)由步骤(5.1)生成的实例向量Zi来计算对比损失,其对比损失的运算公式为:
Figure FDA0003157768260000032
Figure FDA0003157768260000033
其中,N为Zi的总数,
Figure FDA0003157768260000036
为Zi实例标签为yi的总数,αi是步骤(3.2)的第i行的数值,τ为温度系数,是一个超参,
Figure FDA0003157768260000034
是实例向量Zi的正则化,
Figure FDA0003157768260000035
为索引为j的实例特征Zj的正则化,其中f(ui)的运算公式如下:
f(ui)=I{ui≥0.7}·ui
其中,ui为对应的Zi所对应的锚框的IOU值,IOU值为锚框与标注框的交并比;
(5.3)由步骤(5.2)所计算的对比损失联合上回归头与分类头的损失、坐标补偿注意力区域提议网络的损失构成总损失:
L=Lc+Lreg+LRPN+e1-β(LCPE+LD)
其中,Lc和Lreg分别为FasterR-CNN输出头的分类损失与回归损失,LRPN为步骤(3.5)所述RPN网络总损失,LD是新旧类判别器的损失函数,β为训练的次数。
CN202110793593.1A 2021-07-12 2021-07-12 一种基于注意力和对比学习的小样本目标检测方法 Pending CN113392855A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110793593.1A CN113392855A (zh) 2021-07-12 2021-07-12 一种基于注意力和对比学习的小样本目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110793593.1A CN113392855A (zh) 2021-07-12 2021-07-12 一种基于注意力和对比学习的小样本目标检测方法

Publications (1)

Publication Number Publication Date
CN113392855A true CN113392855A (zh) 2021-09-14

Family

ID=77626020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110793593.1A Pending CN113392855A (zh) 2021-07-12 2021-07-12 一种基于注意力和对比学习的小样本目标检测方法

Country Status (1)

Country Link
CN (1) CN113392855A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822368A (zh) * 2021-09-29 2021-12-21 成都信息工程大学 一种基于无锚的增量式目标检测方法
CN113971815A (zh) * 2021-10-28 2022-01-25 西安电子科技大学 基于奇异值分解特征增强的少样本目标检测方法
CN114140398A (zh) * 2021-11-15 2022-03-04 上海大学 一种利用无缺陷图像的少样本缺陷检测方法
CN114155365A (zh) * 2022-02-07 2022-03-08 北京航空航天大学杭州创新研究院 模型训练方法、图像处理方法及相关装置
CN114792426A (zh) * 2021-10-25 2022-07-26 北京中电兴发科技有限公司 一种行人属性识别中的图像数据均衡方法
CN114841257A (zh) * 2022-04-21 2022-08-02 北京交通大学 一种基于自监督对比约束下的小样本目标检测方法
CN114898145A (zh) * 2022-05-05 2022-08-12 上海人工智能创新中心 一种隐式新类实例的挖掘方法、装置及电子设备
CN115049884A (zh) * 2022-08-15 2022-09-13 菲特(天津)检测技术有限公司 基于Faster RCNN网络的广义少样本目标检测方法及系统
CN115100432A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 一种小样本目标检测方法、设备及计算机可读存储介质
WO2023109208A1 (zh) * 2021-12-15 2023-06-22 北京邮电大学 小样本目标检测方法及装置
CN113971815B (zh) * 2021-10-28 2024-07-02 西安电子科技大学 基于奇异值分解特征增强的少样本目标检测方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822368A (zh) * 2021-09-29 2021-12-21 成都信息工程大学 一种基于无锚的增量式目标检测方法
CN114792426A (zh) * 2021-10-25 2022-07-26 北京中电兴发科技有限公司 一种行人属性识别中的图像数据均衡方法
CN114792426B (zh) * 2021-10-25 2024-05-28 北京中电兴发科技有限公司 一种行人属性识别中的图像数据均衡方法
CN113971815A (zh) * 2021-10-28 2022-01-25 西安电子科技大学 基于奇异值分解特征增强的少样本目标检测方法
CN113971815B (zh) * 2021-10-28 2024-07-02 西安电子科技大学 基于奇异值分解特征增强的少样本目标检测方法
CN114140398A (zh) * 2021-11-15 2022-03-04 上海大学 一种利用无缺陷图像的少样本缺陷检测方法
WO2023109208A1 (zh) * 2021-12-15 2023-06-22 北京邮电大学 小样本目标检测方法及装置
CN114155365A (zh) * 2022-02-07 2022-03-08 北京航空航天大学杭州创新研究院 模型训练方法、图像处理方法及相关装置
CN114841257B (zh) * 2022-04-21 2023-09-22 北京交通大学 一种基于自监督对比约束下的小样本目标检测方法
CN114841257A (zh) * 2022-04-21 2022-08-02 北京交通大学 一种基于自监督对比约束下的小样本目标检测方法
CN114898145A (zh) * 2022-05-05 2022-08-12 上海人工智能创新中心 一种隐式新类实例的挖掘方法、装置及电子设备
CN114898145B (zh) * 2022-05-05 2024-06-07 上海人工智能创新中心 一种隐式新类实例的挖掘方法、装置及电子设备
CN115049884B (zh) * 2022-08-15 2022-10-25 菲特(天津)检测技术有限公司 基于Faster RCNN网络的广义少样本目标检测方法及系统
CN115049884A (zh) * 2022-08-15 2022-09-13 菲特(天津)检测技术有限公司 基于Faster RCNN网络的广义少样本目标检测方法及系统
CN115100432B (zh) * 2022-08-23 2022-11-18 浙江大华技术股份有限公司 一种小样本目标检测方法、设备及计算机可读存储介质
CN115100432A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 一种小样本目标检测方法、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN113392855A (zh) 一种基于注意力和对比学习的小样本目标检测方法
Lin et al. Transfer learning based traffic sign recognition using inception-v3 model
CN111259850B (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
Bai et al. Sod-mtgan: Small object detection via multi-task generative adversarial network
CN110287800B (zh) 一种基于sgse-gan的遥感图像场景分类方法
CN111738315B (zh) 基于对抗融合多源迁移学习的图像分类方法
Zhang et al. Mask SSD: An effective single-stage approach to object instance segmentation
CN104850845B (zh) 一种基于非对称卷积神经网络的交通标志识别方法
Xu et al. Hierarchical semantic propagation for object detection in remote sensing imagery
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN104462494B (zh) 一种基于无监督特征学习的遥感图像检索方法及系统
CN109508655A (zh) 基于孪生网络的不完备训练集的sar目标识别方法
Haloi Traffic sign classification using deep inception based convolutional networks
CN111583263A (zh) 一种基于联合动态图卷积的点云分割方法
CN104933428B (zh) 一种基于张量描述的人脸识别方法及装置
CN111460980A (zh) 基于多语义特征融合的小目标行人的多尺度检测方法
Xu et al. Boundary guidance network for camouflage object detection
CN114463759A (zh) 一种基于无锚框算法的轻量化文字检测方法及装置
CN113743505A (zh) 基于自注意力和特征融合的改进ssd目标检测方法
CN113628297A (zh) 一种基于注意力机制和迁移学习的covid-19深度学习诊断系统
CN116704611A (zh) 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法
CN113205103A (zh) 一种轻量级的文身检测方法
CN116311504A (zh) 一种小样本行为识别方法、系统及设备
CN113095235B (zh) 一种基于弱监督判别机制的图像目标检测方法、系统及装置
Li et al. Criminal investigation image classification based on spatial cnn features and elm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination