CN112085126B - 一种侧重于分类任务的单样本目标检测方法 - Google Patents
一种侧重于分类任务的单样本目标检测方法 Download PDFInfo
- Publication number
- CN112085126B CN112085126B CN202011059908.1A CN202011059908A CN112085126B CN 112085126 B CN112085126 B CN 112085126B CN 202011059908 A CN202011059908 A CN 202011059908A CN 112085126 B CN112085126 B CN 112085126B
- Authority
- CN
- China
- Prior art keywords
- classification
- network
- reference example
- query
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000006870 function Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007430 reference method Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 13
- 238000002474 experimental method Methods 0.000 description 12
- 239000012855 volatile organic compound Substances 0.000 description 6
- 101100162825 Caenorhabditis elegans dpy-23 gene Proteins 0.000 description 4
- 238000002679 ablation Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 1
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 1
- 238000000658 coextraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种侧重于分类任务的单样本目标检测方法。单样本目标检测任务是检测出询问图像中与单个参考实例图像类别一致的所有实例。通过观察发现,单样本目标检测性能有限的一个主要原因是由于其分类能力较差而产生许多假正例导致的,本发明基于此观察,提出了一种侧重于分类任务的单样本目标检测方法,该方法在两个重要方面进行了改进:本发明提出使用相同交并比阈值的分类级联网络,通过比较多个邻近区域来提高分类的鲁棒性;本发明还提出对询问实例特征和参考实例特征进行分类区域变形的网络,以获得更有效的比较区域。本发明的方法相比于基准方法,在训练过的类别和未训练过的类别两个指标上的准确度均有显著提高。
Description
技术领域
本发明属于图像单样本目标检测技术领域,具体是涉及一种侧重于分类任务的单样本目标检测方法。
背景技术
近年来,基于卷积神经网络的目标检测方法取得了巨大的成功。但是,此成功依赖于由大量标注而成的大规模训练数据集,例如COCO数据集。通用的目标检测只能检测出训练集中标注过的物体类别,这使得通用目标检测方法难以扩展新的物体类别。一方面,执行大量的标注工作十分耗时,并且经常会出现错误的标注;另一方面,在某些特殊场景下很难收集大量的新类别图像。因此,当仅提供少量甚至一张实例图片示例时,模型依旧能够在询问图像中检测出和该实例类别一致的物体是有价值且必要的。之前的工作使用孪生网络结构来完成此任务,其中SiamMask通过在Mask R-CNN上添加比较匹配网络层来完成单样本实例分割,CoAE使用non-local和co-excitation来增强询问实例特征和参考实例特征之间的相关度。
发明内容
本发明的目的在于针对现有技术的不足,提出一种侧重于分类任务的单样本目标检测方法。通过预实验观察发现,与未在定位分支引入参考实例特征相比,当分类分支未引入参考实例特征时,会由于检测到更多的假正例而导致更明显的性能下降。上述观察激发本发明通过提高单样本目标检测网络的分类能力来降低假正例的数量,从而提高检测性能。本发明提出使用相同交并比阈值的分类级联网络,通过比较多个邻近区域来提高分类的鲁棒性;本发明还提出对询问实例特征和参考实例特征进行分类区域变形的网络,以获得更有效的比较区域。本发明的方法相比于基准方法,在训练过的类别和未训练过的类别两个指标上的准确度均有显著提高。在同一数据设定下,在PASCAL VOC和COCO数据集中实现了顶尖的性能。
本发明的目的是通过以下技术方案来实现的:一种侧重于分类任务的单样本目标检测方法,该方法包括如下步骤:
步骤1:读取数据集中训练样本的询问图像和参考实例图像,并读取和参考实例图像类别一致的询问图像中实例的类别标签和坐标位置,对输入询问图像和参考实例图像进行保持比例的缩放,并填充到固定大小,构成训练集;
步骤2:在基准Siamese Faster R-CNN网络的基础上加入分类区域变形网络以及分类级联网络,形成侧重于分类任务的单样本目标检测网络;利用步骤1得到的训练集对单样本目标检测网络进行训练;
步骤3:读取测试样本的询问图像和参考实例图像,输入到步骤2中的训练好的单样本目标检测网络中,获得每个检测实例的两个分类置信度和坐标位置;
步骤4:将步骤3中每个实例预测的两个分类置信度进行加权作为该实例的最终分类置信度;将每个实例的坐标位置和对应的最终分类置信度输入到非极大抑制算法中对重叠度高于阈值的检测框进行过滤,从而实现单样本目标检测。
进一步地,所述步骤1中询问图像中的实例的类别标签设置方式为:把和参考实例图像类别一致的询问图像中的实例的类别标签设置为前景类,其余实例的类别标签设置为背景类。
进一步地,所述步骤2中,基准Siamese Faster R-CNN网络是通过去掉SiamMask的语义分支后而生成的。
进一步地,所述步骤2中图像处理步骤如下:
步骤21:利用基准Siamese Faster R-CNN网络中共享权重的孪生ResNet网络提取询问图像和参考实例图像的特征图信息;
步骤22:利用度量学习网络提取询问特征图和参考特征图之间的相似度特征信息;把相似度特征信息输入到区域提议网络中生成提议区域,作为可能的检测框位置;
步骤23:在检测头中,重新计算每个提议区域的相似度特征信息,并将相似度特征信息输入到基准Siamese Faster R-CNN网络中的定位分支和分类级联网络构成的分类分支中。
进一步地,所述步骤23中重新计算每个提议区域的相似度特征信息的流程如下:
(1)将询问特征图中的提议区域作为询问实例特征,将参考特征图作为参考实例特征,将询问实例特征和参考实例特征输入到分类区域变形网络中进行分类区域变形,从而得到更有效的分类比较区域;
(2)将经过变形的询问实例特征和参考实例特征输入到度量学习网络中获得更有效的相似度特征图。
进一步地,所述步骤23中分类区域变形的处理方式是:
其中QF表示询问实例特征,RF表示参考实例特征;pr和ph分别表示由区域提议网络和检测头预测的检测框的位置,r表示没有经过填充的参考实例的区域位置;是分类区域变形的函数;QFr和QFh分别表示经过分类区域变形后的用于分类级联网络两个阶段的询问实例特征,RFd表示经过分类区域变形后的参考实例特征;/>是RoI-Align操作;其中/>的公式形如:
其中表示对pr中的每个网格进行循环,G(x,y)表示第(x,y)坐标的网格,p表示网格中每个像素的位置,nxy表示网格中的像素数量;γ是用来调制偏移量幅度的预定义标量;/>是获得偏移量的函数,它是一个三层全连接网络,三个输出层的通道为{C1,C2,NxNx2};(w,h)是pr的宽度和高度;/>表示双线性插值函数。
进一步地,所述步骤2中度量学习网络的表示方式是:
其中⊙指的是串联操作,GAP是全局平均池化;Convs,表示核大小为s、输出通道为k的卷积层;MFr和MFh分别表示输入到分类级联网络两个阶段的特征,表示输入到定位分支的特征。
进一步地,所述步骤23中将相似特征图信息输入到定位分支和分类分支的具体处理方式如下:
(1)为了减少定位分支对分类分支的影响,将分类分支和定位分支共享权重的部分进行解耦,并且在分类分支中使用全连接层,在定位分支中使用卷积层;
(2)把MFr和MFh输入到相同交并比阈值的分类级联网络中进行两次分类,把输入到定位分支中进行一次位置预测,公式表示为:
其中和/>分别为第一阶段和第二阶段分类函数,它是三层全连接的网络,/>是定位函数;s1和s2分别表示第一阶段和第二阶段分类得分。
进一步地,所述步骤2中训练采用的损失函数为:
其中由/>和/>组成,分别使用smooth L1损失函数和二值化交叉熵函数;/>和/>是检测头中的损失函数,/>使用smooth L1损失函数,和/>均使用二值化交叉熵函数。
综上所述,本发明提出的一种基于侧重于分类的单样本目标检测方法,通过对询问实例特征和参考实例特征进行分类区域变形,以及固定交并比阈值的分类级联头增强了单样本目标检测的分类能力,从而降低了检测到的假正例的数量,进一步提高了单样本目标检测的性能。
本发明相比于现有技术具有以下优点:本发明通过预实验证明单样本目标检测网络性能欠佳的一个主要原因是由于检测到大量的假正例导致的,本发明旨在通过提高单样本目标检测网络的分类能力来解决假样本过多的问题,通过对询问实例特征和参考实例特征进行分类区域变形,以及使用相同交并比阈值的分类级联网络的方法,在训练过的类别和未训练过的类别两个指标上的准确度均有显著提高,且在同一数据设定下,在PASCALVOC和COCO数据集中实现了顶尖的性能。
附图说明
图1为本发明的预实验中使用的不同网络的结构图,(a)为基准Siamese FasterR-CNN网络,(b)为将基准网络修改成定位分支无参考实例特征的网络,(c)为将基准网络修改成分类分支无参考实例特征的网络。
图2为本发明的预实验中假正例数量和精度结果的比较图。
图3为本发明的网络结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明公开了一种侧重于分类任务的单样本目标检测方法,通过预实验观察发现,与未在定位分支引入参考实例特征相比,当分类分支未引入参考实例特征时,会由于检测到更多的假正例而导致更明显的性能下降。图1是本发明的预实验中不同网络的结构图,其中(a)为基准线网络Siamese Faster R-CNN,通过移除SiamMask中的语义分支获得,(b)和(c)分别是将基准网络修改成定位分支和分类分支无参考实例特征的网络,其中我们将区域提议网络和检测头的分类分支和定位分支解耦,以消除分类分支和定位分支的共享参数带来的影响。图2为本发明的预实验中假正例数量和精度结果的比较图,其中(a)显示了不同置信度范围下的假正例的数量的比较,(b)显示了在不同交并比评估值下的mAP的结果比较。通过预实验结果表明:(1)假正例较少的单样本检目标检测网络具有较高的精度。(2)参考实例特征在分类任务中比在定位任务中起着更重要的作用。(3)本发明的方法可以通过减少假正例的数量来提高检测的准确性。
基于预实验的发现,本发明提出了一种侧重于分类任务的单样本目标检测方法,该方法包括如下步骤:
步骤1:读取数据集中训练样本的询问图像和参考实例图像,并读取和参考实例图像类别一致的询问图像中实例的类别标签和坐标位置,对输入询问图像和参考实例图像进行保持比例的缩放,并填充到固定大小,构成训练集;
步骤2:在基准Siamese Faster R-CNN网络的基础上加入分类区域变形网络以及分类级联网络,形成侧重于分类任务的单样本目标检测网络;利用步骤1得到的训练集对单样本目标检测网络进行训练;
步骤3:读取测试样本的询问图像和参考实例图像,输入到步骤2中的训练好的单样本目标检测网络中,获得每个检测实例的两个分类置信度和坐标位置;
步骤4:将步骤3中每个实例预测的两个分类置信度进行加权作为该实例的最终分类置信度;将每个实例的坐标位置和对应的最终分类置信度输入到非极大抑制算法中对重叠度高于阈值的检测框进行过滤,从而实现单样本目标检测。
进一步地,所述步骤1中询问图像中的实例的类别标签设置方式为:把和参考实例图像类别一致的询问图像中的实例的类别标签设置为前景类,其余实例的类别标签设置为背景类。输入图像缩放的具体参数为:在保持原图长宽比不变的前提下,最大限度地将询问图像的短边和长边缩放到小于或等于1024,最大限度地将参考实例图像的短边和长边缩放到小于或等于192。填充的具体参数为:将缩放后的询问图像的短边填充到1024,将缩放后的参考实例图像短边填充到192。
进一步地,所述步骤2中,基准Siamese Faster R-CNN网络是通过去掉SiamMask的语义分支后而生成的进一步地,所述步骤2中图像的具体处理步骤如下:
步骤21:利用基准Siamese Faster R-CNN网络中共享权重的孪生ResNet网络提取询问图像和参考实例图像的特征图信息;
步骤22:利用度量学习网络提取询问特征图和参考特征图之间的相似度特征信息;把相似度特征信息输入到区域提议网络中生成提议区域,作为可能的检测框位置;
步骤23:在检测头中,重新计算每个提议区域的相似度特征信息,并将相似度特征信息输入到基准Siamese Faster R-CNN网络中的定位分支和分类级联网络构成的分类分支中。
进一步地,所述步骤23中重新计算每个提议区域的相似度特征信息的流程如下:
(1)将询问特征图中的提议区域作为询问实例特征,将参考特征图作为参考实例特征,将询问实例特征和参考实例特征输入到分类区域变形网络中进行分类区域变形,从而得到更有效的分类比较区域;
(2)将经过变形的询问实例特征和参考实例特征输入到度量学习网络中获得更有效的相似度特征图。进一步地所属步骤23中分类区域变形的处理方式是:
其中QF表示询问实例特征,RF表示参考实例特征;pr和ph分别表示由区域提议网络和检测头预测的检测框的位置,r表示没有经过填充的参考实例的区域位置;是分类区域变形的函数;QFr和QFh分别表示经过分类区域变形后的用于分类级联网络两个阶段的询问实例特征,RFd表示经过分类区域变形后的参考实例特征;/>是RoI-Align操作;其中/>的公式形如:
其中表示对pr中的每个网格进行循环,G(x,y)表示第(x,y)坐标的网格,p表示网格中每个像素的位置,nxy表示网格中的像素数量;γ是用来调制偏移量幅度的预定义标量;/>是获得偏移量的函数,它是一个三层全连接网络,三个输出层的通道为{256,256,7x7x2};(w,h)是pr的宽度和高度;/>表示双线性插值函数。
进一步地,所述步骤2中度量学习网络的表示方式是:
其中⊙指的是串联操作,GAP是全局平均池化;Convs,表示核大小为s、输出通道为k的卷积层;MFr和MFh分别表示输入到分类级联网络两个阶段的特征,表示输入到定位分支的特征。
进一步地,所述步骤23中将相似特征图信息输入到定位分支和分类分支的具体处理方式如下:
(1)为了减少定位分支对分类分支的影响,将分类分支和定位分支共享权重的部分进行解耦,并且在分类分支中使用全连接层,在定位分支中使用卷积层;
(2)把MFr和MFh输入到相同交并比阈值(阈值可以取0.5)的分类级联网络中进行两次分类,把输入到定位分支中进行一次位置预测,公式表示为:
其中和/>分别为第一阶段和第二阶段分类函数,它是三层全连接的网络,每层输出的通道数为{1024,1024,2},/>是定位函数;s1和s2分别表示第一阶段和第二阶段分类得分。
进一步地,所述步骤2中训练采用的损失函数为:
其中由/>和/>组成,分别使用smooth L1损失函数和二值化交叉熵函数;/>和/>是检测头中的损失函数,/>使用smooth L1损失函数,和/>均使用二值化交叉熵函数。
进一步地,所述步骤4中将每个实例预测的两个分类置信度进行加权作为该实例的最终分类分类置信度中使用的加权权重是0.5。
进一步地,所述步骤4中过滤重叠度高于阈值的检测框的步骤如下:
步骤41:使用0.05置信度阈值过滤掉类别置信度低于该值的检测框;
步骤42:对类别置信度分数排序,选择出前1000的置信度检测框;
步骤43:将选择出的检测框输入到0.5阈值的非极大抑制算法中,保留最多100个检测框。
为了体现本发明提出方法的进步性,在COCO数据集和PASCAL VOC数据集上进行了对比试验,为了公平的比较,实验数据的设定和CoAE中的数据设定一致。为了获得稳定的测试结果,我们对所有网络进行了五次评估,为了节省训练时间,除了和顶尖的CoAE进行对比实验是在所有的4个split的COCO数据集上进行对比之外,其余的消融实验都是在COCOsplit2上进行的。我们首先针对提出网络的主要部分进行了消融对比实验,接着又对提出的分类区域变形网络进行了细致的消融研究,最后又将本发明提出的完整方法与目前已有的代表性的单阶段检测方法在COCO和PASCAL VOC上进行了比较。目前目标检测方法大多采用AP作为评估指标,AP越大说明检测精度越高,效果越好。AP50是在IoU>0.5时的AP指标。
表1
表1是在COCO val split2上进行的对主要成分的消融验证实验。其中baseline是指基准Siamese Faster R-CNN网络,double head指的是在分类分支使用全连接层,在定位分支使用卷积层,ccd指的是本发明提出的用相同交并比阈值的分类级联网络,crd指的是对询问实例特征和参考实例特征使用分类区域变形网络,seen指的是对训练过的类进行评估,unseen指的是对未训练过的类进行评估。可以看出相比于原方法,分类级联网络在训练过的类的指标和未训练过的类的指标上各有1.1%和0.6%的提升。分类区域变形网络在训练过的类的指标和未训练过的类的指标上各有0.7%和0.6%的提升。可以证明我们所提出的方法的有效性。
表2
表2是在COCO val split2上进行的对分类区域变形方法的进一步实验。其中query是指是否对询问实例特征进行分类区域变形,reference是指是否对参考实例特征进行分类区域变形。可以看出,对询问实例特征应用分类区域变形,可以在训练过的类和未训练过的类的指标上分别提升0.6%/0.2%AP和0.8%/0.6%AP50。更进一步的对参考实例特征应用分类区域变形网络,可以在未训练过的类的指标上有0.4%AP和0.3%AP50的提升。
表3
表3是将本发明提出的完整的方法与目前已有的代表性的单样本目标检测方法CoAE以及基准方法在COCO上的就训练过的类的指标进行性能对比。值得注意的是,由于更好的训练策略和执行流程我们的基准方法已经比CoAE高出了10.4%AP和12.0AP50。另外和基准方法相比,我们的方法能够获得1.8%AP和0.7%AP50的性能提升。
表4
表4是将本发明提出的完整的方法与CoAE以及基准方法在COCO上的就未训练过的类的指标进行性能对比。我们的方法相比于基准线方法能够获得1.3%AP和0.8%AP50的性能提升。
表5
Model | Seen | Unseen |
SiamFC | 15.1 | 13.3 |
SiamRPN | 9.6 | 14.2 |
CompNet | 52.7 | 52.1 |
CoAE | 55.1 | 63.8 |
Ours | 66.2 | 69.1 |
表5是将本发明提出的完整的方法与目前已有的代表性的单样本目标检测方法在PASCAL VOC上性能的对比。可以看出我们的方法在训练过的类和未训练过的类的指标上都大幅超过已有的方法。例如:我们的方法在训练过的类的指标上超过了CoAE 11.1%AP,在未训练过的类的指标上超过了5.3%AP。另外,可以看出在PASCAL VOC数据集上我们的方法对未训练过的类的性能甚至超过了训练过的类的性能,可以表明我们的方法可以很容易的检测出未训练过的类。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (6)
1.一种侧重于分类任务的单样本目标检测方法,其特征在于,该方法包括如下步骤:
步骤1:读取数据集中训练样本的询问图像和参考实例图像,并读取和参考实例图像类别一致的询问图像中实例的类别标签和坐标位置,对输入询问图像和参考实例图像进行保持比例的缩放,并填充到固定大小,构成训练集;
步骤2:在基准Siamese Faster R-CNN网络的基础上加入分类区域变形网络以及分类级联网络,形成侧重于分类任务的单样本目标检测网络;利用步骤1得到的训练集对单样本目标检测网络进行训练;图像处理步骤如下:
步骤21:利用基准Siamese Faster R-CNN网络中共享权重的孪生ResNet网络提取询问图像和参考实例图像的特征图信息;
步骤22:利用度量学习网络提取询问特征图和参考特征图之间的相似度特征信息;把相似度特征信息输入到区域提议网络中生成提议区域,作为可能的检测框位置;
步骤23:在检测头中,重新计算每个提议区域的相似度特征信息,并将相似度特征信息输入到基准Siamese Faster R-CNN网络中的定位分支和分类级联网络构成的分类分支中;所述重新计算每个提议区域的相似度特征信息的流程如下:
(1)将询问特征图中的提议区域作为询问实例特征,将参考特征图作为参考实例特征,将询问实例特征和参考实例特征输入到分类区域变形网络中进行分类区域变形,从而得到更有效的分类比较区域;
(2)将经过变形的询问实例特征和参考实例特征输入到度量学习网络中获得更有效的相似度特征图;
步骤3:读取测试样本的询问图像和参考实例图像,输入到步骤2中的训练好的单样本目标检测网络中,获得每个检测实例的两个分类置信度和坐标位置;
步骤4:将步骤3中每个实例预测的两个分类置信度进行加权作为该实例的最终分类置信度;将每个实例的坐标位置和对应的最终分类置信度输入到非极大抑制算法中对重叠度高于阈值的检测框进行过滤,从而实现单样本目标检测。
2.根据权利要求1所述的一种侧重于分类任务的单样本目标检测方法,其特征在于,所述步骤2中,基准Siamese Faster R-CNN网络是通过去掉SiamMask的语义分支后而生成的。
3.根据权利要求1所述的一种侧重于分类任务的单样本目标检测方法,其特征在于,所述步骤23中分类区域变形的处理方式是:
其中QF表示询问实例特征,RF表示参考实例特征;pr和ph分别表示由区域提议网络和检测头预测的检测框的位置,r表示没有经过填充的参考实例的区域位置;是分类区域变形的函数;QFr和QFh分别表示经过分类区域变形后的用于分类级联网络两个阶段的询问实例特征,RFd表示经过分类区域变形后的参考实例特征;/>是RoI-Align操作;其中/>的公式形如:
其中表示对pr中的每个网格进行循环,G(x,y)表示第(x,y)坐标的网格,p表示网格中每个像素的位置,nxy表示网格中的像素数量;γ是用来调制偏移量幅度的预定义标量;是获得偏移量的函数,它是一个三层全连接网络,三个输出层的通道为{C1,C2,NxNx2};(w,h)是pr的宽度和高度;/>表示双线性插值函数。
4.根据权利要求3所述的一种侧重于分类任务的单样本目标检测方法,其特征在于,所述步骤23中度量学习网络的表示方式是:
其中⊙指的是串联操作,GAP是全局平均池化;Convs,k表示核大小为s、输出通道为k的卷积层;MFr和MFh分别表示输入到分类级联网络两个阶段的特征,表示输入到定位分支的特征。
5.根据权利要求4所述的一种侧重于分类任务的单样本目标检测方法,其特征在于,所述步骤23中相似度特征信息输入到定位分支和分类分支的具体处理方式如下:
(1)为了减少定位分支对分类分支的影响,将分类分支和定位分支共享权重的部分进行解耦,并且在分类分支中使用全连接层,在定位分支中使用卷积层;
(2)把MFr和MFh输入到相同交并比阈值的分类级联网络中进行两次分类,把输入到定位分支中进行一次位置预测,公式表示为:
其中和/>分别为第一阶段和第二阶段分类函数,它是三层全连接的网络,是定位函数;s1和s2分别表示第一阶段和第二阶段分类得分。
6.根据权利要求1所述的一种侧重于分类任务的单样本目标检测方法,其特征在于,所述步骤2中训练采用的损失函数为:
其中由/>和/>组成,分别使用smooth L1损失函数和二值化交叉熵函数;/>和/>是检测头中的损失函数,/>使用smooth L1损失函数,/>和/>均使用二值化交叉熵函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011059908.1A CN112085126B (zh) | 2020-09-30 | 2020-09-30 | 一种侧重于分类任务的单样本目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011059908.1A CN112085126B (zh) | 2020-09-30 | 2020-09-30 | 一种侧重于分类任务的单样本目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112085126A CN112085126A (zh) | 2020-12-15 |
CN112085126B true CN112085126B (zh) | 2023-12-12 |
Family
ID=73729982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011059908.1A Active CN112085126B (zh) | 2020-09-30 | 2020-09-30 | 一种侧重于分类任务的单样本目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085126B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884055B (zh) * | 2021-03-03 | 2023-02-03 | 歌尔股份有限公司 | 一种目标标注方法和一种目标标注装置 |
CN112989792B (zh) * | 2021-04-25 | 2024-04-16 | 中国人民解放军国防科技大学 | 事例检测方法和电子设备 |
CN113920432A (zh) * | 2021-10-12 | 2022-01-11 | 广东电网有限责任公司广州供电局 | 一种基于GuidedAnchor优化的刀具图像智能检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145854A (zh) * | 2018-08-31 | 2019-01-04 | 东南大学 | 一种基于级联卷积神经网络结构的人脸检测方法 |
CN109190442A (zh) * | 2018-06-26 | 2019-01-11 | 杭州雄迈集成电路技术有限公司 | 一种基于深度级联卷积神经网络的快速人脸检测方法 |
CN109977812A (zh) * | 2019-03-12 | 2019-07-05 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN111259930A (zh) * | 2020-01-09 | 2020-06-09 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN111611998A (zh) * | 2020-05-21 | 2020-09-01 | 中山大学 | 一种基于候选区域面积和宽高的自适应特征块提取方法 |
-
2020
- 2020-09-30 CN CN202011059908.1A patent/CN112085126B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN109190442A (zh) * | 2018-06-26 | 2019-01-11 | 杭州雄迈集成电路技术有限公司 | 一种基于深度级联卷积神经网络的快速人脸检测方法 |
CN109145854A (zh) * | 2018-08-31 | 2019-01-04 | 东南大学 | 一种基于级联卷积神经网络结构的人脸检测方法 |
CN109977812A (zh) * | 2019-03-12 | 2019-07-05 | 南京邮电大学 | 一种基于深度学习的车载视频目标检测方法 |
CN111259930A (zh) * | 2020-01-09 | 2020-06-09 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN111611998A (zh) * | 2020-05-21 | 2020-09-01 | 中山大学 | 一种基于候选区域面积和宽高的自适应特征块提取方法 |
Non-Patent Citations (1)
Title |
---|
视觉单目标跟踪算法综述;汤一明 等;测控技术;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112085126A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112085126B (zh) | 一种侧重于分类任务的单样本目标检测方法 | |
CN109190752A (zh) | 基于深度学习的全局特征和局部特征的图像语义分割方法 | |
CN107092884B (zh) | 一种快速粗精级联行人检测方法 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN111339924B (zh) | 一种基于超像素和全卷积网络的极化sar图像分类方法 | |
CN108734200B (zh) | 基于bing特征的人体目标视觉检测方法和装置 | |
CN114187520B (zh) | 一种建筑物提取模型的构建及应用方法 | |
CN111524117A (zh) | 一种基于特征金字塔网络的隧道表面缺陷检测方法 | |
CN112215079B (zh) | 一种全局多阶段目标跟踪方法 | |
CN111753682A (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
CN105354547A (zh) | 一种结合纹理和彩色特征的行人检测方法 | |
CN110490210B (zh) | 一种基于紧致通道间t采样差分的彩色纹理分类方法 | |
Cheng et al. | Power pole detection based on graph cut | |
Ghandour et al. | Building shadow detection based on multi-thresholding segmentation | |
CN110889418A (zh) | 一种气体轮廓识别方法 | |
Ibrahem et al. | Weakly supervised traffic sign detection in real time using single CNN architecture for multiple purposes | |
Han et al. | Accurate and robust vanishing point detection method in unstructured road scenes | |
CN114067186B (zh) | 一种行人检测方法、装置、电子设备及存储介质 | |
CN115861956A (zh) | 一种基于解耦头部的Yolov3道路垃圾检测方法 | |
CN115631412A (zh) | 基于坐标注意力和数据相关上采样的遥感图像建筑物提取方法 | |
CN113657225B (zh) | 一种目标检测方法 | |
Chen et al. | Improved yolov3 algorithm for ship target detection | |
CN115273202A (zh) | 一种人脸比对方法、系统、设备及存储介质 | |
CN113780136A (zh) | 基于时空纹理识别的VOCs气体泄漏检测方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |