CN113191450B - 一种基于动态标签调整的弱监督目标检测算法 - Google Patents
一种基于动态标签调整的弱监督目标检测算法 Download PDFInfo
- Publication number
- CN113191450B CN113191450B CN202110548236.9A CN202110548236A CN113191450B CN 113191450 B CN113191450 B CN 113191450B CN 202110548236 A CN202110548236 A CN 202110548236A CN 113191450 B CN113191450 B CN 113191450B
- Authority
- CN
- China
- Prior art keywords
- instance
- penalty
- loss
- refinement
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 75
- 238000004422 calculation algorithm Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000005065 mining Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 5
- 230000005284 excitation Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 229910052731 fluorine Inorganic materials 0.000 claims description 2
- 125000001153 fluoro group Chemical group F* 0.000 claims description 2
- 238000007670 refining Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 abstract description 4
- 230000002860 competitive effect Effects 0.000 abstract description 2
- 239000012855 volatile organic compound Substances 0.000 description 17
- 238000012800 visualization Methods 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 241001494479 Pecora Species 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 241001083847 Berberis Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于动态标签调整的弱监督目标检测方法,包括:将图片、图片对应标签和候选框集合输入到多实例检测网络,得到的候选框输出根据其得分矩阵排序和实例之间的交并比值,实施惩罚激励项,计算多实例检测网络部分的损失,得到第一个精化分支的监督信息;据此,计算精化分支的损失;根据多实例检测网络部分和精化分支的损失之和的最终损失,训练迭代优化网络,用该优化网络实现弱监督目标检测。本发明通过动态调整图片初始二值标签,以接近图片真实实例,提升每个实例潜在增长空间,减轻正实例标签约束为“1”的竞争关系;还设计惩罚激励项,根据候选框之间的交并比关系调整候选框的检测得分,提升弱监督目标检测模型的实例挖掘能力。
Description
技术领域
本发明涉及目标检测领域,特别是涉及一种基于动态标签调整的弱监督目标检测方法。
背景技术
目标检测是计算机视觉中的一个重要问题,具有广泛的应用前景。近年来,随着CNN(卷积神经网络)的发展和大规模数据集的普及,以及具有详细b-box(边界框)注释的数据集的可用性,目标检测技术有了长足的发展。然而,收集详细注释非常费时费力。曾有科学家调侃说,他的数据集都是母亲帮他标注的,要想获得更大的数据集,他还需要更多“妈妈”。与此同时,数据集的类别始终是有限的,不论是PASCAL VOC的20个类别还是COCO的80个类别,即使到ImageNet的1000个类别,与真实生活中的物体种类相比,仍然是九牛一毛。这就限制了检测器的检测能力。与之相对应的,在互联网上充斥着大量的图片,只需通过关键词搜索,就能轻易获得某一类别的大量图片;同时在社交媒体上,全世界人们每天仍在不断上传数以亿计的海量图片。这些浩如烟海的数据如果能加以利用,用于训练目标检测的检测器的话,检测器理论上将有无限的训练数据,且类别比传统标注的数据集更丰富、完善。
这一事实促使我们探索WSOD(弱监督目标检测)问题的方法,即只使用图像级标签作为监督信号,来训练物体检测器。以前的许多弱监督目标检测方法都是基于MIL(多实例学习),这些工作把图像当作袋子和候选框来对待,然后在多实例学习约束下训练实例分类器(即,一个正包至少包含一个正实例,而负包中的所有实例都为负)。此外,受卷积神经网络巨大成功的启发,最近的工作往往将多实例学习和卷积神经网络结合起来,以获得更好的弱监督目标检测性能。研究表明,将大规模数据集上预训练的卷积神经网络作为现成的特征提取器,可以获得比传统手工设计特征更好的性能。此外,最近的许多工作都通过使用标准端到端训练的多实例学习网络,为弱监督目标检测的发展带来了更大的提升。除此之外,在弱监督目标检测领域还有一类CAM(类激活图)方法,这些工作通过训练一个分类网络,而后将分类网络的全连接层权重加权到特征图,从而生成类激活图。该图的高亮区域指示了目标物体所在的区域。但类激活图方法只能定位,无法检测,即无法给出实例的类别得分。并且与多实例学习方法相比,类激活图方法很难用数学公式表述,不好优化,因此类激活图方法往往用于辅助物体的位置判断。
并且现有的基于二值标签的多实例学习类方法容易陷入局部最优,这是因为多实例学习倾向于从图像中每个类别最有区别性的部分中学习,从而导致对象实例丢失。同时,由于一幅图像中通常存在同一类别的多个实例,它们之间的得分共享标签“1”,导致这类方法只能得到低分的检测结果。
发明内容
为了弥补上述现有技术的实例得分偏低及实施例丢失的不足,本发明提出一种基于动态标签调整的弱监督目标检测方法。
本发明的技术问题通过以下的技术方案予以解决:
本发明提出一种基于动态标签调整的弱监督目标检测方法,包括如下步骤:S1:将图片、图片对应的标签和候选框集合输入到多实例检测网络,得到的候选框输出根据其得分矩阵排序和实例之间的交并比值,实施惩罚激励项,计算多实例检测网络部分的损失,得到第一个精化分支的监督信息;S2:根据第一个精化分支的监督信息,计算精化分支的损失;S3:根据多实例检测网络部分和精化分支的损失之和的最终损失,训练迭代优化网络,用该优化网络实现弱监督目标检测。
在一些实施例中,S1步骤包括:S11:输入原始图片x、训练标签L={l1,l2,...,lC}和SS生成的候选框集合P={p1,p2,...,pR}到空间金字塔池化层,产生每个候选框的卷积特征图,送入全连接层以生成候选框特征向量的集合经过软最大层得到:S12:通过矩阵对应位置的元素相乘,计算出最终的得分矩阵:xR=σ(xc)⊙σ(xd);S13:把xR在维度C上累加,得到整张图片尺度上对应于每一个类别C的得分:S14:计算多实例检测网络部分得到图像级损失:
在一些实施例中,实施惩罚激励项包括:A1:图片x经多实例检测网络得到得分矩阵xR;A2:对于图片初始标签L={l1,l2,...,lC},若li=1,则在xR中取第i行,按照从大到小的顺序选取得分最高的两个候选框pi、pj,并计算IoU(pi,pj);A3:若IoU(pi,pj)>α,则pi、pj属于同一个实例,随机选取其中一个实施惩罚项若IoU(pi,pj)≤α,则pi、pj来自不同的实例,同时对它们实施激励项si=si·bi,sj=sj·bj(其中),并另li=li+1;A4:经由动态标签调整和惩罚激励项:后,得到新的标签L1和新的得分矩阵构建零矩阵对于中的每个正类C,根据L1选取得分从大到小的前l1c个候选框,将其在x1对应位置的值设为1;A5:输入到精化第一个分支Ref1的监督信息包括:动态标签调整后的标签L1构成Ref1的图像级监督信息,惩罚激励项后的得分矩阵x1构成Ref1的实例级监督信息。
在一些实施例中,实施惩罚激励项,用于在训练过程中逐渐挖掘来自同一类的不具辨别力的对象实例,将其用于训练。
在一些实施例中,第一个精化分支的监督信息包括:图像级监督信息和实例级监督信息。
在一些实施例中,对于精化的其他分支,根据前一个分支的图像级监督信息和实例级监督信息,生成新的图像级监督信息和实例级监督信息,用于下一个分支的训练,迭代优化。
在一些实施例中,精化分支的损失包括:分类损失和精化损失;分类损失是图像级的损失,精化损失是实例级的损失。
在一些实施例中,训练期间图片对应的标签,通过前一阶段的得分矩阵和实例之间的交并比关系进行动态调整。
在一些实施例中,训练期间图片对应的标签为自动调整,而不需人为标注。
在一些实施例中,实施惩罚激励项中的惩罚函数选择线性惩罚因子,避免在迭代过程中误差累积。
在一些实施例中,该弱监督目标检测方法适用于多实例学习类方法。
本发明还提出一种基于动态标签调整的弱监督目标检测的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如以上任一所述方法的步骤。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以上任一所述方法的步骤。
本发明与现有技术对比的有益效果包括:本发明提出一种基于动态标签调整的弱监督目标检测模型,该模型通过在训练检测器的过程中动态地调整图片初始的二值标签,以接近图片中每个正类的真实实例数目,从而提升每个实例的潜在增长空间,减轻之前的方法由于正实例标签约束为“1”带来的竞争关系;
本发明的一些实施例还具有如下有益效果:
1.为了增强动态标签调整模型的实例挖掘能力,还设计了一个惩罚激励项,根据候选框之间的IoU(交并比)关系对候选框的检测得分进行调整;通过这种动态标签调整方法,本发明大大提升了弱监督目标检测模型的实例挖掘能力,使得在迭代学习过程中,即使没有任何附加注释也能逐渐检测到来自同一类的那些不太具辨别力的对象实例,并将其用于训练;
2.该方法适用于绝大多数主流的多实例学习类弱监督目标检测模型,且精度提升幅度较大;该方法在公开数据集PASCAL VOC 2007和PASCAL VOC 2012上都取得了目前最优的结果;可视化实验结果也显示,实力得分偏低和实例丢失的问题得到显著改善。
附图说明
图1是本发明实施例的动态标签调整弱监督目标检测模型整体结构图;
图2本发明实施例的多实例检测网络结构图;
图3是本发明实施例的动态标签调整弱监督目标检测方法的流程图;
图4-1本发明实施例的可视化结果第一组图示1;
图4-2本发明实施例的可视化结果第一组图示2;
图4-3本发明实施例的可视化结果第一组图示3;
图4-4本发明实施例的可视化结果第一组图示4;
图5-1本发明实施例的可视化结果第二组图示5;
图5-2本发明实施例的可视化结果第二组图示6;
图5-3本发明实施例的可视化结果第二组图示7;
图5-4本发明实施例的可视化结果第二组图示8。
其中附图标记为:
1-卷积层;2-全连接层;3-多实例检测网络的图像级得分;4-图像级监督信息;5-精化分支的图像级得分;6-精化分支的实例级得分;7-动态标签调整之后的精化分支监督信息。
具体实施方式
下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本实施例中的左、右、上、下、顶、底等方位用语,仅是互为相对概念,或是以产品的正常使用状态为参考的,而不应该认为是具有限制性的。
本发明下述实施例提出一种基于动态标签调整的弱监督目标检测方法,该模型基于OICR(在线实例分类器精化),在弱监督模型训练期间,利用模型得到的得分矩阵及候选框之间的IoU(交并比)关系,将模型初始的二值标签{0,1}动态地调整为更接近原图中实际实例数量的标签{0,n},从而缓解原监督标签为“1”所造成的实例间的竞争关系,大大提升网络性能。下面是具体说明。
本发明提出的基于动态标签调整的弱监督目标检测方法,主要包含MIDN(多实例检测网络)和refinement(精化)分支两部分。
参考图1,是本发明具体实施方式中动态标签调整模型的整体结构图,模型主要包含两部分:多实例检测网络和精化分支。精化分支包含单层全连接层。图像经多实例检测网络部分得到的得分矩阵,将作为精化第一个分支的监督信息,精化其他分支的监督信息也是来自上一个分支的输出。图中包括,卷积层1(convolutional layer),全连接层2(fullyconnected layer),多实例检测网络的图像级得分3(MIDN image score),图像级监督信4(image label),精化分支的图像级得分5(refinement image score),精化分支的实例级得6(refinementinstance score),动态标签调整之后的精化分支监督信息7(DLAlabel)。参考图2,是本发明具体实施方式中动态标签调整模型中多实例检测网络部分的具体结构图。多实例检测网络在VGG_16的基础上,将模型的最后一个最大池化层替换为SPP(空间金字塔池化)层,最后一个fc(全连接)层和softmax(软最大)层替换为两个fc(全连接)层。
输入原始图片x、训练标签L={l1,l2,...,lC}和SS生成的候选框集合P={p1,p2,...,pR}(其中C是数据集的类别数目,R是图片x包含的候选框数目)到SPP(空间金字塔池化)层,以产生每个候选框的固定大小的卷积特征图,然后它们被送入两个fc(全连接)层以生成候选框特征向量的集合然后沿着矩阵的两个不同维度,分别经过两个softmax(软最大)层得到:然后,通过矩阵对应位置的元素相乘,就可以计算出最终的得分矩阵:xR=σ(xc)⊙σ(xd);最后,把xR在维度C上累加,就可以得到在整张图片的尺度上对应于每一个类别C的得分:从而,计算MIDN(多实例检测网络)部分得到图像级loss(损失):
参考图3,基于动态标签调整的弱监督目标检测方法包括如下步骤:
S1:将图片、图片对应的标签和候选框集合输入到MIDN(多实例检测网络)网络,得到的候选框输出根据其得分排序和相互之间的交并比值,计算多实例检测网络部分的loss(损失),并得到第一个refinement(精化)分支的监督信息;
S2:根据前面得到的监督信息,精化分支计算Cls loss(分类损失)和Refloss(精化损失)。其中分类损失是图像级的损失,精化损失是实例级的损失;
S3:多实例检测网络部分和各个精化分支的损失的和,构成了网络最终的损失,并以此训练迭代优化网络。
第一个精化分支的监督信息包括:图像级监督信息和实例级监督信息。
精化分支的损失包括:分类损失和精化损失;分类损失是图像级的损失,精化损失是实例级的损失。
此外,为了增强动态标签调整模型的实例挖掘能力,我们设计了一个巧妙的惩罚激励项;实施惩罚激励项,用于在训练过程中逐渐挖掘来自同一类的不具辨别力的对象实例,将其用于训练。根据候选框之间的IoU(交并比)关系对候选框的检测得分进行调整;通过这种动态标签调整方法,本发明大大提升了弱监督目标检测模型的实例挖掘能力,使得在迭代学习过程中,即使没有任何附加注释也能逐渐检测到来自同一类的那些不太具辨别力的对象实例,并将其用于训练。在公开数据集PASCAL VOC 2007和PASCAL VOC 2012上的性能表现对比之前的模型提升显著。
对于动态标签监督信息,主要由两部分构成:图像级监督信息和实例级监督信息。这两部分的监督信息的生成过程如下,其中也包含了我们设计的惩罚激励项:
A.图像x经多实例检测网络得到的得分矩阵xR;
B.对于图像初始标签L={l1,l2,...,lC},若li=1,则在xR中取第i行,按照从大到小的顺序选取得分最高的两个候选框pi、pj,并计算IoU(pi,pj);
C.若IoU(pi,pj)>α,我们认为pi、pj属于同一个实例,随机选取其中一个实施惩罚项若IoU(pi,pj)≤α,我们认为pi、pj来自不同的实例,同时对它们实施激励项si=si·bi,sj=sj·bj(其中 ),并另li=li+1;
E.输入到refinement(精化)第一个分支Ref1的监督信息由两部分内容组成:动态标签调整后的标签L1构成了Ref1的图像级监督信息,惩罚激励项后的得分矩阵x1构成了Ref1的实例级监督信息。
对于Ref1的实例级loss(损失),我们按下式进行计算:
对于refinement(精化)的其他分支也类似上面所述,根据前一个分支的图像级监督信息和实例级监督信息,生成新的图像级监督信息和实例级监督信息,用于下一个分支的训练。
使用在ImageNet上预训练的VGG_16模型作为图像的特征提取器。我们将模型的最后一个最大池化层替换为SPP(空间金字塔池化)层,最后一个fc(全连接)层和softmax(软最大)替换为两个全连接层。同时为了增加最后一个conv(卷积)层的特征图大小,我们将倒数第二个max pooling(最大池化)层及其子卷积层替换为扩展的卷积层。新添加的层使用高斯分布进行初始化,平均值为0,标准偏差为0.01。偏差被初始化为0。
精化分支只有一层fc和一层软最大层,没有如同多实例检测网络的两个全连接分支。
在训练过程中,SGD(随机梯度下降)的最小批量大小设置为2,学习率在最初的40K迭代中设置为0.001,然后在随后的30K迭代中降低到0.0001。动量衰减和权重衰减分别设置为0.9和0.0005。交并比阈值α设置为0.5。
我们使用SS(选择性搜索)来生成每幅图像大约2000个候选框。对于数据扩充,我们使用5个图像尺度{480,576,688,864,1200}(将图片最短的边调整为其中一个尺度),并通过水平翻转将最长的一边限制为小于2000,用于训练和测试。
我们将实例分类器精化3次,即k=3。因此总共有4个阶段。我们所有的实验都在NVIDIA GTX 2080ti上面进行。
不同的交并比阈值设置,会得到不同数量的伪GT(真实数据)候选框,因此会影响后续的网络分支,进而影响网络性能。根据我们的经验和实验结果,我们选取了最优的交并比阈值。训练期间图片对应的标签,通过前一阶段的得分矩阵和实例之间的交并比关系进行动态调整;训练期间图片对应的标签为自动调整,而不需人为标注。
不同的惩罚项对于网络的性能有一定的影响,根据我们的经验和实验结果,我们选取了最合适的惩罚项;实施惩罚激励项中的惩罚函数选择线性惩罚因子,避免在迭代过程中误差累积。
参考图4-1、图4-2、图4-3、图4-4,是本发明具体实施的第一组可视化结果,图4-1、图4-3是在线实例分类器精化模型可视化结果,图4-2、图4-4是动态标签调整模型可视化结果。对比可以看出,我们的动态标签调整模型在框选位置差不多的情况下,检测分数提升显著。对比图4-1和图4-2,我们检测到的车的分数为0.98,对比的模型只有0.17;对比图4-3和图4-4,我们检测到的猫的得分有0.92,对比的模型只有0.36。
参考图5-1、图5-2、图5-3、图5-4,是本发明具体实施的第二组可视化结果,图5-1、图5-3是在线实例分类器精化模型可视化结果,图5-2、图5-4是动态标签调整模型可视化结果。对比可以看出,我们的动态标签调整模型在图像中存在同类别的多个不同实例时,检测结果更完善。对比图5-1和图5-2,我们能检测到两只羊,对比的模型只能检测到一只羊;对比图5-3和图5-4,我们能检测到所有人和摩托车,对比的模型只能检测到一个人和摩托车。
参考表1,是本发明与目前的SOTA(最优)模型的对比实验结果。实验在PASCAL VOC2007和PASCAL VOC 2012上分别进行。我们的模型比SOTA(最优)模型在PASCAL VOC 2007和PASCAL VOC 2012上分别提升了0.3和0.4个百分点。
表1 SOTA实验结果表
方法 | mAP<sub>0.5</sub> VOC 2007 | mAP<sub>0.5</sub> VOC 2012 |
CASD | 56.4 | 53.1 |
CASD+动态标签调整 | 56.7 | 53.5 |
参考表2,是本发明与目前主流的MIL(多实例学习)类弱监督目标检测模型的对比实验结果。实验在PASCAL VOC 2007和PASCAL VOC 2012上分别进行,采用mAP和CorLoc两个指标进行评估。我们的模型比OICR(在线实例分类器精化)和PCL(候选框聚类学习),在PASCAL VOC 2007上,mAP分别提升了5.2和2.5,CorLoc分别提升了6.2和0.8;在PASCAL VOC2012上,mAP分别提升了4.9和3.5,CorLoc分别提升了6.4和1.1。
表2 SOTA实验结果表
方法 | mAP 2007 | CorLoc 2007 | mAP 2012 | CorLoc 2012 |
OICR | 44.1 | 64.0 | 39.9 | 65.0 |
OICR+动态标签调整 | 49.3 | 70.2 | 44.8 | 71.4 |
PCL | 48.8 | 66.6 | 44.2 | 68.0 |
PCL+动态标签调整 | 51.3 | 67.4 | 47.7 | 69.1 |
经过实验发现,该方法适用于绝大多数主流的MIL(多实例学习)类弱监督目标检测模型,且精度提升幅度较大。该方法在公开数据集PASCAL VOC 2007和PASCAL VOC 2012上都取得了目前最优的结果。以上内具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些容是结合说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (13)
1.一种基于动态标签调整的弱监督目标检测方法,其特征在于,包括如下步骤:
S1:将图片、图片对应的标签和候选框集合输入到多实例检测网络,得到的候选框输出根据其得分矩阵排序和实例之间的交并比值,实施惩罚激励项,计算多实例检测网络部分的损失,得到第一个精化分支的监督信息;
S2:根据第一个精化分支的监督信息,计算精化分支的损失;
S3:根据多实例检测网络部分和精化分支的损失之和的最终损失,训练迭代优化网络,用该优化网络实现弱监督目标检测;
实施惩罚激励项包括:
A1:图片x经多实例检测网络得到得分矩阵xR;
A2:对于图片初始标签L={l1,l2,...,lc,...,lC},若lc=1,则在xR中取第i行,按照从大到小的顺序选取得分最高的两个候选框pi、pj,并计算IoU(pi,pj);
A3:若IoU(pi,pj)>α,则pi、pj属于同一个实例,随机选取其中一个实施惩罚项若IoU(pi,pj)≤α,则pi、pj来自不同的实例,同时对它们实施激励项si=si·bi,sj=sj·bj,其中并令lc=lc+1;
A5:输入到精化第一个分支Ref1的监督信息包括:动态标签调整后的标签L1构成Ref1的图像级监督信息,惩罚激励项后的得分矩阵x1构成Ref1的实例级监督信息。
4.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于:实施惩罚激励项,用于在训练过程中逐渐挖掘来自同一类的不具辨别力的对象实例,将其用于训练。
5.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于,第一个精化分支的监督信息包括:图像级监督信息和实例级监督信息。
6.如权利要求4所述的基于动态标签调整的弱监督目标检测方法,其特征在于,对于精化的其他分支,根据前一个分支的图像级监督信息和实例级监督信息,生成新的图像级监督信息和实例级监督信息,用于下一个分支的训练,迭代优化。
7.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于,精化分支的损失包括:分类损失和精化损失;分类损失是图像级的损失,精化损失是实例级的损失。
8.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于:训练期间图片对应的标签,通过前一阶段的得分矩阵和实例之间的交并比关系进行动态调整。
9.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于:训练期间图片对应的标签为自动调整,而不需人为标注。
10.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于:实施惩罚激励项中的惩罚函数选择线性惩罚因子,避免在迭代过程中误差累积。
11.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于:该弱监督目标检测方法适用于多实例学习类方法。
12.一种基于动态标签调整的弱监督目标检测的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-11任一所述方法的步骤。
13.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-11任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110548236.9A CN113191450B (zh) | 2021-05-19 | 2021-05-19 | 一种基于动态标签调整的弱监督目标检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110548236.9A CN113191450B (zh) | 2021-05-19 | 2021-05-19 | 一种基于动态标签调整的弱监督目标检测算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113191450A CN113191450A (zh) | 2021-07-30 |
CN113191450B true CN113191450B (zh) | 2022-09-06 |
Family
ID=76982508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110548236.9A Active CN113191450B (zh) | 2021-05-19 | 2021-05-19 | 一种基于动态标签调整的弱监督目标检测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191450B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920370A (zh) * | 2021-10-25 | 2022-01-11 | 上海商汤智能科技有限公司 | 模型训练方法、目标检测方法、装置、设备及存储介质 |
CN114627437B (zh) * | 2022-05-16 | 2022-08-05 | 科大天工智能装备技术(天津)有限公司 | 一种交通目标识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682696A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 基于在线示例分类器精化的多示例检测网络及其训练方法 |
CN111723798A (zh) * | 2020-05-27 | 2020-09-29 | 西安交通大学 | 一种基于关联性层级残差的多实例自然场景文本检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106327469B (zh) * | 2015-06-29 | 2019-06-18 | 北京航空航天大学 | 一种语义标签引导的视频对象分割方法 |
US20170330059A1 (en) * | 2016-05-11 | 2017-11-16 | Xerox Corporation | Joint object and object part detection using web supervision |
-
2021
- 2021-05-19 CN CN202110548236.9A patent/CN113191450B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682696A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 基于在线示例分类器精化的多示例检测网络及其训练方法 |
CN111723798A (zh) * | 2020-05-27 | 2020-09-29 | 西安交通大学 | 一种基于关联性层级残差的多实例自然场景文本检测方法 |
Non-Patent Citations (4)
Title |
---|
Augmenting Proposals by the Detector Itself;Xiaopei Wan等;《arxiv》;20210128;第1-6页 * |
Multiple Instance Detection Network with Online Instance Classifier Refinement;Peng Tang等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20170721;第3059-3067页 * |
基于深度神经网络的弱监督学习方法在图像领域的研究;刘永胜;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20200815(第08期);第I138-32页 * |
深度学习的目标跟踪算法综述;李玺等;《中国图象图形学报》;20191216;第24卷(第12期);第2057-2080页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113191450A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A return-cost-based binary firefly algorithm for feature selection | |
CN112837330B (zh) | 基于多尺度双注意力机制和全卷积神经网络的叶分割方法 | |
CN109271522B (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
CN110046656B (zh) | 基于深度学习的多模态场景识别方法 | |
CN112036447B (zh) | 零样本目标检测系统及可学习语义和固定语义融合方法 | |
CN114841257B (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
CN107392919B (zh) | 基于自适应遗传算法的灰度阈值获取方法、图像分割方法 | |
CN113191450B (zh) | 一种基于动态标签调整的弱监督目标检测算法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN110297888A (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN104679868B (zh) | 一种基于数据间关联关系的遗漏数据填补方法 | |
CN112308115A (zh) | 一种多标签图像深度学习分类方法及设备 | |
CN114283320B (zh) | 基于全卷积的无分支结构目标检测方法 | |
CN111984817A (zh) | 一种基于自注意力机制加权的细粒度图像检索方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN111708865B (zh) | 一种基于改进XGBoost算法的技术预见及专利预警分析方法 | |
CN111914904B (zh) | 一种融合DarkNet与CapsuleNet模型的图像分类方法 | |
CN111079840B (zh) | 基于卷积神经网络和概念格的图像语义完备标注方法 | |
CN117372724A (zh) | 一种基于次模优化约束的渐进式图像识别方法及系统 | |
CN112651499A (zh) | 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法 | |
CN111737467A (zh) | 一种基于分段卷积神经网络的对象级情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |