CN113191450A - 一种基于动态标签调整的弱监督目标检测算法 - Google Patents

一种基于动态标签调整的弱监督目标检测算法 Download PDF

Info

Publication number
CN113191450A
CN113191450A CN202110548236.9A CN202110548236A CN113191450A CN 113191450 A CN113191450 A CN 113191450A CN 202110548236 A CN202110548236 A CN 202110548236A CN 113191450 A CN113191450 A CN 113191450A
Authority
CN
China
Prior art keywords
instance
penalty
loss
refinement
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110548236.9A
Other languages
English (en)
Other versions
CN113191450B (zh
Inventor
龚德政
杨余久
杨芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202110548236.9A priority Critical patent/CN113191450B/zh
Publication of CN113191450A publication Critical patent/CN113191450A/zh
Application granted granted Critical
Publication of CN113191450B publication Critical patent/CN113191450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于动态标签调整的弱监督目标检测方法,包括:将图片、图片对应标签和候选框集合输入到多实例检测网络,得到的候选框输出根据其得分矩阵排序和实例之间的交并比值,实施惩罚激励项,计算多实例检测网络部分的损失,得到第一个精化分支的监督信息;据此,计算精化分支的损失;根据多实例检测网络部分和精化分支的损失之和的最终损失,训练迭代优化网络,用该优化网络实现弱监督目标检测。本发明通过动态调整图片初始二值标签,以接近图片真实实例,提升每个实例潜在增长空间,减轻正实例标签约束为“1”的竞争关系;还设计惩罚激励项,根据候选框之间的交并比关系调整候选框的检测得分,提升弱监督目标检测模型的实例挖掘能力。

Description

一种基于动态标签调整的弱监督目标检测算法
技术领域
本发明涉及目标检测领域,特别是涉及一种基于动态标签调整的弱监督目标检测方法。
背景技术
目标检测是计算机视觉中的一个重要问题,具有广泛的应用前景。近年来,随着CNN(卷积神经网络)的发展和大规模数据集的普及,以及具有详细b-box(边界框)注释的数据集的可用性,目标检测技术有了长足的发展。然而,收集详细注释非常费时费力。曾有科学家调侃说,他的数据集都是母亲帮他标注的,要想获得更大的数据集,他还需要更多“妈妈”。与此同时,数据集的类别始终是有限的,不论是PASCAL VOC的20个类别还是COCO的80个类别,即使到ImageNet的1000个类别,与真实生活中的物体种类相比,仍然是九牛一毛。这就限制了检测器的检测能力。与之相对应的,在互联网上充斥着大量的图片,只需通过关键词搜索,就能轻易获得某一类别的大量图片;同时在社交媒体上,全世界人们每天仍在不断上传数以亿计的海量图片。这些浩如烟海的数据如果能加以利用,用于训练目标检测的检测器的话,检测器理论上将有无限的训练数据,且类别比传统标注的数据集更丰富、完善。
这一事实促使我们探索WSOD(弱监督目标检测)问题的方法,即只使用图像级标签作为监督信号,来训练物体检测器。以前的许多弱监督目标检测方法都是基于MIL(多实例学习),这些工作把图像当作袋子和候选框来对待,然后在多实例学习约束下训练实例分类器(即,一个正包至少包含一个正实例,而负包中的所有实例都为负)。此外,受卷积神经网络巨大成功的启发,最近的工作往往将多实例学习和卷积神经网络结合起来,以获得更好的弱监督目标检测性能。研究表明,将大规模数据集上预训练的卷积神经网络作为现成的特征提取器,可以获得比传统手工设计特征更好的性能。此外,最近的许多工作都通过使用标准端到端训练的多实例学习网络,为弱监督目标检测的发展带来了更大的提升。除此之外,在弱监督目标检测领域还有一类CAM(类激活图)方法,这些工作通过训练一个分类网络,而后将分类网络的全连接层权重加权到特征图,从而生成类激活图。该图的高亮区域指示了目标物体所在的区域。但类激活图方法只能定位,无法检测,即无法给出实例的类别得分。并且与多实例学习方法相比,类激活图方法很难用数学公式表述,不好优化,因此类激活图方法往往用于辅助物体的位置判断。
并且现有的基于二值标签的多实例学习类方法容易陷入局部最优,这是因为多实例学习倾向于从图像中每个类别最有区别性的部分中学习,从而导致对象实例丢失。同时,由于一幅图像中通常存在同一类别的多个实例,它们之间的得分共享标签“1”,导致这类方法只能得到低分的检测结果。
发明内容
为了弥补上述现有技术的实例得分偏低及实施例丢失的不足,本发明提出一种基于动态标签调整的弱监督目标检测方法。
本发明的技术问题通过以下的技术方案予以解决:
本发明提出一种基于动态标签调整的弱监督目标检测方法,包括如下步骤:S1:将图片、图片对应的标签和候选框集合输入到多实例检测网络,得到的候选框输出根据其得分矩阵排序和实例之间的交并比值,实施惩罚激励项,计算多实例检测网络部分的损失,得到第一个精化分支的监督信息;S2:根据第一个精化分支的监督信息,计算精化分支的损失;S3:根据多实例检测网络部分和精化分支的损失之和的最终损失,训练迭代优化网络,用该优化网络实现弱监督目标检测。
在一些实施例中,S1步骤包括:S11:输入原始图片x、训练标签L={l1,l2,...,lC}和SS生成的候选框集合P={p1,p2,...,pR}到空间金字塔池化层,产生每个候选框的卷积特征图,送入全连接层以生成候选框特征向量的集合
Figure BDA0003074420490000021
经过软最大层得到:
Figure BDA0003074420490000022
S12:通过矩阵对应位置的元素相乘,计算出最终的得分矩阵:xR=σ(xc)⊙σ(xd);S13:把xR在维度C上累加,得到整张图片尺度上对应于每一个类别C的得分:
Figure BDA0003074420490000023
S14:计算多实例检测网络部分得到图像级损失:
Figure BDA0003074420490000031
在一些实施例中,实施惩罚激励项包括:A1:图片x经多实例检测网络得到得分矩阵xR;A2:对于图片初始标签L={l1,l2,...,lC},若li=1,则在xR中取第i行,按照从大到小的顺序选取得分最高的两个候选框pi、pj,并计算IoU(pi,pj);A3:若IoU(pi,pj)>α,则pi、pj属于同一个实例,随机选取其中一个实施惩罚项
Figure BDA0003074420490000032
若IoU(pi,pj)≤α,则pi、pj来自不同的实例,同时对它们实施激励项si=si·bi,sj=sj·bj(其中
Figure BDA0003074420490000033
),并另li=li+1;A4:经由动态标签调整和惩罚激励项:后,得到新的标签L1和新的得分矩阵
Figure BDA0003074420490000034
构建零矩阵
Figure BDA0003074420490000035
对于
Figure BDA0003074420490000036
中的每个正类C,根据L1选取得分从大到小的前l1c个候选框,将其在x1对应位置的值设为1;A5:输入到精化第一个分支Ref1的监督信息包括:动态标签调整后的标签L1构成Ref1的图像级监督信息,惩罚激励项后的得分矩阵x1构成Ref1的实例级监督信息。
在一些实施例中,对于Ref1而言,图像的分类得分
Figure BDA0003074420490000037
除以动态标签l1以归一化:
Figure BDA0003074420490000038
对于Ref1的实例级损失,按下式进行计算:
Figure BDA0003074420490000039
其中
Figure BDA00030744204900000310
是由Ref1的全连接层得到的得分矩阵。
在一些实施例中,实施惩罚激励项,用于在训练过程中逐渐挖掘来自同一类的不具辨别力的对象实例,将其用于训练。
在一些实施例中,第一个精化分支的监督信息包括:图像级监督信息和实例级监督信息。
在一些实施例中,对于精化的其他分支,根据前一个分支的图像级监督信息和实例级监督信息,生成新的图像级监督信息和实例级监督信息,用于下一个分支的训练,迭代优化。
在一些实施例中,精化分支的损失包括:分类损失和精化损失;分类损失是图像级的损失,精化损失是实例级的损失。
在一些实施例中,训练期间图片对应的标签,通过前一阶段的得分矩阵和实例之间的交并比关系进行动态调整。
在一些实施例中,训练期间图片对应的标签为自动调整,而不需人为标注。
在一些实施例中,实施惩罚激励项中的惩罚函数选择线性惩罚因子,避免在迭代过程中误差累积。
在一些实施例中,该弱监督目标检测方法适用于多实例学习类方法。
本发明还提出一种基于动态标签调整的弱监督目标检测的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如以上任一所述方法的步骤。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以上任一所述方法的步骤。
本发明与现有技术对比的有益效果包括:本发明提出一种基于动态标签调整的弱监督目标检测模型,该模型通过在训练检测器的过程中动态地调整图片初始的二值标签,以接近图片中每个正类的真实实例数目,从而提升每个实例的潜在增长空间,减轻之前的方法由于正实例标签约束为“1”带来的竞争关系;
本发明的一些实施例还具有如下有益效果:
1.为了增强动态标签调整模型的实例挖掘能力,还设计了一个惩罚激励项,根据候选框之间的IoU(交并比)关系对候选框的检测得分进行调整;通过这种动态标签调整方法,本发明大大提升了弱监督目标检测模型的实例挖掘能力,使得在迭代学习过程中,即使没有任何附加注释也能逐渐检测到来自同一类的那些不太具辨别力的对象实例,并将其用于训练;
2.该方法适用于绝大多数主流的多实例学习类弱监督目标检测模型,且精度提升幅度较大;该方法在公开数据集PASCAL VOC 2007和PASCAL VOC 2012上都取得了目前最优的结果;可视化实验结果也显示,实力得分偏低和实例丢失的问题得到显著改善。
附图说明
图1是本发明实施例的动态标签调整弱监督目标检测模型整体结构图;
图2本发明实施例的多实例检测网络结构图;
图3是本发明实施例的动态标签调整弱监督目标检测方法的流程图;
图4-1本发明实施例的可视化结果第一组图示1;
图4-2本发明实施例的可视化结果第一组图示2;
图4-3本发明实施例的可视化结果第一组图示3;
图4-4本发明实施例的可视化结果第一组图示4;
图5-1本发明实施例的可视化结果第二组图示5;
图5-2本发明实施例的可视化结果第二组图示6;
图5-3本发明实施例的可视化结果第二组图示7;
图5-4本发明实施例的可视化结果第二组图示8。
其中附图标记为:
1-卷积层;2-全连接层;3-多实例检测网络的图像级得分;4-图像级监督信息;5-精化分支的图像级得分;6-精化分支的实例级得分;7-动态标签调整之后的精化分支监督信息。
具体实施方式
下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本实施例中的左、右、上、下、顶、底等方位用语,仅是互为相对概念,或是以产品的正常使用状态为参考的,而不应该认为是具有限制性的。
本发明下述实施例提出一种基于动态标签调整的弱监督目标检测方法,该模型基于OICR(在线实例分类器精化),在弱监督模型训练期间,利用模型得到的得分矩阵及候选框之间的IoU(交并比)关系,将模型初始的二值标签{0,1}动态地调整为更接近原图中实际实例数量的标签{0,n},从而缓解原监督标签为“1”所造成的实例间的竞争关系,大大提升网络性能。下面是具体说明。
本发明提出的基于动态标签调整的弱监督目标检测方法,主要包含MIDN(多实例检测网络)和refinement(精化)分支两部分。
参考图1,是本发明具体实施方式中动态标签调整模型的整体结构图,模型主要包含两部分:多实例检测网络和精化分支。精化分支包含单层全连接层。图像经多实例检测网络部分得到的得分矩阵,将作为精化第一个分支的监督信息,精化其他分支的监督信息也是来自上一个分支的输出。图中包括,卷积层1(convolutional layer),全连接层2(fullyconnected layer),多实例检测网络的图像级得分3(MIDN image score),图像级监督信4(image label),精化分支的图像级得分5(refinement image score),精化分支的实例级得6(refinementinstance score),动态标签调整之后的精化分支监督信息7(DLAlabel)。参考图2,是本发明具体实施方式中动态标签调整模型中多实例检测网络部分的具体结构图。多实例检测网络在VGG_16的基础上,将模型的最后一个最大池化层替换为SPP(空间金字塔池化)层,最后一个fc(全连接)层和softmax(软最大)层替换为两个fc(全连接)层。
输入原始图片x、训练标签L={l1,l2,...,lC}和SS生成的候选框集合P={p1,p2,...,pR}(其中C是数据集的类别数目,R是图片x包含的候选框数目)到SPP(空间金字塔池化)层,以产生每个候选框的固定大小的卷积特征图,然后它们被送入两个fc(全连接)层以生成候选框特征向量的集合
Figure BDA0003074420490000061
然后沿着矩阵的两个不同维度,分别经过两个softmax(软最大)层得到:
Figure BDA0003074420490000062
然后,通过矩阵对应位置的元素相乘,就可以计算出最终的得分矩阵:xR=σ(xc)⊙σ(xd);最后,把xR在维度C上累加,就可以得到在整张图片的尺度上对应于每一个类别C的得分:
Figure BDA0003074420490000071
从而,计算MIDN(多实例检测网络)部分得到图像级loss(损失):
Figure BDA0003074420490000072
参考图3,基于动态标签调整的弱监督目标检测方法包括如下步骤:
S1:将图片、图片对应的标签和候选框集合输入到MIDN(多实例检测网络)网络,得到的候选框输出根据其得分排序和相互之间的交并比值,计算多实例检测网络部分的loss(损失),并得到第一个refinement(精化)分支的监督信息;
S2:根据前面得到的监督信息,精化分支计算Cls loss(分类损失)和Refloss(精化损失)。其中分类损失是图像级的损失,精化损失是实例级的损失;
S3:多实例检测网络部分和各个精化分支的损失的和,构成了网络最终的损失,并以此训练迭代优化网络。
第一个精化分支的监督信息包括:图像级监督信息和实例级监督信息。
精化分支的损失包括:分类损失和精化损失;分类损失是图像级的损失,精化损失是实例级的损失。
此外,为了增强动态标签调整模型的实例挖掘能力,我们设计了一个巧妙的惩罚激励项;实施惩罚激励项,用于在训练过程中逐渐挖掘来自同一类的不具辨别力的对象实例,将其用于训练。根据候选框之间的IoU(交并比)关系对候选框的检测得分进行调整;通过这种动态标签调整方法,本发明大大提升了弱监督目标检测模型的实例挖掘能力,使得在迭代学习过程中,即使没有任何附加注释也能逐渐检测到来自同一类的那些不太具辨别力的对象实例,并将其用于训练。在公开数据集PASCAL VOC 2007和PASCAL VOC 2012上的性能表现对比之前的模型提升显著。
对于动态标签监督信息,主要由两部分构成:图像级监督信息和实例级监督信息。这两部分的监督信息的生成过程如下,其中也包含了我们设计的惩罚激励项:
A.图像x经多实例检测网络得到的得分矩阵xR
B.对于图像初始标签L={l1,l2,...,lC},若li=1,则在xR中取第i行,按照从大到小的顺序选取得分最高的两个候选框pi、pj,并计算IoU(pi,pj);
C.若IoU(pi,pj)>α,我们认为pi、pj属于同一个实例,随机选取其中一个实施惩罚项
Figure BDA0003074420490000081
若IoU(pi,pj)≤α,我们认为pi、pj来自不同的实例,同时对它们实施激励项si=si·bi,sj=sj·bj(其中
Figure BDA0003074420490000082
Figure BDA0003074420490000083
),并另li=li+1;
D.经由动态标签调整和惩罚激励项之后,得到新的标签L1和新的得分矩阵
Figure BDA0003074420490000084
构建零矩阵
Figure BDA0003074420490000085
对于
Figure BDA0003074420490000086
中的每个正类c,根据L1选取得分从大到小的前l1c个候选框,将其在x1对应位置的值设为1;
E.输入到refinement(精化)第一个分支Ref1的监督信息由两部分内容组成:动态标签调整后的标签L1构成了Ref1的图像级监督信息,惩罚激励项后的得分矩阵x1构成了Ref1的实例级监督信息。
对于Ref1而言,其图像级loss的计算和MIDN(多实例检测网络)基本一致,不同的是因为图像的分类得分
Figure BDA0003074420490000087
需除以动态标签l1以归一化:
Figure BDA0003074420490000088
对于Ref1的实例级loss(损失),我们按下式进行计算:
Figure BDA0003074420490000089
其中
Figure BDA00030744204900000810
是由Ref1的fc(全连接)层得到的得分矩阵。
对于refinement(精化)的其他分支也类似上面所述,根据前一个分支的图像级监督信息和实例级监督信息,生成新的图像级监督信息和实例级监督信息,用于下一个分支的训练。
使用在ImageNet上预训练的VGG_16模型作为图像的特征提取器。我们将模型的最后一个最大池化层替换为SPP(空间金字塔池化)层,最后一个fc(全连接)层和softmax(软最大)替换为两个全连接层。同时为了增加最后一个conv(卷积)层的特征图大小,我们将倒数第二个max pooling(最大池化)层及其子卷积层替换为扩展的卷积层。新添加的层使用高斯分布进行初始化,平均值为0,标准偏差为0.01。偏差被初始化为0。
精化分支只有一层fc和一层软最大层,没有如同多实例检测网络的两个全连接分支。
在训练过程中,SGD(随机梯度下降)的最小批量大小设置为2,学习率在最初的40K迭代中设置为0.001,然后在随后的30K迭代中降低到0.0001。动量衰减和权重衰减分别设置为0.9和0.0005。交并比阈值α设置为0.5。
我们使用SS(选择性搜索)来生成每幅图像大约2000个候选框。对于数据扩充,我们使用5个图像尺度{480,576,688,864,1200}(将图片最短的边调整为其中一个尺度),并通过水平翻转将最长的一边限制为小于2000,用于训练和测试。
我们将实例分类器精化3次,即k=3。因此总共有4个阶段。我们所有的实验都在NVIDIA GTX 2080ti上面进行。
不同的交并比阈值设置,会得到不同数量的伪GT(真实数据)候选框,因此会影响后续的网络分支,进而影响网络性能。根据我们的经验和实验结果,我们选取了最优的交并比阈值。训练期间图片对应的标签,通过前一阶段的得分矩阵和实例之间的交并比关系进行动态调整;训练期间图片对应的标签为自动调整,而不需人为标注。
不同的惩罚项对于网络的性能有一定的影响,根据我们的经验和实验结果,我们选取了最合适的惩罚项;实施惩罚激励项中的惩罚函数选择线性惩罚因子,避免在迭代过程中误差累积。
参考图4-1、图4-2、图4-3、图4-4,是本发明具体实施的第一组可视化结果,图4-1、图4-3是在线实例分类器精化模型可视化结果,图4-2、图4-4是动态标签调整模型可视化结果。对比可以看出,我们的动态标签调整模型在框选位置差不多的情况下,检测分数提升显著。对比图4-1和图4-2,我们检测到的车的分数为0.98,对比的模型只有0.17;对比图4-3和图4-4,我们检测到的猫的得分有0.92,对比的模型只有0.36。
参考图5-1、图5-2、图5-3、图5-4,是本发明具体实施的第二组可视化结果,图5-1、图5-3是在线实例分类器精化模型可视化结果,图5-2、图5-4是动态标签调整模型可视化结果。对比可以看出,我们的动态标签调整模型在图像中存在同类别的多个不同实例时,检测结果更完善。对比图5-1和图5-2,我们能检测到两只羊,对比的模型只能检测到一只羊;对比图5-3和图5-4,我们能检测到所有人和摩托车,对比的模型只能检测到一个人和摩托车。
参考表1,是本发明与目前的SOTA(最优)模型的对比实验结果。实验在PASCAL VOC2007和PASCAL VOC 2012上分别进行。我们的模型比SOTA(最优)模型在PASCAL VOC 2007和PASCAL VOC 2012上分别提升了0.3和0.4个百分点。
表1 SOTA实验结果表
方法 mAP<sub>0.5</sub> VOC 2007 mAP<sub>0.5</sub> VOC 2012
CASD 56.4 53.1
CASD+动态标签调整 56.7 53.5
参考表2,是本发明与目前主流的MIL(多实例学习)类弱监督目标检测模型的对比实验结果。实验在PASCAL VOC 2007和PASCAL VOC 2012上分别进行,采用mAP和CorLoc两个指标进行评估。我们的模型比OICR(在线实例分类器精化)和PCL(候选框聚类学习),在PASCAL VOC 2007上,mAP分别提升了5.2和2.5,CorLoc分别提升了6.2和0.8;在PASCAL VOC2012上,mAP分别提升了4.9和3.5,CorLoc分别提升了6.4和1.1。
表2 SOTA实验结果表
方法 mAP 2007 CorLoc 2007 mAP 2012 CorLoc 2012
OICR 44.1 64.0 39.9 65.0
OICR+动态标签调整 49.3 70.2 44.8 71.4
PCL 48.8 66.6 44.2 68.0
PCL+动态标签调整 51.3 67.4 47.7 69.1
经过实验发现,该方法适用于绝大多数主流的MIL(多实例学习)类弱监督目标检测模型,且精度提升幅度较大。该方法在公开数据集PASCAL VOC 2007和PASCAL VOC 2012上都取得了目前最优的结果。以上内具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些容是结合说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (14)

1.一种基于动态标签调整的弱监督目标检测方法,其特征在于,包括如下步骤:
S1:将图片、图片对应的标签和候选框集合输入到多实例检测网络,得到的候选框输出根据其得分矩阵排序和实例之间的交并比值,实施惩罚激励项,计算多实例检测网络部分的损失,得到第一个精化分支的监督信息;
S2:根据第一个精化分支的监督信息,计算精化分支的损失;
S3:根据多实例检测网络部分和精化分支的损失之和的最终损失,训练迭代优化网络,用该优化网络实现弱监督目标检测。
2.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于,S1步骤包括:
S11:输入原始图片x、训练标签L={l1,l2,...,lC}和SS生成的候选框集合p={p1,p2,...,pR}到空间金字塔池化层,产生每个候选框的卷积特征图,送入全连接层以生成候选框特征向量的集合
Figure FDA0003074420480000011
经过软最大层得到:
Figure FDA0003074420480000012
S12:通过矩阵对应位置的元素相乘,计算出最终的得分矩阵:xR=σ(xc)⊙σ(xd);
S13:把xR在维度c上累加,得到整张图片尺度上对应于每一个类别c的得分:
Figure FDA0003074420480000013
S14:计算多实例检测网络部分得到图像级损失:
Figure FDA0003074420480000014
3.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于,实施惩罚激励项包括:
A1:图片x经多实例检测网络得到得分矩阵xR
A2:对于图片初始标签L={l1,l2,...,lC},若li=1,则在xR中取第i行,按照从大到小的顺序选取得分最高的两个候选框pi、pj,并计算IoU(pi,pj);
A3:若IoU(pi,pj)>α,则pi、pj属于同一个实例,随机选取其中一个实施惩罚项
Figure FDA0003074420480000021
若IoU(pi,pj)≤α,则pi、pj来自不同的实例,同时对它们实施激励项si=si·bi,sj=sj·bj(其中
Figure FDA0003074420480000022
),并另li=li+1;
A4:经由动态标签调整和惩罚激励项:后,得到新的标签L1和新的得分矩阵
Figure FDA0003074420480000023
构建零矩阵
Figure FDA0003074420480000024
对于
Figure FDA0003074420480000025
中的每个正类c,根据L1选取得分从大到小的前l1c个候选框,将其在x1对应位置的值设为1;
A5:输入到精化第一个分支Ref1的监督信息包括:动态标签调整后的标签L1构成Ref1的图像级监督信息,惩罚激励项后的得分矩阵x1构成Ref1的实例级监督信息。
4.如权利要求3所述的基于动态标签调整的弱监督目标检测方法,其特征在于,对于Ref1而言,图像的分类得分
Figure FDA0003074420480000026
除以动态标签l1以归一化:
Figure FDA0003074420480000027
对于Ref1的实例级损失,按下式进行计算:
Figure FDA0003074420480000028
其中
Figure FDA0003074420480000029
是由Ref1的全连接层得到的得分矩阵。
5.如权利要求3所述的基于动态标签调整的弱监督目标检测方法,其特征在于:实施惩罚激励项,用于在训练过程中逐渐挖掘来自同一类的不具辨别力的对象实例,将其用于训练。
6.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于,第一个精化分支的监督信息包括:图像级监督信息和实例级监督信息。
7.如权利要求5所述的基于动态标签调整的弱监督目标检测方法,其特征在于,对于精化的其他分支,根据前一个分支的图像级监督信息和实例级监督信息,生成新的图像级监督信息和实例级监督信息,用于下一个分支的训练,迭代优化。
8.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于,精化分支的损失包括:分类损失和精化损失;分类损失是图像级的损失,精化损失是实例级的损失。
9.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于:训练期间图片对应的标签,通过前一阶段的得分矩阵和实例之间的交并比关系进行动态调整。
10.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于:训练期间图片对应的标签为自动调整,而不需人为标注。
11.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于:实施惩罚激励项中的惩罚函数选择线性惩罚因子,避免在迭代过程中误差累积。
12.如权利要求1所述的基于动态标签调整的弱监督目标检测方法,其特征在于:该弱监督目标检测方法适用于多实例学习类方法。
13.一种基于动态标签调整的弱监督目标检测的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-12任一所述方法的步骤。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-12任一所述方法的步骤。
CN202110548236.9A 2021-05-19 2021-05-19 一种基于动态标签调整的弱监督目标检测算法 Active CN113191450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110548236.9A CN113191450B (zh) 2021-05-19 2021-05-19 一种基于动态标签调整的弱监督目标检测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110548236.9A CN113191450B (zh) 2021-05-19 2021-05-19 一种基于动态标签调整的弱监督目标检测算法

Publications (2)

Publication Number Publication Date
CN113191450A true CN113191450A (zh) 2021-07-30
CN113191450B CN113191450B (zh) 2022-09-06

Family

ID=76982508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110548236.9A Active CN113191450B (zh) 2021-05-19 2021-05-19 一种基于动态标签调整的弱监督目标检测算法

Country Status (1)

Country Link
CN (1) CN113191450B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627437A (zh) * 2022-05-16 2022-06-14 科大天工智能装备技术(天津)有限公司 一种交通目标识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379371A1 (en) * 2015-06-29 2016-12-29 Beihang University Method for object segmentation in videos tagged with semantic labels
CN106682696A (zh) * 2016-12-29 2017-05-17 华中科技大学 基于在线示例分类器精化的多示例检测网络及其训练方法
US20170330059A1 (en) * 2016-05-11 2017-11-16 Xerox Corporation Joint object and object part detection using web supervision
CN111723798A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种基于关联性层级残差的多实例自然场景文本检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379371A1 (en) * 2015-06-29 2016-12-29 Beihang University Method for object segmentation in videos tagged with semantic labels
US20170330059A1 (en) * 2016-05-11 2017-11-16 Xerox Corporation Joint object and object part detection using web supervision
CN106682696A (zh) * 2016-12-29 2017-05-17 华中科技大学 基于在线示例分类器精化的多示例检测网络及其训练方法
CN111723798A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种基于关联性层级残差的多实例自然场景文本检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PENG TANG等: "Multiple Instance Detection Network with Online Instance Classifier Refinement", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
XIAOPEI WAN等: "Augmenting Proposals by the Detector Itself", 《ARXIV》 *
刘永胜: "基于深度神经网络的弱监督学习方法在图像领域的研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *
李玺等: "深度学习的目标跟踪算法综述", 《中国图象图形学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627437A (zh) * 2022-05-16 2022-06-14 科大天工智能装备技术(天津)有限公司 一种交通目标识别方法及系统

Also Published As

Publication number Publication date
CN113191450B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN112837330B (zh) 基于多尺度双注意力机制和全卷积神经网络的叶分割方法
Zhang et al. A return-cost-based binary firefly algorithm for feature selection
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN109992779B (zh) 一种基于cnn的情感分析方法、装置、设备及存储介质
Liu et al. Incdet: In defense of elastic weight consolidation for incremental object detection
CN112036447B (zh) 零样本目标检测系统及可学习语义和固定语义融合方法
CN103838836B (zh) 基于判别式多模态深度置信网多模态数据融合方法和系统
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN106951911A (zh) 一种快速的多标签图片检索系统及实现方法
JP2018513491A (ja) 2部グラフラベルの調査によるファイングレイン画像分類
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN105022754A (zh) 基于社交网络的对象分类方法及装置
CN108334805A (zh) 检测文档阅读顺序的方法和装置
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
Vallet et al. A multi-label convolutional neural network for automatic image annotation
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
Liang et al. Review–a survey of learning from noisy labels
CN114693942A (zh) 一种仪器仪表智能运维的多模态故障理解及辅助标注方法
WO2024032010A1 (zh) 一种基于迁移学习策略的少样本目标实时检测方法
Melek et al. Object detection in shelf images with YOLO
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant