CN116310293B - 一种基于弱监督学习的生成高质量候选框目标检测方法 - Google Patents
一种基于弱监督学习的生成高质量候选框目标检测方法 Download PDFInfo
- Publication number
- CN116310293B CN116310293B CN202310104244.3A CN202310104244A CN116310293B CN 116310293 B CN116310293 B CN 116310293B CN 202310104244 A CN202310104244 A CN 202310104244A CN 116310293 B CN116310293 B CN 116310293B
- Authority
- CN
- China
- Prior art keywords
- target
- picture
- student
- candidate frame
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于弱监督学习的生成高质量候选框目标检测方法,本发明属于目标检测领域,包括:获取数据集图片,数据集图片包括:源数据集图片和目标数据集图片;构建教师模型,基于源数据集图片训练教师模型,得到训练好的教师模型;教师模型主干网络的最大池化替换成多尺度池化;构建学生模型,通过训练好的教师模型指导学生模型,得到学生特征图;获取目标数据集图片的梯度加权类激活图,将学生特征图与梯度加权类激活图进行融合,得到高质量的目标候选框图;获取待测数据集图片,将待测数据集图片输入学生模型,基于目标候选框图,得到目标位置信息和分类预测结果。本发明提高了目标检测的执行效率和准确率。
Description
技术领域
本发明属于目标检测领域,特别是涉及一种基于弱监督学习的生成高质量候选框目标检测方法。
背景技术
在计算机视觉领域中,目标检测解决的是图像中单个或多个目标定位和分类的问题,当前主流的目标检测方法主要为基于全监督的目标检测方法和基于弱监督目标检测方法。
近年来,基于弱监督学习的目标检测方法引起了学术界广泛地关注,同时也是工业界视觉检测的迫切需求。基于弱监督的目标检测方法主要分为三类:不完全监督(Incomplete supervision)、不确切监督(Inexact supervision)和不精确监督(Inaccurate supervision),其中,不确切监督(即训练数据只给出粗粒度的图像级标签)学习在目标检测领域最为常见。2016年,Hakan Bilen等人提出了WSDDN(WeaklySupervised Deep Detection Networks)模型,该模型采用了多实例学习的思想,成功的实现了基于图像级标签的目标检测,是基于弱监督学习的目标检测方法的开山之作。BoleiZhou等人将目标检测问题简化为定位问题,提出了激活图(Class Activation Maps,CAM)替代了平均池化层,每张激活图可以聚焦于特定类别的区域,通过分割特定类别的激活图实现了弱监督的目标定位。该框架是单实例检测框架,与基于多实例学习的方法有所不同,但是都面临着过分聚焦于局部,难以识别同类多实例,速度慢三大挑战。过分聚焦于局部是弱监督目标检测的一个核心问题,针对这个问题,Peng Tang等人提出了PCL(ProposalCluster Learning),将聚类与图的思想引入到多实例学习中,改善了候选框的质量,从而提高了检测的精度。多实例学习能够正确的区别当前区域是否为目标,图像分割方法可以包含整个目标实例,因此Yunhang Shen等人提出了WS-JDS(Weakly Supervised JointDetection and Segmentation),检测分支和分割分支进行协作,两者相互监督实现精准定位。目前这类基于弱监督的检测方法大多是在随机生成的候选区域上进行优化,这是导致模型的计算量巨大的本质因素。虽然基于弱监督的目标检测方法,仅需图像级标签,数据来源广且易获取,然后因其空间信息标注的缺失使得弱监督目标检测与全监督目标检测之间在检测准确度上存在很大的差距。
弱监督目标检测方法的检测器倾向于聚焦最具判别性的局部区域而非整个目标,从而严重影响目标定位的精度。因此,如何快速生成高质量的候选框,确定目标的空间位置坐标信息,进而提高检测模型的速度和准确率是弱监督目标检测方法亟待解决的问题。
发明内容
本发明的目的是提供一种基于弱监督学习的生成高质量候选框目标检测方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于弱监督学习的生成高质量候选框目标检测方法,包括:
获取数据集图片,所述数据集图片包括:源数据集图片和目标数据集图片;
构建教师模型,基于所述源数据集图片训练所述教师模型,得到训练好的教师模型;其中所述教师模型为改进的FasterRCNN,所述教师模型的改进点在于最大池化操作转换成多尺度池化操作;
构建学生模型,通过训练好的教师模型指导所述学生模型,得到学生特征图;其中所述学生模型为改进的FPN;
获取所述目标数据集图片的梯度加权类激活图,将所述学生特征图与所述梯度加权类激活图进行融合,得到高质量的目标候选框图;
获取待测数据集图片,将所述待测数据集图片输入所述学生模型,基于所述目标候选框图,得到目标位置信息和分类预测结果。
优选地,多尺度池化操作的过程包括:
基于所述教师模型,得到输入特征图,将所述输入特征图根据通道大小分成若干个组;
对所述若干个组分别进行多尺度池化操作,根据通道选择对应的池化核,基于所述池化核进行最大池化操作,得到输出特征图;
对所述输出特征图进行局部增强,将大于平均池化值的元素替换为最大池化值,其他元素保持不变;
将局部增强后的输出特征图进行串联,得到多尺度池化后输出的最终特征图。
优选地,教师模型的损失函数包括:分类损失和基于smoothL1函数的回归损失。
优选地,所述学生模型包括:候选框生成模块和多实例目标检测模块;其中所述多实例目标检测模块包括:基础多实例检测模块、多实例分类细化模块和边框回归模块。
优选地,得到学生特征图的过程包括:
基于所述候选区域生成模块,得到候选框,对所述候选框进行ROIAlign操作,得到候选框特征图,再经过学生模型中全连接层操作,得到候选框特征向量,将所述候选框特征向量输入至所述多实例目标检测模块中,得到学生特征图。
优选地,构建学生模型之后还包括:
基于所述目标数据集图片训练所述学生模型,得到训练好的学生模型;其中所述目标数据集图片包含图像级标签。
优选地,获取所述目标数据集图片的梯度加权类激活图的过程包括:
其中,Ak为第k个通道卷积层输出的特征图,k是通道数,权重表示Ak对于目标类别c的“重要程度”,通过全局平均池化相对于Ak求特定偏导可得/>
其中,Z是特征图中像素的总数(如特征图大小为m×n,则Z=m×n),i和j表示像素数,fc表示第c类的得分输出,表示对第c类特征图的梯度。
优选地,得到高质量的目标候选框图的过程包括:
将所述梯度加权类激活图进行归一化处理,得到归一化激活图,将所述归一化激活图与所述学生特征图通过数量积点乘操作方式进行融合,通过区域提取网络得到高质量的目标候选框图。
本发明的技术效果为:
本发明提供了一种基于弱监督学习的生成高质量候选框目标检测方法。该方法的结构为教师-学生结构,教师模型有效的指导了学生模型对目标候选框的选择,在提高目标识别准确率的同时大幅度的减少了目标候选框的数量,降低了模型的计算量;该方法还引入了梯度加权类激活图,提高的模型的目标定位能力,本发明有助于缓解弱监督目标检测准确率低和速度慢的问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的方法流程图;
图2为本发明实施例中的网络结构图;
图3为本发明实施例中的主干网络的改进结构示意图;
图4为本发明实施例中的多尺度池化Multi-pool的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1-2所示,本实施例中提供一种基于弱监督学习的生成高质量候选框目标检测方法,包括:
S1构建教师模型,改进的FasterRCNN,使用具有强监督信息的源数据集图片,训练教师模型。
S1.1划分数据集,将MS-COCO作为源数据集,共163957张图片,其中训练数据集118287张图片,验证集5000张图片,测试集406705张图片。
S1.2构建教师模型,教师模型为改进的FasterRCNN,其中主干网络的最大池化替换成多尺度池化,如图3所示,丰富模型的多尺度特征。多尺度池化的实现过程,如图4所示:
(1)将输入的特征图X(w,h,c)根据通道大小分成多个组(c1,c2,...cm),其中w表示特征图的宽,h表示特征图的高,通道总数c,c1+c2,...+cm=c;
(2)分组后的Xi(w,h,ci),i∈[1,m]分别进行多尺度池化操作,根据通道ci选择对应的池化核(ki,ki),步幅为(2,2),填充为进行最大池化操作,每组池化后的输出特征图为/>
对上一步的结果进行局部增强,将大于平均池化值的元素替换为最大池化值,其他保持:
其中,Ymax(w,h,c)和Ymean(w,h,c)分别为X(w,h,c)的最大池化和平均池化。
将所有分组的池化输出局部增强后,进行串联(concatenation)得到最终的输出
S1.3使用S1.1处理过的数据集训练改进的教师模型,得到具有生成候选框能力的教师模型。教师模型的损失函数L({pi},{ti})由分类损失Lcls(pi,pi *)和基于smooth L1函数的回归损失Lreg(ti,ti *)共同构成:
Lcld(pi,pi *)=-log[pi *pi+(1-pi)(1-pi *)]
其中,pi表示第i个锚框中预测为目标的概率,pi *为预测的标签:属于正样本时,pi *为1,属于负样本时,pi *为0;ti表示预测第i个锚框偏移量,ti *表示相对实例标签真值(ground truth)的实际偏移量,Nreg和Ncls是归一化因子,λ1是平衡分类损失和回归损失的权重参数。
S2构建学生模型,由候选框生成模块与多实例目标检测模块两部分组成。使用仅有图像级标签的目标数据集图片,训练学生模型。
S2.1划分数据集,将PASCALVOC作为目标数据集,共14915张图片,其中训练数据集5011张图片,验证集4952张图片,测试集4952张图片。
S2.2构建学生模型中的候选框生成模块,该部分为改进的FPN,引入多尺度池化,并将FPN生成的特征图与输入图片的梯度加权类激活图(Grad-CAM)进行融合,提高模型的定位能力,生成具有高质量的区域候选框。其中Grad-CAM对于每个包含类别c的特征图,可以通过如下方式获得该类别明确的激活图Fc:
其中,Ak为第k个通道卷积层输出的特征图,k是通道数,权重表示Ak对于目标类别c的“重要程度”,通过全局平均池化相对于Ak求特定偏导可得/>
其中,Z是特征图中像素的总数(如特征图大小为m×n,则Z=m×n),i和j表示像素数,fc表示第c类的得分输出,表示对第c类特征图的梯度。
将目标激活图Fc进行归一化处理得到F′c,与改进的FPN生成的目标特征图Fm进行数量积点乘操作实现融合,获得目标实例更加显著且区域最大的类激活特征图:
FGM=Fm×Fc
S2.3构建学生模块的多实例目标检测模块,该模块由基础多实例检测模块,多实例分类细化模块以及边框回归模块三部分组成。
基础多实例检测模块分为分类支路和检测支路,分类支路和检测支路分别由1个全连接层和Softmax函数组成。基础多实例检测模块的损失函数Lmil,采用交叉损失作为损失函数:
其中,C是类别总数,yc表示第c类候选框的图像级标签,图片中有类别c则yc=1,图片中没有类别c则yc=0;φc表示预测图片为类别c的得分。
多实例分类细化模块,优选第一个模块的目标候选框,称之为伪真值(pseudoground truth),作为具有“强监督信息”的伪实例标签(Instance pseudo-label)指导多实例分类细化模块;该细化模块具有K个支路,每个支路由1个全连接层和Softmax函数组成,基于第K-1支路获得的权重和候选框的类别信息与置信度信息作为监督信息传递给第K个支路。第K个支路的损失函数为多实例分类细化模块的损失函数为LMIL-refine:
其中,k表示K次细化分类模块的第k次细化,F表示输入细化分类模块的候选框特征向量,Wk表示第k次细化的权重参数,表示第k次细化分类的监督信息,/>是候选框的总数,Nk表示第k次细化中聚类中心的数量,/>和/>分别表示第k次细化中第n个聚类簇的候选框置信分数和候选框数量,/>表示第r个候选框归属第n个聚类簇,c是图片总类别C中的第c类,C+1表示包含背景的类别总数,/>表示k次细化中第n个聚类簇目标实例的标签,/>表示第k次细化中属于第c类的第r个候选框的预测分数,/>表示损失权重(与聚类置信分数类似,在训练初期会较低,后期会变高),/>表示第r个候选框归属负样本聚类簇。
边框回归模块由一个全连接层和Softmax函数组成,基于多实例分类细化模块优选出的pseudo ground truth,作为监督信息完成边框回归操作,其中边框回归的损失函数LMIL-reg选择smooth L1函数;
其中,tr表示第r个预测边界框,tr *表示具有伪实例标签pseudo ground truth的第r个边界框。
S2.4将S2.2生成的候选框经过ROI Align、ROI Pooling和两个全连接层提取候选框特征,输入多实例目标检测模块,实现基于弱监督的目标检测。多实例目标检测模块的损失函数LMIL为:
LMIL=Lmil+λMIL-refLMIL-refine+λMIL-regLMIL-reg
其中,λMIL-ref和λMIL-reg是平衡几个损失函数的权重参数。
S2.5将S1训练的教师模型的能力迁移到学生模型上,以教师模型学习到的知识指导学生模型,采用S2.1处理过的数据训练学生模型,实现基于弱监督的目标检测。
S3输入待测数据集图片,载入学生模型,获得待测数据集图片中实例的位置和分类预测结果,完成基于弱监督的目标检测。
本发明设计的目标检测模型采用目标检测平均正确率(mean AveragePrecision,mAP)和目标定位正确率(Correct Localization,CorLoc)两个重要的指标作为评判该弱监督目标检测模型的性能。
多实例目标检测模块训练过程中NMS的阈值设置为0.7,IOU的阈值设置为0.5,多实例细化模块训练后的K值设置为3,学习速率初始设置为0.001,权重衰减设置为0.0005,预设定的迭代次数设置为2000。
本实施例有益效果:
本实施例提出了一种基于弱监督学习的生成高质量候选框目标检测方法。该方法以公开数据集MS-COCO作为源数据集,PASCAL VOC为目标数据集,借鉴迁移学习的思想,将在源数据集上训练的教师模型的能力迁移至学生模型,有效地指导了学生模型生成的候选框质量,大幅度的降低了生成的候选框的数量,提高了模型的检测效率。同时,引入了梯度加权类激活图,提高了模型的定位能力,从而提高了模型的准确率。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种基于弱监督学习的生成高质量候选框目标检测方法,其特征在于,包括以下步骤:
获取数据集图片,所述数据集图片包括:源数据集图片和目标数据集图片;
构建教师模型,基于所述源数据集图片训练所述教师模型,得到训练好的教师模型;其中所述教师模型为改进的Faster RCNN,所述教师模型的改进点在于最大池化操作转换成多尺度池化操作;
多尺度池化操作的过程包括:
基于所述教师模型,得到输入特征图,将所述输入特征图根据通道大小分成若干个组;
对所述若干个组分别进行多尺度池化操作,根据通道选择对应的池化核,基于所述池化核进行最大池化操作,得到输出特征图;
对所述输出特征图进行局部增强,将大于平均池化值的元素替换为最大池化值,其他元素保持不变;
将局部增强后的输出特征图进行串联,得到多尺度池化后输出的最终特征图;构建学生模型,通过训练好的教师模型指导所述学生模型,得到学生特征图;其中所述学生模型为改进的FPN;获取所述目标数据集图片的梯度加权类激活图,将所述学生特征图与所述梯度加权类激活图进行融合,得到高质量的目标候选框图;
获取所述目标数据集图片的梯度加权类激活图的过程包括:
其中,Ak为第k个通道卷积层输出的特征图,k是通道数,权重表示Ak对于目标类别c的“重要程度”,通过全局平均池化相对于Ak求特定偏导可得/>
其中,Z是特征图中像素的总数(如特征图大小为m×n,则Z=m×n),i和j表示像素数,fc表示第c类的得分输出,表示对第c类特征图的梯度;获取待测数据集图片,将所述待测数据集图片输入所述学生模型,基于所述目标候选框图,得到目标位置信息和分类预测结果。
2.根据权利要求1所述的基于弱监督学习的生成高质量候选框目标检测方法,其特征在于,教师模型的损失函数包括:分类损失和基于smooth L1函数的回归损失。
3.根据权利要求1所述的基于弱监督学习的生成高质量候选框目标检测方法,其特征在于,所述学生模型包括:候选框生成模块和多实例目标检测模块;其中所述多实例目标检测模块包括:基础多实例检测模块、多实例分类细化模块和边框回归模块。
4.根据权利要求3所述的基于弱监督学习的生成高质量候选框目标检测方法,其特征在于,得到学生特征图的过程包括:
基于所述候选框生成模块,得到候选框,对所述候选框进行ROI Align操作,得到候选框特征图,再经过学生模型中全连接层操作,得到候选框特征向量,将所述候选框特征向量输入至所述多实例目标检测模块中,得到待测数据集图片中实例的位置和分类预测结果。
5.根据权利要求1所述的基于弱监督学习的生成高质量候选框目标检测方法,其特征在于,构建学生模型之后还包括:
基于所述目标数据集图片训练所述学生模型,得到训练好的学生模型;其中所述目标数据集图片包含图像级标签。
6.根据权利要求1所述的基于弱监督学习的生成高质量候选框目标检测方法,其特征在于,得到高质量的目标候选框图的过程包括:
将所述梯度加权类激活图进行归一化处理,得到归一化激活图,将所述归一化激活图与所述学生特征图通过数量积点乘操作方式进行融合,通过区域提取网络得到高质量的目标候选框图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310104244.3A CN116310293B (zh) | 2023-02-13 | 2023-02-13 | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310104244.3A CN116310293B (zh) | 2023-02-13 | 2023-02-13 | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116310293A CN116310293A (zh) | 2023-06-23 |
CN116310293B true CN116310293B (zh) | 2023-09-12 |
Family
ID=86778892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310104244.3A Active CN116310293B (zh) | 2023-02-13 | 2023-02-13 | 一种基于弱监督学习的生成高质量候选框目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310293B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117593648B (zh) * | 2024-01-17 | 2024-04-05 | 中国人民解放军海军航空大学 | 基于弱监督学习的遥感目标建筑物提取方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3399465A1 (en) * | 2017-05-05 | 2018-11-07 | Dassault Systèmes | Forming a dataset for fully-supervised learning |
CN108921218A (zh) * | 2018-06-29 | 2018-11-30 | 炬大科技有限公司 | 一种目标物体检测方法及装置 |
CN110349148A (zh) * | 2019-07-11 | 2019-10-18 | 电子科技大学 | 一种基于弱监督学习的图像目标检测方法 |
CN111292349A (zh) * | 2020-01-17 | 2020-06-16 | 北京大学深圳研究生院 | 一种基于推荐候选框融合的用于目标检测的数据增强方法 |
CN111539469A (zh) * | 2020-04-20 | 2020-08-14 | 东南大学 | 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 |
CN112101083A (zh) * | 2019-06-17 | 2020-12-18 | 辉达公司 | 使用一个或更多个神经网络进行弱监督的对象检测 |
CN112288026A (zh) * | 2020-11-04 | 2021-01-29 | 南京理工大学 | 一种基于类激活图的红外弱小目标检测方法 |
CN113239924A (zh) * | 2021-05-21 | 2021-08-10 | 上海交通大学 | 一种基于迁移学习的弱监督目标检测方法及系统 |
CN113449680A (zh) * | 2021-07-15 | 2021-09-28 | 北京理工大学 | 一种基于知识蒸馏的多模小目标检测方法 |
CN114187308A (zh) * | 2021-12-16 | 2022-03-15 | 中国人民解放军陆军工程大学 | 基于多尺度池化金字塔的HRNet自蒸馏目标分割方法 |
CN114419667A (zh) * | 2021-09-18 | 2022-04-29 | 中国科学院计算技术研究所 | 基于迁移学习的人物检测方法和系统 |
CN114648665A (zh) * | 2022-03-25 | 2022-06-21 | 西安电子科技大学 | 一种弱监督目标检测方法及系统 |
CN115565005A (zh) * | 2022-10-10 | 2023-01-03 | 哈尔滨理工大学 | 一种基于渐进式多元化域迁移的弱监督实时目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220261593A1 (en) * | 2021-02-16 | 2022-08-18 | Nvidia Corporation | Using neural networks to perform object detection, instance segmentation, and semantic correspondence from bounding box supervision |
-
2023
- 2023-02-13 CN CN202310104244.3A patent/CN116310293B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3399465A1 (en) * | 2017-05-05 | 2018-11-07 | Dassault Systèmes | Forming a dataset for fully-supervised learning |
CN108921218A (zh) * | 2018-06-29 | 2018-11-30 | 炬大科技有限公司 | 一种目标物体检测方法及装置 |
CN112101083A (zh) * | 2019-06-17 | 2020-12-18 | 辉达公司 | 使用一个或更多个神经网络进行弱监督的对象检测 |
CN110349148A (zh) * | 2019-07-11 | 2019-10-18 | 电子科技大学 | 一种基于弱监督学习的图像目标检测方法 |
CN111292349A (zh) * | 2020-01-17 | 2020-06-16 | 北京大学深圳研究生院 | 一种基于推荐候选框融合的用于目标检测的数据增强方法 |
CN111539469A (zh) * | 2020-04-20 | 2020-08-14 | 东南大学 | 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 |
CN112288026A (zh) * | 2020-11-04 | 2021-01-29 | 南京理工大学 | 一种基于类激活图的红外弱小目标检测方法 |
CN113239924A (zh) * | 2021-05-21 | 2021-08-10 | 上海交通大学 | 一种基于迁移学习的弱监督目标检测方法及系统 |
CN113449680A (zh) * | 2021-07-15 | 2021-09-28 | 北京理工大学 | 一种基于知识蒸馏的多模小目标检测方法 |
CN114419667A (zh) * | 2021-09-18 | 2022-04-29 | 中国科学院计算技术研究所 | 基于迁移学习的人物检测方法和系统 |
CN114187308A (zh) * | 2021-12-16 | 2022-03-15 | 中国人民解放军陆军工程大学 | 基于多尺度池化金字塔的HRNet自蒸馏目标分割方法 |
CN114648665A (zh) * | 2022-03-25 | 2022-06-21 | 西安电子科技大学 | 一种弱监督目标检测方法及系统 |
CN115565005A (zh) * | 2022-10-10 | 2023-01-03 | 哈尔滨理工大学 | 一种基于渐进式多元化域迁移的弱监督实时目标检测方法 |
Non-Patent Citations (1)
Title |
---|
基于 Grad-CAM 与 KL 损失的 SSD 目标检测算法;侯庆山 等;《电子学报》;第48卷(第12期);2409-2416 * |
Also Published As
Publication number | Publication date |
---|---|
CN116310293A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985334B (zh) | 基于自监督过程改进主动学习的通用物体检测系统及方法 | |
CN109740676B (zh) | 基于相似目标的物体检测迁移方法 | |
CN110781262B (zh) | 基于视觉slam的语义地图的构建方法 | |
WO2022007193A1 (zh) | 一种基于迭代学习的弱监督视频行为检测方法及系统 | |
CN111915746B (zh) | 一种基于弱标注的三维点云目标检测方法及标注工具 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN107247952B (zh) | 基于深层监督的循环卷积神经网络的视觉显著性检测方法 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN111612051A (zh) | 一种基于图卷积神经网络的弱监督目标检测方法 | |
CN116310293B (zh) | 一种基于弱监督学习的生成高质量候选框目标检测方法 | |
CN112613428B (zh) | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 | |
CN112712052A (zh) | 一种机场全景视频中微弱目标的检测识别方法 | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN117152484B (zh) | 基于改进的YOLOv5s的小目标布匹瑕疵检测方法 | |
CN115359264A (zh) | 一种密集型分布的粘连细胞深度学习识别方法 | |
CN116805360B (zh) | 一种基于双流门控渐进优化网络的显著目标检测方法 | |
CN116824333A (zh) | 一种基于深度学习模型的鼻咽癌检测系统 | |
CN111612803A (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN116665036A (zh) | 一种基于单模态辅助监督和YOLOv5的RGB-红外多源图像目标检测方法 | |
CN112069997B (zh) | 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置 | |
CN113673534A (zh) | 一种基于Faster RCNN的RGB-D图像果实检测方法 | |
CN117079103B (zh) | 一种用于神经网络训练的伪标签生成方法及系统 | |
CN112614142B (zh) | 一种基于多通道图像融合的细胞弱标签制作方法及系统 | |
CN117576098B (zh) | 基于分割的细胞分裂均衡度评估方法及设备 | |
Orti et al. | Guided-Crop Image Augmentation for Small Defect Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |