CN114898145A - 一种隐式新类实例的挖掘方法、装置及电子设备 - Google Patents
一种隐式新类实例的挖掘方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114898145A CN114898145A CN202210479819.5A CN202210479819A CN114898145A CN 114898145 A CN114898145 A CN 114898145A CN 202210479819 A CN202210479819 A CN 202210479819A CN 114898145 A CN114898145 A CN 114898145A
- Authority
- CN
- China
- Prior art keywords
- new class
- instance
- class
- implicit
- potential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000005065 mining Methods 0.000 title claims abstract description 48
- 230000003044 adaptive effect Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 8
- 239000013589 supplement Substances 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 13
- 238000001514 detection method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 229910015234 MoCo Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种隐式新类实例的挖掘方法、装置及电子设备,该方法包括:初始化少样本物体检测器;利用少样本物体检测器预测基类数据集中每张图片潜在的新类实例,得到潜在新类实例;通过自监督判别模型修复潜在新类实例的分类分数,确定离线新类实例。该方案挖掘的隐式新类实例可以作为原来新类样本的补充来增强其多样性,从而大大增强模型的表征能力,及可以有效的缓解新类和背景类的混淆。
Description
技术领域
本发明属于计算机视觉技术领域,特别涉及一种隐式新类实例的挖掘方法、装置及电子设备。
背景技术
少样本物体检测主要研究训练样本不足场景下的物体检测。少样本物体检测任务中有两个数据集,一个是有充分标注的基类数据集,另一个是只有少量标注的新类数据集。少样本物体检测旨在借助大量已标注的基类数据集来提高检测器在新类上的性能。
Pretrain-Transfer(预训练-转移)是少样本物体检测的一个常用范式。其中模型会先在基类数据集上进行预训练,以获得通用的表征能力。然后再在另外一个只包含少量有标注样本的新类数据集上进行微调来转移到新类别上。TFA(two-stage fine-tuningapproach,两阶段微调方法)是Pretrain-Transfer范式的一个典型模型。TFA采用了FasterR-CNN作为基本模型。在预训练阶段,整个模型,包括特征提取器以及预测头,都会在基类数据集上进行端到端的预训练。而在转移阶段,为了防止过拟合以及保留预训练阶段学到的通用表征能力,TFA会固定住特征提取器而只放开预测头在新类数据集上进行微调,从而转移到新类别上。
而目前少样本物体检测模型的性能都不及实用水平,原因归结为两个方面:其一,少量的新类样本不足以给分类器提供足够的多样性,导致分类器容易过拟合到这些新类样本上;其二,由于基类数据集上无标注新类样本和有标注基类样本的共现普遍存在,基类数据集中存在大量隐式(无标注)的新样本,而在预训练阶段这些无标注的新类样本却被当成了背景类来学习,使得学出来的分类器很容易混淆新类别和背景类别。
发明内容
本说明书实施例的目的是提供一种隐式新类实例的挖掘方法、装置及电子设备。旨在解决Pretrain-Transfer范式下,由于新类样本稀少导致的少样本检测器容易过拟合,及基类数据集上无标注新类样本和有标注基类样本的共现导致的检测器容易混淆基类和背景类的问题。
为解决上述技术问题,本申请实施例通过以下方式实现的:
第一方面,本申请提供一种隐式新类实例的挖掘方法,该方法包括:
初始化少样本物体检测器;
利用少样本物体检测器预测基类数据集中每张图片潜在的新类实例,得到潜在新类实例;
通过自监督判别模型修复潜在新类实例的分类分数,确定离线新类实例。
在其中一个实施例中,少样本物体检测器包括RPN部分;
利用少样本物体检测器预测基类数据集中每张图片潜在的新类实例,得到潜在新类实例,包括:
RPN部分对基类数据集中每张图片预测一组提议框,一组提议框中包括若干提议框;每个提议框对应一个潜在新类实例。
在其中一个实施例中,通过自监督判别模型修复潜在新类实例的分类分数,确定离线新类实例,包括:
利用自监督判别模型提取基类数据集中有标注新类实例对应图片的特征图,得到标注特征图;
提取有标注新类实例的标注框对应区域的特征作为原型;
利用自监督判别模型提取潜在新类实例对应图片的特征图,得到潜在特征图;
提取潜在新类实例的提议框对应区域的特征,得到提议框特征;
计算原型和每个提议框特征之间的相似度系数;
根据相似度系数,修正每个提议框的分类分数,得到修正后分类分数;
根据修正后分类分数及对应类别的自适应阈值,确定离线新类实例。
在其中一个实施例中,少样本物体检测器还包括RCNN部分;采用RCNN部分的RCNN-Head对每个提议框预测分类分数,得到预测分类分数;
根据相似度系数,修正每个提议框的分类分数,得到修正后分类分数,包括:
将相似度系数与预测分类分数相乘并开方,得到修正后分类分数。
在其中一个实施例中,根据修正后分类分数及对应类别的自适应阈值,确定离线新类实例,包括:
将修正后分类分数大于或等于对应类别的自适应阈值对应的潜在新类实例,作为离线新类实例。
在其中一个实施例中,每个类别的自适应阈值根据每个类别对应的所有潜在新类实例的修正后分类分数的均值和标准差的线性加权得到。
在其中一个实施例中,方法还包括:
采用老师模型在线挖掘基类数据集中每张图片的在线新类实例;
将在线新类实例与离线新类实例自适应混合,得到混合新类实例;
去除混合新类实例中高重叠实例框,得到隐式新类实例。
在其中一个实施例中,方法还包括:
隐式新类实例作为学生模型的训练样本,训练学生模型,学生模型通过指数移动平均更新老师模型;老师模型和学生模型具有相同的网络架构。
第二方面,本申请提供一种隐式新类实例的挖掘装置,该装置包括:
初始化模块,用于初始化少样本物体检测器;
预测模块,用于利用少样本物体检测器预测基类数据集中每张图片潜在的新类实例,得到潜在新类实例;
确定模块,用于通过自监督判别模型修复潜在新类实例的分类分数,确定离线新类实例。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面的隐式新类实例的挖掘方法。
由以上本说明书实施例提供的技术方案可见,该方案:挖掘的隐式新类实例可以作为原来新类样本的补充来增强其多样性,从而大大增强模型的表征能力,及可以有效的缓解新类和背景类的混淆。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的隐式新类实例的挖掘方法的流程示意图;
图2为本申请提供的隐式新类实例的挖掘装置的结构示意图;
图3为本申请提供的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
在不背离本申请的范围或精神的情况下,可对本申请说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本申请的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
本申请中的“份”如无特别说明,均按质量份计。
相关技术中,Pretrain-Transfer范式下,由于新类样本稀少导致的少样本检测器容易过拟合,及基类数据集上无标注新类样本和有标注基类样本的共现导致的检测器容易混淆基类和背景类的问题。
基于上述缺陷,本申请提出一种隐式新类实例的挖掘方法,挖掘得到的隐式新类实例,可以作为原来新类样本的补充来增强其多样性,从而大大增强模型的表征能力;另一方面可以有效的缓解基类和背景类的混淆。
本申请提出的一种隐式新类实例的挖掘方法采用MINI(Mining Implicit NovelInstance,挖掘隐式新类实例)来自动挖掘基类数据集中存在的隐式新类实例。其中,MINI包含一个离线挖掘机制以及一个在线挖掘机制。首先用现有的少样本物体检测算法(TFA)初始化一个少样本物体检测器以离线挖掘潜在新类实例,然后离线挖掘机制通过给少样本物体检测器集成一个额外的自监督判别模型(SSL Discriminator,Semi-SupervisedLearning Discriminator)来修复少样本物体检测器挖掘得到的潜在新类实例的分类分数以更好的挖掘。离线挖掘机制挖掘得到离线新类实例被当作额外的新类实例来重新训练一个物体检测器。在训练过程中,在线挖掘机制使用了老师-学生的框架去同时更新物体检测器以及挖掘得到的新类实例。在每一个训练迭代中,对每一张训练图片,老师模型都会在线挖掘新类实例,这些实例会与离线挖掘得到的新类实例自适应的混合。混合后的新类实例会当成训练样本来训练学生模型,同时学生模型不断地通过EMA(指数移动平均)来更新老师模型。
下面结合附图和实施例对本发明进一步详细说明。
参照图1,其示出了适用于本申请实施例提供的隐式新类实例的挖掘方法的流程示意图。
如图1所示,隐式新类实例的挖掘方法,可以包括:
S110、初始化少样本物体检测器。
具体的,可以通过少样本物体检测算法初始化一个少样本物体检测器。该检测器采用Faster R-CNN(Faster Region-Convolutional Neural Network,快速区域卷积神经网络)的结构,包括RPN(Region Proposal Network,区域建议网络)部分和R-CNN部分。
S120、利用少样本物体检测器预测基类数据集中每张图片潜在的新类实例,得到潜在新类实例,可以包括:
RPN部分对基类数据集中每张图片预测一组提议框,一组提议框中包括若干提议框;每个提议框对应一个潜在新类实例。
采用RCNN部分的RCNN-Head对每个提议框预测分类分数,得到预测分类分数。
S130、通过自监督判别模型修复潜在新类实例的分类分数,确定离线新类实例,可以包括:
利用自监督判别模型(例如MoCo v2)提取基类数据集中有标注新类实例对应图片的特征图,得到标注特征图。
提取有标注新类实例的标注框对应区域的特征作为原型(PrototypesExtraction);示例性的,可以使用RoI Align提取有标注新类实例的标注框对应区域的特征。
利用自监督判别模型提取潜在新类实例对应图片的特征图,得到潜在特征图。
提取潜在新类实例的提议框对应区域的特征,得到提议框特征;示例性的,同样可以使用RoI Align提取每个提议框对应区域的特征。
计算原型和每个提议框特征之间的相似度系数;示例性的,可以计算原型和每个提议框特征之间的cosine相似度系数。
根据相似度系数,修正每个提议框的分类分数,得到修正后分类分数;具体的,相似度系数和预测分类分数相乘并开方来修正每个提议框的分类分数,即得到修正后分类分数。
根据修正后分类分数及对应类别的自适应阈值,确定离线新类实例。
其中,自适应阈值可以是固定阈值,但是,本申请预测分类分数表现出较大的方差,并且通常较低,因此,固定阈值不适合处理不同的新类别。
可以通过下述方式确定自适应阈值:每个类别的自适应阈值根据每个类别对应的所有潜在新类实例的修正后分类分数的均值和标准差的线性加权得到。即先计算每个类别对应的所有潜在新类实例的修正后分类分数的均值和标准差,然后在通过均值和标准差的线性加权得到每个类别各自的自适应阈值δ,例如:δ=μ+ασ,其中,μ为均值,σ为标准差,α为加权系数。
然后对上述得到的潜在新类实例,用自适应阈值过滤掉一些低质量的实例。具体的,将修正后分类分数大于或等于对应类别的自适应阈值对应的潜在新类实例,作为离线新类实例。即按照类别分别过滤掉所有修正后分类分数小于自适应阈值的潜在新类实例。
通过离线挖掘机制挖掘得到离线新类实例,下述采用离线新类实例重新训练一个性能更好的新检测器。采用在线挖掘机制动态更新离线新类实例,可以提高新检测器的性能。在线挖掘机制具体采用老师-学生模型(包括老师模型和学生模型)学习模式。其中,老师模型和学生模型共享相同的网络架构,老师模型的参数由学生模型的参数指数移动平均(Exponential Moving Average,EMA)更新。缓慢更新的老师模型可以被视为学生模型在不同迭代中的时间模型集合,因此,可以更准确的检测隐式的新类实例。
在线挖掘机制中将离线挖掘机制得到的离线新类实例当做额外的新类样本重新训练一个物体检测器,在重新训练过程中,在线挖掘机制使用了老师-学生模型,一边训练更新物体检测器,一边更新挖掘得到的新类实例。
在一个实施例中,隐式新类实例的挖掘方法还包括:
采用老师模型在线挖掘基类数据集中每张图片的在线新类实例;
将在线新类实例与离线新类实例自适应混合,得到混合新类实例;
去除混合新类实例中高重叠实例框,得到隐式新类实例。
隐式新类实例作为学生模型的训练样本,训练学生模型,学生模型通过指数移动平均更新老师模型;老师模型和学生模型具有相同的网络架构。
具体的,在每一个训练迭代中,对于基类数据集的每一张训练图片,先提取该张图片的离线挖掘得到的离线新类实例。
然后老师模型在线挖掘该图片的新类实例,具体的,老师模型的RPN部分会预测一组提议框,每个提议框对应一个在线新类实例,该组提议框和离线挖掘机制得到的离线新类实例级联,在通过老师模型的R-CNN对每个提议框预测分类分数。在少样本场景下分类分数无法很好的代表挖掘实例的质量,因此可以额外增加一个IoU分支来预测提议框和实际框之间的IoU分数,该IoU分数会和分类分数相乘并开方来修正每一个提议框的分类分数。最后通过NMS(Non Maximum Suppression,非极大值抑制)去除重叠较多的提议框,得到在线挖掘得到的隐式新类实例。可以理解的,NMS会按照预测分数进行排序,因此会保留更高质量的提议框。
在线挖掘机制挖掘后得到的隐式新类实例会当初额外训练样本来训练学生模型,同时学生模型不断地通过EMA(指数移动平均)来更新老师模型。
本申请提供的一种隐式新类实例的挖掘方法,可以挖掘得到更多隐式新类实例,可以作为原来新类样本的补充来增强其多样性,从而大大增强模型的表征能力,明显提高了检测性能,从而极大解决了新类样本和背景类的混淆。本申请综合考虑了少样本场景下更极端的数据场景,极大程度增强了对少样本场景的鲁棒性和适应性。
实验验证
在两个基准数据集PASCAL VOC以及MS COCO数据集上验证了其有效性,每一个测试场景下都达到了最先进的性能。特别的,PASCAL VOC基准数据集包含了3个测试场景,分别命名为Split1,2,3。在PASCAL VOC基准数据集Split1,样本数1,2,3,5,10下,本方法改进了当前最先进方法18.4,16.7,10.9,10.6,12.8个百分点。在PASCAL VOC基准数据集Split2,样本数1,2,3,5,10下,本方法改进了当前最先进方法19.3,15.5,15.3,8.8,13.5个百分点。在PASCAL VOC基准数据集Split3,样本数1,2,3,5,10下,本方法改进了当前最先进方法16.6,15.6,11.7,11.9,10.8个百分点。在MS COCO基准数据集上,样本数10和30下,本方法改进了当前最先进方法3.3和4.7个百分点。
参照图2,其示出了根据本申请一个实施例描述的隐式新类实例的挖掘装置的结构示意图。
如图2所示,隐式新类实例的挖掘装置200,可以包括:
初始化模块210,用于初始化少样本物体检测器;
预测模块220,用于利用少样本物体检测器预测基类数据集中每张图片潜在的新类实例,得到潜在新类实例;
确定模块230,用于通过自监督判别模型修复潜在新类实例的分类分数,确定离线新类实例。
可选的,少样本物体检测器包括RPN部分;预测模块220还用于:
RPN部分对基类数据集中每张图片预测一组提议框,一组提议框中包括若干提议框;每个提议框对应一个潜在新类实例。
可选的,确定模块230,还用于:
可选的,利用自监督判别模型提取基类数据集中有标注新类实例对应图片的特征图,得到标注特征图;
提取有标注新类实例的标注框对应区域的特征作为原型;
利用自监督判别模型提取潜在新类实例对应图片的特征图,得到潜在特征图;
提取潜在新类实例的提议框对应区域的特征,得到提议框特征;
计算原型和每个提议框特征之间的相似度系数;
根据相似度系数,修正每个提议框的分类分数,得到修正后分类分数;
根据修正后分类分数及对应类别的自适应阈值,确定离线新类实例。
可选的,少样本物体检测器还包括RCNN部分;采用RCNN部分的RCNN-Head对每个提议框预测分类分数,得到预测分类分数;确定模块230,还用于:
将相似度系数与预测分类分数相乘并开方,得到修正后分类分数。
可选的,确定模块230,还用于:
将修正后分类分数大于或等于对应类别的自适应阈值对应的潜在新类实例,作为离线新类实例。
可选的,每个类别的自适应阈值根据每个类别对应的所有潜在新类实例的修正后分类分数的均值和标准差的线性加权得到。
可选的,该装置还用于:
采用老师模型在线挖掘基类数据集中每张图片的在线新类实例;
将在线新类实例与离线新类实例自适应混合,得到混合新类实例;
去除混合新类实例中高重叠实例框,得到隐式新类实例。
可选的,该装置还用于:
隐式新类实例作为学生模型的训练样本,训练学生模型,学生模型通过指数移动平均更新老师模型;老师模型和学生模型具有相同的网络架构。
本实施例提供的一种隐式新类实例的挖掘装置,可以执行上述方法的实施例,其实现原理和技术效果类似,在此不再赘述。
图3为本发明实施例提供的一种电子设备的结构示意图。如图3所示,示出了适于用来实现本申请实施例的电子设备300的结构示意图。
如图3所示,电子设备300包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有设备300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本公开的实施例,上文参考图1描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行上述隐式新类实例的挖掘方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、笔记本电脑、行动电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
作为另一方面,本申请还提供了一种存储介质,该存储介质可以是上述实施例中前述装置中所包含的存储介质;也可以是单独存在,未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本申请的隐式新类实例的挖掘方法。
存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种隐式新类实例的挖掘方法,其特征在于,所述方法包括:
初始化少样本物体检测器;
利用所述少样本物体检测器预测基类数据集中每张图片潜在的新类实例,得到潜在新类实例;
通过自监督判别模型修复所述潜在新类实例的分类分数,确定离线新类实例。
2.根据权利要求1所述的方法,其特征在于,所述少样本物体检测器包括RPN部分;
所述利用所述少样本物体检测器预测基类数据集中每张图片潜在的新类实例,得到潜在新类实例,包括:
所述RPN部分对所述基类数据集中每张图片预测一组提议框,所述一组提议框中包括若干提议框;所述每个提议框对应一个所述潜在新类实例。
3.根据权利要求2所述的方法,其特征在于,所述通过自监督判别模型修复所述潜在新类实例的分类分数,确定离线新类实例,包括:
利用所述自监督判别模型提取所述基类数据集中有标注新类实例对应图片的特征图,得到标注特征图;
提取所述有标注新类实例的标注框对应区域的特征作为原型;
利用所述自监督判别模型提取潜在新类实例对应图片的特征图,得到潜在特征图;
提取所述潜在新类实例的提议框对应区域的特征,得到提议框特征;
计算所述原型和每个所述提议框特征之间的相似度系数;
根据所述相似度系数,修正每个所述提议框的分类分数,得到修正后分类分数;
根据所述修正后分类分数及对应类别的自适应阈值,确定所述离线新类实例。
4.根据权利要求3所述的方法,其特征在于,所述少样本物体检测器还包括RCNN部分;采用所述RCNN部分的RCNN-Head对每个所述提议框预测分类分数,得到预测分类分数;
所述根据所述相似度系数,修正每个所述提议框的分类分数,得到修正后分类分数,包括:
将所述相似度系数与所述预测分类分数相乘并开方,得到所述修正后分类分数。
5.根据权利要求3所述的方法,其特征在于,所述根据所述修正后分类分数及对应类别的自适应阈值,确定所述离线新类实例,包括:
将所述修正后分类分数大于或等于对应类别的所述自适应阈值对应的所述潜在新类实例,作为所述离线新类实例。
6.根据权利要求3所述的方法,其特征在于,每个类别的所述自适应阈值根据每个类别对应的所有潜在新类实例的修正后分类分数的均值和标准差的线性加权得到。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用老师模型在线挖掘所述基类数据集中每张图片的在线新类实例;
将所述在线新类实例与所述离线新类实例自适应混合,得到混合新类实例;
去除所述混合新类实例中高重叠实例框,得到隐式新类实例。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
所述隐式新类实例作为学生模型的训练样本,训练所述学生模型,所述学生模型通过指数移动平均更新所述老师模型;所述老师模型和所述学生模型具有相同的网络架构。
9.一种隐式新类实例的挖掘装置,其特征在于,所述装置包括:
初始化模块,用于初始化少样本物体检测器;
预测模块,用于利用所述少样本物体检测器预测基类数据集中每张图片潜在的新类实例,得到潜在新类实例;
确定模块,用于通过自监督判别模型修复所述潜在新类实例的分类分数,确定离线新类实例。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的隐式新类实例的挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210479819.5A CN114898145B (zh) | 2022-05-05 | 2022-05-05 | 一种隐式新类实例的挖掘方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210479819.5A CN114898145B (zh) | 2022-05-05 | 2022-05-05 | 一种隐式新类实例的挖掘方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898145A true CN114898145A (zh) | 2022-08-12 |
CN114898145B CN114898145B (zh) | 2024-06-07 |
Family
ID=82719249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210479819.5A Active CN114898145B (zh) | 2022-05-05 | 2022-05-05 | 一种隐式新类实例的挖掘方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898145B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372819A (zh) * | 2023-12-07 | 2024-01-09 | 神思电子技术股份有限公司 | 用于有限模型空间的目标检测增量学习方法、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210133518A1 (en) * | 2017-04-07 | 2021-05-06 | Intel Corporation | Joint training of neural networks using multi-scale hard example mining |
CN113392855A (zh) * | 2021-07-12 | 2021-09-14 | 昆明理工大学 | 一种基于注意力和对比学习的小样本目标检测方法 |
CN113420642A (zh) * | 2021-06-21 | 2021-09-21 | 西安电子科技大学 | 一种基于类别语义特征重加权的小样本目标检测方法及系统 |
CN114049371A (zh) * | 2021-11-10 | 2022-02-15 | 北京航空航天大学 | 一种时序物种进化的小样本目标检测装置及方法 |
CN114078197A (zh) * | 2021-11-05 | 2022-02-22 | 清华大学深圳国际研究生院 | 一种基于支撑样本特征增强的小样本目标检测方法及装置 |
-
2022
- 2022-05-05 CN CN202210479819.5A patent/CN114898145B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210133518A1 (en) * | 2017-04-07 | 2021-05-06 | Intel Corporation | Joint training of neural networks using multi-scale hard example mining |
CN113420642A (zh) * | 2021-06-21 | 2021-09-21 | 西安电子科技大学 | 一种基于类别语义特征重加权的小样本目标检测方法及系统 |
CN113392855A (zh) * | 2021-07-12 | 2021-09-14 | 昆明理工大学 | 一种基于注意力和对比学习的小样本目标检测方法 |
CN114078197A (zh) * | 2021-11-05 | 2022-02-22 | 清华大学深圳国际研究生院 | 一种基于支撑样本特征增强的小样本目标检测方法及装置 |
CN114049371A (zh) * | 2021-11-10 | 2022-02-15 | 北京航空航天大学 | 一种时序物种进化的小样本目标检测装置及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372819A (zh) * | 2023-12-07 | 2024-01-09 | 神思电子技术股份有限公司 | 用于有限模型空间的目标检测增量学习方法、设备及介质 |
CN117372819B (zh) * | 2023-12-07 | 2024-02-20 | 神思电子技术股份有限公司 | 用于有限模型空间的目标检测增量学习方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114898145B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299716B (zh) | 神经网络的训练方法、图像分割方法、装置、设备及介质 | |
US11222236B2 (en) | Image question answering method, apparatus and system, and storage medium | |
US11657274B2 (en) | Weakly-supervised semantic segmentation with self-guidance | |
CN107608964B (zh) | 基于弹幕的直播内容的筛选方法、装置、设备及存储介质 | |
CN110929839B (zh) | 训练神经网络的方法和装置、电子设备和计算机存储介质 | |
CN109697724B (zh) | 视频图像分割方法及装置、存储介质、电子设备 | |
CN109918513B (zh) | 图像处理方法、装置、服务器及存储介质 | |
US11538141B2 (en) | Method and apparatus for processing video | |
US7685077B2 (en) | Recursive feature eliminating method based on a support vector machine | |
CN114998595B (zh) | 弱监督语义分割方法、语义分割方法及可读存储介质 | |
US20230281974A1 (en) | Method and system for adaptation of a trained object detection model to account for domain shift | |
CN112966754A (zh) | 样本筛选方法、样本筛选装置及终端设备 | |
CN114330588A (zh) | 一种图片分类方法、图片分类模型训练方法及相关装置 | |
CN116982089A (zh) | 用于图像语义增强的方法和系统 | |
CN114898145B (zh) | 一种隐式新类实例的挖掘方法、装置及电子设备 | |
CN113780578A (zh) | 模型训练方法、装置、电子设备及可读存储介质 | |
CN111583321A (zh) | 图像处理装置、方法及介质 | |
CN114387642A (zh) | 图像分割方法、装置、设备和存储介质 | |
CN112183946A (zh) | 多媒体内容评估方法、装置及其训练方法 | |
CN109960745B (zh) | 视频分类处理方法及装置、存储介质和电子设备 | |
CN110728229A (zh) | 图像处理方法、装置、设备和存储介质 | |
CN116433902A (zh) | 域自适应语义分割方法、装置、电子设备和存储介质 | |
CN115205573A (zh) | 图像处理方法、装置及设备 | |
CN115700555A (zh) | 模型训练方法、预测方法、装置和电子设备 | |
CN115937617B (zh) | 一种风险识别模型训练、风险控制方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |