CN116630753A - 一种基于对比学习的多尺度小样本目标检测方法 - Google Patents
一种基于对比学习的多尺度小样本目标检测方法 Download PDFInfo
- Publication number
- CN116630753A CN116630753A CN202310924787.XA CN202310924787A CN116630753A CN 116630753 A CN116630753 A CN 116630753A CN 202310924787 A CN202310924787 A CN 202310924787A CN 116630753 A CN116630753 A CN 116630753A
- Authority
- CN
- China
- Prior art keywords
- loss function
- data set
- contrast
- basic
- detector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000002372 labelling Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 69
- 238000000034 method Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 7
- 230000008014 freezing Effects 0.000 claims description 6
- 238000007710 freezing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于对比学习的多尺度小样本目标检测方法,包括以下步骤:获取具有充足标注数据的公开数据集和极少量待检测的新类别标注数据;对标注数据进行数据预处理,构造基类数据集、新类数据集和混合数据集;构造基础检测器,采用具有级联结构的Cascade R‑CNN模型在基类数据集上进行基础训练,得到预训练模型;使用预训练模型对混合数据集中的数据进行特征提取;冻结基础检测器中的特征提取网络,在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类。本发明可以在样本数量不足的条件下,利用极少量待检测的新类别标注样本获得具有一定泛化性能的检测模型,大量节省收集样本、标注样本的时间和精力。
Description
技术领域
本发明涉及小样本目标检测技术领域,具体为一种基于对比学习的多尺度小样本目标检测方法。
背景技术
随着图像领域的应用和发展以及高性能计算设备的强力推进,以深度学习为核心的目标检测技术充分吸收了图像分类领域的研究成果,加之更加广泛的应用场景,使得目标检测技术成为计算机视觉领域新的研究热点,许多成熟的算法模型已经成功部署到实际应用场景当中。目前基于深度学习的目标检测模型仍采用常规的监督式目标检测方法,需要大量带注释的标注样本进行训练,为了获得足够的标注数据,一种常见的解决方法是从现实世界中收集大量样本,并花费大量时间进行标注以生成ground-truth标签。
然而,在现实世界的真实场景中,某些类别只有少量数据或少量标注数据,对无标签数据进行标注将会消耗大量的时间和人力。同时,目标对象存在种类数目繁多、尺寸大小不一、外观形状多样、模态差异较大的问题。例如,在实际的工业生产过程中缺陷很少发生,往往难以收集大量的缺陷样本,而且缺陷的种类多种多样,大小形态各异,在这样的不平衡小样本数据集上训练神经网络,容易造成过拟合、网络泛化性弱等问题,难以推广应用。。
发明内容
本发明的目的在于提供一种基于对比学习的多尺度小样本目标检测方法,能够通过少量的标注样本学习具有较好泛化性能的检测模型,解决了目前目标检测问题中标注样本数量稀缺、模型对大规模标签数据强烈依赖的问题,极大地提高了模型的实用价值。
为实现上述目的,本发明提供如下技术方案:一种基于对比学习的多尺度小样本目标检测方法,包括以下步骤:
获取具有充足标注数据的公开数据集和极少量待检测的新类别标注数据;
对标注数据进行数据预处理,构造基类数据集、新类数据集和混合数据集;
构造基础检测器,采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练,得到预训练模型;
使用预训练模型对混合数据集中的数据进行特征提取;
冻结基础检测器中的特征提取网络,在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类,获取特征的类别预测信息;
构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数,采用联合优化的方法在混合数据集上进行微调;
利用训练好的网络对新类数据进行目标定位和分类。
优选的,对标注数据进行数据预处理,构造基类数据集、新类数据集和混合数据集,包括:
将具有充足标注数据的公开数据集作为基类数据集;
将极少量待检测的新类别标注数据作为新类数据集;
对基类数据集进行随机抽样,抽样结果和新类数据集组成混合数据集。
优选的,构造基础检测器,采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练;
Cascade R-CNN模型由特征提取网络、特征金字塔网络和级联检测器三大部分组成,
其中,级联检测器包含三个相同的目标检测模块,每个检测模块包含感兴趣区域池化、检测器头部、分类和定位。
优选的,构造基础检测器,采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练,得到预训练模型,包括:
特征提取网络对目标图片进行特征提取;
特征金字塔将这些特征图谱进行语义信息融合,然后将这些融合过后的特征图输送到区域建议网络;
区域建议网络输出特征图的候选目标区域,将这些候选的目标区域送入级联检测器中;
级联检测器中的检测模块接收来自前一个检测模块输出的边框回归结果对当前候选目区进行重采样,多次训练得到更加准确的分类得分和边框位置,然后传入下一级IOU阈值更高的检测模块。
三个检测模块都接收来自上一级检测模块的结果作为该检测模块的输入,三个检测模块的阈值逐渐升高,最后一个检测模块的检测结果作为最终的输出结果。
优选的,冻结基础检测器中的特征提取网络,在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类,获取特征的类别预测信息,包括:
使用一层神经网络构造一个与边框回归分支和分类分支并行的对比建议编码分支,将维的ROI特征向量转化为/>维的对比特征向量/>;;
计算对比特征向量和各个类别之间的相似度分数logit;
在余弦相似投影的超空间内,使用聚类的方法让对比特征向量靠近与其相似度分数高的类别形成的簇,远离与其相似度分数低的类别形成的簇。
优选的,计算对比特征向量和各个类别之间的相似度分数logit中,相似度分数logit的计算公式为:
;
其中,是增大梯度的尺度元素,/>是第i个实例的对比特征向量,/>是第j个类别的权重。
优选的,构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数,采用联合优化的方法在混合数据集上进行微调,包括:
构造对比建议损失函数,分类损失函数/>,回归损失函数/>,区域生成网络损失函数/>;
对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数通过加权相加得到最终损失函数;
在混合数据集上使用随机梯度下降法最小化最终损失函数。
优选的,构造对比建议损失函数,分类损失函数/>,回归损失函数/>,区域生成网络损失函数/>中:
对比建议损失函数的计算公式为:
;
;
;
其中,N表示对比特征向量的数量;表示IOU阈值,取值为0.7;/>表示第i个建议框和真实框的IOU值;/>为权重分配函数,为不同的IOU赋予不同的权重;/>表示ROI head对第i个区域建议框所编码成的对比特征向量;/>表示第i个建议框对对应的真实框的标签;/>表示对特征进行归一化后的结果;/>表示在余弦相似投影的超空间内第i个和第j个建议框之间的余弦相似度;/>表示具有相同标签/>的建议框的数量;/>表示温度超参数,取值为0.2;
分类损失函数的计算公式为:
;
其中,N表示区域建议框的数量,表示第i个区域建议框的真实类别;/>表示sigmoid函数;
回归损失函数的计算公式为:
;
其中,表示预测框与真实框之间逐像素的差异;
区域生成网络损失函数的计算公式为:
;
其中,表示锚框的数量;/>表示第i个锚框是否属于前景,如果属于前景,/>则为1,否则/>为0;/>表示sigmoid函数。
优选的,对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数通过加权相加的到最终损失函数中:
最终的损失函数的计算公式为:
;
其中,适用于平衡损失规模的常数,设置为0.5。
与现有技术相比,本发明的有益效果是:
本发明可以在样本数量不足的条件下,利用极少量待检测的新类别标注样本获得具有一定泛化性能的检测模型,大量节省收集样本、标注样本的时间和精力;
本发明所提出的目标检测方法可以检测出尺寸大小不一、外观形状多样、模态差异较大的多尺度目标对象,能够适用于实际生产生活中的各种应用场景。
附图说明
图1为本发明实施例提供的基于对比学习的小样本目标检测方法的流程图;
图2为本发明实施例提供的基础检测器Cascade R-CNN模型的原理图;
图3为本发明实施例提供的对比建议编码模块的原理图;
图4为本发明实施例提供的对混合数据集的特征进行聚类的原理图;
图5为本发明实施例提供的目标检测结果的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施方式的方法的执行主体为终端,终端可以为手机、平板电脑、掌上电脑PDA、笔记本或台式机等设备,当然,还可以为其他具有相似功能的设备,本实施方式不加以限制。
请参阅图1,图1为本发明提供的一种基于对比学习的多尺度小样本目标检测方法的流程图,该方法应用于小样本目标检测,包括以下步骤:
S1、获取具有充足标注数据的公开数据集和极少量待检测的新类别标注数据;
S2、对标注数据进行数据预处理,构造基类数据集、新类数据集和混合数据集;
其中步骤S2中,对标注数据进行数据预处理,构造基类数据集、新类数据集和混合数据集,具体过程包括以下步骤:
S21、将具有充足标注数据的公开数据集作为基类数据集;
S22、将极少量待检测的新类别标注数据作为新类数据集;
S23、对基类数据集进行随机抽样,抽样结果和新类数据集组成混合数据集;
S3、构造基础检测器,采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练,得到预训练模型。
请参照图2,图2为基础检测器Cascade R-CNN模型的原理图,在步骤S3中,构造基础检测器,采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练,Cascade R-CNN模型由特征提取网络、特征金字塔网络和级联检测器三大部分组成,其中,级联检测器包含三个相同的目标检测模块,每个检测模块包含感兴趣区域池化、检测器头部、分类和定位,具体过程包括以下步骤:
S31、特征提取网络对目标图片进行特征提取;
S32、特征金字塔将这些特征图谱进行语义信息融合,然后将这些融合过后的特征图输送到区域建议网络;
S33、区域建议网络输出特征图的候选目标区域,将这些候选的目标区域送入级联检测器中;
S34、级联检测器中的检测模块接收来自前一个检测模块输出的边框回归结果对当前候选目区进行重采样,多次训练得到更加准确的分类得分和边框位置,然后传入下一级IOU阈值更高的检测模块;
其中,三个检测模块的IOU阈值分别设置为0.5,0.6,0.7;
S35、三个检测模块都接收来自上一级检测模块的结果作为该检测模块的输入,三个检测模块的阈值逐渐升高,最后一个检测模块的检测结果作为最终的输出结果;
S4、使用预训练模型对混合数据集中的数据进行特征提取;
S5、冻结基础检测器中的特征提取网络,在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类,获取特征的类别预测信息。
请参照图3和图4,图3为对比建议编码模块的原理图,图4为对混合数据集的特征进行聚类的原理图,在步骤S5中,冻结基础检测器中的特征提取网络,在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类,获取特征的类别预测信息,具体过程包括以下步骤:
S51、使用一层神经网络构造一个与边框回归分支和分类分支并行的对比建议编码分支,将维的ROI特征向量转化为/>维的对比特征向量/>;
S52、计算对比特征向量和各个类别之间的相似度分数logit,相似度分数logit的计算公式为:
;
其中,是增大梯度的尺度元素,/>是第i个实例的对比特征向量,/>是第j个类别的权重;
S53、在余弦相似投影的超空间内,使用聚类的方法让对比特征向量靠近与其相似度分数高的类别形成的簇,远离与其相似度分数低的类别形成的簇;
S6、构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数,采用联合优化的方法在混合数据集上进行微调。
在步骤S6中,构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数,采用联合优化的方法在混合数据集上进行微调,具体过程包括以下步骤:
S61、构造对比建议损失函数,分类损失函数/>,回归损失函数/>,区域生成网络损失函数/>;
对比建议损失函数的计算公式为:
;
;
;
其中,N表示对比特征向量的数量;表示IOU阈值,取值为0.7;/>表示第i个建议框和真实框的IOU值;/>为权重分配函数,为不同的IOU赋予不同的权重;/>表示ROI head对第i个区域建议框所编码成的对比特征向量;/>表示第i个建议框对对应的真实框的标签;/>表示对特征进行归一化后的结果;/>表示在余弦相似投影的超空间内第i个和第j个建议框之间的余弦相似度;/>表示具有相同标签/>的建议框的数量;/>表示温度超参数,取值为0.2;
分类损失函数的计算公式为:
;
其中,N表示区域建议框的数量,表示第i个区域建议框的真实类别;/>表示sigmoid函数;
回归损失函数的计算公式为:
;
其中,表示预测框与真实框之间逐像素的差异;
区域生成网络损失函数的计算公式为:
;
其中,表示锚框的数量;/>表示第i个锚框是否属于前景,如果属于前景,/>则为1,否则/>为0;/>表示sigmoid函数;
S62、对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数通过加权相加得到最终损失函数,计算公式为:
;
其中,适用于平衡损失规模的常数,设置为0.5;
S63、在混合数据集上使用随机梯度下降法最小化最终损失函数;
S7、利用训练好的网络对新类数据进行目标定位和分类。
上述方法可以简单有效地解决标注样本数量不足以及目标对象尺度多样的问题。
在本实施例中,本发明可以在样本数量不足的条件下,利用极少量待检测的新类别标注样本获得具有一定泛化性能的检测模型,大量节省收集样本、标注样本的时间和精力;本发明所提出的目标检测方法可以检测出尺寸大小不一、外观形状多样、模态差异较大的多尺度目标对象,能够适用于实际生产生活中的各种应用场景。
在上述实施例的基础上,本发明还提供了一种基于对比学习的多尺度小样本目标检测装置,用于支持上述实施例基于对比学习的多尺度小样本目标检测方法,所述基于对比学习的多尺度小样本目标检测装置包括:
数据获取模块,其用于获取具有充足标注数据的公开数据集和极少量待检测的新类别标注数据;
数据预处理模块,其用于对标注数据进行数据预处理,构造基类数据集、新类数据集和混合数据集;
模型建立模块,其用于构造基础检测器,采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练,得到预训练模型;
特征提取模块,其用于使用预训练模型对混合数据集中的数据进行特征提取;
预测信息获取模块,其用于冻结基础检测器中的特征提取网络,在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类,获取特征的类别预测信息;
定位分类模块,其用于构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数,采用联合优化的方法在混合数据集上进行微调。
进一步的,所述基于对比学习的多尺度小样本目标检测装置可运行上述基于对比学习的多尺度小样本目标检测方法,具体实现可参见方法实施例,在此不再赘述。
在上述实施例的基础上,本发明还提供一种电子设备,电子设备包括:
处理器、存储器,处理器与存储器进行通信连接;
在本实施例中,存储器可以按任何适当的方式实现,例如:存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等;存储器用于储存至少一个处理器执行的可执行指令;
在本实施例中,处理器可以按任何适当的方式实现,例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器的形式等等;处理器用于执行所述可执行指令以实现如上述的基于对比学习的多尺度小样本目标检测方法。
在上述实施例的基础上,本发明还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如上述的基于对比学习的多尺度小样本目标检测方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或设备的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储服务器、随机存取存储服务器、磁碟或者光盘等各种可以存储程序指令的介质。
另外,还需要说明的是,本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式,本案所记载的所有技术特征可以以任何方式进行自由组合或结合,除非相互之间产生矛盾。
需要注意的是,以上列举的仅为本发明的具体实施例,显然本发明不限于以上实施例,随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形,均应属于本发明的保护范围。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于对比学习的多尺度小样本目标检测方法,其特征在于,包括以下步骤:
获取具有充足标注数据的公开数据集和极少量待检测的新类别标注数据;
对标注数据进行数据预处理,构造基类数据集、新类数据集和混合数据集;
构造基础检测器,采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练,得到预训练模型;
使用预训练模型对混合数据集中的数据进行特征提取;
冻结基础检测器中的特征提取网络,在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类,获取特征的类别预测信息;
构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数,采用联合优化的方法在混合数据集上进行微调;
利用训练好的网络对新类数据进行目标定位和分类。
2.根据权利要求1所述的基于对比学习的多尺度小样本目标检测方法,其特征在于,所述对标注数据进行数据预处理,构造基类数据集、新类数据集和混合数据集,包括:
将具有充足标注数据的公开数据集作为基类数据集;
将极少量待检测的新类别标注数据作为新类数据集;
对基类数据集进行随机抽样,抽样结果和新类数据集组成混合数据集。
3.根据权利要求2所述的基于对比学习的多尺度小样本目标检测方法,其特征在于,所述构造基础检测器,采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练;
所述Cascade R-CNN模型由特征提取网络、特征金字塔网络和级联检测器三大部分组成,其中,所述级联检测器包含三个相同的目标检测模块,每个检测模块包含感兴趣区域池化、检测器头部、分类和定位。
4.根据权利要求3所述的基于对比学习的多尺度小样本目标检测方法,其特征在于,所述构造基础检测器,采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练,得到预训练模型,包括:
所述特征提取网络对目标图片进行特征提取;
所述特征金字塔将这些特征图谱进行语义信息融合,然后将这些融合过后的特征图输送到区域建议网络;
所述区域建议网络输出特征图的候选目标区域,将这些候选的目标区域送入级联检测器中;
所述级联检测器中的检测模块接收来自前一个检测模块输出的边框回归结果对当前候选目区进行重采样,多次训练得到更加准确的分类得分和边框位置,然后传入下一级IOU阈值更高的检测模块;
三个所述检测模块都接收来自上一级检测模块的结果作为该检测模块的输入,三个检测模块的阈值逐渐升高,最后一个检测模块的检测结果作为最终的输出结果。
5.根据权利要求1所述的基于对比学习的多尺度小样本目标检测方法,其特征在于,所述冻结基础检测器中的特征提取网络,在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类,获取特征的类别预测信息,包括:
使用一层神经网络构造一个与边框回归分支和分类分支并行的对比建议编码分支,将维的ROI特征向量转化为/>维的对比特征向量/>;
计算对比特征向量和各个类别之间的相似度分数logit;
在余弦相似投影的超空间内,使用聚类的方法让对比特征向量靠近与其相似度分数高的类别形成的簇,远离与其相似度分数低的类别形成的簇。
6.根据权利要求2所述的基于对比学习的多尺度小样本目标检测方法,其特征在于,所述计算对比特征向量和各个类别之间的相似度分数logit中,相似度分数logit的计算公式为:
;
其中,是增大梯度的尺度元素,/>是第i个实例的对比特征向量,/>是第j个类别的权重。
7.根据权利要求2所述的基于对比学习的多尺度小样本目标检测方法,其特征在于,所述构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数,采用联合优化的方法在混合数据集上进行微调,包括:
构造对比建议损失函数,分类损失函数/>,回归损失函数/>,区域生成网络损失函数/>;
所述对比建议损失函数、所述分类损失函数、所述回归损失函数和所述区域生成网络损失函数通过加权相加得到最终损失函数;
在所述混合数据集上使用随机梯度下降法最小化最终损失函数。
8.根据权利要求1所述的基于对比学习的多尺度小样本目标检测方法,其特征在于,所述构造对比建议损失函数,分类损失函数/>,回归损失函数/>,区域生成网络损失函数/>中:
所述对比建议损失函数的计算公式为:
;
;
;
其中,N表示对比特征向量的数量;表示IOU阈值,取值为0.7;/>表示第i个建议框和真实框的IOU值;/>为权重分配函数,为不同的IOU赋予不同的权重;/>表示ROI head对第i个区域建议框所编码成的对比特征向量;/>表示第i个建议框对对应的真实框的标签;表示对特征进行归一化后的结果;/>表示在余弦相似投影的超空间内第i个和第j个建议框之间的余弦相似度;/>表示具有相同标签/>的建议框的数量;/>表示温度超参数,取值为0.2;
所述分类损失函数的计算公式为:
;
其中,N表示区域建议框的数量,表示第i个区域建议框的真实类别;/>表示sigmoid函数;
所述回归损失函数的计算公式为:
;
其中,表示预测框与真实框之间逐像素的差异;
所述区域生成网络损失函数的计算公式为:
;
其中,表示锚框的数量;/>表示第i个锚框是否属于前景,如果属于前景,/>则为1,否则/>为0;/>表示sigmoid函数。
9.根据权利要求1所述的基于对比学习的多尺度小样本目标检测方法,其特征在于,所述对比建议损失函数、所述分类损失函数、所述回归损失函数和所述区域生成网络损失函数通过加权相加的到最终损失函数中:
最终的损失函数的计算公式为:
;
其中,适用于平衡损失规模的常数,设置为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310924787.XA CN116630753A (zh) | 2023-07-26 | 2023-07-26 | 一种基于对比学习的多尺度小样本目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310924787.XA CN116630753A (zh) | 2023-07-26 | 2023-07-26 | 一种基于对比学习的多尺度小样本目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630753A true CN116630753A (zh) | 2023-08-22 |
Family
ID=87597738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310924787.XA Pending CN116630753A (zh) | 2023-07-26 | 2023-07-26 | 一种基于对比学习的多尺度小样本目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630753A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117476240A (zh) * | 2023-12-28 | 2024-01-30 | 中国科学院自动化研究所 | 少样本的疾病预测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021109627A1 (zh) * | 2019-12-03 | 2021-06-10 | 歌尔股份有限公司 | 一种小样本缺陷分类方法、装置及计算设备 |
CN113642574A (zh) * | 2021-07-30 | 2021-11-12 | 中国人民解放军军事科学院国防科技创新研究院 | 基于特征加权与网络微调的小样本目标检测方法 |
CN113780272A (zh) * | 2021-07-02 | 2021-12-10 | 北京建筑大学 | Sar图像舰船检测方法、装置、电子设备及存储介质 |
CN114926622A (zh) * | 2022-04-15 | 2022-08-19 | 中南大学 | 一种少样本目标检测方法、电子设备及计算机介质 |
US20220374785A1 (en) * | 2021-05-21 | 2022-11-24 | Hitachi High-Tech Corporation | Machine Learning System |
CN116071660A (zh) * | 2023-03-10 | 2023-05-05 | 广西师范大学 | 一种基于小样本的目标检测方法 |
CN116363469A (zh) * | 2023-03-31 | 2023-06-30 | 华中科技大学 | 一种少样本红外目标检测方法、装置和系统 |
-
2023
- 2023-07-26 CN CN202310924787.XA patent/CN116630753A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021109627A1 (zh) * | 2019-12-03 | 2021-06-10 | 歌尔股份有限公司 | 一种小样本缺陷分类方法、装置及计算设备 |
US20220374785A1 (en) * | 2021-05-21 | 2022-11-24 | Hitachi High-Tech Corporation | Machine Learning System |
CN113780272A (zh) * | 2021-07-02 | 2021-12-10 | 北京建筑大学 | Sar图像舰船检测方法、装置、电子设备及存储介质 |
CN113642574A (zh) * | 2021-07-30 | 2021-11-12 | 中国人民解放军军事科学院国防科技创新研究院 | 基于特征加权与网络微调的小样本目标检测方法 |
CN114926622A (zh) * | 2022-04-15 | 2022-08-19 | 中南大学 | 一种少样本目标检测方法、电子设备及计算机介质 |
CN116071660A (zh) * | 2023-03-10 | 2023-05-05 | 广西师范大学 | 一种基于小样本的目标检测方法 |
CN116363469A (zh) * | 2023-03-31 | 2023-06-30 | 华中科技大学 | 一种少样本红外目标检测方法、装置和系统 |
Non-Patent Citations (3)
Title |
---|
BO SUN 等: "FSCE:Few-Shot Object Detection via Constrastive Proposal Encoding", 《CVF》, pages 7352 - 7362 * |
ZHAOWEI CAI 等: "Cascade R-CNN:Delving into High Quality Object Detection", 《CVF》, pages 6155 - 6162 * |
胡文瑾 等: "结合多尺度上下文信息的唐卡小样本目标检测", 《光学精密工程》, vol. 31, no. 12, pages 1859 - 1869 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117476240A (zh) * | 2023-12-28 | 2024-01-30 | 中国科学院自动化研究所 | 少样本的疾病预测方法及装置 |
CN117476240B (zh) * | 2023-12-28 | 2024-04-05 | 中国科学院自动化研究所 | 少样本的疾病预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
US11816149B2 (en) | Electronic device and control method thereof | |
CN107133569B (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN108427713A (zh) | 一种用于自制视频的视频摘要方法及系统 | |
Qin et al. | A robust framework combined saliency detection and image recognition for garbage classification | |
CN113761250A (zh) | 模型训练方法、商户分类方法及装置 | |
Li et al. | Fall detection based on fused saliency maps | |
CN116630753A (zh) | 一种基于对比学习的多尺度小样本目标检测方法 | |
CN114120074B (zh) | 基于语义增强的图像识别模型的训练方法和训练装置 | |
Shi et al. | A new multiface target detection algorithm for students in class based on bayesian optimized YOLOv3 model | |
CN113139540B (zh) | 背板检测方法及设备 | |
Zhao et al. | Hybrid generative/discriminative scene classification strategy based on latent Dirichlet allocation for high spatial resolution remote sensing imagery | |
CN114298187A (zh) | 一种融合改进注意力机制的目标检测算法 | |
CN109993188B (zh) | 数据标签识别方法、行为识别方法及装置 | |
Qian et al. | TSDet: A new method for traffic sign detection based on YOLOv5‐SwinT | |
Wang et al. | Action recognition using linear dynamic systems | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks | |
CN117496269A (zh) | 一种复合电能质量扰动识别方法 | |
Abdul-Ameer et al. | Development smart eyeglasses for visually impaired people based on you only look once | |
CN106033546A (zh) | 基于自上而下学习的行为分类方法 | |
CN112446305A (zh) | 一种基于分类权重等距分布损失模型的行人重识别方法 | |
CN115482436B (zh) | 图像筛选模型的训练方法、装置以及图像筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |