CN118552718A - 一种基于特征分布矫正的少样本目标检测方法 - Google Patents
一种基于特征分布矫正的少样本目标检测方法 Download PDFInfo
- Publication number
- CN118552718A CN118552718A CN202410686657.1A CN202410686657A CN118552718A CN 118552718 A CN118552718 A CN 118552718A CN 202410686657 A CN202410686657 A CN 202410686657A CN 118552718 A CN118552718 A CN 118552718A
- Authority
- CN
- China
- Prior art keywords
- distribution
- correction
- class
- feature
- new class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 77
- 238000012937 correction Methods 0.000 title claims abstract description 50
- 238000001514 detection method Methods 0.000 title abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000012952 Resampling Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 44
- 238000005070 sampling Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000013508 migration Methods 0.000 claims description 10
- 230000005012 migration Effects 0.000 claims description 10
- 238000013459 approach Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 abstract description 9
- 238000012546 transfer Methods 0.000 abstract description 5
- 230000007246 mechanism Effects 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 20
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 208000035977 Rare disease Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- QYCUDRKEQFHGDK-UHFFFAOYSA-N spiro[1,3-oxazolidine-5,9'-fluorene]-2,4-dione Chemical compound O1C(=O)NC(=O)C21C1=CC=CC=C1C1=CC=CC=C12 QYCUDRKEQFHGDK-UHFFFAOYSA-N 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征分布矫正的少样本目标检测方法,首先通过深入分析类别的相似程度,对新类分布的方差进行精细化的矫正,而保持均值不变,得到矫正分布之后,从中进行特征重采样。为了进一步增强特征的表示能力,最后设计了类内特征矫正模型,在采样特征和原始特征之间建立有效的信息传递机制,从而实现对原始特征的矫正与增强。通过实验与现有方法对比,发现特征分布矫正方法能有效提升现有方法在少样本场景下的检测性能。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于特征分布矫正的少样本目标检测方法。
背景技术
作为计算机视觉领域的一项核心任务,目标检测旨在从图像或视频中准确识别并定位出目标的类别与位置信息。经过深度学习技术的多年深耕与发展,基于大量标记数据的通用目标检测已经取得了令人瞩目的成就,广泛应用于工业质检、卫星图像解析以及自动驾驶等诸多领域。
然而,从数据获取、研究方法和应用前景的角度深入剖析,通用目标检测方法在实际应用中仍存在诸多弊端,这些问题主要体现在以下几个个方面。
1.标注数据成本昂贵:这主要源于标注工作本身的复杂性和耗时性。每个实例的标注都需要投入大量的人力和时间,据统计,标记一个实例往往需要5至10秒的时间。以此推算,1万个实例的标注工作至少需要约13.9个小时才能完成。而像PASCAL VOC这样常用的数据集,其训练集就包含了1.3万个实例,标注工作之繁重可见一斑。此外,标注数据的质量也至关重要,它要求标注者具备丰富的专业知识,并经过长时间的培训和实践才能胜任。
2.特定数据稀少:在罕见疾病和稀有动物检测等应用中,由于目标本身的稀有性,获取大量相关图像数据变得尤为困难。例如,在工业缺陷质检领域,即使是一条成熟的生产流水线,制造出成千上万件产品,也偶尔只有零星的一两件缺陷样本出现。这种数据的稀缺性使得缺陷样本的获取变得异常艰难。
3.无法直接迁移传统方法:直接使用传统目标检测方法在有限的数据上进行学习,无法解决严重的过拟合问题。这意味着训练出来的模型可能无法有效地泛化到各种形态的目标上,从而导致检测效果大打折扣。
鉴于上述及其他未提及的问题,少样本目标检测算法可以有效地进行解决,展现了重大的研究意义。通用目标检测方法在检测现实世界中未在公共检测数据集中出现的目标时,遭遇了不小的挑战。因此,目标检测领域的研究者们开始将目光投向一种新型方法——少样本目标检测算法。这种算法巧妙地结合了少量目标类别数据(新类)与大量额外类别数据(基类),吸引了越来越多学者和研究员的瞩目。少样本检测算法的核心思想在于,首先利用大量非目标类别的数据学习通用知识,使模型具备初步的学习能力。随后,再在少量的目标类别数据上进行精细化的学习,以掌握特定类别的知识。这种策略不仅有助于模型在资源有限的情况下进行高效学习,还能使其快速适应新环境,实现知识的有效迁移。该算法的应用具有显著优势,如资源节约、快速适应以及知识迁移等。目前,它已经开始在多个领域展现其应用价值,包括工业缺陷检测、濒危动物保护、罕见病症检测以及农业病害防护等。随着技术的不断进步和完善,少样本目标检测算法有望在更多领域发挥重要作用,为解决现实世界的复杂问题提供有力支持。
少样本目标检测算法面临的一个核心挑战在于其可利用的目标类别先验信息极为有限,这使得这些稀缺的信息显得尤为珍贵。由于样本数量有限,所描述的类别分布往往存在偏差,导致模型在学习时容易偏向于已提供的信息片段。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:少样本场景中现有方法对训练样本图像质量过度敏感的问题。
为解决上述问题,本发明采用如下技术方案:一种基于特征分布矫正的少样本目标检测方法,包括如下步骤:
构建分类模型FDC-Net,所述FDC-Net以DeFRCN基础,在backbone和RPN之间、backbone和RCNN之间分别加入梯度解耦层GDL来解耦RPN网络和RCNN结构;DeFRCN在推理阶段在分类头上加入原型校准块PCB。
S1:获取现有若干标注的图像作为训练集,使用训练集中的训练样本对FDC-Net进行基类训练,训练结束得到预训练后的FDC-Net。
S2:获取有若干标注的新类图像作为微调训练集,将若干标注的新类图像输入预训练后的FDC-Net得到原始特征集然后按类别计算这些特征图的均值和方差【均值和方差采用现有方法计算】,得到每个新类类别对应的新类分布均值μn和方差σn。
从训练集中,针对每个类别各随机抽取N张图像来描述各个基类类别的特征分布,将N张图像输入预训练后的FDC-Net得到对应的特征图,然后按类别计算这些特征图的均值μ和方差σ【均值μ和方差σ采用现有方法计算】,得到每个基类类别对应的基类分布均值μb和方差σb,度量每个新类分布和所有基类分布的距离,并根据距离为各个不同的基类分配不同的迁移权重然后对均值和方差进行矫正,利用矫正之后的均值和方差得到矫正分布并重新采样新的新类特征sm,对所有新类重新采用得到的所有sm构成采样特征集
S3:在类内特征矫正模块中,通过与计算余弦相似矩阵并得到整体矫正的特征集然后选择中矫正后的原始特征集作为最终分类器的输入对预训练后的FDC-Net进行新类微调,最后得到训练好的FDC-Net。
S4:对于未标注图像输入训练好的FDC-Net,训练好的FDC-Net输出预测的所属类别。
进一步地,所述S2中得到和sm的步骤为:
使用欧式距离度量每个新类分布和所有基类分布的距离:
其中表示第k个新类的分布均值,表示第i个基类的分布均值。
距离越近的基类与新类,它们之间越相似,因此对应分配更大的趋近于1的迁移权重,反之分配趋于0的迁移权重:
方差矫正使用简单的加权求和的方式:
其中,表示第k个新类的矫正方差;第k个新类的矫正均值继续使用第k个新类的原新类分布均值
利用矫正之后的矫正方差和矫正方差得到矫正分布并从中采样新的新类特征sm:
其中,M表示采样的数量,采用随机采样的方式进行采样得到sm。
进一步地,所述S3中得到整体矫正的特征集的步骤为:
邻接矩阵由采样特征集合和原始特征集合计算得到的余弦相似矩阵 构成;
其中,eij表示第i行第j列的元素,fi和fj分别表示中的特征和中的特征;
其中,表示通过拼接的方式合并和
进一步地,所述S3中,新类微调阶段中的总体损失函数为:
其中,表示采样损失,表示交叉熵损失,c表示为采样特征分配对应的标签,表示最终的分类器;
新类微调阶段的总体损失函数由标准Faster R-CNN损失和采样损失构成:
其中,λ是用来平衡两个损失的超参数。
与现有技术相比,本发明至少具有如下有益效果:
1.本发明针对性现有小样本模型在学习时容易偏向于已提供的信息片段的问题,提出了通过矫正特征分布和分布重采样来扩展类内多样性的方法。这一创新策略旨在使有限的样本能够更准确地反映类别分布,进而提升模型的泛化能力。在此基础上,本发明进一步设计了一个类内特征矫正模块。该模块充分考虑了类内多样性,利用相似性来传递丰富的类内特征表示,从而增强了模型对少样本类别的识别能力。
2.该发明方法减少了对大量标注数据的依赖,降低了数据标注的成本和时间,使少样本目标检测在实际应用中更加经济高效。并且在实际场景中应用广泛,例如在医学影像中,获取和标注大量数据非常困难,通过少样本目标检测,可以在有限的标注数据下实现高精度的病灶检测和分类、在监控视频中,对于一些稀有事件(如异常行为、特定人物识别)的处理、在工业检测中,对于新生产线上的缺陷检测,少样本目标检测可以快速部署并检测新缺陷,提升生产效率和产品质量。
附图说明
图1为本发明方法的流程简图。
图2为设置不同采样数量对模型性能的影响。
图3为基于微调的少样本目标检测,其中(a)为基类训练阶段,(b)为小样本微调阶段。
具体实施方式
绝大多数基于微调的少样本目标检测方法都是采用的Faster R-CNN结构,如图3所示。先通过大量的、并且带有丰富注释的基类图像进行基类训练,如图3(a)输入图像经过主干网络、再经过RPN得到提案对象,然后经过ROI池化得到ROI特征图,最后将特征图送入检测头进行边界框分类和回归。整个训练过程中会不断的去更新主干网络、RPN、检测头的参数。基类训练完成以后,进行少样本微调,该阶段仅会给出少量的新类图像以及极少的标注信息,然后加上少量的基类图像一起对网络进行微调。在微调过程中,会冻结主干网络以及RPN的参数,只对检测头部分的参数进行微调,如图3(b)所示。
本发明所提出的方法以卓越的DeFRCN作为基线方法,并保留了其中的核心结构,并针对FSOD任务进了深入优化。DeFRCN也是采用的Faster R-CNN结构,并在此基础上进行相应改进。具体来说DeFRCN以Faster R-CNN作为主检测器,在backbone和RPN、RCNN之间分别加入梯度解耦层(GDL)来解耦RPN网络和RCNN结构;为解耦分类和定位任务,DeFRCN在推理阶段在分类头上加入原型校准块(PCB)。
在以上结构的基础上,本发明提出了基于类内多样性的特征分布矫正方法,如图1所示。在利用RoI Align得到感兴趣区域(Region of Interest)之后,通过迁移基类中的特征分布知识来重构各个新类的特征分布。从重构的分布中重采样一些新的新类样本特征以此来提升类内多样性,最后利用余弦相似性将新的样本特征与原始新类特征融合,从而增强模型的鲁棒性。值得注意的是,这个过程仅使用于训练阶段。回归头关注目标的空间信息,分类头关注目标的特征信息,由于方法是从类别关系建模的角度来考虑目标的特征信息,因此整体改进仅作用于分类头前。
一、特征分布矫正和特征重采样具体如下:
在基类预训练得到的预训练后的FDC-Net上,针对每个类别各随机抽取1500张图像来描述各个基类类别的特征分布。这些图像经过模型得到对应的特征图,然后按类别计算这些特征图的均值μ和方差σ,因此可以很容易得到每个基类类别对应的基类分布均值μb和方差σb。新类类别对应的新类分布均值μn和方差σn是在新类微调阶段根据RoI获得的,基类分布保持不变。相似的类别具有相似的类别分布,本发明使用欧式距离度量每个新类分布和所有基类分布的距离:
其中表示第k个新类的分布均值,表示第i个基类的分布均值。
对于每个新类都具有对应的距离集合,距离的远近也直观地反应了两个不同类别之间的相似性程度,因此特征分布矫正利用相似程度来为各个不同的基类分配不同的迁移权重具体来说,欧式距离越近的基类与新类,它们之间越相似,因此对应分配更大的趋近于1的迁移权重,反之分配趋于0的迁移权重:
基于迁移权重通过加权求和的方式进行新类分布的矫正,这样可以使得根据基类的不同贡献度来对各个新类分布进行矫正。为防止新类矫正分布与基类分布产生重合造成类别混淆问题,这里不对均值进行矫正,即矫正均值继续使用原均值方差矫正使用简单的加权求和的方式:
其中表示第k个新类的矫正方差。利用矫正之后的均值和方差可以得到矫正分布并从中采样新的新类特征sm:
其中M表示采样的数量,在新类微调阶段这个值一般设为100。主要采用随机采样的方式进行采样,具体来说就是先在标准正态分布上随机采样,然后将采样的值与方差相乘后再与均值相加。经过以上矫正和采样过程,在特征层面上扩展了新类类别的特征多样性。
二、类内特征矫正模块具体如下:
采样所得新的新类特征(或采样特征)与原始特征属于同一类别,两者之间必然存在相似的公共特征。为了进一步增强新类特征分布信息的准确性,本发明方法设计了类内特征矫正模块。利用由采样特征和原始特征之间相似性关系组成的类内图结构,通过类内图结构消息传递的方式促进采样特征和原始特征之间的通信,从而矫正增强新类的原始特征。首先类内图结构中所需对应的邻接矩阵由通过采样特征集合和原始特征集合计算得到的余弦相似矩阵构成:
其中eij表示余弦相似矩阵第i行第j列的元素,fi和fj分别表示中的特征和中的特征。为了使得训练阶段和推理阶段的特征空间保持一致,不同于图卷积网络,因此类内特征矫正过程中没有使用权重矩阵:
其中表示通过拼接的方式合并原始特征集和采样特征集得到整体矫正的特征集之后,进一步选择其中矫正后的原始特征集作为最终分类器的输入,得到分类结果。
为了有效地避免模型在刚开始训练的过程中出现不稳定情况,类内特征矫正模块从整个新类微调过程10%之后再开始使用,以此来加速模型的收敛速度。
三、损失函数:
本发明方法是基于少样本检测方法DeFRCN的,与其训练方法相同。整体训练策略分为两个阶段:基类预训练和新类微调。在基类预训练阶段,总体损失函数与标准FasterR-CNN的损失函数相同。
其中和分别表示区域建议网络(RPN)产生的区分前景背景的分类损失和候选框的回归损失,和分别是用在分类头的交叉熵损失函数和用在回归头的smooth L1损失。为了充分训练模型,一般基类预训练阶段待训练图片多且模型迭代次数多。
新类微调阶段使用少量新类图片进行训练,且模型迭代次数远少于基类预训练阶段。在微调阶段为了保证采样特征的可信度和真实性,所以为采样特征分配对应的标签c,并通过交叉熵损失来训练最终的分类器因此采样损失为:
所以新类微调阶段的总体损失函数由标准Faster R-CNN损失和采样损失构成:
其中λ是用来平衡两个损失的超参数,通过实验验证λ这里的取值为0.1。
四、实验结果与分析
1.数据集
为了验证所提出方法在少样本目标检测任务上的有效性,实验部分采用了广泛认可的公开目标检测数据集PASCAL VOC 2007和PASCAL VOC 2012。遵循标准做法,将包含20个类别的PASCAL VOC随机划分为15个基类和5个新类,以模拟真实场景中的少样本情况。为了确保实验结果的可靠性和公正性,进行了三种不同的划分,并确保这些划分与现有方法保持一致,以便进行直接比较。为了全面评估模型在少样本场景下的性能,使用了细致的实验设置。对每个类别提供K={1,2,3,5,10}个训练目标实例,来模拟不同程度的样本稀缺性。随后在PASCAL VOC 2007测试集上进行严格测试,以确保结果的准确性和客观性。在实验结果评估方面,计算新类的平均准确率(IoU=0.5)作为主要的评价指标。平均准确率越高,意味着模型在少样本场景下的检测性能越出色。通过这一指标,能够直观地比较不同方法的性能差异。
2.实现细节与参数设置
本发明方法与DeFRCN设置相同,在特征提取网络上选择在ImageNet预训练的ResNet-101网络,以确保模型具备强大的特征提取能力。整个网络使用了随机梯度下降(SGD)算法,以实现端到端的优化效果。在另外的实验设置中,批量大小设置为16,动量设置为0.9,权重衰减设置为5e-5。在训练阶段,为两个训练阶段设置了不同的学习率,基类预训练阶段的学习率设置为0.02,以充分学习基类特征;新类微调阶段的学习率则降低到0.01,以便更精细地来适应新类数据。不同的实验设置下还相应设置了不同的模型迭代次数,基类预训练阶段迭代设置为18000。而新类微调阶段下1-shot设置为1000,2-shot设置为1200,3-shot设置为1500,5-shot设置为2000,10-shot设置为4000,以保证充分学习。另外值得一提的是,预热学习(Warmup)仅仅在基类预训练阶段使用,其目的在于加速模型的收敛;在新类微调阶段由于整体训练迭代较少,并未使用预热学习策略。
此外,DeFRCN原本具有的梯度解耦块(GDL)结构保持原本的设置,即RPN部分GDL中的λ设置为0,以阻止RPN产生的梯度回传给骨干网络;而RCNN部分GDL中的λ设置为0.01,以减小梯度回传对骨干网络的影响。DeFRCN推理阶段还使用了原型校准块(PCB),其中的平衡超参数的设置为0.5,进一步提升模型性能。
3.实验结果与分析
为了验证本发明方法的有效性,在数据集上进行验证实验,本发明方法与基线方法相比(表1),特征分布矫正方法在新类划分1上的AP最多提升了3.9mAP值,新类划分2上AP最多提升了3.6mAP值,新类划分3上AP最多提升了3.0mAP值,这一显著的性能提升充分说明了该方法的有效性。在所有划分和所有设置下,特征分布矫正方法均实现了不同程度的性能提升。这一结果不仅验证了该方法在扩展新类类内多样性方面的有效性,也表明其能够在一定程度上缓解模型对新类训练样本的敏感性。
表1与基线方法在数据集上的比较结果
4.消融实验与分析
针对方法中的采样数量和分布矫正方式,本发明通过消融实验对方法进行进一步的分析。本发明中的消融实验都是在VOC 2007测试集上开展的,实验设置使用的是新类划分1。
为了深入研究采样数量对模型性能的具体影响,从[50,1000]中选择了8个不同的值进行采样,结果如图2所示。从图2中可以直观看出,当采样数量逐渐增加到500时,模型的性能达到了一个显著的峰值,这显示出适量的采样数量对于模型性能的提升具有关键作用。然而,随着采样数量进一步增加到800,模型的性能开始趋于稳定,这意味着继续增加采样数量并不会带来显著的性能提升。此外,在实验中还发现了一个有趣的现象:当采样数量较少时,模型在每次训练中的性能表现出较大的差异。这种差异在测试集上的平均准确率方差中得到了体现,表明模型在数据不足的情况下,其性能的稳定性较差。然而,当采样数量超过500后,模型的平均性能与采样100时的表现相似,这进一步证实了过多的采样数量并不一定能带来更好的性能。因此综合考虑整个模型的性能、计算量大小和训练速度之间的平衡,最终选择采样数量为100。这一选择既能在一定程度上保证模型的性能,又能有效控制计算成本和提高训练效率,从而为实现更高效、更实用的模型应用提供了有力支持。
在构建新类特征分布的过程中,本发明不仅考虑了主要的方法,还探索了另外两种可能的实现方式,并进行了详尽的比较,如表2所示。
方法1是将新类的方差纳入分布矫正的考量之中,具体的做法是将新类的方差与加权后得到的方差取均值,也就是让本身新类的方差作为矫正方差的主导,基类矫正则起到辅助矫正的作用。
方法2是直接选用所有基类中与新类最相近的基类,将该基类的方差作为矫正的方差。这种方法在基类与新类划分中存在相近类别的情况下相对更有效。然而,对于那些没有相似基类进行矫正的新类,其效果则不尽如人意。
方法3是本发明介绍的以加权求和方式的矫正方法,展现出了最优的效果。通过实验结果可以看出,使用新类方差的方法总体来说不差,但是由于新类样本比较少,所计算出来的方差是不准确的,因此没有得到最佳的性能。另一边直接使用最相近的基类方差相对更好一点,因为在基类和新类的划分当中确实有相近的类别。但是对于没有任何相似的基类来进行矫正的新类,效果反而较差。本发明提出的方法不仅能够在基类与新类相似的情况下取得良好的性能,而且在面对没有相似基类的情况时,也能够通过加权求和的方式将新类分布矫正成更普适类别的分布,从而确保模型的稳定性和准确性。因此这种方案能达到最优的效果。
表2不同分布矫正方式对模型性能的影响
为了解决少样本场景中现有方法对训练样本图像质量过度敏感的问题,本发明提出了一种基于类内多样性的特征分布矫正方法。该方法的核心思想在于,特征相近的类别其对应的特征分布通常具有相似的均值和方差。因此可以利用准确的基类分布矫正相对不准确的新类分布,从而提升模型在少样本场景下的性能。具体实现上,首先通过深入分析类别的相似程度,对新类分布的方差进行精细化的矫正,而保持均值不变,得到矫正分布之后,从中进行特征重采样。为了进一步增强特征的表示能力,最后设计了类内特征矫正模型,在采样特征和原始特征之间建立有效的信息传递机制,从而实现对原始特征的矫正与增强。通过实验与现有方法对比,发现特征分布矫正方法能有效提升现有方法在少样本场景下的检测性能。
Claims (4)
1.一种基于特征分布矫正的少样本目标检测方法,其特征在于,包括如下步骤:
构建分类模型FDC-Net,所述FDC-Net以DeFRCN基础,在backbone和RPN之间、backbone和RCNN之间分别加入梯度解耦层GDL来解耦RPN网络和RCNN结构;DeFRCN在推理阶段在分类头上加入原型校准块PCB;
S1:获取现有若干标注的图像作为训练集,使用训练集中的训练样本对FDC-Net进行基类训练,训练结束得到预训练后的FDC-Net;
S2:获取有若干标注的新类图像作为微调训练集,将若干标注的新类图像输入预训练后的FDC-Net得到原始特征集然后按类别计算这些特征图的均值和方差,得到每个新类类别对应的新类分布均值μn和方差σn;
从训练集中,针对每个类别各随机抽取N张图像来描述各个基类类别的特征分布,将N张图像输入预训练后的FDC-Net得到对应的特征图,然后按类别计算这些特征图的均值μ和方差σ,得到每个基类类别对应的基类分布均值μb和方差σb,度量每个新类分布和所有基类分布的距离,并根据距离为各个不同的基类分配不同的迁移权重然后对均值和方差进行矫正,利用矫正之后的均值和方差得到矫正分布并重新采样新的新类特征sm,对所有新类重新采用得到的所有sm构成采样特征集
S3:在类内特征矫正模块中,通过与计算余弦相似矩阵并得到整体矫正的特征集然后选择中矫正后的原始特征集作为最终分类器的输入对预训练后的FDC-Net进行新类微调,最后得到训练好的FDC-Net;
S4:对于未标注图像输入训练好的FDC-Net,训练好的FDC-Net输出预测的所属类别。
2.如权利要求l所述的一种基于特征分布矫正的少样本目标检测方法,其特征在于,所述S2中得到和sm的步骤为:
使用欧式距离度量每个新类分布和所有基类分布的距离:
其中表示第k个新类的分布均值,表示第i个基类的分布均值;
距离越近的基类与新类,它们之间越相似,因此对应分配更大的趋近于l的迁移权重,反之分配趋于0的迁移权重:
方差矫正使用简单的加权求和的方式:
其中,表示第k个新类的矫正方差;第k个新类的矫正均值继续使用第k个新类的原新类分布均值
利用矫正之后的矫正方差和矫正方差得到矫正分布并从中采样新的新类特征sm:
其中,M表示采样的数量,采用随机采样的方式进行采样得到sm。
3.如权利要求2所述的一种基于特征分布矫正的少样本目标检测方法,其特征在于,所述S3中得到整体矫正的特征集的步骤为:
邻接矩阵由采样特征集合和原始特征集合计算得到的余弦相似矩阵 构成;
其中,eij表示第i行第j列的元素,fi和fj分别表示中的特征和中的特征;
其中,表示通过拼接的方式合并和
4.如权利要求l所述的一种基于特征分布矫正的少样本目标检测方法,其特征在于,所述S3中,新类微调阶段中的总体损失函数为:
其中,表示采样损失,表示交叉熵损失,c表示为采样特征分配对应的标签,表示最终的分类器;
新类微调阶段的总体损失函数由标准Faster R-CNN损失和采样损失构成:
其中,λ是用来平衡两个损失的超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410686657.1A CN118552718A (zh) | 2024-05-30 | 2024-05-30 | 一种基于特征分布矫正的少样本目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410686657.1A CN118552718A (zh) | 2024-05-30 | 2024-05-30 | 一种基于特征分布矫正的少样本目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118552718A true CN118552718A (zh) | 2024-08-27 |
Family
ID=92445780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410686657.1A Pending CN118552718A (zh) | 2024-05-30 | 2024-05-30 | 一种基于特征分布矫正的少样本目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118552718A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119361130A (zh) * | 2024-12-23 | 2025-01-24 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于迁移学习的als患者抑郁风险评估系统 |
-
2024
- 2024-05-30 CN CN202410686657.1A patent/CN118552718A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119361130A (zh) * | 2024-12-23 | 2025-01-24 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于迁移学习的als患者抑郁风险评估系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111739075B (zh) | 一种结合多尺度注意力的深层网络肺部纹理识别方法 | |
CN114092832B (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
CN109948425B (zh) | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 | |
CN110851645B (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
CN113095409B (zh) | 基于注意力机制和权值共享的高光谱图像分类方法 | |
CN107633522B (zh) | 基于局部相似性活动轮廓模型的脑部图像分割方法和系统 | |
CN116206185A (zh) | 一种基于改进YOLOv7的轻量级小目标检测方法 | |
CN114169442B (zh) | 基于双原型网络的遥感图像小样本场景分类方法 | |
CN109409261B (zh) | 一种农作物分类方法及系统 | |
CN105389589B (zh) | 一种基于随机森林回归的胸腔x光片肋骨检测方法 | |
CN113256677A (zh) | 一种图注意力视觉目标跟踪方法 | |
CN110866134B (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN111882554B (zh) | 一种基于SK-YOLOv3的电力线故障智能检测方法 | |
CN111612051A (zh) | 一种基于图卷积神经网络的弱监督目标检测方法 | |
CN110689039A (zh) | 一种基于四通道卷积神经网络的树干纹理识别方法 | |
CN111523586A (zh) | 一种基于噪声可知的全网络监督目标检测方法 | |
CN118552718A (zh) | 一种基于特征分布矫正的少样本目标检测方法 | |
CN117788810A (zh) | 一种无监督语义分割的学习系统 | |
CN116310466A (zh) | 基于局部无关区域筛选图神经网络的小样本图像分类方法 | |
CN114913164A (zh) | 基于超像素的两阶段弱监督新冠病灶分割方法 | |
CN114492755A (zh) | 基于知识蒸馏的目标检测模型压缩方法 | |
CN108985385A (zh) | 基于生成对抗学习的快速弱监督目标检测方法 | |
CN111401519B (zh) | 一种基于物体内和物体间相似性距离的深层神经网络无监督学习方法 | |
CN118644674A (zh) | 一种基于多层级特征引导的小样本医学图像分割方法 | |
CN114565762B (zh) | 基于roi和分裂融合策略的弱监督肝脏肿瘤分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |