CN116188900A - 一种基于全局和局部特征增广的小样本图像分类方法 - Google Patents
一种基于全局和局部特征增广的小样本图像分类方法 Download PDFInfo
- Publication number
- CN116188900A CN116188900A CN202310036711.3A CN202310036711A CN116188900A CN 116188900 A CN116188900 A CN 116188900A CN 202310036711 A CN202310036711 A CN 202310036711A CN 116188900 A CN116188900 A CN 116188900A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- augmentation
- training
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 230000003416 augmentation Effects 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000012360 testing method Methods 0.000 claims abstract description 39
- 238000012795 verification Methods 0.000 claims abstract description 19
- 238000009499 grossing Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000014759 maintenance of location Effects 0.000 claims description 2
- 230000000452 restraining effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 2
- 230000013016 learning Effects 0.000 description 27
- 230000008447 perception Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000013526 transfer learning Methods 0.000 description 4
- 239000000306 component Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000008358 core component Substances 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003706 image smoothing Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000031836 visual learning Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于全局和局部特征增广的小样本图像分类方法,包括:将图像数据集划分为训练集、验证集和测试集,测试集划分为支持集和查询集;将所有图像数据集分别进行预处理;对预处理后的训练集中的图像分别进行预训练,得到最优特征提取器;采用特征提取器提取支持集中每个图像的特征图,进行通道融合,得到支持集中图像样本的增广集S1;进行局部背景平滑,得到支持集中图像样本的增广集S2;采用特征提取器提取查询集中每个图像的特征图,根据其与支持集和增广集S1、S2中的图像特征的距离进行分类,获得预测标签。本发明在不引入过多参数情况下能够在一般小样本图像分类、细粒度小样本图像分类和多类图像分类上精度和效率更高。
Description
技术领域
本发明涉及计算机视觉技术,特别是涉及一种基于全局和局部特征增广的小样本图像分类方法。
背景技术
基于深度学习的方法在各种图像理解任务上都取得了令人瞩目的成绩,然而这些成功往往需要海量丰富的带有标签的训练数据,在图像分类中,训练一个可靠的卷积神经识别网络往往需要每个类数百甚至上千个训练数据,然而,在许多特定的情况下,数据的注释是昂贵的,只有有限的标记样本是可访问的,这严重影响了深度学习模型的性能。相比较而言,人类完全有能力从一个或少数几个示例中学习一个新的视觉概念,并快速迁移到新的数据上。为了克服这一挑战,小样本学习应运而生,其旨在从有限数据中进行可靠快速的学习,引起了社区各界的广泛关注。
目前,已经有各种先进的小样本图像分类的方法,这些方法大致可以分为以下三类:
(1)基于度量学习的小样本图像分类方法;
(2)基于优化的小样本图像分类方法;
(3)基于微调的小样本图像分类方法。
其中,基于度量学习的小样本分类方法旨在学习一个特征的嵌入空间,在该嵌入空间中来自不同类别的数据可以通过简单的距离度量进行区分。在这个类别上目前已经有很多方法被提出来。MatchingNet(matching networks)匹配网络采用了一种新的带有嵌入式特征提取器的最近邻方法,并结合了参数化和非参数量化方法的优点来进行分类。ProtoNet(prototypical network)原型网络将同一类中向量的均值代表作为对应类的原型,并根据测试样本到不同类原型的距离对其进行分类。RelationNet(relation network)关系网络首次通过学习一个深度的度量函数来代替以往小样本方法中所采用的固定的度量函数对测试样本进行分类。此外,许多方法都试图将局部特征表示应用到FSL中,而不是在特征空间中使用全局特征表示。DN4通过比较图像与类别之间的局部描述子来寻找与输入图像最接近的类别,其中每个局部描述子对应图像的局部区域,并在分类中基于KNN算法来比较测试图像与每个类别的局部描述子之间的相似程度,借此分类。DC-IMP直接研究局部激活,并融合其结果来学习特定任务的特征。CrossTransformers找到查询和标记图像之间的粗略空间对应关系,然后计算空间对应特征之间的距离以进行最终分类。
基于优化的小样本分类方法旨在学习良好的初始化,使模型能够通过一系列训练集快速适应未见的新任务。作为代表,MAML(model-agnostic meta-learning)模型无关元学习方法遵循纯元训练范式和二阶梯度,并学习快速适应新任务,只需少量梯度更新,且可以应用在任意的模型中,学习出一个非常好的模型初始化参数并通过少量样本快速在模型中进行收敛。Reptile(first-order meta-learning)像一阶MAML一样,只使用一阶梯度信息来调整和更新参数,重复抽样一个任务进行训练,基于该任务训练的权重不断的改变初始化的参数。ANIL(almost no inner loop)则是进一步探索了MAML的有效性,并删除了内循环,在训练和测试的时候内环只更新网络头对应的参数且旨在最后一层获得内部循环更新,以更少的计算成本匹配MAML的性能。LEO(latent embedding optimization)学习了一种低维的语义嵌入,将基于优化的元学习技术与模型参数的高维空间解耦,该算法更适合处理小样本问题。MetaOptNet(meta-learning with differentiable convexoptimization)利用凸线性分类器,即线性支持向量机(SVM)的凸问题的最优性条件的隐式微分和最优问题的对偶公式,利用高维嵌入来提高模型的泛化能力。
基于微调的小样本分类方法旨在对基类的预训练作为FSL的预处理。研究发现,一个简单的预训练可以帮助实现小样本学习。RFS突破性提出一个简单的小样本分类的基线模型,即在可见的训练集上预训练学习一个特征提取器,然后在微调阶段固定特征提取器直接学一个分类器,方法比当时同期的所有小样本方法都要表现的好。MTL(meta-transferlearning)结合迁移学习和元学习两种算法的优势,首先通过预训练学习特征提取器,使得网络具有比较好的特征抽取和表达的能力,然后在测试阶段通过元微调将预训练的网络权重转移到新任务,在此过程中缓解过拟合等少量数据带来的问题。此外,有工作发现自监督表示学习和基于微调的小样本分类方法之间的关联性,两者都分为两个阶段,自监督表示学习在第一阶段使用一些借口(pretext)自监督任务来抽取图像特征,在第二阶段将这些特征表示应用到不同的下游任务。因此,BF3S(boosting few-shot visual learning withself-supervision)在训练小样本任务的同时采用图像旋转角度预测和图像块位置预测等方法进一步提高特征提取器的泛化到新类的能力。SKD(self-supervised knowledgedistillation)则是进一步引入知识蒸馏,使用蒸馏约束嵌入空间从而进一步提升模型效果。
发明内容
发明目的:本发明的目的是提供一种基于全局和局部特征增广的小样本图像分类方法,该方法遵循迁移学习的范式中的两阶段模型通过标准交叉熵损失对基类进行预训练,并使用训练后的嵌入模型对新类进行微调。
技术方案:本发明的一种基于全局和局部特征增广的小样本图像分类方法,包括以下步骤:
将获得的训练集、验证集和测试集中的图像按照需求的分辨率分别进行预处理;
对预处理后的训练集中的图像数据进行预训练:首先从训练集中随机多次抽取小批量图像数据,其次采用旋转变换创建图像的增强副本,利用增强后的图像数据训练得到多个特征提取器,然后使用旋转角度预测的辅助损失创建数据最佳的输出流形用来增强特征提取器的泛化能力,并采用正交正则化方法,计算特征提取器提取到的训练集中图像数据的特征图中各个通道之间的相关性,与单位矩阵进行约束,并通过特征提取器在验证集上的结果评估,选择最优的特征提取器;
采用训练得到的最优特征提取器,提取支持集中每个图像的特征图,对每个图像的特征图都根据通道的权值来衡量其通道的重要性,并选择k个权值小的通道与其他图像特征进行通道融合,作为支持集/>中图像样本的增广集/>
采用训练得到的特征提取器,提取支持集中每个图像的特征图,对每个图像特征通过聚类的方法选出前景和背景的局部描述子的簇,并用背景簇中心进行局部背景平滑,平滑后的图像特征作为支持集/>中图像样本的增广集/>
进一步的,图像数据集为小样本图像分类数据集miniImageNet、tieredImageNet或CIFAR-FS,或细粒度基准分类数据集CUB Birds。
进一步的,将获得的训练集、验证集和测试集中的图像都进行缩放,得到每张图像的分辨率为84×84。
将相似度矩阵D向单位矩阵I靠近,计算公式为:
其中,Γos为损失函数。
进一步的,采用训练得到的特征提取器提取相应测试集下的支持集/>中每个图像的特征图/>对每个图像特征都根据通道的权值来衡量其通道的重要性,并选择权重最小的k个通道/>组成通道特征-标签对(fi Top,y),其中fi Top是在特征图/>中选出的的权重top小的k个通道,然后随机从其他的图像数据的特征图中选择k个通道其中/>是在特征图/>中随机选出的k个通道,融合之后形成增广集/>过程如下式所示:
进一步的,采用训练得到的特征提取器提取相应测试集下的支持集/>中每个图像的特征图/>并将其表示为局部描述子的集合/>ui为第i个局部描述子,采用聚类算法将上述集合聚成两簇/>其中Ji是聚成的第i个簇,并将两个簇内局部描述子的权重和大的作为前景簇J1,另一个作为背景簇J2,每个簇的中心表示为/>其中第i个簇的簇中心pi计算过程如下式所示:
进一步的,采用训练得到的特征提取器提取相应测试集下的查询集/>中每个图像x的特征图/>然后根据其与支持集/>和得到的/>中的图像特征计算出每一类别的特征均值c.,计算/>和各个类均值间的距离,通过softmax得到分类概率分布计算过程如下式所示:
其中,c.′是k′类别的特征均值,exp表示指数函数,d(·)用于计算特征向量家的距离,常用欧氏距离。
本发明的一种基于全局和局部特征增广的小样本图像分类系统,包括:
图像数据预处理模块,用于将图像数据集中的所有图像进行缩放处理,得到需求分辨率的图像;
预训练模块,用于采用预处理后的图像数据训练特征提取器,并通过特征提取器在验证集上的结果评估选择最优的特征提取器;
测试模块,用于采用特征提取器提取支持集中每个图像的特征图,对每个图像特征都根据通道的权值来衡量其通道的重要性,并选择k个权值小的不重要的通道与其他图像特征进行通道融合,作为支持集/>中图像样本的增广集/>同时,对每个图像特征通过聚类的方法选出前景和背景的局部描述子的簇,并用背景簇中心进行局部背景平滑,平滑后的图像特征作为支持集/>中图像样本的增广集/>采用特征提取器提取查询集/>中每个图像的特征图,然后根据其与支持集/>和增广集/>中的图像特征的距离进行分类,获得预测标签。
本发明的一种装置设备,包括存储器和处理器,其中:
存储器,用于存储能够在处理器上运行的计算机程序;
处理器,用于在运行所述计算机程序时,执行上述一种基于全局和局部特征增广的小样本图像分类方法的步骤。
本发明的一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时实现上述一种基于全局和局部特征增广的小样本图像分类方法的步骤。
有益效果:与现有技术相比,本发明提出了一种语义正交化的学习框架(SOLF)来得到正交和多样的特征向量,这是第一次综合探索如何以纯语义感知的方法学习和生成更好的数据特征;本发明还提出一种全局感知的特征增广方式和一种局部感知的特征增广方式。本发明方法遵循迁移学习的范式中的两阶段模型通过标准交叉熵损失对基类进行预训练,并使用训练后的嵌入模型对新类进行微调;在预训练阶段,本发明将跨通道的语义信息进行正交化,以学习更多不同的特征,而在测试阶段,本发明从通道和空间角度提出了全局和局部感知的特征增强,进一步提升分类性能。在多个基准数据集上的对比实验结果分析得出,本发明提出的方法在不引入过多参数情况下能够在一般小样本分类任务、细粒度小样本分类任务和多类分类任务上分类精度更高,效率更高。
附图说明
图1是本发明方法流程图;
图2是本发明方法中预训练阶段和测试阶段流程框图;
图3是全局感知特征增强模块结构示意图;
图4是局部感知特征增强模块结构示意图;
图5是在miniImageNet上多类设置下的分类结果。
具体实施方式
为了更加详细的展示本发明的目的和优点,下面结合附图和具体实施例对本发明作进一步说明。
虽然目前有很多小样本分类的方法,包括基于度量的小样本学习方法、基于优化的小样本学习方法和基于预训练的小样本学习方法,但是这些现有的算法仍然存在潜在的缺陷:
(1)特征提取器很容易对可见的基类数据过拟合,牺牲对新类的泛化能力;
(2)目前所使用的简单的数据增强,如裁剪和翻转,使得新的线性分类器会由于训练示例的稀缺而过拟合未见的新类。
为了解决第一个问题,本发明首先引入了一个额外的自监督学习(SSL)任务,即在训练前阶段进行旋转预测,从而缓解基类上的过拟合问题,这被视为一个强基线。此外,对于训练良好的卷积神经网络(CNN),特征图的不同通道通常会对不同的语义产生响应。然而,不同特征通道之间的语义关系通常不是独立同分布的。虽然网络中学到的关系可能适合可见的基类,但是它们不再适合类别不相交的不可见的新类。因此,为了进一步降低过拟合的风险,本发明在预训练阶段提出了一种语义正交学习框架(SOLF),通过使特征通道独立正交来学习更多样性和分辨性的特征。
为了解决第二个问题,本发明从通道和空间两个角度提出了一种新的全局和局部感知特征增强方法(GLFA)。受益于语义正交学习框架(SOLF)的创建,发明提出的全局感知特征增强是在类内和类间将样本独立(小权重)的特征通道替换为其他样例随机选择的通道,使增强的特征包含更多样化和有区别的语义。此外,已有工作探讨背景信息对小样本分类任务有害,由此,提出了一种新的局部感知背景平滑方法来抑制小样本分类任务图像背景的扰动,以无监督的方式分别识别局部前景和背景区域,并对背景噪声进行中性平滑。
本发明遵循迁移学习范式来解决小样本问题,考虑了目前小样本方法存在的两点局限性,即特征提取器对基类的过拟合和分类器对少量新类的过拟合。本发明提出了语义正交学习框架(SOLF),使学习到的特征通道具有语义多样性和正交性,同时从通道和空间两个角度提出了一种全局和局部感知的特征增强方法。通过以上方法能有效地去除特征通道之间的相关性,学习到更多样化、更具鉴别性的特征以及在特征水平上进行增强,有效缓解训练分类器时的过拟合问题。
因此,本发明的一种基于全局和局部特征增广的小样本图像分类方法,其出发点在于:目前的小样本图像分类方法仍然存在潜在的缺陷:(1)特征提取器很容易对可见的基类数据过拟合,从而牺牲对不可见新类图像的泛化能力;(2)目前所使用的简单的数据增强,如裁剪和翻转,使得新的线性分类器会由于训练示例的稀缺而过拟合未见的新类图像。基于此,本发明的贡献如下:在预训练阶段,提出一种语义正交化的学习框架(semanticorthogonal learning framework)来得到正交和多样的特征向量,这是第一次综合探索如何以纯语义感知的方法学习和生成更好的数据特征;在测试阶段,提出一种全局和局部感知的特征增广范式(global-and local-aware feature augmentation)来提高样本的多样性,从而有效缓解过拟合问题。在多个基准数据集上的对比实验结果分析得出,本发明提出的算法在不引入过多参数情况下能够在一般小样本图像分类任务、细粒度小样本图像分类任务和多类图像分类任务上都具有竞争力。
如图1和图2所示,本发明的一种基于全局和局部特征增广的小样本图像分类方法,包括以下步骤:
本实施例采用四类图像数据集分别进行训练、测试和分类。每种类型图像数据均按照步骤S1-S6进行处理。
按照小样本图像分类的设置,将实验所使用的多种图像数据集分别划分为训练集、验证集和测试集;在训练集上训练特征提取器,在验证集上评估特征提取器优劣,在测试集上进行测试,其中测试集进一步划分为支持集和查询集/>并用查询集与支持集的距离度量来测试最终模型的性能。
本实施例中,首先对实验所需的4类图像数据集进行划分,分别是三个小样本图像分类数据集miniImageNet、tieredImageNet和CIFAR-FS,以及一个细粒度基准分类数据集CUB Birds。接下来对数据集进行划分,例如,将miniImageNet数据集100个类中的64个类作为训练集,16个类作为验证集,20个类作为测试集;将tieredImageNet数据集608个类中的351个作为训练集,97个作为验证集,160个类作为测试集,测试集进一步划分为支持集和查询集/>
S2、将划分后的图像数据集中的图像进行缩放,使得每张图像的分辨率为84×8。
S3、对步骤S2预处理后的训练集中的图像分别进行预训练:首先从训练集中随机多次抽取小批量图像数据记为B={x,y},其次采用旋转变换创建图像的增强副本,利用增强后的图像数据训练得到多个特征提取器,然后使用旋转角度预测的辅助损失创建数据最佳的输出流形从而增强特征提取器的泛化能力,并采用正交正则化方法,计算特征提取器提取到的训练集中图像数据的特征图中各个通道之间的相关性,与单位矩阵进行约束,并通过特征提取器在验证集上的结果评估,根据在验证集上表现最好的结果来选择最优的特征提取器;
本实施例中,给定一张图像X,通过特征提取器可以提取到特征图于是进一步表示为/>同时使用一个两层的线性层来学习每一个通道的权重wi(见图3中gφ,通过gφ得到wi,其中是对高步骤的总称)。然后,可以简便地计算任意通道对fi和fj之间的余弦相似度Di,j,计算过程如下:
约束该相似矩阵D接近单位矩阵I:
其中,Γos为损失函数。
可以看出,本发明中的正交化操作可以保证通道与通道本身(对角线元素)之间的相似度趋于1,通道与其他通道(非对角线元素)之间的相似度趋于0,这样既可以促进通道的多样性,又可以保证通道之间的独立性。另外,在接下来的全局感知特征增强中,由于不同信道之间的正交性,通道的干扰将大大降低。
S4、采用步骤S3训练得到的最优特征提取器提取支持集/>中每个图像的特征图/>对每个图像的特征图都根据通道的权值来衡量其通道的重要性,并选择k个权值最小的不重要的通道与其他图像特征进行通道融合(全局特征),作为该支持集/>中图像样本的增广集/>
本实施例中,将权重最小的k个通道组成通道特征-标签对(fi Top,y),其中fi Top是在特征图/>中选出的的权重top小的k个通道,然后随机从其他的图像数据的特征图中选择k个通道/>其中/>是在特征图/>中随机选出的k个通道,融合之后形成增广集/>过程如公式(3)所示:
其中,fi和fj是特征图中的第i和第j个通道,/>是融合后对应的特征,λ∈[0.5,1.0]是所选类标签y′和原始类标签y之间的折衷,用于控制增广的样本标签保持,本发明计算了fi Top和fi y′之间的相似度作为λ的选择度量。如果相似度大于阈值,则表明fi Top和fi y′之间的语义相似。因此,可以设置一个相对较小的λ,从其他通道的语义中获得较大的扰动,从而保证增强样本的类别识别,最大限度地模拟多样性。相反,较小的相似度应在通道对之间分配较大的λ以保持类标签。最终融合后的新样本都作为支持集/>中图像样本对应的增广集/>即/>
S5、采用步骤S3训练得到的特征提取器提取支持集/>中每个图像的特征图/>对每个图像特征通过聚类的方法选出前景和背景的局部描述子的簇,并用背景簇中心进行局部背景平滑(局部特征),平滑后的图像特征作为支持集/>中图像样本的增广集/>
本实施例中,将特征图表示为局部描述子的集合/>ui为第i个局部描述子,采用聚类算法(k-means)将上述集合聚成两簇/> 其中Ji是聚成的第i个簇,并将两个簇内局部描述子的权重和大的作为前景簇J1,另一个作为背景簇J2,每个簇的中心表示为/>其中第i个簇的簇中心Pi计算过程如公式(4)所示:
其中,Li表示第i个聚类中局部描述符的数量,表示第i个聚类中第j个局部描述符的第m个响应,C是局部描述子在通道方向上的维度。最后,对于背景簇中的局部描述子用该簇的中心进行替代作为局部背景的平滑,平滑过程如公式(5)所示:
ui是前景簇J1中的局部描述子,P2是背景簇的簇中心,是经过背景平滑后的第i个局部描述子;平滑后的图像特征作为支持集/>中图像样本对应的增广集/>即通过图4可以对算法流程有更加清晰的认识,均值滤波是一种有效的图像平滑算法,它简单地将图像中心值替换为图像中所有像素值的平均值。类似地,给定背景簇J*和簇中心c*,本发明在局部描述子维度上将J*中的每个局部描述子设置为c*。
本实施例中,根据特征图与支持集/>和步骤S4和步骤S5得到的/>中的图像特征计算出每一类别的特征均值c.,计算/>和各个类均值间的距离,通过softmax得到分类概率分布/>计算过程如公式(6)所示:
其中,ck′是k′类别的特征均值,exp表示指数函数,d(·)用于计算特征向量家的距离,常用欧氏距离。
本发明的一种基于全局和局部特征增广的小样本图像分类系统,包括:
图像数据预处理模块,用于将图像数据集中的所有图像进行缩放处理,得到需求分辨率的图像;
预训练模块,用于采用预处理后的图像数据训练特征提取器,并通过特征提取器在验证集上的结果评估选择最优的特征提取器;
测试模块,用于采用特征提取器提取支持集中每个图像的特征图,对每个图像特征都根据通道的权值来衡量其通道的重要性,并选择k个权值小的不重要的通道与其他图像特征进行通道融合,作为支持集/>中图像样本的增广集/>同时,对每个图像特征通过聚类的方法选出前景和背景的局部描述子的簇,并用背景簇中心进行局部背景平滑,平滑后的图像特征作为支持集/>中图像样本的增广集/>采用特征提取器提取查询集/>中每个图像的特征图,然后根据其与支持集/>和增广集/>中的图像特征的距离进行分类,获得预测标签。
本发明的一种装置设备,包括存储器和处理器,其中:
存储器,用于存储能够在处理器上运行的计算机程序;
处理器,用于在运行所述计算机程序时,执行如上述一种基于全局和局部特征增广的小样本图像分类方法的步骤,并能达到上述方法所述的技术效果。
本发明的一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如上述一种基于全局和局部特征增广的小样本图像分类方法的步骤,并能达到上述方法所述的技术效果。
为了评估本发明方法的性能,在四个基准数据集上和前沿的小样本学习模型进行对比。由于基于基类的预训练方法在近年来的许多FSL研究中,如simplshot、RFS-simple和FEAT等,已经证明了其优越性,因此在本发明中,除了MetaOptNet、Boosting、ArL和MABAS外,大多数比较方法都采用了基于基类的预训练方法。注意,Boosting和ArL在训练期间都使用了一个额外的SSL任务。MABAS还在测试时使用对抗样本生成样本,这与本发明的工作密切相关。此外,尽管CAN和TADAM不使用预训练,但它们通过使用基类的全局标签来利用全局分类作为辅助训练任务。S2M2还在预训练阶段应用了SSL辅助损耗,这与本发明的工作密切相关。
表1展示了在数据集miniImageNet上各对比实验的结果,表2展示了在tieredImageNet数据集上的结果,表3展示了在CIFAR-FS数据集上的结果,表4展示了在细粒度数据集CUB上的结果。
表1miniImageNet数据集上分类任务平均准确率
表2tieredImageNet数据集上分类任务平均准确率
表3CIFAR-FS数据集上分类任务平均准确率
表4CUB数据集上分类任务平均准确率
从表1至表4可以看到,所提出的强基线已经取得了与比较方法非常有竞争力的结果,这有效地证明了迁移学习范式的潜力。其次,所提出的GLFA方法可以进一步持续地提高所有数据集上优于强基线的性能。例如,在5-way 1-shot设置下,GLFA在四个数据集上分别比强基线提高了1.69%、2.33%、0.59%和1.44%。这充分验证了所提出的SOLF框架和GLFA方法的有效性。最后,与最新的FSL方法相比,没有基于预先训练的方法,如DeepEMD,FEAT和FRN,也没有使用SSL辅助任务的方法,如ArL和Boosting,本发明提出的GLFA始终优于这些比较FSL方法,并且在5-way 1-shot和5-way 5-shot设置下,都可以在所有数据集上实现新的技术水平。
综上所述,根据结果和分析,可以得出以下结论:(1)预训练范式在FSL领域确实是有效的;(2)所提出的全局和局部感知特征增强模块以及语义正交学习框架(SOLF)确实有效,因为它能够缓解元测试阶段的过拟合问题。
为了研究本发明中的核心组件,即语义正交学习框架(SOLF)、全局感知特征增强(GA Augmentation)和局部感知背景平滑(LA Smoothing)的影响,对miniImageNet、tieredImageNet和CUB进行了消融实验。实验结果如表5所示,其中第一行的结果为强基线的结果。
表4核心组件消融实验
实验结果可以看出,与强基线相比,所有组件都能够进一步提高三个数据集上的分类精度。此外,观察到单独的GA和SOLF都比基线有显著改善。将LA平滑与GA增强相结合也能明显提高性能。这些结果成功地证明了特征去相关(正交性)操作,即SOLF,有利于分类。结果表明,遗传算法增强有效地缓解了调优阶段的过拟合问题,获得了较好的分类性能。此外,对空间区域进行背景平滑操作,即LA平滑,也可以有效地降低背景噪声的干扰,进一步提高分类性能。
为了进一步验证所提方法的优越性,本发明将所提方法与其他密切相关的基于预训练的方法(如RFS和MTL)在大型单次任务上进行了比较。此外,ProtoNet和R2D2也进行了重新实现,并进行了预训练以进行比较。从图5的结果可以看出,在10way-1shot、15way-1shot和20way-1shot任务的所有设置下,本发明提出的方法都明显优于其他方法。这进一步证明了本发明提出的方法具有良好的泛化能力,即使面对更困难的任务也能表现良好。这是因为所提出的SOLF一方面可以使特征通道去相关,另一方面,所提出的通道和空间特征增强可以使增强后的特征更加多样化,这都有利于分类。
Claims (10)
1.一种基于全局和局部特征增广的小样本图像分类方法,其特征在于,包括以下步骤:
将获得的训练集、验证集和测试集中的图像按照需求的分辨率分别进行预处理;
对预处理后的训练集中的图像数据进行预训练:首先从训练集中随机多次抽取小批量图像数据,其次采用旋转变换创建图像的增强副本,利用增强后的图像数据训练得到多个特征提取器,然后使用旋转角度预测的辅助损失创建数据最佳的输出流形用来增强特征提取器的泛化能力,并采用正交正则化方法,计算特征提取器提取到的训练集中图像数据的特征图中各个通道之间的相关性,与单位矩阵进行约束,并通过特征提取器在验证集上的结果评估,选择最优的特征提取器;
采用训练得到的最优特征提取器,提取支持集中每个图像的特征图,对每个图像的特征图都根据通道的权值来衡量其通道的重要性,并选择k个权值小的通道与其他图像特征进行通道融合,作为支持集/>中图像样本的增广集/>
采用训练得到的特征提取器,提取支持集中每个图像的特征图,对每个图像特征通过聚类的方法选出前景和背景的局部描述子的簇,并用背景簇中心进行局部背景平滑,平滑后的图像特征作为支持集/>中图像样本的增广集/>
2.根据权利要求1所述的一种基于全局和局部特征增广的小样本图像分类方法,其特征在于,图像数据集为小样本图像分类数据集miniImageNet、tieredImageNet或CIFAR-FS,或细粒度基准分类数据集CUB Birds。
3.根据权利要求1所述的一种基于全局和局部特征增广的小样本图像分类方法,其特征在于,将获得的训练集、验证集和测试集中的图像都进行缩放,得到每张图像的分辨率为84×84。
5.根据权利要求1所述的一种基于全局和局部特征增广的小样本图像分类方法,其特征在于,采用训练得到的特征提取器提取相应测试集下的支持集/>中每个图像的特征图/>对每个图像特征都根据通道的权值来衡量其通道的重要性,并选择权重最小的k个通道/>组成通道特征-标签对(fi Top,y),其中fi Top是在特征图/>中选出的的权重top小的k个通道,然后随机从其他的图像数据的特征图中选择k个通道/>其中/>是在特征图/>中随机选出的k个通道,融合之后形成增广集/>过程如下式所示:
6.根据权利要求1所述的一种基于全局和局部特征增广的小样本图像分类方法,其特征在于,采用训练得到的特征提取器提取相应测试集下的支持集/>中每个图像的特征图并将其表示为局部描述子的集合/>ui为第i个局部描述子,采用聚类算法将上述集合聚成两簇/>其中Ji是聚成的第i个簇,并将两个簇内局部描述子的权重和大的作为前景簇J1,另一个作为背景簇J2,每个簇的中心表示为其中第i个簇的簇中心pi计算过程如下式所示:
8.一种基于全局和局部特征增广的小样本图像分类系统,其特征在于,包括:
图像数据预处理模块,用于将图像数据集中的所有图像进行缩放处理,得到需求分辨率的图像;
预训练模块,用于采用预处理后的图像数据训练特征提取器,并通过特征提取器在验证集上的结果评估选择最优的特征提取器;
9.一种装置设备,其特征在于,包括存储器和处理器,其中:
存储器,用于存储能够在处理器上运行的计算机程序;
处理器,用于在运行所述计算机程序时,执行如权利要求1-7任一项所述一种基于全局和局部特征增广的小样本图像分类方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如权利要求1-7任一项所述一种基于全局和局部特征增广的小样本图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310036711.3A CN116188900A (zh) | 2023-01-10 | 2023-01-10 | 一种基于全局和局部特征增广的小样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310036711.3A CN116188900A (zh) | 2023-01-10 | 2023-01-10 | 一种基于全局和局部特征增广的小样本图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116188900A true CN116188900A (zh) | 2023-05-30 |
Family
ID=86432019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310036711.3A Pending CN116188900A (zh) | 2023-01-10 | 2023-01-10 | 一种基于全局和局部特征增广的小样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116188900A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630721A (zh) * | 2023-06-14 | 2023-08-22 | 电子科技大学中山学院 | 基于局部特征补全的图像分类方法、装置、设备及介质 |
CN117523345A (zh) * | 2024-01-08 | 2024-02-06 | 武汉理工大学 | 一种目标检测数据平衡方法及装置 |
-
2023
- 2023-01-10 CN CN202310036711.3A patent/CN116188900A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116630721A (zh) * | 2023-06-14 | 2023-08-22 | 电子科技大学中山学院 | 基于局部特征补全的图像分类方法、装置、设备及介质 |
CN116630721B (zh) * | 2023-06-14 | 2024-02-13 | 电子科技大学中山学院 | 基于局部特征补全的图像分类方法、装置、设备及介质 |
CN117523345A (zh) * | 2024-01-08 | 2024-02-06 | 武汉理工大学 | 一种目标检测数据平衡方法及装置 |
CN117523345B (zh) * | 2024-01-08 | 2024-04-23 | 武汉理工大学 | 一种目标检测数据平衡方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xia et al. | Sparse projections for high-dimensional binary codes | |
Sohn et al. | Learning invariant representations with local transformations | |
Goodfellow et al. | Large-scale feature learning with spike-and-slab sparse coding | |
Patra et al. | A novel SOM-SVM-based active learning technique for remote sensing image classification | |
Zaied et al. | A novel approach for face recognition based on fast learning algorithm and wavelet network theory | |
Gogna et al. | Discriminative autoencoder for feature extraction: Application to character recognition | |
CN116188900A (zh) | 一种基于全局和局部特征增广的小样本图像分类方法 | |
CN110969086B (zh) | 一种基于多尺度cnn特征及量子菌群优化kelm的手写图像识别方法 | |
Villegas et al. | Dimensionality reduction by minimizing nearest-neighbor classification error | |
Wei et al. | Compact MQDF classifiers using sparse coding for handwritten Chinese character recognition | |
Ejbali et al. | A dyadic multi-resolution deep convolutional neural wavelet network for image classification | |
CN111783704A (zh) | 一种基于粒子群优化径向基的人脸识别系统 | |
Timofte et al. | Iterative nearest neighbors | |
Dan et al. | Pf-vit: Parallel and fast vision transformer for offline handwritten chinese character recognition | |
Alavi et al. | Random projections on manifolds of symmetric positive definite matrices for image classification | |
CN111488923B (zh) | 增强的锚点图半监督分类方法 | |
Bozorgtabar et al. | Comparison of different PCA based face recognition algorithms using genetic programming | |
Sotiropoulos | Handling variable shaped & high resolution images for multi-class classification problem | |
Zhang et al. | A linear discriminant analysis method based on mutual information maximization | |
Chen et al. | Cascading Training for Relaxation CNN on Handwritten Character Recognition | |
Wang et al. | Deep image clustering using convolutional autoencoder embedding with inception-like block | |
Song et al. | Structure preserving dimensionality reduction for visual object recognition | |
Peng et al. | Data-independent feature learning with Markov random fields in convolutional neural networks | |
CN114037931A (zh) | 一种自适应权重的多视图判别方法 | |
Guo et al. | A label-embedding online nonnegative matrix factorization algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |