CN116824274A - 小样本细粒度图像分类方法及系统 - Google Patents
小样本细粒度图像分类方法及系统 Download PDFInfo
- Publication number
- CN116824274A CN116824274A CN202311083370.1A CN202311083370A CN116824274A CN 116824274 A CN116824274 A CN 116824274A CN 202311083370 A CN202311083370 A CN 202311083370A CN 116824274 A CN116824274 A CN 116824274A
- Authority
- CN
- China
- Prior art keywords
- query set
- image
- query
- feature map
- small sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013145 classification model Methods 0.000 claims abstract description 38
- 238000013507 mapping Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 45
- 238000012360 testing method Methods 0.000 claims description 31
- 238000004891 communication Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 19
- 238000012795 verification Methods 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 16
- 238000003860 storage Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 241000282472 Canis lupus familiaris Species 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 241000894007 species Species 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了小样本细粒度图像分类方法及系统,方法包括如下步骤:获取已识别的多个类别的支持集图像和待识别的查询集图像;构建小样本细粒度图像分类模型,输入构建的小样本细粒度图像分类模型进行处理,获取图像分类结果,其具体包括以下步骤:将支持集图像和查询集图像输入骨干网络中,获取支持集特征图和查询集特征图;将查询集特征图输入查询集自重构模块,获取重构后的查询集特征;将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中,获取语义关系特征映射;将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类,获取分类结果。本申请提供的小样本细粒度图像分类方法,分类更准确,图像识别速度更高。
Description
技术领域
本申请涉及图像分类技术领域,具体是涉及小样本细粒度图像分类方法及系统。
背景技术
细粒度图像分类(FGVC)就是对属于相同类别的不同子类的图像进行分类,比如说对各种汽车、各种鸟类、各种狗类进行分类,区分一个子类和另一个子类的特征通常都是细微的和局部的,这就使得细粒度图像分类比传统的图像分类更加具有挑战性。大多数的细粒度图像分类方法都需要大量的训练数据来学习到非常有鲁棒性的分类器,但是在细粒度图像中需要标注各种鸟类或汽车类,这就可能需要专家来处理。此外很多细粒度方法要标注边界框,通过这样的形式会带来巨大的成本。针对一些濒危的和稀有的物种,人工去收集它们的数据集非常的困难,因此在数据集非常有限的情况下去识别细粒度图像是一个具有实际应用价值的问题。
针对小样本学习的问题,已经提出了很多的方法,这些方法大致可分为3大类:基于度量的方法、基于优化的方法以及基于增强的方法。受到元学习快速发展的启发,研究人员开始探索小样本学习模型在新的细粒度子类上的泛化能力。
目前的对于小样本细粒度图像分类的方法存在一些不足之处:
(1)基于单向重构的方法只能增加细粒度图像的类间的方差,而不能减小类内的方差;
(2)基于注意力机制对小样本细粒度图像分类的方法,如Few Shot-GAN及其改进方法等,在此任务上表现不佳。
发明内容
本申请的目的是为了克服上述背景技术的不足,提供一种小样本细粒度图像分类方法及系统。
第一方面,提供小样本细粒度图像分类方法,包括以下步骤:
获取已识别的多个类别的支持集图像和待识别的查询集图像;
构建小样本细粒度图像分类模型,将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理,获取图像分类结果,具体包括以下步骤:
将支持集图像和查询集图像输入骨干网络中,获取支持集特征图和查询集特征图;
将查询集特征图输入查询集自重构模块,获取重构后的查询集特征;
将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中,获取查询集和支持集的语义关系特征映射;
将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果。
根据第一方面,在第一方面的第一种实现方式中,所述将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理,获取图像分类结果步骤之前,还包括以下步骤:
将获取的已识别多个类别的支持集图像和待识别的查询集图像,划分为训练集、验证集和测试集;
使用训练集训练构建的小样本细粒度图像分类模型,并经验证集验证,获取训练优化后的小样本细粒度图像分类模型;
将测试集输入训练优化后的小样本细粒度图像分类模型进行测试,获取测试通过的小样本细粒度图像分类模型。
根据第一方面,在第一方面的第二种实现方式中,所述将支持集图像和查询集图像输入骨干网络中,获取支持集特征图和查询集特征图步骤,具体包括以下步骤:
将支持集图像和查询集图像输入骨干网络中,采用ResNet-12或Conv-4作为特征提取器获取支持集特征图和查询集特征图。
根据第一方面,在第一方面的第三种实现方式中,所述将查询集特征图输入查询集自重构模块,获取重构后的查询集特征步骤,具体包括以下步骤:
将获取的查询集特征图在空间维度上划分为多个局部特征,获取查询集特征图块;
将获取的查询集特征图块作为transformer的输入序列中并遵循vit(VisionTransformer视觉深度神经网络),Transformer是基于自注意力机制(self-attentionmechanism)的深度神经网络,提取查询集特征图的图块层面空间结构信息;
根据提取的查询集特征图的图块层面空间结构信息,获取注意力权重最高的图块作为查询集特征图的最具有区分性的图块;
将获取的查询集特征图的最具有区分性的图块通过两层图卷积获取重构后的查询集特征。
根据第一方面,在第一方面的第四种实现方式中,所述将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中,获取查询集语义关系特征映射步骤,具体包括以下步骤:
将支持集的特征图的Q向量和重构的查询集的k向量相乘,获取相乘的结果;
将相乘的结果与查询集的特征图的V向量通过softmax操作进行处理,获取查询集和支持集的语义关系特征映射。
根据第一方面,在第一方面的第五种实现方式中,所述将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果步骤,具体包括以下步骤:
将查询集的语义关系映射与最原始的支持集特征映射通过分类模块进行分类,计算获取查询集和支持集的相似度;
根据获取的相似度对待识别的查询集图像进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果。
根据第一方面,在第一方面的第六种实现方式中,所述获取已识别的多个类别的支持集图像和待识别的查询集图像步骤,具体包括以下步骤:
获取多个基准细粒度数据集;
将获取的多个基准细粒度数据集中的图片进行大小重新统一设置,获取尺寸大小一致的已识别的多个类别的支持集图像和待识别的查询集图像。
第二方面,本申请提供了一种小样本细粒度图像分类系统,包括:
模型输入图像获取模块,用于获取已识别的多个类别的支持集图像和待识别的查询集图像;
图像特征获取模块,与所述模型输入图像获取模块通信连接,用于将支持集图像和查询集图像输入骨干网络中,获取支持集特征图和查询集特征图;
特征自重构模块,与所述图像特征获取模块通信连接,用于将查询集特征图输入查询集自重构模块,获取重构后的查询集特征;
关系特征映射获取模块,与所述特征自重构模块通信连接,用于将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中,获取查询集和支持集的语义关系特征映射;
分类结果获取模块,与所述关系特征映射获取模块通信连接,将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果。
根据第二方面,在第二方面的第一种实现方式中,本申请提供的一种小样本细粒度图像分类系统还包括:
划分模块,与所述模型输入图像获取模块通信连接,用于将获取的已识别多个类别的支持集图像和待识别的查询集图像,划分为训练集、验证集和测试集;
训练模块,与所述划分模块和模型构建模块通信连接,用于使用训练集训练构建的小样本细粒度图像分类模型,并经验证集验证,获取训练优化后的小样本细粒度图像分类模型;
测试模块,与所述训练模块和所述划分模块通信连接,用于将测试集输入训练优化后的小样本细粒度图像分类模型进行测试,获取测试通过的小样本细粒度图像分类模型。
根据第二方面,在第二方面的第二种实现方式中,所述图像特征获取模块采用ResNet-12或Conv-4作为特征提取器获取支持集特征图和查询集特征图。
与现有技术相比,本申请的优点如下:
本申请提供的小样本细粒度图像分类方法,在数据集有限的情况下实现对图像高效和准确分类。
附图说明
图1为本申请提供的小样本细粒度图像分类方法的方法流程图;
图2为本申请提供的小样本细粒度图像分类的结构流程图;
图 3 为本申请提供的包含查询集自重构的总体流程图;
图4为本申请提供的构建对象结构信息特征的流程图;
图5为本申请提供的交叉注意力模块的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,更清楚地了解本申请的目的、技术方案及其优点,以下结合具体实施例并参照附图对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。除此,本申请的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有技术中,大多数的细粒度图像分类方法都需要大量的训练数据来学习到非常有鲁棒性的分类器,针对一些濒危的和稀有的物种,人工去收集它们的数据集非常的困难,现有的细粒度图像分类方法,在样本量有限的情况下,图像分类准确性不高。
如图1-图2所示,本申请实施例提供一种小样本细粒度图像分类方法,包括以下步骤:
步骤S1、获取已识别的多个类别的支持集图像和待识别的查询集图像;
步骤S2、构建小样本细粒度图像分类模型,将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理,获取图像分类结果,具体包括以下步骤:
步骤S21、将支持集图像和查询集图像输入骨干网络中,获取支持集特征图和查询集特征图;
步骤S22、将查询集特征图输入查询集自重构模块,获取重构后的查询集特征;
步骤S23、将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中,获取查询集和支持集的语义关系特征映射;
步骤S24、将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果。
本申请提供的小样本细粒度图像分类方法,通过构建小样本细粒度图像分类模型,实现对样本量有限的图像的分类识别,相比于传统的Few Shot-GCN及其改进,在小样本细粒度图像分类任务上准确度提升很大;
本申请提供的小样本细粒度图像分类的模型,容易理解,能够加快小样本细粒度图像识别的速度。
在一实施例中,所述步骤S1、获取已识别的多个类别的支持集图像和待识别的查询集图像步骤,具体包括以下步骤:
步骤S11、获取多个基准细粒度数据集,较具体地,为了评估模型的性能,选用3个基准的细粒度数据集,CUB-200-2011、Stanford Dogs、Stanford Cars数据集,CUB-200-2011数据集中包含200个不同鸟类共11788张鸟的图片,Stanford Dogs数据集包含120种不同狗类共20580张狗的图片,Stanford Cars数据集包含196种不同汽车类共16185张汽车的图片;较具体地,首先对数据进行预处理,比如对CUB-200-2011数据集,将该数据集划分为100类用于训练,50类用于验证,50类用于测试;
步骤S12、将获取的多个基准细粒度数据集中的图片进行大小重新统一设置,获取尺寸大小一致的已识别的多个类别的支持集图像和待识别的查询集图像,较具体地,把数据集中的所有图片都resize为84乘以84;
在一实施例中,所述将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理,获取图像分类结果步骤之前,还包括以下步骤:
步骤SA1、将获取的已识别多个类别的支持集图像和待识别的查询集图像,划分为训练集、验证集和测试集;
步骤SA2、使用训练集训练构建的小样本细粒度图像分类模型,并经验证集验证,获取训练优化后的小样本细粒度图像分类模型;
步骤SA3、将测试集输入训练优化后的小样本细粒度图像分类模型进行测试,获取测试通过的小样本细粒度图像分类模型。
本申请提供的小样本细粒度图像分类方法,通过构建、训练和测试,提升构建的小样本细粒度图像分类模型鲁棒性,有效提升该模型的分类准确性。
在一较具体实施例中,将选用的3个基准的细粒度数据集,CUB-200-2011、Stanford Dogs、Stanford Cars数据集分别划分训练集、验证集和测试集如表1所示:
表1 CUB-200-2011、Stanford Dogs、Stanford Cars数据集划分表
模型训练的参数设置如下:
a、选用restnet-12或conv-4作为骨干网络;
b、使用SGD训练选择restnet-12或Conv-4作为骨干网络的小样本细粒度图像分类模型;
c、epochs为1200,最开始时把学习率设置为0.1,权重参数设置为5e-4,每400个epoch后学习率降低到原来的十分之一。
d、当选择conv-4作为骨干网络,训练所提出的模型时使用30-way 5-shotepisodes,当选择resnet-12作为骨干网络,训练所提出的模型时使用15-way 5-shotepisodes;
e、在两种设置中待识别的查询集的图像都采样15张;
f、测试的时候选择5-way 1-shot和5-way 5-shot;
g、训练的时候使用标准的数据增强的方法为随机裁剪、水平翻转、颜色抖动;
h、训练使用的GPU为NVIDIA 3090Ti GPUs via Pytorch。
在一实施例中,所述步骤S21、将支持集图像和查询集图像输入骨干网络中,获取支持集特征图和查询集特征图步骤,具体包括以下步骤:
将支持集图像和查询集图像输入骨干网络中,采用ResNet-12或Conv-4作为特征提取器获取支持集特征图和查询集特征图。
在一实施例中,如图3和图4所示,所述步骤S22、将查询集特征图输入查询集自重构模块,获取重构后的查询集特征步骤,具体包括以下步骤:
步骤S221、将获取的查询集特征图在空间维度上划分为r个局部特征,获取查询集特征图块;
步骤S222、将获取的查询集特征图块作为transformer的输入序列中并遵循vit,提取查询集特征图的图块层面空间结构信息;
步骤S223、根据提取的查询集特征图的图块层面空间结构信息,获取注意力权重最高的图块作为查询集特征图的最具有区分性的图块;
步骤S224、将获取的查询集特征图的最具有区分性的图块通过两层图卷积获取重构后的查询集特征。
在vision transformer中,通过自注意力机制可以很好地全局接受野,也就是全局的上下文信息,这种方法针对传统的分类任务可以获得较好的效果,但是对于细粒度图像的分类效果并不理想。由于细粒度图像间的差异往往只在局部的区域,visiontransformer忽略了patch(图块)之间的空间关系,因此在细粒度图像分类任务中找到最具有区分性的patch非常重要,本申请创造性地提出了查询集的特征自重构模块,将图像的空间结构信息结合到了transformer中,使用了图卷积神经网络来获得图像的空间结构信息。
在一实施例中,所述步骤S22、将查询集特征图输入查询集自重构模块,获取重构后的查询集特征步骤,具体包括以下步骤:
通过特征提取器得到查询集的feture maps(特征图),在空间维度上reshape为r个局部特征,把图像的patch作为transformer的输入序列,遵循vit。图卷积的核心思想就是提取图像的patch层面空间结构信息。本申请用的查询集的特征自重构模块就是基于结构信息和transformer相结合的方法,用到的公式可表示如下:
选择具有注意力权重最高的patch作为最具有区分性的patch,用来表示,,patch/>的极坐标公式如公式(1)和公式(2)所示,/>指的是/>与/>之间的相对距离,/>指的是/>相对于水平方向上的归一化极角。
公式(3)中的指的是基于节点/>上的边缘权重,采用图卷积法进一步提取结构信息,/>指的是通过两层图卷积得到的结构特征,如公式(4)所示。
公式(1)
公式(2)
公式(3)
公式(4)
式中,分别指的是输入图像使用滑动窗口划分后在垂直方向和水平方向上的斑块数,/>指的是/>与/>之间的相对距离,/>指的是/>相对于水平方向上的归一化极角,/>指的是基于节点/>上的边缘权重,/>指的是在图卷积神经网络中学习到的第一参数,/>指的是在图卷积神经网络中学习到的第二参数。
在一实施例中,人类在观察物体时,会注意到那些更重要的物体特征,设计模型时也应该让训练的网络模型注意到那些更重要的特征,注意力机制的核心思想就是让所设计的网络模型去关注图片更需要关注的地方,交叉注意力模块可以对类特征和查询集的特征之间的语义相关性进行建模,如图5所示,所述步骤S23、将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中,获取查询集语义关系特征映射步骤,具体包括以下步骤:
步骤S231、将支持集的特征图的Q向量和重构的查询集的k向量相乘,获取相乘的结果;
步骤S232、将相乘的结果与查询集的特征图的V向量通过softmax操作进行处理,获取查询集和支持集的语义关系特征映射,如公式(5)-公式(10)所示:
公式(5)
公式(6)
公式(7)
公式(8)
公式(9)
公式(10)
式中,指的是支持集特征图(Support feature maps),/>指的是查询集特征图(Query feature maps),/>,/>,/>分别指的是在支持集v、e、k分支上权重参数,/>,/>,指的是在查询集v、e、k分支上的权重参数,/>指的是支持集上的value向量,/>指的是支持集上的query向量,/>指的是支持集上的key向量,/>指的是查询集上的query向量,/>指的是查询集上的value向量,/>指的是查询集上的key向量,/>指的是查询集到支持集的注意力分数矩阵,/>指支持集到查询集的注意力分数矩阵。
在一实施例中,所述步骤S24、将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果步骤,具体包括以下步骤:
步骤S241、将查询集的语义关系映射与最原始的支持集特征映射通过分类模块进行分类,计算获取查询集和支持集的相似度;
步骤S242、根据获取的相似度对待识别的查询集图像进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果。
基于同一发明构思,本申请还提供了小样本细粒度图像分类系统,包括模型输入图像获取模块、图像特征获取模块、特征自重构模块、关系特征映射获取模块和分类结果获取模块。模型输入图像获取模块用于获取已识别的多个类别的支持集图像和待识别的查询集图像;图像特征获取模块与所述模型输入图像获取模块通信连接,用于将支持集图像和查询集图像输入骨干网络中,获取支持集特征图和查询集特征图;特征自重构模块与所述图像特征获取模块通信连接,用于将查询集特征图输入查询集自重构模块,获取重构后的查询集特征;关系特征映射获取模块与所述特征自重构模块通信连接,用于将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中,获取查询集和支持集的语义关系特征映射;分类结果获取模块与所述关系特征映射获取模块通信连接,将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果。
在一实施例中,还包括:
划分模块,与所述模型输入图像获取模块通信连接,用于将获取的已识别多个类别的支持集图像和待识别的查询集图像,划分为训练集、验证集和测试集;
训练模块,与所述划分模块和模型构建模块通信连接,用于使用训练集训练构建的小样本细粒度图像分类模型,并经验证集验证,获取训练优化后的小样本细粒度图像分类模型;
测试模块,与所述训练模块和所述划分模块通信连接,用于将测试集输入训练优化后的小样本细粒度图像分类模型进行测试,获取测试通过的小样本细粒度图像分类模型。
在一实施例中,所述图像特征获取模块采用ResNet-12或Conv-4作为特征提取器获取支持集特征图和查询集特征图。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的所有方法步骤或部分方法步骤。
本申请实现上述方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
基于同一发明构思,本申请实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法中的所有方法步骤或部分方法步骤。
所称处理器可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如声音播放功能、图像播放功能等);存储数据区可存储根据手机的使用所创建的数据(例如音频数据、视频数据等)。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡,安全数字卡,闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种小样本细粒度图像分类方法,其特征在于,包括如下步骤:
获取已识别的多个类别的支持集图像和待识别的查询集图像;
构建小样本细粒度图像分类模型,将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理,获取图像分类结果,其具体包括以下步骤:
将支持集图像和查询集图像输入骨干网络中,获取支持集特征图和查询集特征图;
将查询集特征图输入查询集自重构模块,获取重构后的查询集特征;
将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中,获取查询集语义关系特征映射;
将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果。
2.如权利要求1所述的小样本细粒度图像分类方法,其特征在于,所述将获取的已识别多个类别的支持集图像和待识别的查询集图像输入构建的小样本细粒度图像分类模型进行处理,获取图像分类结果步骤之前,还包括以下步骤:
将获取的已识别多个类别的支持集图像和待识别的查询集图像,划分为训练集、验证集和测试集;
使用训练集训练构建的小样本细粒度图像分类模型,并经验证集验证,获取训练优化后的小样本细粒度图像分类模型;
将测试集输入训练优化后的小样本细粒度图像分类模型进行测试,获取测试通过的小样本细粒度图像分类模型。
3.如权利要求1所述的小样本细粒度图像分类方法,其特征在于,所述将支持集图像和查询集图像输入骨干网络中,获取支持集特征图和查询集特征图步骤,具体包括以下步骤:
将支持集图像和查询集图像输入骨干网络中,采用ResNet-12或Conv-4作为特征提取器获取支持集特征图和查询集特征图。
4.如权利要求1所述的小样本细粒度图像分类方法,其特征在于,所述将查询集特征图输入查询集自重构模块,获取重构后的查询集特征步骤,具体包括以下步骤:
将获取的查询集特征图在空间维度上划分为多个局部特征,获取查询集特征图块;
将获取的查询集特征图块作为transformer的输入序列中并遵循视觉转换器里的操作,提取查询集特征图的图块层面空间结构信息;
根据提取的查询集特征图的图块层面空间结构信息,获取注意力权重最高的图块作为查询集特征图的最具有区分性的图块;
将获取的查询集特征图的最具有区分性的图块通过两层图卷积神经网络获取重构后的查询集特征。
5.如权利要求1所述的小样本细粒度图像分类方法,其特征在于,所述将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中,获取查询集语义关系特征映射步骤,具体包括以下步骤:
将支持集的特征图的Query向量和重构的查询集的key向量相乘,获取相乘的结果;这里的Query向量和key向量分别指的是注意力机制里的查询向量和值向量;
将相乘的结果与查询集的特征图的Value向量通过softmax操作进行处理,获取查询集和支持集的语义关系特征映射。
6.如权利要求1所述的小样本细粒度图像分类方法,其特征在于,所述将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果步骤,具体包括以下步骤:
将查询集的语义关系映射与最原始的支持集特征映射通过分类模块进行分类,计算获取查询集和支持集的相似度;
根据获取的相似度对待识别的查询集图像进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果。
7.如权利要求1所述的小样本细粒度图像分类方法,其特征在于,所述获取已识别的多个类别的支持集图像和待识别的查询集图像步骤,具体包括以下步骤:
获取多个基准细粒度数据集;
将获取的多个基准细粒度数据集中的图片进行大小重新统一设置,获取尺寸大小一致的已识别的多个类别的支持集图像和待识别的查询集图像。
8.一种小样本细粒度图像分类系统,其特征在于,包括:
模型输入图像获取模块,用于获取已识别的多个类别的支持集图像和待识别的查询集图像;
图像特征获取模块,与所述模型输入图像获取模块通信连接,用于将支持集图像和查询集图像输入骨干网络中,获取支持集特征图和查询集特征图;
特征自重构模块,与所述图像特征获取模块通信连接,用于将查询集特征图输入查询集自重构模块,获取重构后的查询集特征;
关系特征映射获取模块,与所述特征自重构模块通信连接,用于将支持集的特征图和重构的查询集特征一并送入交叉注意力模块中,获取查询集和支持集的语义关系特征映射;
分类结果获取模块,与所述关系特征映射获取模块通信连接,将查询集语义关系特征映射和支持集的特征图输入到分类模块中进行分类,获取待识别的查询集图像的小样本细粒度图像分类结果。
9.如权利要求8所述的小样本细粒度图像分类系统,其特征在于,还包括:
划分模块,与所述模型输入图像获取模块通信连接,用于将获取的已识别多个类别的支持集图像和待识别的查询集图像,划分为训练集、验证集和测试集;
训练模块,与所述划分模块和模型构建模块通信连接,用于使用训练集训练构建的小样本细粒度图像分类模型,并经验证集验证,获取训练优化后的小样本细粒度图像分类模型;
测试模块,与所述训练模块和所述划分模块通信连接,用于将测试集输入训练优化后的小样本细粒度图像分类模型进行测试,获取测试通过的小样本细粒度图像分类模型。
10.如权利要求8所述的小样本细粒度图像分类系统,其特征在于,所述图像特征获取模块采用ResNet-12或Conv-4作为特征提取器获取支持集特征图和查询集特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311083370.1A CN116824274B (zh) | 2023-08-28 | 2023-08-28 | 小样本细粒度图像分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311083370.1A CN116824274B (zh) | 2023-08-28 | 2023-08-28 | 小样本细粒度图像分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116824274A true CN116824274A (zh) | 2023-09-29 |
CN116824274B CN116824274B (zh) | 2023-11-28 |
Family
ID=88114768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311083370.1A Active CN116824274B (zh) | 2023-08-28 | 2023-08-28 | 小样本细粒度图像分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824274B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422879A (zh) * | 2023-12-14 | 2024-01-19 | 山东大学 | 原型演化的小样本语义分割方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882000A (zh) * | 2020-08-04 | 2020-11-03 | 天津大学 | 一种应用于小样本细粒度学习的网络结构及方法 |
CN113592008A (zh) * | 2021-08-05 | 2021-11-02 | 哈尔滨理工大学 | 一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质 |
CN114792385A (zh) * | 2022-05-17 | 2022-07-26 | 重庆理工大学 | 一种金字塔分离双注意力的少样本细粒度图像分类方法 |
CN115424053A (zh) * | 2022-07-25 | 2022-12-02 | 北京邮电大学 | 小样本图像识别方法、装置、设备及存储介质 |
KR20230046818A (ko) * | 2021-09-30 | 2023-04-06 | 엘지디스플레이 주식회사 | 의미론적 영상 분할을 위한 데이터 학습 장치 및 방법 |
CN115953665A (zh) * | 2023-03-09 | 2023-04-11 | 武汉人工智能研究院 | 一种目标检测方法、装置、设备及存储介质 |
WO2023109208A1 (zh) * | 2021-12-15 | 2023-06-22 | 北京邮电大学 | 小样本目标检测方法及装置 |
CN116543269A (zh) * | 2023-07-07 | 2023-08-04 | 江西师范大学 | 基于自监督的跨域小样本细粒度图像识别方法及其模型 |
WO2023151199A1 (zh) * | 2022-02-10 | 2023-08-17 | 华中科技大学同济医学院附属协和医院 | 基于交叉注意力机制的骨折影像精细识别网络构建方法 |
-
2023
- 2023-08-28 CN CN202311083370.1A patent/CN116824274B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882000A (zh) * | 2020-08-04 | 2020-11-03 | 天津大学 | 一种应用于小样本细粒度学习的网络结构及方法 |
CN113592008A (zh) * | 2021-08-05 | 2021-11-02 | 哈尔滨理工大学 | 一种基于自编码器的图神经网络机制解决小样本图像分类的系统、方法、设备及存储介质 |
KR20230046818A (ko) * | 2021-09-30 | 2023-04-06 | 엘지디스플레이 주식회사 | 의미론적 영상 분할을 위한 데이터 학습 장치 및 방법 |
WO2023109208A1 (zh) * | 2021-12-15 | 2023-06-22 | 北京邮电大学 | 小样本目标检测方法及装置 |
WO2023151199A1 (zh) * | 2022-02-10 | 2023-08-17 | 华中科技大学同济医学院附属协和医院 | 基于交叉注意力机制的骨折影像精细识别网络构建方法 |
CN114792385A (zh) * | 2022-05-17 | 2022-07-26 | 重庆理工大学 | 一种金字塔分离双注意力的少样本细粒度图像分类方法 |
CN115424053A (zh) * | 2022-07-25 | 2022-12-02 | 北京邮电大学 | 小样本图像识别方法、装置、设备及存储介质 |
CN115953665A (zh) * | 2023-03-09 | 2023-04-11 | 武汉人工智能研究院 | 一种目标检测方法、装置、设备及存储介质 |
CN116543269A (zh) * | 2023-07-07 | 2023-08-04 | 江西师范大学 | 基于自监督的跨域小样本细粒度图像识别方法及其模型 |
Non-Patent Citations (3)
Title |
---|
LI, XF (LI, XIAOFEI) ; LIU, JM (LIU, JIANMING) ; WANG, MW (WANG, MINGWEN): "Weakly Supervised Fine-Grained Visual Recognition via Adversarial Complementary Attentions and Hierarchical Bilinear Pooling", 26TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING (ICONIP) OF THE ASIA-PACIFIC-NEURAL-NETWORK-SOCIETY (APNNS), vol. 11953 * |
何凯;冯旭;高圣楠;马希涛;: "基于多尺度特征融合与反复注意力机制的细粒度图像分类算法", 天津大学学报(自然科学与工程技术版), no. 10 * |
王阳;刘立波;: "面向细粒度图像分类的双线性残差注意力网络", 激光与光电子学进展, no. 12 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422879A (zh) * | 2023-12-14 | 2024-01-19 | 山东大学 | 原型演化的小样本语义分割方法及系统 |
CN117422879B (zh) * | 2023-12-14 | 2024-03-08 | 山东大学 | 原型演化的小样本语义分割方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116824274B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107563372B (zh) | 一种基于深度学习ssd框架的车牌定位方法 | |
CN105144239B (zh) | 图像处理装置、图像处理方法 | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
Sugiarto et al. | Wood identification based on histogram of oriented gradient (HOG) feature and support vector machine (SVM) classifier | |
CN116824274B (zh) | 小样本细粒度图像分类方法及系统 | |
CN113936195B (zh) | 敏感图像识别模型的训练方法、训练装置和电子设备 | |
US8503768B2 (en) | Shape description and modeling for image subscene recognition | |
CN109377494B (zh) | 一种用于图像的语义分割方法和装置 | |
CN104299009A (zh) | 基于多特征融合的车牌字符识别方法 | |
CN113269224A (zh) | 一种场景图像分类方法、系统及存储介质 | |
Tung et al. | Large-scale object detection of images from network cameras in variable ambient lighting conditions | |
CN115830399B (zh) | 分类模型训练方法、装置、设备、存储介质和程序产品 | |
CN112036520A (zh) | 基于深度学习的大熊猫年龄识别方法、装置及存储介质 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
CN110569379A (zh) | 一种汽车配件图片数据集制作方法 | |
CN116071557A (zh) | 一种长尾目标检测方法、计算机可读存储介质及驾驶设备 | |
CN112528058A (zh) | 基于图像属性主动学习的细粒度图像分类方法 | |
CN114972300A (zh) | 一种基于计算机视觉和深度学习的材料图像分割识别方法 | |
CN111401438B (zh) | 图像分拣方法、装置及系统 | |
US20240233325A9 (en) | Method for classifying images and electronic device | |
CN113780335B (zh) | 一种小样本商品图像分类方法、装置、设备及存储介质 | |
CN114792374A (zh) | 基于纹理分类的图像识别方法、电子装置及存储介质 | |
Vijayalakshmi | A new shape feature extraction method for leaf image retrieval | |
CN112132031A (zh) | 车款识别方法、装置、电子设备及存储介质 | |
CN112861926B (zh) | 耦合的多任务特征提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |