CN118015374A - 一种小样本图像识别方法及系统 - Google Patents

一种小样本图像识别方法及系统 Download PDF

Info

Publication number
CN118015374A
CN118015374A CN202410229558.0A CN202410229558A CN118015374A CN 118015374 A CN118015374 A CN 118015374A CN 202410229558 A CN202410229558 A CN 202410229558A CN 118015374 A CN118015374 A CN 118015374A
Authority
CN
China
Prior art keywords
channel
class
query
feature
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410229558.0A
Other languages
English (en)
Inventor
吴汶霄
桑农
邵远杰
高常鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202410229558.0A priority Critical patent/CN118015374A/zh
Publication of CN118015374A publication Critical patent/CN118015374A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请属于图像识别领域,具体公开了一种小样本图像识别方法及系统。通过本申请,在训练小样本图像识别网络时,输入包含多个待测图像的查询集合和包含少量有标注样本的支撑集合,采用通道权重计算模块构建每个查询集样本与支撑集合的差异性矩阵,通过捕捉该矩阵每个维度来自不同类别数据的不一致性,并以此作为评判标准判断当前通道或者维度对于当前查询集样本的重要性,从而促使距离调制模块更加关注对于当前任务更有判别性和区分性的通道。当前绝大多数通道加权算法(例如SENet、Attention模块)等都是基于特征通道间的交互与联系生成权重,本申请与当前绝大多数通道加权算法完全不同,是基于每个通道内部不同类数据的不一致性逐通道生成权重。

Description

一种小样本图像识别方法及系统
技术领域
本申请属于图像识别领域,更具体地,涉及一种小样本图像识别方法及系统。
背景技术
近年来,随着理论建模、技术创新、软硬件等方面的快速发展,深度学习在许多计算机视觉任务,例如,图像分类、目标检测等上都取得了优异的结果。尽管如此,目前的深度学习模型都需要大量的注释数据来支撑训练,以对各种智能服务进行开发。然而,在某些诸如健康医疗、罕见灾害等领域,由于隐私或注释的高成本等问题,有标记的样本往往很难获取。针对这个问题,小样本学习便应运而生,小样本图像分类问题也成为了深度学习领域中重要的研究方向之一。小样本图像分类是指给定一个未知类别的图像,仅仅利用少量的有标记图像,就可以将这个待识别的图像进行正确识别。相较于传统深度学习需要大量标注样本进行驱动的图像分类,小样本图像分类仅需很少量的标注图像数据便可对新增未知图像进行识别,更加贴近真实世界中的应用场景。
基于距离度量学习的方法已成为小样本图像分类的一种突出方法,它通常使用距离函数来测量查询样本和支持样本之间的差异,以识别查询样本的类别。例如,在“Prototypical Networks for Few-shot Learning,Proceedings of the NeuralInformation Processing Systems(NeurIPS),2017.”中,它将来自同一类的嵌入标记样本的平均向量作为类原型,并将欧式距离作为距离度量分类器。
然而,在计算类别得分时,这些距离分类器只是平等地对待查询和支持特征之间的每个通道差异,忽略了不同通道对于不同任务的重要性。由于学习特征中的不同通道往往代表着不同的模式,这些距离度量没有考虑到不同通道对小样本图像分类的重要性不同,因此无法准确测量样本之间的相似性,从而导致在实际应用场景中分类识别效果较差。
发明内容
针对现有技术的缺陷,本申请的目的在于提供一种小样本图像识别方法及系统,旨在解决现有方法在计算类别得分时平等对待每一个通道,导致的分类识别效果不好、泛化性差的问题。
为实现上述目的,第一方面,本申请提供了一种一种小样本图像识别方法,包括:
获取预训练的小样本图像识别网络;
将查询集和支撑集共同输入至预训练的小样本图像识别网络,得到查询集中各待测图像的类别得分向量,进而判断类别;
所述小样本图像识别网络包括:特征提取模块、类别原型确定模块、通道权重计算模块和距离调制模块;
所述特征提取模块,带有第一参数,用于提取输入图像的特征向量,所述输入图像包含支撑集中各标注图像和查询集中各查询图像;
所述类别原型确定模块,用于获取支撑集中相同类别的标注图像的特征向量,进而确定每类的类别原型;
所述通道权重计算模块,用于获取单个查询图像特征向量和支撑集中的所有标注图像的特征向量,构建与该查询图像特征向量相关的差异性矩阵,该差异性矩阵经过带第二参数的计算函数,得到与该查询图像特征向量相关的通道权重矩阵,该查询样本在当前分类任务与其他样本特征计算距离时均采用该权重矩阵进行调制;
所述距离调制模块,用于计算单个查询图像特征向量和各类别原型之间的距离,通过通道权重矩阵调制该距离,得到该查询图像的类别得分向量;
所述第一参数和第二参数经过训练阶段优化。
优选地,所述类别原型确定模块以最近邻的判断方式确定每类的类别原型,其中,
类别原型表示为:
其中,类别n∈[1,N],N表示支撑集的总类别数,l表示第l个通道,d表示特征的总通道数,表示类别原型cn的l个通道,K表示支撑集每个类包含的样本图像数量,zj表示类别n包含的第j个样本特征。
优选地,所述差异性矩阵τq表示为:
其中,和/>分别表示第q个查询样本特征zq的第l个通道和第s个支撑样本特征zs的第l个通道,/>表示第l个通道的差异的分布,N表示支撑集的总类别数,K表示支撑集每个类包含的样本图像数量,d表示特征的总通道数,/>表示第q个查询样本特征zq和第s个支撑样本特征zs的第l个通道的距离,l=1,2,…,d,s=1,2,…,NK。
优选地,所述通道权重矩阵Wq表示为:
其中,gφ(·)表示带第二参数φ的计算函数,表示第l个通道的差异的分布,l=1,2,…,d,d表示特征的总通道数。
优选地,所述带第二参数的计算函数为一个双层的多层感知器,包含两个全连接层fc1(·)和fc2(·),ReLU作为层与层之间的激活函数。
优选地,查询样本特征zq与类别原型cn间经过调制后的距离表示为:
其中,Wq表示通道权重矩阵,表示第q个查询样本特征zq和第n个类别原型cn的第l个通道的距离,l=1,2,…,d,n∈[1,N],N表示支撑集的总类别数。
优选地,训练阶段对第一参数和第二参数进行更新,直至收敛:
其中,θ表示第一参数,φ表示第二参数,η表示更新步长,表示损失函数对于参数θ和φ的偏导数,用于衡量模型在当前小样本任务上的性能,/>表示网络预测采样生成查询集样本标签与真实标签的分类损失函数。
优选地,训练阶段,给定训练集合Dtrain和不重叠的测试集合Dtest,先从Dtrain上随机采样的一系列任务上进行训练,再从Dtest随机抽样的一系列任务上进行测试;每个小样本任务包含两个不相交的集合,支撑集合/>和查询集合/>遵循“N-way K-shot”的设置,支撑集合/>由N个类组成,每个类包含K张有标记的图像;查询集合与/>共享相同的标签空间。
为实现上述目的,第二方面,本申请提供了一种小样本图像识别系统,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如第一方面所述的方法。
为实现上述目的,第三方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器执行如第一方面所述的方法。
可以理解的是,上述第二方面至第三方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
总体而言,通过本申请所构思的以上技术方案与现有技术相比,具有以下有益效果:
(1)本申请提供一种小样本图像识别方法及系统,在训练小样本图像识别网络时,输入包含多个待测图像的查询集合和包含少量有标注样本的支撑集合,采用通道权重计算模块构建每个查询集样本与支撑集合的差异性矩阵,通过捕捉该矩阵每个维度来自不同类别数据的不一致性,并以此作为评判标准判断当前通道或者维度对于当前查询集样本的重要性,从而促使距离调制模块更加关注对于当前任务更有判别性和区分性的通道。当前绝大多数通道加权算法(例如SENet、Attention模块)等都是基于特征通道间的交互与联系生成权重,本申请与当前绝大多数通道加权算法完全不同,是基于每个通道内部不同类数据的不一致性逐通道生成权重。
(2)本申请提供一种小样本图像识别方法及系统,提供的距离调制模块仅对距离度量进行操作,因此不直接干扰特征提取过程。因此可以插入到任何骨干的基于距离度量学习的小样本图像识别方法中。
(3)本申请提供一种小样本图像识别方法及系统,提供的距离调制模块的参数量仅仅与支撑集合样本的数量相关,而与主干网络的深度无关,添加的可学习参数数目为(NK+1)2,与当前动则新增数万级别参数的通道加权方式相比,所述距离调制模块是一个轻量级网络,几乎不消耗计算资源。
附图说明
图1是本申请实施例提供的一种小样本图像识别方法示意图。
图2是本申请实施例提供的通道权重计算模块结构示意图。
图3是本申请实施例提供了一种电子设备结构示意图。
在所有附图中,相同的附图标记用来表示相同的元件或结构,其中:
1-特征提取模块;2-类别原型确定模块;3-通道权重计算模块;4-距离调制模块;810-处理器;820-通信接口;830-存储器;840-通信总线。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本文中术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系,例如A/B表示A或者B。
本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一响应消息和第二响应消息等是用于区别不同的响应消息,而不是用于描述响应消息的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或者两个以上,例如,多个处理单元是指两个或者两个以上的处理单元等;多个元件是指两个或者两个以上的元件等。
接下来,对本申请实施例中提供的技术方案进行介绍。
如图1所示,本申请提供了一种小样本图像识别方法,包括:
获取预训练的小样本图像识别网络;
将查询集和支撑集共同输入至预训练的小样本图像识别网络,得到查询集中各待测图像的类别得分向量,进而判断类别;
所述小样本图像识别网络包括:特征提取模块、类别原型确定模块、通道权重计算模块和距离调制模块;
所述特征提取模块1,带有第一参数,用于提取输入图像的特征向量,所述输入图像包含支撑集中各标注图像和查询集中各查询图像;
所述类别原型确定模块2,用于获取支撑集中相同类别的标注图像的特征向量,进而确定每类的类别原型;
所述通道权重计算模块3,用于获取单个查询图像特征向量和支撑集中的所有标注图像的特征向量,构建与该查询图像特征向量相关的差异性矩阵,该差异性矩阵经过带第二参数的计算函数,得到与该查询图像特征向量相关的通道权重矩阵,该查询样本在当前分类任务与其他样本特征计算距离时均采用该权重矩阵进行调制;
所述距离调制模块4,用于计算单个查询图像特征向量和各类别原型之间的距离,通过通道权重矩阵调制该距离,得到该查询图像的类别得分向量;
所述第一参数和第二参数经过训练阶段优化。
优选地,所述特征提取模块通过卷积等一系列操作将像素级别的特征重映射为嵌入空间中的高维特征。
假设样本x的特征z为其中,z l是特征z的第l个通道或维度,d是其维度的数量,则查询样本的特征/>支持样本的特征/>
优选地,所述类别原型确定模块以最近邻的判断方式确定每类的类别原型,其中,
类别原型表示为:
其中,类别n∈[1,N],N表示支撑集的总类别数,l表示第l个通道,d表示特征的总通道数,表示类别原型cn的l个通道,K表示支撑集每个类包含的样本图像数量,zj表示类别n包含的第j个样本特征。
如图2所示,优选地,所述差异性矩阵τq表示为:
其中,和/>分别表示第q个查询样本特征zq的第l个通道和第s个支撑样本特征zs的第l个通道,/>表示第l个通道的差异的分布,N表示支撑集的总类别数,K表示支撑集每个类包含的样本图像数量,d表示特征的总通道数,/>表示第q个查询样本特征zq和第s个支撑样本特征zs的第l个通道的距离,l=1,2,…,d,s=1,2,…,NK。
该差异性矩阵每一列可以体现出在同一维度上不同类别数据的不一致性,根据特征选择中方差阈值方法的思想,同一维度中来自不同类的数据越不一致,该维度就越重要,应该被分配更高的权重,以此为基础,通过一个元学习器学会一个判断规则用于评定该通道的重要性。
如图2所示,反映第l个通道的差异的分布,可以通过由以φ为参数的距离调制模块g为第q个查询样本特征zq的第l个通道生成权重:
优选地,所述通道权重矩阵Wq表示为:
其中,gφ(·)表示带第二参数φ的计算函数,表示第l个通道的差异的分布,l=1,2,…,d,d表示特征的总通道数。
优选地,通过一个元学习器为距离分类器的每个维度基于每个通道内部不同类数据的不一致性计算加权的权重。
优选地,所述带第二参数的计算函数为一个双层的多层感知器,包含两个全连接层fc1(·)和fc2(·),ReLU作为层与层之间的激活函数。
权重的生成过程可以表示为:
查询样本的特征和支持样本的特征/> 之间的距离可以表示为:
优选地,采用欧式距离或者余弦相似性,用做度量函数来度量待分类的查询样本特征和支撑样本特征之间的距离。相似性越大或者距离越小,则该图像越大概率属于该类别。
注意到,在计算总距离时,每个通道中的距离/>具有相等的权重,对于l=1,…,d,可以通过结合可学习的通道权重/>来调整距离度量。将上式改写为:
其中,列向量
类别原型可以表示为:
查询样本特征zq与类别原型cn间经过调制后的距离可以表示为:
优选地,查询样本特征zq与类别原型cn间经过调制后的距离表示为:
其中,Wq表示通道权重矩阵,表示第q个查询样本特征zq和第n个类别原型cn的第l个通道的距离,l=1,2,…,d,n∈[1,N],N表示支撑集的总类别数。
优选地,训练阶段对第一参数和第二参数进行更新,直至收敛:
其中,θ表示第一参数,φ表示第二参数,η表示更新步长,表示损失函数对于参数θ和φ的偏导数,用于衡量模型在当前小样本任务上的性能,/>表示网络预测采样生成查询集样本标签与真实标签的分类损失函数。多次从训练集Dtrain采样T重复进行上述过程并对fθ和gφ进行更新,直至收敛。
优选地,训练阶段,给定训练集合Dtrain和不重叠的测试集合Dtest,先从Dtrain上随机采样的一系列任务上进行训练,再从Dtest随机抽样的一系列任务上进行测试;每个小样本任务T包含两个不相交的集合,支撑集合S和查询集合遵循“N-way K-shot”的设置,支撑集合/>由N个类组成,每个类包含K张有标记的图像;查询集合与/>共享相同的标签空间。
对识别网络进行训练时,为每类图像确定K个有标签的训练样本和M个训练过程中待预测标签的训练样本,将N类图像对应的训练样本输入到识别网络进行训练。
在真实应用场景中,将待识别的查询集图像集合和支撑图像集合输入到预训练好的识别网络中,以对待识别图像进行分类,输出对应的识别结果。
可以理解的是,上述各个单元/模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
整个算法的伪代码如表1所示,此处不做赘述。
表1
实施例
由于隐私和标注成本等问题,大多数情况下只有很少量标注样本可以获取,导致每个类别只有很少量的标注实例,本实施例提供一种小样本医学图像识别系统,其中,特征提取模块采用ResNet-12,并利用在训练集合上最小化交叉熵损失的预训练权重作为初始化,d=640。基于原型网络判断某稀有病例的类别,在每个类别仅有少量标注病例的情况下,计算所需识别的所有类别的原型(每个类别仅有的少量标注样本特征的均值),构建待识别病例特征与标注病例特征的差异性矩阵,已训练好的距离调制模块基于该差异性矩阵的每一列依次为每个通道生成加权权重,并将其用于调制待识别病例特征与每个类别原型之间的距离,相似性最大的即为所属类别。得到最终该查询样本的预测类别得分,并计算预测的类别得分与真实标签的交叉熵损失,利用梯度下降优化整体网络参数。
可以理解的是,上述各个单元/模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
应当理解的是,上述装置用于执行上述实施例中的方法,装置中相应的程序模块,其实现原理和技术效果与上述方法中的描述类似,该装置的工作过程可参考上述方法中的对应过程,此处不再赘述。
基于上述实施例中的方法,如图3所示,本申请实施例提供了一种电子设备,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
基于上述实施例中的方法,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行上述实施例中的方法。
基于上述实施例中的方法,本申请实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
可以理解的是,本申请实施例中的处理器可以是中央处理单元(centralprocessing unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,RAM)、闪存、只读存储器(read-only memory,ROM)、可编程只读存储器(programmable rom,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。
本领域的技术人员容易理解,以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种小样本图像识别方法,其特征在于,包括:
获取预训练的小样本图像识别网络;
将查询集和支撑集共同输入至预训练的小样本图像识别网络,得到查询集中各待测图像的类别得分向量,进而判断类别;
所述小样本图像识别网络包括:特征提取模块、类别原型确定模块、通道权重计算模块和距离调制模块;
所述特征提取模块,带有第一参数,用于提取输入图像的特征向量,所述输入图像包含支撑集中各标注图像和查询集中各查询图像;
所述类别原型确定模块,用于获取支撑集中相同类别的标注图像的特征向量,进而确定每类的类别原型;
所述通道权重计算模块,用于获取单个查询图像特征向量和支撑集中的所有标注图像的特征向量,构建与该查询图像特征向量相关的差异性矩阵,该差异性矩阵经过带第二参数的计算函数,得到与该查询图像特征向量相关的通道权重矩阵,该查询样本在当前分类任务与其他样本特征计算距离时均采用该权重矩阵进行调制;
所述距离调制模块,用于计算单个查询图像特征向量和各类别原型之间的距离,通过通道权重矩阵调制该距离,得到该查询图像的类别得分向量;
所述第一参数和第二参数经过训练阶段优化。
2.如权利要求1所述的方法,其特征在于,所述类别原型确定模块以最近邻的判断方式确定每类的类别原型,其中,
类别原型表示为:
其中,类别n∈[1,N],N表示支撑集的总类别数,l表示第l个通道,d表示特征的总通道数,表示类别原型cn的l个通道,K表示支撑集每个类包含的样本图像数量,zj表示类别n包含的第j个样本特征。
3.如权利要求1所述的方法,其特征在于,所述差异性矩阵τq表示为:
其中,和/>分别表示第q个查询样本特征zq的第l个通道和第s个支撑样本特征zs的第L个通道,/>表示第L个通道的差异的分布,N表示支撑集的总类别数,K表示支撑集每个类包含的样本图像数量,d表示特征的总通道数,/>表示第q个查询样本特征zq和第s个支撑样本特征zs的第l个通道的距离,l=1,2,…,d,s=1,2,…,NK。
4.如权利要求3所述的方法,其特征在于,所述通道权重矩阵Wq表示为:
其中,gφ(·)表示带第二参数φ的计算函数,表示第l个通道的差异的分布,l=1,2,…,d,d表示特征的总通道数。
5.如权利要求1所述方法,其特征在于,所述带第二参数的计算函数为一个双层的多层感知器,包含两个全连接层fc1(·)和fc2(·),ReLU作为层与层之间的激活函数。
6.如权利要求1所述的方法,其特征在于,查询样本特征zq与类别原型cn间经过调制后的距离表示为:
其中,Wq表示通道权重矩阵,表示第q个查询样本特征zq和第n个类别原型cn的第l个通道的距离,l=1,2,…,d,n∈[1,N],N表示支撑集的总类别数。
7.如权利要求1所述的方法,其特征在于,训练阶段对第一参数和第二参数进行更新,直至收敛:
其中,θ表示第一参数,φ表示第二参数,η表示更新步长,表示损失函数对于参数θ和φ的偏导数,用于衡量模型在当前小样本任务上的性能,/>表示网络预测采样生成查询集样本标签与真实标签的分类损失函数。
8.如权利要求1所述的方法,其特征在于,训练阶段,给定训练集合Dtrain和不重叠的测试集合Dtest,先从Dtrain上随机采样的一系列任务上进行训练,再从Dtest随机抽样的一系列任务上进行测试;每个小样本任务包含两个不相交的集合,支撑集合/>和查询集合/>遵循“N-way K-shot”的设置,支撑集合/>由N个类组成,每个类包含K张有标记的图像;查询集合/>与/>共享相同的标签空间。
9.一种小样本图像识别系统,其特征在于,包括:
至少一个存储器,用于存储程序;
至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求1至8任一所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序在处理器上运行时,使得所述处理器执行如权利要求1至8任一所述的方法。
CN202410229558.0A 2024-02-29 2024-02-29 一种小样本图像识别方法及系统 Pending CN118015374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410229558.0A CN118015374A (zh) 2024-02-29 2024-02-29 一种小样本图像识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410229558.0A CN118015374A (zh) 2024-02-29 2024-02-29 一种小样本图像识别方法及系统

Publications (1)

Publication Number Publication Date
CN118015374A true CN118015374A (zh) 2024-05-10

Family

ID=90946151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410229558.0A Pending CN118015374A (zh) 2024-02-29 2024-02-29 一种小样本图像识别方法及系统

Country Status (1)

Country Link
CN (1) CN118015374A (zh)

Similar Documents

Publication Publication Date Title
CN110852447B (zh) 元学习方法和装置、初始化方法、计算设备和存储介质
CN112116090B (zh) 神经网络结构搜索方法、装置、计算机设备及存储介质
CN106897738A (zh) 一种基于半监督学习的行人检测方法
CN112507912B (zh) 一种识别违规图片的方法及装置
CN115034315B (zh) 基于人工智能的业务处理方法、装置、计算机设备及介质
EP3769270A1 (en) A method, an apparatus and a computer program product for an interpretable neural network representation
CN112651467B (zh) 卷积神经网络的训练方法和系统以及预测方法和系统
CN111694954B (zh) 图像分类方法、装置和电子设备
CN118468061B (zh) 一种算法自动匹配及参数优化方法及系统
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN117523218A (zh) 标签生成、图像分类模型的训练、图像分类方法及装置
CN113987188B (zh) 一种短文本分类方法、装置及电子设备
CN114511733A (zh) 基于弱监督学习的细粒度图像识别方法、装置及可读介质
CN113065634B (zh) 一种图像处理方法、神经网络的训练方法以及相关设备
CN113239883A (zh) 分类模型的训练方法、装置、电子设备以及存储介质
CN115757844A (zh) 一种医学图像检索网络训练方法、应用方法及电子设备
CN117010480A (zh) 模型训练方法、装置、设备、存储介质及程序产品
US11676391B2 (en) Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames
CN112507137B (zh) 开放环境下基于粒度感知的少样本关系抽取方法及应用
CN111177493B (zh) 数据处理方法、装置、服务器和存储介质
CN118015374A (zh) 一种小样本图像识别方法及系统
CN114529969A (zh) 一种表情识别方法及系统
CN114898339B (zh) 驾驶行为预测模型的训练方法、装置、设备、存储介质
CN113724069B (zh) 基于深度学习的定价方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination