CN114792385A - 一种金字塔分离双注意力的少样本细粒度图像分类方法 - Google Patents
一种金字塔分离双注意力的少样本细粒度图像分类方法 Download PDFInfo
- Publication number
- CN114792385A CN114792385A CN202210534058.9A CN202210534058A CN114792385A CN 114792385 A CN114792385 A CN 114792385A CN 202210534058 A CN202210534058 A CN 202210534058A CN 114792385 A CN114792385 A CN 114792385A
- Authority
- CN
- China
- Prior art keywords
- sample
- convolution
- attention
- feature
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种金字塔分离双注意力的少样本细粒度图像分类方法,包括如下步骤:选用数据集D,从D中随机选取N个图像类别并进行编号组成支持集和查询集;将支持集和查询集通过特征嵌入模块进行学习得到两种集合的特征图;将两种特征图通过金字塔分离模块得到多尺度特征图fS和fQ;将fS和fQ通过双注意力机制得到重新加权的支持集特征嵌入和查询集特征嵌入;将Yp中的所有样本分别取类别平均值Ya,将每个查询样本分别与Ya在通道维度上进行串联组合得到样本关系对Yaj;基于关系相似性度量模型可以计算得到每个样本关系对的相似性分数Saj,分数最高所对应的类别即为该查询样本的所属类别。通过使用本方法可以在少样本情况下对细粒度图像进行精确分类。
Description
技术领域
本发明涉及少样本细粒度图像分类方法,特别涉及一种金字塔分离双注意力的少样本细粒度图像分类方法。
背景技术
少样本学习(Few-shot Learning,FSL),也称为单样本学习或小样本学习。FSL是当前研究热点之一,其在许多现实生活的场景中具有重要的应用价值和意义。近几年,少样本学习广泛应用于图像分类、目标检测以及图像分割等领域。细粒度图像分类旨在区分同一类别的子类别,由于受物体姿态、背景干扰、遮挡以及拍摄角度等因素的影响,并且细粒度图像存在类别内差异大而类别间差异小的特点,使其给分类带来巨大的挑战。细粒度图像分类已经获得巨大的发展,但对细粒度图像进行类别标记工作需要一定的专业认知能力。例如,只有鸟类专家才能对不同的鸟类进行准确的分类。这与通用型分类任务相比成本非常昂贵。同时在许多现实应用场景中,一些细粒度图像数据集中,某些类别中标记良好的训练样本有限。例如医学、军事和金融领域,由于隐私、安全等因素,往往无法获得大量带标注的训练样本,从而面临着如何利用少量样本完成细粒度图像分类的问题;另一方面,需要依赖大量数据的经典模型,只能对训练样本的类别进行分类。然而如果在训练中有一直从未出现的新类别,针对这些出现的新类别,其分类效果较差。在有限的训练数据下,对细粒度图像进行准确的分类仍然是一个重要的问题。因此,少样本细粒度(Few-Shot Fine-Grained,FSFG)图像分类成为热门的研究内容。
从更高层次来看,一,FSL方法不依赖于大规模的训练样本,从而避免在某些特定应用中数据采集的高昂成本;二,FSL可以缩小人类智能与AI之间的差距,是发展通用人工智能的必经之路;三,FSL可以为临时可用的少量样本的新兴任务实现低成本和快速的模型部署,有利于在任务的早期发现样本潜在的规律。
现在,少样本细粒度图像分类还存在许多难点需要解决。首先,样本量较少时会使得提取特征图的能力减弱,以及分类器的分类效果降低;其次,通用型图像分类模型不能适应少样本图像分类的训练,也不能获得满意的少样本图像分类网络;最后,因为通用型图像分类模型的专业性较差,不能满足少样本图像分类的真实应用场景。
发明内容
针对现有技术存在的上述问题,本发明要解决的技术问题是:少量样本完成细粒度图像分类的准确率低。
为解决上述技术问题,本发明采用如下技术方案:一种基于金字塔分离和双注意力的少样本细粒度图像分类方法,包括如下步骤:
一种金字塔分离双注意力的少样本细粒度图像分类方法,其特征在于,包括如下步骤:
S100:选取公开细粒度图像数据集D,从D中所包含的类别中随机选取N个图像类别,并对N个图像类别进行编号,对于每个图像类别都从D中选取K个同类别的图像样本,共计N*K个图像样本;将数量为N*K个图像样本作为支持集DS,表达式如下:
其中,xi表示DS中第i个图像样本,y表示第i个图像样本对应的标签,m表示支持集的图像样本总量,i=1,…,m;
从细粒度图像数据集D中选取数量为N*K′个图像样本作为查询集DQ,查询集DQ中的每个图像样本所属的图像类别不超过N的数量,查询集DQ的计算表达式如下:
其中,xj表示DQ中第j个样本图像,yj表示第j个样本图像对应的标签,n表示查询集的图像样本总量,j=1,…,n;
支持集DS中的图像样本和查询集DQ中的图像样本完全不重合;
S200:构建特征嵌入模块,分别将支持集DS和查询集DQ通过特征嵌入模块进行学习,得到支持集特征图和查询集特征图;
S300:分别将支持集特征图和查询集特征图利用金字塔分离模块得到支持集多尺度特征图fS和查询集多尺度特征图fQ,具体计算步骤如下:
S320:根据金字塔分离模块所包含的通道数量进行分组,并计算每个组的支持集多尺度特征表示,计算表达式如下:
Fp=(Xp)Conv(kp×kp,Gp),p=1,2,…,S (3)
其中,Fp表示第p组的支持集多尺度特征表示,Gp表示第p个组的大小,kp表示第p个卷积核的大小,Gp的表达式如下:
S330:将计算得到的所有组的支持集多尺度特征表示进行串联,得到支持集多尺度特征表示fS,表达式如下:
fS=Concat([F1,F2,…,Fp,…,FS]); (5)
利用金字塔分离模块计算得到查询集多尺度特征表示fQ,表达式如下:
fQ=Concat([F1,F2,…,Fq,…,FQ]); (6)
其中,Fq表示第q组的查询集多尺度特征表示,q=1,2,…,Q;
S400:构建双注意力模块,双注意力模块由并行的通道注意力模块和空间注意力模块组成;
S410:通过通道注意力模块计算fS的通道注意力特征图Wl c;通过空间注意力模块计算fS的空间注意力特征图Wl s;
S411:调整fS大小使其适合作为通道注意力模块的输入fS′;
S412:将fS′进行矩阵转置得到fS″,将fS′和fS″之间进行矩阵乘法运算,将矩阵乘法运算结果作为softmax函数的输入计算通道注意力图Ac,表达式如下:
其中,C表示通道数,t表示当前通道维度上原始特征表示的下标,l表示当前通道维度上原始特征表示转置后的下标;
S413:计算通道注意力特征图Wl c,计算表达式如下:
其中,α表示尺度参数;
S414:将fS输入标准的一层卷积函数,计算得到新的多尺度特征图B和新的多尺度特征图C;
S415:将新的多尺度特征图B的转置B′与C之间进行矩阵乘法运算,将矩阵乘法运算结果作为softmax函数的输入计算空间注意力图As,表达式如下:
其中,N表示像素数,t表示当前通道维度上原始特征表示的下标,l表示当前通道维度上原始特征表示转置后的下标;
S416:计算空间注意力特征图Wl s,计算表达式如下:
其中,β表示尺度参数,Dt表示第t个像素通过卷积操作产生的新特征图。
S420:将fS的通道注意力特征图和空间注意力特征图在通道维度上直接进行矩阵叠加操作,得到双注意力特征图dattp;
将fQ的通道注意力特征图和空间注意力特征图在通道维度上直接进行矩阵叠加操作,得到双注意力特征图dattq;
S430:利用sigmoid激活函数计算支持集多尺度双注意力特征嵌入,此处的支持集多尺度双注意力特征嵌入是指重新加权的支持集特征嵌入Yp,计算表达式如下:
Yp=dattp⊙Fp; (11)
利用sigmoid激活函数计算查询集多尺度双注意力特征嵌入,此处的查询集多尺度双注意力特征嵌入是指重新加权的查询集特征嵌入Yq,计算表达式如下:
Yq=dattq⊙Fq (12)
其中,符号⊙表示通道维度乘法;
S500:将重新加权的支持集特征嵌入Yp中每个类别包含的所有样本分别取平均值Ya,其中,a表示图像类别,a=1,2,...,N;
重新加权的查询集特征嵌入Yq中所包含的图像样本称为查询样本,将每个查询样本分别与Ya在通道维度上进行串联组合,得到多组查询样本与支持集样本关系对Yaj,其中,a=1,2,...,N;j=1,...,n;
S600:将Yaj,a=1,2,...,N;j=1,...,n输入到关系相似性度量模型中,计算每个样本关系对的相似性分数Saj,其中相似性分数Saj最高所对应的分类类别即为该查询样本的所属类别。
作为优选,所述S200中的得到支持集特征图和查询集特征图的具体步骤如下:
S220:将支持集DS通过卷积块1进行卷积运算,然后使用批量归一化方法和ReLU激活函数对卷积运算结果进行处理,对处理后的卷积运算结果进行最大池化操作,得到运算结果P1;
将P1作为卷积块2的输入进行卷积运算,使用与得到P1同样的方法得到运算结果P2;
将P2作为卷积块3的输入进行卷积运算,然后使用批量归一化方法和ReLU激活函数对卷积运算结果进行处理,得到运算结果P3;
将P3作为卷积块4的输入进行卷积运算,使用与得到P3同样的方法得到运算结果P4,P4即为支持集特征图;
批量归一化处理的目的是将数据映射到响应区间,接着使用ReLU激活函数,保留数据的关键信息同时去除噪音以提高鲁棒性。
作为优选,所述S600中将所有的样本关系对Yaj输入到关系相似性度量模型中,计算该查询样本的相似性分数Saj的具体步骤如下:
S610:建立关系相似性度量模型,该模型具体包含卷积块a、卷积块b和2个全连接层,卷积块a和卷积块b中分别都包含有64个3×3卷积核和1个2×2卷积核;
S620:将样本关系对输入到64个3×3卷积核进行卷积运算,然后将运算结果依次进行批量归一化和ReLU激活函数处理,接着利用1个2×2卷积核对批量归一化和ReLU激活函数的处理结果进行最大池化操作,得到卷积块a的输出;
S630:将卷积块a的输出作为卷积块b的输入,用卷积块b中的64个3×3卷积核对该输入进行卷积运算,然后将运算结果进行批量归一化和Sigmoid激活函数处理,接着利用卷积块b中的1个2×2卷积核对批量归一化和Sigmoid激活函数的处理结果进行最大池化操作,得到卷积块b的输出结果,则此时卷积块b的输出结果即为该样本关系对的相似性分数Saj。
该方法的优势在于针对细粒度图像的类间差异小类内差异大问题,通过相似性度量得到查询样本的相似性分数,其能够存在更好的相关性;最小化每一个mini-batch中每个查询样本到该类样本中心点的距离来达到缩小类内差距的效果。
相对于现有技术,本发明至少具有如下优点:
1.本发明方法在图像分类时对数据进行了随机分类,涵盖了所采用类别的所有可能性分类;然后利用金字塔分离模块,得到支持样本和查询样本的多尺度特征嵌入;接着基于双注意力机制,得到多尺度重新加权的特征嵌入;最后基于相似性度量计算查询样本与支持样本之间的相似性分数,从而得到查询样本的类别。
2.本发明方法使用具有不同卷积核大小的分组块作为金字塔分离模块,用于提取和融合细粒度图像不同感受野的多尺度特征信息;金字塔分离方法在于通过不同感受野的空间信息来丰富特征表示,解决了现有技术在特征嵌入上存在感受野单一的问题。
3.本发明方法使用的双注意力模块,可以加强细微可区分性特征表示的提取和嵌入表示能力,提高了特征表示的可辨别性,增强了可区分性区域的特征表示。
4.本发明方法中所述的针对细粒度图像的类间差异小类内差异大问题,通过相似性度量得到查询样本的相似性分数,其能够存在更好的相关性。
附图说明
图1为本发明方法的步骤说明;
图2为本发明的整体模型框架;
图3为本发明描述的特征嵌入模块;
图4为本发明描述相似性度量模块;
图5为实验效果对比(基于准确率);
图6为不同模块的消融实验和不同分组大小的实验效果(基于准确率);
图7为不同重新加权缩放大小的实验效果对比(基于准确率)。
具体实施方式
下面对本发明作进一步详细说明。
本发明方法描述了一种金字塔分离双注意力的少样本细粒度图像分类方法。该发明从现实的角度出发去模拟人类智能对少样本细粒度图像分类的真实情形,本发明使用金字塔分离来缓解单尺度卷积提取特征嵌入过程中存在的不足,接着引入双注意力机制中的上下文信息的影响,进一步加强特征图能力,从而使得特征更具有可区分性;同时利用相似性度量方法对不同的细粒度图像样本进行训练和学习。
在本发明方法中,少样本细粒度图像分类定义为N-way K-shot的任务:有N个类别,每个类别有K个样本用于训练或学习(即每个任务训练N×K个样本);让模型区分N个类别,并对每个类别的K个查询样本进行测试。少样本学习策略是将N-way K-shot作为目标集中的一个任务单元,在任务迭代过程中学习从几个样本中进行分类,作为一个基本的N-wayK-shot任务,输入数据可以表示为支持集和查询集。
参见图1-4,一种基于金字塔分离和双注意力的少样本细粒度图像分类方法,包括如下步骤:
S100:选取公开细粒度图像数据集D,本发明使用的公开数据集是CUB Birds数据集和Dogs数据集,从D中所包含的类别中随机选取N个图像类别,并对N个图像类别进行编号,对于每个图像类别都从D中选取K个同类别的图像样本,共计N*K个图像样本;将数量为N*K个图像样本作为支持集DS,表达式如下:
其中,xi表示DS中第i个图像样本,y表示第i个图像样本对应的标签,m表示支持集的图像样本总量,i=1,…,m;
从细粒度图像数据集D中选取数量为N*K′个图像样本作为查询集DQ,查询集DQ中的每个图像样本所属的图像类别不超过N的数量,查询集DQ的计算表达式如下:
其中,xj表示DQ中第j个样本图像,yj表示第j个样本图像对应的标签,n表示查询集的图像样本总量,j=1,…,n;
支持集DS中的图像样本和查询集DQ中的图像样本完全不重合;
S200:构建特征嵌入模块,分别将支持集DS和查询集DQ通过特征嵌入模块进行学习,得到支持集特征图和查询集特征图;
所述S200中的得到支持集特征图和查询集特征图的具体步骤如下:
S220:将支持集DS通过卷积块1进行卷积运算,然后使用批量归一化方法和ReLU激活函数对卷积运算结果进行处理,对处理后的卷积运算结果进行最大池化操作,得到运算结果P1;
将P1作为卷积块2的输入进行卷积运算,使用与得到P1同样的方法得到运算结果P2;
将P2作为卷积块3的输入进行卷积运算,然后使用批量归一化方法和ReLU激活函数对卷积运算结果进行处理,得到运算结果P3;
将P3作为卷积块4的输入进行卷积运算,使用与得到P3同样的方法得到运算结果P4,P4即为支持集特征图;
S300:分别将支持集特征图和查询集特征图利用金字塔分离模块得到支持集多尺度特征图fS和查询集多尺度特征图fQ,金字塔分离模块为现有技术,具体计算步骤如下:
S310:将支持集特征图在金字塔分离模块所包含的通道维度上被分成S个部分,表示为[X1,X2,…,Xp,…,XS],其中,表示第p个特征图;C′=C/S表示公共通道数量;通过这种分裂方式,可以并行处理多个尺度的输入张量,根据通道分组,然后对不同的组进行不同尺度的卷积,从而获得包含单一类型核的特征图;
S320:根据金字塔分离模块所包含的通道数量进行分组,并计算每个组的支持集多尺度特征表示,计算表达式如下:
Fp=(Xp)Conv(kp×kp,Gp),p=1,2,…,S (3)
其中,Fp表示第p组的支持集多尺度特征表示,Gp表示第p个组的大小,kp表示第p个卷积核的大小,Gp的表达式如下:
S330:将计算得到的所有组的支持集多尺度特征表示进行串联,得到支持集多尺度特征表示fS,表达式如下:
fS=Concat([F1,F2,…,Fp,…,FS]); (5)
利用金字塔分离模块计算得到查询集多尺度特征表示FQ,表达式如下:
fQ=Concat([F1,F2,…,Fq,…,FQ]); (6)
其中,Fq表示第q组的查询集多尺度特征表示,q=1,2,…,Q;
该方法的优势在于通过不同感受野的空间信息来丰富特征表示,增强样本量较少时提取特征表示的能力。
S400:构建双注意力模块,双注意力模块由并行的通道注意力模块和空间注意力模块组成;
S410:通过通道注意力模块计算fS的通道注意力特征图Wl c;通过空间注意力模块计算fS的空间注意力特征图Wl s;
S411:调整fS大小使其适合作为通道注意力模块的输入fS′;
S412:将fS′进行矩阵转置得到fS″,将fS′和fS″之间进行矩阵乘法运算,将矩阵乘法运算结果作为softmax函数的输入计算通道注意力图Ac,表达式如下:
其中,C表示通道数,t表示当前通道维度上原始特征表示的下标,l表示当前通道维度上原始特征表示转置后的下标;
S413:计算通道注意力特征图Wl c,计算表达式如下:
其中,α表示尺度参数;
S414:将fS输入标准的一层卷积函数,计算得到新的多尺度特征图B和新的多尺度特征图C;
S415:将新的多尺度特征图B的转置B′与C之间进行矩阵乘法运算,将矩阵乘法运算结果作为softmax函数的输入计算空间注意力图As,表达式如下:
其中,N表示像素数,t表示当前通道维度上原始特征表示的下标,l表示当前通道维度上原始特征表示转置后的下标;
S416:计算空间注意力特征图Wl s,计算表达式如下:
其中,β表示尺度参数,Dt表示第t个像素通过卷积操作产生的新特征图。
该方法的优势在于通道注意力提高了特征表示的可辨别性,使用具有依赖性的通道映射关系,使得特征表示具有特定语义表示;空间注意力对上下文信息进行编码,得到局部特征表示以此加强细微特征的嵌入表示能力。
S420:将fS的通道注意力特征图和空间注意力特征图在通道维度上直接进行矩阵叠加操作,得到双注意力特征图dattp;
将fQ的通道注意力特征图和空间注意力特征图在通道维度上直接进行矩阵叠加操作,得到双注意力特征图dattq;
S430:利用sigmoid激活函数计算支持集多尺度双注意力特征嵌入,sigmoid激活函数作为门控机制来规范权重向量;此处的支持集多尺度双注意力特征嵌入是指重新加权的支持集特征嵌入Yp,计算表达式如下:
Yp=dattp⊙Fp; (11)
利用sigmoid激活函数计算查询集多尺度双注意力特征嵌入,此处的查询集多尺度双注意力特征嵌入是指重新加权的查询集特征嵌入Yq,计算表达式如下:
Yq=dattq⊙Fq (12)
其中,符号⊙表示通道维度乘法;
S500:将重新加权的支持集特征嵌入Yp中每个类别包含的所有样本分别取平均值Ya,其中,a表示图像类别,a=1,2,...,N;
重新加权的查询集特征嵌入Yq中所包含的图像样本称为查询样本,将每个查询样本分别与Ya在通道维度上进行串联组合,得到多组查询样本与支持集样本关系对Yaj,其中,a=1,2,...,N;j=1,...,n;
S600:将Yaj,a=1,2,...,N;j=1,...,n输入到关系相似性度量模型中,计算每个样本关系对的相似性分数Saj,其中相似性分数Saj最高所对应的分类类别即为该查询样本的所属类别。
所述S600中将所有的样本关系对Yaj输入到关系相似性度量模型中,计算该查询样本的相似性分数Saj的具体步骤如下:
S610:建立关系相似性度量模型,该模型具体包含卷积块a、卷积块b和2个全连接层,卷积块a和卷积块b中分别都包含有64个3×3卷积核和1个2×2卷积核;
S620:将样本关系对输入到64个3×3卷积核进行卷积运算,然后将运算结果依次进行批量归一化和ReLU激活函数处理,接着利用1个2×2卷积核对批量归一化和ReLU激活函数的处理结果进行最大池化操作,得到卷积块a的输出;
S630:将卷积块a的输出作为卷积块b的输入,用卷积块b中的64个3×3卷积核对该输入进行卷积运算,然后将运算结果进行批量归一化和Sigmoid激活函数处理,接着利用卷积块b中的1个2×2卷积核对批量归一化和Sigmoid激活函数的处理结果进行最大池化操作,得到卷积块b的输出结果,则此时卷积块b的输出结果即为该样本关系对的相似性分数Saj。
2个卷积块的填充参数均设置为0。第一个FC层后跟ReLU激活函数,第二个FC层后跟Sigmoid激活函数;根据公式f(x)=max(0,x)和公式分别得到两个FC层的输入大小为576维和8维,最终输出大小为1维,即查询样本的所属类别。在训练时,将每个类原型(即在每个类别中支持图像特征的均值)与查询特征的特征进行连接,从而产生128维的关系对,将关系对传递到关系模块中,计算每个类别与查询样本之间的相似性关系分数S。
训练过程:首先对输入到深度神经网络模型中的数据进行增强处理,主要包括随机大小裁剪和随机水平翻转等,并将输入到嵌入特征模块的图像样本都重新调整大小为84×84,设置输入的通道数为3。因此输入图像样本的大小均为3x84x84,然后通过输入特征嵌入模块获得特征嵌入表示,接着将输出的特征嵌入表示输入到金字塔分离模块获得多尺度特征信息,再将输出输入到双注意力模块,并与原始的多尺度特征图进行矩阵乘法操作,得到最终的重新加权特征图,最后通过相似性度量模块获得分类结果。
训练时,使用Adam优化器最小化损失函数,根据公式 为训练任务计算和更新损失。初始学习率为10-3,权重衰退为0。1-shot分类任务和5-shot分类任务的训练迭代次数分别为60000次、40000次。训练达到最大迭代次数则停止训练。
实验验证
本发明选择的两个基准细粒度图像数据集,分别是CUB Birds和Dogs,按照比例2∶1∶1,将每个数据集都划分为3个部分,即训练集、验证集以及测试集。CUB-200-2011数据集,共200个类别以及11788张图像,按比例划分为3个部分的类别数量为100个训练类、50个验证类和50个测试类。Dogs数据集,包含来自世界各地120个品种(类别)的狗,总数为20580张图像。3个部分划分的类别数量为:60个训练类、30个验证类和30个测试类。评价指标为准确率Accuracy:准确率基于公式计算。
为了使得本发明的性能达到最优,首先对其自身的三个模块:金字塔分离(PS)模块、双注意力(DA)模块和重新加权(RS)模块进行消融实验。PS决定了特征嵌入的多尺度信息,DA权衡了细微可区分性特征对分类的影响,RS权衡了通道大小的作用,通过对不同的重新加权缩放和不同分组大小进行实验,找到了最优的参数值选择,当重新加权缩放为2、4、8及16,不同分组的大小为1、4、8、16时,本发明方法在细粒度图像数据集上的分类效果较好。
为了进一步验证本发明的有效性,将其与热门主流的少样本算法进行了对比,它们分别如下:
PN:将支持集的类别原型与查询样本之间进行距离度量。
DN4:基于局部描述符的图像到类的度量,其局部特征对分类结果产生很大影响。
CMN:一种新的基于协方差度量的少样本学习算法。
RN:经典的基于关系网络的少样本学习算法。
PABN:新颖的成对双线性池用于比较支持样本和查询查询之间的细微差别。
本发明提出的基于金字塔分离双注意力的少样本细粒度图像分类方法称作PSDAN。
参见图5、图6和图7,实验结果显示,无论是5-way 1-shot分类任务的准确率还是5-way 5-shot分类任务的准确率,本发明都明显优于其他的少样本学习算法,这表明本文提出的结合金字塔分离和基于双注意力机制的少样本细粒度图像分类方法是有效的。PABN算法只考虑了查询样本与支持样本之间的细微差别,在Birds数据集上,1-shot分类任务的准确率优于RN和PN,5-shot分类任务的准确率不如DN4算法。DN4是利用局部描述符的图像到类的度量,其局部特征对分类结果产生很大影响,而在Dogs数据集上,1-shot分类任务的准确率不如CMN算法,5-shot分类任务的准确率略优于CMN。极有可能是因为样本量增加,查询样本与支持样本之间的局部特征更加突显,而且对于不同的数据集,其性能存在巨大的差异。CMN一种新的基于协方差度量的少样本学习算法,在Birds数据集上1-shot和5-shot分类任务的准确率都优于PN算法。此外,CMN算法并没有考虑特征中独有的一些特征,如细微且可区分性的特征信息。
无论是CUB Birds数据集,还是Dogs数据集。经典的RN算法都处于中间水平,这样充分地表明了少样本学习用于细粒度图像分类的有效性,并且随着对少样本学习的深入研究而广泛应用于其他场景。本发明在RN的基础上加入了金字塔分离和双注意力机制,从人类智能的角度而非数学的角度对其进行扩展,使其性能得到提升。
简而言之,本发明提出了一种金字塔分离和双注意力的少样本细粒度图像分类方法,一方面考虑了单一尺度提取特征嵌入不充分的问题,另一方面使得特征嵌入更具细微且可区分性;本发明(PSDAN)的分类性能优于目前热门主流的少样本细粒度图像分类算法,可以运用到更多的生活场景,为需要较强专业知识的细粒度图像分类领域做出贡献。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种金字塔分离双注意力的少样本细粒度图像分类方法,其特征在于,包括如下步骤:
S100:选取公开细粒度图像数据集D,从D中所包含的类别中随机选取N个图像类别,并对N个图像类别进行编号,对于每个图像类别都从D中选取K个同类别的图像样本,共计N*K个图像样本;将数量为N*K个图像样本作为支持集DS,表达式如下:
其中,xi表示DS中第i个图像样本,y表示第i个图像样本对应的标签,m表示支持集的图像样本总量,i=1,…,m;
从细粒度图像数据集D中选取数量为N*K′个图像样本作为查询集DQ,查询集DQ中的每个图像样本所属的图像类别不超过N的数量,查询集DQ的计算表达式如下:
其中,xj表示DQ中第j个样本图像,yj表示第j个样本图像对应的标签,n表示查询集的图像样本总量,j=1,…,n;
支持集DS中的图像样本和查询集DQ中的图像样本完全不重合;
S200:构建特征嵌入模块,分别将支持集DS和查询集DQ通过特征嵌入模块进行学习,得到支持集特征图和查询集特征图;
S300:分别将支持集特征图和查询集特征图利用金字塔分离模块得到支持集多尺度特征图fS和查询集多尺度特征图fQ,具体计算步骤如下:
S320:根据金字塔分离模块所包含的通道数量进行分组,并计算每个组的支持集多尺度特征表示,计算表达式如下:
Fp=(Xp)Conv(kp×kp,Gp),p=1,2,…,S (3)
其中,Fp表示第p组的支持集多尺度特征表示,Gp表示第p个组的大小,kp表示第p个卷积核的大小,Gp的表达式如下:
S330:将计算得到的所有组的支持集多尺度特征表示进行串联,得到支持集多尺度特征表示fS,表达式如下:
fS=Concat([F1,F2,…,Fp,…,FS]); (5)
利用金字塔分离模块计算得到查询集多尺度特征表示fQ,表达式如下:
fQ=Concat([F1,F2,…,Fq,…,FQ]); (6)
其中,Fq表示第q组的查询集多尺度特征表示,q=1,2,…,Q;
S400:构建双注意力模块,双注意力模块由并行的通道注意力模块和空间注意力模块组成;
S410:通过通道注意力模块计算fS的通道注意力特征图Wl c;通过空间注意力模块计算fS的空间注意力特征图Wl s;
S411:调整fS大小使其适合作为通道注意力模块的输入fS′;
S412:将fS′进行矩阵转置得到fS″,将fS′和fS″之间进行矩阵乘法运算,将矩阵乘法运算结果作为softmax函数的输入计算通道注意力图Ac,表达式如下:
其中,C表示通道数,t表示当前通道维度上原始特征表示的下标,l表示当前通道维度上原始特征表示转置后的下标;
S413:计算通道注意力特征图Wl c,计算表达式如下:
其中,α表示尺度参数;
S414:将fS输入标准的一层卷积函数,计算得到新的多尺度特征图B和新的多尺度特征图C;
S415:将新的多尺度特征图B的转置B′与C之间进行矩阵乘法运算,将矩阵乘法运算结果作为softmax函数的输入计算空间注意力图As,表达式如下:
其中,N表示像素数,t表示当前通道维度上原始特征表示的下标,l表示当前通道维度上原始特征表示转置后的下标;
S416:计算空间注意力特征图Wl s,计算表达式如下:
其中,β表示尺度参数,Dt表示第t个像素通过卷积操作产生的新特征图。
S420:将fS的通道注意力特征图和空间注意力特征图在通道维度上直接进行矩阵叠加操作,得到双注意力特征图dattp;
将fQ的通道注意力特征图和空间注意力特征图在通道维度上直接进行矩阵叠加操作,得到双注意力特征图dattq;
S430:利用sigmoid激活函数计算支持集多尺度双注意力特征嵌入,此处的支持集多尺度双注意力特征嵌入是指重新加权的支持集特征嵌入Yp,计算表达式如下:
Yp=dattp⊙Fp; (11)
利用sigmoid激活函数计算查询集多尺度双注意力特征嵌入,此处的查询集多尺度双注意力特征嵌入是指重新加权的查询集特征嵌入Yq,计算表达式如下:
Yq=dattq⊙Fq (12)
其中,符号⊙表示通道维度乘法;
S500:将重新加权的支持集特征嵌入Yp中每个类别包含的所有样本分别取平均值Ya,其中,a表示图像类别,a=1,2,…,N;
重新加权的查询集特征嵌入Yq中所包含的图像样本称为查询样本,将每个查询样本分别与Ya在通道维度上进行串联组合,得到多组查询样本与支持集样本关系对Yaj,其中,a=1,2,…,N;j=1,…,n;
S600:将Yaj,a=1,2,…,N;j=1,…,n输入到关系相似性度量模型中,计算每个样本关系对的相似性分数Saj,其中相似性分数Sqj最高所对应的分类类别即为该查询样本的所属类别。
2.如权利要求1所述的一种基于金字塔分离和双注意力的少样本细粒度图像分类方法,其特征在于:所述S200中的得到支持集特征图和查询集特征图的具体步骤如下:
S220:将支持集DS通过卷积块1进行卷积运算,然后使用批量归一化方法和ReLU激活函数对卷积运算结果进行处理,对处理后的卷积运算结果进行最大池化操作,得到运算结果P1;
将P1作为卷积块2的输入进行卷积运算,使用与得到P1同样的方法得到运算结果P2;
将P2作为卷积块3的输入进行卷积运算,然后使用批量归一化方法和ReLU激活函数对卷积运算结果进行处理,得到运算结果P3;
将P3作为卷积块4的输入进行卷积运算,使用与得到P3同样的方法得到运算结果P4,P4即为支持集特征图;
3.如权利要求4所述的一种基于金字塔分离和双注意力的少样本细粒度图像分类方法,其特征在于:所述S600中将所有的样本关系对Yaj输入到关系相似性度量模型中,计算该查询样本的相似性分数Saj的具体步骤如下:
S610:建立关系相似性度量模型,该模型具体包含卷积块a、卷积块b和2个全连接层,卷积块a和卷积块b中分别都包含有64个3×3卷积核和1个2×2卷积核;
S620:将样本关系对输入到64个3×3卷积核进行卷积运算,然后将运算结果依次进行批量归一化和ReLU激活函数处理,接着利用1个2×2卷积核对批量归一化和ReLU激活函数的处理结果进行最大池化操作,得到卷积块a的输出;
S630:将卷积块a的输出作为卷积块b的输入,用卷积块b中的64个3×3卷积核对该输入进行卷积运算,然后将运算结果进行批量归一化和Sigmoid激活函数处理,接着利用卷积块b中的1个2×2卷积核对批量归一化和Sigmoid激活函数的处理结果进行最大池化操作,得到卷积块b的输出结果,则此时卷积块b的输出结果即为该样本关系对的相似性分数Saj。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210534058.9A CN114792385A (zh) | 2022-05-17 | 2022-05-17 | 一种金字塔分离双注意力的少样本细粒度图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210534058.9A CN114792385A (zh) | 2022-05-17 | 2022-05-17 | 一种金字塔分离双注意力的少样本细粒度图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114792385A true CN114792385A (zh) | 2022-07-26 |
Family
ID=82463232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210534058.9A Pending CN114792385A (zh) | 2022-05-17 | 2022-05-17 | 一种金字塔分离双注意力的少样本细粒度图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114792385A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100432A (zh) * | 2022-08-23 | 2022-09-23 | 浙江大华技术股份有限公司 | 一种小样本目标检测方法、设备及计算机可读存储介质 |
CN116824274A (zh) * | 2023-08-28 | 2023-09-29 | 江西师范大学 | 小样本细粒度图像分类方法及系统 |
-
2022
- 2022-05-17 CN CN202210534058.9A patent/CN114792385A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100432A (zh) * | 2022-08-23 | 2022-09-23 | 浙江大华技术股份有限公司 | 一种小样本目标检测方法、设备及计算机可读存储介质 |
CN115100432B (zh) * | 2022-08-23 | 2022-11-18 | 浙江大华技术股份有限公司 | 一种小样本目标检测方法、设备及计算机可读存储介质 |
CN116824274A (zh) * | 2023-08-28 | 2023-09-29 | 江西师范大学 | 小样本细粒度图像分类方法及系统 |
CN116824274B (zh) * | 2023-08-28 | 2023-11-28 | 江西师范大学 | 小样本细粒度图像分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | SCL-MLNet: Boosting few-shot remote sensing scene classification via self-supervised contrastive learning | |
CN108806792B (zh) | 深度学习面诊系统 | |
Sheykhivand et al. | Developing an efficient deep neural network for automatic detection of COVID-19 using chest X-ray images | |
CN108648191B (zh) | 基于贝叶斯宽度残差神经网络的害虫图像识别方法 | |
CN102156871B (zh) | 基于类别相关的码本和分类器投票策略的图像分类方法 | |
CN114792385A (zh) | 一种金字塔分离双注意力的少样本细粒度图像分类方法 | |
CN113221655B (zh) | 基于特征空间约束的人脸欺骗检测方法 | |
CN114038037B (zh) | 基于可分离残差注意力网络的表情标签修正和识别方法 | |
CN115098620B (zh) | 一种注意力相似度迁移的跨模态哈希检索方法 | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
Madhu et al. | Imperative dynamic routing between capsules network for malaria classification | |
CN112784921A (zh) | 任务注意力引导的小样本图像互补学习分类算法 | |
CN110443105A (zh) | 自体免疫抗体的免疫荧光影像型态识别方法 | |
Prayogo et al. | Classification of pneumonia from X-ray images using siamese convolutional network | |
CN115578626A (zh) | 基于混合注意力机制的多尺度图像篡改检测方法 | |
CN113011243A (zh) | 基于胶囊网络的面部表情分析方法 | |
CN113610118A (zh) | 一种基于多任务课程式学习的眼底图像分类方法、装置、设备及介质 | |
Pratama et al. | Deep convolutional neural network for hand sign language recognition using model E | |
CN115147640A (zh) | 一种基于改进胶囊网络的脑肿瘤图像分类方法 | |
CN117611599B (zh) | 融合中心线图和增强对比度网络的血管分割方法及其系统 | |
CN113220915B (zh) | 一种基于残差注意力的遥感图像检索方法及装置 | |
CN117611918A (zh) | 基于层次神经网络的海洋生物分类方法 | |
CN113011436A (zh) | 一种基于卷积神经网络的中医舌色苔色协同分类方法 | |
Anggoro et al. | Classification of Solo Batik patterns using deep learning convolutional neural networks algorithm | |
CN113409351B (zh) | 基于最优传输的无监督领域自适应遥感图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |