CN114092742B - 一种基于多角度的小样本图像分类装置和方法 - Google Patents
一种基于多角度的小样本图像分类装置和方法 Download PDFInfo
- Publication number
- CN114092742B CN114092742B CN202111402334.8A CN202111402334A CN114092742B CN 114092742 B CN114092742 B CN 114092742B CN 202111402334 A CN202111402334 A CN 202111402334A CN 114092742 B CN114092742 B CN 114092742B
- Authority
- CN
- China
- Prior art keywords
- view
- sample
- features
- image
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000011159 matrix material Substances 0.000 claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000007781 pre-processing Methods 0.000 claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000012549 training Methods 0.000 description 27
- 238000007477 logistic regression Methods 0.000 description 21
- 230000006872 improvement Effects 0.000 description 10
- 230000000295 complement effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及图像小样本分类技术领域,提供一种基于多角度的小样本图像分类装置和方法,对多平台图像集进行预处理后转化为特征向量,再进行等维度的线性映射,然后进行语义编码,并将语义编码信息加入到正视图、侧视图以及俯视图的中间特征中,并进行处理,获得各样本的自注意力特征矩阵;融合各样本的自注意力特征矩阵,根据预设的图像类别,对样本的融合特征进行分类识别,获得分类结果,分类结果为多平台图像集中的样本属于预设的图像类别的概率值。本发明能够有效地提取出语义信息更加丰富的特征表示,从而提高图像数据分类的效率和准确率,加快图像数据的自动化管理进程,对小样本深度学习具有较强的启发意义。
Description
技术领域
本发明涉及图像小样本分类技术领域,尤其涉及一种基于多角度的小样本图像分类装置和方法。
背景技术
小样本学习是元学习在监督学习领域的应用,其旨在训练计算机从而令计算机有学习某种任务的能力。小样本学习不同于传统的机器学习,其训练的不再是单纯地图像识别能力,而是训练其完成图像分类任务的能力。同样的,有training阶段以及test阶段。区别于传统机器学习的training,在小样本学习中,把该阶段定义为meta-training阶段,同样的,定义小样本学习中的test阶段为meta-testing阶段。在meta-training阶段将数据集分解为不同的meta-task,去学习类别变化的情况下模型的泛化能力,在meta-testing阶段,面对全新的类别,不需要变动已有的模型,就可以完成分类。
小样本学习的训练集中包含了很多的类别,每个类别中有多个样本。在训练阶段,会在训练集中随机抽取N个类别,每个类别K个样本(总共N*K个数据),构建一个元任务,作为模型的支撑集输入;再从这N个类中剩余的数据中抽取一批样本作为模型的预测对象(查询集)。即要求模型从N*K个数据中学会如何区分这N个类别,这样的任务被称为N-way K-shot问题。
训练过程中,每次训练都会采样得到不同元任务,所以总体来看,训练包含了不同的类别组合,这种机制使得模型学会不同元任务中的共性部分,比如如何提取重要特征及比较样本相似度,忘掉元任务中任务相关部分。通过这种学习机制学到的模型,在面对新的未见过的元任务时,也能较好地进行分类。
目前的小样本学习在图像领域大都在主流的数据集(如mini-imagene)进行实验,其方法并没有涉及面向多平台数据集时的操作。因此,在面对多平台数据集时,小样本深度学习网络欠缺高效提取多平台互补信息的方法。
发明内容
为了克服现有技术的不足,本发明旨在提供一种基于多角度的小样本图像分类装置和方法,以解决现有技术无法有效地提取出多平台互补信息的问题。
为了实现上述目的,本发明采用技术方案如下:
一种基于多角度的小样本图像分类方法,包括以下步骤:
步骤S101:对多平台图像集进行预处理,获得预处理图像集,预处理图像集包括样本的正视图、侧视图以及俯视图;
步骤S102:将正视图、侧视图以及俯视图转化为特征向量,获取正视图、侧视图以及俯视图的初始特征;
步骤S103:将正视图、侧视图以及俯视图的初始特征进行等维度的线性映射,获得正视图、侧视图以及俯视图的中间特征;
步骤S104:利对正视图、侧视图以及俯视图进行语义编码,并将语义编码信息加入到正视图、侧视图以及俯视图的中间特征中,获取正视图、侧视图以及俯视图的深层特征;
步骤S105:对正视图、侧视图以及俯视图的深层特征进行处理,获得各样本的自注意力特征矩阵;
步骤S106:融合各样本的自注意力特征矩阵,获取各样本用于分类的融合特征向量;
步骤S107:根据预设的图像类别,对样本的融合特征进行分类识别,获得分类结果,分类结果为多平台图像集中的样本属于预设的图像类别的概率值。
进一步的,多平台图像集为其中,yi∈{1,…,K}是多平台图像集第i个样本的标签,K为多平台图像集中样本类别的个数,N为多平台图像集样本的个数,/>为多平台图像集第i个样本的第v个视图。
进一步的,基于裁剪尺寸对多平台图像集进行中心裁剪,保留裁剪的结果;然后,根据裁剪的结果筛选出各类别样本在各视角下能够完全呈现样本所有信息的最小裁剪尺寸,再将所有经最小尺寸裁剪之后的图像的像素放缩到{c6*c6},c6为512,再将放缩后的图像进行裁剪尺寸为{r1*r1}的随机裁剪,1为336;最后,对随机裁剪的图像像素进行放缩,放缩的尺寸为{224*224},得到预处理图像集。
进一步的,步骤102具体过程为:提取样本的正视图、侧视图以及俯视图的语义信息,将样本的正视图、侧视图以及俯视图的语义信息转化为特征向量,获取所述正视图、侧视图以及俯视图的初始特征。
进一步的,步骤S103中正视图、侧视图以及俯视图的中间特征通过下式计算:
mf=of*W1
ms=os*W2
mt=ot*W3
式中,of、os、ot分别为正视图、侧视图以及俯视图的初始特征,mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征,W1、W2、W3分别为正视图、侧视图以及俯视图的参数矩阵。
进一步的,步骤S104中正视图、侧视图以及俯视图的深层特征通过下式计算:
df=mf+V1
ds=ms+V2
dt=mt+V3
式中,df、ds、dt分别为正视图、侧视图以及俯视图的深层特征,mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征,V1、V2、V3分别为正视图、侧视图以及俯视图的编码信息。
进一步的,步骤S105中,各样本的自注意力特征矩阵通过下式计算:
X=(df||ds||dt)
Q=XWQ
K=XWK
V=XWV
式中,df、ds、dt分别为正视图、侧视图以及俯视图的深层特征,X为样本特征矩阵,WQ、WK、WV分别为注意力机制中的查询参数矩阵、键参数矩阵以及值参数矩阵,Q,K,V分别为注意力机制中的查询矩阵、键矩阵以及值矩阵,SA为自注意力特征矩阵,dK为Q、K的列数,Softmax为归一化函数。
进一步的,步骤S107中多平台图像集中的样本属于预设的图像类别的概率值通过下式计算:
式中,ck为元任务支持集类别k下的类原型,为元任务支持集类别k下由各样本用于分类的融合特征向量以及类别标签构造出的数据集,/>为元任务支持集类别k下各样本用于分类的融合特征向量,Ns为类别k下样本的数目,/>为元任务查询集下各样本用于分类的融合特征向量,/>为该元任务中查询集的样本j同支持集中类别k的原型表示的欧氏距离。pφ(yj=k|x)为该元任务中查询集的样本j所属类别k的概率。
一种基于多角度的小样本图像分类装置,包括:
预处理模块,用于对多平台图像集进行预处理,获得预处理图像集,预处理图像集包括样本的正视图、侧视图以及俯视图;
特征提取器模块,用于将正视图、侧视图以及俯视图转化为特征向量,获取正视图、侧视图以及俯视图的初始特征;
等维线性映射模块,用于将正视图、侧视图以及俯视图的初始特征进行等维度的线性映射,获得正视图、侧视图以及俯视图的中间特征;
视图编码模块,用于利对正视图、侧视图以及俯视图进行语义编码,并将语义编码信息加入到正视图、侧视图以及俯视图的中间特征中,获取正视图、侧视图以及俯视图的深层特征;
自注意力机制模块,用于对正视图、侧视图以及俯视图的深层特征进行处理,获得各样本的自注意力特征矩阵;
全局平均池化模块,用于融合各样本的自注意力特征矩阵,获取各样本用于分类的融合特征向量;
分类器,用于根据预设的图像类别,对样本的融合特征进行分类识别,获得分类结果,分类结果为多平台图像集中的样本属于预设的图像类别的概率值。
与现有技术相比,本发明具有的有益效果为:
本发明针对多角度的图像数据,基于图像数据的正视图、侧视图以及俯视图,通过自注意力机制融合多个视图信息,能够有效地提取出语义信息更加丰富的特征表示,从而提高图像数据分类的效率和准确率,加快图像数据的自动化管理进程,对小样本深度学习具有较强的启发意义。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的CVCP模型结构示意图;
图2为本发明实施例提供的CVCLR模型结构示意图;
图3为本发明实施例提供的在小样本情况下基于多平台的图像分类方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行完整、清楚的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例第一方面提供一种基于多角度的小样本图像分类装置,具体包括:预处理模块、特征提取器模块、等维线性映射模块、视图编码模块、自注意力机制模块、全局平均池化模块和原型网络分类器。
本发明提供一种基于多角度的小样本图像分类装置,具体包括:预处理模块、特征提取器模块、等维线性映射模块、视图编码模块、自注意力机制模块、全局平均池化模块和分类器。
预处理模块,用于对多平台图像集进行预处理,获得预处理图像集,预处理图像集包括样本的正视图、侧视图以及俯视图;
特征提取器模块,用于将正视图、侧视图以及俯视图转化为特征向量,获取正视图、侧视图以及俯视图的初始特征;
等维线性映射模块,用于将正视图、侧视图以及俯视图的初始特征进行等维度的线性映射,获得正视图、侧视图以及俯视图的中间特征;
视图编码模块,用于利对正视图、侧视图以及俯视图进行语义编码,并将语义编码信息加入到正视图、侧视图以及俯视图的中间特征中,获取正视图、侧视图以及俯视图的深层特征;
自注意力机制模块,用于对正视图、侧视图以及俯视图的深层特征进行处理,获得各样本的自注意力特征矩阵;
全局平均池化模块,用于融合各样本的自注意力特征矩阵,获取各样本用于分类的融合特征向量;
分类器,用于根据预设的图像类别,对样本的融合特征进行分类识别,获得分类结果,分类结果为多平台图像集中的样本属于预设的图像类别的概率值。
参见图3,为本发明实施例提供的一种在小样本情况下基于多平台的图像分类方法流程示意图。本发明实施例第二方面提供一种基于多角度的小样本图像分类方法,用于指导操作本发明实施例第一方面提供的一种基于多角度的小样本图像分类装置,对于本发明实施例第二方面提供的一种基于多角度的小样本图像分类中未公开的细节,请参见本发明实施例第一方面提供的一种基于多角度的小样本图像分类装置。
所述一种基于多角度的小样本图像分类方法,具体包括:
步骤S101:利用预处理模块对多平台图像集进行预处理,获得预处理图像集,预处理图像集包括样本的正视图、侧视图以及俯视图。
步骤S102:利用特征提取器模块将正视图、侧视图以及俯视图转化为特征向量,以获取所述正视图、侧视图以及俯视图的初始特征。
步骤S103:利用等维线性映射模块将正视图、侧视图以及俯视图的初始特征进行等维度的线性映射,获得正视图、侧视图以及俯视图的中间特征;
步骤S104:利对正视图、侧视图以及俯视图进行语义编码,并将语义编码信息加入到正视图、侧视图以及俯视图的中间特征中,获取正视图、侧视图以及俯视图的深层特征;
步骤S105:对正视图、侧视图以及俯视图的深层特征进行处理,获得各样本的自注意力特征矩阵;
步骤S106:利用全局平均池化模块融合所述各样本的自注意力特征矩阵,获取各样本用于分类的融合特征向量;
步骤S107:根据预设的图像类别,对样本的融合特征进行分类识别,获得分类结果,分类结果为多平台图像集中的样本属于预设的图像类别的概率值。
进一步的,所述原型网络分类器依托在小样本学习框架中,即对于每个元任务,都存在一个在该特定元任务下的分类器。
进一步的,所述分类器为原型网络分类器或者逻辑回归分类器。
具体的,当所述分类器为原型网络分类器时,本发明实施例基于多平台图像集中样本的正视图、侧视图以及俯视图,提出面向多平台图像数据且基于原型网络分类器的交叉视图分类器模型(Cross-View Classifier based Prototype,CVCP)。所述多平台图像集为 其中,yi∈{1,…,K}是多平台图像数据第i个样本的标签,K为多平台图像集中样本类别的个数,N为多平台图像集样本的个数,/>为多平台图像数据第i个样本的第v个视图。参见图1,为本发明实施例提供的CVCP模型结构示意图。
从图1可以看出,CVCP模型由一个预处理模块、一个特征提取器模块、一个等维线性映射模块、一个视图编码模块、一个自注意力机制模块、一个全局平均池化模块和一个原型网络分类器构成。
所述预处理模块,用于对多平台图像数据进行预处理,获得预处理图像集,所述预处理图像集包括正视图、侧视图以及俯视图。
具体的,本发明实施例中多平台图像集中数据包括样本的正视图、侧视图以及俯视图。为得到预处理图像集,本发明实施例在预处理模块提出了一种基于裁剪尺寸等级的图像预处理方法。
首先,将裁剪尺寸划分为五个等级,分别记为{c1*c1}、{c2*c2}、{c3*c3}、{c4*c4}、{c5*c5};其中,c1为640,c2为800,c3为1152,c4为1600,c5为2048,然后,基于此五个等级分别对多平台图像集进行中心裁剪,保留裁剪的结果;然后,根据裁剪的结果筛选出各类别样本在各视角下能够完全呈现样本所有信息的最小裁剪尺寸,即各类别各视角在其最小尺寸下的裁剪图像可以呈现出完整物体;再然后,将所有经最小尺寸裁剪之后的图像的像素放缩到{c6*c6},c6为512,从而方便下一步的预处理;再然后,将放缩后的图像进行裁剪尺寸为{r1*r1}的随机裁剪,1为336;最后,对随机裁剪的图像像素进行放缩,放缩的尺寸为{224*224},以保证图像能成功输入到之后的预训练模型中,得到预处理图像集,预处理图像集包括样本的正视图、侧视图以及俯视图,预处理模块主要分为中心裁剪以及随机裁剪两种裁剪方式。前者是保证样本图像可以完整落在裁剪域中;后者旨在提升模型的难度,期望模型在后面可以学习到更强大的不同视图间的互补能力。
进一步的,所述特征提取器模块,用于将样本的正视图、侧视图以及俯视图转化为特征向量,以获取所述正视图、侧视图以及俯视图的初始特征。
具体的,特征提取器模块由ViT预训练模型或其他视觉预训练模型组成,用于提取样本的正视图、侧视图以及俯视图的语义信息,将样本的正视图、侧视图以及俯视图的语义信息转化为特征向量,以获取所述正视图、侧视图以及俯视图的初始特征。
特征提取器通过将尺寸为{224*224}的图像拆分成多个像素大小为{16*16}的更小patch(图像片段),然后直接运用标准的transformer(转换)框架,做最小的改动,基于图像片段形成线性表示(linear embedding)序列,并将该线性表示序列输入到预训练模型ViT中,输出得到特征向量,即初始特征。
进一步的,所述等维线性映射模块,用于将特征向量进行等维度的线性映射,将所述正视图、侧视图以及俯视图的初始特征表示各自进行等维的线性映射,得到该所述视图下的中间特征。
具体的,所述等维线性映射模块的线性映射的方法为:
mf=of*W1
ms=os*W2
mt=ot*W3
式中,of、os、ot分别为正视图、侧视图以及俯视图的初始特征,mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征,W1、W2、W3分别为正视图、侧视图以及俯视图的参数矩阵。
进一步的,所述视图编码模块,用于对所述正视图、侧视图以及俯视图的各视图进行语义编码,以获取所述各视图的视图信息,并将编码信息融合到所述各视图中间特征中,以得到各视图的深层特征。
具体的,所述视图编码模块的获得深层特征的计算方法为:
df=mf+V1
ds=ms+V2
dt=mt+V3
式中,df、ds、dt分别为正视图、侧视图以及俯视图的深层特征,mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征,V1、V2、V3分别为正视图、侧视图以及俯视图的编码信息。
进一步的,所述自注意力机制模块各样本根据所述正视图、所述侧视图以及所述俯视图视图的深层特征获得所属各样本的特征矩阵,此特征矩阵通过线性映射依次获得该样本的查询矩阵(Query)、键矩阵(Key)和值矩阵(Value),再利用放缩点积注意力机制获得各样本的自注意力特征矩阵,所述自注意力机制模块的具体计算方法为:
X=(df||ds||dt)
Q=XWQ
K=XWK
V=XWV
式中,df、ds、dt分别为正视图、侧视图以及俯视图的深层特征,X为样本特征矩阵,WQ、WK、WV分别为注意力机制中的查询参数矩阵、键参数矩阵以及值参数矩阵,Q,K,V分别为注意力机制中的查询矩阵、键矩阵以及值矩阵,SA为自注意力特征矩阵,dK为Q、K的列数,Softmax为归一化函数。
具体的,自注意力机制模块是本发明实施例所述多平台图像数据分类装置的主要部分。这个模块通过所述各视图特征生成样本的特征矩阵,并基于此样本特征矩阵生成查询矩阵、键矩阵以及值矩阵,然后借助放缩点积注意力机制得到自注意力特征矩阵,再将自注意力特征矩阵输入到全局平均池化模块中。
进一步的,所述全局平均池化模块用于将根据各样本的自注意力特征矩阵,进行池化操作,得到各样本用于分类的融合特征向量。
具体的,记所述自注意力机制模块得到的自注意力特征矩阵维度为{3,dK}。其中,3即位所述视图的个数,由视图构成成分为正视图、侧视图以及俯视图得到;dK为某一视图下其特征向量的维度。记自注意力特征矩阵的第一个维度为视图维度,第二个维度为特征维度。将自注意力特征矩阵的视图维度,进行全局平均池化操作,池化后的特征即为融合特征向量。所述融合特征向量维度为dK,可以反映出三个视图的互补信息。
进一步的,所述原型网络分类器,用于根据预设的图像类别,对所述融合特征向量进行分类识别,获得分类结果,所述分类结果为所述图像数据属于所述预设的图像类别的概率值。
具体的,所述原型网络分类器基于小样本深度学习网络架构进行搭建,其具体的计算方法为:
式中,ck为元任务支持集类别k下的类原型,为元任务支持集类别k下由各样本用于分类的融合特征向量以及类别标签构造出的数据集,/>为元任务支持集类别k下各样本用于分类的融合特征向量,NS为类别k下样本的数目,/>为元任务查询集下各样本用于分类的融合特征向量,/>为该元任务中查询集的样本j同支持集中类别k的原型表示的欧氏距离。pφ(yj=k|x)为该元任务中查询集的样本j所属类别k的概率。
所述原型网络分类器并没有在原有架构上增加网络参数,之后的反向传播过程只对所述等维线性映射模块、视图编码模块、自注意力机制模块的网络参数进行更新。
进一步的,通过pφ(yj=k|x)计算交叉熵损失函数,基于损失函数进行反向传播,从而对CVCP模型进行训练。
为了进一步提高分类的精度,本发明实施例以基于原型网络分类器的交叉视图分类器模型(Cross-View Classifier based Prototype,CVCP)为基础,进一步提出基于逻辑回归分类器的交叉视图分类器模型(Cross-View Classifier based LR,CVCLR)。
具体的,假设多平台图像数据训练集为其中,yi∈{1,…,K}是多平台图像数据第i个样本的标签,K为训练集中样本类别的个数,N为训练集样本的个数,/>为多平台图像数据第i个样本的第v个视图。
参见图2,为本发明实施例提供的CVCLR模型结构示意图。由图2可以看出,CVCLR模型由一个预处理模块、一个特征提取器模块、一个等维线性映射模块、一个视图编码模块、一个自注意力机制模块、一个全局平均池化模块和一个逻辑回归分类器构成,其中,逻辑回归分类器即为图中所述LR分类器。CVCLR模型的预处理模块、特征提取器模块、等维线性映射模块、视图编码模块、自注意力机制模块、全局平均池化模块的结构与CVCP模型的结构完全相同。不同的是,CVCLR模型通过一个逻辑回归分类器来获取分类结果。所述逻辑回归分类器同所述原型网络分类器不同,其需要学习参数完成分类任务。
进一步的,所述逻辑回归分类器也是在小样本深度学习网络框架中搭建。所述小样本学习下的逻辑回归分类器对于不同的元任务,搭建不同的分类器。即每个元任务都有所对应的逻辑回归分类器,所述逻辑回归分类器在每个元任务下都要重新初始化分类器参数,重新开始以元任务中的支持集数据训练分类器参数,并对元任务中查询集数据进行预测,得到分类结果。
具体的,所述以逻辑回归分类器进行分类的过程要对每个元任务初始化参数,然后进行训练,因此无法搭建成端到端的算法平台。所述CVCLR模型的网络参数来自于特征提取器模块、等维线性映射模块、视图编码模块、自注意力机制模块、逻辑回归分类器模块。所述特征提取器模块由预训练模型ViT组成,网络参数可以直接迁移预训练的网络参数;所述逻辑回归分类器只需要在每个元任务中进行训练;所以,所述CVCLR模型所需要基于梯度下降进行学习的网络参数来自等维线性映射模块、视图编码模块、自注意力机制模块。所述等维线性映射模块、所述视图编码模块、所述自注意力机制模块的网络参数可以从CVCP模型中得到。即,所述CVCLR模型需要先训练所述CVCP模型,得到用于视图特征融合的网络参数,再将CVCP模型中原型网络分类器替换为逻辑回归分类器,以提升模型预测的准确度。所述逻辑回归分类器的具体计算方法为:
式中,LR为待训练的逻辑回归分类器,为元任务支持集类别k下由各样本用于分类的融合特征向量以及类别标签构造出的数据集,/>为元任务查询集类别k下由各样本用于分类的融合特征向量以及类别标签构造出的数据集,/>为元任务支持集类别k下样本i用于分类的融合特征向量,zQ为元任务查询集下各样本用于分类的融合特征向量,clf为该元任务中通过支持集数据训练好的逻辑回归分类器,pφ(yj=k|x)为该元任务中查询集的样本j所属类别k的概率。
下面将通过具体实施例,对本发明实施例所提供的一种基于多角度的小样本图像分类装置和方法进行详细阐述。
本发明具体实施例使用自己搭建的多平台图像数据集验证本发明所述的一种基于多角度的小样本图像分类装置和方法。上述多平台图像数据集包含飞机、坦克、导弹、潜艇等共计25类图像,每类图像样本数量为20-40。本发明具体实施例将15类记为训练集、6类作为验证集、4类作为测试集。并分别从正视图、侧视图以及俯视图三个平台来刻画多平台图像数据,网络训练采用Adam优化器,学习率为1*10-4,小样本学习中各元任务抽样的类别数为3类。
将本发明具体实施例与单平台模型(front、side、top)、简单全局平均池化模型(GAP)、协同训练模型(Co-Training,CoT)进行比较。
具体的,所述单平台模型由一个预处理模块、一个特征提取器模块、一个分类器模块构成。所述预处理模块采用基于裁剪尺寸等级的图像预处理方式;所述特征提取器模块为预训练模型ViT;所述分类器为原型网络分类器或者逻辑回归分类器。所述单一视图图像数据基于所述单平台模型的映射直接得到该视图的分类结果。所述单平台的视图可选择为正视图、侧视图、俯视图。
具体的,所述简单全局平均池化模型由一个预处理模块、一个特征提取器模块、一个全局平均池化模块、一个分类器模块构成。所述预处理模块采用基于裁剪尺寸等级的图像预处理方式;所述特征提取器模块为预训练模型ViT;所述全局平均池化模块由一层全局平均池化层构成,用于将各视图特征进行平均池化处理;所述分类器为原型网络分类器或者逻辑回归分类器。
具体的,所述协同训练模型由一个预处理模块、一个特征提取器模块、三个分类器模块、一个协同正则模块构成。所述预处理模块采用基于裁剪尺寸等级的图像预处理方式;所述特征提取器模块为预训练模型ViT;所述分类器为原型网络分类器或者逻辑回归分类器,所述三个分类器分别对应三个视图;所述协同正则模块将所述三个分类器模块的结果进行整合,基于分类器决策得到新的决策进行最后的分类。
进一步的,所述单平台模型可以看作所述简单全局平均池化模型的消融实验;所述简单全局平均池化模型可以看作所述CVCP模型模型、所述CVCLR模型的消融实验。
本发明具体实施例中,在多平台图像数据集基础上,将CVCP模型、CVCLR模型与平台模型、简单全局平均池化模型、协同训练模型进行比较。
具体的,所述CVCP模型与所述比较方法进行比较时,所述比较方法的分类器选择为原型网络分类器,最终得到的实验结果如表1所示。从表1的实验结果可以看出,CVCP模型相对于以正视图为单平台数据的单平台模型front在2-shot任务中准确率提升为13.26%,在5-shot任务中提升率为9.97%;相对于单平台模型side在2-shot任务中准确率提升为12.49%,在5-shot任务中提升率为12.13%;相对于单平台模型top在2-shot任务中准确率提升为13.08%,在5-shot任务中提升率为11.23%;相对于GAP在2-shot任务中准确率提升为5.64%,在5-shot任务中提升率为2.87%;相对于GAP在2-shot任务中准确率提升为6.18%,在5-shot任务中提升率为2.47%。实验结果表明不同的视图通常包含不同的信息,CVCP模型有助于提取到更丰富的语义特征。
表1 CVCP模型同比较方法结果
Model | 2-shot | 5-shot |
front | 68.64 | 79.63 |
side | 69.41 | 77.47 |
top | 68.82 | 78.37 |
GAP | 76.26 | 86.73 |
CoT | 75.72 | 87.13 |
CVCP | 81.90 | 89.60 |
具体的,所述CVCLR模型与所述比较方法进行比较时,所述比较方法的分类器选择为逻辑回归分类器,最终得到的实验结果如表2所示。从表2的实验结果可以看出,CVCLR模型相对于以正视图为单平台数据的单平台模型front在2-shot任务中准确率提升为12.67%,在5-shot任务中提升率为9.37%;相对于单平台模型side在2-shot任务中准确率提升为11.54%,在5-shot任务中提升率为8.70%;相对于单平台模型top在2-shot任务中准确率提升为12.82%,在5-shot任务中提升率为11.93%;相对于GAP在2-shot任务中准确率提升为3.80%,在5-shot任务中提升率为0.20%;相对于GAP在2-shot任务中准确率提升为5.67%,在5-shot任务中提升率为1.20%。虽然所述CVCLR模型相对于所述对比模型的提升效果没有CVCP模型大,但是CVCLR模型的准确率相对于CVCP模型更高。
表2 CVCLR模型同比较方法结果
由上述技术方案可知,本发明提供一种基于多角度的小样本图像分类装置和方法,针对多角度的图像数据,提出了基于自注意力机制的多平台图像数据分类模型,该模型基于图像数据的正视图、侧视图以及俯视图,通过自注意力机制融合多个视图信息,能够有效地提取出语义信息更加丰富的特征表示,从而提高图像数据分类的效率和准确率,加快图像数据的自动化管理进程,对小样本深度学习具有较强的启发意义。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。
Claims (4)
1.一种基于多角度的小样本图像分类方法,其特征在于,包括以下步骤:
步骤S101:对多平台图像集进行预处理,获得预处理图像集,预处理图像集包括样本的正视图、侧视图以及俯视图;
步骤S102:将正视图、侧视图以及俯视图转化为特征向量,获取正视图、侧视图以及俯视图的初始特征;
步骤S103:将正视图、侧视图以及俯视图的初始特征进行等维度的线性映射,获得正视图、侧视图以及俯视图的中间特征;
步骤S104:利对正视图、侧视图以及俯视图进行语义编码,并将语义编码信息加入到正视图、侧视图以及俯视图的中间特征中,获取正视图、侧视图以及俯视图的深层特征;
步骤S105:对正视图、侧视图以及俯视图的深层特征进行处理,获得各样本的自注意力特征矩阵;
步骤S106:融合各样本的自注意力特征矩阵,获取各样本用于分类的融合特征向量;
步骤S107:根据预设的图像类别,对样本的融合特征进行分类识别,获得分类结果,分类结果为多平台图像集中的样本属于预设的图像类别的概率值;
步骤102具体过程为:提取样本的正视图、侧视图以及俯视图的语义信息,将样本的正视图、侧视图以及俯视图的语义信息转化为特征向量,获取所述正视图、侧视图以及俯视图的初始特征;
步骤S103中正视图、侧视图以及俯视图的中间特征通过下式计算:
mf=of*W1
ms=os*W2
mt=ot*W3
式中,of、os、ot分别为正视图、侧视图以及俯视图的初始特征,mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征,W1、W2、W3分别为正视图、侧视图以及俯视图的参数矩阵;
步骤S104中正视图、侧视图以及俯视图的深层特征通过下式计算:
df=mf+V1
ds=ms+V2
dt=mt+V3
式中,df、ds、dt分别为正视图、侧视图以及俯视图的深层特征,mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征,V1、V2、V3分别为正视图、侧视图以及俯视图的编码信息;
各样本的自注意力特征矩阵通过下式计算:
X=(df||ds||dt)
Q=XWQ
K=XWK
V=XWV
式中,df、ds、dt分别为正视图、侧视图以及俯视图的深层特征,X为样本特征矩阵,WQ、WK、WV分别为注意力机制中的查询参数矩阵、键参数矩阵以及值参数矩阵,Q,K,V分别为注意力机制中的查询矩阵、键矩阵以及值矩阵,SA为自注意力特征矩阵,dK为Q、K的列数,Softmax为归一化函数;
步骤S107中多平台图像集中的样本属于预设的图像类别的概率值通过下式计算:
式中,ck为元任务支持集类别k下的类原型,为元任务支持集类别k下由各样本用于分类的融合特征向量以及类别标签构造出的数据集,/>为元任务支持集类别k下各样本用于分类的融合特征向量,NS为类别k下样本的数目,/>为元任务查询集下各样本用于分类的融合特征向量,/>为该元任务中查询集的样本j同支持集中类别k的原型表示的欧氏距离,pφ(yj=k|x)为该元任务中查询集的样本j所属类别k的概率。
2.根据权利要求1所述的一种基于多角度的小样本图像分类方法,其特征在于,多平台图像集为其中,/>是多平台图像集第i个样本的标签,K为多平台图像集中样本类别的个数,N为多平台图像集样本的个数,/>为多平台图像集第i个样本的第v个视图。
3.根据权利要求1所述的一种基于多角度的小样本图像分类方法,其特征在于,基于裁剪尺寸对多平台图像集进行中心裁剪,保留裁剪的结果;然后,根据裁剪的结果筛选出各类别样本在各视角下能够完全呈现样本所有信息的最小裁剪尺寸,再将所有经最小尺寸裁剪之后的图像的像素放缩到{c6*c6},c6为512,再将放缩后的图像进行裁剪尺寸为{r1*r1}的随机裁剪,r1为336;最后,对随机裁剪的图像像素进行放缩,放缩的尺寸为{224*224},得到预处理图像集。
4.一种基于多角度的小样本图像分类装置,其特征在于,包括:
预处理模块,用于对多平台图像集进行预处理,获得预处理图像集,预处理图像集包括样本的正视图、侧视图以及俯视图;
特征提取器模块,用于将正视图、侧视图以及俯视图转化为特征向量,获取正视图、侧视图以及俯视图的初始特征;
等维线性映射模块,用于将正视图、侧视图以及俯视图的初始特征进行等维度的线性映射,获得正视图、侧视图以及俯视图的中间特征;
视图编码模块,用于利对正视图、侧视图以及俯视图进行语义编码,并将语义编码信息加入到正视图、侧视图以及俯视图的中间特征中,获取正视图、侧视图以及俯视图的深层特征;
自注意力机制模块,用于对正视图、侧视图以及俯视图的深层特征进行处理,获得各样本的自注意力特征矩阵;
全局平均池化模块,用于融合各样本的自注意力特征矩阵,获取各样本用于分类的融合特征向量;
分类器,用于根据预设的图像类别,对样本的融合特征进行分类识别,获得分类结果,分类结果为多平台图像集中的样本属于预设的图像类别的概率值;
步骤102具体过程为:提取样本的正视图、侧视图以及俯视图的语义信息,将样本的正视图、侧视图以及俯视图的语义信息转化为特征向量,获取所述正视图、侧视图以及俯视图的初始特征;
步骤S103中正视图、侧视图以及俯视图的中间特征通过下式计算:
mf=of*W1
ms=os*W2
mt=ot*W3
式中,of、os、ot分别为正视图、侧视图以及俯视图的初始特征,mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征,W1、W2、W3分别为正视图、侧视图以及俯视图的参数矩阵;
步骤S104中正视图、侧视图以及俯视图的深层特征通过下式计算:
df=mf+V1
ds=ms+V2
dt=mt+V3
式中,df、ds、dt分别为正视图、侧视图以及俯视图的深层特征,mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征,V1、V2、V3分别为正视图、侧视图以及俯视图的编码信息;
各样本的自注意力特征矩阵通过下式计算:
X=(df||ds||dt)
Q=XWQ
K=XWK
V=XWV
式中,df、ds、dt分别为正视图、侧视图以及俯视图的深层特征,X为样本特征矩阵,WQ、WK、WV分别为注意力机制中的查询参数矩阵、键参数矩阵以及值参数矩阵,Q,K,V分别为注意力机制中的查询矩阵、键矩阵以及值矩阵,SA为自注意力特征矩阵,dK为Q、K的列数,Softmax为归一化函数;
步骤S107中多平台图像集中的样本属于预设的图像类别的概率值通过下式计算:
式中,ck为元任务支持集类别k下的类原型,为元任务支持集类别k下由各样本用于分类的融合特征向量以及类别标签构造出的数据集,/>为元任务支持集类别k下各样本用于分类的融合特征向量,NS为类别k下样本的数目,/>为元任务查询集下各样本用于分类的融合特征向量,/>为该元任务中查询集的样本j同支持集中类别k的原型表示的欧氏距离,pφ(yj=k|x)为该元任务中查询集的样本j所属类别k的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111402334.8A CN114092742B (zh) | 2021-11-19 | 2021-11-19 | 一种基于多角度的小样本图像分类装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111402334.8A CN114092742B (zh) | 2021-11-19 | 2021-11-19 | 一种基于多角度的小样本图像分类装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114092742A CN114092742A (zh) | 2022-02-25 |
CN114092742B true CN114092742B (zh) | 2024-02-06 |
Family
ID=80303802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111402334.8A Active CN114092742B (zh) | 2021-11-19 | 2021-11-19 | 一种基于多角度的小样本图像分类装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114092742B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898136B (zh) * | 2022-03-14 | 2024-04-19 | 武汉理工大学 | 一种基于特征自适应的小样本图像分类方法 |
CN114677573B (zh) * | 2022-05-30 | 2022-08-26 | 上海捷勃特机器人有限公司 | 视觉分类方法、系统、装置及计算机可读介质 |
CN115100432B (zh) * | 2022-08-23 | 2022-11-18 | 浙江大华技术股份有限公司 | 一种小样本目标检测方法、设备及计算机可读存储介质 |
CN115984574B (zh) * | 2023-03-20 | 2023-09-19 | 北京航空航天大学 | 一种基于循环Transformer的图像信息提取模型、方法及其应用 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580500A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
CN112766378A (zh) * | 2021-01-19 | 2021-05-07 | 北京工商大学 | 一种专注细粒度识别的跨域小样本图像分类模型方法 |
CN112949740A (zh) * | 2021-03-17 | 2021-06-11 | 重庆邮电大学 | 一种基于多级度量的小样本图像分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10497257B2 (en) * | 2017-08-31 | 2019-12-03 | Nec Corporation | Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation |
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
-
2021
- 2021-11-19 CN CN202111402334.8A patent/CN114092742B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580500A (zh) * | 2019-08-20 | 2019-12-17 | 天津大学 | 一种面向人物交互的网络权重生成少样本图像分类方法 |
CN112766378A (zh) * | 2021-01-19 | 2021-05-07 | 北京工商大学 | 一种专注细粒度识别的跨域小样本图像分类模型方法 |
CN112949740A (zh) * | 2021-03-17 | 2021-06-11 | 重庆邮电大学 | 一种基于多级度量的小样本图像分类方法 |
Non-Patent Citations (2)
Title |
---|
汪荣贵 ; 韩梦雅 ; 杨娟 ; 薛丽霞 ; 胡敏 ; .多级注意力特征网络的小样本学习.电子与信息学报.2020,(第03期),全文. * |
王泽伟 ; 高丙朋 ; .基于时空融合卷积神经网络的异常行为识别.计算机工程与设计.2020,(第07期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114092742A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN111914085B (zh) | 文本细粒度情感分类方法、系统、装置及存储介质 | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN113177132B (zh) | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 | |
CN112766334B (zh) | 一种基于伪标签域适应的跨域图像分类方法 | |
CN111581385A (zh) | 一种不平衡数据采样的中文文本类别识别系统及方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
de las Heras et al. | Wall patch-based segmentation in architectural floorplans | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
CN116416480B (zh) | 一种基于多模板提示学习的视觉分类方法和装置 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN115982350A (zh) | 基于多模态Transformer的虚假新闻检测方法 | |
CN111652171A (zh) | 一种基于双分支网络的面部表情识别模型的构建方法 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
CN116152554A (zh) | 基于知识引导的小样本图像识别系统 | |
CN109543038B (zh) | 一种应用于文本数据的情感分析方法 | |
CN114444481A (zh) | 一种新闻评论的情感分析与生成方法 | |
CN112015903B (zh) | 题目判重方法、装置、存储介质、计算机设备 | |
CN112115994A (zh) | 图像识别模型的训练方法、装置、服务器及存储介质 | |
CN116561639A (zh) | 一种面向开源情报的多模态数据情感分析方法 | |
CN115526174A (zh) | 一种针对财经文本情感倾向分类的深度学习模型融合方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |