CN114092742B

CN114092742B - 一种基于多角度的小样本图像分类装置和方法

Info

Publication number: CN114092742B
Application number: CN202111402334.8A
Authority: CN
Inventors: 李丽敏; 刘京
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2024-02-06
Anticipated expiration: 2041-11-19
Also published as: CN114092742A

Abstract

本发明涉及图像小样本分类技术领域，提供一种基于多角度的小样本图像分类装置和方法，对多平台图像集进行预处理后转化为特征向量，再进行等维度的线性映射，然后进行语义编码，并将语义编码信息加入到正视图、侧视图以及俯视图的中间特征中，并进行处理，获得各样本的自注意力特征矩阵；融合各样本的自注意力特征矩阵，根据预设的图像类别，对样本的融合特征进行分类识别，获得分类结果，分类结果为多平台图像集中的样本属于预设的图像类别的概率值。本发明能够有效地提取出语义信息更加丰富的特征表示，从而提高图像数据分类的效率和准确率，加快图像数据的自动化管理进程，对小样本深度学习具有较强的启发意义。

Description

一种基于多角度的小样本图像分类装置和方法

技术领域

本发明涉及图像小样本分类技术领域，尤其涉及一种基于多角度的小样本图像分类装置和方法。

背景技术

小样本学习是元学习在监督学习领域的应用，其旨在训练计算机从而令计算机有学习某种任务的能力。小样本学习不同于传统的机器学习，其训练的不再是单纯地图像识别能力，而是训练其完成图像分类任务的能力。同样的，有training阶段以及test阶段。区别于传统机器学习的training，在小样本学习中，把该阶段定义为meta-training阶段，同样的，定义小样本学习中的test阶段为meta-testing阶段。在meta-training阶段将数据集分解为不同的meta-task，去学习类别变化的情况下模型的泛化能力，在meta-testing阶段，面对全新的类别，不需要变动已有的模型，就可以完成分类。

小样本学习的训练集中包含了很多的类别，每个类别中有多个样本。在训练阶段，会在训练集中随机抽取N个类别，每个类别K个样本(总共N*K个数据)，构建一个元任务，作为模型的支撑集输入；再从这N个类中剩余的数据中抽取一批样本作为模型的预测对象(查询集)。即要求模型从N*K个数据中学会如何区分这N个类别，这样的任务被称为N-way K-shot问题。

训练过程中，每次训练都会采样得到不同元任务，所以总体来看，训练包含了不同的类别组合，这种机制使得模型学会不同元任务中的共性部分，比如如何提取重要特征及比较样本相似度，忘掉元任务中任务相关部分。通过这种学习机制学到的模型，在面对新的未见过的元任务时，也能较好地进行分类。

目前的小样本学习在图像领域大都在主流的数据集(如mini-imagene)进行实验，其方法并没有涉及面向多平台数据集时的操作。因此，在面对多平台数据集时，小样本深度学习网络欠缺高效提取多平台互补信息的方法。

发明内容

为了克服现有技术的不足，本发明旨在提供一种基于多角度的小样本图像分类装置和方法，以解决现有技术无法有效地提取出多平台互补信息的问题。

为了实现上述目的，本发明采用技术方案如下：

一种基于多角度的小样本图像分类方法，包括以下步骤：

步骤S101：对多平台图像集进行预处理，获得预处理图像集，预处理图像集包括样本的正视图、侧视图以及俯视图；

步骤S102：将正视图、侧视图以及俯视图转化为特征向量，获取正视图、侧视图以及俯视图的初始特征；

步骤S103：将正视图、侧视图以及俯视图的初始特征进行等维度的线性映射，获得正视图、侧视图以及俯视图的中间特征；

步骤S104：利对正视图、侧视图以及俯视图进行语义编码，并将语义编码信息加入到正视图、侧视图以及俯视图的中间特征中，获取正视图、侧视图以及俯视图的深层特征；

步骤S105：对正视图、侧视图以及俯视图的深层特征进行处理，获得各样本的自注意力特征矩阵；

步骤S106：融合各样本的自注意力特征矩阵，获取各样本用于分类的融合特征向量；

步骤S107：根据预设的图像类别，对样本的融合特征进行分类识别，获得分类结果，分类结果为多平台图像集中的样本属于预设的图像类别的概率值。

进一步的，多平台图像集为其中，y_i∈{1,…,K}是多平台图像集第i个样本的标签，K为多平台图像集中样本类别的个数，N为多平台图像集样本的个数，/>为多平台图像集第i个样本的第v个视图。

进一步的，基于裁剪尺寸对多平台图像集进行中心裁剪，保留裁剪的结果；然后，根据裁剪的结果筛选出各类别样本在各视角下能够完全呈现样本所有信息的最小裁剪尺寸，再将所有经最小尺寸裁剪之后的图像的像素放缩到{c₆*c₆}，c₆为512，再将放缩后的图像进行裁剪尺寸为{r₁*r₁}的随机裁剪，₁为336；最后，对随机裁剪的图像像素进行放缩，放缩的尺寸为{224*224}，得到预处理图像集。

进一步的，步骤102具体过程为：提取样本的正视图、侧视图以及俯视图的语义信息，将样本的正视图、侧视图以及俯视图的语义信息转化为特征向量，获取所述正视图、侧视图以及俯视图的初始特征。

进一步的，步骤S103中正视图、侧视图以及俯视图的中间特征通过下式计算：

mf＝of*W₁

ms＝os*W₂

mt＝ot*W₃

式中，of、os、ot分别为正视图、侧视图以及俯视图的初始特征，mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征，W₁、W₂、W₃分别为正视图、侧视图以及俯视图的参数矩阵。

进一步的，步骤S104中正视图、侧视图以及俯视图的深层特征通过下式计算：

df＝mf+V₁

ds＝ms+V₂

dt＝mt+V₃

式中，df、ds、dt分别为正视图、侧视图以及俯视图的深层特征，mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征，V₁、V₂、V₃分别为正视图、侧视图以及俯视图的编码信息。

进一步的，步骤S105中，各样本的自注意力特征矩阵通过下式计算：

X＝(df||ds||dt)

Q＝XW^Q

K＝XW^K

V＝XW^V

式中，df、ds、dt分别为正视图、侧视图以及俯视图的深层特征，X为样本特征矩阵，W^Q、W^K、W^V分别为注意力机制中的查询参数矩阵、键参数矩阵以及值参数矩阵，Q,K,V分别为注意力机制中的查询矩阵、键矩阵以及值矩阵，SA为自注意力特征矩阵，d_K为Q、K的列数，Softmax为归一化函数。

进一步的，步骤S107中多平台图像集中的样本属于预设的图像类别的概率值通过下式计算：

式中，c_k为元任务支持集类别k下的类原型，为元任务支持集类别k下由各样本用于分类的融合特征向量以及类别标签构造出的数据集，/>为元任务支持集类别k下各样本用于分类的融合特征向量，N_s为类别k下样本的数目，/>为元任务查询集下各样本用于分类的融合特征向量，/>为该元任务中查询集的样本j同支持集中类别k的原型表示的欧氏距离。p_φ(y_j＝k|x)为该元任务中查询集的样本j所属类别k的概率。

一种基于多角度的小样本图像分类装置，包括：

预处理模块，用于对多平台图像集进行预处理，获得预处理图像集，预处理图像集包括样本的正视图、侧视图以及俯视图；

特征提取器模块，用于将正视图、侧视图以及俯视图转化为特征向量，获取正视图、侧视图以及俯视图的初始特征；

等维线性映射模块，用于将正视图、侧视图以及俯视图的初始特征进行等维度的线性映射，获得正视图、侧视图以及俯视图的中间特征；

视图编码模块，用于利对正视图、侧视图以及俯视图进行语义编码，并将语义编码信息加入到正视图、侧视图以及俯视图的中间特征中，获取正视图、侧视图以及俯视图的深层特征；

自注意力机制模块，用于对正视图、侧视图以及俯视图的深层特征进行处理，获得各样本的自注意力特征矩阵；

全局平均池化模块，用于融合各样本的自注意力特征矩阵，获取各样本用于分类的融合特征向量；

分类器，用于根据预设的图像类别，对样本的融合特征进行分类识别，获得分类结果，分类结果为多平台图像集中的样本属于预设的图像类别的概率值。

与现有技术相比，本发明具有的有益效果为：

本发明针对多角度的图像数据，基于图像数据的正视图、侧视图以及俯视图，通过自注意力机制融合多个视图信息，能够有效地提取出语义信息更加丰富的特征表示，从而提高图像数据分类的效率和准确率，加快图像数据的自动化管理进程，对小样本深度学习具有较强的启发意义。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的CVCP模型结构示意图；

图2为本发明实施例提供的CVCLR模型结构示意图；

图3为本发明实施例提供的在小样本情况下基于多平台的图像分类方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行完整、清楚的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例第一方面提供一种基于多角度的小样本图像分类装置，具体包括：预处理模块、特征提取器模块、等维线性映射模块、视图编码模块、自注意力机制模块、全局平均池化模块和原型网络分类器。

本发明提供一种基于多角度的小样本图像分类装置，具体包括：预处理模块、特征提取器模块、等维线性映射模块、视图编码模块、自注意力机制模块、全局平均池化模块和分类器。

参见图3，为本发明实施例提供的一种在小样本情况下基于多平台的图像分类方法流程示意图。本发明实施例第二方面提供一种基于多角度的小样本图像分类方法，用于指导操作本发明实施例第一方面提供的一种基于多角度的小样本图像分类装置，对于本发明实施例第二方面提供的一种基于多角度的小样本图像分类中未公开的细节，请参见本发明实施例第一方面提供的一种基于多角度的小样本图像分类装置。

所述一种基于多角度的小样本图像分类方法，具体包括：

步骤S101：利用预处理模块对多平台图像集进行预处理，获得预处理图像集，预处理图像集包括样本的正视图、侧视图以及俯视图。

步骤S102：利用特征提取器模块将正视图、侧视图以及俯视图转化为特征向量，以获取所述正视图、侧视图以及俯视图的初始特征。

步骤S103：利用等维线性映射模块将正视图、侧视图以及俯视图的初始特征进行等维度的线性映射，获得正视图、侧视图以及俯视图的中间特征；

步骤S106：利用全局平均池化模块融合所述各样本的自注意力特征矩阵，获取各样本用于分类的融合特征向量；

进一步的，所述原型网络分类器依托在小样本学习框架中，即对于每个元任务，都存在一个在该特定元任务下的分类器。

进一步的，所述分类器为原型网络分类器或者逻辑回归分类器。

具体的，当所述分类器为原型网络分类器时，本发明实施例基于多平台图像集中样本的正视图、侧视图以及俯视图，提出面向多平台图像数据且基于原型网络分类器的交叉视图分类器模型(Cross-View Classifier based Prototype，CVCP)。所述多平台图像集为其中，y_i∈{1,…,K}是多平台图像数据第i个样本的标签，K为多平台图像集中样本类别的个数，N为多平台图像集样本的个数，/>为多平台图像数据第i个样本的第v个视图。参见图1，为本发明实施例提供的CVCP模型结构示意图。

从图1可以看出，CVCP模型由一个预处理模块、一个特征提取器模块、一个等维线性映射模块、一个视图编码模块、一个自注意力机制模块、一个全局平均池化模块和一个原型网络分类器构成。

所述预处理模块，用于对多平台图像数据进行预处理，获得预处理图像集，所述预处理图像集包括正视图、侧视图以及俯视图。

具体的，本发明实施例中多平台图像集中数据包括样本的正视图、侧视图以及俯视图。为得到预处理图像集，本发明实施例在预处理模块提出了一种基于裁剪尺寸等级的图像预处理方法。

首先，将裁剪尺寸划分为五个等级，分别记为{c₁*c₁}、{c₂*c₂}、{c₃*c₃}、{c₄*c₄}、{c₅*c₅}；其中，c₁为640，c₂为800，c₃为1152，c₄为1600，c₅为2048，然后，基于此五个等级分别对多平台图像集进行中心裁剪，保留裁剪的结果；然后，根据裁剪的结果筛选出各类别样本在各视角下能够完全呈现样本所有信息的最小裁剪尺寸，即各类别各视角在其最小尺寸下的裁剪图像可以呈现出完整物体；再然后，将所有经最小尺寸裁剪之后的图像的像素放缩到{c₆*c₆}，c₆为512，从而方便下一步的预处理；再然后，将放缩后的图像进行裁剪尺寸为{r₁*r₁}的随机裁剪，₁为336；最后，对随机裁剪的图像像素进行放缩，放缩的尺寸为{224*224}，以保证图像能成功输入到之后的预训练模型中，得到预处理图像集，预处理图像集包括样本的正视图、侧视图以及俯视图，预处理模块主要分为中心裁剪以及随机裁剪两种裁剪方式。前者是保证样本图像可以完整落在裁剪域中；后者旨在提升模型的难度，期望模型在后面可以学习到更强大的不同视图间的互补能力。

进一步的，所述特征提取器模块，用于将样本的正视图、侧视图以及俯视图转化为特征向量，以获取所述正视图、侧视图以及俯视图的初始特征。

具体的，特征提取器模块由ViT预训练模型或其他视觉预训练模型组成，用于提取样本的正视图、侧视图以及俯视图的语义信息，将样本的正视图、侧视图以及俯视图的语义信息转化为特征向量，以获取所述正视图、侧视图以及俯视图的初始特征。

特征提取器通过将尺寸为{224*224}的图像拆分成多个像素大小为{16*16}的更小patch(图像片段)，然后直接运用标准的transformer(转换)框架，做最小的改动，基于图像片段形成线性表示(linear embedding)序列，并将该线性表示序列输入到预训练模型ViT中，输出得到特征向量，即初始特征。

进一步的，所述等维线性映射模块，用于将特征向量进行等维度的线性映射，将所述正视图、侧视图以及俯视图的初始特征表示各自进行等维的线性映射，得到该所述视图下的中间特征。

具体的，所述等维线性映射模块的线性映射的方法为：

mf＝of*W₁

ms＝os*W₂

mt＝ot*W₃

进一步的，所述视图编码模块，用于对所述正视图、侧视图以及俯视图的各视图进行语义编码，以获取所述各视图的视图信息，并将编码信息融合到所述各视图中间特征中，以得到各视图的深层特征。

具体的，所述视图编码模块的获得深层特征的计算方法为：

df＝mf+V₁

ds＝ms+V₂

dt＝mt+V₃

进一步的，所述自注意力机制模块各样本根据所述正视图、所述侧视图以及所述俯视图视图的深层特征获得所属各样本的特征矩阵，此特征矩阵通过线性映射依次获得该样本的查询矩阵(Query)、键矩阵(Key)和值矩阵(Value)，再利用放缩点积注意力机制获得各样本的自注意力特征矩阵，所述自注意力机制模块的具体计算方法为：

X＝(df||ds||dt)

Q＝XW^Q

K＝XW^K

V＝XW^V

具体的，自注意力机制模块是本发明实施例所述多平台图像数据分类装置的主要部分。这个模块通过所述各视图特征生成样本的特征矩阵，并基于此样本特征矩阵生成查询矩阵、键矩阵以及值矩阵，然后借助放缩点积注意力机制得到自注意力特征矩阵，再将自注意力特征矩阵输入到全局平均池化模块中。

进一步的，所述全局平均池化模块用于将根据各样本的自注意力特征矩阵，进行池化操作，得到各样本用于分类的融合特征向量。

具体的，记所述自注意力机制模块得到的自注意力特征矩阵维度为{3,d_K}。其中，3即位所述视图的个数，由视图构成成分为正视图、侧视图以及俯视图得到；d_K为某一视图下其特征向量的维度。记自注意力特征矩阵的第一个维度为视图维度，第二个维度为特征维度。将自注意力特征矩阵的视图维度，进行全局平均池化操作，池化后的特征即为融合特征向量。所述融合特征向量维度为d_K，可以反映出三个视图的互补信息。

进一步的，所述原型网络分类器，用于根据预设的图像类别，对所述融合特征向量进行分类识别，获得分类结果，所述分类结果为所述图像数据属于所述预设的图像类别的概率值。

具体的，所述原型网络分类器基于小样本深度学习网络架构进行搭建，其具体的计算方法为：

所述原型网络分类器并没有在原有架构上增加网络参数，之后的反向传播过程只对所述等维线性映射模块、视图编码模块、自注意力机制模块的网络参数进行更新。

进一步的，通过p_φ(y_j＝k|x)计算交叉熵损失函数，基于损失函数进行反向传播，从而对CVCP模型进行训练。

为了进一步提高分类的精度，本发明实施例以基于原型网络分类器的交叉视图分类器模型(Cross-View Classifier based Prototype，CVCP)为基础，进一步提出基于逻辑回归分类器的交叉视图分类器模型(Cross-View Classifier based LR，CVCLR)。

具体的，假设多平台图像数据训练集为其中，y_i∈{1,…,K}是多平台图像数据第i个样本的标签，K为训练集中样本类别的个数，N为训练集样本的个数，/>为多平台图像数据第i个样本的第v个视图。

参见图2，为本发明实施例提供的CVCLR模型结构示意图。由图2可以看出，CVCLR模型由一个预处理模块、一个特征提取器模块、一个等维线性映射模块、一个视图编码模块、一个自注意力机制模块、一个全局平均池化模块和一个逻辑回归分类器构成，其中，逻辑回归分类器即为图中所述LR分类器。CVCLR模型的预处理模块、特征提取器模块、等维线性映射模块、视图编码模块、自注意力机制模块、全局平均池化模块的结构与CVCP模型的结构完全相同。不同的是，CVCLR模型通过一个逻辑回归分类器来获取分类结果。所述逻辑回归分类器同所述原型网络分类器不同，其需要学习参数完成分类任务。

进一步的，所述逻辑回归分类器也是在小样本深度学习网络框架中搭建。所述小样本学习下的逻辑回归分类器对于不同的元任务，搭建不同的分类器。即每个元任务都有所对应的逻辑回归分类器，所述逻辑回归分类器在每个元任务下都要重新初始化分类器参数，重新开始以元任务中的支持集数据训练分类器参数，并对元任务中查询集数据进行预测，得到分类结果。

具体的，所述以逻辑回归分类器进行分类的过程要对每个元任务初始化参数，然后进行训练，因此无法搭建成端到端的算法平台。所述CVCLR模型的网络参数来自于特征提取器模块、等维线性映射模块、视图编码模块、自注意力机制模块、逻辑回归分类器模块。所述特征提取器模块由预训练模型ViT组成，网络参数可以直接迁移预训练的网络参数；所述逻辑回归分类器只需要在每个元任务中进行训练；所以，所述CVCLR模型所需要基于梯度下降进行学习的网络参数来自等维线性映射模块、视图编码模块、自注意力机制模块。所述等维线性映射模块、所述视图编码模块、所述自注意力机制模块的网络参数可以从CVCP模型中得到。即，所述CVCLR模型需要先训练所述CVCP模型，得到用于视图特征融合的网络参数，再将CVCP模型中原型网络分类器替换为逻辑回归分类器，以提升模型预测的准确度。所述逻辑回归分类器的具体计算方法为：

式中，LR为待训练的逻辑回归分类器，为元任务支持集类别k下由各样本用于分类的融合特征向量以及类别标签构造出的数据集，/>为元任务查询集类别k下由各样本用于分类的融合特征向量以及类别标签构造出的数据集，/>为元任务支持集类别k下样本i用于分类的融合特征向量，z_Q为元任务查询集下各样本用于分类的融合特征向量，clf为该元任务中通过支持集数据训练好的逻辑回归分类器，p_φ(y_j＝k|x)为该元任务中查询集的样本j所属类别k的概率。

下面将通过具体实施例，对本发明实施例所提供的一种基于多角度的小样本图像分类装置和方法进行详细阐述。

本发明具体实施例使用自己搭建的多平台图像数据集验证本发明所述的一种基于多角度的小样本图像分类装置和方法。上述多平台图像数据集包含飞机、坦克、导弹、潜艇等共计25类图像，每类图像样本数量为20-40。本发明具体实施例将15类记为训练集、6类作为验证集、4类作为测试集。并分别从正视图、侧视图以及俯视图三个平台来刻画多平台图像数据，网络训练采用Adam优化器，学习率为1*10-4，小样本学习中各元任务抽样的类别数为3类。

将本发明具体实施例与单平台模型(front、side、top)、简单全局平均池化模型(GAP)、协同训练模型(Co-Training,CoT)进行比较。

具体的，所述单平台模型由一个预处理模块、一个特征提取器模块、一个分类器模块构成。所述预处理模块采用基于裁剪尺寸等级的图像预处理方式；所述特征提取器模块为预训练模型ViT；所述分类器为原型网络分类器或者逻辑回归分类器。所述单一视图图像数据基于所述单平台模型的映射直接得到该视图的分类结果。所述单平台的视图可选择为正视图、侧视图、俯视图。

具体的，所述简单全局平均池化模型由一个预处理模块、一个特征提取器模块、一个全局平均池化模块、一个分类器模块构成。所述预处理模块采用基于裁剪尺寸等级的图像预处理方式；所述特征提取器模块为预训练模型ViT；所述全局平均池化模块由一层全局平均池化层构成，用于将各视图特征进行平均池化处理；所述分类器为原型网络分类器或者逻辑回归分类器。

具体的，所述协同训练模型由一个预处理模块、一个特征提取器模块、三个分类器模块、一个协同正则模块构成。所述预处理模块采用基于裁剪尺寸等级的图像预处理方式；所述特征提取器模块为预训练模型ViT；所述分类器为原型网络分类器或者逻辑回归分类器，所述三个分类器分别对应三个视图；所述协同正则模块将所述三个分类器模块的结果进行整合，基于分类器决策得到新的决策进行最后的分类。

进一步的，所述单平台模型可以看作所述简单全局平均池化模型的消融实验；所述简单全局平均池化模型可以看作所述CVCP模型模型、所述CVCLR模型的消融实验。

本发明具体实施例中，在多平台图像数据集基础上，将CVCP模型、CVCLR模型与平台模型、简单全局平均池化模型、协同训练模型进行比较。

具体的，所述CVCP模型与所述比较方法进行比较时，所述比较方法的分类器选择为原型网络分类器，最终得到的实验结果如表1所示。从表1的实验结果可以看出，CVCP模型相对于以正视图为单平台数据的单平台模型front在2-shot任务中准确率提升为13.26％，在5-shot任务中提升率为9.97％；相对于单平台模型side在2-shot任务中准确率提升为12.49％，在5-shot任务中提升率为12.13％；相对于单平台模型top在2-shot任务中准确率提升为13.08％，在5-shot任务中提升率为11.23％；相对于GAP在2-shot任务中准确率提升为5.64％，在5-shot任务中提升率为2.87％；相对于GAP在2-shot任务中准确率提升为6.18％，在5-shot任务中提升率为2.47％。实验结果表明不同的视图通常包含不同的信息，CVCP模型有助于提取到更丰富的语义特征。

表1 CVCP模型同比较方法结果

Model	2-shot	5-shot
			front	68.64	79.63
side	69.41	77.47
			top	68.82	78.37
GAP	76.26	86.73
			CoT	75.72	87.13
CVCP	81.90	89.60

具体的，所述CVCLR模型与所述比较方法进行比较时，所述比较方法的分类器选择为逻辑回归分类器，最终得到的实验结果如表2所示。从表2的实验结果可以看出，CVCLR模型相对于以正视图为单平台数据的单平台模型front在2-shot任务中准确率提升为12.67％，在5-shot任务中提升率为9.37％；相对于单平台模型side在2-shot任务中准确率提升为11.54％，在5-shot任务中提升率为8.70％；相对于单平台模型top在2-shot任务中准确率提升为12.82％，在5-shot任务中提升率为11.93％；相对于GAP在2-shot任务中准确率提升为3.80％，在5-shot任务中提升率为0.20％；相对于GAP在2-shot任务中准确率提升为5.67％，在5-shot任务中提升率为1.20％。虽然所述CVCLR模型相对于所述对比模型的提升效果没有CVCP模型大，但是CVCLR模型的准确率相对于CVCP模型更高。

表2 CVCLR模型同比较方法结果

由上述技术方案可知，本发明提供一种基于多角度的小样本图像分类装置和方法，针对多角度的图像数据，提出了基于自注意力机制的多平台图像数据分类模型，该模型基于图像数据的正视图、侧视图以及俯视图，通过自注意力机制融合多个视图信息，能够有效地提取出语义信息更加丰富的特征表示，从而提高图像数据分类的效率和准确率，加快图像数据的自动化管理进程，对小样本深度学习具有较强的启发意义。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。

Claims

1.一种基于多角度的小样本图像分类方法，其特征在于，包括以下步骤：

步骤S107：根据预设的图像类别，对样本的融合特征进行分类识别，获得分类结果，分类结果为多平台图像集中的样本属于预设的图像类别的概率值；

步骤102具体过程为：提取样本的正视图、侧视图以及俯视图的语义信息，将样本的正视图、侧视图以及俯视图的语义信息转化为特征向量，获取所述正视图、侧视图以及俯视图的初始特征；

步骤S103中正视图、侧视图以及俯视图的中间特征通过下式计算：

mf＝of*W₁

ms＝os*W₂

mt＝ot*W₃

式中，of、os、ot分别为正视图、侧视图以及俯视图的初始特征，mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征，W₁、W₂、W₃分别为正视图、侧视图以及俯视图的参数矩阵；

步骤S104中正视图、侧视图以及俯视图的深层特征通过下式计算：

df＝mf+V₁

ds＝ms+V₂

dt＝mt+V₃

式中，df、ds、dt分别为正视图、侧视图以及俯视图的深层特征，mf、ms、mt分别为正视图、侧视图以及俯视图的中间特征，V₁、V₂、V₃分别为正视图、侧视图以及俯视图的编码信息；

各样本的自注意力特征矩阵通过下式计算：

X＝(df||ds||dt)

Q＝XW^Q

K＝XW^K

V＝XW^V

式中，df、ds、dt分别为正视图、侧视图以及俯视图的深层特征，X为样本特征矩阵，W^Q、W^K、W^V分别为注意力机制中的查询参数矩阵、键参数矩阵以及值参数矩阵，Q,K,V分别为注意力机制中的查询矩阵、键矩阵以及值矩阵，SA为自注意力特征矩阵，d_K为Q、K的列数，Softmax为归一化函数；

步骤S107中多平台图像集中的样本属于预设的图像类别的概率值通过下式计算：

式中，c_k为元任务支持集类别k下的类原型，为元任务支持集类别k下由各样本用于分类的融合特征向量以及类别标签构造出的数据集，/>为元任务支持集类别k下各样本用于分类的融合特征向量，N_S为类别k下样本的数目，/>为元任务查询集下各样本用于分类的融合特征向量，/>为该元任务中查询集的样本j同支持集中类别k的原型表示的欧氏距离，p_φ(y_j＝k|x)为该元任务中查询集的样本j所属类别k的概率。

2.根据权利要求1所述的一种基于多角度的小样本图像分类方法，其特征在于，多平台图像集为其中，/>是多平台图像集第i个样本的标签，K为多平台图像集中样本类别的个数，N为多平台图像集样本的个数，/>为多平台图像集第i个样本的第v个视图。

3.根据权利要求1所述的一种基于多角度的小样本图像分类方法，其特征在于，基于裁剪尺寸对多平台图像集进行中心裁剪，保留裁剪的结果；然后，根据裁剪的结果筛选出各类别样本在各视角下能够完全呈现样本所有信息的最小裁剪尺寸，再将所有经最小尺寸裁剪之后的图像的像素放缩到{c₆*c₆}，c₆为512，再将放缩后的图像进行裁剪尺寸为{r₁*r₁}的随机裁剪，r₁为336；最后，对随机裁剪的图像像素进行放缩，放缩的尺寸为{224*224}，得到预处理图像集。

4.一种基于多角度的小样本图像分类装置，其特征在于，包括：

分类器，用于根据预设的图像类别，对样本的融合特征进行分类识别，获得分类结果，分类结果为多平台图像集中的样本属于预设的图像类别的概率值；

mf＝of*W₁

ms＝os*W₂

mt＝ot*W₃

df＝mf+V₁

ds＝ms+V₂

dt＝mt+V₃

各样本的自注意力特征矩阵通过下式计算：

X＝(df||ds||dt)

Q＝XW^Q

K＝XW^K

V＝XW^V