CN114998653B

CN114998653B - 一种基于ViT网络的小样本遥感图像分类方法、介质及设备

Info

Publication number: CN114998653B
Application number: CN202210587274.XA
Authority: CN
Inventors: 陈波; 邓媛丹; 陈圩钦; 曾俊涛; 朱舜文; 王庆先
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2024-04-26
Anticipated expiration: 2042-05-24
Also published as: CN114998653A

Abstract

本发明属于图像分类技术领域，具体涉及一种基于ViT网络的小样本遥感图像分类方法。本发明基于ViT的小样本SAR图像分类方法将多模态特征融合机制引入到Transformers编码器中，通过将图像特征进行融合，解决了因为数据集量小而导致模型获取信息量变少的情况。此外，由于序列模型难以对层次信息进行有效表达，因此将多头自注意力机制引入到Transformers编码器中，在可以并行计算的同时，还提高了对长距离依赖关系的捕捉能力。采用本发明技术方案后，利用多模态特征融合技术以及多头自注意力机制解决ViT网络模型参数冗杂且训练时间过长难以落地的问题。

Description

一种基于ViT网络的小样本遥感图像分类方法、介质及设备

技术领域

本发明涉及图像分类技术领域，尤其涉及一种基于ViT网络的小样本遥感图像分类方法、介质及设备。

背景技术

传统的卷积神经网络具有空间感知偏差，因此卷积神经网络在计算机视觉任务上优势明显，其在少量参数的情况下依旧保持较好效果，但是卷积神经网络的空间感知偏差是局部的，以往的结构中通常使用注意力(Attention)机制实现全局感知。例如通过增加用于图像分类的特征图或通过使用自注意力来进一步处理CNN的输出，例如用于对象检测、视频处理、图像分类。

而Transformers编码器一般是用于自然语言处理领域，Transformers之类的工作采用可扩展的近似值来吸引全局的自注意力，以适用于图像。

此外，Transformers编码器缺乏上述提及的空间感知，例如平移不变性和局部性。故而在数据量较少的情况下难以概括训练集的所有特征信息。而ViT将图像分割为非重叠序列进行特征学习，取得了较好的效果。

但囿于极大的参数量，导致其在实际训练中举步维艰。因此，一种用于图像分类领域的面向小样本数据的基于ViT网络构建的发明就显得很有必要。

发明内容

针对背景技术中存在的问题，本发明提供一种基于ViT(Vision Transformers)网络的小样本遥感图像分类方法，目的在于利用多模态特征融合技术以及多头自注意力机制解决ViT网络模型参数冗杂且训练时间过长难以落地的问题。

一种基于ViT网络的小样本遥感图像分类方法，包括以下步骤：

步骤1：采用用于地标识别和图像恢复实验的数据集作为训练集，并对训练集中的图像数据进行预处理；

步骤2：将经过预处理的图像数据输入到Transformers编码器中的多模态特征融合机制，并在多模态特征融合中将步骤1中经过预处理的图像数据通过多层感知机进行处理，再将多层感知机处理后的图像数据进行concat操作，concat操作完成后，对图像数据进行一次PCA(主成分分析法)降维处理，使所有的图像数据的维度保持一致；

步骤3：将经过步骤2处理的图像数据送入多头自注意机制处理，得到特征信息；

步骤4：基于步骤3中的特征信息得到图像数据的分类结果，输出图像数据的分类结果。

本发明基于ViT的小样本SAR(Synthetic Aperture Radar)图像分类方法将多模态特征融合机制引入到Transformers编码器中，通过将图像特征进行融合，解决了因为数据集小而导致模型获取信息量变少的情况。此外，由于序列模型难以对层次信息进行有效表达，因此将多头注意力机制引入到Transformers编码器中，在可以并行计算的同时，还提高了对长距离依赖关系的捕捉能力。

优选的，步骤1中所述的图像数据的预处理包括以下步骤：

对图像数据的维度进行变换操作，并将进行变换操作后的图像数据进行线性映射，将位置嵌入添加到图像块嵌入中，保留位置信息；嵌入向量的结果序列作为所述Transformers编码器的输入。

优选的，所述Transformers编码器由多头自注意机制、多模态特征融合机制以及多层感知机模块的层组成；在每个多模态特征融合机制以及多层感知机模块之前应用Layernorm，之后应用残差连接；其中多层感知机模块包含具有GELU非线性的两全连接层。

优选的，所述多模态特征融合机制将图像嵌入图像块嵌入分别输入到不同的多层感知机中，再对图像块嵌入进行特征融合操作；所述特征融合操作为将下层输入的三个向量特征进行concat操作，再将三个向量通过多层感知机映射成同一个维度相加再还原，得到还原后的三个向量维度。

优选的，所述步骤3中将还原后的三个向量维度包含在并行的自注意力层中，每个向量经过多层感知机模块输入到自注意力层，再通过concat操作将三个向量连接在一起，经过最后一层多层感知机模块的网络得到特征信息。

优选的，所述分类结果通过在预训练时具有一个隐含层的MLP(多层感知机)以及在微调时通过一个线性层的MLP来实现。

一种存储介质，用于存储计算机指令，其中计算机指令用于使所述计算机执行上述任意一种所述的方法。

一种电子设备，包括至少一个处理器，以及与至少一个处理器通信连接的存储器；其中，所述存储器中存储有能被至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任意一种所述的方法。

本发明的有益效果包括：

1.本发明基于ViT的小样本SAR图像分类方法将多模态特征融合机制引入到Transformers编码器中，通过将图像特征进行融合，解决了因为数据集小而导致模型获取信息量变少的情况。此外，由于序列模型难以对层次信息进行有效表达，因此将多头注意力机制引入到Transformers编码器中，在可以并行计算的同时，还提高了对长距离依赖关系的捕捉能力。

2.本发明在图像分类效果以及相关指标方面差强人意的前提下，其训练时长和模型规模均小于现有的基于ViT的SAR图像分类方法。

3.本发明与基线算法相比，在不过于降低图像分类精度的前提下，保证分类结果可接受的同时，将模型训练时间缩短至基线算法的一半。

附图说明

图1为本发明的流程示意图。

图2为本发明的整体网络结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图1和附图2对本发明的实施例作进一步的详细说明：

步骤1：采用用于地标识别和图像恢复实验的数据集(Google Landmarks Datasetv2)作为训练集，并对训练集中的图像数据进行预处理；

步骤1中所述的图像数据的预处理包括以下步骤：

具体如下所述：

表1 Google Landmarks Dataset v2数据集划分情况表

	训练集	验证集	测试集	总计
					图像数目(张)	448,695	124,261	206,209	779,165

将一张尺寸为H×W×C的图像经过reshape操作变换为二维图块，其中H代表图像高度，W代表图像宽度，C代表图像通道数；尺寸为(N×(P²·C))，其中，N代表样本数量(即输入图像数量)，P²作为图块大小，一共得到数量为的图块。本发明为提高模型对图像的分类精度，将一张输入图像分为9个图像块，此时，需要将得到的9个图像块进行一维化操作。由于Transformers在所有图层上的恒定隐矢量大小固定，我们需要将这些一维化后的图像块进行线性映射，映射结果与恒定隐矢量相匹配，且将此映射的输出结果称为图像块嵌入。将位置嵌入添加至图像块嵌入中，即将每一个图像块位置信息进行保留。嵌入向量的结果序列用作编码器的输入。

步骤2：将经过预处理的图像数据输入到Transformers编码器中的多模态特征融合机制，并在多模态特征融合中将步骤1中经过预处理的图像数据通过多层感知机进行处理，再将多层感知机处理后的图像数据进行concat操作，concat操作完成后，对图像数据进行一次PCA降维处理，使所有的图像数据的维度保持一致；

所述Transformers编码器由多头自注意机制、多模态特征融合机制以及多层感知机模块的层组成；在每个块之前应用Layernorm，每个块之后应用残差连接；其中多层感知机模块包含具有GELU非线性的两全连接层。

所述多模态特征融合机制将图像嵌入图像块嵌入分别输入到不同的多层感知机中，再对图像块嵌入进行特征融合操作；所述特征融合操作为将下层输入的三个向量特征进行concat操作，再将三个向量通过多层感知机映射成同一个维度相加再还原，得到还原后的三个向量维度。

所述步骤3中将还原后的三个向量维度包含在并行的自注意力层中，每个向量经过多层感知机模块输入到自注意力层，再通过concat操作将三个向量连接在一起，经过最后一层多层感知机模块的网络得到特征信息。

所述分类结果通过在预训练时具有一个隐含层的MLP以及在微调时通过一个线性层的MLP来实现。

本发明基于ViT的小样本SAR图像分类方法将多模态特征融合机制引入到Transformers编码器中，通过将图像特征进行融合，解决了因为数据集小而导致模型获取信息量变少的情况。此外，由于序列模型难以对层次信息进行有效表达，因此将多头注意力机制引入到Transformers编码器中，在可以并行计算的同时，还提高了对长距离依赖关系的捕捉能力。

为帮助本领域的技术人员理解本发明，本实施例的做进一步的说明：

本发明将ViT作为基线模型，首先针对图中的整体网络结构进行说明：

由于传统的Transformers编码器的输入是一维的嵌入，而图像是二维的，因此将输入图像进行reshape操作，具体操作如下：

将图像表示为[n，C，H，W]，其中H代表图像高度，W代表图像宽度，C代表图像通道数，n代表样本数量。其经过维度变换后被表示为：

[N×(P²·C)]

其中P²作为图块大小，故而一共得到图块数量为：

经过线性神经网络构造保留一个序列的输入，每一个patch都需要保持与原图对应的编号，保留空间与未知的信息。如下所示，其中，x_class代表可嵌入的补丁序列，E代表在之前设定的图块的二维空间大小[D×(P²·C)]，E_pos代表有N+1个样本下的恒定隐矢量D相同的维度，代表每一个被有编号的嵌入：

接下来这些被编号的图像块嵌入将输入到Transformers编码器的多模态特征融合机制中，该部分的核心公式表示如下：

X_f＝v_f{T_i(X_i)} i∈C

其中，X_i是需要进行融合的特征分布，T_i是进行下采样或者上采样操作的方法，使得scale保持一致，φ_f是对scale一致的特征图进行concat操作或者element-wise sum(按位加)操作，使得特征图scale相同。

之后，需要对其进行多模态特征融合：

input_l-1＝MLP(concat(MLP(LayerNorm(i₁))+…MLP(LayerNorm(i₉))))

经过特征融合处理后，需要利用多头自注意力机制弥补Transformers编码器缺乏全局感知的缺点，公式可以被表示为：

input′_l＝MSA(LayerNorm(input_l-1))+input_l-1

其中，MSA代表多头自注意，LN代表LayerNorm，即层正则化，input_l-1表示多模态特征融合机制的输出。

经过一层MLP，其中MLP包含了具有GELU非线性的两全连接层：

input_l＝MLP(LayerNorm(input′_l))+input′_l

input′_l表示图像块嵌入在处理后的输出，本发明与基线模型的实验结果数据对比如下表2所示：

模型	准确率	模型参数量	训练时长(h)
				ViT	96.40％	22855952	106
本发明	92.07％	2617100	56

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种基于ViT网络的小样本遥感图像分类方法，其特征在于，包括以下步骤：

步骤4：基于步骤3中的特征信息得到图像数据的分类结果，输出图像数据的分类结果；

所述多模态特征融合机制将图像嵌入图像块嵌入分别输入到不同的多层感知机中，再对图像块嵌入进行特征融合操作；所述特征融合操作为将下层输入的三个向量特征进行concat操作，再将三个向量通过多层感知机映射成同一个维度相加再还原，得到还原后的三个向量维度；

2.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法，其特征在于，步骤1中所述的图像数据的预处理包括以下步骤：

3.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法，其特征在于，所述Transformers编码器由多头自注意机制、多模态特征融合机制以及多层感知机模块的层组成；在每个多模态特征融合机制和多层感知机模块之前应用Layernorm，之后应用残差连接；其中多层感知机模块包含具有GELU非线性的两全连接层。

4.根据权利要求1所述的一种基于ViT网络的小样本遥感图像分类方法，其特征在于，所述分类结果通过在预训练时具有一个隐含层的MLP以及在微调时通过一个线性层的MLP来实现。

5.一种存储介质，其特征在于，用于存储计算机指令，其中计算机指令用于使所述计算机执行权利要求1到权利要求4任意一项所述的方法。

6.一种电子设备，其特征在于，包括至少一个处理器，以及与至少一个处理器通信连接的存储器；其中，所述存储器中存储有能被至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1到4任意一项所述的方法。