CN117315556A

CN117315556A - 改进的Vision Transformer昆虫细粒度识别方法

Info

Publication number: CN117315556A
Application number: CN202311303061.0A
Authority: CN
Inventors: 黄世国; 李建祥; 李小林; 陈淑武
Original assignee: Xiamen Sixin Internet Of Things Technology Co ltd; Fujian Agriculture and Forestry University
Current assignee: Xiamen Sixin Internet Of Things Technology Co ltd; Fujian Agriculture and Forestry University
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2023-12-29

Abstract

本发明涉及一种改进的Vision Transformer昆虫细粒度识别方法。首先，本发明采用了Vision Transformer框架，其独特的自注意力机制使其在图像分类任务中天然关注昆虫的区分部位，并且相较于传统卷积方法更加全局，最终通过层级结构捕捉层间重要特征提高性能。其次，本发明针对生态图像复杂背景问题，提出了改进的MLP结构，以增强不同自注意力头(Head)之间的聚合鲁棒表示能力。最后，提出了一种自监督任务损失优化模型收敛，鼓励模型从图像内学习空间关系，从而使得模型训练更加鲁棒。

Description

改进的Vision Transformer昆虫细粒度识别方法

技术领域

本发明昆虫分类学领域、计算机视觉方向图像分类领域以及森林保护领域，具体涉及一种改进的Vision Transformer昆虫细粒度识别方法。

背景技术

昆虫是生态系统中的关键组成部分，对生态研究、农业和作物保护、疾病传播控制等方面具有重要作用。昆虫准确识别对于维护生态平衡、改善农业生产、保护人类健康、维护生物多样性和环境保护等方面都具有重要的意义。传统昆虫种类鉴定是由专家通过肉眼观察昆虫的形态特征来完成的。然而，这是一项费时费力且容易出错的工作，并且需要专业背景的支撑，成本较高。此外，部分昆虫(如蝴蝶)种类之间的相似性较高，使得识别任务变得更加困难。

在生物分类任务中，昆虫学家通常使用分类学检索表或DNA测序方法对昆虫进行分类，该方法依赖于人工处理，且必须由训练有素的专业人员完成[1]，不可避免产生局限性。在计算机分类任务中，昆虫识别方法主要可分为传统机器学习方法和深度学习方法两大类。在传统的机器学习方法中，采用人工设计的特征提取算子提取图像的固定特征，并使用分类算法对提取的特征进行分类，例如使用灰度共生矩阵提取特征后使用加权KNN分类器进行分类[2]。这种方法需要专家针对问题手动选择和设计特征算子，设计过程复杂且可迁移性较弱，限制了其进一步推广。相较之下，深度学习方法通过神经网络自动学习特征提取和分类过程，具有性能好、效率高、适用范围广等优点，因而受到广泛关注。在深度学习方法中，昆虫识别可进一步细分为基于图像分类技术、目标检测技术和图像分割技术的方法。

基于图像分类技术的识别方法从整体图像出发，将图像输入分类网络，通过网络输出的结果来判断图像中昆虫所属的类别。这种方法通常要求图像中仅含有单只昆虫或单个类别，所得标签为图像的总体语义描述。例如Fathimathul等人[3]使用InceptionV3网络进行蝴蝶分类。

基于目标检测技术的识别方法将图像输入至网络后，能够得到昆虫的位置信息和类别信息，因此相较于图像分类方法可以应对多目标多类别的情况，但由于需要检测目标位置，计算开销相对较大，并且需要提供额外的位置标注信息，人工标注成本较高。例如Liang等人[4]使用Integrated YOLO模型进行自动检测和分类。

基于图像分割技术的识别方法针对图像中的前景和背景进行区分，将得到的昆虫前景区域送入分类器进行分类。这种方法需要像素级标注信息，因此需要高额的标注成本。例如Tang等人[5]使用DE-Net进行蝴蝶分类。

计算机视觉技术发展至今，虽已有前人针对昆虫识别任务进行探索，但从技术上看，现有大多方法基于卷积神经网络提取特征，其局部感受野特性导致其浅层无法学习全局特征，且当前昆虫识别基于Vision Transformer分类的研究相对较少。从分类方式上看，现有大多数方法仅关注总体特征，缺少对昆虫细小但可区分部位的关注，而通过总体特征分类不足以应对昆虫多样的姿态变换，导致识别准确率仍有提升空间。除此之外，复杂背景干扰问题同样影响模型最终识别性能。

参考文献：

[1]Walter,D.E.,&Winterton,S.(2007).Keys and the crisis in taxonomy:Extinction or reinvention？Annual Review ofEntomology,52(5),193–208.

[2]Xue,A.,Li,F.,&Xiong,Y.(2019).Automatic identification of butterflyspecies based on gray-level co-occurrence matrix features of imageblock.Journal of Shanghai Jiaotong University(Science),24(2),220–225.

[3]Fathimathul,R.P.P.,Orban,R.,Vadivel,K.S.,Subramanian,M.,Muthusamy,S.,Elminaam,D.S.A.,Nabil,A.,Abulaigh,L.,Ahmadi,M.,&Ali,M.A.S.(2022).A novelmethod for the classification of butterfly species using pre-trained CNNmodels.Electronics(Switzerland),11(13),1–20.

[4]Liang,B.,Wu,S.,Xu,K.,&Hao,J.(2020).Butterfly detection andclassification based on integrated YOLO algorithm.Advances in IntelligentSystems and Computing,1107AISC(pp.500–512).

[5]Tang,H.,Wang,B.,&Chen,X.(2020).Deep learning techniques forautomatic butterfly segmentation in ecological images.Computers andElectronics in Agriculture,178(5),Article105739.。

发明内容

本发明的目的在于提供一种改进的Vision Transformer昆虫细粒度识别方法，旨在模拟野外拍照场景并改进模型以适应野外昆虫图像的特点。通过该方法，将拍摄的昆虫图像输入模型，能够高效准确地获得与之对应的类别信息。过程简单，且相较于目标检测技术和图像分割技术更具实际推广意义。

为实现上述目的，本发明的技术方案是：一种改进的Vision Transformer昆虫细粒度识别方法，首先，采用Vision Transformer框架处理图像数据，能够在每一层中同时对图像的所有位置进行处理，实现全局视野；其次，针对生态图像复杂背景问题，提出改进的MLP结构，以增强不同自注意力头之间的聚合鲁棒表示能力；最后，提出一种自监督任务损失优化模型收敛，鼓励模型从图像内学习空间关系，使得模型训练更加鲁棒。

在本发明一实施例中，在模型训练前，对图像数据进行分类标注，并按照7：3比例划分训练集和测试集，训练集用来训练模型，测试集用来评估模型性能；采用数据增强方法对训练集样本进行扩充。

在本发明一实施例中，测试集评估模型性能，即测试过程中，首先，将测试集样本进行数据归约；然后，将归约后的数据输入到已经训练好的模型中进行分类，模型根据学到的特征和权重对每个测试样本进行分类预测；最后，将模型预测的结果与测试集样本的真实标签进行比对，输出测试分类结果。

在本发明一实施例中，所述采用Vision Transformer框架处理图像数据，具体为：将图像分割成固定大小的小块Patch，将每个Patch视为一个向量，并通过一层线性变换映射为更高维的特征表示；接着，对这些向量进行位置编码，引入空间信息；之后，VisionTransformer利用多层的自注意力机制计算每个Patch与其他所有Patch之间的相似度得分，并通过得分对每个Patch进行加权平均，实现全局上下文的关联和信息交互；通过自注意力机制，Vision Transformer能够在每一层中同时对图像的所有位置进行处理，实现全局视野，能够捕捉到图像中各个位置之间的长程依赖关系，更好地理解图像的结构和语义信息。

在本发明一实施例中，所述改进的MLP结构，即设计一个通道处理MLP结构，通过重加权促进通道选择，注意力设计是动态的，与内容相关，能够带来更丰富且更鲁棒的表征；具体实现如下：

设输入张量为X，维度为[B,N,C]；

1)调整大小：将输入向量X调整为[B,N,heads,C/heads]，分成注意力头数heads份，并在每个头内将维度调整为C/heads；

获取向量Q、K和V：从调整后的输入向量中分别得到向量Q、K和V；它们的维度均为[B,heads,N,C/heads]；

2)线性层：将向量Q经过线性层生成维度为[B,heads,N,C/heads]的新向量；

3)Softmax操作：对新得到的向量Q的倒数第二维进行softmax操作，得到维度为[B,heads,N,C/heads]的向量；

4)转置：将Softmax操作后的向量Q进行转置，得到维度为[B,heads,C/heads,N]的向量Q'；

5)Softmax和自适应平均池化：对向量K进行Softmax操作，然后经过自适应平均池化，生成维度为[B,heads,N,1]的向量K'；

6)矩阵相乘和Sigmoid：将向量Q′与向量K′进行矩阵相乘，然后通过Sigmoid函数处理得到大小为[B，heads，C/heads，1]的向量；

7)调整大小：将向量V转置后调整大小为[B，heads，C/heads，N]，准备输入到Vision Transformer的多层感知器MLP层；

8)按位相乘：将调整后的向量V与先前得到的向量进行按位相乘，得到大小为[B，heads，C/heads，N]的向量；

9)调整大小：将向量调整大小，得到大小为[B，N，C]的输出向量。

在本发明一实施例中，所述自监督任务损失优化模型收敛，具体实现如下：

首先，将生成的Patch序列还原回原图像对应位置，得到k×k网格，将其表示为G_x＝{e_i，j}_{1≤i，j≤k}，e_i，j∈R^d(该过程可描述为：首先计算生成的Patch序列大小，定义为[B，C，H，W]，其中B为batch_size，为输入图片批量数，C表示图像通道数，对应e_i，j∈R^d嵌入空间数，H、W为图像还原后的长和宽，对应k×k网格)，e_i，j代表还原后第i行第j列与原序列对应的空间向量，d为嵌入空间维数；对于每个G_x，随机采样多对嵌入，对于每对嵌入(e_i，j，e_p，h)，计算2D归一化目标位置平移偏量(t_u，t_v)^T，其中：

随后将所选择的嵌入向量e_i，j和e_p，h拼接并输入到一个小的MLP(f)，该MLP具有两个隐藏层和两个输出神经元，其预测网格上的位置(i，j)与位置(p，h)之间的相对内容距离；

设(d_u，d_v)^T＝f(e_i，j，e_p，h)^T，给定n个图像的小批量B，相对定位损失为：

对于每个图像，通过在G_x中随机地均匀采样m对(e_i，j，e_p，h)，并对相应的(t_u，t_v)^T和(d_u，d_v)^T之间的L1损失求平均来计算期望值；最终损失为：

L_total＝L_CE+L_loc

其中，L_CE为交叉熵损失，可表述为预测结果与真实标签之间的差异性损失，公式如下：

式中，真实标签为y_i∈{1，2，...C}，h＝(h₁，h₂，...，h_C)^T为网络最终输出，即样本i的预测结果，C为分类任务类别数。

上述过程中，(d_u,d_v)^T代表经过变换的向量距离，通过L_loc损失鼓励模型学习图像内的空间关系，以此优化模型收敛过程。

相较于现有技术，本发明具有以下有益效果：

(1)全局性。本发明应用Vision Transformer技术，通过多头自注意力机制全局学习昆虫判别特征，并通过层级结构全局捕捉中低层纹理特征和高层语义特征，克服了基于CNN方法中局部感受野在浅层无法学习全局特征的问题。

(2)鲁棒性。野外拍摄的昆虫图像通常具有复杂的背景，且相同或相似的背景通常会对识别结果产生干扰，需要对其进行解析建模。本发明改进Vision Transformer中的MLP结构，通过通道重加权促进通道选择，提高来自不同注意力头的信息聚合从而提高算法的鲁棒性。

(3)自监督空间关系学习。由于Vision Transformer模型训练所需的昆虫图像数据不足，采集昆虫图像存在不确定性，因此本发明采用了自监督学习的方法来鼓励模型学习图像内的空间关系，从而优化模型的收敛过程。

附图说明

图1为本发明技术路线图。

图2为通道处理MLP结构。

图3为自监督采样处理过程图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明采用基于深度学习图像分类方法，利用现有的图像数据和相应的标签来训练模型，直至模型收敛并稳定。在此过程中，保存了模型的结构和参数。一旦遇到新的未知的野外昆虫，模型能够准确地识别昆虫的种类。本发明技术路线如图1所示：

在算法过程中，首先将所收集到的图像数据进行人工分类标注，使得图像数据与标签一一对应。接着将数据按照7：3比例划分训练集和测试集，训练集用来训练模型，测试集用来评估模型性能。该过程是为了避免模型过拟合的问题，并能够更全面地评估模型在现实场景中的性能。

在训练过程中，我们首先使用训练集样本进行模型的训练。为了增加训练数据的多样性和数据量，我们采用数据增强方法对原有的训练集样本进行扩充。接着，将得到的数据输入至模型训练，通过模型中的损失函数和优化器优化模型参数并更新模型权重。在达到稳定收敛后输出模型训练分类结果。

在测试过程中，我们使用独立的测试集来评估模型的性能。首先，将待检测的数据(测试集样本)进行数据归约。然后，将归约后的数据输入到已经训练好的模型中进行分类，模型根据学到的特征和权重对每个测试样本进行分类预测。最后，将模型预测的结果与测试集样本的真实标签进行比对，输出测试分类结果。

1、Vision Transformer识别过程

Vision Transformer采用了全新的自注意力机制来处理图像数据。它将图像分割成固定大小的小块(Patch)，然后将每个Patch视为一个向量，并通过一层线性变换将其映射为更高维的特征表示。接着，对这些向量进行位置编码，引入空间信息。之后，VisionTransformer利用多层的自注意力机制计算每个Patch与其他所有Patch之间的相似度得分，并通过得分对每个Patch进行加权平均，从而实现全局上下文的关联和信息交互。通过自注意力机制，Vision Transformer能够在每一层中同时对图像的所有位置进行处理，实现全局视野。这使得网络能够捕捉到图像中各个位置之间的长程依赖关系，有助于更好地理解图像的结构和语义信息。

2、改进MLP结构

Vision Transformer采用了一个多头注意力设计，然后使用一个MLP来聚合来自多个自注意力头的信息。由于不同的自注意力头倾向于关注物体的不同部分，多头注意力设计本质上形成了多样化的潜在特征。因此，如何聚集来自不同自注意力头的信息尤为重要。在本发明中，我们设计了一个通道处理MLP结构，通过重加权促进通道选择。与MLP中的静态操作不同，注意力设计是动态的，与内容相关，从而可以带来更丰富且更鲁棒的表征。其结构如图2所示。

设输入张量为X，维度为[B,N,C]；

1.调整大小：将输入向量X调整为[B,N,heads,C/heads]，分成注意力头数(heads)份，并在每个头内将维度调整为C/heads。

获取向量Q、K和V：从调整后的输入向量中分别得到向量Q、K和V。它们的维度均为[B,heads,N,C/heads]。

2.线性层：将向量Q经过线性层生成维度为[B,heads,N,C/heads]的新向量。

3.Softmax操作：对新得到的向量Q的倒数第二维进行softmax操作，得到维度为[B,heads,N,C/heads]的向量。

4.转置：将上述softmax后的向量Q进行转置，得到维度为[B,heads,C/heads,N]的向量Q'。

5.Softmax和自适应平均池化：对向量K进行softmax操作(在倒数第二维)，然后经过自适应平均池化，生成维度为[B,heads,N,1]的向量K'。

6.矩阵相乘和Sigmoid：将向量Q′与向量K′进行矩阵相乘，然后通过Sigmoid函数处理得到大小为[B，heads，C/heads，1]的向量。

7.调整大小：将向量V转置后调整大小为[B，heads，C/heads，N]，准备输入到原始的多层感知器(MLP)层。

8.按位相乘：将上述调整后的向量V与先前得到的向量进行按位相乘，得到大小为[B，heads，C/heads，N]的向量。

9.调整大小：最终将上述向量调整大小，得到大小为[B，N，C]的输出向量。

3、空间关系自监督损失

针对可能出现的昆虫样本量仍然不满足训练要求而使模型性能下降的问题，我们提出了一种自监督的任务，它可以从图像中提取额外的信息，而计算开销可以忽略不计。通过为每个图像密集采样多个嵌入对并要求网络猜测它们的相对距离来鼓励模型学习图像内的空间关系，并在训练数据稀缺时使模型训练更加鲁棒。该过程包括采样、拼接、预测和输出四个步骤，其结构如图3所示。

首先，将生成的Patch序列还原回原图像对应位置，得到k×k网格，将其表示为G_x＝{e_i，j}_{1≤i，j≤k}，e_i，j∈R^d，d为嵌入空间维数。对于每个G_x，我们随机采样多对嵌入，对于每对嵌入(e_i，j，e_p，h)，我们计算2D归一化目标位置平移偏量(t_u，t_v)^T，其中：

随后将所选择的嵌入向量e_i，j和e_p，h拼接并输入到一个小的MLP(f)，该MLP具有两个隐藏层和两个输出神经元，其预测网格上的位置(i，j)与位置(p，h)之间的相对内容距离。设(d_u，d_v)^T＝f(e_i，j，e_p，h)^T，给定n个图像的小批量B，我们的相对定位损失为：

对于每个图像，通过在G_x中随机地均匀采样m对(e_i，j，e_p，h)，并对相应的(t_u，t_v)^T和(d_u，d_v)^T之间的L1损失求平均来计算期望值。最终损失为：

L_total＝L_CE+L_loc

在本方法中，(t_u，t_v)^T代表网格距离，(d_u，d_v)^T代表经过变换的向量距离(空间结构关系)，通过L_loc损失鼓励模型学习图像内的空间关系，以此优化模型收敛过程。

本发明方法贡献如下：

(1)自注意力机制关注昆虫的区分部位：本发明涵盖一种改进的VisionTransformer技术，其中包括自注意力机制，使其在图像分类任务中天然关注昆虫的区分部位。该自注意力机制能够使模型在处理昆虫图像时更加专注和准确地捕捉细小但可区分的部位特征，从而提高昆虫图像分类任务的准确性。

(2)改进的MLP结构增强聚合鲁棒表示能力：本发明涵盖一种改进的MLP结构，用于增强不同自注意力头之间的聚合鲁棒表示能力。该改进MLP结构旨在解决生态图像复杂背景问题，通过优化MLP结构，能够更好地融合和提取不同自注意力头的特征表示，从而有效地提高了模型对昆虫图像的识别准确性和稳健性。

(3)自监督任务损失优化模型收敛：本发明提出一种自监督任务损失，用于优化模型收敛。该损失函数鼓励模型从图像内学习空间关系，使得模型在训练过程中更加鲁棒。且当训练数据稀缺时，该自监督任务损失能够帮助模型更好地利用图像内部信息进行学习，提高了模型在野外场景样本数据上的泛化能力。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种改进的Vision Transformer昆虫细粒度识别方法，其特征在于，首先，采用Vision Transformer框架处理图像数据，能够在每一层中同时对图像的所有位置进行处理，实现全局视野；其次，针对生态图像复杂背景问题，提出改进的MLP结构，以增强不同自注意力头之间的聚合鲁棒表示能力；最后，提出一种自监督任务损失优化模型收敛，鼓励模型从图像内学习空间关系，使得模型训练更加鲁棒。

2.根据权利要求1所述的改进的Vision Transformer昆虫细粒度识别方法，其特征在于，在模型训练前，对图像数据进行分类标注，并按照7：3比例划分训练集和测试集，训练集用来训练模型，测试集用来评估模型性能；采用数据增强方法对训练集样本进行扩充。

3.根据权利要求2所述的改进的Vision Transformer昆虫细粒度识别方法，其特征在于，测试集评估模型性能，即测试过程中，首先，将测试集样本进行数据归约；然后，将归约后的数据输入到已经训练好的模型中进行分类，模型根据学到的特征和权重对每个测试样本进行分类预测；最后，将模型预测的结果与测试集样本的真实标签进行比对，输出测试分类结果。

4.根据权利要求1所述的改进的Vision Transformer昆虫细粒度识别方法，其特征在于，所述采用Vision Transformer框架处理图像数据，具体为：将图像分割成固定大小的小块Patch，将每个Patch视为一个向量，并通过一层线性变换映射为更高维的特征表示；接着，对这些向量进行位置编码，引入空间信息；之后，Vision Transformer利用多层的自注意力机制计算每个Patch与其他所有Patch之间的相似度得分，并通过得分对每个Patch进行加权平均，实现全局上下文的关联和信息交互；通过自注意力机制，Vision Transformer能够在每一层中同时对图像的所有位置进行处理，实现全局视野，能够捕捉到图像中各个位置之间的长程依赖关系，更好地理解图像的结构和语义信息。

5.根据权利要求1所述的改进的Vision Transformer昆虫细粒度识别方法，其特征在于，所述改进的MLP结构，即设计一个通道处理MLP结构，通过重加权促进通道选择，注意力设计是动态的，与内容相关，能够带来更丰富且更鲁棒的表征；具体实现如下：

设输入张量为X，维度为[B,N,C]；

6)矩阵相乘和Sigmoid：将向量Q'与向量K'进行矩阵相乘，然后通过Sigmoid函数处理得到大小为[B,heads,C/heads,1]的向量；

7)调整大小：将向量V转置后调整大小为[B,heads,C/heads,N]，准备输入到VisionTransformer的多层感知器MLP层；

8)按位相乘：将调整后的向量V与先前得到的向量进行按位相乘，得到大小为[B,heads,C/heads,N]的向量；

9)调整大小：将向量调整大小，得到大小为[B,N,C]的输出向量。

6.根据权利要求4所述的改进的VisionTransformer昆虫细粒度识别方法，其特征在于，所述自监督任务损失优化模型收敛，具体实现如下：

首先，将生成的Patch序列还原回原图像对应位置，得到k×k网格，将其表示为G_x＝{e_i,j}_1≤i,j≤k,e_i,j∈R^d，e_i,j代表还原后第i行第j列与原序列对应的空间向量，d为嵌入空间维数；对于每个G_x，随机采样多对嵌入，对于每对嵌入(e_i,j,e_p,h)，计算2D归一化目标位置平移偏量(t_u,t_v)^T，其中：

随后将所选择的嵌入向量e_i,j和e_p,h拼接并输入到一个小的MLP(f)，该MLP具有两个隐藏层和两个输出神经元，其预测网格上的位置(i,j)与位置(p,h)之间的相对内容距离；

设(d_u,d_v)^T＝f(e_i,j,e_p,h)^T，给定n个图像的小批量B，相对定位损失为：

对于每个图像，通过在G_x中随机地均匀采样m对(e_i，j,e_p,h)，并对相应的(t_u,t_v)^T和(d_u,d_v)^T之间的L1损失求平均来计算期望值；最终损失为：

L_total＝L_CE+L_loc

其中，L_CE为交叉熵损失，表述为预测结果与真实标签之间的差异性损失，公式如下：

式中，真实标签为y_i∈{1,2,…C}，h＝(h₁,h₂,…,h_C)^T为网络最终输出，即样本i的预测结果，C为分类任务类别数；