CN116311186A

CN116311186A - 一种基于改进Transformer模型的植物叶片病变识别方法

Info

Publication number: CN116311186A
Application number: CN202310077806.XA
Authority: CN
Inventors: 周厚奎; 叶渊博; 王陈燕
Original assignee: Zhejiang A&F University ZAFU
Current assignee: Zhejiang A&F University ZAFU
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-06-23

Abstract

本发明公开了一种植物叶片病变的自动识别方法，所述的方法为：通过摄像头获取植物叶片的病变源图像，对图片进行数据增强；图像进行切块后使用像素提取的方式对特征图进行缩放；通过十字交叉窗口增强窗口内的像素信息交流并且通过并行计算的方式减少计算量；利用双边注意力机制计算对窗口内进行像素聚类，进一步加强图像内空间信息的交流；采用自监督学习加强块之间随机位置的信息交流；利用多尺度融合策略将每个层输出的特征拼接与融合，强化全局空间位置信息的联系。本发明提出一种基于双边注意力机制与多尺度特征融合的植物病变的自动识别方法，可确保对植物病变叶片自动识别并检测出病变类型，并可根据用户自身设定满足不同场合下的应用要求。

Description

一种基于改进Transformer模型的植物叶片病变识别方法

技术领域

本发明设计一种智能植物病变叶片识别检测系统，特别设计一种针对复杂背景的植物叶片病变识别检测技术。

背景技术

经济和社会的不断发展带来了全球性的气候和环境问题。其中粮食减产是全世界面临最尖锐的问题。它导致全球数亿人陷入粮食危机之中，过着食不果腹的日子。其中病虫害是导致粮食减产的主要原因之一。植物在不同阶段会面临不同的虫病害问题，这需要工作人员具有丰富的叶片病变识别能力，然而这样的识别方法不仅效率低而且识别准确率也不高。一旦不能对病株做出及时的识别，容易导致病株枯萎。病虫害主要表现在植物的叶片病变上，因此对植物叶片病变的识别的研究具有十分重要的意义。

病虫害导致植物在生长过程中出现叶片斑点，茎秆枯萎，果实缺陷等问题。这些虫病变的形态学信息通常需要人工视觉检测获得，这是耗时且被动的。对于专家来说，人工检测病虫害的方法完全依赖于他们的经验和技能，这种方法不仅速度慢，而且效率低、成本高、主观性强、准确性低、及时性差。针对于植物在生长过程中感染虫病害导致减产、过度农药导致环境污染的问题，精准有效的识别方法能够有效的解决上述问题。然而，由于以下原因，这仍然是一项具有挑战性的任务。首先，不同病变种类的发病表现特征相似性高，同一病变又具有不同的发病程度，这容易造成识别不准确的结果。其次，植物叶片病变部位相对于复杂的背景信息更难以提取。

随着深度学习的快速发展，目前提出了很多基于卷积神经网络(CNN)的分类方法，准确的分类植物图像中的病变种类。通过采用高效的图像识别技术可以提高图像识别效率，降低成本，提高识别精度，克服了传统方法人工特征提取的主观性和局限性。深度学习技术的出现为图像识别提供了强有力的技术支持。最著名的分类网络之一是EfficientNet，它是通过平衡分辨率、深度和宽度这三个维度，来实现网络在效率和准确率上的优化。此外，已经提出了许多变体，通过引入注意力机制和自监督方式来改进现有的CNN网络，以进一步提高分类性能。

基于CNN的病虫害检测方法可以自动提取原始图像中的特征，克服了传统方法人工特征提取的主观性和局限性，解决了人工设计的特征提取器，无法得到最接近对象自然属性的特征表达的问题。虽然基于CNN的识别固然快速有效，但是CNN网络也有其对应的缺陷，比如平移不变形，池化导致信息丢失。当图像的同一对象发生轻微朝向或位置变化时，可能不会激活那些识别该对象的神经元。池化的弊端在于当图像进行池化使特征层维度发生变化时，会导致特征图损失大量有价值的信息，不可避免地会丢失分辨率和难以细化，以及忽略了局部与整体之间的关联性。

如何在有限数据的条件下和数据背景环境复杂的植物叶片病害识别研究一直是研究的难点和热点的问题。理想的植物病害识别系统应该是基于足量的数据作为支撑，然而在实验过程中所获得的数据往往不能达到深度学习的要求，从而导致网络模型在数量少的数据集上产生过拟合以及收敛奔溃的现象，弱化模型泛化能力。在现实中进行数据收集过程中，所获得的数据集通常是由人工拍的，这样的获取结果会造成图像在不同时间段有不同的特征表现，同时由于自然环境以及复杂的背景信息会导致所获得的图像主体不能被网络模型有效识别出来，影响样本的识别结果准确性。目前针对模型训练出现过拟合的手段多为数据扩增，数据扩增的确能够有效的解决模型过拟合的现象，但是盲目且冗余的扩增手段同时会带模型泛化能力削弱的现象。因此如何在数据量小的数据集上更能关注到图像关键信息，构建可靠、稳定、高精度的植物叶片病害识别系统具有重要意义。

发明内容

本发明的目的在于针对植物叶片病害识别系统提供一种基于Transformer模型的双边注意力机制与特征融合的识别算法，是可确保Transformer模型经过数据训练后，对植物叶片病害识别是高精度的。

一种在自监督的Transformer模型中使用双边注意力与特征融合的识别方法，其算法流程如图1所示。该方法包含下列步骤。

(1)首先获取数据集，针对数据不足采用如图2所示的数据增强策略；图像的翻转有两种方式，一种是垂直翻转，一种是水平翻转，垂直翻转是将图像的上半部分与下半部分按照水平中轴线进行对换。同理，水平翻转是将图像的左半边同右半边按照图像垂直中轴线进行对换。

对于一张长为w，宽为h的图像，原图中某一点(x₀,y₀)，经过水平变换后，坐标点为(x₁,y₁)，两者关系为：

x₁＝w-x₀

y₁＝y₀

矩阵表达式为：

矩阵的逆表达式为：

表达变为：

x₀＝w-x₁

y₀＝y₁

同理，点(x₀,y₀)经过垂直变换后坐标变换为(x₀,h-y₀)。其表达式与矩阵表达式为：

x₁＝x₀

y₁＝h-y₀

矩阵逆表达式为：

表达式为：

x₀＝x₁

y₀＝h-y₁

通过上述表达式，生成图像的像素点都可以在原图中找到。从而生成水平和镜像翻转。

(2)通过Transformer网络中空洞卷积对图像进行卷积运算，获取每个图像对应的特征图。空洞卷积的卷积核是在普通卷积核的基础上扩大了尺寸，但是真正参与运算的卷积核单元没有变化。卷积过程如图3所示，卷积计算公式为：

K_C＝S×(k₀-1)+1

其中S为超参数，是空洞卷积中的空洞因子。通过膨胀因子可以控制卷积核的空洞程度。K_C为输出卷积核的大小，k₀为输入卷积核的大小。

(3)如图4所示是Transformer的骨干网络结构Cswin-S。它采用了特征空间局部注意力(Feature-Space Local Attention:FSLA)模块。它与根据特征向量序列在图像平面中的空间位置对向量序列进行分组的图像空间局部关注不同，特征空间局部关注寻求根据向量序列的内容(即特征)对向量序列进行分类。该模块根据十字窗口注意力运算后的输出计算在特征空间彼此临近的token之间的注意力。FSLA模块重点是对特征进行聚类操作，并在各个类的内部计算自注意力。

(4)如图5所示是交叉十字窗口即并行计算方式。它采用的是十字窗口自注意力机制(Cross-Shaped Window Self-attention)，用于形成十字形状窗口的水平和垂直条纹进行并行计算注意力。每个条纹中的一点经过水平和垂直并行计算注意力后，就相当于在十字形窗口中每个像素点进行了注意力计算。其中(h_k)为多头部注意力机制中头部的数量。在十字注意力机制中，将头部数分为两半，一半进行行注意力计算，一半进行列注意力计算，最后将行和列注意力计算结果进行拼接操作，得到一个经过行列操作局部注意力计算结果。

(5)在网络层进行传输过程中，对于复杂的数据，线性的关系不能有效拟合。因此需要引入非线性的激活函数。在本发明中，使用的是Relu和Swish激活函数用于神经网络层之间。如图6所示。

(6)Transformer网络模型在训练过程中，为了增强一个块中随机像素之间的位置联系，采用了自监督学习。如图7所示为自监督学习的算法实现。通过这个自监督模式鼓励VIT模型学习特征的空间信息，而不是额外的手动注释。由transformer结构分割后的块(假设大小为L×L)在输入嵌入空间中进行映射，得到L×L的向量序列。对一个块中的token进行标记并随机选取成对的sample size，将选取的sample size个token对进行回归损失。如：输入块(L×L)，令所有token集合为：G_x＝{x_i,j}1＜i,j＜L,x_i,j∈R^d，d是输入图像的维度。取出的随机图像对(x_i,j,x_a,b)。对取出的图像对的之间进行二维归一化目标偏移量计算：

同时建立简单的MLP(f)感知机层将输入的samples对进行训练并预测(x_i,j,x_a,b)之间的相对距离。经过MLP层后，我们将其命名为f(x_i,j,x_a,b),令(d_u,d_v)^T＝f(x_i,j,x_a,b)^T。然后对一个batch中所有的数据进行损失计算：

其中d_u,d_v为MLP层对输入的图像进行计算所得到的两个预测值。通过在G_x中随机m对(x_i,j,x_a,b)上均匀采样，并对对应的(t_u,t_v)^T和(d_u,d_v)^T之间的L1损失均值来计算期望。

为了利用自监督所学习到的图像空间的位置关联信息，我们将l_do作为约束项加在原生VIT的标准交叉熵损失函数(LCE)中。最终的损失函数为：

l_t＝l_ce+λl_do

其中，对于原生公式，我们采用了可训练的参数λ对l_do损失值进行约束，这样的操作能够防止个别极端的特例对整体模型的影响，使得整个网络输出更平滑。同时能够缩减调参的繁琐步骤，增加实验的灵活性。自适应的λ比特定的λ值对网络模型更为友好，并且识别结果更为精准。

(7)如图8所示为Transformer模型中所使用的特征融合结构。VIT网络在训练过程中，它的注意力距离会随着网络深度的增加而增加。因此在不同的stage层上特征表示将是不同的。底层的层数更关注整体信息，深层的层可能会跟关注向量序列之间细节信息。通过特征融合将不同层输出的特征进行融合，整合全局信息，优化网络结构。通过对不同层进行空洞卷积，即将每层的特征图缩放到同一维度与尺寸，同时能够达到不丢失特征信息与扩大感受野的效果。如图9所示为空洞卷积使用策略。如图10所示为使用特有的融合策略将n层将维度大小都相同的特征图进行按权重大小比例进行融合。具体操作是将多维度的特征F∈R^H×W×C进行按照维度上的压缩，使得每个维度映射为一个值，将一个通道上整个空间特征编码为一个全局特征，采用平均池化操作实现。公式如下：

通过Squeeze操作得到了全局描述特征后，需要学习不同层之间的关系。我们采用Excitation操作，该操作能够学习到各个层之间的非线性关系，从而满足映射出不同融合比例值。

P_c＝F_ex(Z_c)＝W₂ ReLu(W₁Z)

其中

为了降低模型复杂度以及提升泛化能力，采用了包含两个全连接层的bottleneck结构，其中第一个全连接层起到了降维的作用，超参数r是降维系数，然后采用RELU激活函数。最后一层的全连接层使特征维度恢复到原始输入进来的维度。

通过网络的训练更新映射值，学习到不同层之间的关系，再将输出的映射值乘回原始特征维度。公式如下：

U_c＝F_scale(P_C,Z_C)＝Z_C*P_C

为了满足每个层都被利用到，我们采用了非one-hot形式，使用sigmoid激活函数(σ)对最后一层输出权重系数进行0～1的量化。公式如下：

最后获得的

作为整个模型的输出。为了防止特征融合后产生数值激烈变化的现象，我们在该模块最后一层增加一个sigmod层对其进行规范化，使得其输出趋于温和。最后通过MLP层对其输出作为预测分类。

(8)如图11所示为本发明所提出的模型微调策略。本发明力求在小数据集上使得网络结构达到最优的效果。因此使用Flood操作。Flood操作是将train loss最低值限制在一个特定的值之上，防止train loss因为训练过程中出现过拟合导致的迫近零的现象。如图11(a)所示。在实际的做法中通过对最终loss设置阈值进行实现，例如：将泛洪点设置在1.0的位置：

loss＝(loss-1.0).abs()+1.0

除了在网络泛洪点进行设置，我们同样在weight decay上提出改进。在网络训练过程中，权重衰减同样能够改善网络模型过拟合的现象。但是设置单一的weight decay值并不能有效的适合整个网络训练过程中的各个阶段，因此我们提出随着训练迭代而逐渐增加weight decay的操作，通过在网络模型训练过程中逐渐增加weight decay的值，使得网络在过拟合上能够得到有效的控制。Weight decay的曲线如下图11(b)所示。

2.确定最终的检测结果

经过上述的处理，Transformer网络经过训练后保存了每个训练后的权重模型结果。通过更改网络模型中参数，用户可以自定义的来更新训练新的数据。用户也可以使用训练好的权重模型用来预测识别植物病变叶片。

本发明具有以下特点：

1.本发明提出了一种使用自监督学习策略的网络结构，它是一种基于双边注意力机制与多尺度特征融合的Transformer网络结构的植物叶片病变识别算法。能有效的进行复杂植物叶片病变识别检测。

2.用户可以自定义设置种类数目，自定义数据扩增手段，并且自定义特有的Transformer类网络结构，根据现实设备的需求使用浅层或者深层的网络结构，从而使得该系统能灵活的处理绝大数智能植物叶片病变识别任务。

3.本系统实现简单，核心算法部分只需要一台pc就可以完成，系统开始运行后只需要加载训练好的权重就可以使用植物叶片病变识别功能。

附图说明

图1为本发明提出的植物叶片病变识别算法流程图。

图2为数据扩增策略。

图3为空洞卷积算法过程。

图4为Transformer网络骨干结构流程图。

图5为多头部自注意在交叉十字窗口上的计算过程。

图6为本发明使用的激活函数。左边为Relu激活函数，右边为Swish激活函数。

图7为本发明提出的自监督学习机制模块示意图。

图8为本发明提出的特征融合结构的流程图。

图9为本发明提出的空洞卷积使用策略结构图。

图10为本发明提出的多尺度融合策略流程图。

图11为本发明提出的网络模型微调策略。

图12为本发明的网络结构图。

图13为本发明提出的TSwin-F网络与主流网络的实验对比图。

图14为本发明使用的数据扩增示例图。

图15为本发明提出网络模型使用FAWD微调策略在植物识别上获得的准确率对比图。

图16为本发明使用Tswin-F网络在病变叶片上关注热力图。

图17为本发明的Tswin-F网络在13类番茄叶片上病变识别结果示例图。

图18为本发明的Tswin-F在10类番茄病变叶片上病变识别结果示例图。

具体实施方式

下面，结合附图和具体实施案例来进一步说明本发明。

本发明提出了一种基于注意力机制神经网络的植物叶片病变叶片识别算法，结合图1到图18详细说明如下：

如图1所示为本发明提出的基于双边注意力机制与多尺度特征融合Transformer网络的植物叶片病变识别算法的流程图。在该流程中，输入到Transformer网络中的数据是在原始数据上进行预处理过的。将输入图片尺寸固定在224*224的大小，通过线下增强的手段将图像进行扩增以满足模型训练的需要。在将图像输入到Transformer网络结构中，首先对图像进行块的划分，在本发明中，将所有224*224大小的图像都统一划分为16*16的块。将16*16大小的块进行拼接打包发送到网络中进行层归一化。在网络训练过程中，本发明使用图1中窗口划分的部分，通过对图像进行划块，并在每个块上使用可移动的窗口，窗口的使用能够有效的降低模型对图像进行多头全局自注意力的计算量，同时移动的窗口又能避免一个图像因为窗口的使用所导致的窗口之间信息隔绝的现象。在此基础上本发明提出对每个块上使用交叉十字窗口，交叉十字窗口的使用能够大大减少模型进行并行计算多头部自注意力的计算量。本发明提出的token聚类操作在交叉十字窗口的基础上更进一步的加强了块内的信息联系。

如图1所示的特征融合阶段，是本发明提出对全局注意力机制的整合。首先对Transformer网络中使用的每个层结构进行特征提取，将每个层结构的特征输出进行存储。然而对于不同层结构的输出所对应的特征矩阵大小都是不同的，无法将其进行直接拼接，因此需要空洞卷积对所有特征信息进行维度转换且最大程度上保留特征底层信息。最后将所有层对应的特征信息进行归一化后，将它们进行拼接，使所有特征层变为一个多维度的特征信息。使得网络模型能够建立全局特征信息，在网络训练的迭加中，解决模型因为多头部自注意的距离增加问题，有效的将底层与高层的特征信息进行有机结合，显著的增强了网络模型的泛化能力。

如图2所示为输入网络训练之前的数据扩增策略，在输入神经网训练之前，由于数据的不足需要对数据进行数据增强。不同于目前对数据单一的增强手段，根据数据类别的比例自动生成对应的数据增强策略。本发明提出的组合数据扩增手段能够达到植物叶片病变识别准确率高，模型不过拟合的效果。

如图三所示为图像经过分块后的输出特征矩阵。特征矩阵通过对每个像素点进行提取，每隔一个像素进行提取，最终将一个图片所有的像素点进行划分给尺寸为原来一半，维度为原来的一倍的新特征图。该操作不涉及任何卷积池化操作，所有特征信息都是通过像素提实现，不会造成因为卷积池化所产生的特征信息丢失问题。

如图4所示本发明提出的Transformer网络结构中的骨干网络。该图展现了特征信息在网络传播过程中所经历的流程。采用交叉十字窗口与token聚类操作，更进一步增强了划块后窗口内信息交流能力。同时将层归一化放在自注意力之前，有效的解决了网络模型在训练过程中幅值激增的现象。

如图5所示是交叉十字窗口示意图，用于形成十字形状窗口的水平和垂直条纹进行并行计算注意力。每个条纹中的一点经过水平和垂直并行计算注意力后，就相当于在十字形窗口中每个像素点进行了注意力计算。其中(h_k)为多头部注意力机制中头部的数量。在十字注意力机制中，将头部数分为两半，一半进行行注意力计算，一半进行列注意力计算，最后将行和列注意力计算结果进行拼接操作，得到一个经过行列操作局部注意力计算结果。

如图7所示为本发明提出的自监督学习模型(DRLOC)。由transformer结构分割后的patch(假设大小为L×L)在输入嵌入空间中进行映射，得到L×L的向量序列。对一个patch中的token进行标记并随机选取成对的sample size，将选取的sample size个token对进行回归损失。

如图8所示为本发明提出的多尺度特征融合策略(FFLCA)。将每个层输出都进行如图8所示的空洞卷积，使得所有输出特征层都能尺度归一化便于后续的特征拼接。将拼接后的特征按照如图10所示的融合策略将所有维度的特征信息进行自注意力的融合。使得整个网络上浅层与深层的特征信息都能被有效利用，增强全局建模能力。

针对Transformer网络模型容易出现训练过拟合的现象，本发明提出了一种如图11所示的新颖网络微调方式(FADW)。使用Flood操作抑制网络模型在训练过程中的训练损失无限降低的现象，通过权重衰减操作匹配网络模型在训练过程中各个阶段的权重比例，防止出现权重过重或过轻的现象从而影响网络模型的稳定。

本发明以上述植物叶片病变识别算法为核心，提出了一个集图像采集模块，图像扩增模块，植物叶片病变识别模块和逻辑运行模块为一体的智能植物叶片病变识别系统，并且已经在实际的场地进行了测试，测试结果显示该系统能在简单图像和复杂自然环境下拍摄的图像都保持很高的准确率。

本发明使用Transformer网络，该网络采用了自注意机制。在此基础上，提出了Tswin-F网络。与Transformer相比，Tswin-F加入了双边注意力机制(BOAT)与多尺度特征融合策略。添加双边注意力机制加强了图像在经过划块后在网络中块与块之间的信息交流，使得网络更能明确图像上的位置关系与空间联系。多尺度特征融合能够整合整个图像上的全局注意力信息，更进一步增强网络模型的泛化能力。Tswin-F在其结构中使用交叉十字(Cross-Shaped Window Self-Attention)与均衡层次聚类(Balanced HierarchicalClustering)。表1对使用随机深度学习进行了比较。性能提高了2.8％。

表1:添加交叉十字窗口和均衡层次聚类与不添加的模型识别结果对比。

在本发明中，我们重新定义了Transformer网络中的部分层结构，在每个stage之前使用了新的像素提取结构，使用交叉十字自注意力机制(Cross-Shaped Window Self-Attention)与特征空间注意力机制(Fsla)结合的操作。将特征空间注意力机制(Fsla)模块嵌入到CSW模块后面。通过这些变化，提出了Tswin-F网络。图10图12是Tswin-F的网络结构。

为了证明本发明的有效性，增加了消融实验来证明本发明的优越性。在每个实验中使用相同的数据集和实验环境，对需要对比的变量进行更改。为了证明本发明所提出改进是对网络模型具有改善作用的，使用Tswin作为主干网络，只替换网络结构中的不同模块进行消融实验。在实验中，比较了加入双边注意力机制(Boat)，微调策略(FADW)模块、自监督学习机制(DRLOC)模块、特征融合模块这四种不同的组合策略。不同结构组合策略在同一数据集上获得的最终结果如表2所示。因此可以看出本发明所提出的注意力机制和连接方式都是最有效的。

表2:消融实验结果

为了充分证明本发明提出的网络结构是目前主流Transformer模型中最高效的，本发明增加了对比实验。对比实验中，使用了EfficientNetV2,VIT，Swin，CSwin，Swin-boat,CSwin-boat,Tswin网络结构与本发明提出的Tswin-F在相同数据上进行识别结果对比。对比结果如表3所示。证明了本发明提出的Tswin-F在同样数据上的测试结果优于目前主流的其他Transformer网络，达到了最优的效果。

表3:各种模型的平均精度、平均召回率和平均特异性

为了验证本发明提出的Tswin-F网络结构是否能够适应其他的数据，能否具有较高的模型迁移能力，本发明使用了不同的数据来对本发明提出的网络结构进行测试。我们依然使用了EfficientNetV2,VIT，Swin，CSwin，Swin-boat,CSwin-boat,Tswin网络结构与本发明提出的Tswin-F网络在相同数据上进行识别结果对比，更换数据后再次测试不同的网络在不同数据上的识别结果。最后得出的结果如表4所示：

表4:各种模型的平均精度、平均召回率和平均特异性

识别结果曲线图如图13所示。由图表可以得出，不论是网络结构，或者是数据结构，本发明提出的网络都能优于目前主流的网络结构，达到最优的识别结果。

下面结合图14与图18给出一个应用实例：

如图14示为图像采集模块所得的真实场景的数字图像，该图像为13类番茄病变图像分别是：番茄早疫病一般、番茄早疫病严重、健康、番茄晚疫病一般、番茄晚疫病严重、番茄叶霉病一般、番茄叶霉病严重、番茄斑枯病一般、番茄斑枯病严重、番茄红蜘蛛损伤一般、番茄红蜘蛛损伤严重、番茄黄化曲叶病毒病一般、番茄黄化曲叶病毒病严重。每类的数量为：251，442，1208，264，1109，325，336，421，807，524，271，1414，2473.所有的样本被划分成三部分，比例为：7:2:1，所有图片总和为：9843张图片。图中(a),(c),(e),(g)是在自然环境中对植物进行采样的图片，通过本发明数据增强后图像如(b),(d),(f),(h)所示。分别是经过翻转，平移，亮度，对比度的处理。为了验证本发明提出的FAWD微调方法在网络训练过程中具有优越性，我们将对比结果通过可视化的结果呈现出来。如图15所示为使用FAWD与不使用FAWD网络在同一数据集上的表现。可以明显看出使用FAWD后准确率提升显著。如图16所示，(a),(c),(e),(g)为真实植物样本图像，(b),(d),(f),(h)为原始图像经过本发明提出的Tswin-F网络在植物叶片识别上所关注的区域信息热力图，可以发现本发明能够保证模型能够切合数据学习并关注到数据中植物叶片病变信息。

图17为数据的识别结果，其中(a),(c)为植物病变叶片原始图像，(b)(d)为原始数据经过本发明后输出的植物叶片病变识别结果图。

示例二：

如图18所示为10番茄病变叶片的识别结果，番茄疮痂病、番茄早疫病、健康、番茄晚疫病菌、番茄叶霉病、番茄斑枯病、番茄红蜘蛛损伤、番茄斑点病、番茄花叶病、番茄黄化曲叶病毒病，对应的类别的图像数量分别为：2127、1000、1590、1909、952、1771,、1676、1404、373、5357。数据集的训练集、验证集和测试集划分比例为7:2:1，共18159张图片。(a),(c)为原始数据图，(b),(d)为对应的识别结果。同时通过表5展示了每个模型的平均准确率、平均召回率和平均特异性的统计数据。

表5:所有模型在两种数据集上获得的Top-1准确率和他们的计算量以及参数量。

/>

Claims

1.一种基于Transformer网络的智能植物叶片病变识别系统，其特点是采用了图片预处理、窗口划分、特征融合策略、自监督学习方法对植物叶片病变进行识别。

2.如权利要求1所述的植物叶片病变识别系统图片预处理方法，其特征在于，对输入网络的图像进行尺寸大小归一化处理，将图像尺寸缩放至224*224像素大小；图像扩增方法为将划分好的图像进行镜像、翻转、平移、剪切、仿射变换、旋转操作进行扩增，对于图像抗噪能力的数据扩增方法为：添加高斯噪声、进行高斯模糊、亮度、对比度调整；生成的随机数乘以一个正则化常数，在{0.1,0.2,0.3,0.4}之间随机生成均值参数，在{0,0.1，…，0.5}之间随机生成偏差参数，通过随机数生成的高斯分布随机值将其与原始图像上的像素值进行叠加，然后再量化到0～255之内，生成高斯加噪的图像；将每批次输入网络中的数据进行打包，并对批次内的数据进行层归一化操作，具体公式为：

其中Ε[x]是批次数据的均值，y为层归一化输出数据，

为数据的标准差，ε是一个非常小的数默认为10^-5，为了防止分母为零，γ和β是两个可以训练的参数。

3.如权利要求1所述的窗口划分模块，其特征是将输入图片进行切块，设置移动窗口，规定窗口类型，以及块内像素聚类；切块操作是将输入进Transformer网络的图像进行切块并转化为对应的向量序列，它是一个二维矩阵；以基础Transformer为例，每个向量长度为768，对于大小为224*224的图像按照16*16的块进行划分，划分后会得到196个块，使用线性映射将每个块映射为一维向量，最后会得到一个大小为[196,768]二维矩阵；交叉十字移动窗口特征是对输入图像进行按条形窗口划分，并且对每个窗口中的向量进行划分，形成十字形状窗口的水平和垂直条纹进行并行计算注意力；每个条纹中的一点经过水平和垂直并行计算注意力后，就相当于在十字形窗口中每个像素点进行了注意力计算；将一个输出特征X∈R^H×W×C，首先投影到k个头部，然后对每个头部在水平或垂直条纹内进行局部自注意力的计算，对于横条的自我注意力，将X均匀划分为不重叠的横条[X¹,,,,X^M]，横条等宽为sw；其中sw可以通过调整来平衡学习能力和计算复杂度；K个横条自注意力输出定义为：

X＝[X¹,X²,...,X^M],

其中Xⁱ∈R^(sw×W)×C，M＝H/sw，i＝1,...,M；

是三个变量对应的输入特征Q,K,V的矩阵投影，d_k为输入特征的维度数量除以头部数量的值；垂直条纹的自注意力也可以同理导出，将第Z个自注意力头输出记为V-Attention(X)；平均的将k个头部分成两个平行的组，每一组有Z/2个头部数；第一组进行水平条纹的自注意力计算，另一组进行垂直条纹的自注意力计算，最后将两个并行组的输出合并在一起，结果如下：

All-Attention(X)＝Concat(head₁,...,head_Z)W^O，

其中W^O∈R^C×C为固定的将自我注意力结果投影到目标输出维的投影矩阵。

4.如权利要求3所述的多头部注意力机制，其特征在于，特征图上使用多个自注意力捕获向量序列内各种范围的依赖信息，将Q,K,V值通过投影矩阵并行送入到注意力汇聚层，通过另一个投影矩阵进行计算作为最终输出，公式为：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O，

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)，

5.如权利要求3所述的块内像素聚类方法，其特征在于，采用k层聚类操作将一个块中所有向量序列进行聚类划分；每一层向量序列进行一次均衡二分类，将相似度高的向量序列归为一类，通过循环的方式将分好类别的向量序列再次进行均衡地划分为更新的类别，最终根据窗口大小将块中所有的向量序列划分归类为特定大小，交叉十字窗口的捷径连接公式为：

F_Csw＝F_in+CSW(LN(F_in))，

F_in为输入向量序列集合，CSW为交叉十字注意力结构，LN为层归一化层，一次交叉十字模块作用在一个窗口中，采用现有的基于窗口的注意力模块作为F_Csw模块；特征空间注意力层与交叉十字窗口层的连接方式公式为：

F_Fsla＝F_Csw+σF_Fsla(LN(F_CSw))，

上式中Fsla为特征聚类的操作，计算整个输入特征空间中相似向量序列之间的自注意力关系，本发明对上式的叠加方式添加了一个系数σ，该系数σ为F_Fsla层加权系数，它是一个随着网络模型训练的自适应参数，最终的输出为：

F_out＝F_Fsla+MLP(LN(F_Fsla))，

F_out是整个模块的最终输出特征矩阵，MLP为多层感知机。

6.如权利要求1所述的自监督学习方法，其特征在于，对每个块内的向量序列进行随机位置关系的学习；由Transformer结构分割后为L*L大小的块在输入空间中进行映射，得到L*L的一维向量；对一个块中的向量序列进行标记并随机选取成对的图像对，将选取的图像对的向量序列对进行回归损失；对于输入切块后大小为L*L的图像，记所有向量集合为G_x＝{x_i,j}1＜i,j＜L,x_i,j∈R^d，d是输入图像的维度，对取出的图像对(x_i,j,x_a,b)进行二维归一化目标偏移量计算：

建立简单的MLP(f)感知机层，将输入的图像对进行训练并预测(x_i,j,x_a,b)之间的相对距离；经过MLP层后，将其命名为f(x_i,j,x_a,b),令(d_u,d_v)^T＝f(x_i,j,x_a,b)^T，然后对一个批次中所有的数据进行损失计算：

其中d_u,d_v为MLP层对输入的图像进行计算所得到的两个预测值；通过在G_x中随机m对(x_i,j,x_a,b)上均匀采样，并用对应的(t_u,t_v)^T和(d_u,d_v)^T的L1损失均值来计算总体期望；将l_do作为约束项加在原生VIT的标准交叉熵损失函数中，最终的损失函数为：

l_t＝l_ce+λl_do，

其中，采用了可训练的参数λ对l_do损失值进行约束。

7.如权利要求1所示的多尺度特征融合方法，其特征在于，对输入Transformer图像特征的每一个结构输出特征信息进行利用；对不同尺寸的特征输出使用空洞卷积对其进行缩放；通过对不同层进行空洞卷积，使用融合策略将n层维度大小都相同的特征图，按权重大小比例进行融合；将多维度的特征F_out∈R^H×W×C按维度进行压缩，使得每个维度映射为一个值，将一个通道上整个空间特征编码为一个全局特征，采用平均池化操作实现，公式如下：

F_sq是对维度压缩得到的全局描述特征，需要学习不同层之间的关系；F_ex为激励操作，将一维映射向量进行激励扩增为原始维度向量，映射不同维度之间的融合比例值，其公式如下：

P_c＝F_ex(Z_c)＝W₂ReLu(W₁Z)，

其中

是两个全连接层所对应的映射矩阵；第一个全连接层为降维矩阵，第二个全连接层为升维矩阵，超参数r是升降维系数，然后采用RELU激活函数；最后的全连接层使特征维度恢复到原始输入图像的维度；通过网络的训练更新映射值，学习不同层之间的关系，再将输出的映射值变换为原始特征维度，公式如下：

U_c＝F_scale(P_C,Z_C)＝Z_C*P_C，

采用独热向量的形式，使用sigmoid激活函数ψ对最后一层输出权重系数进行0～1的量化，公式如下：

F_em为sigmoid函数，

为整个模型的输出，通过多层感知机层的输出作为预测分类。