CN114937021A

CN114937021A - 一种基于Swin-Transformer的农作物病害细粒度分类方法

Info

Publication number: CN114937021A
Application number: CN202210605763.3A
Authority: CN
Inventors: 李大森; 尹振东; 赵延龙; 吴芝路; 李继卿
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-23

Abstract

本发明提供了一种基于Swin‑Transformer的农作物病害细粒度分类方法，涉及深度学习技术领域，主要针对农作物病害细粒度分类任务中由于类别差异较为细微，不能提取到不同病害独有的特征而引发误分类问题。包括以下步骤：步骤一、采集农作物病害图像，对图像标注病害标签，对标注后的病害图像进行预处理，再随机划分得到训练样本和测试样本；步骤二、设计Swin‑Transformer网络结构，输入训练样本对Swin‑Transformer网络进行迭代训练并更新网络参数，同时采用测试样本对每轮训练的网络结构进行测试，记录并保存训练结果和测试结果，根据最优的测试结果确定网络模型；步骤三：将待检测样本进行预处理，再将待检测样本输入至网络模型得到相应的类别评分，选取最高评分的类别作为输出结果。

Description

一种基于Swin-Transformer的农作物病害细粒度分类方法

技术领域

本发明涉及深度学习技术领域，具体而言，涉及一种基于Swin-Transformer的农作物病害细粒度分类方法。

背景技术

农作物病害的诊断目前主要依赖于人工识别，成本高昂并且很难做到及时诊断。计算机视觉技术是实现农作物病害自动化检测的基础，其原理是输入病害图像并通过计算机学习不同类样本的不同特征分布，从而自动判定输入图像的病害类别，实现农作物病害的自动化检测。与人工识别相比，农作物病害自动化检测效率高、成本低，具有很高的应用价值。

基于计算机视觉的机器学习模型虽然在图像分类领域展现出强大的能力，然而在农作物病害诊断领域却一直难以推广，其主要原因在于与传统的分类任务相比(如飞机、汽车)，相同农作物的不同病害间的独有特征较难提取，且易受差异较大的叶片形状、拍摄背景、光照条件影响而造成特征数值偏移，引发模型的误分类。因此，探究如何实现农作物病害的细粒度分类是必须的。

发明内容

本发明要解决的技术问题是：

主要针对农作物病害细粒度分类任务中由于类别差异较为细微，不能提取到不同病害独有的特征而引发误分类问题。

本发明为解决上述技术问题所采用的技术方案：

一种基于Swin-Transformer的农作物病害细粒度分类方法，所述方法包括以下步骤：

步骤一、采集农作物病害图像，对每张病害图像标注病害标签，对标注后的病害图像进行训练预处理，将处理后的病害图像随机划分得到训练样本和测试样本；

步骤二、设计Swin-Transformer网络结构，预设训练参数和迭代次数，输入训练样本对Swin-Transformer网络进行迭代训练并更新网络参数，同时采用测试样本对每轮训练的网络结构进行测试，记录并保存训练结果和测试结果，根据最优的测试结果确定Swin-Transformer网络模型；

步骤三：将待检测样本进行检测预处理，将预处理后的待检测样本输入至步骤二得到的网络模型得到相应的类别评分，选取最高评分的类别作为输出结果；

步骤二中的Swin-Transformer网络结构具体为：

步骤二一：将输入特征图分割为特定尺寸的窗口；

步骤二二：基于窗口的多头自注意机制和移位多头自注意机制计算各窗口中的元素权重信息，将输出结果正则化；

步骤二三：变换窗口尺寸，重复步骤二二的计算，共重复计算三次；

步骤二四：将得到结果通过全连接层与类别标签关联；

步骤二五：设置损失函数，通过反向传播训练并得到病害的最佳分类模型。

进一步地，所述训练预处理包括对数据集的下采样、中心裁剪、亮度变换和旋转变换处理；所述检测预处理包括对待检测样本进行下采样和中心裁剪处理。

进一步地，调用CenterCrop函数对下采样后的图像样本中心裁剪，裁剪后的图像尺寸为统一格式；采用线性变换方法对图像样本进行亮度变换；采用随机角度旋转方法对图像样本进行旋转变换。

进一步地，步骤二中的网络结构还包括通过层标准化操作将输入在通道方向上归一化，再进行多头自注意力计算。

进一步地，步骤二中，多头自注意力机制的计算公式为：

Multihead(Q,K,V)＝Concat(head₁,...,head_h)W^O

head_i＝Atttention(QW_i ^Q,KW_i ^K,VW_i ^V) (1)

其中X为输入，Q、K、V分别为查询矩阵、键矩阵和值矩阵，W_i ^Q为不同子空间中Q的映射矩阵，W_i ^K为不同子空间中K的映射矩阵、W_i ^V为不同子空间中V的映射矩阵，d_k为每个token的特征维度。

进一步地，步骤二二中，通过Att-Drop算法将结果正则化。

进一步地，步骤二二中，移位多头自注意机制具体为将图像特征进行半个窗口大小的像素位移，再将划分的与原有尺寸不一致窗口移位并重新排列组合成为一个原有尺寸的新窗口。

进一步地，步骤二四中，对于重新组合的新窗口，采用掩码机制将不相关的窗口屏蔽掉再计算权重，具体的计算公式为：

进一步地，步骤二五的损失函数为交叉熵损失函数，具体为：

其中m为样本个数，n为病害类别数，p(x_ij)为真实值，q(x_ij)为预测值。

相较于现有技术，本发明的有益效果是：

本发明农作物病害细粒度分类方法基于Swin-Transformer结构，首先，采用层次化Transformer架构，引入多头自注意机制和移位多头自注意机制捕捉图像样本的全局信息并计算权重，加强网络对图像边缘信息特征的提取能力，从而提高网络提取样本特征能力。其次，本发明提出通过Att-drop算法替代Drop-out算法，引入权重阈值并运用低权重神经元随机失活替代全局随机失活，解决了细粒度任务中由于重要的独有特征信息较少，全局随机失活更容易丢失掉独有特征信息而影响分类结果的问题。

本发明与传统的CNN网络架构相比具有更强的长距离特征捕获能力，从而提高模型在病害细粒度分类任务中的性能；针对类别特征较为接近的农作物病害分类，具有较高的准确性。

附图说明

图1为本发明实施例中基于Swin-Transformer的农作物病害细粒度分类方法流程图；

图2为本发明实施例中病害图像预处理流程图；

图3为本发明实施例中病害分类网络的结构示意图；

图4为本发明实施例中网络结构图中Transformer模块的结构示意图；

图5为本发明实施例中Att-Drop算法的原理图；

图6为本发明实施例中多头自注意力部分重新划分窗口的划分机制图；

图7为本发明实施例中将新划分的窗口移位并重新排列示意图；

图8为本发明实施例中健康番茄叶片、番茄早疫病和番茄晚疫病样本图；

图9为本发明实施例中本发明方法与基于CNN的Resnet-50网络结构计算结果的对比。

具体实施方式

在本发明的描述中，应当说明的是，在本发明的实施例中所提到的术语“第一”、“第二”、“第三”仅用于描述目的，并不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者多个该特征。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

如图1所示，一种基于Swin-Transformer的农作物病害细粒度分类方法，所述方法包括以下步骤：

步骤二、设计Swin-Transformer网络结构，预设训练参数和迭代次数，输入训练样本对Swin-Transformer网络进行迭代训练并更新网络参数，同时采用测试样本对每轮训练的网络结构进行测试，记录并保存训练结果和测试结果，基于最优的测试结果确定Swin-Transformer网络模型；

步骤三：将待检测样本进行检测预处理，将预处理后的待检测样本输入至步骤二得到的网络模型得到相应的类别评分，选取最高评分的类别作为输出结果。

如图2所示，采集农作物病害图像，对每张病害图像标注病害标签，将标注好的图像样本下采样以减少内存消耗；调用CenterCrop函数，对下采样的图像样本中心裁剪，进一步减少内存并去除背景干扰信息；裁剪后的图像尺寸为统一格式，大小为224×224×3；亮度变换采用线性变换方法，倍数阈值参数i为随机数且满足i∈(0.75,1.25)；旋转变换采用随机角度旋转方法，角度阈值设置为20°以内；将处理后的病害图像随机划分得到训练样本和测试样本。

如图3所示为设计的Swin-Transformer网络结构，具体为：

1)在图3中步骤A的窗口分割部分中，将输入图像分割成48个窗口，其中每个窗口尺寸大小为56×56；即输入维度变为56×56×48。

2)、图3中步骤A的transformer模块部分，具体如图4所示，模块中通过层标准化操作将输入在通道方向上归一化。

3)、通过多头自注意力部分计算输入的相关权重信息及对应结果，即：

Multihead(Q,K,V)＝Concat(head₁,...,head_h)W^O，其中

head_i＝Atttention(QW_i ^Q,KW_i ^K,VW_i ^V),

其中X为输入，Q、K、V分别为查询矩阵、键矩阵和值矩阵，W_i ^Q为不同子空间中Q的映射矩阵，W_i ^K为不同子空间中K的映射矩阵、W_i ^V为不同子空间中V的映射矩阵，dk为每个token的特征维度

4)、通过Att-Drop算法将输出结果正则化。

5)、将结果作为输入在通道上归一化后通过多层感知机，其含有一个隐藏层。

6)、通过移位多头自注意力部分重新划分窗口；

其划分机制如图6所示：其中(a)为原有的16个窗口，按照(b)中的方式移位1/2像素重新划分，共划分为25个窗口；其中窗口1，5，21，25的尺寸为28×28，窗口2，3，4，22，23，24的尺寸为56×28，窗口6，10，11，15，16，20的尺寸为28×56，窗口7，8，9，12，13，14，17，18，19的尺寸为56×56。

重新划分窗口的目的是建立不同窗口间的联系，以实现不同窗口间信息的交互。例如在新划分的25个窗口中，窗口6融合了原窗口1与窗口5的特征，而窗口7则融合了原窗口1，2，5，6的特征。

7)、如图7所示，将新划分的窗口移位并重新排列。

将窗口6，11，16，21平移至窗口10，15，20，25右侧，窗口2，3，4，5平移至窗口22，23，24，25下方，窗口1移至整图的右下角。

重新排列的窗口10和6，窗口15和11，窗口20和16，窗口22和2，窗口23和4，窗口24和4，窗口25、21、5和1分别重新拼接组成一个新窗口，且尺寸也为56×56。

如此排列的目的是减少了窗口个数，从而降低了计算的复杂度。

8)、计算输入的相关权重信息及对应结果；对于重新拼接组成的新窗口，运用掩码的方式计算权重；计算公式为：

例如计算在窗口10，6组成的新窗口中，计算区域10中的像素权重时，由于区域6与其并不相关，因此需运用掩码机制屏蔽掉区域6。

9)、将结果经过ATT-Drop正则化处理后输入多层感知机。

10)、完成步骤A，将结果输入步骤B，在步骤B中的窗口分割部分中，将输入的窗口尺寸变为步骤A中窗口尺寸的一半，即尺寸变为28×28。

11)、重复步骤A的流程。

12)、同样的步骤C、步骤D中窗口分割部分划分的窗口尺寸大小依次为14×14，7×7。

13)、通过全连接层构建分类器，输出数量与病害的类别个数相同。

14)、设置损失函数L，L为交叉熵损失，即

预设训练参数和迭代次数，输入训练样本对Swin-Transformer网络进行迭代训练并更新网络参数，同时采用测试样本对每轮训练的网络结构进行测试，记录并保存训练结果和测试结果，基于最优的测试结果确定Swin-Transformer网络模型；

Att-Drop为Attention-based Dropout algorithm的缩写，为发明人基于注意力机制Dropout算法的改进算法，其原理为：

如图5中(a)所示，现有的Drop-out算法的本质是以一定概率让一些神经元停止工作，来解决模型的过拟合问题，然而在细粒度分类任务中，由于不同类别的样本特征较为接近，少部分神经元可能会对结果造成很大的影响，而其余神经元影响较小，当以特定概率删除神经元时，易造成该部分重要性较高的神经元被删除而大幅度影响模型性能。

本发明提出的Att-Drop算法，其原理如图5中(b)所示，其核心思想是保留权重较高的神经元，而以一定概率删除权重较低的神经元；具体做法为设置两个阈值：权重阈值α以及概率阈值β；当通过多头自注意力得到的权重小于权重阈值α时，神经元以β的概率随机失活；当权重大于或等于权重阈值α时，神经元保留活性。

步骤三中，通过Swin-Transformer网络模型判定待检测样本类别的具体过程为：

1)、将待检测样本进行下采样、中心裁剪，使检测样本输出尺寸与训练样本相同；

2)、将预处理后的待检测样本输入至Swin-Transformer网络模型，输出结果为n维向量(a₁,a₂,...,a_n)，n与病害的类别数量相等，其中向量中的元素可以视作该类病害的评分结果；选择评分最大值对应的病害类别，作为输出结果。

实施例1：

针对病害样本特征较为接近的番茄早疫病以及番茄晚疫病对本发明方法进行验证，如图3所示从左到右依次为健康番茄叶片、番茄早疫病叶片和番茄晚疫病叶片，数据集共包含：健康番茄叶片，番茄早疫病，番茄晚疫病。

其中每种病害样本划分400张样本作为训练集，100张样本作为测试集；验证结果为：本发明方法可以实现三类别96％的识别准确率。

针对番茄早疫病以及番茄晚疫病，本发明方法与传统的基于CNN的Resnet-50网络结构进行对比，如图9所示，为详细的混淆矩阵结果，其中(a)为传统的基于CNN的Resnet-50网络结构，(b)为本发明方法。可以看出，本发明方法相较于传统CNN方法准确率更高，针对早疫病与晚疫病这两种相似度较高的病害，传统CNN方法易发生误分类，而本发明方法可以更有效地区分这两种病害。

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本发明领域技术人员在不脱离本发明公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种基于Swin-Transformer的农作物病害细粒度分类方法，其特征在于所述方法包括以下步骤：

步骤三：将待检测样本进行检测预处理，将处理后的待检测样本输入至步骤二得到的网络模型得到相应的类别评分，选取最高评分的类别作为输出结果；

步骤二中的Swin-Transformer网络结构具体为：

步骤二一：将输入特征图分割为特定尺寸的窗口；

步骤二四：将得到结果通过全连接层与类别标签关联；

2.根据权利要求1所述的一种基于Swin-Transformer的农作物病害细粒度分类方法，其特征在于所述训练预处理包括对数据集的下采样、中心裁剪、亮度变换和旋转变换处理；所述检测预处理包括对待检测样本进行下采样和中心裁剪处理。

3.根据权利要求2所述的一种基于Swin-Transformer的农作物病害细粒度分类方法，其特征在于调用CenterCrop函数对下采样后的图像样本中心裁剪，裁剪后的图像尺寸为统一格式；采用线性变换方法对图像样本进行亮度变换；采用随机角度旋转方法对图像样本进行旋转变换。

4.根据权利要求3所述的一种基于Swin-Transformer的农作物病害细粒度分类方法，其特征在于步骤二中的网络结构还包括通过层标准化操作将输入在通道方向上归一化，再进行多头自注意力计算。

5.根据权利要求4所述的一种基于Swin-Transformer的农作物病害细粒度分类方法，其特征在于步骤二中，多头自注意力机制的计算公式为：

Multihead(Q,K,V)＝Concat(head₁,...,head_h)W^O

head_i＝Atttention(QW_i ^Q,KW_i ^K,VW_i ^V) (1)

其中X为输入，Q、K、V分别为查询矩阵、键矩阵和值矩阵，W^Q、W^K、W^V为可学习的参数矩阵，W_i ^Q、W_i ^K、W_i ^V、W^O为可学习的参数，d_k为每个token的特征维度。

6.根据权利要求5所述的一种基于Swin-Transformer的农作物病害细粒度分类方法，其特征在于步骤二二中，通过Att-Drop算法将结果正则化。

7.根据权利要求6所述的一种基于Swin-Transformer的农作物病害细粒度分类方法，其特征在于步骤二二中，移位多头自注意机制具体为将图像特征进行半个窗口大小的像素位移，再将划分的与原有尺寸不一致窗口移位并重新排列组合成为一个原有尺寸的新窗口。

8.根据权利要求7所述的一种基于Swin-Transformer的农作物病害细粒度分类方法，其特征在于步骤二四中，对于重新组合的新窗口，采用掩码机制将不相关的窗口屏蔽掉再计算权重，具体的计算公式为：

9.根据权利要求8所述的一种基于Swin-Transformer的农作物病害细粒度分类方法，其特征在于步骤二五的损失函数为交叉熵损失函数，具体为：