CN113723312B

CN113723312B - 基于视觉transformer的水稻病害识别方法

Info

Publication number: CN113723312B
Application number: CN202111017803.4A
Authority: CN
Inventors: 周长建; 韩雪; 周思寒
Original assignee: Northeast Agricultural University
Current assignee: Northeast Agricultural University
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2024-01-23
Anticipated expiration: 2041-09-01
Also published as: CN113723312A

Abstract

本发明提供了一种基于视觉transformer的水稻病害识别方法，属于图像识别与植物保护领域。该技术方案的主要要点包括：采集水稻叶片病害图像，统一大小为224*224像素，并进行标注；输入到本发明设计的视觉transformer架构进行模型训练，训练完毕后可以根据输入的水稻叶片病害图像预测相应的病害类别。本发明利用两种transformer架构作为特征提取器，分别是视觉transformer ViT和蒸馏后的transformer DeiT，将两种transformer对输入图像特征提取后进行Pooling操作，再对Pooling操作后的特征做残差连接，并与原Pooling后的两种特征进行特征拼接(concatenate)，随后再将concatenate后的特征输入到MLPHead层进行病害种类预测。与现有方法在水稻病害识别测试集上对比，本发明提供的方法在识别准确率和F1‑Score等评价指标上有明显的提升。

Description

基于视觉transformer的水稻病害识别方法

技术领域

本发明涉及图像识别与植物保护领域，具体地，发明了一种基于视觉transformer的水稻病害识别方法。

背景技术

图像识别与人工智能技术已经在安防、智能交通、环境监测、智慧农业等领域得到广泛的应用，特别是近年来深度学习技术的发展，使得人工智能技术在人们生活中扮演着越来越重要的角色。尤其是近期transformer技术在自然语言处理等领域取得了丰硕成果，与此同时，研究人员提出了一种基于视觉的transformer技术，该项技术在图像识别等领域识别性能超越了原有深度学习技术。Transformer技术是一种基于多头注意力机制的新型机器学习架构，它能够类似人类注意力捕捉更加有价值的信息，该项技术早期在自然语言处理领域得到成功应用。2021年初，Brown等人提出了一种基于transformer的图像分类模型ViT，该模型在大型图像数据集JFT-300和ImageNet数据集上进行训练并测试，得到比现有模型更优的效果。但由于ViT需要在大型数据集上进行训练才能表现出理想的效果，像JFT-300等大型数据集是Google的私有数据集，不对外公开，外部人员无法获取，一旦训练数据不足，视觉transformer就难以达到理想的效果。为解决这一问题，Touvron等人提出了一种基于知识蒸馏的transformer架构DeiT，该方法利用Kullback-Leibler散度计算teacher网络和student网络损失值之间的距离，引入一个distillation token，结合原始ViT的class token进行特征分类，取得了不错的效果。

由于transformer架构在图像识别领域的优势越来越明显，目前已公开的文献中尚未检索到transformer技术在农作物病害识别领域相关的研究，尤其是尚未出现基于视觉transformer的水稻叶片病害识别相关的成果。基于以上背景技术，本发明改进了原有transformer架构，提供了一种基于视觉transformer架构的自动高效识别水稻病害的方法，设计了一种结合ViT和DeiT的视觉transformer模型。该模型将采集到的水稻病害图像输入分别输入到上述两个transformer模型分别进行特征提取，在特征提取后引入Pooling操作，并对Pooling后的特征进行残差连接后再concatenate操作，输入MLP Head层进行分类预测，利用水稻病害图像数据进行训练并测试，经过与现有水稻病害识别方法对比实验验证，取得了理想的效果。本发明具有一定的新颖性、创造性和实用价值。

以下给出检索文献

[1]Brown,T.B.,Mann,B.,Ryder,N.,Subbiah,M.,Kaplan,J.,Dhariwal,P.,Neelakantan,A.,Shyam,P.,Sastry,G.,Askell,A.Language models are few-shotlearners.arXiv preprint,arXiv:2005.14165,2020.https://arxiv.org/abs/2005.14165

[2]Dosovitskiy,A.,Beyer,L.,Kolesnikov,A.,Weissenborn,D.,Zhai,X.,etal.An Image is Worth 16x16 Words:Transformers for Image Recognition atScale.arXiv,2021.https://arxiv.org/abs/2010.11929

[3]Touvron,H.,Cord,M.,Douze,M.,Massa,F.Alexandre Sablayrolles,andHerv′e J′egou.Training data-efficient image transformers&distillation throughattention.arXiv,2021,preprint arXiv:2012.12877.https://arxiv.org/abs/2012.12877

发明内容

本发明首要目的在于提供了一种基于视觉transformer的水稻病害识别方法。为实现上述目的，采用了以下技术方案：基于视觉transformer的水稻病害识别方法，该方法包括下列顺序的步骤：

(1)采集水稻叶片病害图像数据，将采集到的水稻叶片病害图像统一为224*224像素，并对水稻病病害种类进行标注；

(2)将标注好的水稻叶片病害图像对每个类别按比例进行划分为70％训练集，15％验证集以及15％测试集，并对训练集和验证集进行数据增强操作以扩充数据量；

(3)构建基于视觉transformer的水稻病害识别模型；

(4)将训练集和验证集输入到步骤(3)构建好的视觉transformer进行训练，待模型不再收敛时保存训练好的模型；

(5)将测试集输入到步骤(4)训练好的模型进行测试，验证模型效果；

(6)获取待识别的水稻叶片病害图像，进行预处理后输入到步骤(4)训练完成的transformer模型，预测水稻病害类型。

所述基于视觉transformer的水稻病害识别方法采集的水稻叶片病害图像数据，是指通过图像采集设备(包括但不限于手机、相机、摄像头等)在稻田环境下采集到的叶片病害图像；标注过程是由水稻病害专家对每幅叶片图像病害种类进行标注。

所述基于视觉transformer的水稻病害识别方法划分数据集是指按照每个类别按比例划分，保证训练集、验证集和测试集中病害类别图像数量按比例分配；所述图像增强方法为了增加数据量以避免过拟合现象，本发明所用图像增强方法包括但不限于垂直翻转、向右旋转、向左旋转和水平翻转等操作，本发明在训练过程中将训练集和验证集利用该技术扩充到原数据量的5倍。

所述基于视觉transformer的水稻病害识别方法中模型构建是本发明的核心部分，请参考附图1，根据视觉transformer架构，将每幅输入图像分割成196个16*16像素的子图(patch)，然后展平成2维向量并嵌入位置信息后分别输入到ViT和DeiT进行特征提取，再分别将提取到的特征进行Pooling操作，输入到本发明设计的transformer架构进行特征提取及分类。本发明提供了一种结合两种transformer的水稻病害识别方法，两种transformer架构分别进行特征提取，一种是在ImageNet数据集上预训练的视觉transformerViT；一种是基于Kullback-Leibler的ViT知识蒸馏后的transformer架构DeiT进行特征提取。随后将提取到的特征进行Pooling操作，得到两种特征，记为特征1和特征2。本发明将提取到的两种特征组合为三路特征：特征1，特征2以及特征1和特征2残差连接后的特征add(特征1，特征2)，这三路特征进行拼接：concatenate(特征1，特征2，add(特征1，特征2))，concatenate后的特征输入到MLP Head层进行分类，预测病害类别。

所述基于视觉transformer的水稻病害识别模型的Pooling操作在本发明中可以进行如下计算所得：

Pooling＝Normalization(Cat(maxpooling,averagepooling)) (1)

本发明采取maxpooling和averagepooling两种Pooling操作进行联接(Cat)并归一化后的特征。

所述基于视觉transformer的水稻病害识别模型的训练策略是分层交叉验证stratified 5-fold cross-validation，采用的优化函数是Stochastic gradient descent，损失函数是cross-entropy，激活函数是GeLU。模型训练直至不再收敛，保存训练好的模型。

所述基于视觉transformer的水稻病害识别方法中用到的测试集不进行数据增强操作，模型所用测试集为原始数据划分出来的测试集。

所述基于视觉transformer的水稻病害识别方法模型训练完毕后，利用测试集验证模型训练效果。此时该模型可以预测尚未标注的水稻叶片病害。

附图说明

图1为本发明所提供方法的架构图

具体实施方式

下面结合实例和附图对本发明的技术方案进一步说明。

本发明提供了一种基于视觉transformer的水稻病害识别方法，将该方法应用在水稻病害识别上，具体步骤包括：

步骤1：采集水稻叶片病害图像数据，将采集到的叶片图像统一为224*224像素，并进行标注；所述训练集中的图像带有类别标签信息，采用的图像包括不同种类的病害图像和同一种类病害在不同生长时期的图像数据。本实例所选用的水稻病害种类及图像数量包括235幅bacterial blight(白叶枯病)病害图像，140幅褐斑病(brown spot)病害图像，153幅稻瘟病(blast)病害图像，277幅东格鲁病毒病(tungro)病害图像。

步骤2：对标注的叶片病害图像进行训练集、验证集和测试集划分。本实例一共805幅水稻叶片病害图像，按照每种图像病害比例划分为三部分：563幅病害图像用作模型训练，121幅图像用作交叉验证，121幅图像用作测试集对训练完成的模型进行测试。随后对划分后的训练集和验证集进行垂直翻转、向右旋转、向左旋转和水平翻转等数据增强操作，增强后每个病害类别的图像数量详情见以下表格。

步骤3：构建基于视觉transformer的水稻病害识别模型。这是本发明的核心内容，将每幅图像分割为196个16*16的子图(patch)，将分割后的子图展平成2维向量，2维向量输入全连接层生成新的2维向量，并嵌入1维的位置信息token，新的2维向量和1维的token做concatenate。随后将concatenate后的向量分别输入到ViT和DeiT进行特征提取，其中ViT和DeiT仅采用其特征编码功能，将编码后的特征分别进行本发明提出的Pooling操作：Pooling＝Normalization(Cat(maxpooling,averagepooling))，将Pooling操作后的特征进行残差连接成新的特征add(特征1，特征2)，随后再将这三个特征进行concatenate后输入到MLP Head层进行类别预测，具体架构请参考附图1。

步骤4：将数据增强后的训练集和验证集输入到步骤3设计好的视觉transformer模型进行训练，本实例模型训练的具体参数请参考下表：

步骤5：将测试集输入到步骤4训练好的模型进行测试，验证模型效果；训练集和验证集采用原始数据和增强后数据混在一起的综合数据，而测试集上的数据则是原始的数据，以保证模型再原始数据上测试效果的可信度。为验证模型的效果，本实例选取11个目前较为流行的模型作为比较，所有模型的训练集和测试集采用同一组数据，具体数值请参考下表，由下表可以看出，本发明所提供的方法识别准确度最高。

为更加全面评估模型的性能，本实例选取了以下五种评价指标，包括精确度(Precision)、召回率(Recall)、F1-score、特异性(Specificity)和准确率(Accuracy)，这五种指标的计算方法如下：

其中TP、TN、FP、FN分别代表预测正确的正例样本数、预测正确反例样本数、预测错误正例样本数和预测错误反例样本数。本实例选择下表中11中模型利用这五种指标进行对比，本发明提出的方法超越了同类型现有的模型。

步骤6：将待识别的水稻叶片病害图像进行相应预处理后输入到步骤4训练完成的视觉transformer模型，预测水稻病害类型。

本领域相关技术人员可知，除了以纯计算机可读程序代码方式实现本发明提供的方法以外，还可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块等的形式来实现相同程序。所以，本发明提供的方法及模型可以被认为是一种硬件部件，而用于实现各种程序的模块也可以视为硬件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。

Claims

1. 基于视觉transformer 的水稻病害识别方法，该方法包括下列顺序的步骤：

（1）采集水稻叶片病害图像数据，将采集到的水稻叶片病害图像统一为224*224像素，并进行标注；

（2）将标注好的水稻叶片病害图像对每个类别按比例进行划分为70%训练集，15%验证集以及15%测试集，并对训练集和验证集进行数据增强以扩充数据量；

（3）构建基于视觉transformer的水稻病害识别模型，该模型将每幅图像分割为196个16*16的子图，将分割后的子图展平成2维向量，2维向量输入全连接层生成新的2维向量，并嵌入1维的位置信息token，新的2维向量和1维的token做concatenate；随后将concatenate后的向量分别输入到ViT和DeiT进行特征提取，其中ViT和DeiT仅采用其特征编码功能，将编码后的特征分别进行本发明提出的Pooling操作：，将Pooling操作后的特征进行残差连接成新的特征add(特征1，特征2)，随后再将这三个特征进行concatenate后输入到MLP Head层进行类别预测；

（4）将训练集和验证集输入到步骤（3）构建的视觉transformer模型进行训练，待模型不再收敛时保存训练好的模型；

（5）将测试集输入到步骤（4）训练好的模型进行测试，验证模型效果；

（6）获取待识别的水稻叶片病害图像，进行预处理后输入到步骤（4）训练完成的transformer模型，预测水稻病害类型。

2.根据权利要求1所述的基于视觉transformer的水稻病害识别方法，其特征在于，所提供的Pooling操作计算方法如下：

, 其中Cat是联接操作，Normalization是归一化操作。

3.根据权利要求1所述的基于视觉transformer 的水稻病害识别方法，其特征在于，在数据增强阶段，本发明采取垂直翻转、向右旋转、向左旋转和水平翻转等数据增强操作，将训练集和验证集扩充到原数据量的5倍大小；测试集不进行增强操作，仍然采用原始数据对模型进行测试。

4.根据权利要求1所述的基于视觉transformer的水稻病害识别方法，其特征在于，模型的训练策略是分层交叉验证stratified 5-fold cross-validation；采用的优化函数是Stochastic gradient descent；损失函数采用的是cross-entropy；激活函数采用的是GeLU。