CN113723312B - 基于视觉transformer的水稻病害识别方法 - Google Patents

基于视觉transformer的水稻病害识别方法 Download PDF

Info

Publication number
CN113723312B
CN113723312B CN202111017803.4A CN202111017803A CN113723312B CN 113723312 B CN113723312 B CN 113723312B CN 202111017803 A CN202111017803 A CN 202111017803A CN 113723312 B CN113723312 B CN 113723312B
Authority
CN
China
Prior art keywords
rice
model
transducer
disease
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111017803.4A
Other languages
English (en)
Other versions
CN113723312A (zh
Inventor
周长建
韩雪
周思寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Agricultural University
Original Assignee
Northeast Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Agricultural University filed Critical Northeast Agricultural University
Priority to CN202111017803.4A priority Critical patent/CN113723312B/zh
Publication of CN113723312A publication Critical patent/CN113723312A/zh
Application granted granted Critical
Publication of CN113723312B publication Critical patent/CN113723312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于视觉transformer的水稻病害识别方法,属于图像识别与植物保护领域。该技术方案的主要要点包括:采集水稻叶片病害图像,统一大小为224*224像素,并进行标注;输入到本发明设计的视觉transformer架构进行模型训练,训练完毕后可以根据输入的水稻叶片病害图像预测相应的病害类别。本发明利用两种transformer架构作为特征提取器,分别是视觉transformer ViT和蒸馏后的transformer DeiT,将两种transformer对输入图像特征提取后进行Pooling操作,再对Pooling操作后的特征做残差连接,并与原Pooling后的两种特征进行特征拼接(concatenate),随后再将concatenate后的特征输入到MLPHead层进行病害种类预测。与现有方法在水稻病害识别测试集上对比,本发明提供的方法在识别准确率和F1‑Score等评价指标上有明显的提升。

Description

基于视觉transformer的水稻病害识别方法
技术领域
本发明涉及图像识别与植物保护领域,具体地,发明了一种基于视觉transformer的水稻病害识别方法。
背景技术
图像识别与人工智能技术已经在安防、智能交通、环境监测、智慧农业等领域得到广泛的应用,特别是近年来深度学习技术的发展,使得人工智能技术在人们生活中扮演着越来越重要的角色。尤其是近期transformer技术在自然语言处理等领域取得了丰硕成果,与此同时,研究人员提出了一种基于视觉的transformer技术,该项技术在图像识别等领域识别性能超越了原有深度学习技术。Transformer技术是一种基于多头注意力机制的新型机器学习架构,它能够类似人类注意力捕捉更加有价值的信息,该项技术早期在自然语言处理领域得到成功应用。2021年初,Brown等人提出了一种基于transformer的图像分类模型ViT,该模型在大型图像数据集JFT-300和ImageNet数据集上进行训练并测试,得到比现有模型更优的效果。但由于ViT需要在大型数据集上进行训练才能表现出理想的效果,像JFT-300等大型数据集是Google的私有数据集,不对外公开,外部人员无法获取,一旦训练数据不足,视觉transformer就难以达到理想的效果。为解决这一问题,Touvron等人提出了一种基于知识蒸馏的transformer架构DeiT,该方法利用Kullback-Leibler散度计算teacher网络和student网络损失值之间的距离,引入一个distillation token,结合原始ViT的class token进行特征分类,取得了不错的效果。
由于transformer架构在图像识别领域的优势越来越明显,目前已公开的文献中尚未检索到transformer技术在农作物病害识别领域相关的研究,尤其是尚未出现基于视觉transformer的水稻叶片病害识别相关的成果。基于以上背景技术,本发明改进了原有transformer架构,提供了一种基于视觉transformer架构的自动高效识别水稻病害的方法,设计了一种结合ViT和DeiT的视觉transformer模型。该模型将采集到的水稻病害图像输入分别输入到上述两个transformer模型分别进行特征提取,在特征提取后引入Pooling操作,并对Pooling后的特征进行残差连接后再concatenate操作,输入MLP Head层进行分类预测,利用水稻病害图像数据进行训练并测试,经过与现有水稻病害识别方法对比实验验证,取得了理想的效果。本发明具有一定的新颖性、创造性和实用价值。
以下给出检索文献
[1]Brown,T.B.,Mann,B.,Ryder,N.,Subbiah,M.,Kaplan,J.,Dhariwal,P.,Neelakantan,A.,Shyam,P.,Sastry,G.,Askell,A.Language models are few-shotlearners.arXiv preprint,arXiv:2005.14165,2020.https://arxiv.org/abs/2005.14165
[2]Dosovitskiy,A.,Beyer,L.,Kolesnikov,A.,Weissenborn,D.,Zhai,X.,etal.An Image is Worth 16x16 Words:Transformers for Image Recognition atScale.arXiv,2021.https://arxiv.org/abs/2010.11929
[3]Touvron,H.,Cord,M.,Douze,M.,Massa,F.Alexandre Sablayrolles,andHerv′e J′egou.Training data-efficient image transformers&distillation throughattention.arXiv,2021,preprint arXiv:2012.12877.https://arxiv.org/abs/2012.12877
发明内容
本发明首要目的在于提供了一种基于视觉transformer的水稻病害识别方法。为实现上述目的,采用了以下技术方案:基于视觉transformer的水稻病害识别方法,该方法包括下列顺序的步骤:
(1)采集水稻叶片病害图像数据,将采集到的水稻叶片病害图像统一为224*224像素,并对水稻病病害种类进行标注;
(2)将标注好的水稻叶片病害图像对每个类别按比例进行划分为70%训练集,15%验证集以及15%测试集,并对训练集和验证集进行数据增强操作以扩充数据量;
(3)构建基于视觉transformer的水稻病害识别模型;
(4)将训练集和验证集输入到步骤(3)构建好的视觉transformer进行训练,待模型不再收敛时保存训练好的模型;
(5)将测试集输入到步骤(4)训练好的模型进行测试,验证模型效果;
(6)获取待识别的水稻叶片病害图像,进行预处理后输入到步骤(4)训练完成的transformer模型,预测水稻病害类型。
所述基于视觉transformer的水稻病害识别方法采集的水稻叶片病害图像数据,是指通过图像采集设备(包括但不限于手机、相机、摄像头等)在稻田环境下采集到的叶片病害图像;标注过程是由水稻病害专家对每幅叶片图像病害种类进行标注。
所述基于视觉transformer的水稻病害识别方法划分数据集是指按照每个类别按比例划分,保证训练集、验证集和测试集中病害类别图像数量按比例分配;所述图像增强方法为了增加数据量以避免过拟合现象,本发明所用图像增强方法包括但不限于垂直翻转、向右旋转、向左旋转和水平翻转等操作,本发明在训练过程中将训练集和验证集利用该技术扩充到原数据量的5倍。
所述基于视觉transformer的水稻病害识别方法中模型构建是本发明的核心部分,请参考附图1,根据视觉transformer架构,将每幅输入图像分割成196个16*16像素的子图(patch),然后展平成2维向量并嵌入位置信息后分别输入到ViT和DeiT进行特征提取,再分别将提取到的特征进行Pooling操作,输入到本发明设计的transformer架构进行特征提取及分类。本发明提供了一种结合两种transformer的水稻病害识别方法,两种transformer架构分别进行特征提取,一种是在ImageNet数据集上预训练的视觉transformerViT;一种是基于Kullback-Leibler的ViT知识蒸馏后的transformer架构DeiT进行特征提取。随后将提取到的特征进行Pooling操作,得到两种特征,记为特征1和特征2。本发明将提取到的两种特征组合为三路特征:特征1,特征2以及特征1和特征2残差连接后的特征add(特征1,特征2),这三路特征进行拼接:concatenate(特征1,特征2,add(特征1,特征2)),concatenate后的特征输入到MLP Head层进行分类,预测病害类别。
所述基于视觉transformer的水稻病害识别模型的Pooling操作在本发明中可以进行如下计算所得:
Pooling=Normalization(Cat(maxpooling,averagepooling)) (1)
本发明采取maxpooling和averagepooling两种Pooling操作进行联接(Cat)并归一化后的特征。
所述基于视觉transformer的水稻病害识别模型的训练策略是分层交叉验证stratified 5-fold cross-validation,采用的优化函数是Stochastic gradient descent,损失函数是cross-entropy,激活函数是GeLU。模型训练直至不再收敛,保存训练好的模型。
所述基于视觉transformer的水稻病害识别方法中用到的测试集不进行数据增强操作,模型所用测试集为原始数据划分出来的测试集。
所述基于视觉transformer的水稻病害识别方法模型训练完毕后,利用测试集验证模型训练效果。此时该模型可以预测尚未标注的水稻叶片病害。
附图说明
图1为本发明所提供方法的架构图
具体实施方式
下面结合实例和附图对本发明的技术方案进一步说明。
本发明提供了一种基于视觉transformer的水稻病害识别方法,将该方法应用在水稻病害识别上,具体步骤包括:
步骤1:采集水稻叶片病害图像数据,将采集到的叶片图像统一为224*224像素,并进行标注;所述训练集中的图像带有类别标签信息,采用的图像包括不同种类的病害图像和同一种类病害在不同生长时期的图像数据。本实例所选用的水稻病害种类及图像数量包括235幅bacterial blight(白叶枯病)病害图像,140幅褐斑病(brown spot)病害图像,153幅稻瘟病(blast)病害图像,277幅东格鲁病毒病(tungro)病害图像。
步骤2:对标注的叶片病害图像进行训练集、验证集和测试集划分。本实例一共805幅水稻叶片病害图像,按照每种图像病害比例划分为三部分:563幅病害图像用作模型训练,121幅图像用作交叉验证,121幅图像用作测试集对训练完成的模型进行测试。随后对划分后的训练集和验证集进行垂直翻转、向右旋转、向左旋转和水平翻转等数据增强操作,增强后每个病害类别的图像数量详情见以下表格。
步骤3:构建基于视觉transformer的水稻病害识别模型。这是本发明的核心内容,将每幅图像分割为196个16*16的子图(patch),将分割后的子图展平成2维向量,2维向量输入全连接层生成新的2维向量,并嵌入1维的位置信息token,新的2维向量和1维的token做concatenate。随后将concatenate后的向量分别输入到ViT和DeiT进行特征提取,其中ViT和DeiT仅采用其特征编码功能,将编码后的特征分别进行本发明提出的Pooling操作:Pooling=Normalization(Cat(maxpooling,averagepooling)),将Pooling操作后的特征进行残差连接成新的特征add(特征1,特征2),随后再将这三个特征进行concatenate后输入到MLP Head层进行类别预测,具体架构请参考附图1。
步骤4:将数据增强后的训练集和验证集输入到步骤3设计好的视觉transformer模型进行训练,本实例模型训练的具体参数请参考下表:
步骤5:将测试集输入到步骤4训练好的模型进行测试,验证模型效果;训练集和验证集采用原始数据和增强后数据混在一起的综合数据,而测试集上的数据则是原始的数据,以保证模型再原始数据上测试效果的可信度。为验证模型的效果,本实例选取11个目前较为流行的模型作为比较,所有模型的训练集和测试集采用同一组数据,具体数值请参考下表,由下表可以看出,本发明所提供的方法识别准确度最高。
为更加全面评估模型的性能,本实例选取了以下五种评价指标,包括精确度(Precision)、召回率(Recall)、F1-score、特异性(Specificity)和准确率(Accuracy),这五种指标的计算方法如下:
其中TP、TN、FP、FN分别代表预测正确的正例样本数、预测正确反例样本数、预测错误正例样本数和预测错误反例样本数。本实例选择下表中11中模型利用这五种指标进行对比,本发明提出的方法超越了同类型现有的模型。
步骤6:将待识别的水稻叶片病害图像进行相应预处理后输入到步骤4训练完成的视觉transformer模型,预测水稻病害类型。
本领域相关技术人员可知,除了以纯计算机可读程序代码方式实现本发明提供的方法以外,还可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块等的形式来实现相同程序。所以,本发明提供的方法及模型可以被认为是一种硬件部件,而用于实现各种程序的模块也可以视为硬件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。

Claims (4)

1. 基于视觉transformer 的水稻病害识别方法,该方法包括下列顺序的步骤:
(1)采集水稻叶片病害图像数据,将采集到的水稻叶片病害图像统一为224*224像素,并进行标注;
(2)将标注好的水稻叶片病害图像对每个类别按比例进行划分为70%训练集,15%验证集以及15%测试集,并对训练集和验证集进行数据增强以扩充数据量;
(3)构建基于视觉transformer的水稻病害识别模型,该模型将每幅图像分割为196个16*16的子图,将分割后的子图展平成2维向量,2维向量输入全连接层生成新的2维向量,并嵌入1维的位置信息token,新的2维向量和1维的token做concatenate;随后将concatenate后的向量分别输入到ViT和DeiT进行特征提取,其中ViT和DeiT仅采用其特征编码功能,将编码后的特征分别进行本发明提出的Pooling操作:,将Pooling操作后的特征进行残差连接成新的特征add(特征1,特征2),随后再将这三个特征进行concatenate后输入到MLP Head层进行类别预测;
(4)将训练集和验证集输入到步骤(3)构建的视觉transformer模型进行训练,待模型不再收敛时保存训练好的模型;
(5)将测试集输入到步骤(4)训练好的模型进行测试,验证模型效果;
(6)获取待识别的水稻叶片病害图像,进行预处理后输入到步骤(4)训练完成的transformer模型,预测水稻病害类型。
2.根据权利要求1所述的基于视觉transformer的水稻病害识别方法,其特征在于,所提供的Pooling操作计算方法如下:
, 其中Cat是联接操作,Normalization是归一化操作。
3.根据权利要求1所述的基于视觉transformer 的水稻病害识别方法,其特征在于,在数据增强阶段,本发明采取垂直翻转、向右旋转、向左旋转和水平翻转等数据增强操作,将训练集和验证集扩充到原数据量的5倍大小;测试集不进行增强操作,仍然采用原始数据对模型进行测试。
4.根据权利要求1所述的基于视觉transformer的水稻病害识别方法,其特征在于,模型的训练策略是分层交叉验证stratified 5-fold cross-validation;采用的优化函数是Stochastic gradient descent;损失函数采用的是cross-entropy;激活函数采用的是GeLU
CN202111017803.4A 2021-09-01 2021-09-01 基于视觉transformer的水稻病害识别方法 Active CN113723312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111017803.4A CN113723312B (zh) 2021-09-01 2021-09-01 基于视觉transformer的水稻病害识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111017803.4A CN113723312B (zh) 2021-09-01 2021-09-01 基于视觉transformer的水稻病害识别方法

Publications (2)

Publication Number Publication Date
CN113723312A CN113723312A (zh) 2021-11-30
CN113723312B true CN113723312B (zh) 2024-01-23

Family

ID=78680268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111017803.4A Active CN113723312B (zh) 2021-09-01 2021-09-01 基于视觉transformer的水稻病害识别方法

Country Status (1)

Country Link
CN (1) CN113723312B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511732B (zh) * 2021-12-31 2024-05-14 广西慧云信息技术有限公司 一种柑橘斑点状病虫害细粒度图像识别方法
CN114814102B (zh) * 2022-04-28 2023-01-20 广东技术师范大学 一种基于活动轨迹序列的水稻白叶枯病预警方法和装置
CN114937021A (zh) * 2022-05-31 2022-08-23 哈尔滨工业大学 一种基于Swin-Transformer的农作物病害细粒度分类方法
CN115774851B (zh) * 2023-02-10 2023-04-25 四川大学 基于分级知识蒸馏的曲轴内部缺陷检测方法及其检测系统
CN117173122B (zh) * 2023-09-01 2024-02-13 中国农业科学院农业信息研究所 一种基于轻量级ViT的图像叶密度测定方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652066A (zh) * 2020-04-30 2020-09-11 北京航空航天大学 基于多自注意力机制深度学习的医疗行为识别方法
CN112733768A (zh) * 2021-01-15 2021-04-30 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
CN113033310A (zh) * 2021-02-25 2021-06-25 北京工业大学 一种基于视觉自注意力网络的表情识别方法
CN113065577A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种面向目标的多模态情感分类方法
CN113076819A (zh) * 2021-03-17 2021-07-06 山东师范大学 同色系背景下的果实识别方法、装置及果实采摘机器人
CN113159013A (zh) * 2021-04-28 2021-07-23 平安科技(深圳)有限公司 基于机器学习的段落识别方法、装置、计算机设备和介质
CN113298151A (zh) * 2021-05-26 2021-08-24 中国电子科技集团公司第五十四研究所 一种基于多级特征融合的遥感图像语义描述方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652066A (zh) * 2020-04-30 2020-09-11 北京航空航天大学 基于多自注意力机制深度学习的医疗行为识别方法
CN112733768A (zh) * 2021-01-15 2021-04-30 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
CN113033310A (zh) * 2021-02-25 2021-06-25 北京工业大学 一种基于视觉自注意力网络的表情识别方法
CN113065577A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种面向目标的多模态情感分类方法
CN113076819A (zh) * 2021-03-17 2021-07-06 山东师范大学 同色系背景下的果实识别方法、装置及果实采摘机器人
CN113159013A (zh) * 2021-04-28 2021-07-23 平安科技(深圳)有限公司 基于机器学习的段落识别方法、装置、计算机设备和介质
CN113298151A (zh) * 2021-05-26 2021-08-24 中国电子科技集团公司第五十四研究所 一种基于多级特征融合的遥感图像语义描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于WGAN-GP的水稻病害图像生成方法研究;李健宁, 路阳, 陶贤鹏等;信息记录材料;第22卷(第08期);235-238页 *

Also Published As

Publication number Publication date
CN113723312A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN113723312B (zh) 基于视觉transformer的水稻病害识别方法
Shen et al. Generative adversarial learning towards fast weakly supervised detection
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN107145842B (zh) 结合lbp特征图与卷积神经网络的人脸识别方法
CN109446927B (zh) 基于先验知识的双人交互行为识别方法
CN109815785A (zh) 一种基于双流卷积神经网络的人脸情绪识别方法
CN108846350A (zh) 容忍年龄变化的人脸识别方法
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN108959841A (zh) 一种基于dbn算法的药物靶向蛋白作用预测方法
CN111292195A (zh) 风险账户的识别方法及装置
CN111126280B (zh) 基于融合手势识别的失语症患者辅助康复训练系统及方法
CN105117708A (zh) 人脸表情识别的方法和装置
CN110210550A (zh) 基于集成学习策略的图像细粒度识别方法
Li et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
CN112307975A (zh) 融合语音与微表情的多模态情感识别方法及系统
CN117198468A (zh) 基于行为识别和数据分析的干预方案智慧化管理系统
CN109492610A (zh) 一种行人重识别方法、装置及可读存储介质
CN116416503A (zh) 一种基于多模态融合的小样本目标检测方法、系统及介质
CN112668486A (zh) 一种预激活残差深度可分离卷积网络面部表情识别方法、装置和载体
CN111797705A (zh) 一种基于人物关系建模的动作识别方法
CN115188074A (zh) 一种互动式体育训练测评方法、装置、系统及计算机设备
WO2024093466A1 (zh) 一种基于模型结构自主进化的行人图像重识别方法
CN111191027B (zh) 一种基于高斯混合分布vae的广义零样本识别方法
CN117113270A (zh) 一种基于改进对齐方法的知识融合多模态交互方法及装置
CN106096598A (zh) 一种利用深度相关神经网络模型识别人脸表情的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant