CN117853899A - 基于多特征融合的葡萄病害图片识别方法及系统 - Google Patents

基于多特征融合的葡萄病害图片识别方法及系统 Download PDF

Info

Publication number
CN117853899A
CN117853899A CN202311605997.9A CN202311605997A CN117853899A CN 117853899 A CN117853899 A CN 117853899A CN 202311605997 A CN202311605997 A CN 202311605997A CN 117853899 A CN117853899 A CN 117853899A
Authority
CN
China
Prior art keywords
feature
fusion
module
picture
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311605997.9A
Other languages
English (en)
Inventor
王前前
章子豪
吉皓哲
冯伟
高全学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202311605997.9A priority Critical patent/CN117853899A/zh
Publication of CN117853899A publication Critical patent/CN117853899A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/188Vegetation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多特征融合的葡萄病害图片识别方法,步骤是:1)收集葡萄正常图片和病害图片,标注并整理成数据集,构建深度学习网络模型;2)进行模型训练;3)多特征融合识别模型训练完成后,将多特征融合识别模型及相关参数集成到软件中,得到葡萄病害识别软件操作系统,实现可视化操作;4)输入待检测样本,软件操作系统输出识别结果。本发明还公开了一种基于多特征融合的葡萄病害图片识别系统,依次为数据预处理模块、特征转化模块、三路特征提取网络模块、多路径融合变换器模块及特征金字塔模块,该五个模块从前到后依次对接实施。本发明的葡萄病害图片识别方法及系统,全面利用各个特征提供的信息,提高了识别准确率。

Description

基于多特征融合的葡萄病害图片识别方法及系统
技术领域
本发明属于葡萄病害图片识别技术领域,涉及一种基于多特征融合的葡萄病害图片识别方法,本发明还涉及一种基于多特征融合的葡萄病害图片识别系统。
背景技术
研究表明,大多数葡萄疾病的诊断,可以通过观察叶片特征,包括颜色特征、纹理特征和形状特征等来进行。因此早期的葡萄病害图片识别通常基于传统机器学习和数字图片处理,借助于人工设计的特征提取算子,并采用分类器来进行病害识别。然而这些分类特征是根据人类经验选择的,人力成本较高,同时准确度仍然不能满足要求。
随着深度学习的兴起,基于卷积神经网络的葡萄病害识别模型广泛应用,可以自动从图片中学习复杂的特征表示,并在后续的识别任务中表现出较好的性能。然而,现有的基于卷积神经网络的识别方法一般采用单一的特征进行特征提取和分类,由于单独使用色彩特征或者材质特征通常具有一定的局限性,很难挖掘出图片数据的全面特征信息,导致识别准确性受到限制。
当前,有研究者考虑到对特征进行融合,考虑采用多特征方法,即利用串联、逐元素相加、逐元素平均/最大值、逐元素叉积等传统方法直接融合特征。但这几个多特征方法明显的不足是,没有考虑特征之间的权重差异和相互作用关系,无法关注到特征间的长距离依赖关系,可能会导致一些重要信息被忽略或被覆盖,影响最终的识别准确性。
发明内容
本发明的目的是提供一种基于多特征融合的葡萄病害图片识别方法,解决了现有技术没有考虑特征之间的权重差异和相互作用关系,无法关注到特征间的长距离依赖关系,导致识别精度受到限制的问题。
本发明的另一目的是提供一种基于多特征融合的葡萄病害图片识别系统,解决了现有技术在复杂环境下,噪声、光照和图片变形等敏感因素对葡萄病害识别干扰大,导致识别精度不能满足要求的问题。
本发明所采用的技术方案是,一种基于多特征融合的葡萄病害图片识别方法,基于一种基于多特征融合的葡萄病害图片识别系统,按照以下步骤实施:
步骤1:收集葡萄正常图片和病害图片,进行标注并整理成数据集,构建深度学习网络模型;
步骤2:模型展开训练,使用该数据集作为输入,结合损失函数不断迭代更新其网络模型参数,得到多特征融合识别模型;
步骤3:将多特征融合识别模型及相关参数集成到软件中,得到葡萄病害识别软件操作系统,实现可视化操作;
步骤4:输入待检测样本,软件操作系统输出识别结果。
本发明所采用的另一技术方案是,一种基于多特征融合的葡萄病害图片识别系统,分为五个模块,依次为数据预处理模块、特征转化模块、三路特征提取网络模块、多路径融合变换器模块及特征金字塔模块,该五个模块从前到后依次对接实施。
本发明的有益效果是,基于Yolo模型进行了改进,通过自注意力机制和Transformer对多特征的葡萄病害图片进行融合,系统模型称为多特征融合识别模型,并将完备的模型集成于软件中实现可视化操作;本发明方法基于Transformer的多尺度融合策略,旨在关注局部和长距离信息(或全局上下文),有效地通过自注意力机制对特征向量间的长距离依赖关系进行建模。本发明的模型综合考虑了特征内和特征间的相互作用和依赖关系,全面利用各个特征提供的信息,提高了识别准确率,在多特征融合的病害识别性能上表现出了明显的优势。
附图说明
图1是本发明系统的MFDM模型总体架构概览图;
图2是本发明系统中的MFDM模型中的模块联系简图;
图3是本发明系统中的三路特征提取网络结构示意图;
图4是本发明方法的流程步骤示意图;
图5是本发明方法中的MFT模块结构示例图;
图6是本发明方法的整体网络结构图;
图7是本发明系统中的矩阵α的图形化描述;
图8a是本发明MFDM模型识别结果的黑腐病可视化展示;
图8b是本发明MFDM模型识别结果的白粉病可视化展示;
图8c是本发明MFDM模型识别结果的健康葡萄叶可视化展示;
图8d是本发明MFDM模型识别结果的叶枯病可视化展示;
图9a是本发明方法实施例输入HSV图像的黑腐病检测结果;
图9b是本发明方法实施例输入HSV图像的白粉病检测结果;
图9c是本发明方法实施例输入HSV图像的健康葡萄叶检测结果;
图9d是本发明方法实施例输入HSV图像的叶枯病检测结果;
图10a是本发明方法实施例输入LBP图像的黑腐病检测结果;
图10b是本发明方法实施例输入LBP图像的白粉病检测结果;
图10c是本发明方法实施例输入LBP图像的健康葡萄叶检测结果;
图10d是本发明方法实施例输入LBP图像的叶枯病检测结果;
图11是本发明方法采用的Add融合模型主干网络结构图;
图12是本发明实施例1的RGB特征对应的混淆矩阵选取结果;
图13是本发明实施例2的HSV特征对应的混淆矩阵选取结果;
图14是本发明实施例3的RGB+HSV特征对应的混淆矩阵选取结果;
图15是本发明实施例4的RGB+LBP对应的混淆矩阵选取结果;
图16是本发明实施例5的HSV+LBP对应的混淆矩阵选取结果。
图中,1.数据预处理模块,2.特征转化模块,3.三路特征提取网络模块,4.多路径融合变换器模块,5.特征金字塔模块。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
参照图1和图2,本发明方法采用的基于多特征融合的葡萄病害图片识别系统,硬件结构分为五个模块,即数据预处理模块1、特征转化模块2、三路特征提取网络模块3、多路径融合变换器模块4及特征金字塔模块5,共同搭建组成系统模型称为多特征融合识别模型(Multi-Feature Fusion Detection Model,简称MFDM模型),该五个模块从前到后依次对接实施。
数据预处理模块1用于对原始图片数据进行预处理。调整叶片图片的像素值的目的是统一图片形式,更好地服务于模型训练。对叶片图片进行数据增强(例如旋转和翻转操作),从而保证数据在训练过程中的平衡性,避免模型会偏向于预测数量较多的类别,而忽略数量较少的类别。对于模型训练所需要的数据集,需要经过预处理才能送入模型网络。
预处理操作包括:先调整叶片图片的尺寸为固定的像素值(例如640×640);再实施数据增强(例如旋转和翻转操作),得到已预处理的图片。
特征转化模块2用于将预处理图片从原始RGB特征扩展成多项特征分支,基于每张预处理图片分别提取其HSV特征和LBP特征。因此,模型的输入路径将从基于原始的RGB图片的单通道形式转为基于RGB、HSV、LBP通道的多通道形式,HSV由RGB图片直接转化得到,RGB图片转换到HSV特征的表达式如下:
中心像素的LBP值通过周围像素的灰度值来计算,表达式如下:
其中,(xc,yc)表示中心像素的坐标,gc表示中心像素的灰度值,gp表示周围像素的灰度值,sgn(x)是一个符号函数,当x≥0时sgn(x)=1,否则sgn(x)=0;P是周围像素的数量;对于整张图片,利用LBP算法计算出每个像素的LBP值,然后将这些LBP值编码成一个直方图,从而表示图片的纹理特征。
参照图3,三路特征提取网络模块3用于对三路特征分支执行特征提取操作,以提高准确率。对于输入的RGB、HSV、LBP三个特征分支,由于其高维数据包含许多冗余信息,且直接使用效率较低,因此需要一定的特征提取(降维)操作,从而增加病害识别的效率和准确率。
模型将对每条路径执行n次卷积操作,在执行第i次卷积操作后,hi、τi分别作为RGB、HSV和LBP三个特征分支上的卷积模块,将卷积模块通过一系列操作(例如卷积、池化等操作)对输入的图片进行处理,得到不同尺度的特征图,即FRi、FHi和FLi
多路径融合变换器模块4基于Transformer的多路特征融合,将不同路径的特征进行汇聚并融合,最后输入到特征金字塔模块5中。考虑到传统融合方式的局限性,本发明提出基于Transformer的多路特征融合方式是,首先将多特征拼接成一个序列,然后利用Transformer捕捉序列间中长距离上的依赖,自动执行同步的内模态和模态间信息融合,并稳健地捕捉RGB、HSV和LBP之间的潜在相互作用,弥补传统卷积神经网络和多特征融合方法的不足。
图3中,本发明的三路特征提取网络结构在执行末尾的卷积模块(倒数三层的卷积操作模块,即i=n-2,n-1,n)的操作时,将不同分支上的特征图FRi、FHi和FLi输入MFT模块中,MFT模块将输出的利用Transformer得到的特征融合序列作为补充信息添加到原始特征分支上;Pi代表特征金字塔的输入,这些特征图可以捕捉到图片的不同层次信息,从而有助于检测目标的不同部分,
参照图4,MFT模块的执行过程如下:
假设,对于每个不同的i,输入的RGB图片的卷积特征图记为FR∈RC×H×W,HSV图片的卷积特征图记为FH∈RC×H×W,LBP图片的卷积特征图记为FL∈RC×H×W;R代表其特征图隶属的维度,C、H和W分别代表特征图的通道数、高和宽,则有:
第一步,将从三路得到的特征图展平并保持顺序,分别得到特征序列IR∈RHW×C、IH∈RHW×C和IL∈RHW×C
第二步,将第一步得到的三个特征序列进行拼接并加入一个可学习的位置编码(Positional Embedding),得到Transformer的输入序列I∈R3HW×C
位置编码是一个大小为3HW×C的可训练参数,其作用在于使模型能够在训练期间区分不同标记(tokens)之间的信息;
第三步,将输入特征序列I∈R3HW×C投影到三个权重矩阵上,得到一组向量,包括查询向量Q(Query)、键向量K(Key)和值向量V(Value),查询向量Q用于计算与输入序列中每个标记相关的相关性得分,键向量K用于表示每个标记所代表的上下文,而值向量V则包含了对每个标记进行编码的实际信息;其中,查询向量Q、键向量K和值向量V是通过对输入序列I应用不同的投影矩阵来计算得到的,各个向量由下列公式计算得到:
Q=IWQ (5)
K=IWK (6)
V=IWV (7)
其中,和/>均为权重矩阵,在此使用的Transformer结构中,遵循DQ=DK=DV=C;
第四步,利用自注意力机制,将输入的查询向量Q和键向量K进行缩放点积计算,得到每个位置相对其他位置的注意力权重(attention weights);然后,将注意力权重乘以值向量V以获得输出向量Z,则有:
其中,attention是指自注意力机制,用于生成归一化向量;是缩放因子,用于防止当点积运算结果变大时,softmax函数落入梯度极小的区域;此外,为了捕捉不同位置、不同表示子空间中的多种复杂关系,Transformer模块采用了多头注意力机制,将模型分为多个头,形成多个子空间,用公式表示为:
Z'=MultiHead(Q,K,V)=Concat(Z1,…,Zh)WO (9)
Zi=Attention(QWi Q,KWi K,VWi V) (10)
式中,MultiHead表示多头注意力机制,Concat为张量拼接操作;下标h代表了多头注意力机制中头的个数,WO∈RhC×C代表应用在Concat(Z1,…,Zh)上的投影矩阵;
随后,Transformer使用一个两层的全连接前馈网络,在中间加入一个GELU激活函数,计算得到输出序列O,其与输入序列I具有相同的形状,表达式如式(11):
其中,Z”=Z'+I,MLP(Multilayer Perceptron,即多层感知器)是一种基本的前馈神经网络模型,其作用是对输入数据进行非线性变换,从而学习数据的复杂表示;FC是全连接(Fully Connected)操作;
最后,利用第一步的逆操作,将输出序列O转换为融合结果F',并将其作为补充信息添加到原始特征分支上。
特征金字塔模块5用于融合底层信息和高层信息,考虑到低层特征高分辨率和高层特征的高语义信息都有助于葡萄病害的检测,因此建立特征金字塔用于融合这些不同层的特征,以便达到更好的预测效果。见图5,在执行三路特征提取模块3以及多路径融合变换器模块4后,将末尾的三层(i=n-2,n-1,n)得到的特征图Pi输入到特征金字塔中;由于卷积操作后的通道数和特征图的高宽不一致,融合(Concat)时需要进行上采样(Upsample)和卷积(Conv)来保持参数的一致性。图5中的右部显示的结构表现了融合的过程,最后采用三个不同大小的特征图进行识别,以便检测不同大小的目标。
本发明的葡萄病害识别方法,基于上述的本发明MFDM模型及逻辑关系,图6是本发明方法的整体网络结构图(三路特征提取网络+MFT+特征金字塔),按照以下步骤实施:
步骤1:收集葡萄正常图片和病害图片,进行标注并整理成数据集,构建深度学习网络模型;
步骤2:模型训练阶段,使用数据集作为输入,并结合损失函数进行训练,得到多特征融合识别模型,
具体包含以下五个处理阶段:
2.1)利用数据预处理模块1,将标准化病害图片格式,并采用数据增强技术以平衡不同样本类别,得到预处理图片;
2.2)利用特征转化模块2,针对每张预处理图片,提取其HSV特征和LBP特征,在此阶段由单一路径转变为多路径结构,包括RGB、HSV和LBP特征路径;
2.3)利用多通路特征提取网络模块3,针对每个路径,对特征进行多次卷积操作,以获取不同尺度的特征图;
2.4)利用多路径融合变换器模块4,针对每个路径,使用基于Transformer的方法融合不同尺度的特征图,并将其作为补充信息加入原始特征路径;
2.5)利用特征金字塔模块5,对不同路径和不同尺度上的特征图进行尺寸归一化和融合处理,得到多特征融合识别模型。
步骤3:多特征融合识别模型训练完成后,已具备良好的预测性能,将多特征融合识别模型及相关参数集成到软件中,得到葡萄病害识别软件操作系统,实现可视化操作;
步骤4:输入待检测样本,软件操作系统输出识别结果。
本发明MFDM模型基于PyQt库实现,操作界面由Qt Designer设计,用户上传jpg格式的葡萄叶片的图片后,葡萄病害识别系统自动提取图片的HSV和LBP特征,并将RGB、HSV和LBP三类特征输入到多特征融合识别模型进行病害识别,最终将识别结果展示给用户,还可以附带提供针对性的防治建议。
本发明MFDM模型的工作原理是:
一)采用了Transformer机制的优势。
本发明利用自注意力机制和Transformer机制来学习RGB、HSV和LBP特征下叶片图片之间的多元关系,具体来说,就是利用相关矩阵来加权输入特征向量的每个位置,相关矩阵如下所示:
在上式中,αi,j表示特征序列I上第i个位置和第j个位置之间的相关性。观察上式中的矩阵,可将其分为九个分块矩阵;
参照图7,对角线上的三个分块矩阵是特征内相关矩阵(即RGB、HSV和LBP),另外六个分块矩阵是特征间相关矩阵。
使用Transformer的优势在于,无需针对不同的图片特征设计不同的特征融合模块,只需要将多特征拼接成一个序列,然后通过Transformer捕捉序列间中长距离上的依赖,自动执行同步的内模态和模态间信息融合,并稳健地捕捉RGB、HSV和LBP之间的潜在相互作用,弥补传统卷积神经网络和多特征融合方法的不足。
二)模型训练与结果输出:
训练阶段:通过上述搭建好的本发明MFDM模型,输入已经标注的原始样本(正常+病害),配合损失函数进行模型的训练和模型参数更新。
损失函数:形式上,总体损失函数(Ltotal)为边界框回归损失(Lbox)、分类损失(Lcls)和置信度损失(Lconf)的三者总和:
其中,
其中,S2和N分别表示预测期间的图片网格数量和每个网格中预测的框的数量;Bg、Bp和Bc分别是真实标签、预测框和包围Bg和Bp的最小包围框;系数表示第i个网格中第j个预测框是否为正样本;分类损失Lcls采用交叉熵形式,pi(c)表示真实样本为类别c的概率,而/>表示预测样本为类别c的概率;置信度损失由两个分量Lnoobj和Lobj组成,均为平方误差损失;式(16)中的系数/>与之前的系数/>定义相反,表示第i个网格中第j个预测框是否为负样本;ci和/>分别表示置信度的真实值和模型得出的预测值。
预测框回归损失采用了广义交并比(Generalized Intersection over Union,GIoU)损失,无论最终使用哪种基于IoU的性能指标,GIoU损失是相对于交并比(Intersection over Union,IoU)损失更好的选择。
实验验证:
(1)整理数据集:
本发明MFDM模型及葡萄病害识别方法,在训练、验证与测试阶段所采用的图片均来自于Plantvillage数据集。这是一个植物病害图片数据库,常作为基础数据集用于农作物病害及植物病害的相关研究,包含超过5万张各类作物健康和感染叶片图片。
在实际的训练、验证与测试时选取了Plantvillage数据集中的4062张葡萄叶的图片,包含葡萄黑腐病(Black Rot)的图片1180张、葡萄白粉病(Grape Esca)的图片1383张、葡萄叶枯病(Leaf Blight)的图片1076张和健康叶片的图片423张。首先,将所有选取的图片的大小调整为640×640像素。其次,为保证数据在训练过程中的平衡性,避免模型会偏向于预测数量较多的类别,而忽略数量较少的类别,对健康叶片图片通过旋转和翻转操作进行了数据增强,对全部图片进行了一次90%的顺时针旋转,对其中的一半图片进行了左右翻转,共得到1057张健康叶片图片。最后,利用Python对图片进行了特征提取,基于原数据集中的RGB图片提取了所有图片的HSV特征和LBP特征,并将这两种特征的图片保存为jpg格式,图片标注和数据增强工作依托Roboflow平台进行。
在训练和实验过程中按照70%、20%、10%的比例,依次划分为训练集(Train)、验证集(Validation)和测试集(Test),如表1所示。
表1、数据集中各类别图片数量统计表
图片标签 RGB HSV LBP
黑腐病 1,180 1,180 1,180
白粉病 1,383 1,383 1,383
健康 1,076 1,076 1,076
叶枯病 1,057 1,057 1,057
总计 4,696 4,696 4,696
表2、本发明MFDM模型性能评估与对比分析结果统计
实验结果分析:为体现出本发明葡萄病害识别系统采用的MFDM模型在葡萄病害识别上的性能,采用对比试验、消融实验和在不同大小数据集上进行测试的情形,对模型性能进行实验和评估。在实验中,将置信度在0.5以下的预测结果视为未检出,将七个单特征模式、三种双特征模式与本发明采用的RGB、HSV和LBP特征融合的多特征融合识别模型MFDM进行比较,全部实验结果统计如表2所示。
大训练数据集是指所介绍数据集的训练集,共包含葡萄叶的图片3287张;中训练数据集按病害类别分层随机抽取了大训练数据集中1/3的图片,共包含葡萄叶的图片1096张;小训练数据集分层随机抽取了大训练数据集中1/6的图片,共包含葡萄叶的图片548张。
结果可视化展示:
利用此次训练生成的训练参数pt文件在测试集上进行测试,将部分测试结果可视化展示,其中,输入RGB图像检测时,图8a是通过本发明MFDM模型识别结果的黑腐病可视化展示;图8b是通过本发明MFDM模型识别结果的白粉病可视化展示;图8c是通过本发明MFDM模型识别结果的健康葡萄叶可视化展示;图8d是通过本发明MFDM模型识别结果的叶枯病可视化展示。输入HSV图像检测时,图9a是输入HSV图像的黑腐病检测结果;图9b是输入HSV图像的白粉病检测结果;图9c是输入HSV图像的健康葡萄叶检测结果;图9d是输入HSV图像的叶枯病检测结果。输入LBP图像检测时,图10a是输入LBP图像的黑腐病检测结果;图10b是输入LBP图像的白粉病检测结果;图10c是输入LBP图像的健康葡萄叶检测结果;图10d是输入LBP图像的叶枯病检测结果。
(2)与现有技术的其他算法的结果比较分析:
基于相同的数据集,将本发明MFDM模型的识别准确率与其它现有经典计算机视觉方法与模型进行了对比,包括两种传统机器学习方法:反向传播神经网络(Back-Propagation(BP)Neural Network)和支持向量机(Support-Vector Machine,SVM),及三种基于CNN的方法:VGG-16,GoogLeNet和ResNet-34。所有模型将在相同的训练策略下进行100个周期的训练,训练结果统计如表3所示。
表3、与其他计算机视觉方法与模型性能对比统计
模型 BP SVM VGG-16 GoogLeNet ResNet-34 MFDM
准确率 63.87% 66.23% 87.42% 92.25% 92.67% 96.60%
可见,本发明的基于多特征融合的葡萄病害检测模型(简称MFDM模型)具有最佳的检测性能,准确率达到96.60%。
实验结果表明:基于CNN的方法在葡萄病害的识别准确率上优于经典的机器学习方法,经典的机器学习方法在葡萄病害识别中依赖于由专家设计的分类特征。相反,基于CNN的方法可以自动提取最佳分类特征,使用自动提取的图形特征,基于CNN的模型在葡萄病害的识别性能上表现更为出色。在所有CNN模型中,本发明MFDM模型的识别准确率更好,性能更好,充分验证了本发明所采用的多特征融合方法的有效性和鲁棒性,本发明MFDM模型能够从多特征的图片中自动地获取信息并利用特征内与特征间的关联性,使其更加准确地检测葡萄病害图片。
(3)按照以下五个实施例进行对比说明:
本发明MFDM模型选取了RGB和HSV两种色彩特征和LBP材质特征进行融合对葡萄病害进行识别,以下将采用单独使用RGB(作为实施例1)和HSV(作为实施例2)特征以及分别融合RGB+HSV(作为实施例3),RGB+LBP(作为实施例4),HSV+LBP(作为实施例5)两种特征进行性能测试。其中,使用一种特征时采用Yolo模型进行训练,使用两种特征时采用与MFDM模型特征融合方法相同的两路特征融合模型,称为双特征融合检测模型(Dual-Feature FusionDetection Model,DFDM)进行训练。所有模型将在相同的训练策略下进行100个周期的训练,并在测试集上测试对各类别的检测性能和整体性能。选取不同特征的性能对比概况如表4所示。
表4、实施例1不同特征选择下的混淆矩阵与性能对比统计表一
图12是实施例1的RGB特征对应的混淆矩阵选取结果;表4最终得到的准确率为93.89%。
表5、实施例2不同特征选择下的混淆矩阵与性能对比统计表二
图13是实施例2的HSV特征对应的混淆矩阵选取结果;表5最终得到的准确率为89.15%。
表6、实施例3不同特征选择下的混淆矩阵与性能对比统计表三
图14是实施例3的RGB+HSV特征对应的混淆矩阵选取结果;表6最终得到的准确率为95.11%。
表7、实施例4不同特征选择下的混淆矩阵与性能对比统计表四
图15是实施例4的RGB+LBP对应的混淆矩阵选取结果;表7最终得到的准确率为94.89%。
表8、实施例5不同特征选择下的混淆矩阵与性能对比统计表五
图16是实施例5的HSV+LBP对应的混淆矩阵选取结果;表8最终得到的准确率为87.87%。
对于上述的五个实施例,同时结合上表4、表5、表6、表7、表8呈现的实验结果可以看出,单独使用RGB特征时可以取得了相对较好的性能,可见RGB图片在整体的病害检测占据核心地位,分别加入HSV特征(RGB+HSV)和LBP特征(RGB+LBP)后,准确率和各项指标均略有提升,可见HSV特征和LBP特征的引入对于葡萄病害的识别具有一定的辅助作用。使用RGB+LBP融合特征后,模型的未检出率明显改善,由1.91%下降到1.06%,可见融合材质特征对提升模型的检出率有一定帮助,原因在于材质特征可以帮助模型更好的在复杂光照条件和色彩背景中确定叶片所在位置。而与同时融合三种特征的本发明MFDM模型相比较时(见图6),上述方法性能均有所欠缺。当仅使用HSV特征和使用HSV+LBP融合特征时,模型准确率有所下滑,可见当失去原始RGB图片的辅助后,且模型相关参数未针对HSV特征做出优化时,提取HSV特征造成的图片偏色会对识别准确率造成较大的影响。
(4)与传统的特征融合方法的对比实验:
将基于Transformer的多路特征融合(MFT)改成传统的特征融合方法。
利用Transformer进行的融合可以更好的捕获特征内和特征间的依赖关系,从而获得更好的识别效果。为验证本发明方法的有效性,将MFT模块从模型中移去,改为使用传统特征融合方法,将三路特征分别在三个不同尺度上直接进行张量加法进行特征融合,将此模型称为Add融合模型,图11为Add融合模型主干网络结构图。
将Add融合模型在相同的训练策略下进行100个周期的训练。表9为Add融合模型测试结果统计表。
表9、Add融合模型测试结果统计表
结合上述数据计算可得,当采用Add融合模型利用张量加法对特征进行融合后,预测准确率为88.94%,甚至低于采用单独特征进行识别。因为张量加法仅仅将特征相加,没有考虑特征之间的权重差异和相互作用关系,可能会导致一些重要信息被忽略或被覆盖。因此在进行特征融合时,需要综合考虑特征内和特征间的相互作用,全面利用各个特征提供的信息,可见,本发明方法采用的MFDM模型完全实现了这一目标。
由此可见,本发明的创新点在于以下几点:
创新点一,在多路特征融合方面:见图6,相较于现有算法将各特征向量拼接后直接投入训练,本发明基于Transformer的多特征融合技术(CMT模块),利用其自注意力机制和多头注意力机制,显式的发掘特征内和特征间的联系,使得多特征融合识别的优势更加明显。
创新点二,先融合技术和后融合技术的有效结合:在步骤4中的先融合:以基于Transformer的多特征融合技术有效融合了多路特征,使得多特征融合识别的优势更加明显。在步骤5中的后融合:以特征金字塔吸收来自不同深度网络下的特征,能够获得低层特征高分辨率和高层特征的高语义信息,同时通过多个尺度的特征图进行预测,从而使检测器能够检测到不同大小的目标。两者的结合,即考虑了多个特征的信息融合,又考虑了不同网络层次下的特征,能够更好地挖掘出更全面的特征信息,这有助于葡萄病害的识别任务。
创新点三,数据的特征转化方案以及融合的对象:另外,在步骤2,特征转化步骤中,涉及到的特征格式不局限于RGB、HSV和LBP,其他的特征提取方式和融合对象仍适用于本发明,例如Gabor滤波器、灰度共生矩阵等。

Claims (10)

1.一种基于多特征融合的葡萄病害图片识别方法,利用一种基于多特征融合的葡萄病害图片识别系统,其特征在于,按照以下步骤实施:
步骤1:收集葡萄正常图片和病害图片,进行标注并整理成数据集,构建深度学习网络模型;
步骤2:模型展开训练,使用该数据集作为输入,结合损失函数不断迭代更新其网络模型参数,得到多特征融合识别模型;
步骤3:将多特征融合识别模型及相关参数集成到软件中,得到葡萄病害识别软件操作系统,实现可视化操作;
步骤4:输入待检测样本,软件操作系统输出识别结果。
2.根据权利要求1所述的基于多特征融合的葡萄病害图片识别方法,其特征在于,步骤2中,具体包含以下五个处理阶段:
2.1)利用数据预处理模块,将标准化病害图片格式,并采用数据增强技术以平衡不同样本类别,得到预处理图片;
2.2)利用特征转化模块,针对每张预处理图片,提取其HSV特征和LBP特征,在此阶段由单一路径转变为多路径结构,包括RGB、HSV和LBP特征路径;
2.3)利用多通路特征提取网络模块,针对每个路径,对特征进行多次卷积操作,以获取不同尺度的特征图;
2.4)利用多路径融合变换器模块,针对每个路径,使用基于Transformer的方法融合不同尺度的特征图,并将其作为补充信息加入原始特征路径;
2.5)利用特征金字塔模块,对不同路径和不同尺度上的特征图进行尺寸归一化和融合处理,得到多特征融合识别模型。
3.根据权利要求1所述的基于多特征融合的葡萄病害图片识别方法,其特征在于,步骤4中,葡萄病害识别软件操作系统基于PyQt库实现,操作界面由Qt Designer设计,用户上传jpg格式的葡萄叶片的图片后,葡萄病害识别系统自动提取图片的HSV和LBP特征,并将RGB、HSV和LBP三类特征输入到多特征融合识别模型进行病害识别,最终展示识别结果。
4.一种基于多特征融合的葡萄病害图片识别系统,其特征在于:分为五个模块,依次为数据预处理模块、特征转化模块、三路特征提取网络模块、多路径融合变换器模块及特征金字塔模块,该五个模块从前到后依次对接实施。
5.根据权利要求4所述的基于多特征融合的葡萄病害图片识别系统,其特征在于:所述的数据预处理模块,用于对原始图片数据进行预处理,
预处理操作包括:先调整叶片图片的尺寸为固定的像素值;再实施数据增强,得到预处理图片。
6.根据权利要求4所述的基于多特征融合的葡萄病害图片识别系统,其特征在于:所述的特征转化模块,用于将预处理图片从原始RGB特征扩展成多项特征分支,基于每张预处理图片分别提取其HSV特征和LBP特征,
HSV由RGB图片直接转化得到,RGB图片转换到HSV特征的表达式如下:
中心像素的LBP值通过周围像素的灰度值来计算,表达式如下:
其中,(xc,yc)表示中心像素的坐标,gc表示中心像素的灰度值,gp表示周围像素的灰度值,sgn(x)是一个符号函数,当x≥0时sgn(x)=1,否则sgn(x)=0;P是周围像素的数量;对于整张图片,利用LBP算法计算出每个像素的LBP值,然后将这些LBP值编码成一个直方图,表示图片的纹理特征。
7.根据权利要求4所述的基于多特征融合的葡萄病害图片识别系统,其特征在于:所述的三路特征提取网络模块,用于对三路特征分支执行特征提取操作,
对每条路径执行n次卷积操作,在执行第i次卷积操作后,hi、τi分别作为RGB、HSV和LBP三个特征分支上的卷积模块,将卷积模块通过一系列操作对输入的图片进行处理,得到不同尺度的特征图,即FRi、FHi和FLi
8.根据权利要求4所述的基于多特征融合的葡萄病害图片识别系统,其特征在于:所述的多路径融合变换器模块,基于Transformer的多路特征融合,将不同路径的特征进行汇聚并融合,
基于Transformer的多路特征融合方式是,首先将多特征拼接成一个序列,然后利用Transformer捕捉序列间中长距离上的依赖,自动执行同步的内模态和模态间信息融合,并稳健地捕捉RGB、HSV和LBP之间的潜在相互作用;
在执行末尾的卷积模块的操作时,将不同分支上的特征图FRi、FHi和FLi输入MFT模块中,MFT模块将输出的利用Transformer得到的特征融合序列作为补充信息添加到原始特征分支上;Pi代表特征金字塔的输入。
9.根据权利要求8所述的基于多特征融合的葡萄病害图片识别系统,其特征在于:所述的MFT模块,执行过程如下:
假设,对于每个不同的i,输入的RGB图片的卷积特征图记为FR∈RC×H×W,HSV图片的卷积特征图记为FH∈RC×H×W,LBP图片的卷积特征图记为FL∈RC×H×W;R代表其特征图隶属的维度,C、H和W分别代表特征图的通道数、高和宽,则有:
第一步,将从三路得到的特征图展平并保持顺序,分别得到特征序列IR∈RHW×C、IH∈RHW ×C和IL∈RHW×C
第二步,将第一步得到的三个特征序列进行拼接并加入一个可学习的位置编码,得到Transformer的输入序列I∈R3HW×C
位置编码是一个大小为3HW×C的可训练参数,其作用在于使模型能够在训练期间区分不同标记之间的信息;
第三步,将输入特征序列I∈R3HW×C投影到三个权重矩阵上,得到一组向量,包括查询向量Q、键向量K和值向量V,查询向量Q用于计算与输入序列中每个标记相关的相关性得分,键向量K用于表示每个标记所代表的上下文,而值向量V则包含了对每个标记进行编码的实际信息;其中,查询向量Q、键向量K和值向量V是通过对输入序列I应用不同的投影矩阵来计算得到的,各个向量由下列公式计算得到:
Q=IWQ (5)
K=IWK (6)
V=IWV (7)
其中,和/>均为权重矩阵,在此使用的Transformer结构中,遵循DQ=DK=DV=C;
第四步,利用自注意力机制,将输入的查询向量Q和键向量K进行缩放点积计算,得到每个位置相对其他位置的注意力权重;然后,将注意力权重乘以值向量V以获得输出向量Z,则有:
其中,attention是指自注意力机制,用于生成归一化向量;是缩放因子,用于防止当点积运算结果变大时,softmax函数落入梯度极小的区域;此外,为了捕捉不同位置、不同表示子空间中的多种复杂关系,Transformer模块采用了多头注意力机制,将模型分为多个头,形成多个子空间,用公式表示为:
Z'=MultiHead(Q,K,V)=Concat(Z1,…,Zh)WO (9)
Zi=Attention(QWi Q,KWi K,VWi V) (10)
式中,MultiHead表示多头注意力机制,Concat为张量拼接操作;下标h代表了多头注意力机制中头的个数,WO∈RhC×C代表应用在Concat(Z1,…,Zh)上的投影矩阵;
随后,Transformer使用一个两层的全连接前馈网络,在中间加入一个GELU激活函数,计算得到输出序列O,其与输入序列I具有相同的形状,表达式如式(11):
其中,Z”=Z'+I,MLP的作用是对输入数据进行非线性变换,从而学习数据的复杂表示;FC是全连接操作;
最后,利用第一步的逆操作,将输出序列O转换为融合结果F',并将其作为补充信息添加到原始特征分支上。
10.根据权利要求4所述的基于多特征融合的葡萄病害图片识别系统,其特征在于:所述的特征金字塔模块,用于融合底层信息和高层信息,考虑到低层特征高分辨率和高层特征的高语义信息都有助于葡萄病害的检测,因此建立特征金字塔用于融合这些不同层的特征,
在执行三路特征提取模块以及多路径融合变换器模块后,将末尾三层得到的特征图Pi输入到特征金字塔中;由于卷积操作后的通道数和特征图的高宽不一致,融合时需要进行上采样和卷积来保持参数的一致性,最后采用三个不同大小的特征图进行识别,检测不同大小的目标。
CN202311605997.9A 2023-11-28 2023-11-28 基于多特征融合的葡萄病害图片识别方法及系统 Pending CN117853899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311605997.9A CN117853899A (zh) 2023-11-28 2023-11-28 基于多特征融合的葡萄病害图片识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311605997.9A CN117853899A (zh) 2023-11-28 2023-11-28 基于多特征融合的葡萄病害图片识别方法及系统

Publications (1)

Publication Number Publication Date
CN117853899A true CN117853899A (zh) 2024-04-09

Family

ID=90535572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311605997.9A Pending CN117853899A (zh) 2023-11-28 2023-11-28 基于多特征融合的葡萄病害图片识别方法及系统

Country Status (1)

Country Link
CN (1) CN117853899A (zh)

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
Margffoy-Tuay et al. Dynamic multimodal instance segmentation guided by natural language queries
CN111274869B (zh) 基于并行注意力机制残差网进行高光谱图像分类的方法
CN110532920A (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN111881743B (zh) 一种基于语义分割的人脸特征点定位方法
CN109948696A (zh) 一种多语言场景字符识别方法及系统
CN113610118B (zh) 一种基于多任务课程式学习的青光眼诊断方法、装置、设备及方法
Su et al. LodgeNet: Improved rice lodging recognition using semantic segmentation of UAV high-resolution remote sensing images
CN114694039A (zh) 一种遥感高光谱与激光雷达图像融合分类方法及装置
CN115881265B (zh) 电子病历智能病案质控方法、系统、设备及存储介质
CN114494812A (zh) 一种基于改进CenterNet的图像小目标检测方法
CN114863407A (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
Ma et al. Multi-task interaction learning for spatiospectral image super-resolution
CN114676776A (zh) 一种基于Transformer的细粒度图像分类方法
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN115546466A (zh) 一种基于多尺度显著特征融合的弱监督图像目标定位方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN114170460A (zh) 一种基于多模态融合的艺术品分类方法及系统
CN114170154A (zh) 基于Transformer的遥感VHR图像变化检测方法
CN116543146B (zh) 一种基于窗口自注意与多尺度机制的图像密集描述方法
CN115861762B (zh) 一种即插即用无限形变融合特征提取的方法及其应用
CN116630660A (zh) 一种多尺度增强学习的跨模态图像匹配方法
CN113469962B (zh) 一种面向癌症病变检测的特征提取和图文融合方法及系统
CN117853899A (zh) 基于多特征融合的葡萄病害图片识别方法及系统
CN114863132A (zh) 图像空域信息的建模与捕捉方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination