CN115019303A - 基于自注意力机制的草莓病害图像识别方法 - Google Patents
基于自注意力机制的草莓病害图像识别方法 Download PDFInfo
- Publication number
- CN115019303A CN115019303A CN202210892609.9A CN202210892609A CN115019303A CN 115019303 A CN115019303 A CN 115019303A CN 202210892609 A CN202210892609 A CN 202210892609A CN 115019303 A CN115019303 A CN 115019303A
- Authority
- CN
- China
- Prior art keywords
- strawberry
- module
- window
- strawberry disease
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于自注意力机制的草莓病害图像识别方法,与现有技术相比解决了草莓病害图像难以识别的缺陷。本发明包括以下步骤:获取草莓病害图像数据集并进行预处理;构建草莓病害分类识别模型;构建草莓病害自注意力机制模块;草莓病害分类识别模型的训练;待识别草莓病害图像的获得;待识别草莓病害图像结果的获得。本发明解决现阶段草莓病害识别精度问题,使用数据增强处理草莓病害图像,并提出了自注意力机制模块,结合使用草莓病害分类识别模型作为骨干网络加快草莓病害的识别速度与准确度。
Description
技术领域
本发明涉及病害识别技术领域,具体来说是基于自注意力机制的草莓病害图像识别方法。
背景技术
农作物的病害对于农业的产量影响巨大,如果不能及时的识别出农业病害的种类,农业产量将受到较大的冲击。尤其是草莓这种对于环境要求较高的水果,如果不及时的发现草莓病害种类,草莓减产可达到50%以上,因此草莓病害的及时识别是草莓病害防控处理的基础。
在传统的农业工作中农业工作者常常在面对草莓农作物的病害时手足无措,一方面是因为对于专业的草莓病害的知识的缺乏,另一方面则是因为草莓病害的识别环境复杂,这些都导致草莓病害的识别困难,在正确识别出草莓的病害类型,对于相应的类别进行处理成为了当前需要首要解决的问题。传统的草莓病害的识别环境复杂,导致草莓病害的识别困难。因此,如何设计出一种针对于草莓病害的图像识别方法已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中草莓病害图像难以识别的缺陷,提供一种基于自注意力机制的草莓病害图像识别方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于自注意力机制的草莓病害图像识别方法,包括以下步骤:
获取草莓病害图像数据集并进行预处理:获取草莓病害原图像,并对其进行数据增强,得到增强后的草莓病害图像,获得草莓病害图像数据集;
构建草莓病害分类识别模型:对草莓病害分类识别模型进行构建,其包括降维模块、采样模块和分类模块;
构建草莓病害自注意力机制模块:草莓病害自注意力机制模块由窗口模块与滑动窗口模块串联构成;
草莓病害分类识别模型的训练:将草莓病害图像数据集输入草莓病害分类识别模型进行训练;
待识别草莓病害图像的获得:获得待识别的草莓病害图像,并进行预处理;
待识别草莓病害图像结果的获得:将预处理后的待识别草莓病害图像输入训练后的草莓病害分类识别模型,得到草莓病害图像的识别结果。
所述获取草莓病害图像数据集并进行预处理包括以下步骤:
针对获取到的草莓病害原图像的对比度与强度进行强化,采用翻转方法进行数据集数量上的增强;
采用cutout数据增强方法,即对草莓病害图像中的一块正方形区域通过0像素值填充,实现随机遮挡;再对随机遮挡的草莓病害图像进行中心归一化操作消除0值填充对训练的影响;
对草莓病害图像融合增强,其表达式如下:
λ=Beta(α,β)
mix_batchx=λbatchx1+(1-λ)batchx2,
其中,Beta表示贝塔分布,α、β是两个计算参数,λ是由参数α、β的贝塔分布计算出来的混合系数,mix_batchx表示混合之后的草莓病害样本,batchx1是一批草莓病害样本,batchx2是另外一批草莓病害样本;
输入草莓病害图像经过预处理后,输出草莓病害增强图像。
所述构建草莓病害分类识别模型包括以下步骤:
设定草莓病害分类识别模型包括降维模块、采样模块和分类模块,
输入草莓病害增强图像,通过大小为4×4的块分割,输出草莓分割特征图;对草莓分割特征图首先通过降维模块输出降维后的草莓病害信息,再通过三次采样模块输出层级式草莓病害特征图,最后将层级式草莓病害特征图通过分类模块进行分类识别输出草莓病害分类识别信息;
设定降维模块,降维模块包括一个卷积层和一个自注意力机制模块;
设定卷积层由一个1×1的卷积构成,用于草莓病害特征图的降维;自注意力机制模块由窗口模块与滑动窗口模块串联构成;
草莓分割特征图在进入降维模块后,先通过一个1×1的卷积层得到草莓降维特征图,随后输入草莓降维特征图到自注意力机制模块中,输出一层草莓病害信息;
设定采样模块,设定采样模块有三个,三个采样模块均相同;
采样模块包括一个块拼接和一个自注意力机制模块,块拼接由草莓病害信息的拼接和1×1的卷积组成以实现对草莓病害特征图的下采样,草莓病害特征信息的拼接将每个2×2的相邻像素划分为一个块,然后将每个块中相同位置像素给拼在一起得到四个草莓拼接特征图,将这四个草莓拼接特征图在深度方向进行拼接,再通过1×1的卷积输出草莓块拼接特征图;
将草莓块拼接特征图输入到自注意力机制模块中,草莓块拼接特征图在通过三个采样模块后,输出层级式草莓病害特征图;
设定分类模块,
分类模块包括一个LN标准化和全局平均池化组成,采用LN标准化对提取到的层级式草莓病害特征图经过平移缩放对特征数据进行整体的标准化;全局平均池化将层级式草莓病害特征图中每个通道的二维图像做平均,输出C×1的特征矩阵,特征矩阵乘上大小为t×C权重矩阵G得到草莓病害每一类的概率,其中,权重矩阵G通过训练得到,t是草莓病害类别数,最终通过分类模块输出草莓病害分类信息。
所述构建自注意力机制模块包括以下步骤:
设定自注意力机制模块由窗口模块与滑动窗口模块串接构成;
设定窗口模块:输入为初始特征图,初始特征图为草莓降维特征图或草莓块拼接特征图,
首先经过LN标准化,再通过基于窗口自注意力机制输出窗口自注意特征图,将初始特征图与得到的窗口自注意特征图融合得到融合特征图,将融合特征图再经过LN标准化,再输入多层感知机模块中输出得到多层感知特征图,将融合特征图与得到的多层感知特征图再进行融合成最终输出窗口特征图;
对窗口自注意力机制进行设定;
设定滑动窗口模块:
将窗口模块中的基于窗口的自注意力机制换成移动窗口自注意力机制即得到滑动窗口模块,并将窗口模块的最终输出窗口特征图作为滑动窗口模块的输入,输出一层草莓病害信息或一层层级式草莓病害特征图;
设定移动窗口自注意力机制由窗口移动和设置蒙板组成,
对于得到的移动窗口采用窗口自注意力机制中的自注意力计算方法计算每个滑动窗口的信息;
利用移位配置的方法,通过设置蒙板来隔绝不同区域的信息。
所述草莓病害分类识别模型的训练包括以下步骤:
训练草莓病害分类识别模型:
将增强后的草莓病害图像输入草莓病害分类识别模型,首先通过块分割将增强后的草莓病害图像分成一个个块,对于得到的分成块的草莓分割特征图首先通过降维模块训练得到草莓病害信息;
对于草莓病害降维信息经过三次采样模块的训练采样得到层级式草莓病害特征图,将层级式草莓病害特征图输入分类模块中进行分类;
层级式草莓病害特征图在分类模块全局平均池化中单独训练,训练得到权重矩阵G用于草莓病害每一类信息概率的计算,通过分类模块的分类训练最终输出预测的草莓病害分类信息;
对自注意力机制模块进行单独训练,其输入为降维模块中的草莓降维特征图或采样模块中的草莓块拼接特征图,训练得到系数矩阵S用于自注意力的计算;
对得到预测的草莓病害分类信息和正确的草莓病害分类信息做对比,然后利用梯度反向传播算法来调整模型的权重;
训练损失函数;
定义草莓病害分类识别模型损失函数L为:
所述对窗口自注意力机制进行设定包括以下步骤:
设定基于窗口自注意力机制由窗口分割和自注意力计算组成,首先输入草莓降维特征图或草莓块拼接特征图,窗口分割将其分成H×W个的块,每M×M个块再组成一个窗口,得到共个窗口,然后通过自注意力计算每个窗口的自注意力值;
设定自注意力计算方法如下:
首先输入大小为的待计算图像,其中C为图像维度,输入的待计算图像分别经过C×C大小的系数矩阵S得到Q、K和V三个向量,其中,系数矩阵S通过训练得到,Q为查询向量,K为键向量,V为值向量,则计算自注意力矩阵A如下:
则基于窗口自注意力机制的计算量Ω为:
Ω=4HW+2M2HWC,
其中,H代表特征图的高度,W代表特征图的宽度,C代表特征图的深度,M代表每个窗口的大小。
有益效果
本发明的基于自注意力机制的草莓病害图像识别方法,与现有技术相比解决现阶段草莓病害识别精度问题,使用数据增强处理草莓病害图像,并提出了自注意力机制模块,结合使用草莓病害分类识别模型作为骨干网络加快草莓病害的识别速度与准确度。
本发明方法针对于草莓各类数据分布不均匀的情况,通过反转等方法进行数据集的数量的填充,以此解决训练过程中可能由于草莓病害种类数量相差过大导致的过拟合问题,并通过数据剪切、数据融合等方法提高数据的泛化能力与增加图像特征量,以此提升草莓病害识别准确度;然后,主要使用特殊的自注意力机制,这种自注意力有效地减少计算量并且快速的通过构建层级式的特征网络学习丰富的草莓病害特征信息,目的是提高草莓微小病变症状的学习能力,最后采用全局平局池化方法进行分类识别解决了输入输出的限制,增加模块的鲁棒性,并且轻量化模型加快了识别速度。
本发明通过构建草莓病害自注意力机制模块用于提取草莓病害分类特征信息,再基于草莓病害自注意力机制模块构建降维模块与采样模块,降维模块将草莓病害特征图维度调整,采样模块输出层级式的草莓病害特征图,得到具有丰富信息草莓病害特征图,最后通过分类模块得到最终的草莓病害分类识别信息。
通过实验验证,本发明所提出的方法在识别的准确度上较当前的草莓病害识别方法有明显提升。这说明本发明的方法可运用到多类别、复杂背景下的农业草莓病害识别工作。
附图说明
图1为本发明的方法顺序图;
图2为本发明所涉及移动窗口自注意力机制的步骤图;
图3为本发明所涉及草莓病害自注意力机制模块框架图;
图4为本发明与现有技术的accuracy曲线对比图;
图5为本发明所述方法的预测结果图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的基于自注意力机制的草莓病害图像识别方法,包括以下步骤:
第一步,获取草莓病害图像数据集并进行预处理:获取草莓病害原图像,并对其进行数据增强,得到增强后的草莓病害图像,获得草莓病害图像数据集。
其具体步骤如下:
(1)针对数据集中草莓病害图像的对比度与强度进行强化,针对草莓病害原始数据集中每类草莓病害的数据量不均衡的问题,采用翻转等方法进行数据集数量上的增强,以解决训练过程中可能由于草莓病害种类数量相差过大导致的过拟合问题。
(2)为了提高草莓病害数据集各类数据的泛化能力,采用cutout数据增强方法,即对草莓病害图像中的一块正方形区域通过0像素值填充,实现随机遮挡;再对随机遮挡的草莓病害图像进行中心归一化操作消除0值填充对训练的影响。
(3)对草莓病害图像融合增强,其表达式如下:
λ=Beta(α,β)
mix_batchx=λbatchx1+(1-λ)batchx2,
其中,Beta表示贝塔分布,α、β是两个计算参数,λ是由参数α、β的贝塔分布计算出来的混合系数,mix_batchx表示混合之后的草莓病害样本,batchx1是一批草莓病害样本,batchx2是另外一批草莓病害样本。
(4)输入草莓病害图像经过预处理后,输出草莓病害增强图像。
第二步,构建草莓病害分类识别模型:对草莓病害分类识别模型进行构建,其包括降维模块、采样模块和分类模块。
在进行草莓病害的分类中对于输入有着维度限制,要求输入维度较低,因此引入降维模块对草莓病害增强图像进行降维,为了得到大量丰富的草莓病害特征信息用于分类引入采样模块,草莓病害信息在通过3个采样模块后会分别进行4倍下采样、8倍下采样和16倍的下采样,这样得到的层级式草莓病害特征图具有丰富的草莓病害特征信息,最后引入分类模块进行草莓病害分类识别,而分类模块中选用全局平均池化进行草莓病害的分类识别,因为全局平均池化更加适合于草莓多种类病害的识别中,相比于全连接层对于输入的限制,全局平均池化大幅度减少了参数量,降低过拟合,使得模型更加健壮,使得草莓病害识别更加稳定与迅速。
其具体步骤如下:
(1)设定草莓病害分类识别模型包括降维模块、采样模块和分类模块,
输入草莓病害增强图像,通过大小为4×4的块分割,输出草莓分割特征图;对草莓分割特征图首先通过降维模块输出降维后的草莓病害信息,再通过三次采样模块输出层级式草莓病害特征图,最后将层级式草莓病害特征图通过分类模块进行分类识别输出草莓病害分类识别信息。
(2)设定降维模块,降维模块包括一个卷积层和一个自注意力机制模块;
设定卷积层由一个1×1的卷积构成,用于草莓病害特征图的降维;自注意力机制模块由窗口模块与滑动窗口模块串联构成;
草莓分割特征图在进入降维模块后,先通过一个1×1的卷积层得到草莓降维特征图,随后输入草莓降维特征图到自注意力机制模块中,输出一层草莓病害信息。
(3)设定采样模块,设定采样模块有三个,三个采样模块均相同;
采样模块包括一个块拼接和一个自注意力机制模块,块拼接由草莓病害信息的拼接和1×1的卷积组成以实现对草莓病害特征图的下采样,草莓病害特征信息的拼接将每个2×2的相邻像素划分为一个块,然后将每个块中相同位置像素给拼在一起得到四个草莓拼接特征图,将这四个草莓拼接特征图在深度方向进行拼接,再通过1×1的卷积输出草莓块拼接特征图;
将草莓块拼接特征图输入到自注意力机制模块中,草莓块拼接特征图在通过三个采样模块后,输出层级式草莓病害特征图。
(4)设定分类模块,
分类模块包括一个LN标准化和全局平均池化组成,采用LN标准化对提取到的层级式草莓病害特征图经过平移缩放对特征数据进行整体的标准化其中,采用LN标准化对提取到的层级式的草莓病害特征图经过平移缩放对的特征数据进行整体的标准化,以去除样本数据缺失与通道分布不均匀的问题;全局平均池化将层级式草莓病害特征图中每个通道的二维图像做平均,输出C×1的特征矩阵,特征矩阵乘上大小为t×C权重矩阵G得到草莓病害每一类的概率,其中,权重矩阵G通过训练得到,t是草莓病害类别数,最终通过分类模块输出草莓病害分类信息。
第三步,构建草莓病害自注意力机制模块,草莓病害自注意力机制模块由窗口模块与滑动窗口模块串联构成。
在自注意力机制模块中,在原先的计算自注意力时计算量过大,为了使得减少计算量引入窗口模块,但是在解决了计算的复杂度问题同时使得每个窗口之间信息堵塞,因此为了窗口之间可进行信息交互,解决模型限制与扩大感受野,引入滑动窗口模块。
所述构建自注意力机制模块包括以下步骤:
(1)设定自注意力机制模块由窗口模块与滑动窗口模块串接构成。
(2)设定窗口模块:输入为初始特征图,初始特征图为草莓降维特征图或草莓块拼接特征图,
首先经过LN标准化,再通过基于窗口自注意力机制输出窗口自注意特征图,将初始特征图与得到的窗口自注意特征图融合得到融合特征图,将融合特征图再经过LN标准化,再输入多层感知机模块中输出得到多层感知特征图,将融合特征图与得到的多层感知特征图再进行融合成最终输出窗口特征图。
(3)对窗口自注意力机制进行设定。所述对窗口自注意力机制进行设定包括以下步骤:
A1)设定基于窗口自注意力机制由窗口分割和自注意力计算组成,首先输入草莓降维特征图或草莓块拼接特征图,窗口分割将其分成H×W个的块,每M×M个块再组成一个窗口,得到共个窗口,然后通过自注意力计算每个窗口的自注意力值;
A2)设定自注意力计算方式如下:
首先输入大小为的待计算图像,其中C为图像维度,输入的待计算图像分别经过C×C大小的系数矩阵S得到Q、K和V三个向量,其中,系数矩阵S通过训练得到,Q为查询向量,K为键向量,V为值向量,则计算自注意力矩阵A如下:
则基于窗口自注意力机制的计算量Ω为:
Ω=4HW+2M2HWC,
其中,H代表特征图的高度,W代表特征图的宽度,C代表特征图的深度,M代表每个窗口的大小。
(4)设定滑动窗口模块:
将窗口模块中的基于窗口的自注意力机制换成移动窗口自注意力机制即得到滑动窗口模块,并将窗口模块的最终输出窗口特征图作为滑动窗口模块的输入,输出一层草莓病害信息或一层层级式草莓病害特征图。
(5)设定移动窗口自注意力机制由窗口移动和设置蒙板组成,
对于得到的移动窗口采用窗口自注意力机制中的自注意力计算方法计算每个滑动窗口的信息,其中滑动窗口模块与窗口模块计算自注意力的方法一致。
利用移位配置的方法,通过设置蒙板来隔绝不同区域的信息。
在此,对每个移动窗口进行计算得到的自注意力就包括之前几个窗口的信息,从而解决模型限制与各个窗口通信的问题,并且扩大了感受野。为了降低窗口自注意力计算量,采用高效的批量计算,用于移位的配置的方法,这样就能够通过设置蒙板来隔绝不同区域的信息。
第四步,草莓病害分类识别模型的训练:将草莓病害图像数据集输入草莓病害分类识别模型进行训练。
所述草莓病害分类识别模型的训练包括以下步骤:
(1)训练草莓病害分类识别模型:
B1)将增强后的草莓病害图像输入草莓病害分类识别模型,首先通过块分割将增强后的草莓病害图像分成一个个块,对于得到的分成块的草莓分割特征图首先通过降维模块训练得到草莓病害信息;
B2)对于草莓病害降维信息经过三次采样模块的训练采样得到层级式草莓病害特征图,将层级式草莓病害特征图输入分类模块中进行分类;
B3)在分类模块全局平均池化中单独训练,训练得到权重矩阵G用于草莓病害每一类信息概率的计算,通过分类模块的分类训练最终输出预测的草莓病害分类信息;
B4)对自注意力机制模块进行单独训练,其输入为降维模块中的草莓降维特征图或采样模块中的草莓块拼接特征图,训练得到系数矩阵S用于自注意力的计算。
(2)对得到预测的草莓病害分类信息和正确的草莓病害分类信息做对比,然后利用梯度反向传播算法来调整模型的权重。
(3)训练损失函数;为了模型会倾向于让预测输出更接近真实样本标签y,定义草莓病害分类识别模型损失函数L为:
对得到预测的草莓病害分类信息和正确的草莓病害分类信息做对比,然后利用反向传播来调整模型的权重,使得输出的概率分布更加接近正确的输出;用大量的草莓病害图像进行训练模型,草莓病害分类识别模型在经过足够长时间的训练后,会不断地修正与正确草莓病害分类信息之间的距离,最终达到高达97.2%的分类识别准确度;
第五步,待识别草莓病害图像的获得:获得待识别的草莓病害图像,并进行预处理。
第六步,待识别草莓病害图像结果的获得:将预处理后的待识别草莓病害图像输入训练后的草莓病害分类识别模型,得到草莓病害图像的识别结果。
如图2所示,其为利用本发明方法移动窗口自注意力机制的步骤图,采用基于窗口的自注意力机制模块时,只会在每个窗口内进行自注意力计算,所以窗口与窗口之间是无法进行信息传递的。为了解决这个问题,引入了移动窗口自注意力机制模块,即进行偏移的基于窗口的自注意力机制。
如图2所示,左侧使用的是基于窗口的自注意力机制(假设是第L层),那么根据之前介绍的基于窗口的自注意力机制和移动窗口自注意力机制是成对使用的,那么第L+1层使用的就是移动窗口自注意力机制。根据左右两幅图对比能够发现窗口(Windows)发生了偏移,即窗口从左上角分别向右侧和下方各偏移了个像素。下偏移后的窗口,比如对于第一行第2列的2x4的窗口能够使第L层的第一排的两个窗口信息进行交流。第二行第二列的4×4的窗口,能够使第L层的四个窗口信息进行交流,其他的同理。这样就解决了不同窗口之间无法进行信息交流的问题。
如图3所示,其为本发明的草莓病害自注意力机制模块,草莓病害自注意力机制模块由窗口模块(窗口模块)与滑动窗口模块(滑动窗口模块)串联构成。窗口模块首先将特征图进行输入,先经过LN标准化,再进行基于窗口的自注意力机制输出窗口自注意特征图,将初始特征图与得到的窗口自注意特征图融合得到融合特征图,将融合特征图先经过LN标准化,再输入多层感知机模块中输出得到多层感知特征图,将融合特征图与得到的多层感知特征图再进行融合最终得到窗口特征图;滑动窗口模块基本结构相同,将窗口模块中的基于窗口的自注意力机制换成移动窗口自注意力机制即得到滑动窗口模块,并且将窗口模块的输出作为滑动窗口模块的输入,最后输出草莓病害自注意力特征图。
表1为本方法与几种常用的分类方法的实验对比结果表
如表1所示,展示了本方法与几种常用的分类方法对比实验结果,可以看出,本方法采用的数据增强方法效果显著,常用的几种分类方法的识别准确度均提高至少1%左右,本发明方法也提高了1.13%,同时本发明方法的识别准确度是最高的,高达97.25%,同时识别速度也是同类中速度最快的,这说明了,本发明方法在多种类、复杂度较高的草莓监测中效果很好,可以很好的解决草莓病害识别相关的问题。
由图4可知,对比于swin transformer的原始网络模型来说,本发明方法在准确度方面攀升更快,最终识别的准确度相对而言高于原始网络模型,本发明方法在识别草莓病害数据中准确度高达97.25%,相比于其他的分类网络模型的准确度有这较为明显提升,对比于swin transformer也提高了1.1%的识别准确度,本发明方法在多次实验中测试集的准确率均不低于97%,这充分说明本发明方法在识别草莓病害这种小规模复杂度高的图像中有着较为明显的优势。
由图5可知,本发明方法对随机挑选的4张草莓病害图像进行草莓病害的识别,可以看到结果预测均成功且预测准确度高达100%,说明本发明方法对于复杂环境下草莓病害具有良好的识别准确度。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (6)
1.一种基于自注意力机制的草莓病害图像识别方法,其特征在于,包括以下步骤:
11)获取草莓病害图像数据集并进行预处理:获取草莓病害原图像,并对其进行数据增强,得到增强后的草莓病害图像,获得草莓病害图像数据集;
12)构建草莓病害分类识别模型:对草莓病害分类识别模型进行构建,其包括降维模块、采样模块和分类模块;
13)构建草莓病害自注意力机制模块:草莓病害自注意力机制模块由窗口模块与滑动窗口模块串联构成;
14)草莓病害分类识别模型的训练:将草莓病害图像数据集输入草莓病害分类识别模型进行训练;
15)待识别草莓病害图像的获得:获得待识别的草莓病害图像,并进行预处理;
16)待识别草莓病害图像结果的获得:将预处理后的待识别草莓病害图像输入训练后的草莓病害分类识别模型,得到草莓病害图像的识别结果。
2.根据权利要求1所述的基于自注意力机制的草莓病害图像识别方法,其特征在于,所述获取草莓病害图像数据集并进行预处理包括以下步骤:
21)针对获取到的草莓病害原图像的对比度与强度进行强化,采用翻转方法进行数据集数量上的增强;
22)采用cutout数据增强方法,即对草莓病害图像中的一块正方形区域通过0像素值填充,实现随机遮挡;再对随机遮挡的草莓病害图像进行中心归一化操作消除0值填充对训练的影响;
23)对草莓病害图像融合增强,其表达式如下:
λ=Beta(α,β)
mix_batchx=λbatchx1+(1-λ)batchx2,
其中,Beta表示贝塔分布,α、β是两个计算参数,λ是由参数α、β的贝塔分布计算出来的混合系数,mix_batchx表示混合之后的草莓病害样本,batchx1是一批草莓病害样本,batchx2是另外一批草莓病害样本;
24)输入草莓病害图像经过预处理后,输出草莓病害增强图像。
3.根据权利要求1所述的基于自注意力机制的草莓病害图像识别方法,其特征在于,所述构建草莓病害分类识别模型包括以下步骤:
31)设定草莓病害分类识别模型包括降维模块、采样模块和分类模块,
输入草莓病害增强图像,通过大小为4×4的块分割,输出草莓分割特征图;对草莓分割特征图首先通过降维模块输出降维后的草莓病害信息,再通过三次采样模块输出层级式草莓病害特征图,最后将层级式草莓病害特征图通过分类模块进行分类识别输出草莓病害分类识别信息;
32)设定降维模块,降维模块包括一个卷积层和一个自注意力机制模块;
设定卷积层由一个1×1的卷积构成,用于草莓病害特征图的降维;自注意力机制模块由窗口模块与滑动窗口模块串联构成;
草莓分割特征图在进入降维模块后,先通过一个1×1的卷积层得到草莓降维特征图,随后输入草莓降维特征图到自注意力机制模块中,输出一层草莓病害信息;
33)设定采样模块,设定采样模块有三个,三个采样模块均相同;
采样模块包括一个块拼接和一个自注意力机制模块,块拼接由草莓病害信息的拼接和1×1的卷积组成以实现对草莓病害特征图的下采样,草莓病害特征信息的拼接将每个2×2的相邻像素划分为一个块,然后将每个块中相同位置像素给拼在一起得到四个草莓拼接特征图,将这四个草莓拼接特征图在深度方向进行拼接,再通过1×1的卷积输出草莓块拼接特征图;
将草莓块拼接特征图输入到自注意力机制模块中,草莓块拼接特征图在通过三个采样模块后,输出层级式草莓病害特征图;
34)设定分类模块,
分类模块包括一个LN标准化和全局平均池化组成,采用LN标准化对提取到的层级式草莓病害特征图经过平移缩放对特征数据进行整体的标准化;全局平均池化将层级式草莓病害特征图中每个通道的二维图像做平均,输出C×1的特征矩阵,特征矩阵乘上大小为t×C权重矩阵G得到草莓病害每一类的概率,其中,权重矩阵G通过训练得到,t是草莓病害类别数,最终通过分类模块输出草莓病害分类信息。
4.根据权利要求1所述的基于自注意力机制的草莓病害图像识别方法,其特征在于,所述构建自注意力机制模块包括以下步骤:
41)设定自注意力机制模块由窗口模块与滑动窗口模块串接构成;
42)设定窗口模块:输入为初始特征图,初始特征图为草莓降维特征图或草莓块拼接特征图,
首先经过LN标准化,再通过基于窗口自注意力机制输出窗口自注意特征图,将初始特征图与得到的窗口自注意特征图融合得到融合特征图,将融合特征图再经过LN标准化,再输入多层感知机模块中输出得到多层感知特征图,将融合特征图与得到的多层感知特征图再进行融合成最终输出窗口特征图;
43)对窗口自注意力机制进行设定;
44)设定滑动窗口模块:
将窗口模块中的基于窗口的自注意力机制换成移动窗口自注意力机制即得到滑动窗口模块,并将窗口模块的最终输出窗口特征图作为滑动窗口模块的输入,输出一层草莓病害信息或一层层级式草莓病害特征图;
45)设定移动窗口自注意力机制由窗口移动和设置蒙板组成,
对于得到的移动窗口采用窗口自注意力机制中的自注意力计算方法计算每个滑动窗口的信息;
利用移位配置的方法,通过设置蒙板来隔绝不同区域的信息。
5.根据权利要求1所述的基于自注意力机制的草莓病害图像识别方法,其特征在于,所述草莓病害分类识别模型的训练包括以下步骤:
51)训练草莓病害分类识别模型:
511)将增强后的草莓病害图像输入草莓病害分类识别模型,首先通过块分割将增强后的草莓病害图像分成一个个块,对于得到的分成块的草莓分割特征图首先通过降维模块训练得到草莓病害信息;
512)对于草莓病害降维信息经过三次采样模块的训练采样得到层级式草莓病害特征图,将层级式草莓病害特征图输入分类模块中进行分类;
513)层级式草莓病害特征图在分类模块全局平均池化中单独训练,训练得到权重矩阵G用于草莓病害每一类信息概率的计算,通过分类模块的分类训练最终输出预测的草莓病害分类信息;
514)对自注意力机制模块进行单独训练,其输入为降维模块中的草莓降维特征图或采样模块中的草莓块拼接特征图,训练得到系数矩阵S用于自注意力的计算;
52)对得到预测的草莓病害分类信息和正确的草莓病害分类信息做对比,然后利用梯度反向传播算法来调整模型的权重;
53)训练损失函数;
定义草莓病害分类识别模型损失函数L为:
6.根据权利要求4所述的基于自注意力机制的草莓病害图像识别方法,其特征在于,所述对窗口自注意力机制进行设定包括以下步骤:
61)设定基于窗口自注意力机制由窗口分割和自注意力计算组成,首先输入草莓降维特征图或草莓块拼接特征图,窗口分割将其分成H×W个的块,每M×M个块再组成一个窗口,得到共个窗口,然后通过自注意力计算每个窗口的自注意力值;
62)设定自注意力计算方法如下:
首先输入大小为的待计算图像,其中C为图像维度,输入的待计算图像分别经过C×C大小的系数矩阵S得到Q、K和V三个向量,其中,系数矩阵S通过训练得到,Q为查询向量,K为键向量,V为值向量,则计算自注意力矩阵A如下:
则基于窗口自注意力机制的计算量Ω为:
Ω=4HW+2M2HWC,
其中,H代表特征图的高度,W代表特征图的宽度,C代表特征图的深度,M代表每个窗口的大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210892609.9A CN115019303A (zh) | 2022-07-27 | 2022-07-27 | 基于自注意力机制的草莓病害图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210892609.9A CN115019303A (zh) | 2022-07-27 | 2022-07-27 | 基于自注意力机制的草莓病害图像识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115019303A true CN115019303A (zh) | 2022-09-06 |
Family
ID=83065623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210892609.9A Pending CN115019303A (zh) | 2022-07-27 | 2022-07-27 | 基于自注意力机制的草莓病害图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019303A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311230A (zh) * | 2023-05-17 | 2023-06-23 | 安徽大学 | 一种面向真实场景下的玉米叶片病害识别方法及装置 |
CN116824551A (zh) * | 2023-08-30 | 2023-09-29 | 山东易图信息技术有限公司 | 一种基于视觉注意力的轻量化停车位状态检测方法 |
-
2022
- 2022-07-27 CN CN202210892609.9A patent/CN115019303A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311230A (zh) * | 2023-05-17 | 2023-06-23 | 安徽大学 | 一种面向真实场景下的玉米叶片病害识别方法及装置 |
CN116311230B (zh) * | 2023-05-17 | 2023-08-18 | 安徽大学 | 一种面向真实场景下的玉米叶片病害识别方法及装置 |
CN116824551A (zh) * | 2023-08-30 | 2023-09-29 | 山东易图信息技术有限公司 | 一种基于视觉注意力的轻量化停车位状态检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711413B (zh) | 基于深度学习的图像语义分割方法 | |
CN115019303A (zh) | 基于自注意力机制的草莓病害图像识别方法 | |
CN107527007B (zh) | 在车辆图像处理系统中检测关注对象的方法 | |
CN110197182A (zh) | 基于上下文信息和注意力机制的遥感影像语义分割方法 | |
US20190228268A1 (en) | Method and system for cell image segmentation using multi-stage convolutional neural networks | |
CN109598269A (zh) | 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法 | |
CN108388896A (zh) | 一种基于动态时序卷积神经网络的车牌识别方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN106570464A (zh) | 一种快速处理人脸遮挡的人脸识别方法及装置 | |
CN115049936A (zh) | 一种面向高分遥感影像的边界增强型语义分割方法 | |
CN108846473A (zh) | 基于方向和尺度自适应卷积神经网络的光场深度估计方法 | |
CN112070158B (zh) | 一种基于卷积神经网络和双边滤波的面部瑕疵检测方法 | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
CN106960415A (zh) | 一种基于像素递归超分辨率模型恢复图像的方法 | |
CN113221787A (zh) | 基于多元差异性融合的行人多目标跟踪方法 | |
CN112560966B (zh) | 基于散射图卷积网络的极化sar图像分类方法、介质及设备 | |
CN110929621B (zh) | 一种基于拓扑信息细化的道路提取方法 | |
Nguyen et al. | Hybrid deep learning-Gaussian process network for pedestrian lane detection in unstructured scenes | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN112163490A (zh) | 一种基于场景图片的目标检测方法 | |
CN116310305A (zh) | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 | |
CN114241250A (zh) | 一种级联回归目标检测方法、装置及计算机可读存储介质 | |
CN112215231A (zh) | 一种结合空间深度卷积和残差结构的大尺度点云语义分割方法 | |
CN116612283A (zh) | 一种基于大卷积核骨干网络的图像语义分割方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |