CN117576467B - 一种融合频率域和空间域信息的农作物病害图像识别方法 - Google Patents
一种融合频率域和空间域信息的农作物病害图像识别方法 Download PDFInfo
- Publication number
- CN117576467B CN117576467B CN202311560242.1A CN202311560242A CN117576467B CN 117576467 B CN117576467 B CN 117576467B CN 202311560242 A CN202311560242 A CN 202311560242A CN 117576467 B CN117576467 B CN 117576467B
- Authority
- CN
- China
- Prior art keywords
- frequency
- feature
- information
- crop disease
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 148
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 148
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 41
- 238000000605 extraction Methods 0.000 claims description 40
- 238000010586 diagram Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 241000282326 Felis catus Species 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 239000006185 dispersion Substances 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000013145 classification model Methods 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000007500 overflow downdraw method Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biodiversity & Conservation Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种融合频率域和空间域信息的农作物病害图像识别方法,与现有技术相比解决了难以在复杂环境下实现农作物病害检测的缺陷。本发明包括以下步骤:农作物病害图像的获取及预处理;双分支病害图像识别模型的构建;双分支病害图像识别模型的训练;待识别农作物病害图像的获取;农作物病害图像识别结果的获得。本发明结合图像频率域信息与空间域信息提出了双分支的深度神经网络用于农作物病害识别,频率分支接受频域信息作为输入用于提取丰富的农作物病害频率分量特征,可变形注意力Transformer分支擅长于表征全局特征并且有选择的关注农作物病害局部区域特征,融合方法MSAF更好的融合农作物病害频率特征和空间特征。
Description
技术领域
本发明涉及病害图像识别技术领域,具体来说是一种融合频率域和空间域信息的农作物病害图像识别方法。
背景技术
计算机视觉与图像处理领域中,在农作物病害自动识别技术上应用最广泛的是随机森林(RF)、最近邻(KNN)、支持向量机(SVM)、朴素贝叶斯和AdaBoost等方法。但这些方法在对具有复杂背景的农作物病害图像特征提取时需要人工选取特定的特征信息,并且需要设计较复杂的特征提取算法来提取只含有病害区域的有用特征信息,这是非常困难的,往往达不到预期的效果。照相机或手机拍摄的农作物病害图像的复杂性,致使农作物病害图像的自动识别仍然是一项非常具有挑战性的任务。
由于直接在空间中很难学习高频或者一些低频分量信息,这导致模型的识别受到限制。一些研究者利用图像空间域信息转到频率域上进行了研究应用来提高模型的性能。深度神经网络在农作物病害识别任务中取得了一定的进展,然而,复杂环境下的农作物病害特征提取受背景干扰、形态差异和尺度大小的影响,导致了目前在识别农作物病害上精度不高。
那么,如何提取图像频率信息利用于复杂环境下农作物病害特征已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中难以在复杂环境下实现农作物病害检测的缺陷,提供一种融合频率域和空间域信息的农作物病害图像识别方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种融合频率域和空间域信息的农作物病害图像识别方法,包括以下步骤:
农作物病害图像的获取及预处理:获取田间农作物病害图像并进行预处理;
双分支病害图像识别模型的构建:基于频率域特征提取网络FCA和具有可变形注意力模块构建的DAT-Transformer网络构建出双分支病害图像识别模型;
双分支病害图像识别模型的训练:将预处理后的田间农作物病害图像输入双分支病害图像识别模型进行训练;
待识别农作物病害图像的获取:获取待识别农作物病害图像并进行预处理;
农作物病害图像识别结果的获得:将预处理后的待识别农作物病害图像输入双分支病害图像识别模型,得到农作物病害图像的识别结果。
所述双分支病害图像识别模型的构建包括以下步骤:
设定双分支病害图像识别模型的第一部分为频率域特征提取网络FCA、第二部分为DAT-Transformer网络、第三部分为MSAF模块、第四部分为自适应平均池化层、第五部分为全连接层分类器;
其中,频率域特征提取网络FCA用于将高分辨率农作物病害图像压缩为频率特征信息,生成频率信息特征,DAT-Transformer网络用于全局感知空间域农作物病害图像信息并关注病害区域,捕获有用病害特征信息,生成空间信息特征,MSAF模块用于融合频率信息特征和空间信息特征,然后依次输入步长分别为1和2的两个Ghost bottleneck模块进行抽象特征提取和空间尺寸减半,最后输入到自适应平均池化层得到特征向量并输入到全连接层分类器进行分类和识别;
设定频率域特征提取网络FCA,
频率域特征提取网络FCA包括三个部分:Ycbcr颜色变换、离散余弦变换DCT和CNN网络;
Ycbcr颜色变换将RGB图像转化为Y、cb和cr三个颜色分量公式如下:
Y=0.299R+0.587G+0.114B
Cb=-0.1687R-0.3313G+0.5B
Cr=0.5R-0.4187G-0.0813B;
离散余弦变换DCT分别对Y、cb、cr三个颜色分量转化为频率信息,具体的,对于通道按照8×8分块,在每一个块中进行离散余弦变换得到64个频率分量,这样一张Y图像得到H/8×W/8个64频率分量,相当于64个通道,每一个通道大小H/8×W/8,每一个通道代表一类频率的信息,64个通道代表64个频率类别信息;
将三个颜色分量得到的频率信息特征图进行concat得到192×H/8×W/8大小的频率信息特征图作为第三部分CNN的输入;
设定Ghost bottleneck模块;
设定CNN包括gate模块和Ghost bottleneck模块,gate模块用于有选择地过滤掉冗余频率信息特征,Ghost bottleneck用于学习频率信息特征;
设定CNN包括gate模块和Ghost bottleneck构成的频率特征提取模块,对于以上三个颜色分量concat得到的频率信息特征图,首先通过gate模块过滤掉冗余频率信息特征,具体操作为对输入进行全局平均池化:
其中,Xt代表输入X的第t个通道特征图,H和W分别代表输入特征图X的高和宽,输出Zt为的第t个特征向量值,i是特征向量中第i行坐标值,j特征向量中第j列坐标值;
最后经过并联的两个全连接层处理得到两组特征向量,在经过softmax处理后得到两组概率值和/>具体计算如下:
其中,Ai和Bi为可训练的全连接层中第i个权重参数值,zi为向量z的第i个元素,ai为a的第i个输出概率值,bi为b的第i个输出概率值,ai+bi=1,
为第一个全连接层计算对应a的第i个权重值,/>为第二个全连接层计算对应b的第i个权重值;
最后以b作为基准与a中相对应元素进行比较,若ai>bi,则保留第i个通道的频率信息特征图,反之去除该通道特征图然后经过1×1的卷积压缩冗余特征,将压缩后的特征输入CNN网络进行频率特征提取以及降维;
设定DAT-Transformer网络
DAT-Transformer网络用于提取农作物病害图像的全局空间信息,包括三个阶段,前两个阶段均为两层的局部注意力加上移位窗口注意力构成,局部注意力关注局部病害特征信息,移位窗口注意力关注每一个窗口全局信息并减少模型参数量;
第三个阶段由两层局部注意力加上可变形注意力构成,可变形注意力用于提高网络模型关注农作物病害特征重要区域,提高模型对密集病害区域的表达能力;
具体的,对于输入先经过步长为2的3×3卷积下采样,然后通过patch embedding进行4×4大小分块得到96×H/8×W/8大小的特征图,最后依次通过三个阶段的注意力机制处理得到最后的抽象特征,即空间信息特征,用于MASF模块融合的输入;
设定MSAF模块,
MASF模块用于融合结构差异的频率域信息特征和空间域信息特征,
将空间特征图分为n组,及[X0,X1,...Xn],其中/>对每一个Xi通过多普通道注意力转化为频率权重,计算如下:
其中,[ui,vi]是对应于X的2D频率分量坐标索引值,H和W代表频率特征输入X的高和宽,代表压缩后的C′维向量,/>C表示特征通道数量,i代表n组中的第i组,h是第i组中每一个特征向量的第h行坐标值,w是第i组中每一个特征向量的第w列坐标值;
对n个分组,每一个组具有相同频率权重,n个组表明具有n个不同的频率权重,然后对这n组得到的Freqi值进行concat连接得到整个特征的多频谱值,计算如下:
Freq=cat([Freq0,Freq1,…,Freqn-1]),
其中,cat代表concat连接计算,代表压缩后的C′维向量,/>
然后将得到的Freq值输入两级1×1卷积进行压缩和非线性处理;
对于频率域特征提取网络FCA提取的频率特征同样进行两级1×1卷积和非线性处理,最后将这两个分支的输出进行相加得到权重g,在对X和Y进行融合,计算如下:
Z=X×g+Y×(1-g)
其中代表最终特征融合的输出结果,X和Y分别代表DAT-T提取的空间信息特征和频率域分支提取的频率信息特征;
设定自适应平均池化层和全连接层分类,
自适应平均池化层用于将最后融合和提取的抽象特征转化为特征向量,具体对于大小为1024×7×7的X抽象特征进行计算,计算公式如下:
其中,Vt为的第t个向量值,Xt为输入/>的第t个通道特征图;最后使用权重结构为1024×12的全连接层分类器得到12类农作物病害类别,计算如下:
其中,yt为的第t个输出类别,Vi为V的第i个特征向量值,wi为/>的第i个权重参数值。
所述双分支病害图像识别模型的训练包括以下步骤:
将预处理后的田间农作物病害图像输入双分支病害图像识别模型,对双分支病害图像识别模型权重进行初始标准化;
农作物训练集图像数据输入到频率域特征提取网络FCA和DAT-Transformer网络,分别提取出频率信息特征和空间信息特征;然后通过MSAF模块融合这两部分特征并输入到卷积层提取抽象特征;最后将抽象特征输入自适应平均局池化层得到向量并输入到全连接层分类器得到类别概率;
利用设计的损失函数cv_bias来优化双分支网络模型训练,提高模型最后一层特征描述符的表达能力,模型训练到损失值不下降时停止训练。
所述设定Ghost bottleneck模块包括以下步骤:
Ghost bottleneck由两层Ghost module块构成,
具体的Ghost module操作为,对于输入特征取X的一半数量的通道C/2进行3×3深度可分离卷积得到一半的特征记为T1,然后对T1进行1×1的点卷积得到和T1相同维度特征T2,将T1和T2进行concat后得到最终提取的特征;
Ghost bottleneck有两种形式,一种采用步长为1用于学习频率信息特征;另一种步长为2用于降维频率信息特征图大小。
所述利用设计的损失函数cv_bias来优化双分支网络模型训练包括以下步骤:
对于分类模型的最后一层特征输出,即全局平均池化的输入特征,其中B为batchsize,C为输入通道数量,H和W为张量的高度和宽度;
首先,将T转化为二维矩阵其中N=C×H×W,N表示每个数据点中所有特征值的数量;
然后对batchsize中的第i个数据点特征图进行方差计算,计算公式如下:
其中,vi为第i个数据点计算得到的方差结果,为t的第i个数据,μi为第i个数据点tu所有特征值的平均数,计算公式如下:
对原始bias损失对方差值进行了归一化处理,其处理方法为,对同一批次下得到的方差求解最大值Max和最小值Min,然后将方差缩放到vi∈[0,1]之间,公式如下:
采用标准差和均值的比值称为变异系数来代替这种归一化的处理,公式如下:
其中,εi称为第i个数据的变异系数,εi∈[0,1]之间;
变异系数越大,离散程度越大,表示获得的独特特征的机会就越高,反之离散程度越小,获得的独特特征的机会越低;
由于神经网络模型输出层经过softmax处理,为了校准每个数据点对累积损失的贡献,添加一个非线性尺度函数,其目的是在低方差和高方差的数据点之间产生bias,改进后的bias loss公式如下:
式中,f(xi;θ)代表神经网络,xi表示输入农作物图像,θ表示模型权重参数;yi为类别标签,B为batchsize值,z为指数映射函数,其目的是校准每个数据点对累积损失的贡献,vi为第i个数据的变异系数值;α和β为可调参数。
有益效果
本发明的一种融合频率域和空间域信息的农作物病害图像识别方法,与现有技术相比结合图像频率域信息与空间域信息提出了双分支的深度神经网络用于农作物病害识别,频率分支接受频域信息作为输入用于提取丰富的农作物病害频率分量特征,可变形注意力Transformer分支擅长于表征全局特征并且有选择的关注农作物病害局部区域特征,融合方法MSAF更好的融合农作物病害频率特征和空间特征。
本发明还提出一种新的损失函数来优化双分支网络模型,优化后的模型在测试数据集上精度达到了96.7%,这优于现有的最先进可变形Transformer模型,精度提高了2.0%。本发明模型参数量仅为14M,这对于未来智慧农业的应用提供了有效的方法。
本发明中频率信息包括农作物叶片或植株的频谱分布,可以反映出农作物病害区域在不同频率上的响应情况;而空间信息则描述了图像中农作物病害的位置和形状等几何属性。将这两个信息进行融合,可以更全面地描述农作物病害的特征。
本发明还具备以下优点:
(1)通过ghost bottleneck模块构建了新的频率特征提取网络,用于减少频率特征提取过程的特征冗余和模型参数数量。
(2)设计了一种新的多普通道注意力融合方式(Multi-spectral channelAttention Fusion)用于更好的融合图像空间信息特征和频率信息特征。
(3)提出了cv_bias loss函数来促使模型在训练过程中更好的学习农作物病害的独特特征,降低模型在随机预测过程导致的误导问题。
附图说明
图1为本发明的方法顺序图;
图2为本发明所涉及双分支病害图像识别模型的结构图;
图3为本发明所涉及的Ghost bottleneck模块结构图;
图4为本发明所涉及的MASF模块结构图;
图5为本发明所涉及改进的bias与原始bias以及交叉熵损失函数对模型优化能力的对比图;
图6为本发明所涉及的消融实验:网络模型结构性能对比图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种融合频率域和空间域信息的农作物病害图像识别方法,包括以下步骤:
第一步,农作物病害图像的获取及预处理:获取田间农作物病害图像并进行预处理。
第二步,双分支病害图像识别模型的构建:如图2所示,基于频率域特征提取网络FCA和具有可变形注意力模块构建的DAT-Transformer网络构建出双分支病害图像识别模型。
为了精准的识别农作物病害图像,本发明提出了双分支的网络模型架构。该模型架构主要由频率域特征提取网络(FCA)和具有可变形注意力模块构建的Transformer网络(DAT-T)组成。频率域特征网络分支主要用于将高分辨率农作物病害图像压缩为尺度较小的输入频率特征信息并更好的学习该频率信息特征;在此,尺度为448*448空间图像被压缩为尺度为56*56大小的频率信息,这减少了输入网络模型的特征大小,而传统的神经网络基本都是224*224大小的输入。
DAT-Transformer网络用于全局感知空间域农作物病害图像信息并能够关注相关病害区域,捕获更多的有用病害特征信息。其次使用Multi-spectral channel attentionfusion(MSAF)模块更好的融合频率信息特征和空间信息特征,然后依次输入步长分别为1和2的两个Ghost bottleneck进行抽象特征提取和空间尺寸减半。最后输入到自适应平均池化得到特征向量并输入到全连接层分类器进行分类和识别,本发明整体网络模型结构如图2所示。
双分支病害图像识别模型的构建包括以下步骤:
(1)设定双分支病害图像识别模型的第一部分为频率域特征提取网络FCA、第二部分为DAT-Transformer网络、第三部分为MSAF模块、第四部分为自适应平均池化层、第五部分为全连接层分类器;
其中,频率域特征提取网络FCA用于将高分辨率农作物病害图像压缩为频率特征信息,生成频率信息特征,DAT-Transformer网络用于全局感知空间域农作物病害图像信息并关注病害区域,捕获有用病害特征信息,生成空间信息特征,MSAF模块用于融合频率信息特征和空间信息特征,然后依次输入步长分别为1和2的两个Ghost bottleneck模块进行抽象特征提取和空间尺寸减半,最后输入到自适应平均池化层得到特征向量并输入到全连接层分类器进行分类和识别。
(2)设定频率域特征提取网络FCA
频率域特征提取网络FCA包括三个部分:Ycbcr颜色变换、离散余弦变换DCT和CNN网络;
Ycbcr颜色变换将RGB图像转化为Y、cb和cr三个颜色分量公式如下:
Y=0.299R+0.587G+0.114B
Cb=-0.1687R-0.3313G+0.5B
Cr=0.5R-0.4187G-0.0813B;
离散余弦变换DCT分别对Y、cb、cr三个颜色分量转化为频率信息,具体的,对于通道按照8×8分块,在每一个块中进行离散余弦变换得到64个频率分量,这样一张Y图像得到H/8×W/8个64频率分量,相当于64个通道,每一个通道大小H/8×W/8,每一个通道代表一类频率的信息,64个通道代表64个频率类别信息;
将三个颜色分量得到的频率信息特征图进行concat得到192×H/8×W/8大小的频率信息特征图作为第三部分CNN的输入。
(3)如图3所示,设定Ghost bottleneck模块。
Ghost bottleneck由两层Ghost module块构成,
具体的Ghost module操作为,对于输入特征取X的一半数量的通道C/2进行3×3深度可分离卷积得到一半的特征记为T1,然后对p1进行1×1的点卷积得到和T1相同维度特征T2,将T1和T2进行concat后得到最终提取的特征;Ghost bottleneck有两种形式,一种采用步长为1用于学习频率信息特征;另一种步长为2用于降维频率信息特征图大小。
(4)设定CNN包括gate模块和Ghost bottleneck模块,gate模块用于有选择地过滤掉冗余频率信息特征,Ghost bottleneck用于学习频率信息特征。
对于农作物病害图像,往往一张图像中病害特征区域占整个图像区域较小,因此对于一张图像进行8×8分块并在每个分块中进行DCT变换,可以认为大部分的8×8分块中是没有农作物病害特征的,也就是说绝大部分的频率特征是不包含农作物病害区域信息的,这部分被称为冗余信息,它可以通过简单的线性变换或滤波得到,没必要通过复杂的卷积运算得到。因此本文采用Ghost bottleneck块来组成CNN网络。
设定CNN包括gate模块和Ghost bottleneck构成的频率特征提取模块,对于以上三个颜色分量concat得到的频率信息特征图,首先通过gate模块过滤掉冗余频率信息特征,具体操作为对输入进行全局平均池化:
其中,Xt代表输入X的第t个通道特征图,H和W分别代表输入特征图X的高和宽,输出Zt为的第t个特征向量值,也对应,i是特征向量中第i行坐标值,j特征向量中第j列坐标值;
最后经过并联的两个全连接层处理得到两组特征向量,在经过softmax处理后得到两组概率值和/>具体计算如下:
其中,Ai和Bi为可训练的全连接层中第i个权重参数值,zi为向量z的第i个元素,ai为a的第i个输出概率值,bi为b的第i个输出概率值,ai+bi=1,
为第一个全连接层计算对应a的第i个权重值,/>为第二个全连接层计算对应b的第i个权重值;
最后以b作为基准与a中相对应元素进行比较,若ai>bi,则保留第i个通道的频率信息特征图,反之去除该通道特征图然后经过1×1的卷积压缩冗余特征,将压缩后的特征输入CNN网络进行频率特征提取以及降维。
(5)设定DAT-Transformer网络。
虽然采用频率分支网络能压缩高分辨图像输入到CNN中进行特征提取,一定程度上提高了对农作物病害的识别精度,但是这可能会破坏掉模型对农作物病害识别的全局空间结构信息,降低模型识别农作物病害特征的有效性。因此本文结合具有可变形注意力的Transformer模型,利用该模型来提高对农作物病害特征区域的关注力度,并捕获更多的有用特征信息。如图3下半部分为本文构建的DAT-Transformer模型结构,该模型主要包括三个阶段,第一、二阶段均由两层Local attention和Shift-Window attention组成。第三阶段由两层Local attention和Deformable attention组成。Local attention机制选择性的关注于上下文所在的一个小窗口,局部的聚合农作物病害特征信息,并减少计算代价。Shift-Window attention机制通过移动变化之中的窗口并计算窗口注意力,解决不同窗口之间的信息交流问题,同时提升模型识别农作物病害的感受野。Deformable attention模块用于更加关注于农作物病害特征区域部分,并捕捉到更加有用的特征信息。
DAT-Transformer网络用于提取农作物病害图像的全局空间信息,包括三个阶段,前两个阶段均为两层的局部注意力加上移位窗口注意力构成,局部注意力关注局部病害特征信息,移位窗口注意力关注每一个窗口全局信息并减少模型参数量;
第三个阶段由两层局部注意力加上可变形注意力构成,可变形注意力用于提高网络模型关注农作物病害特征重要区域,提高模型对密集病害区域的表达能力;
具体的,对于输入先经过步长为2的3×3卷积下采样,然后通过patch embedding进行4×4大小分块得到96×H/8×W/8大小的特征图,最后依次通过三个阶段的注意力机制处理得到最后的抽象特征,即空间信息特征,用于MASF模块融合的输入。
(6)如图4所示,设定MSAF模块,
为了更好的融合农作物病害图像频率特征信息和空间特征信息,本发明提出了MASF融合模块,该模块的启发来源于Multi-spectral channel attention。Multi-spectral channel attention从频域角度重新思考全局平均池化(GAP),为了弥补现有通道注意力方法中特征信息不足的缺点,将GAP推广到一种更为一般的2维离散余弦变换(DCT)形式,通过引入更多的图像频率分量来充分的利用信息。而旨在将Multi-spectralchannel attention机制构建成Multi-spectral channel attention融合模块,其目的是通过Multi-spectral channel attention将空间域特征转为频率分量信息,然后与频率分支网络提取的频率分量特征进行融合来提高模型的特征表达能力。
MASF模块用于融合结构差异的频率域信息特征和空间域信息特征,
将空间特征图分为n组,及[X0,X1,...Xn],其中/>对每一个Xi通过多普通道注意力转化为频率权重,计算如下:
其中,[ui,vi]是对应于X的2D频率分量坐标索引值,H和W代表频率特征输入X的高和宽,代表压缩后的C′维向量,/>C表示特征通道数量,i代表n组中的第i组,h是第i组中每一个特征向量的第h行坐标值,w是第i组中每一个特征向量的第w列坐标值;
对n个分组,每一个组具有相同频率权重,n个组表明具有n个不同的频率权重,然后对这n组得到的Freqi值进行concat连接得到整个特征的多频谱值,计算如下:
Freq=cat([Freq0,Freq1,…,Freqn-1]),
其中,cat代表concat连接计算,代表压缩后的C′维向量,/>
然后将得到的Freq值输入两级1×1卷积进行压缩和非线性处理;
对于频率域特征提取网络FCA提取的频率特征同样进行两级1×1卷积和非线性处理,最后将这两个分支的输出进行相加得到权重g,在对X和Y进行融合,计算如下:
Z=X×g+Y×(1-g)
其中代表最终特征融合的输出结果,X和Y分别代表DAT-T提取的空间信息特征和频率域分支提取的频率信息特征。
(7)设定自适应平均池化层和全连接层分类,
自适应平均池化层用于将最后融合和提取的抽象特征转化为特征向量,具体对于大小为1024×7×7的X抽象特征进行计算,计算公式如下:
其中,Vt为的第t个向量值,Xt为输入/>的第t个通道特征图;最后使用权重结构为1024×12的全连接层分类器得到12类农作物病害类别,计算如下:
其中,yt为的第t个输出类别,Vi为V的第i个特征向量值,wi为/>的第i个权重参数值。
第三步,双分支病害图像识别模型的训练:将预处理后的田间农作物病害图像输入双分支病害图像识别模型进行训练。
(1)将预处理后的田间农作物病害图像输入双分支病害图像识别模型,对双分支病害图像识别模型权重进行初始标准化。
(2)农作物训练集图像数据输入到频率域特征提取网络FCA和DAT-Transformer网络,分别提取出频率信息特征和空间信息特征;然后通过MSAF模块融合这两部分特征并输入到卷积层提取抽象特征;最后将抽象特征输入自适应平均局池化层得到向量并输入到全连接层分类器得到类别概率。
(3)利用设计的损失函数cv_bias来优化双分支网络模型训练,提高模型最后一层特征描述符的表达能力,模型训练到损失值不在下降时停止训练。
由于本发明在设计网络模型结构时,对两分支网络模型的每一层通道数量进行了压缩(compact),其目的是减少模型的参数数量。由于参数数量有限,不太可能获得丰富的农作物病害特征,特征多样性成为本质特征。在模型推断期间,从数据点派生的激活映射中呈现的不同农作物病害特征可能表明存在一组惟一描述符,这是区分不同农作物病害类别所必需的。对于具有复杂场景的农作物病害图像,特征多样性较低的数据点可能无法提供足够数量的描述符来进行有效预测病害类别,因此本发明采用了改进的bias loss来优化一个特征更丰富的模型。
对于分类模型的最后一层特征输出(也就是全局平均池化的输入特征)其中B为batchsize,C为输入通道数量,H和W为张量的高度和宽度。
传统的,在分类识别中都是在网络模型的最后输出,然后利用交叉熵损失函数求输出和真实标签的损失,但本发明针对模型最后一层输出特征图(没有经过GAP操作)作为改进的bias损失函数输入,利用扩大每一个特征值的差异性(也就是求整个特征图方差,方差越大差异性越大,反之越小)来促使特征图中每一个特征值尽量最大化的表达农作物病害特征,提高特征多样性。T表示模型最后一层的特征图。
首先,将T转化为二维矩阵其中N=C×H×W。然后对batchsize中的第i个数据点特征图进行方差计算,计算公式如下:
其中vi为第i个数据点计算得到的方差结果,为t的第i个数据,μi为第i个数据点ti所有特征值的平均数,计算公式如下:
考虑到方差值中的异常值会导致损失发生较大的变化,而且会使得训练的模型不稳定,因此,原始bias loss对方差值进行了归一化处理。其处理方法为,对同一批次下得到的方差求解最大值Max和最小值Min,然后将方差缩放到
之间,公式如下:/>
这种处理虽然在同等环境采集数据和足够数据量下达到比较好的识别精度,但对于环境复杂多样的数据集以及数据量有限的情况下,其模型难以训练到最优的状态。因此本文采用标准差和均值的比值称为变异系数来代替这种归一化的处理,公式如下:
其中εi称为第i个数据的变异系数,一般情况εi∈[0,1]之间。变异系数越大,离散程度越大,表示需要获得的独特特征的机会就越高,反之离散程度越小,需要获得的独特特征的机会越低。由于神经网络模型输出层经过softmax处理,为了校准每个数据点对累积损失的贡献,添加一个非线性尺度函数,其目的是在低方差和高方差的数据点之间产生bias。改进后的bias loss公式(11)如下:
式中f(xi;θ)代表神经网络,xi表示输入农作物图像,θ表示模型参数;yi为类别标签;α和β为可调参数,一般针对具体数据具体设置,本方法中α和β都设定为0.3。
第四步,待识别农作物病害图像的获取:获取待识别农作物病害图像并进行预处理。
第五步,农作物病害图像识别结果的获得:将预处理后的待识别农作物病害图像输入双分支病害图像识别模型,得到农作物病害图像的识别结果。
由图5可知,在训练100次后,三种不同的损失函数优化的模型都达到饱和,图5左侧为三种损失函数的损失值随着训练次数的变化,由图可知,改进后的bias函数优化的网络模型的训练损失和测试损失都达到最低。从另一个方面,改进后的bias的训练损失曲线和测试损失曲线最为接近,这表现为对模型的泛化性能最好。图5右侧为三种损失函数优化过程中模型的训练精度曲线和测试精度曲线,由图可知改进后的bias的测试精度最好。
由图6可知,本方法提出的双分支网络(FCA+DAT-Transformer)在精确率、召回率和F1得分上都优于使用单分支的FCA或DAT-Transformer,相比于DAT-Transformer的精确率提高了3%左右。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (4)
1.一种融合频率域和空间域信息的农作物病害图像识别方法,其特征在于,包括以下步骤:
11)农作物病害图像的获取及预处理:获取田间农作物病害图像并进行预处理;
12)双分支病害图像识别模型的构建:基于频率域特征提取网络FCA和具有可变形注意力模块构建的DAT-Transformer网络构建出双分支病害图像识别模型;
所述双分支病害图像识别模型的构建包括以下步骤:
121)设定双分支病害图像识别模型的第一部分为频率域特征提取网络FCA、第二部分为DAT-Transformer网络、第三部分为MSAF模块、第四部分为自适应平均池化层、第五部分为全连接层分类器;
其中,频率域特征提取网络FCA用于将高分辨率农作物病害图像压缩为频率特征信息,生成频率信息特征,DAT-Transformer网络用于全局感知空间域农作物病害图像信息并关注病害区域,捕获有用病害特征信息,生成空间信息特征,MSAF模块用于融合频率信息特征和空间信息特征,然后依次输入步长分别为1和2的两个Ghost bottleneck模块进行抽象特征提取和空间尺寸减半,最后输入到自适应平均池化层得到特征向量并输入到全连接层分类器进行分类和识别;
122)设定频率域特征提取网络FCA,
频率域特征提取网络FCA包括三个部分:Ycbcr颜色变换、离散余弦变换DCT和CNN网络;
Ycbcr颜色变换将RGB图像转化为Y、cb和cr三个颜色分量公式如下:
Y=0.299R+0.587G+0.114B
Cb=-0.1687R-0.3313G+0.5B
Cr=0.5R-0.4187G-0.0813B;
离散余弦变换DCT分别对Y、cb、cr三个颜色分量转化为频率信息,具体的,对于通道按照8×8分块,在每一个块中进行离散余弦变换得到64个频率分量,这样一张Y图像得到H/8×W/8个64频率分量,相当于64个通道,每一个通道大小H/8×W/8,每一个通道代表一类频率的信息,64个通道代表64个频率类别信息;
将三个颜色分量得到的频率信息特征图进行concat得到192×H/8×W/8大小的频率信息特征图作为第三部分CNN的输入;
123)设定Ghost bottleneck模块;
124)设定CNN包括gate模块和Ghost bottleneck模块,gate模块用于有选择地过滤掉冗余频率信息特征,Ghost bottleneck用于学习频率信息特征;
设定CNN包括gate模块和Ghost bottleneck构成的频率特征提取模块,对于以上三个颜色分量concat得到的频率信息特征图,首先通过gate模块过滤掉冗余频率信息特征,具体操作为对输入进行全局平均池化:
其中,Xt代表输入X的第t个通道特征图,H和W分别代表输入特征图X的高和宽,输出Zt为的第t个特征向量值,i是特征向量中第i行坐标值,j特征向量中第j列坐标值;
最后经过并联的两个全连接层处理得到两组特征向量,在经过softmax处理后得到两组概率值和/>具体计算如下:
其中,Ai和Bi为可训练的全连接层中第i个权重参数值,zi为向量z的第i个元素,ai为a的第i个输出概率值,bi为b的第i个输出概率值,ai+bi=1,
为第一个全连接层计算对应a的第i个权重值,/>为第二个全连接层计算对应b的第i个权重值;
最后以b作为基准与a中相对应元素进行比较,若ai>bi,则保留第i个通道的频率信息特征图,反之去除该通道特征图然后经过1×1的卷积压缩冗余特征,将压缩后的特征输入CNN网络进行频率特征提取以及降维;
125)设定DAT-Transformer网络
DAT-Transformer网络用于提取农作物病害图像的全局空间信息,包括三个阶段,前两个阶段均为两层的局部注意力加上移位窗口注意力构成,局部注意力关注局部病害特征信息,移位窗口注意力关注每一个窗口全局信息并减少模型参数量;
第三个阶段由两层局部注意力加上可变形注意力构成,可变形注意力用于提高网络模型关注农作物病害特征重要区域,提高模型对密集病害区域的表达能力;
具体的,对于输入先经过步长为2的3×3卷积下采样,然后通过patchembedding进行4×4大小分块得到96×H/8×W/8大小的特征图,最后依次通过三个阶段的注意力机制处理得到最后的抽象特征,即空间信息特征,用于MASF模块融合的输入;
126)设定MSAF模块,
MASF模块用于融合结构差异的频率域信息特征和空间域信息特征,
将空间特征图分为n组,即[X0,X1,…Xn],其中/>对每一个Xi通过多普通道注意力转化为频率权重,计算如下:
其中,[ui,vi]是对应于X的2D频率分量坐标索引值,H和W代表频率特征输入X的高和宽,代表压缩后的C′维向量,/>C表示特征通道数量,i代表n组中的第i组,h是第i组中每一个特征向量的第h行坐标值,w是第i组中每一个特征向量的第w列坐标值;
对n个分组,每一个组具有相同频率权重,n个组表明具有n个不同的频率权重,然后对这n组得到的Freqi值进行concat连接得到整个特征的多频谱值,计算如下:
Freq=cat([Freq0,Freq1,…,Freqn-1]),
其中,cat代表concat连接计算,代表压缩后的C′维向量,/>
然后将得到的Freq值输入两级1×1卷积进行压缩和非线性处理;
对于频率域特征提取网络FCA提取的频率特征同样进行两级1×1卷积和非线性处理,最后将这两个分支的输出进行相加得到权重g,在对X和Y进行融合,计算如下:
Z=X×g+Y×(1-g)
其中代表最终特征融合的输出结果,X和Y分别代表DAT-T提取的空间信息特征和频率域分支提取的频率信息特征;
127)设定自适应平均池化层和全连接层分类,
自适应平均池化层用于将最后融合和提取的抽象特征转化为特征向量,具体对于大小为1024×7×7的X抽象特征进行计算,计算公式如下:
其中,Vt为的第t个向量值,Xt为输入/> 的第t个通道特征图;最后使用权重结构为1024×12的全连接层分类器得到12类农作物病害类别,计算如下:
其中,yt为的第t个输出类别,Vi为V的第i个特征向量值,wi为/>的第i个权重参数值;
13)双分支病害图像识别模型的训练:将预处理后的田间农作物病害图像输入双分支病害图像识别模型进行训练;
14)待识别农作物病害图像的获取:获取待识别农作物病害图像并进行预处理;
15)农作物病害图像识别结果的获得:将预处理后的待识别农作物病害图像输入双分支病害图像识别模型,得到农作物病害图像的识别结果。
2.根据权利要求1所述的一种融合频率域和空间域信息的农作物病害图像识别方法,其特征在于,所述双分支病害图像识别模型的训练包括以下步骤:
21)将预处理后的田间农作物病害图像输入双分支病害图像识别模型,对双分支病害图像识别模型权重进行初始标准化;
22)农作物训练集图像数据输入到频率域特征提取网络FCA和DAT-Transformer网络,分别提取出频率信息特征和空间信息特征;然后通过MSAF模块融合这两部分特征并输入到卷积层提取抽象特征;最后将抽象特征输入自适应平均局池化层得到向量并输入到全连接层分类器得到类别概率;
23)利用设计的损失函数cv_bias来优化双分支网络模型训练,提高模型最后一层特征描述符的表达能力,模型训练到损失值不下降时停止训练。
3.根据权利要求1所述的一种融合频率域和空间域信息的农作物病害图像识别方法,其特征在于,所述设定Ghost bottleneck模块包括以下步骤:
31)Ghost bottleneck由两层Ghost module块构成,
具体的Ghost module操作为,对于输入特征取X的一半数量的通道C/2进行3×3深度可分离卷积得到一半的特征记为T1,然后对T1进行1×1的点卷积得到和T1相同维度特征T2,将T1和T2进行concat后得到最终提取的特征;
32)Ghost bottleneck有两种形式,一种采用步长为1用于学习频率信息特征;另一种步长为2用于降维频率信息特征图大小。
4.根据权利要求2所述的一种融合频率域和空间域信息的农作物病害图像识别方法,其特征在于,所述利用设计的损失函数cv_bias来优化双分支网络模型训练包括以下步骤:
41)对于分类模型的最后一层特征输出,即全局平均池化的输入特征,其中B为batchsize,C为输入通道数量,H和W为张量的高度和宽度;
首先,将T转化为二维矩阵其中N=C×H×W,N表示每个数据点中所有特征值的数量;
然后对batchsize中的第i个数据点特征图进行方差计算,计算公式如下:
其中,vi为第i个数据点计算得到的方差结果,为t的第i个数据,μi为第i个数据点ti所有特征值的平均数,计算公式如下:
42)对原始bias损失对方差值进行了归一化处理,其处理方法为,对同一批次下得到的方差求解最大值Max和最小值Min,然后将方差缩放到vi∈[0,1]之间,公式如下:
43)采用标准差和均值的比值称为变异系数来代替这种归一化的处理,公式如下:
其中,εi称为第i个数据的变异系数,εi∈[0,1]之间;
变异系数越大,离散程度越大,表示获得的独特特征的机会就越高,反之离散程度越小,获得的独特特征的机会越低;
44)由于神经网络模型输出层经过softmax处理,为了校准每个数据点对累积损失的贡献,添加一个非线性尺度函数,其目的是在低方差和高方差的数据点之间产生bias,改进后的biasloss公式如下:
式中,f(xi;θ)代表神经网络,xi表示输入农作物图像,θ表示模型权重参数;yi为类别标签,B为batchsize值,z为指数映射函数,其目的是校准每个数据点对累积损失的贡献,vi为第i个数据的变异系数值;α和β为可调参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311560242.1A CN117576467B (zh) | 2023-11-22 | 2023-11-22 | 一种融合频率域和空间域信息的农作物病害图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311560242.1A CN117576467B (zh) | 2023-11-22 | 2023-11-22 | 一种融合频率域和空间域信息的农作物病害图像识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576467A CN117576467A (zh) | 2024-02-20 |
CN117576467B true CN117576467B (zh) | 2024-04-26 |
Family
ID=89885767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311560242.1A Active CN117576467B (zh) | 2023-11-22 | 2023-11-22 | 一种融合频率域和空间域信息的农作物病害图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576467B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893871A (zh) * | 2024-03-14 | 2024-04-16 | 深圳市日多实业发展有限公司 | 频谱段融合方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6125194A (en) * | 1996-02-06 | 2000-09-26 | Caelum Research Corporation | Method and system for re-screening nodules in radiological images using multi-resolution processing, neural network, and image processing |
CN108960310A (zh) * | 2018-06-25 | 2018-12-07 | 北京普惠三农科技有限公司 | 一种基于人工智能的农业病虫害识别方法 |
CN109711277A (zh) * | 2018-12-07 | 2019-05-03 | 中国科学院自动化研究所 | 基于时空频域混合学习的行为特征提取方法、系统、装置 |
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
CN116563101A (zh) * | 2023-04-04 | 2023-08-08 | 武汉大学 | 一种基于频域残差的无人机图像盲超分辨率重建方法 |
CN116883364A (zh) * | 2023-07-17 | 2023-10-13 | 安徽大学 | 一种基于CNN和Transformer的苹果叶片病害识别方法 |
CN116977876A (zh) * | 2023-07-07 | 2023-10-31 | 广东长实通信科技有限公司 | 一种无人机图像处理方法、系统及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106887225B (zh) * | 2017-03-21 | 2020-04-07 | 百度在线网络技术(北京)有限公司 | 基于卷积神经网络的声学特征提取方法、装置和终端设备 |
-
2023
- 2023-11-22 CN CN202311560242.1A patent/CN117576467B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6125194A (en) * | 1996-02-06 | 2000-09-26 | Caelum Research Corporation | Method and system for re-screening nodules in radiological images using multi-resolution processing, neural network, and image processing |
CN108960310A (zh) * | 2018-06-25 | 2018-12-07 | 北京普惠三农科技有限公司 | 一种基于人工智能的农业病虫害识别方法 |
CN109711277A (zh) * | 2018-12-07 | 2019-05-03 | 中国科学院自动化研究所 | 基于时空频域混合学习的行为特征提取方法、系统、装置 |
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
CN116563101A (zh) * | 2023-04-04 | 2023-08-08 | 武汉大学 | 一种基于频域残差的无人机图像盲超分辨率重建方法 |
CN116977876A (zh) * | 2023-07-07 | 2023-10-31 | 广东长实通信科技有限公司 | 一种无人机图像处理方法、系统及介质 |
CN116883364A (zh) * | 2023-07-17 | 2023-10-13 | 安徽大学 | 一种基于CNN和Transformer的苹果叶片病害识别方法 |
Non-Patent Citations (1)
Title |
---|
融合空域和频域网络模型的SAR图像识别;李雪松 等;《现代雷达》;20230228;第45卷(第2期);60-66 * |
Also Published As
Publication number | Publication date |
---|---|
CN117576467A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898736B (zh) | 基于属性感知的高效行人重识别方法 | |
CN107451565B (zh) | 一种半监督小样本深度学习图像模式分类识别方法 | |
CN117576467B (zh) | 一种融合频率域和空间域信息的农作物病害图像识别方法 | |
CN113421269A (zh) | 一种基于双分支深度卷积神经网络的实时语义分割方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN110929685A (zh) | 基于混合特征金字塔和混合膨胀卷积的行人检测网络结构 | |
CN112101467A (zh) | 一种基于深度学习的高光谱图像分类方法 | |
CN115222994A (zh) | 一种基于混合光谱网络和多头自注意力机制的高光谱图像分类方法 | |
CN116310459B (zh) | 基于多视图空谱联合的高光谱图像子空间聚类方法 | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
CN111967326B (zh) | 一种基于轻量化多尺度特征提取的步态识别方法 | |
Song et al. | Using dual-channel CNN to classify hyperspectral image based on spatial-spectral information | |
CN116258914B (zh) | 基于机器学习及局部和全局特征融合的遥感图像分类方法 | |
CN111259913A (zh) | 一种基于词袋模型和纹理特征的细胞光谱图像分类方法 | |
CN116630700A (zh) | 基于引入通道-空间注意力机制的遥感图像分类方法 | |
CN115984578A (zh) | 一种串联融合DenseNet和Transformer的皮肤图像特征提取方法 | |
CN114913610A (zh) | 一种基于指纹和指静脉的多模态识别方法 | |
Xie et al. | Improved locally linear embedding and its application on multi-pose ear recognition | |
CN115908907A (zh) | 一种高光谱遥感图像分类方法及系统 | |
Tamrakar et al. | Low resolution fingerprint image verification using CNN filter and LSTM classifier | |
CN117011719B (zh) | 一种基于卫星图像的水资源信息采集方法 | |
CN117612024B (zh) | 一种基于多尺度注意力的遥感图像屋顶识别方法 | |
CN109002832B (zh) | 一种基于分层特征提取的图像识别方法 | |
CN117746079B (zh) | 一种高光谱图像的聚类预测方法、系统、存储介质及设备 | |
CN116665019B (zh) | 一种用于车辆重识别的多轴交互多维度注意力网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |