CN113920378B - 基于注意力机制的柴胡种子识别方法 - Google Patents
基于注意力机制的柴胡种子识别方法 Download PDFInfo
- Publication number
- CN113920378B CN113920378B CN202111321547.8A CN202111321547A CN113920378B CN 113920378 B CN113920378 B CN 113920378B CN 202111321547 A CN202111321547 A CN 202111321547A CN 113920378 B CN113920378 B CN 113920378B
- Authority
- CN
- China
- Prior art keywords
- layer
- attention
- feature map
- bupleurum
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000007246 mechanism Effects 0.000 title claims abstract description 36
- 241000202726 Bupleurum Species 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 238000007499 fusion processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 239000002131 composite material Substances 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000005284 excitation Effects 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002860 competitive effect Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 5
- 230000004927 fusion Effects 0.000 abstract description 3
- 230000015556 catabolic process Effects 0.000 abstract description 2
- 238000006731 degradation reaction Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 239000003814 drug Substances 0.000 description 15
- 238000005260 corrosion Methods 0.000 description 6
- 230000007797 corrosion Effects 0.000 description 6
- 238000012216 screening Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 229940126680 traditional chinese medicines Drugs 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于注意力机制的柴胡种子识别方法,本发明结合注意力机制,将四层特征图通过上采样进行融合,融合过程的到语义流输出,首次应用了带有多个注意力机制的深度学习框架应用于不同种类的柴胡种子分类任务,实现了良好的准确率,并且基于注意力机制的深度神经网络保证了训练时不产生退化现象,注意力机制的引入使得神经网络可以自适应的进行调整语义流与空间流的权重,保证了检测时的全局特征和局部细节纹理信息的互相融合从而使得神经网络产生良好的分类效果。
Description
技术领域
本发明属于医学图像处理领域,涉及一种基于注意力机制的柴胡种子识别方法。
背景技术
中药是中医特有的药物,其质量对中医处方的疗效至关重要。而要种植出质量上乘的中药,对中药种子的高质量要求是必不可少的。目前,我国的中药种植基地普遍没有形成规范化的管理,选种、育苗没有统一的行业标准。人工筛选优质的种子种苗需要耗费大量的人力成本,筛选主观性强,难以解决中药质量参差不齐的问题。为此使用现代信息化技术推动中药种植业的规范化成为中医药发展的必然趋势。而对于柴胡来说,其不同种类的种子非常相似,而且尺寸较小。人工的筛选方法势必要耗费大量的人力物力,而且判断的效率很低,因此在大规模选种的情况下,采用深度学习辅助分类,成为亟待解决的需求。
现有方法大多使用了一些传统的机器学习算法进行中药的分类,由于部分中药是用种子入药,因此中药分类和中药种子分类实际上是有共同点的。另外也存在专门针对种子分类的方法,往往选用的是常见的玉米、水稻种子,少见对于中药种子分类的研究。另外,基于深度学习的中药分类方式多集中在各中药大类之间,不能综合特征表现出来的全局信息,而柴胡种子尺寸很小并且不同种类的柴胡种子非常相似,需要神经网络提取细微的特征,这使得传统分类方式效果不佳。
综上,现有的柴胡种子分类方法过于不能提取细微的特征信息,导致筛选的准确性不高。
发明内容
本发明的目的在于克服现有技术中柴胡种子分类方法过于不能提取细微的特征信息的缺点,提供一种基于注意力机制的柴胡种子识别方法。
为了达到上述目的,本发明采用的技术方案如下:
本发明包括以下步骤:
S1,获取不同种类的柴胡种子图像数据,通过预处理后,使图像仅保留柴胡种子的部分,其余像素的颜色呈黑色,图片输入到一个具有多个注意力机制的深度神经网络中;
S2,通过具有多个注意力机制的深度神经网络对预处理后的图像进行下采样,得到四层特征图作为输出;
S3,结合注意力机制,将四层特征图通过上采样进行融合,融合过程的到语义流输出,语义流具有四层结果;
S4,将四层结果通过全局平均池化,再将他们输入到分类层中,计算得到最后的分类结果。
S1中,预处理的具体方法如下:
S11,对每一种类的柴胡种子图像进行分析,将图像从RGB空间转化到 HSV空间;
S12,在HSV空间下,通过柴胡种子与周围背景颜色的色调、饱和度和明度差异分别设置色调阈值、饱和度阈值和明度阈值;
S13,通过预设的阈值,生成一个尺寸与原图像相同的掩膜,并将图像对应像素值处于阈值范围之外的部分的像素化为0,对生成的掩膜进行形态学滤波,叠加到原图上,去除分割效果不合要求的图片,完成预处理。
S2中,对预处理后的图像进行下采样的具体方法如下:
S21,对预处理后的图像进行若干次卷积池化复合操作,得到下一层特征图;
S22,对下一层特征图进行若干次卷积池化复合操作,得到再下一层特征图;
S23,重复S23三次,得到具有四层特征图的金字塔结构。
卷积池化复合操作的具体方法如下:
使预处理后的图像分别通过两个操作;
操作一,使预处理后的图像通过一个3x3的卷积层,再通过一个BN层,然后通过激活函数relu,再通过一个3x3的卷积层,再通过一个BN层,再通过激活函数relu,得到的结果和操作一的输入相加,得到操作一的输出;
操作二,使预处理后的图像通过一个3x3的卷积层,再通过一个BN层,然后通过激活函数relu,再通过一个3x3的卷积层,再通过一个BN层,再通过激活函数relu,通过一个stride为2的1x1的卷积层,得到的结果和激活函数relu相加,再使用relu函数激活,得到操作二的输出。
S3中,将四层特征图通过上采样进行融合的具体方法如下:
S31,将下采样过程得到的四层特征图进行融合,得到的尺寸最小的特征图;
S32,将特征图的尺寸放大一倍再输入至注意力模块;把下采样过程中和它尺寸相同的特征图通过一个1x1的卷积层进行通道数整合后并通过横向连接也输入到注意力模块中;
S33,注意力模块自动均衡两个输入的信息权重,得出这一层的输出结果;
S34,若输出结果的尺寸小于原始图像尺寸,则将输出结构送入S32中,直到得到和原始图像尺寸相同的结果,得到四层结果。
S33中,注意力模块自动均衡两个输入的信息权重的具体方法如下:
将第l层特征图记为Xl通过一个1×1的卷积层转化为右边自下而上的路径称为语义流,其第l层的特征图记为/>第l层的输出均为
其中,fk×k表示k×k的卷积层,Fup表示上采样运算,attention表示注意力模块,对P′l进行3×3的卷积运算平滑后以减小了上采样的混叠效应,得到为l级的输出,R表示向量空间,H为特征图高度,W为特征图宽度,C为通道数;
注意力模块分两个模块空间协同注意力机制,通道竞争注意力机制,对于空间协同注意机制,将横向连接输入来得特征图Xl通过一个1×1的卷积层转化的结果称为经过上采样运算特征图的Pl称为Ul,/>X′l和 Ul经过信道纬度的全局平均池化得到/>
将上式连接形成再输入一个3×3,步长为2的卷积层,采用relu激励函数,经过resize层,在通过一个激励卷积层采用sigmoid卷积层得到空间协同注意的结果,即
如此便得到了每个空间位置的注意力掩码
对于信道方面的竞争注意,进行空间纬度上的聚合,将特征图压缩到信道纬度上,得到
将上式连接得到其中[·]表示信道纬度上的连接,再经两个全连接层得到信道方向的权重Sl∈R1×1×2C,第一个全连接层使用relu激活函数,第二个全连接层使用的Sigmoid激活函数,其中参数/>
分成 之后用来结合空间协同注意;在CA和SCA结合的时候,采用张量乘法/>
此处,就是对语义流和空间流的重新分配的权重;
其中在这里是按元素相乘,如此第l层的输出为:
Pl=f3×3(P′l)。
与现有技术相比,本发明所具有的有益效果如下:
本发明结合注意力机制,将四层特征图通过上采样进行融合,融合过程的到语义流输出,首次应用了带有多个注意力机制的深度学习框架应用于不同种类的柴胡种子分类任务,实现了良好的准确率,并且基于注意力机制的深度神经网络保证了训练时不产生退化现象,注意力机制的引入使得神经网络可以自适应的进行调整语义流与空间流的权重,保证了检测时的全局特征和局部细节纹理信息的互相融合从而使得神经网络产生良好的分类效果。
附图说明
图1为本发明的神经网络和诊断神经网络总图;
图2为本发明的注意力机制结构示意图;
图3为本发明的柴胡种子数据及预处理效果图;
图4为本发明的对柴胡种子分类完成后绘制的热力图;
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步说明。
参见图1,本发明基于金字塔结构的深度神经网络并基于注意力机制,用于不同种类柴胡种子之间的分类目的,是首个使用注意力机制的深度神经网络完成柴胡种子分类问题的研究,主要用于建模、教学或人工智能研究等,具体地说,主要用于探究深度学习方法在中药种子分类任务的普适性,推动人工智能在中药种子筛选中的应用,包括以下步骤:
S1:通过摄像等方式获得不同种类的柴胡种子图像,通过颜色分割等技术对图像进行预处理,仅保留柴胡种子的部分,使得其余像素的颜色呈黑色。然后将进行过预处理的图片输入到一个带有多个注意力机制的深度神经网络中;
S2:通过这个带有多个注意力机制的深度神经网络将我们预处理得到的图进行若干次卷积池化复合操作,得到下一层特征图;下一层特征图也再进行若干次卷积池化复合操作,又可以得到下一层特征图,如此过程,最终可以得到四层特征图的金字塔结构,这是下采样过程。通过此过程,我们得到图像的是所提取图像的特征,共有四层特征图输出;
S3:将下采样过程得到的四层特征图进行融合,这称作是上采样过程,这其中用到了注意力机制,具体过程如下,将最后得到的尺寸最小的上层特征图做上采样操作,使它尺寸放大一倍再输入至注意力模块,然后把下采样过程中和它尺寸相同的特征图通过一个1x1的卷积层进行通道数整合后并通过横向连接也输入到注意力模块中,之后注意力模块自动的均衡这两个输入的信息权重,计算给出这一层的输出结果,这个结果将继续上采样将它尺寸放大一倍,并重复上述过程,直到得到和原始图像尺寸相同的结果,这样我们的上采样过程得到四层结果;
S4:四层结果通过全局平均池化,再将他们输入到分类层中,计算得到最后的分类结果。
所述S1中颜色分割等技术对图像进行预处理的具体方法为:
R1:对每一种类的柴胡种子图像进行分析,将图像从RGB空间转化到HSV 空间;
R2:在HSV空间下,通过种子与周围背景颜色的色调,饱和度,明度差异分别设置色调阈值,饱和度阈值,明度阈值;
R3:通过划定阈值,将处于阈值范围之外的像素化为0,再对处理完成的图片进行人工审查,去除分割效果差且不合要求的图片;
所述S2中卷积池化复合操作的具体方法为:
将图像分别通过两个操作。
操作一,先通过一个3x3的卷积层,再通过一个BN层,然后通过激活函数 relu,再通过一个3x3的卷积层,再通过一个BN层,再通过激活函数relu,得到的结果和操作一的输入相加,得到操作一的输出。
操作二,先通过一个3x3的卷积层,再通过一个BN层,然后通过激活函数 relu,再通过一个3x3的卷积层,再通过一个BN层,再通过激活函数relu,通过一个stride为2的1x1的卷积层,得到的结果和激活函数relu相加,再使用relu函数激活,得到操作二的输出。
本发明将有多重注意金字塔网络的多尺度建模的思想,应用于柴胡种子的分类任务与其他现有的方法相比,可以良好的分类性能,我们采用针对多分类任务的多个评价指标进行评价,分别为精度(ACC)宏准确率(Macro-P)宏召回率(Macro-R)和宏F1分数(Macro-F1),并且我们在处理好的测试集上进行验证,并且和主流的其他用于分类的神经网络进行了对比。具体性能参数请参见表1表1不同方法的分类效果比较表
参见图2,所述S3中注意力模块自动的均衡这两个输入的信息权重具体方法为:
第l层特征图记为Xl通过一个1×1的卷积层转化为右边自下而上的路径称为语义流,其第l层的特征图记为/>第l层的输出均为
其中,fk×k表示k×k的卷积层,Fup表示上采样运算,attention表示注意力模块。对P′l进行3×3的卷积运算平滑后以减小了上采样的混叠效应,得到为l级的输出。
注意力模块分两个模块空间协同注意力机制,通道竞争注意力机制。对于空间协同注意机制,我们把横向连接输入来得特征图Xl通过一个1×1的卷积层转化的结果称为同时我们称经过上采样运算特征图的Pl称为Ul,/>首先X′l,Ul经过信道纬度的全局平均池化得到/>
将它们连接起来形成再输入一个3×3,步长为2的卷积层,采用relu激励函数,经过resize层,在通过一个激励卷积层采用sigmoid 卷积层得到空间协同注意的结果。即
如此便得到了每个空间位置的注意力掩码
对于信道方面的竞争注意,首先进行一个空间纬度上的聚合,将特征图压缩到信道纬度上,得到
而后将他们连接起来得到其中[·]表示信道纬度上的连接,再经两个全连接层得到信道方向的权重Sl∈R1×1×2C,第一个全连接层使用relu激活函数,第二个全连接层使用的sigmoid激活函数,其中参数/>
分成 之后用来结合空间协同注意。在CA和SCA结合的时候,采用张量乘法/>
此处,就是对语义流和空间流的重新分配的权重。
其中在这里是按元素相乘,如此第l层的输出为:
Pl=f3×3(P′l)
参见图3,本发明在柴胡种子处理图像时使用了基于形态学滤波的图像分割。
集合B表示描述图像的像素点的集合,对集合B按照点z=(z1,z2)平移,我们称之为(B)z其定义如下
(B)z={c|c=b+z,b∈B}
(B)z其表达的意义是B中坐标(x,y)被(x+z1,y+z2)代替的点的集合。有了平移的符号描述下面介绍腐蚀和膨胀。设图面中两集合A和B,我们将B对A的腐蚀定义为
实际应用中B是较小的结构元,A为图像的掩膜。本文中选择的B为3×3的小正方形作为结构元B。腐蚀的作用,腐蚀实际上起到了使图像按照一定规律变小的作用,在这个过程中,腐蚀客观上起到了去掉毛刺、细线的作用。
A和B是两个集合,定义B对A的膨胀操作为
其中A,B的与腐蚀操作指的是一样的。膨胀是按照一定的规律使得物体变大的操作,最简单的膨胀操作的应用场景就是填充细小沟壑,或者是填充比结构元B小的空洞。
本文中使用数据处理使用形态学方法进行孔洞填充,取反的图像进行空洞填充可以使去掉小毛刺。涉及到主要的算法是计算连通分量,提取连通分量之后,再使用连通分量的面积来判断哪些是空洞,哪些是种子图像。令A为包含多个连通分量的集合,并形成一个大小与包含A的阵列的大小相同的阵列X0,X0上某些点被置为1,这些点是对应于A中某个连通分量的已知的位置,除了这些点,其他的点值均被置为1。完成这些操作后,我们按照以下公式进行计算,就可以得到我们的连通分量,并且可以计算每个连通分量的面积。
当Xk=Xk-1时,则说明我们已经得到图中所有的联通分量。获得连通分量之后,设置面积阈值,则可以去掉图中的小的干扰和种子上的空洞。
通过形态学滤波,主要是对颜色分割后的二值图像进行了修饰,该二值图像的生成规则如下,对其中每一个像素点如果原图对应位置如果其HSV空间的值在我们设置的阈值范围内则其值为1,否则设置为0,如此我们得到了一个带有毛刺和空洞的二值图像,接下来进行膨胀操作,切断种子内部的黑色和外面大面积黑色的联系,使它们成为孔洞,再利用上面介绍的形态学空洞填充算法,对其进行填充。
经过以上的操作,我们得到了一个二值图像作为图像掩膜,然后在原图上,如果掩膜上某个像素点的值为1,那么我们保留原图上像素点RGB的值,反之如果掩膜上某个像素点的值为0,那么我们将原图上对应位置的点的RGB值置为0。
最后有一些小的杂质点,通过编写脚本,通过人工去除。最后的得到了图像处理后的分割后的图像。
参见图4,本发明的对柴胡种子分类完成后绘制的热力图;绘制的具体原理如下:
为了明确网络学习柴胡种子的图片的关注点,我们选用了Grad-Cam方法画出热力图,将训练的结果可视化,在测试集上测试时,验证每个测试图片是否聚焦在种子上。
CAM指的是class activation mapping,其可以将卷积神经网络如何完成分类任务可视化的展现在我们面前,其过程如下,我们把分类器去掉,转而在特征提取器后面添加一个全局平均池化层(Global Average Pooling,GAP)紧接着输入一个具有分类类别数n的全连接层,后面再接分类层假设共有C个类, CNN的最后一层的卷积层往往富含高层次语义信息,因此对其进行可视化。
接下来需要对修改后的卷积神经网络进行训练,训练完成后,对于每一类(比如第c类)的在分类层的神经元,上一层的全连接层对其提供了n个权重,另外我们假设最后一层卷积层得到的n个特征图为A1,A2,…,An, 于是热力图(class activationmapping)L可以通过加权计算的到。
此方法简单但是有个巨大的缺陷,每次进行画热力图的时候都要重新对卷积神经网络进行训练,往往费时费力,消耗大量的计算资源。
为此,我们选用Grad-cam可视化对我们的训练结果进行可视化分析。可以克服重新训练的问题。我们假设第c类的的分类的概率为Sc,GAP的权重为特征图大小为c1×c2,Z=c1×c2,第i个特征图第k行第j列的像素值为/>这样权重/>用以下公式即可计算得到:
然后我们可以计算出grad-cam的热力图(class activation mapping)可以按照如下公式计算:
使用relu激活函数的原因是我们只关注大于零的部分而不关注小于零的部分。下面我们进行grad-cam部分的公式推导。我们称全局平均池化的输出为
CAM计算最后的分类得分按照
因此
又因为
从上面的Sc定义上,我们知道
代入上面的式子
所以有
得到
如此,可以得知,在特征图归一化的情况下,
利用上式,我们可以避免对网络的重新训练,快速的计算出每张图片的热力图,由于我们的APN,在最后有四个并列的卷积层,四个卷积层代表的是不同尺度的信息,最终决策是将它们之间的信息融合得到的。画热力图采取的方式是,将每个卷积层都作为最后的卷积层分别计算出梯度,进而计算出最后取它们的均值,乘一比例因子,附加于原图上。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (4)
1.基于注意力机制的柴胡种子识别方法,其特征在于,包括以下步骤:
S1,获取不同种类的柴胡种子图像数据,通过预处理后,使图像仅保留柴胡种子的部分,其余像素的颜色呈黑色,图片输入到一个具有多个注意力机制的深度神经网络中;
S2,通过具有多个注意力机制的深度神经网络对预处理后的图像进行下采样,得到四层特征图作为输出;
S3,结合注意力机制,将四层特征图通过上采样进行融合,融合过程的到语义流输出,语义流具有四层结果;
其中,将四层特征图通过上采样进行融合的具体方法如下:
S31,将下采样过程得到的四层特征图进行融合,得到的尺寸最小的特征图;
S32,将特征图的尺寸放大一倍再输入至注意力模块;把下采样过程中和它尺寸相同的特征图通过一个1x1的卷积层进行通道数整合后并通过横向连接也输入到注意力模块中;
S33,注意力模块自动均衡两个输入的信息权重,得出这一层的输出结果;具体方法如下:
将第l层特征图记为Xl通过一个1×1的卷积层转化为/>右边自下而上的路径称为语义流,其第l层的特征图记为/>第l层的输出均为
其中,fk×k表示k×k的卷积层,Fup表示上采样运算,attention表示注意力模块,对P′l进行3×3的卷积运算平滑后以减小了上采样的混叠效应,得到为l级的输出,R表示向量空间,H为特征图高度,W为特征图宽度,C为通道数;
注意力模块分两个模块空间协同注意力机制,通道竞争注意力机制,对于空间协同注意机制,将横向连接输入来得特征图Xl通过一个1×1的卷积层转化的结果称为经过上采样运算特征图的Pl称为Ul,/>X′l和Ul经过信道纬度的全局平均池化得到/>
将上式连接形成再输入一个3×3,步长为2的卷积层,采用relu激励函数,经过resize层,在通过一个激励卷积层采用sigmoid卷积层得到空间协同注意的结果,即
如此便得到了每个空间位置的注意力掩码
对于信道方面的竞争注意,进行空间纬度上的聚合,将特征图压缩到信道纬度上,得到
将上式连接得到其中[·]表示信道纬度上的连接,再经两个全连接层得到信道方向的权重Sl∈R1×1×2C,第一个全连接层使用relu激活函数,第二个全连接层使用的Sigmoid激活函数,其中参数/>
分成 之后用来结合空间协同注意;在CA和SCA结合的时候,采用张量乘法/>
此处,就是对语义流和空间流的重新分配的权重;
其中在这里是按元素相乘,如此第l层的输出为:
Pl=f3×3(Pl ′0
S34,若输出结果的尺寸小于原始图像尺寸,则将输出结构送入S32中,直到得到和原始图像尺寸相同的结果,得到四层结果;
S4,将四层结果通过全局平均池化,再将他们输入到分类层中,计算得到最后的分类结果。
2.根据权利要求1所述的一种基于注意力机制的柴胡种子识别方法,其特征在于,S1中,预处理的具体方法如下:
S11,对每一种类的柴胡种子图像进行分析,将图像从RGB空间转化到HSV空间;
S12,在HSV空间下,通过柴胡种子与周围背景颜色的色调、饱和度和明度差异分别设置色调阈值、饱和度阈值和明度阈值;
S13,通过预设的阈值,生成一个尺寸与原图像相同的掩膜,并将图像对应像素值处于阈值范围之外的部分的像素化为0,对生成的掩膜进行形态学滤波,叠加到原图上,去除分割效果不合要求的图片,完成预处理。
3.根据权利要求1所述的一种基于注意力机制的柴胡种子识别方法,其特征在于,S2中,对预处理后的图像进行下采样的具体方法如下:
S21,对预处理后的图像进行若干次卷积池化复合操作,得到下一层特征图;
S22,对下一层特征图进行若干次卷积池化复合操作,得到再下一层特征图;
S23,重复S23三次,得到具有四层特征图的金字塔结构。
4.根据权利要求3所述的一种基于注意力机制的柴胡种子识别方法,其特征在于,卷积池化复合操作的具体方法如下:
使预处理后的图像分别通过两个操作;
操作一,使预处理后的图像通过一个3x3的卷积层,再通过一个BN层,然后通过激活函数relu,再通过一个3x3的卷积层,再通过一个BN层,再通过激活函数relu,得到的结果和操作一的输入相加,得到操作一的输出;
操作二,使预处理后的图像通过一个3x3的卷积层,再通过一个BN层,然后通过激活函数relu,再通过一个3x3的卷积层,再通过一个BN层,再通过激活函数relu,通过一个stride为2的1x1的卷积层,得到的结果和激活函数relu相加,再使用relu函数激活,得到操作二的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111321547.8A CN113920378B (zh) | 2021-11-09 | 2021-11-09 | 基于注意力机制的柴胡种子识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111321547.8A CN113920378B (zh) | 2021-11-09 | 2021-11-09 | 基于注意力机制的柴胡种子识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113920378A CN113920378A (zh) | 2022-01-11 |
CN113920378B true CN113920378B (zh) | 2023-10-20 |
Family
ID=79245686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111321547.8A Active CN113920378B (zh) | 2021-11-09 | 2021-11-09 | 基于注意力机制的柴胡种子识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113920378B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113052858B (zh) * | 2021-03-23 | 2023-02-14 | 电子科技大学 | 一种基于语义流的全景分割方法 |
CN116824333B (zh) * | 2023-06-21 | 2024-08-16 | 中山大学附属第一医院 | 一种基于深度学习模型的鼻咽癌检测系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110751A (zh) * | 2019-03-31 | 2019-08-09 | 华南理工大学 | 一种基于注意力机制的金字塔网络的中草药识别方法 |
CN110728224A (zh) * | 2019-10-08 | 2020-01-24 | 西安电子科技大学 | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 |
CN112287940A (zh) * | 2020-10-30 | 2021-01-29 | 西安工程大学 | 一种基于深度学习的注意力机制的语义分割的方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN113486897A (zh) * | 2021-07-29 | 2021-10-08 | 辽宁工程技术大学 | 一种卷积注意力机制上采样解码的语义分割方法 |
-
2021
- 2021-11-09 CN CN202111321547.8A patent/CN113920378B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110751A (zh) * | 2019-03-31 | 2019-08-09 | 华南理工大学 | 一种基于注意力机制的金字塔网络的中草药识别方法 |
CN110728224A (zh) * | 2019-10-08 | 2020-01-24 | 西安电子科技大学 | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 |
CN112287940A (zh) * | 2020-10-30 | 2021-01-29 | 西安工程大学 | 一种基于深度学习的注意力机制的语义分割的方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN113486897A (zh) * | 2021-07-29 | 2021-10-08 | 辽宁工程技术大学 | 一种卷积注意力机制上采样解码的语义分割方法 |
Non-Patent Citations (1)
Title |
---|
翟鹏博 ; 杨浩 ; 宋婷婷 ; 余亢 ; 马龙祥 ; 黄向生 ; .结合注意力机制的双路径语义分割.中国图象图形学报.2020,(第08期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113920378A (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | MEAN-SSD: A novel real-time detector for apple leaf diseases using improved light-weight convolutional neural networks | |
Lu et al. | A hybrid model of ghost-convolution enlightened transformer for effective diagnosis of grape leaf disease and pest | |
Yadav et al. | AFD-Net: Apple Foliar Disease multi classification using deep learning on plant pathology dataset | |
Wen et al. | Wheat spike detection and counting in the field based on SpikeRetinaNet | |
CN105469100B (zh) | 基于深度学习的皮肤活检图像病理特性识别方法 | |
CN111340141A (zh) | 一种基于深度学习的作物幼苗与杂草检测方法及系统 | |
CN109300121A (zh) | 一种心血管疾病诊断模型的构建方法、系统及该诊断模型 | |
CN114820579A (zh) | 一种基于语义分割的图像复合缺陷的检测方法及系统 | |
CN113920378B (zh) | 基于注意力机制的柴胡种子识别方法 | |
CN117115640A (zh) | 一种基于改进YOLOv8的病虫害目标检测方法、装置及设备 | |
CN113435254A (zh) | 一种基于哨兵二号影像的耕地深度学习提取方法 | |
CN109711401A (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
Shete et al. | TasselGAN: An application of the generative adversarial model for creating field-based maize tassel data | |
CN115578624A (zh) | 农业病虫害模型构建方法、检测方法及装置 | |
CN114972208A (zh) | 一种基于YOLOv4的轻量化小麦赤霉病检测方法 | |
Deb et al. | LS-Net: A convolutional neural network for leaf segmentation of rosette plants | |
CN117877034B (zh) | 一种基于动态卷积增强的遥感图像实例分割方法及模型 | |
CN109766742A (zh) | 一种玉米籽裂纹识别方法、装置、系统、设备和存储介质 | |
CN114882011A (zh) | 一种基于改进Scaled-YOLOv4模型的织物瑕疵检测方法 | |
Liu et al. | Dual UNet low-light image enhancement network based on attention mechanism | |
Su et al. | Object-based crop classification in Hetao irrigation zone by using deep learning and region merging optimization | |
CN118781081A (zh) | 一种机采籽棉含杂率的视觉检测方法、系统、设备及介质 | |
CN115170456A (zh) | 检测方法及相关设备 | |
CN118212540A (zh) | 一种基于多模态图像融合的杂草侵扰率预测方法 | |
Wang et al. | PAST-net: a swin transformer and path aggregation model for anthracnose instance segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |