CN116630967A - 基于改进ConvNeXt网络模型的SEM图像自动分类方法、电子装置 - Google Patents
基于改进ConvNeXt网络模型的SEM图像自动分类方法、电子装置 Download PDFInfo
- Publication number
- CN116630967A CN116630967A CN202310548805.9A CN202310548805A CN116630967A CN 116630967 A CN116630967 A CN 116630967A CN 202310548805 A CN202310548805 A CN 202310548805A CN 116630967 A CN116630967 A CN 116630967A
- Authority
- CN
- China
- Prior art keywords
- convnext
- image
- network model
- channel
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000001878 scanning electron micrograph Methods 0.000 title claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 20
- 230000003993 interaction Effects 0.000 claims abstract description 9
- 238000001000 micrograph Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004880 explosion Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000000137 annealing Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 4
- 239000003063 flame retardant Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- RNFJDJUURJAICM-UHFFFAOYSA-N 2,2,4,4,6,6-hexaphenoxy-1,3,5-triaza-2$l^{5},4$l^{5},6$l^{5}-triphosphacyclohexa-1,3,5-triene Chemical compound N=1P(OC=2C=CC=CC=2)(OC=2C=CC=CC=2)=NP(OC=2C=CC=CC=2)(OC=2C=CC=CC=2)=NP=1(OC=1C=CC=CC=1)OC1=CC=CC=C1 RNFJDJUURJAICM-UHFFFAOYSA-N 0.000 description 15
- 239000000463 material Substances 0.000 description 14
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical group [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- DXZMANYCMVCPIM-UHFFFAOYSA-L zinc;diethylphosphinate Chemical compound [Zn+2].CCP([O-])(=O)CC.CCP([O-])(=O)CC DXZMANYCMVCPIM-UHFFFAOYSA-L 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000001157 Fourier transform infrared spectrum Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001354 calcination Methods 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 238000002485 combustion reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000002861 polymer material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 239000000567 combustion gas Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 229910052736 halogen Inorganic materials 0.000 description 1
- 150000002367 halogens Chemical class 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000002341 toxic gas Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/693—Acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于改进ConvNeXt网络模型的SEM图像自动分类方法、电子装置。通过采用扫描电镜SEM扫描获取目标图像;所述目标图像为微观电镜图像;将所述目标图像输入至一改进的ConvNeXt网络模型,获取所述目标图像属于每一图像类别的概率;所述ConvNeXt网络模型包括通道注意力机制ECA模块、全局注意力机制GAM模块;确定最大的概率对应的图像分类为所述目标图像的图像类别。相比于现有技术,通过引入通道注意力模块ECA、全局注意力机制GAM,能够在训练过程中有效捕捉不同通道之间的交互信息,且网络在学习过程中更加关注重要信息并抑制无关信息的干扰,提高了图像的分类能力。
Description
技术领域
本发明涉及图像分类技术领域,具体而言,涉及一种基于改进ConvNeXt网络模型的SEM图像自动分类方法、电子装置。
背景技术
伴随着科学技术的日渐成熟,越来越多的高分子材料融入日常社会生活中,然而高分子材料制品大部分具有容易燃烧的特性,并且燃烧过程中还伴随着有毒气体的产生,对环境与生命健康造成危害。因此,研究高分子阻燃材料的热点课题受到关注。高分子阻燃材料根据阻燃剂成分分为两大类:有卤阻燃剂和无卤阻燃剂。
目前已有多种方法和仪器对IFR涂层的性能进行广泛研究。热重分析仪(TGA)记录了IFR涂料的燃烧性能,傅立叶变换红外光谱(FTIR)研究残炭层的化学结构和组成,x射线功率光谱(XPS)进行化合态分析,扫描电子显微镜(Scanning Electron Microscope,SEM)观察了残炭层的微观形貌。随着图像处理技术的日渐成熟和广泛应用,SEM图像也被转换为数字信号形式进一步处理。
现有技术,对于不同阻燃级别的无卤阻燃材料SEM图像的鉴定基本依靠领域专家人工鉴定,鉴定人员在专业知识以及个人经验的支撑下,观察图像中的物质形态以及分析组成成分。但这样的鉴定方法存在明显的弊端,需要耗费大量的成本培养出具有足够经验的领域专家,人工鉴定结果会受到主观因素的影响。
发明内容
有鉴于此,本发明实施例的目的在于提供将深度学习应用到阻燃材料SEM图像分类领域,基于融入注意力机制、全局注意力机制的ConvNeXt网络,有效地捕获了信道的交互信息,提高模型精度,实现无卤阻燃材料阻燃级别的自动检测。
本发明的第一方面提供了一种基于改进ConvNeXt网络模型的SEM图像自动分类方法,所述方法包括:
采用扫描电镜SEM扫描获取目标图像;所述目标图像为微观电镜图像;
将所述目标图像输入至一改进的ConvNeXt网络模型,获取所述目标图像属于每一图像类别的概率;所述ConvNeXt网络模型包括通道注意力机制ECA模块、全局注意力机制GAM模块;
确定最大的概率对应的图像分类为所述目标图像的图像类别。
优选地,所述通道注意力机制ECA模块,包括:
对输入H×W×C的特征图,在空间维度使用全局平均池化进行空间特征压缩,得到初始特征图;通过1×1卷积实现通道特征学习,输出1×1×C特征图;
将1×1×C特征图与H×W×C原始输入图像进行逐通道乘,输出具有通道注意力的特征图。
优选地,所述通过1×1卷积实现通道特征学习,输出1×1×C特征图,包括:
将所述压缩后的初始特征图输入至多层感知器MLP中,利用卷积核大小为k的一维卷积实现通道间的信息交互,生成通道权重w,将所述通道权重w输入到初始特征图,进而对内部的特征进行自适应加权;
其中,w=σ(C1Dk(y));C1D代表一维卷积,σ为Sigmoid函数。
优选地,所述全局注意力机制GAM模块包括通道注意子模块CAM、空间注意子模块SAM;
其中,通道注意子模块CAM使用三维排列保留三维信息,首先将输入图像进行维度转换,然后将维度转换后的特征图输入到一个两层具缩减比r的编码解码器的多层感知器MLP,用来放大跨纬度的通道空间关系,再转换为原来的维度,最后进行Sigmoid输出;
空间注意子模块SAM,使用两个卷积层进行空间信息融合,充分关注到空间信息,先通过卷积核为7的卷积缩减通道数,减小计算量,再经过一个卷积核为7的卷积增加通道数,最后经Sigmoid输出。
优选地,所述方法还包括ConvNeXt网络模型训练过程;所述训练过程包括预热机制;
所述预热机制包括:
所述模型在开始训练时逐渐适应数据集,减少过拟合和梯度爆炸的风险;
模型训练一段时间后,逐渐减小学习率以细化模型的训练过程,从而提高模型的泛化性能;余弦退火将初始学习率不断地减小,直到达到预设的最小值,然后再将学习率逐渐增加回最大值,形成一个周期性变化的曲线。
优选地,所述将所述目标图像输入至一改进的ConvNeXt网络模型,获取所述目标图像属于每一图像类别的概率,包括:
将所述目标图像输入至一改进的ConvNeXt网络模型进行数据处理;所述改进的ConvNeXt网络模型对所述目标图像经过第一次卷积,而后经过四个ConvNeXt块并结合下采样操作获取处理后的特征图;将处理后的特征图进行全局平均池化、层标准化和全连接层操作;
其中,通过全连接层将通道数映射为需要分类的类别数量classes,得到输入分别被判断为每一图像类别的概率。
此外,本发明的第二方面提供了一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算机程序;其特征在于,所述计算机程序被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上第一方面所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法步骤。
此外,本发明的第三方面提供了一种存储介质,所述存储介质存储有计算机程序;所述程序由处理器加载并执行以实现如上第一方面所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法步骤。
本发明的方案中,通过采用扫描电镜SEM扫描获取阻燃材料煅烧形成的阻燃材料炭渣图像;所述目标图像为微观电镜图像;将所述目标图像输入至一改进的ConvNeXt网络模型,获取所述目标图像属于每一图像类别的概率;所述ConvNeXt网络模型包括通道注意力机制ECA模块、全局注意力机制GAM模块;确定最大的概率对应的图像分类为所述目标图像的图像类别。相比于现有技术,通过引入通道注意力模块ECA,能够在训练过程中有效捕捉不同通道之间的交互信息,并且避免过度降低输入特征图的维度;其次,加入全局注意力机制GAM,使得网络在学习过程中更加关注重要信息并抑制无关信息的干扰,放大跨维度的全局交互作用,从而提高了图像的分类能力;在模型训练初期使用预热机制,过程中使用余弦函数值进行学习率的衰减,提高模型的训练稳定性和收敛速度,同时减少过拟合和梯度爆炸的风险。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例公开的ConvNeXt网络结构整体示意图;
图2是本发明实施例公开的ConvNeXt Block网络结构示意图;
图3是本发明实施例公开的阻燃材料SEM图像自动分类方法的流程示意图;
图4是本发明实施例公开的通道注意力机制ECA模块整体结构示意图;
图5是本发明实施例公开的全局注意力机制GAM模块整体结构示意图;
图6是本发明实施例公开的全局注意力机制GAM模块中通道注意子模块结构示意图;
图7是本发明实施例公开的全局注意力机制GAM模块中空间注意子模块示意图;
图8是本发明实施例公开的融合ECA、以及GAM的改进后的ConvNeXt网络模型中ConvNeXt Block网络结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。
当传统卷积神经网络在处理更加复杂的视觉任务时,会面临着一些问题,例如参数数量较大,计算量较大,难以捕捉长距离依赖等等。另外,随着自然语言处理领域中Transformer的出现和成功,研究者们开始探索将Transformer中的注意力机制应用到计算机视觉领域中,以期望能够改善上述问题。
ConvNeXt是基于ResNeXt和Transformer的思想,将两者进行融合,提出一种新的卷积神经网络结构(参见文献“Liu Z,Mao H,Wu C Y,et al.A convnet for the 2020s[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2022:11976-11986.”)。ConvNeXt网络通过Swin Transformer的层结构、下采样方法、激活函数、数据处理方法、反向瓶颈和深度卷积,进一步提高了分类的准确性。网络整体结构和ResNet相似,由多个残差块(ConvNeXt Block)组成,将模块堆叠次数由(3,4,6,3)改为(3,3,9,3),每个残差块由三层卷积组成,包括分组卷积层、膨胀卷积层和残差连接,整体结构如图1所示,大小为224×224×3(高×宽×通道数)的图像经过第一次卷积后特征图变为56×56×96;随后,经过四个ConvNeXt Block结合一系列下采样操作,特征图变为7×7×768,最后,进行全局平均池化、层标准化和全连接等操作。
与传统卷积神经网络不同,ConvNeXt引入了两个主要的机制:组卷积(groupconvolution)和膨胀卷积(Dilated Convolution)。在ConvNeXt中,组卷积指在卷积操作中,将输入和输出通道分为多个组,每个组内的通道共享一个卷积核,从而减少参数量和计算量,同时也有利于提高模型的泛化能力。膨胀卷积指在卷积核内部插入间隔进行卷积操作,插入间隔后,卷积核的有效感受野变大,同时输出的分辨率也会变低,但可以保留更多的局部信息。
ConvNeXt Block网络结构如图2所示,其输入特征图为h×w×dim,DepthwiseConvolution层使用组卷积的方式进行卷积操作,每个通道组内的卷积核只与对应的输入通道进行卷积,从而减少计算量和参数量。Layer Norm对卷积结果进行归一化,从而加速网络的收敛速度和稳定性。Layer Scale自动学习不同通道间的权重,从而对特征图进行缩放,增强某些通道的重要性,从而对模型的特征表示进行调整和优化。DropPath在训练过程中随机丢弃部分特征图,增加模型的泛化性能。
ConvNeXt激活层选择高斯误差线性单元(GELU),并且只在ConvNeXt Block模块中加入,GELU函数的导数是连续的,使得在训练深度神经网络时可以更容易地传播梯度,避免了ReLU函数在x=0处的导数不连续的问题,从而减少训练过程中出现的梯度消失问题,其近似计算公式如下所示:
以下对本申请实施例的技术方案的实现细节进行详细阐述:
本实施例的第一方面提供了一种阻燃材料SEM图像自动分类方法。图3所示为本实施例阻燃材料SEM图像自动分类方法的流程示意图。所述方法包括:
本实施例的第一方面提供了一种阻燃材料SEM图像自动分类方法,所述方法包括:
S301,采用扫描电镜SEM扫描获取目标图像;所述目标图像为微观电镜图像。
具体地,本实施例,可以通过采用扫描电镜SEM扫描获取阻燃材料煅烧形成的阻燃材料炭渣图像;所述阻燃材料炭渣图像为微观电镜图像。
S302,将所述目标图像输入至一改进的ConvNeXt网络模型,获取所述目标图像属于每一图像类别的概率;所述ConvNeXt网络模型包括通道注意力机制ECA模块、全局注意力机制GAM模块。
具体地,本实施例,对传统的ConvNeXt进行改进,得到改进的ConvNeXt网络模型。在ConvNeXt网络结构中,根据输出特征映射中的通道数量,有四种类型的块。每种类型的块循环次数不同:第一种类型循环3次,输出96维特征图;第二类循环3次,输出192维特征图;第三种类型循环3次,输出384维特征图;第四种类型循环3次,输出768维的特征图。特征图每次在Block前进行下采样操作,Block的最终输出大小(W,H)变为原来的一半,在卷积的作用下输出维数翻倍。在这种情况下,向通道添加权重值似乎非常重要。
改进的ConvNeXt网络模型包括通道注意力机制ECA模块、全局注意力机制GAM模块。
其中,ECA(Efficient Channel Attention)注意力机制是一种轻量级的通道注意力机制,ECA解决了SE(Squeeze-and-Excitation)模块忽略通道内部特征关系的问题,通过引入一维卷积操作来学习全局通道间的相关性,并使用sigmoid函数来对特征进行加权,最终生成注意力矩阵,进而应用到输入的特征图上,从而增强网络的表达能力,整体结构如图4所示。
首先,输入H×W×C的特征图,在空间维度使用全局平均池化(Global AveragePooling)进行空间特征压缩,得到1×1×C特征图;其次,通过1×1卷积实现通道特征学习,输出1×1×C特征图;最后将1×1×C特征图与H×W×C原始输入图像进行逐通道乘,输出具有通道注意力的特征图。
ECA对输入特征图平均池化后将每个通道压缩为一个标量,然后输入到一个多层感知器(MLP)中,利用卷积核大小为k的一维卷积实现通道间的信息交互,生成通道权重w,计算公式如(2),将学习到的通道权重系数输入到特征图,进而对内部的特征进行自适应加权。
w=σ(C1Dk(y)) (2)
其中,C1D代表一维卷积,σ为Sigmoid函数。
全局注意力机制GAM(Global Attention Module)是一种能够捕捉所有三个维度显著特征的注意机制。其采用CBAM(Convolutional Block Attention Module)的空间注意机制对通道注意子模块和空间注意力子模块进行了重新设计,通过减少信息的损失和提高全局特征的交互,提高深度神经网络的性能。GAM注意力机制分为两个模块:通道注意子模块CAM(Convolutional Block Attention Module)和空间注意子模块SAM(SpatialAttention Module),通道注意是学习不同通道的权值,并用权值对不同通道进行多重划分,空间注意关注目标在图像上的位置信息,并通过空间特征的加权选择性的聚焦每个空间的特征,其整体结构如下图5所示。
通道注意子模块使用三维排列保留三维信息,首先将输入图像进行维度转换,然后将维度转换后的特征图输入到一个两层具缩减比r的编码解码器的多层感知器MLP,用来放大跨纬度的通道空间关系,再转换为原来的维度,最后进行Sigmoid输出,通道注意子模块如图6所示。
在空间注意子模块中,使用两个卷积层进行空间信息融合,充分关注到空间信息,先通过卷积核为7的卷积缩减通道数,减小计算量,再经过一个卷积核为7的卷积增加通道数,最后经Sigmoid输出。由于最大池化操作减少信息,产生负向的影响,因此删除池化操作保留特性映射,为了防止参数的显著增加,采用带通道混洗的组卷积。空间注意子模块如图7所示。
关于通道注意力机制ECA模块、以及全局注意力机制GAM模块位于改进的ConvNeXt网络模型的位置,本实施例,描述如下:在图2所示的ConvNeXt Block网络结构中,本实施例选择了不同的位置插入对应的ECA以及GAM模块。具体参见图8为本实施例融合ECA、以及GAM的改进后的ConvNeXt网络模型中ConvNeXt Block网络结构示意图。通过分别引入ECA模块和GAM模块提升了ConvNeXt网络分类性能,并且同时加入ECA模块和GAM模块对网络分类性能也起到积极作用。ECA模块通过对通道间的信息进行自适应加权,使得模型能够更好地利用全局通道间的信息;而GAM模块通过对全局空间位置进行加权,使得模型能够更好地关注重要的图像区域。将两者结合使用,综合利用它们在通道和空间维度上的优势,进一步提升模型的感知能力。
在一些实施例中,还提出了关于模型训练的预热机制。
优选地,所述方法还包括ConvNeXt网络模型训练过程;所述训练过程包括预热机制;
所述预热机制包括:所述模型在开始训练时逐渐适应数据集,减少过拟合和梯度爆炸的风险;模型训练一段时间后,逐渐减小学习率以细化模型的训练过程,从而提高模型的泛化性能;余弦退火将初始学习率不断地减小,直到达到预设的最小值,然后再将学习率逐渐增加回最大值,形成一个周期性变化的曲线。
具体地,本实施例,在训练开始时,模型的权重随机初始化,而且对于大多数样本,模型的输出与目标之间存在较大的误差。如果在训练开始时使用较大的学习率,模型可能会跳过局部最小值,导致模型在训练初期就发散或陷入不良的局部最小值。
预热机制指在训练的前几个epoch中使用较小的学习率,逐步增加学习率,以避免模型在一开始就受到较大的参数更新导致模型不稳定的问题。在深度学习中,训练模型需要更新模型参数,这是通过反向传播算法计算得到的梯度来实现的。在刚开始训练时,由于模型的权重参数随机初始化,模型的输出结果往往比较随机,如果此时使用较大的学习率进行参数更新,可能会使模型陷入不稳定的状态,甚至无法收敛。因此,预热机制可以使模型在开始训练时逐渐适应数据集,减少过拟合和梯度爆炸的风险。
模型训练一段时间后,逐渐减小学习率以细化模型的训练过程,从而提高模型的泛化性能。余弦退火将初始学习率不断地减小,直到达到预设的最小值,然后再将学习率逐渐增加回最大值,形成一个周期性变化的曲线。通过对学习率进行周期性调整,在保证更新方向不变的情况下降低学习率,从而使得模型能够更好地适应复杂数据集并避免陷入局部最优解,从而提高模型的泛化能力和性能表现。
在一些实施例中,所述将所述目标图像输入至一改进的ConvNeXt网络模型,获取所述目标图像属于每一图像类别的概率,包括:
将所述目标图像输入至一改进的ConvNeXt网络模型进行数据处理;所述改进的ConvNeXt网络模型对所述目标图像经过第一次卷积,而后经过四个ConvNeXt块并结合下采样操作获取处理后的特征图;将处理后的特征图进行全局平均池化、层标准化和全连接层操作;
其中,通过全连接层将通道数映射为需要分类的类别数量classes,得到输入分别被判断为每一图像类别的概率。
S303,确定最大的概率对应的图像分类为所述目标图像的图像类别。
具体地,本实施例通过将如上关于预测的每一图像类别的概率中,确定最大的概率对应的图像分类为所述目标图像的图像类别,并输出。
相比于现有技术,本实施例通过引入通道注意力模块ECA,能够在训练过程中有效捕捉不同通道之间的交互信息,并且避免过度降低输入特征图的维度;其次,加入全局注意力机制GAM,使得网络在学习过程中更加关注重要信息并抑制无关信息的干扰,放大跨维度的全局交互作用,从而提高了图像的分类能力;在模型训练初期使用预热机制,过程中使用余弦函数值进行学习率的衰减,提高模型的训练稳定性和收敛速度,同时减少过拟合和梯度爆炸的风险。
此外,本实施例的第二方面提供了一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算机程序;其特征在于,所述计算机程序被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上第一方面所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法步骤。
此外,本实施例的第三方面提供了一种存储介质,所述存储介质存储有计算机程序;所述程序由处理器加载并执行以实现如上第一方面所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于改进ConvNeXt网络模型的SEM图像自动分类方法,其特征在于,所述方法包括:
采用扫描电镜SEM扫描获取目标图像;所述目标图像为微观电镜图像;
将所述目标图像输入至一改进的ConvNeXt网络模型,获取所述目标图像属于每一图像类别的概率;所述ConvNeXt网络模型包括通道注意力机制ECA模块、全局注意力机制GAM模块;
确定最大的概率对应的图像分类为所述目标图像的图像类别。
2.根据权利要求1所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法,其特征在于,所述通道注意力机制ECA模块,包括:
对输入H×W×C的特征图,在空间维度使用全局平均池化进行空间特征压缩,得到初始特征图;通过1×1卷积实现通道特征学习,输出1×1×C特征图;
将1×1×C特征图与H×W×C原始输入图像进行逐通道乘,输出具有通道注意力的特征图。
3.根据权利要求2所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法,其特征在于,所述通过1×1卷积实现通道特征学习,输出1×1×C特征图,包括:
将所述压缩后的初始特征图输入至多层感知器MLP中,利用卷积核大小为k的一维卷积实现通道间的信息交互,生成通道权重w,将所述通道权重w输入到初始特征图,进而对内部的特征进行自适应加权;
其中,w=σ(C1Dk(y));C1D代表一维卷积,σ为Sigmoid函数。
4.根据权利要求3所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法,其特征在于,所述全局注意力机制GAM模块包括通道注意子模块CAM、空间注意子模块SAM;
其中,通道注意子模块CAM使用三维排列保留三维信息,首先将输入图像进行维度转换,然后将维度转换后的特征图输入到一个两层具缩减比r的编码解码器的多层感知器MLP,用来放大跨纬度的通道空间关系,再转换为原来的维度,最后进行Sigmoid输出;
空间注意子模块SAM,使用两个卷积层进行空间信息融合,充分关注到空间信息,先通过卷积核为7的卷积缩减通道数,减小计算量,再经过一个卷积核为7的卷积增加通道数,最后经Sigmoid输出。
5.根据权利要求4所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法,其特征在于,所述方法还包括ConvNeXt网络模型训练过程;所述训练过程包括预热机制;
所述预热机制包括:
所述模型在开始训练时逐渐适应数据集,减少过拟合和梯度爆炸的风险;
模型训练一段时间后,逐渐减小学习率以细化模型的训练过程,从而提高模型的泛化性能;余弦退火将初始学习率不断地减小,直到达到预设的最小值,然后再将学习率逐渐增加回最大值,形成一个周期性变化的曲线。
6.根据权利要求5所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法,其特征在于,所述将所述目标图像输入至一改进的ConvNeXt网络模型,获取所述目标图像属于每一图像类别的概率,包括:
将所述目标图像输入至一改进的ConvNeXt网络模型进行数据处理;所述改进的ConvNeXt网络模型对所述目标图像经过第一次卷积,而后经过四个ConvNeXt块并结合下采样操作获取处理后的特征图;将处理后的特征图进行全局平均池化、层标准化和全连接层操作;
其中,通过全连接层将通道数映射为需要分类的类别数量classes,得到输入分别被判断为每一图像类别的概率。
7.一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算机程序;其特征在于,所述计算机程序被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1-6任一项所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法步骤。
8.一种存储介质,所述存储介质存储有计算机程序;所述程序由处理器加载并执行以实现如权利要求1-6任一项所述的基于改进ConvNeXt网络模型的SEM图像自动分类方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310548805.9A CN116630967A (zh) | 2023-05-16 | 2023-05-16 | 基于改进ConvNeXt网络模型的SEM图像自动分类方法、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310548805.9A CN116630967A (zh) | 2023-05-16 | 2023-05-16 | 基于改进ConvNeXt网络模型的SEM图像自动分类方法、电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630967A true CN116630967A (zh) | 2023-08-22 |
Family
ID=87601893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310548805.9A Pending CN116630967A (zh) | 2023-05-16 | 2023-05-16 | 基于改进ConvNeXt网络模型的SEM图像自动分类方法、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630967A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958711A (zh) * | 2023-09-19 | 2023-10-27 | 华东交通大学 | 铅锌矿石图像分类模型构建方法、系统、存储介质及设备 |
-
2023
- 2023-05-16 CN CN202310548805.9A patent/CN116630967A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958711A (zh) * | 2023-09-19 | 2023-10-27 | 华东交通大学 | 铅锌矿石图像分类模型构建方法、系统、存储介质及设备 |
CN116958711B (zh) * | 2023-09-19 | 2023-12-15 | 华东交通大学 | 铅锌矿石图像分类模型构建方法、系统、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Short time Fourier transformation and deep neural networks for motor imagery brain computer interface recognition | |
Qian et al. | Deep learning for steganalysis via convolutional neural networks | |
Rahman et al. | Face recognition using gabor filters | |
Ma et al. | Multimodal deep learning for solar radio burst classification | |
Zuo et al. | Convolutional neural networks for image denoising and restoration | |
CN116630967A (zh) | 基于改进ConvNeXt网络模型的SEM图像自动分类方法、电子装置 | |
CN109740681A (zh) | 一种水果分拣方法、装置、系统、终端及存储介质 | |
CN115690522B (zh) | 一种基于多池化融合通道注意力的目标检测方法及其应用 | |
Khaw et al. | High‐density impulse noise detection and removal using deep convolutional neural network with particle swarm optimisation | |
Chen et al. | Automated design of neural network architectures with reinforcement learning for detection of global manipulations | |
Wang et al. | Active fine-tuning from gMAD examples improves blind image quality assessment | |
CN111800811A (zh) | 一种频谱异常的无监督检测方法、装置、设备及存储介质 | |
CN112132279A (zh) | 卷积神经网络模型压缩方法、装置、设备及存储介质 | |
CN111224905A (zh) | 一种大规模物联网中基于卷积残差网络的多用户检测方法 | |
CN111461244A (zh) | 一种基于SimpleShot的One-Shot学习新方法 | |
CN116312782A (zh) | 一种融合影像基因数据的空间转录组spot区域聚类方法 | |
CN114429151A (zh) | 一种基于深度残差网络的大地电磁信号识别与重建方法及其系统 | |
CN115984979A (zh) | 一种面向未知对抗攻击的人脸伪造识别方法及装置 | |
CN114186589A (zh) | 一种基于残差网络Resnet50的超导电缆局部放电模式识别方法 | |
CN111507396B (zh) | 缓解神经网络对未知类样本产生错误分类的方法及装置 | |
CN117456230A (zh) | 一种数据分类方法、系统及电子设备 | |
CN112036461B (zh) | 手写数字图像识别方法、装置、设备及计算机存储介质 | |
Monkam et al. | Digital image forensic analyzer to detect AI-generated fake images | |
CN111210007A (zh) | 基于改进srgan模型的超分辨率螺栓图像生成方法 | |
Kaloev et al. | Comprehensive Review of Benefits from the Use of Neuron Connection Pruning Techniques During the Training Process of Artificial Neural Networks in Reinforcement Learning: Experimental Simulations in Atari Games |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |