CN117475150A - 一种基于SAC-UNet的高效语义分割方法 - Google Patents
一种基于SAC-UNet的高效语义分割方法 Download PDFInfo
- Publication number
- CN117475150A CN117475150A CN202311424280.4A CN202311424280A CN117475150A CN 117475150 A CN117475150 A CN 117475150A CN 202311424280 A CN202311424280 A CN 202311424280A CN 117475150 A CN117475150 A CN 117475150A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- unet
- sac
- module
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 39
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000003709 image segmentation Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 208000017520 skin disease Diseases 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 230000005284 excitation Effects 0.000 claims description 5
- 230000006872 improvement Effects 0.000 claims description 5
- 239000003513 alkali Substances 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 210000002421 cell wall Anatomy 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229910000029 sodium carbonate Inorganic materials 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
一种基于SAC‑UNet的高效语义分割方法,包括:步骤一:数据预处理;步骤二:搭建改进的分割模型:基于传统的UNet分割模型,减少卷积核数量以及对卷积层结构进行调整,同时采用模块融合策略,在编码器每一层中加入SE模块,再对特征图的通道维度进行自适应的权重调整;并在解码器中引入CBAM模块;将ASPP模块置于编码器输出和解码器输入之间;步骤三:利用改进的分割模型训练图像分割网络;步骤四:利用所述SAC‑UNet神经网络模型对两组测试数据集进行分割识别,得到分割评价参数。本发明中的策略使得各个模块之间相互补充,有效提升了分割精度。分割模型在公共数据集和自制数据集分别进行训练及测试,实验结果表明该模型在减少计算和内存开销的同时,提升了分割的性能。
Description
技术领域
本发明属于图像语义分割技术领域,具体涉及一种基于SAC-UNet的高效语义分割方法。
背景技术
在传统化工制碱车间中,进料口对纯碱的输送起到关键作用,但进料口时常会发生堵塞,现采用机器视觉的方式通过图像语义分割技术可以完成机器识别,不用人工监控。
UNet模型是一个基于卷积神经网络的图像分割网络,主要用于医学图像分割上,该模型最初提出时是用于细胞壁的分割,之后在皮肤病数据集病灶提取等方面都有着出色的表现。进料口图像和皮肤病图像同属二分类问题,可以将传统的UNet模型应用在进料口识别上,但UNet模型结构相对简单,在跳跃连接的过程中,不同重要程度的信息分配的计算资源是相同的,导致在特征提取的时候没有侧重点,并且传播的过程中没有考虑到可能会出现的网络退化的问题,存在优化的空间。并且进料口识别对实时性有较高的要求,传统的UNet网络在分割速度上明显不足。
发明内容
发明目的:
针对上述UNet网络在进料口图像上的分割速度慢的技术问题,本技术方案提供了一种基于SAC-UNet的高效语义分割方法,首先对UNet模型结构进行改进,以降低模型的计算资源消耗,大大缩减了模型的参数,从而提升分割速度。其次采用模块融合策略,使得各个模块之间相互补充,弥补了因卷积核数量减少而导致模型在特征提取方面能力下降的缺陷,有效地提升了分割精度;能有效的解决上述问题。
本发明通过以下技术方案实现:
一种基于SAC-UNet的高效语义分割方法,包括改进和训练分割模型,得到SAC-UNet神经网络模型,利用改进后得到的SAC-UNet神经网络模型对进料口图像和公开的皮肤病数据集进行分割检测,具体包括以下步骤:
步骤一:数据预处理;
数据集采用公共皮肤病数据集作为样本,自制数据集为进料口图像,分割任务为对原始进料口图像的前景区域分别进行像素级标注,得到人工进料口分割图像;两者共同建立进料口图像数据集;将进料口图像数据集进行数据增强处理,按比例划分训练集、验证集、测试集;
步骤二:搭建改进的分割模型,得到SAC-UNet神经网络模型;
基于传统的UNet分割模型,首先,通过减少卷积核数量以及对卷积层结构的调整,降低模型的计算资源消耗,缩减模型的参数;同时采用模块融合策略,该策略在编码器每一层中加入SE模块,通过对特征图的通道维度进行自适应的权重调整,使得网络能够更加关注重要的特征,并有效地减少无关信息的干扰;再在解码器中引入CBAM模块,通过通道和空间注意力机制,使得网络能够在不同尺度上有针对性地聚焦于目标区域;在编码器与解码器之间采用跳连操作;最后将ASPP模块置于编码器输出和解码器输入之间,将编码器的输出通过ASPP作为解码器的输入特征图;充分利用多尺度特征信息,增强模型对目标物体的感知能力;
步骤三:利用改进的分割模型训练图像分割网络;
将步骤一中的公共数据集和划分的自制训练集图片送入步骤二构建的SAC-UNet的卷积神经网络分割模型进行训练;
步骤四:利用所述SAC-UNet神经网络模型对两组测试数据集进行分割识别,得到分割评价参数。
进一步的,步骤一所述的样本包括训练样本共900张,测试样本379张;所述自制数据集的图像为来自化工制碱车间真实拍摄的进料口图像。
进一步的,步骤一所述的数据预处理操作包括:采用LabelMe软件对进料口数据集进行标注、二值化掩膜处理;为提升模型的精度和鲁棒性,对数据集进行数据增强操作,包括尺度剪裁、平移、随机旋转等方法,并将三通道RGB图像转换为灰度图像;按照8:2的比例对进料口数据集进行划分,将793张作为训练集,150张作为测试集,剩余8张作为预测图片。
进一步的,步骤二所述SAC-UNet神经网络模型的网络架构为:采用编码器-解码器作为主干网络,还包括依次连接的输入层、编码器部分、ASPP模块、解码器部分和输出层。
进一步的,所述的输入层输入大小为512×512的皮肤病图像,首先通过编码器部分,图片经过两次32个3×3的卷积核进行卷积,再通过ReLU函数和SE模块得到32个512×512×1的特征提取结果,得到第一层的处理结果;将第一层的处理结果通过2×2的池化核,对图片下采样为原来大小的一半:256×256×32;将上述过程再经过三次同样操作得到编码器的输出结果,将结果通过ASPP模块输送至解码器部分;在解码器部分,经过两次卷积、CBAM模块和上采样操作得出解码器的输出,最后再经过一个1×1的卷积和Sigmoid激活函数,得到输出为512×512大小的分割图片。
进一步的,步骤二所述的通过减少卷积核数量,卷积核数量为:32→64→128→256→64→256→128→64→32;使得网络结构减少计算量,去除过多的冗余信息。
进一步的,步骤二所述的SE模块包含Squeeze/压缩和Excitation/激励操作:在压缩操作中,SE模块使用全局平均池化层将特征图中每个通道的空间维度压缩成一个标量;激励操作中,通过一系列的线性变换/全连接层和非线性激活函数ReLU,将全局重要性得分调整为通道特定的权重;最终通过Sigmoid函数将这些权重归一化到0到1之间,以作为每个通道的权重;在编码器两次卷积之后,通过SE模块得到channel权重向量,原特征图与channel权重向量相乘,得到新的特征图;
所述CBAM模块结合了通道注意力模块和空间注意力模块两部分;CBAM模块使网络能够动态地关注到每个通道和空间的重要性,从而提升了特征的表达能力;
所述的ASPP模块包括以下几个部分:平均池化和上采样、多个带孔卷积、通道融合和1×1卷积;其作用是在不同的感受野下提取特征,以捕获图像中不同大小的物体或结构;具体步骤为:首先通过平均池化层对输入进行降采样,然后再通过上采样将降采样后的特征图恢复到与原图相同的尺寸,如此可获取一个相对较大感受野的特征图;然后,使用了3个不同膨胀率的卷积核(1、6、12、18)对输入进行卷积,扩大感受野;再将上述得到的特征图进行通道拼接;最后使用一个1x1的卷积核对通道进行降维,减少计算量。
进一步的,步骤二所述的在编码器与解码器之间采用跳连操作,是在编码器每层经过两次卷积加一层SE模块输出后的结果,与解码器尺寸大小相同的特征图进行拼接,拼接操作可以将低级别的详细特征与高级别的语义信息相结合,从而获得更全面的信息来进行精确的分割。
进一步的,步骤三所述的利用改进的分割模型训练图像分割网络,具体的操作方式为:用划分好的训练集来训练进料口图像以及公共皮肤病数据集图像,利用反向传播策略,使用RMSprop优化器更新训练权重,每次送入网络的训练样本批量为4,训练次数为40次,学习率为0.00001,采用二分类交叉熵值损失函数,用于计算网络输出和标签之间的损失。
进一步的,步骤四所述的分割评价参数是采用mIoU均交并比分割精度指标来评估图像分割性能,mIoU公式如下:
其中,TP表示前景像素类被正确分类样本面积;FP表示背景像素类被错分为目标前景像素类样本面积;FN表示目标前景像素类被错分为背景像素类样本面积。
有益效果
本发明提出的一种基于SAC-UNet的高效语义分割方法,与现有技术相比较,其具有以下有益效果:
本发明采用模块融合策略,该策略在编码器每一层中加入了SE模块,通过对特征图的通道维度进行自适应的权重调整,使得网络能够更加关注重要的特征并有效地减少了无关信息的干扰;在解码器中引入CBAM模块,通过通道和空间注意力机制,使得网络能够在不同尺度上有针对性地聚焦于目标区域;将ASPP模块置于编码器输出和解码器输入之间,充分利用多尺度特征信息,增强了模型对目标物体的感知能力。在150张进料口图像数据集上进行测试,如图2至图3所示,相同的条件下,SAC-UNet较UNet的分割效果,mIoU提高7.42%。
本发明对UNet模型结构进行改进,通过减少卷积核数量以及对卷积层结构的调整,降低了模型的计算资源消耗,相同条件下UNet训练出的参数文件大小为51.4MB,而SAC-UNet训练出的参数文件大小仅为14.7MB,大大缩减了模型的参数,从而提升分割速度。同时对7张验证图片进行,具体处理时间如图6所示,SAC-UNet平均处理时间仅为UNet的一半,由此可以看出SAC-UNet在参数计算上大大缩减了时间,从而提升了图像处理的时间,满足了工业图像处理上实时性高的要求。
附图说明
图1是本发明中SAC-UNet网络结构图。
图2是本发明中基于UNet模型的进料口分割结果图。
图3是本发明中基于SAC-UNet模型的进料口分割结果图。
图4是本发明中预测进料口图像分割结果对比图。
图5是本发明中训练参数大小对比图。
图6是本发明中处理进料口图像时间对比图。
图7是本发明中SE模块结构图。
图8是本发明中CBAM模块结构图。
图9是本发明中ASPP模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。在不脱离本发明设计构思的前提下,本领域普通人员对本发明的技术方案做出的各种变型和改进,均应落入到本发明的保护范围。
实施例1
一种基于SAC-UNet的高效语义分割方法,包括改进和训练分割模型,得到SAC-UNet神经网络模型,利用改进后得到的SAC-UNet神经网络模型对进料口图像和公开的皮肤病数据集进行分割检测,具体包括以下步骤:
步骤一:数据预处理。
数据集采用公共皮肤病数据集作为样本,训练样本共900张,测试样本379张。自制数据集为进料口图像,来自化工制碱车间真实拍摄,其分割任务同皮肤病数据集一样属于二分类任务,对原始进料口图像的前景区域分别进行像素级标注,得到人工进料口分割图像,两者共同建立进料口图像数据集;将进料口图像数据集进行数据增强处理,按比例划分训练集、验证集、测试集。
数据预处理操作包括:采用LabelMe软件对进料口数据集进行标注、二值化掩膜处理;为提升模型的精度和鲁棒性,对数据集进行数据增强操作,包括尺度剪裁、平移、随机旋转等方法,并将三通道RGB图像转换为灰度图像;按照8:2的比例对进料口数据集进行划分,将793张作为训练集,150张作为测试集,剩余8张作为预测图片。
步骤二:搭建改进的分割模型,得到SAC-UNet神经网络模型,如图1所示。
基于传统的UNet分割模型进行改进。首先,通过减少卷积核数量以及对卷积层结构的调整,降低模型的计算资源消耗,缩减模型的参数。
同时采用模块融合策略,该策略在编码器每一层中加入SE模块,具体SE模块如图7所述,SE模块包含Squeeze和Excitation两部分,Squeeze包含Global pooling,Excitation包含两次FC(全连接层),两次激活函数。首先压缩操作将输入的W×H×C特征图通过全局平均池化变为1×1×C,再通过由两个全连接层和激活函数组成的激励操作,得到新的1×1×C特征,将其与原特征图进行scale操作,就是权重相乘。通过对特征图的通道维度进行自适应的权重调整,使得网络能够更加关注重要的特征,并有效地减少无关信息的干扰。
再在解码器中引入CBAM模块,CBAM模块如图8所示。该模块主要有通道注意力机制(Channel Attention Module)和空间注意力机制(Spatial Attention Module)组成。输入特征图x经过了通道注意力及空间注意力模块的处理,得到了一个注意力调控后的特征图。将注意力调控后的特征图与原始的特征图相加,实现了一种特征融合的操作。这个步骤的目的是保留了原始的特征信息,同时引入了一些注意力机制的调控,使得网络能够更加聚焦于重要的特征。通过通道和空间注意力机制,使得网络能够在不同尺度上有针对性地聚焦于目标区域
最后将ASPP模块置于编码器输出和解码器输入之间,如图9所示。ASPP首先对输入进行了一个2x2的自适应平均池化操作,然后通过一个1x1的卷积将通道数从256变为64得到特征图x0。同时四层卷积层使用不同的扩张率,可以在感受野内获取不同尺寸的信息。例如,self.c2的卷积核大小为3x3,但通过了扩张率为6的卷积,使得其感受野相当于一个11x11的卷积核。Concat将x0和四个卷积层的输出在通道维度上拼接在一起,形成一个维度为320的特征图。最后通过一个1x1的卷积层将通道数调整为64,得到最终的输出。
在编-解码器中间加上ASPP模块,将编码器的输出通过ASPP作为解码器的输入特征图;充分利用多尺度特征信息,增强模型对目标物体的感知能力。通过不同感受野获取特征,提高网络对物体的识别能力,增强了模型对目标物体的感知能力。上述策略使得各个模块之间相互补充,弥补了因卷积核数量减少而导致模型在特征提取方面能力下降的缺陷,有效地提升了分割精度。
在编码器与解码器之间采用跳连操作,是在编码器每层经过两次卷积加一层SE模块输出后的结果,与解码器尺寸大小相同的特征图进行拼接,拼接操作可以将低级别的详细特征与高级别的语义信息相结合,从而获得更全面的信息来进行精确的分割。
改进后的分割模型如图1所示,SAC-UNet神经网络模型的网络架构为:采用编码器-解码器作为主干网络,包括依次连接的输入层、编码器部分、ASPP模块、解码器部分和输出层。
输入层输入大小为512×512的皮肤病图像,首先通过编码器部分,图片经过两次32个3×3的卷积核进行卷积,再通过ReLU函数和SE模块得到32个512×512×1的特征提取结果,得到第一层的处理结果。
将第一层的处理结果通过2×2的池化核,对图片下采样为原来大小的一半:256×256×32。将上述过程再经过三次同样操作得到编码器的输出结果,将其通过ASPP模块得到特征图为32×32×64;将结果通过ASPP模块输送至解码器部分。
在解码器部分,将32×32×64的特征图进行上采样,通道数不变,大小变为原来的两倍,得到64×64×64,将此特征图与编码器第四层相同尺寸的特征图进行拼接得到64×64×320,再经过两次卷积、CBAM模块得到解码器第一层的输出,相同的操作再经过三层;所述结构完整卷积核数量为为32→64→128→256→64→256→128→64→32,使得网络结构减少计算量,去除过多的冗余信息。
最后再经过一个1×1的卷积和Sigmoid激活函数,得到输出为512×512大小的分割图片。
SAC-UNet模型在公共数据集和自制数据集分别进行训练及测试,如图2至图3、图5至6所示,图2中UNet对进料口图像的前景区域unblocked分割mIoU值为0.79;图3中SAC-UNet对前景区域分割为0.91,提升了12%。实验结果表明该模型在减少了计算和内存开销的同时提升了分割的性能,同时图4为两种网络对进料口图像分割的实际效果图,图中明显看出,改进的网络在一些非目标区域的处理更好。
步骤三:利用改进的分割模型训练图像分割网络。
将步骤一中的公共数据集和划分的自制训练集图片送入步骤二构建的SAC-UNet的卷积神经网络分割模型进行训练;具体的操作方式为:用划分好的训练集来训练进料口图像以及公共皮肤病数据集图像,利用反向传播策略,使用RMSprop优化器更新训练权重,每次送入网络的训练样本批量为4,训练次数为40次,学习率为0.00001,采用二分类交叉熵值损失函数,用于计算网络输出和标签之间的损失。
步骤四:利用所述SAC-UNet神经网络模型对两组测试数据集进行分割识别,得到分割评价参数。
分割评价参数是采用mIoU均交并比分割精度指标来评估图像分割性能,mIoU公式如下:
其中,TP表示前景像素类被正确分类样本面积;FP表示背景像素类被错分为目标前景像素类样本面积;FN表示目标前景像素类被错分为背景像素类样本面积。
Claims (10)
1.一种基于SAC-UNet的高效语义分割方法,其特征在于:包括改进和训练分割模型,得到SAC-UNet神经网络模型,利用改进后得到的SAC-UNet神经网络模型对进料口图像和公开的皮肤病数据集进行分割检测,具体包括以下步骤:
步骤一:数据预处理;
数据集采用公共皮肤病数据集作为样本,自制数据集为进料口图像,分割任务为对原始进料口图像的前景区域分别进行像素级标注,得到人工进料口分割图像;两者共同建立进料口图像数据集;将进料口图像数据集进行数据增强处理,按比例划分训练集、验证集、测试集;
步骤二:搭建改进的分割模型,得到SAC-UNet神经网络模型;
基于传统的UNet分割模型,首先,通过减少卷积核数量以及对卷积层结构的调整,降低模型的计算资源消耗,缩减模型的参数;同时采用模块融合策略,该策略在编码器每一层中加入SE模块,通过对特征图的通道维度进行自适应的权重调整,使得网络能够更加关注重要的特征,并有效地减少无关信息的干扰;再在解码器中引入CBAM模块,在编码器与解码器之间采用跳连操作,通过通道和空间注意力机制,使得网络能够在不同尺度上有针对性地聚焦于目标区域;最后将ASPP模块置于编码器输出和解码器输入之间,将编码器的输出通过ASPP作为解码器的输入特征图;充分利用多尺度特征信息,增强模型对目标物体的感知能力;
步骤三:利用改进的分割模型训练图像分割网络;
将步骤一中的公共数据集和划分的自制训练集图片送入步骤二构建的SAC-UNet的卷积神经网络分割模型进行训练;
步骤四:利用所述SAC-UNet神经网络模型对两组测试数据集进行分割识别,得到分割评价参数。
2.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法,其特征在于:步骤一所述的样本包括训练样本共900张,测试样本379张;所述自制数据集的图像为来自化工制碱车间真实拍摄的进料口图像。
3.根据权利要求2所述的一种基于SAC-UNet的高效语义分割方法,其特征在于:步骤一所述的数据预处理操作包括:采用LabelMe软件对进料口数据集进行标注、二值化掩膜处理;为提升模型的精度和鲁棒性,对数据集进行数据增强操作,包括尺度剪裁、平移、随机旋转等方法,并将三通道RGB图像转换为灰度图像;按照8:2的比例对进料口数据集进行划分,将793张作为训练集,150张作为测试集,剩余8张作为预测图片。
4.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法,其特征在于:步骤二所述SAC-UNet神经网络模型的网络架构为:采用编码器-解码器作为主干网络,还包括依次连接的输入层、编码器部分、ASPP模块、解码器部分和输出层。
5.根据权利要求4所述的一种基于SAC-UNet的高效语义分割方法,其特征在于:所述的输入层输入大小为512×512的皮肤病图像,首先通过编码器部分,图片经过两次32个3×3的卷积核进行卷积,再通过ReLU函数和SE模块得到32个512×512×1的特征提取结果,得到第一层的处理结果;将第一层的处理结果通过2×2的池化核,对图片下采样为原来大小的一半:256×256×32;将上述过程再经过三次同样操作得到编码器的输出结果,将结果通过ASPP模块输送至解码器部分;在解码器部分,经过两次卷积、CBAM模块和上采样操作得出解码器的输出,最后再经过一个1×1的卷积和Sigmoid激活函数,得到输出为512×512大小的分割图片。
6.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法,其特征在于:步骤二所述的通过减少卷积核数量,卷积核数量为:32→64→128→256→64→256→128→64→32;使得网络结构减少计算量,去除过多的冗余信息。
7.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法,其特征在于:步骤二所述的SE模块包含Squeeze/压缩和Excitation/激励操作:在压缩操作中,SE模块使用全局平均池化层将特征图中每个通道的空间维度压缩成一个标量;激励操作中,通过一系列的线性变换/全连接层和非线性激活函数ReLU,将全局重要性得分调整为通道特定的权重;最终通过Sigmoid函数将这些权重归一化到0到1之间,以作为每个通道的权重;在编码器两次卷积之后,通过SE模块得到channel权重向量,原特征图与channel权重向量相乘,得到新的特征图;
所述CBAM模块结合了通道注意力模块和空间注意力模块两部分;CBAM模块使网络能够动态地关注到每个通道和空间的重要性,从而提升了特征的表达能力;
所述的ASPP模块包括以下几个部分:平均池化和上采样、多个带孔卷积、通道融合和1×1卷积;其作用是在不同的感受野下提取特征,以捕获图像中不同大小的物体或结构;具体步骤为:首先通过平均池化层对输入进行降采样,然后再通过上采样将降采样后的特征图恢复到与原图相同的尺寸,如此可获取一个相对较大感受野的特征图;然后,使用了3个不同膨胀率的卷积核(1、6、12、18)对输入进行卷积,扩大感受野;再将上述得到的特征图进行通道拼接;最后使用一个1x1的卷积核对通道进行降维,减少计算量。
8.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法,其特征在于:步骤二所述的在编码器与解码器之间采用跳连操作,是在编码器每层经过两次卷积加一层SE模块输出后的结果,与解码器尺寸大小相同的特征图进行拼接,拼接操作可以将低级别的详细特征与高级别的语义信息相结合,从而获得更全面的信息来进行精确的分割。
9.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法,其特征在于:步骤三所述的利用改进的分割模型训练图像分割网络,具体的操作方式为:用划分好的训练集来训练进料口图像以及公共皮肤病数据集图像,利用反向传播策略,使用RMSprop优化器更新训练权重,每次送入网络的训练样本批量为4,训练次数为40次,学习率为0.00001,采用二分类交叉熵值损失函数,用于计算网络输出和标签之间的损失。
10.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法,其特征在于:步骤四所述的分割评价参数是采用mIoU均交并比分割精度指标来评估图像分割性能,mIoU公式如下:
;
其中,TP表示前景像素类被正确分类样本面积;FP表示背景像素类被错分为目标前景像素类样本面积;FN表示目标前景像素类被错分为背景像素类样本面积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311424280.4A CN117475150A (zh) | 2023-10-31 | 2023-10-31 | 一种基于SAC-UNet的高效语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311424280.4A CN117475150A (zh) | 2023-10-31 | 2023-10-31 | 一种基于SAC-UNet的高效语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117475150A true CN117475150A (zh) | 2024-01-30 |
Family
ID=89623290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311424280.4A Pending CN117475150A (zh) | 2023-10-31 | 2023-10-31 | 一种基于SAC-UNet的高效语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117475150A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117856848A (zh) * | 2024-03-08 | 2024-04-09 | 北京航空航天大学 | 一种基于自动编码器结构的csi反馈方法 |
-
2023
- 2023-10-31 CN CN202311424280.4A patent/CN117475150A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117856848A (zh) * | 2024-03-08 | 2024-04-09 | 北京航空航天大学 | 一种基于自动编码器结构的csi反馈方法 |
CN117856848B (zh) * | 2024-03-08 | 2024-05-28 | 北京航空航天大学 | 一种基于自动编码器结构的csi反馈方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111950649B (zh) | 基于注意力机制与胶囊网络的低照度图像分类方法 | |
CN109685819B (zh) | 一种基于特征增强的三维医学图像分割方法 | |
CN111582044B (zh) | 基于卷积神经网络和注意力模型的人脸识别方法 | |
CN111340814A (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN112070158B (zh) | 一种基于卷积神经网络和双边滤波的面部瑕疵检测方法 | |
CN111860046B (zh) | 一种改进MobileNet模型的人脸表情识别方法 | |
CN117475150A (zh) | 一种基于SAC-UNet的高效语义分割方法 | |
CN111242181B (zh) | 基于图像语义和细节的rgb-d显著性物体检测器 | |
CN110569851A (zh) | 门控多层融合的实时语义分割方法 | |
CN113642445B (zh) | 一种基于全卷积神经网络的高光谱影像分类方法 | |
CN113971735A (zh) | 一种深度图像聚类方法、系统、设备、介质及终端 | |
CN111325766A (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
Luan et al. | Sunflower seed sorting based on convolutional neural network | |
CN114882278A (zh) | 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置 | |
CN114092467A (zh) | 一种基于轻量化卷积神经网络的划痕检测方法及系统 | |
CN116740808A (zh) | 基于深度学习目标检测和图像分类的动物行为识别方法 | |
CN110659724A (zh) | 一种基于目标尺度范围的目标检测卷积神经网络构建方法 | |
CN116385454A (zh) | 一种基于多阶段聚合的医学图像分割方法 | |
CN113255646A (zh) | 一种实时场景文本检测方法 | |
CN111626298A (zh) | 一种实时图像语义分割装置及分割方法 | |
Zhang et al. | Single-sample face recognition under varying lighting conditions based on logarithmic total variation | |
TW202030651A (zh) | 應用於深度學習之預特徵萃取方法 | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |