CN117475150A

CN117475150A - 一种基于SAC-UNet的高效语义分割方法

Info

Publication number: CN117475150A
Application number: CN202311424280.4A
Authority: CN
Inventors: 王大恒; 曹苏群; 程何康; 沈昕泽; 张弟; 吴建辉; 赵建雪; 鲍洁; 闫洪嘉
Original assignee: Huai'an Youxun Intelligent Technology Co ltd; Huaiyin Institute of Technology
Current assignee: Huai'an Youxun Intelligent Technology Co ltd; Huaiyin Institute of Technology
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-30

Abstract

一种基于SAC‑UNet的高效语义分割方法，包括：步骤一：数据预处理；步骤二：搭建改进的分割模型：基于传统的UNet分割模型，减少卷积核数量以及对卷积层结构进行调整，同时采用模块融合策略，在编码器每一层中加入SE模块，再对特征图的通道维度进行自适应的权重调整；并在解码器中引入CBAM模块；将ASPP模块置于编码器输出和解码器输入之间；步骤三：利用改进的分割模型训练图像分割网络；步骤四：利用所述SAC‑UNet神经网络模型对两组测试数据集进行分割识别，得到分割评价参数。本发明中的策略使得各个模块之间相互补充，有效提升了分割精度。分割模型在公共数据集和自制数据集分别进行训练及测试，实验结果表明该模型在减少计算和内存开销的同时，提升了分割的性能。

Description

一种基于SAC-UNet的高效语义分割方法

技术领域

本发明属于图像语义分割技术领域，具体涉及一种基于SAC-UNet的高效语义分割方法。

背景技术

在传统化工制碱车间中，进料口对纯碱的输送起到关键作用，但进料口时常会发生堵塞，现采用机器视觉的方式通过图像语义分割技术可以完成机器识别，不用人工监控。

UNet模型是一个基于卷积神经网络的图像分割网络,主要用于医学图像分割上，该模型最初提出时是用于细胞壁的分割,之后在皮肤病数据集病灶提取等方面都有着出色的表现。进料口图像和皮肤病图像同属二分类问题，可以将传统的UNet模型应用在进料口识别上，但UNet模型结构相对简单,在跳跃连接的过程中,不同重要程度的信息分配的计算资源是相同的,导致在特征提取的时候没有侧重点,并且传播的过程中没有考虑到可能会出现的网络退化的问题,存在优化的空间。并且进料口识别对实时性有较高的要求，传统的UNet网络在分割速度上明显不足。

发明内容

发明目的：

针对上述UNet网络在进料口图像上的分割速度慢的技术问题，本技术方案提供了一种基于SAC-UNet的高效语义分割方法，首先对UNet模型结构进行改进，以降低模型的计算资源消耗，大大缩减了模型的参数，从而提升分割速度。其次采用模块融合策略，使得各个模块之间相互补充，弥补了因卷积核数量减少而导致模型在特征提取方面能力下降的缺陷，有效地提升了分割精度；能有效的解决上述问题。

本发明通过以下技术方案实现：

一种基于SAC-UNet的高效语义分割方法，包括改进和训练分割模型，得到SAC-UNet神经网络模型，利用改进后得到的SAC-UNet神经网络模型对进料口图像和公开的皮肤病数据集进行分割检测，具体包括以下步骤：

步骤一：数据预处理；

数据集采用公共皮肤病数据集作为样本，自制数据集为进料口图像，分割任务为对原始进料口图像的前景区域分别进行像素级标注，得到人工进料口分割图像；两者共同建立进料口图像数据集；将进料口图像数据集进行数据增强处理，按比例划分训练集、验证集、测试集；

步骤二：搭建改进的分割模型，得到SAC-UNet神经网络模型；

基于传统的UNet分割模型，首先，通过减少卷积核数量以及对卷积层结构的调整，降低模型的计算资源消耗，缩减模型的参数；同时采用模块融合策略，该策略在编码器每一层中加入SE模块，通过对特征图的通道维度进行自适应的权重调整，使得网络能够更加关注重要的特征，并有效地减少无关信息的干扰；再在解码器中引入CBAM模块，通过通道和空间注意力机制，使得网络能够在不同尺度上有针对性地聚焦于目标区域；在编码器与解码器之间采用跳连操作；最后将ASPP模块置于编码器输出和解码器输入之间，将编码器的输出通过ASPP作为解码器的输入特征图；充分利用多尺度特征信息，增强模型对目标物体的感知能力；

步骤三：利用改进的分割模型训练图像分割网络；

将步骤一中的公共数据集和划分的自制训练集图片送入步骤二构建的SAC-UNet的卷积神经网络分割模型进行训练；

步骤四：利用所述SAC-UNet神经网络模型对两组测试数据集进行分割识别，得到分割评价参数。

进一步的，步骤一所述的样本包括训练样本共900张，测试样本379张；所述自制数据集的图像为来自化工制碱车间真实拍摄的进料口图像。

进一步的，步骤一所述的数据预处理操作包括：采用LabelMe软件对进料口数据集进行标注、二值化掩膜处理；为提升模型的精度和鲁棒性，对数据集进行数据增强操作，包括尺度剪裁、平移、随机旋转等方法，并将三通道RGB图像转换为灰度图像；按照8:2的比例对进料口数据集进行划分，将793张作为训练集，150张作为测试集，剩余8张作为预测图片。

进一步的，步骤二所述SAC-UNet神经网络模型的网络架构为：采用编码器-解码器作为主干网络，还包括依次连接的输入层、编码器部分、ASPP模块、解码器部分和输出层。

进一步的，所述的输入层输入大小为512×512的皮肤病图像，首先通过编码器部分，图片经过两次32个3×3的卷积核进行卷积，再通过ReLU函数和SE模块得到32个512×512×1的特征提取结果，得到第一层的处理结果；将第一层的处理结果通过2×2的池化核，对图片下采样为原来大小的一半：256×256×32；将上述过程再经过三次同样操作得到编码器的输出结果，将结果通过ASPP模块输送至解码器部分；在解码器部分，经过两次卷积、CBAM模块和上采样操作得出解码器的输出，最后再经过一个1×1的卷积和Sigmoid激活函数，得到输出为512×512大小的分割图片。

进一步的，步骤二所述的通过减少卷积核数量，卷积核数量为：32→64→128→256→64→256→128→64→32；使得网络结构减少计算量，去除过多的冗余信息。

进一步的，步骤二所述的SE模块包含Squeeze/压缩和Excitation/激励操作：在压缩操作中，SE模块使用全局平均池化层将特征图中每个通道的空间维度压缩成一个标量；激励操作中，通过一系列的线性变换/全连接层和非线性激活函数ReLU，将全局重要性得分调整为通道特定的权重；最终通过Sigmoid函数将这些权重归一化到0到1之间，以作为每个通道的权重；在编码器两次卷积之后，通过SE模块得到channel权重向量，原特征图与channel权重向量相乘，得到新的特征图；

所述CBAM模块结合了通道注意力模块和空间注意力模块两部分；CBAM模块使网络能够动态地关注到每个通道和空间的重要性，从而提升了特征的表达能力；

所述的ASPP模块包括以下几个部分：平均池化和上采样、多个带孔卷积、通道融合和1×1卷积；其作用是在不同的感受野下提取特征，以捕获图像中不同大小的物体或结构；具体步骤为：首先通过平均池化层对输入进行降采样，然后再通过上采样将降采样后的特征图恢复到与原图相同的尺寸，如此可获取一个相对较大感受野的特征图；然后，使用了3个不同膨胀率的卷积核（1、6、12、18）对输入进行卷积，扩大感受野；再将上述得到的特征图进行通道拼接；最后使用一个1x1的卷积核对通道进行降维，减少计算量。

进一步的，步骤二所述的在编码器与解码器之间采用跳连操作，是在编码器每层经过两次卷积加一层SE模块输出后的结果，与解码器尺寸大小相同的特征图进行拼接，拼接操作可以将低级别的详细特征与高级别的语义信息相结合，从而获得更全面的信息来进行精确的分割。

进一步的，步骤三所述的利用改进的分割模型训练图像分割网络，具体的操作方式为：用划分好的训练集来训练进料口图像以及公共皮肤病数据集图像，利用反向传播策略，使用RMSprop优化器更新训练权重，每次送入网络的训练样本批量为4，训练次数为40次，学习率为0.00001,采用二分类交叉熵值损失函数,用于计算网络输出和标签之间的损失。

进一步的，步骤四所述的分割评价参数是采用mIoU均交并比分割精度指标来评估图像分割性能，mIoU公式如下：

其中，TP表示前景像素类被正确分类样本面积；FP表示背景像素类被错分为目标前景像素类样本面积；FN表示目标前景像素类被错分为背景像素类样本面积。

有益效果

本发明提出的一种基于SAC-UNet的高效语义分割方法，与现有技术相比较，其具有以下有益效果：

本发明采用模块融合策略，该策略在编码器每一层中加入了SE模块，通过对特征图的通道维度进行自适应的权重调整，使得网络能够更加关注重要的特征并有效地减少了无关信息的干扰；在解码器中引入CBAM模块，通过通道和空间注意力机制，使得网络能够在不同尺度上有针对性地聚焦于目标区域；将ASPP模块置于编码器输出和解码器输入之间，充分利用多尺度特征信息，增强了模型对目标物体的感知能力。在150张进料口图像数据集上进行测试，如图2至图3所示，相同的条件下，SAC-UNet较UNet的分割效果，mIoU提高7.42%。

本发明对UNet模型结构进行改进，通过减少卷积核数量以及对卷积层结构的调整，降低了模型的计算资源消耗，相同条件下UNet训练出的参数文件大小为51.4MB，而SAC-UNet训练出的参数文件大小仅为14.7MB，大大缩减了模型的参数，从而提升分割速度。同时对7张验证图片进行，具体处理时间如图6所示，SAC-UNet平均处理时间仅为UNet的一半，由此可以看出SAC-UNet在参数计算上大大缩减了时间，从而提升了图像处理的时间，满足了工业图像处理上实时性高的要求。

附图说明

图1是本发明中SAC-UNet网络结构图。

图2是本发明中基于UNet模型的进料口分割结果图。

图3是本发明中基于SAC-UNet模型的进料口分割结果图。

图4是本发明中预测进料口图像分割结果对比图。

图5是本发明中训练参数大小对比图。

图6是本发明中处理进料口图像时间对比图。

图7是本发明中SE模块结构图。

图8是本发明中CBAM模块结构图。

图9是本发明中ASPP模块结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。在不脱离本发明设计构思的前提下，本领域普通人员对本发明的技术方案做出的各种变型和改进，均应落入到本发明的保护范围。

实施例1

步骤一：数据预处理。

数据集采用公共皮肤病数据集作为样本，训练样本共900张，测试样本379张。自制数据集为进料口图像，来自化工制碱车间真实拍摄，其分割任务同皮肤病数据集一样属于二分类任务，对原始进料口图像的前景区域分别进行像素级标注，得到人工进料口分割图像，两者共同建立进料口图像数据集；将进料口图像数据集进行数据增强处理，按比例划分训练集、验证集、测试集。

数据预处理操作包括：采用LabelMe软件对进料口数据集进行标注、二值化掩膜处理；为提升模型的精度和鲁棒性，对数据集进行数据增强操作，包括尺度剪裁、平移、随机旋转等方法，并将三通道RGB图像转换为灰度图像；按照8:2的比例对进料口数据集进行划分，将793张作为训练集，150张作为测试集，剩余8张作为预测图片。

步骤二：搭建改进的分割模型，得到SAC-UNet神经网络模型，如图1所示。

基于传统的UNet分割模型进行改进。首先，通过减少卷积核数量以及对卷积层结构的调整，降低模型的计算资源消耗，缩减模型的参数。

同时采用模块融合策略，该策略在编码器每一层中加入SE模块，具体SE模块如图7所述，SE模块包含Squeeze和Excitation两部分，Squeeze包含Global pooling，Excitation包含两次FC(全连接层)，两次激活函数。首先压缩操作将输入的W×H×C特征图通过全局平均池化变为1×1×C,再通过由两个全连接层和激活函数组成的激励操作，得到新的1×1×C特征，将其与原特征图进行scale操作，就是权重相乘。通过对特征图的通道维度进行自适应的权重调整，使得网络能够更加关注重要的特征，并有效地减少无关信息的干扰。

再在解码器中引入CBAM模块，CBAM模块如图8所示。该模块主要有通道注意力机制(Channel Attention Module)和空间注意力机制(Spatial Attention Module)组成。输入特征图x经过了通道注意力及空间注意力模块的处理，得到了一个注意力调控后的特征图。将注意力调控后的特征图与原始的特征图相加，实现了一种特征融合的操作。这个步骤的目的是保留了原始的特征信息，同时引入了一些注意力机制的调控，使得网络能够更加聚焦于重要的特征。通过通道和空间注意力机制，使得网络能够在不同尺度上有针对性地聚焦于目标区域

最后将ASPP模块置于编码器输出和解码器输入之间，如图9所示。ASPP首先对输入进行了一个2x2的自适应平均池化操作，然后通过一个1x1的卷积将通道数从256变为64得到特征图x0。同时四层卷积层使用不同的扩张率，可以在感受野内获取不同尺寸的信息。例如，self.c2的卷积核大小为3x3，但通过了扩张率为6的卷积，使得其感受野相当于一个11x11的卷积核。Concat将x0和四个卷积层的输出在通道维度上拼接在一起，形成一个维度为320的特征图。最后通过一个1x1的卷积层将通道数调整为64，得到最终的输出。

在编-解码器中间加上ASPP模块，将编码器的输出通过ASPP作为解码器的输入特征图；充分利用多尺度特征信息，增强模型对目标物体的感知能力。通过不同感受野获取特征，提高网络对物体的识别能力，增强了模型对目标物体的感知能力。上述策略使得各个模块之间相互补充，弥补了因卷积核数量减少而导致模型在特征提取方面能力下降的缺陷，有效地提升了分割精度。

在编码器与解码器之间采用跳连操作，是在编码器每层经过两次卷积加一层SE模块输出后的结果，与解码器尺寸大小相同的特征图进行拼接，拼接操作可以将低级别的详细特征与高级别的语义信息相结合，从而获得更全面的信息来进行精确的分割。

改进后的分割模型如图1所示，SAC-UNet神经网络模型的网络架构为：采用编码器-解码器作为主干网络，包括依次连接的输入层、编码器部分、ASPP模块、解码器部分和输出层。

输入层输入大小为512×512的皮肤病图像，首先通过编码器部分，图片经过两次32个3×3的卷积核进行卷积，再通过ReLU函数和SE模块得到32个512×512×1的特征提取结果，得到第一层的处理结果。

将第一层的处理结果通过2×2的池化核，对图片下采样为原来大小的一半：256×256×32。将上述过程再经过三次同样操作得到编码器的输出结果，将其通过ASPP模块得到特征图为32×32×64；将结果通过ASPP模块输送至解码器部分。

在解码器部分，将32×32×64的特征图进行上采样，通道数不变，大小变为原来的两倍，得到64×64×64，将此特征图与编码器第四层相同尺寸的特征图进行拼接得到64×64×320，再经过两次卷积、CBAM模块得到解码器第一层的输出，相同的操作再经过三层；所述结构完整卷积核数量为为32→64→128→256→64→256→128→64→32，使得网络结构减少计算量，去除过多的冗余信息。

最后再经过一个1×1的卷积和Sigmoid激活函数，得到输出为512×512大小的分割图片。

SAC-UNet模型在公共数据集和自制数据集分别进行训练及测试，如图2至图3、图5至6所示，图2中UNet对进料口图像的前景区域unblocked分割mIoU值为0.79；图3中SAC-UNet对前景区域分割为0.91，提升了12%。实验结果表明该模型在减少了计算和内存开销的同时提升了分割的性能，同时图4为两种网络对进料口图像分割的实际效果图，图中明显看出，改进的网络在一些非目标区域的处理更好。

步骤三：利用改进的分割模型训练图像分割网络。

将步骤一中的公共数据集和划分的自制训练集图片送入步骤二构建的SAC-UNet的卷积神经网络分割模型进行训练；具体的操作方式为：用划分好的训练集来训练进料口图像以及公共皮肤病数据集图像，利用反向传播策略，使用RMSprop优化器更新训练权重，每次送入网络的训练样本批量为4，训练次数为40次，学习率为0.00001,采用二分类交叉熵值损失函数,用于计算网络输出和标签之间的损失。

分割评价参数是采用mIoU均交并比分割精度指标来评估图像分割性能，mIoU公式如下：

Claims

1.一种基于SAC-UNet的高效语义分割方法，其特征在于：包括改进和训练分割模型，得到SAC-UNet神经网络模型，利用改进后得到的SAC-UNet神经网络模型对进料口图像和公开的皮肤病数据集进行分割检测，具体包括以下步骤：

步骤一：数据预处理；

步骤二：搭建改进的分割模型，得到SAC-UNet神经网络模型；

基于传统的UNet分割模型，首先，通过减少卷积核数量以及对卷积层结构的调整，降低模型的计算资源消耗，缩减模型的参数；同时采用模块融合策略，该策略在编码器每一层中加入SE模块，通过对特征图的通道维度进行自适应的权重调整，使得网络能够更加关注重要的特征，并有效地减少无关信息的干扰；再在解码器中引入CBAM模块，在编码器与解码器之间采用跳连操作，通过通道和空间注意力机制，使得网络能够在不同尺度上有针对性地聚焦于目标区域；最后将ASPP模块置于编码器输出和解码器输入之间，将编码器的输出通过ASPP作为解码器的输入特征图；充分利用多尺度特征信息，增强模型对目标物体的感知能力；

步骤三：利用改进的分割模型训练图像分割网络；

2.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法，其特征在于：步骤一所述的样本包括训练样本共900张，测试样本379张；所述自制数据集的图像为来自化工制碱车间真实拍摄的进料口图像。

3.根据权利要求2所述的一种基于SAC-UNet的高效语义分割方法，其特征在于：步骤一所述的数据预处理操作包括：采用LabelMe软件对进料口数据集进行标注、二值化掩膜处理；为提升模型的精度和鲁棒性，对数据集进行数据增强操作，包括尺度剪裁、平移、随机旋转等方法，并将三通道RGB图像转换为灰度图像；按照8:2的比例对进料口数据集进行划分，将793张作为训练集，150张作为测试集，剩余8张作为预测图片。

4.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法，其特征在于：步骤二所述SAC-UNet神经网络模型的网络架构为：采用编码器-解码器作为主干网络，还包括依次连接的输入层、编码器部分、ASPP模块、解码器部分和输出层。

5.根据权利要求4所述的一种基于SAC-UNet的高效语义分割方法，其特征在于：所述的输入层输入大小为512×512的皮肤病图像，首先通过编码器部分，图片经过两次32个3×3的卷积核进行卷积，再通过ReLU函数和SE模块得到32个512×512×1的特征提取结果，得到第一层的处理结果；将第一层的处理结果通过2×2的池化核，对图片下采样为原来大小的一半：256×256×32；将上述过程再经过三次同样操作得到编码器的输出结果，将结果通过ASPP模块输送至解码器部分；在解码器部分，经过两次卷积、CBAM模块和上采样操作得出解码器的输出，最后再经过一个1×1的卷积和Sigmoid激活函数，得到输出为512×512大小的分割图片。

6.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法，其特征在于：步骤二所述的通过减少卷积核数量，卷积核数量为：32→64→128→256→64→256→128→64→32；使得网络结构减少计算量，去除过多的冗余信息。

7.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法，其特征在于：步骤二所述的SE模块包含Squeeze/压缩和Excitation/激励操作：在压缩操作中，SE模块使用全局平均池化层将特征图中每个通道的空间维度压缩成一个标量；激励操作中，通过一系列的线性变换/全连接层和非线性激活函数ReLU，将全局重要性得分调整为通道特定的权重；最终通过Sigmoid函数将这些权重归一化到0到1之间，以作为每个通道的权重；在编码器两次卷积之后，通过SE模块得到channel权重向量，原特征图与channel权重向量相乘，得到新的特征图；

8.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法，其特征在于：步骤二所述的在编码器与解码器之间采用跳连操作，是在编码器每层经过两次卷积加一层SE模块输出后的结果，与解码器尺寸大小相同的特征图进行拼接，拼接操作可以将低级别的详细特征与高级别的语义信息相结合，从而获得更全面的信息来进行精确的分割。

9.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法，其特征在于：步骤三所述的利用改进的分割模型训练图像分割网络，具体的操作方式为：用划分好的训练集来训练进料口图像以及公共皮肤病数据集图像，利用反向传播策略，使用RMSprop优化器更新训练权重，每次送入网络的训练样本批量为4，训练次数为40次，学习率为0.00001,采用二分类交叉熵值损失函数,用于计算网络输出和标签之间的损失。

10.根据权利要求1所述的一种基于SAC-UNet的高效语义分割方法，其特征在于：步骤四所述的分割评价参数是采用mIoU均交并比分割精度指标来评估图像分割性能，mIoU公式如下：

；