CN115861323A

CN115861323A - 基于精细化分割网络的皮革缺陷检测方法

Info

Publication number: CN115861323A
Application number: CN202310173909.6A
Authority: CN
Inventors: 韩军; 王愉锦; 黄惠玲; 付磊
Original assignee: Quanzhou Institute of Equipment Manufacturing
Current assignee: Quanzhou Institute of Equipment Manufacturing
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-03-28
Anticipated expiration: 2043-02-28
Also published as: CN115861323B

Abstract

本发明涉及皮革表面缺陷检测技术领域，提出了一种基于精细化分割网络的皮革缺陷检测方法，包括：在编码端,采用五组卷积层对提取图像特征；前三组卷积中,卷积后对图像进行最大池化下采样操作,后两组卷积采用重叠池化的方式代替普通下采样,第五组卷积层引入级联扩张卷积模块进行密集预测，跳跃长连接中添加特征融合模块；在解码端,将特征融合模块中得到的结果复制到通道注意力机制解码模块,与该层对应的特征张量共同指导网络自适应地提取缺陷相关通道信息，在路径顶端嵌入了全局平均池化模块,作为第五组卷积层解码模块中的高层语义输入；对结果进行量化,选用语义分割中的像素精度、平均像素精度、平均交并比和加权交并比作为模型评价指标。

Description

基于精细化分割网络的皮革缺陷检测方法

技术领域

本发明涉及皮革表面缺陷检测技术领域，特别涉及一种基于精细化分割网络的皮革缺陷检测方法。

背景技术

在皮革原料加工前后, 多种因素会导致表面损伤, 如蝇虫叮咬、烙铁标记、机械拉扯等。皮革作为日用品的必需材料，表面缺陷关乎后续的生产加工工作，决定了产品的使用寿命，随着市场对皮革质量要求的不断提升，这一制约我国制革业发展的因素也变得尤为突出。设计一种自动化的缺陷分割检测技术，对实现我国制革业自动化和产业化具有重要的实际效益。

在皮革缺陷分割领域，目前的研究主要集中于传统分割算法，如阈值法、边缘法、频谱法和聚类法等。Kumar等人将颜色特征用于阈值分割，提出多级颜色阈值函数检测皮革缺陷；Kasi等人提出一种自适应边缘检测算法，相较Sobel等传统检测器，能够更清晰地提取不规则的皮革缺陷边界；Sobral等人基于小波变换的方法，对特征变化轻微的缺陷也能达到较为精确的分割效果；贺福强等人将粒子群优化算法和模糊聚类算法相结合，以达到全局性和快速收敛性，实现缺陷纹理信息聚类。然而，传统的图像分割算法对光照和颜色变换非常敏感，通常要手动调整阈值，甚至重新设计特征提取器，难以适应实际复杂的工业场景中的缺陷检测。

近年来，深度学习发展迅速，语义分割作为该领域的分割技术，其自学习特性能够显著降低外界条件对模型造成的干扰，给相关研究带来了新的思路。该技术可以分为以下4类。

(1) 基于编码-解码的技术。全卷积网络(fully convolutional networks, FCN)通过给每个像素精确的类别定义，实现端到端分割，但其跳跃连接结构只是将图像粗糙地上采样，导致分割效果不佳；基于该问题，Ronneberger等人提出了一种编码-解码结构的U-Net网络，该网络通过在扩张路径中融合该层收缩路径结果，获得图像分辨率信息，其网络模型及其变体已被广泛应用于医学图像分割领域。

(2) 基于感受野的技术。Chen等人在DeepLab v1中提出扩张卷积，通过在卷积核里插孔的方式调节卷积核大小，以获取更多感受野信息；而Peng等人直接在网络中引入大卷积核来增加感受野，实验结果表明大卷积核对于提升感受野是有先天性优势的。

(3) 基于特征融合的技术。ParseNet通过将反池化后的全局特征与局部特征串联融合，以此来添加上下文信息；ExFuse则采用交叉融合的方式，通过高低层信息之间的相互补充，获取更好的分割效果。

(4) 基于注意力机制的技术。针对传统FCN网络提取的特征导致目标错误分类问题，Fu等人提出了包含空间域和通道域的双注意网络，该模型能够加强图像局部信息和全局信息的依赖关系，显式提升模型精度；Li等人将多尺度与注意力机制相融合，利用金字塔模型融合不同尺度的上下文信息，增强像素分类的一致性。

语义分割在像素级别对图像分类，能有效减少人工设计特征提取器的繁琐工序。但目前将语义分割应用在皮革缺陷分割的研究还相对较少，Liong等人尝试将实例分割用于确定蜱虫叮咬缺陷边界，验证了深度学习方法在皮革缺陷分割中的可行性。随后，又设计了基于AlexNet和U-Net的自动缺陷分割方法，在包含黑线和皱纹的数据集中获得了超过90%的准确率。

这些方法中的皮革缺陷区分度较大，且类型单一，缺乏对多缺陷类型的复杂场景的分割。特别是皮革在天然环境下因损伤程度不同表现出的形态差异，极容易造成类间错分和漏分，增加任务的分割难度。为了改善以上问题以及解决皮革缺陷尺寸变化大形态相似导致的分割问题，本案提出了一种基于改进U-Net的端到端、精细化的语义分割方法。用于解决皮革缺陷尺寸变化大形态相似导致的分割问题。

发明内容

因此，针对上述的问题，本发明提出提出了一种基于改进U-Net的端到端、精细化的语义分割方法的基于精细化分割网络的皮革缺陷检测方法。

为解决上述技术问题，本发明采取的解决方案为:基于精细化分割网络的皮革缺陷检测方法，包括：

在编码端, 采用五组卷积层对图像进行特征提取,前三组卷积中, 每组卷积完成后对图像进行最大池化下采样操作, 后两组卷积采用重叠池化的方式代替普通下采样,这种方式输出的特征图尺寸为原始图像的1/8, 保留了原图丰富的分辨率信息；由于池化方式的改变，会造成步长减小，从而导致网络的感受野变小，为弥补图像在特征提取过程中损失的感受野信息，在第五组卷积层引入级联扩张卷积模块进行密集预测；为了克服解码端高低层特征张量直接拼接带来的语义鸿沟问题, 在跳跃长连接中添加了特征融合模块,采用将高级语义信息引入低级特征的方式, 使低级特征张量编码更多语义信息；

在解码端, 将第一层、第二层、第三层、第四层、第五层编码端层级输出的特征图经过特征融合模块后，将得到的结果与解码端同一层级的特征张量共同作为输入每一层级的通道注意力机制解码模块中，指导网络自适应地提取缺陷相关通道信息；为了整合编码端抽象语义信息, 在路径顶端嵌入了全局平均池化模块(global average poolingmodule, GAPM), 将其作为第五组卷积层解码模块中的高层语义输入, 进一步指导网络将注意力集中于缺陷形态特征；

为了评估算法模型性能, 对分割结果进行量化, 选用语义分割中常用的像素精度(pixel accracy, PA)、平均像素精度(mean pixel accuracy, MPA)、平均交并比(meanintersection over union, MIoU)和加权交并比(frequency weighted intersectionover union, FWIoU)作为模型的评价指标；其中, MIoU是语义分割领域中衡量算法精度的通用度量, 作为主要性能指标。

进一步改进的是：下采样具有降维和提取缺陷特征的能力,但过程中损失的像素信息难以恢复, 而皮革缺陷包含了丰富的形态特征, 其中，低层分辨率信息对于皮革正确分割至关重要，因此，为了保留原始图像空间细节, 通过采取减少下采样次数的策略, 来缓解低层分辨率信息丢失问题；

，

上式为感受野计算公式, 其中,

和/>

分别表示第l-1和l层感受野, k _l为第l层卷积核大小, si为第i层步长；可以看出, 取消下采样操作会使si减小, 从而感受野减小, 导致网络识别多尺度缺陷的能力降低，因此，为了弥补降低下采样次数对感受野造成的损失, 在第五层级引入了级联扩张卷积模块；

所述级联扩张卷积模块由三个连续的子模块组成, 每个子模块中都包含一个D_ conv和一个ReLU激活函数, 其中, D_conv[(3, 3), d]代表扩张卷积运算, (3, 3)和d分别代表卷积核大小和扩张系数；

所述级联扩张卷积模块中的扩张卷积通过在卷积核中相邻两个权值之间补零的方式增大卷积核, 一定程度上能增大感受野面积，其中, 新的卷积核尺寸计算公式如式(2)所示：

；

其中, kori代表原始卷积核大小, r代表扩张系数, knew为得到的新的卷积核大小，所述级联扩张卷积模块通过改变扩张系数r的方式来调整卷积核尺寸, 从而识别更大范围的缺陷信息，弥补了下采样次数减少带来视野不足的问题, 提高网络识别多尺度缺陷的能力。其中, kori代表原始卷积核大小, r代表扩张系数, knew为得到的新的卷积核大小，所述级联扩张卷积模块通过改变扩张系数r的方式来调整卷积核尺寸, 从而识别更大范围的缺陷信息，弥补了下采样次数减少带来视野不足的问题, 提高网络识别多尺度缺陷的能力。

进一步改进的是：在恢复原始分辨率的过程中, 由于编码端传递的低层特征与解码端的深层特征语义差别较大, 直接融合会产生鸿沟,导致分割结果不精确，需要对传入的特征图进行处理以降低语义鸿沟对识别结果造成的影响；因此，在跳跃长连接中添加了特征融合模块,所述特征融合模块通过在低层特征张量中引入高层语义信息的方式, 尽可能减少高低特征之间的语义差异；

所述特征融合模块包含融合模块(fusion module, FM)和上采样模块(upsampling module, UM)两部分，将上采样模块生成的高级信息引入低级特征, 可以使低级特征编码更多语义信息, 获得相对清晰的语义边界，该过程可以用公式表述为:

；

其中,

表示低级特征图, />

代表经上采样模块生成的中间特征张量, />

为该层级最终输出特征图, l和T分别代表当前层数和总层数；该式可以描述为: 将第l层输入特征图/>

经过该模块, 生成的/>

作为解码端输入；

经过上采样模块, 完成对l+1至T层特征图上采样后的拼接融合, 得到包含丰富语义信息的中间特征张量

, 用公式表述为:/>

；

其中, up()代表双线性插值上采样操作, concat()代表在通道维度上进行向量拼接；

生成的中间张量

与输入特征图/>

在融合模块中分别进行上方分支、下方分支两路操作：

对融合模块上方分支，将

输入到一个3×3大小的卷积进行特征抽取, 得到低维张量/>

, 用公式表述为:

；

其中，conv(A, b)代表卷积运算, A为输入特征图, b为卷积核尺寸，在这里, A代表

, b为3；

对融合模块下方分支，将输入端

依次经过一个1×1卷积和一个3×3卷积, 这两组卷积起到了降维和提取全局信息的作用, 可以得到高维特征张量/>

，用公式表述为:

；

将结果

进行双线性插值上采样, 然后与/>

逐像素相乘, 得到输出特征图/>

，该过程如下公式所示：

；

其中，

代表点乘运算，/>

为包含更多语义信息的特征张量, 将其代替原始特征图/>

, 作为该层编码端最终输出结果。

进一步改进的是：皮革缺陷图像具有对比度低、类间相似度高的特点, 并且包含了丰富的纹理形态和细节特征, 这就导致在恢复分辨率的过程中容易产生边缘模糊、分割不精细等结果，所述通道注意力机制的解码模块融合了高低层特征信息作为语义指导, 对低层特征张量进行加权, 从而自适应地关联缺陷相关通道, 细化网络分割结果；所述通道注意力机制的解码模块的输入端

、/>

分别代表低层和高层特征图, 对其在通道维度上进行拼接, 可以得到拼接张量/>

, 用公式可以表示为:

；

将特征张量D作为输入, 对其分别进行全局最大池化和全局平均池化, 生成全局统计向量

和/>

, 其中M和N中的每个向量值Mc和Nc可以表示为: />

；/>

，

然后, 将M和N进行逐像素相加, 得到融合了上下文最大语义信息和平均语义信息的向量

，将得到的向量P依次经过1×1卷积/>

、ReLU函数、1×1卷积/>

和Sigmoid激活函数, 实现通道间信息交流和整合, 生成权值向量/>

，Z包含了[0,1]区间内对L每个通道的选择权重, 其值越接近1, 表示该通道与缺陷信息的关联程度越大，具体公式为:

；

将Z作为输入, 和低层输入特征L进行逐像素相乘得到

, 完成对低层特征L的加权，加权过程可以用公式表述为:

；

最后, 对高层特征进行上采样, 将其结果与S进行像素相加, 得到该层编码端最终输出

, 用公式可以表示为：

；

为了聚集高层语义信息, 在编码端顶部嵌入了全局平均池化模块，对于输入特征图W, 在通道维度上对其进行全局平均池化, 然后得到的每一通道的向量值重新复制到原有图像尺寸, 得到的特征图G作为第五层解码模块的高层输入，该过程可以用公式表述,其中 gap()代表全局平均池化操作：

；

完整的解码流程如下公式所示：

；

其中, i代表不同层级序号值, 对于前四个层级, 低层特征图L和高层特征图H分别为第i层级和第i+1层级特征融合模块的输出值, 对于第五层级, 将经过全局平均池化模块后的结果G作为高层输入信息。

进一步改进的是：PA表示正确标记的像素点占总像素点的比例, 计算公式为:

。

进一步改进的是：MPA代表对每类分类正确的像素点数占该类像素的比值求平均后的结果, 如下式所示:

。

进一步改进的是：MIoU为预测值和真实值交集与并集的比值, 然后对所有类别求均值后的结果, 如下式所示:

。

进一步改进的是：FWIoU根据每一类出现的频率, 对每一类的IoU值进行加权求和, 如下式所示:

。

通过采用前述技术方案，本发明的有益效果是：

本案提出了一种基于改进U-Net结构的皮革表面缺陷分割方法, 采用级联扩张卷积模块对编码端进行优化, 可以缓解感受野下降造成分割能力不足的问题, 通过在长程跳跃连接中添加特征融合模块, 使低层特征张量中包含更多高级语义信息, 有效缓解语义鸿沟问题, 最后通过通道注意力机制让网络自适应关联缺陷相关通道, 聚焦于缺陷细节形态, 从而精细化分割结果。

下采样具有降维和提取缺陷特征的能力, 但过程中损失的像素信息难以恢复,而皮革缺陷包含了丰富的形态特征, 低层分辨率信息对于正确分割至关重要，为了保留原始图像空间细节,通过采取减少下采样次数的策略, 缓解了因此造成的分辨率信息丢失问题。

取消下采样操作会使感受野减小, 导致网络识别多尺度缺陷的能力降低，为了弥补降低下采样次数对感受野造成的损失, 模型在第五层级引入了级联扩张卷积模块,该模块中的扩张卷积通过在卷积核中相邻两个权值之间补零的方式增大卷积核, 一定程度上能增大感受野面积；级联扩张卷积模块通过改变扩张系数的方式来调整卷积核尺寸, 从而识别更大范围的缺陷信息，该方法能够在一定程度上弥补了下采样次数减少带来视野不足的问题, 提高网络识别多尺度缺陷的能力。

在恢复原始分辨率的过程中, 由于编码端传递的低层特征与解码端的深层特征语义差别较大, 直接融合会产生鸿沟, 导致分割结果不精确，因此本案改进了跳跃长连接, 在此基础上增添了特征融合模块，该模块通过在低层特征张量中引入高层语义信息的方式,使低级特征张量编码更多语义信息，尽可能减少高低特征之间的语义差异，克服了解码端高低层特征张量直接拼接带来的语义鸿沟问题。

皮革缺陷图像具有对比度低、类间相似度高的特点, 并且包含了丰富的纹理形态和细节特征, 这就导致在恢复分辨率的过程中容易产生边缘模糊、分割不精细等结果，本案提出了一种基于通道注意力机制的解码模块, 该模块融合高低层特征信息作为语义指导, 对低层特征张量进行加权, 从而自适应地关联缺陷相关通道, 细化网络分割结果。

附图说明

图1是本发明实施例基于精细化分割网络的皮革缺陷检测方法中网络结构模型框架图。

图2是本发明实施例基于精细化分割网络的皮革缺陷检测方法中级联扩张卷积模块图。

图3是本发明实施例基于精细化分割网络的皮革缺陷检测方法中特征融合模块图。

图4是本发明实施例基于精细化分割网络的皮革缺陷检测方法中通道注意力解码模块图。

图5是本发明实施例基于精细化分割网络的皮革缺陷检测方法中全局平均池化模块图。

图6是本发明实施例基于精细化分割网络的皮革缺陷检测方法中皮革缺陷类型图。

图7是本发明实施例基于精细化分割网络的皮革缺陷检测方法中图像裁剪示意图。

图8是本发明实施例基于精细化分割网络的皮革缺陷检测方法中三种融合结构图。

图9是本发明实施例基于精细化分割网络的皮革缺陷检测方法中包含单类缺陷的分割结果图。

图10是本发明实施例基于精细化分割网络的皮革缺陷检测方法中混合缺陷的分割结果图。

具体实施方式

现结合附图和具体实施例对本发明进一步说明。

参考图1至图10，本发明实施例所揭示的是基于精细化分割网络的皮革缺陷检测方法，包括：

1算法：

1.1算法的网络结构：

针对皮革缺陷尺寸不一且局部相似度高导致图像难以分割的问题, 本案提出了一种基于改进U-Net结构的语义分割网络, 其框架如图1所示。在编码端, 采用五组卷积层对图像进行特征提取，前三组卷积中, 每组卷积完成后对图像进行最大池化下采样操作,后两组卷积采用重叠池化的方式代替普通下采样, 这种方式输出的特征图尺寸为原始图像的1/8, 保留了原图丰富的分辨率信息。同时, 由于池化方式的改变，会造成步长减小，从而导致网络的感受野变小，为弥补图像在特征提取过程中损失的感受野信息，在第五组卷积层引入级联扩张卷积模块进行密集预测。为了克服解码端高低层特征张量直接拼接带来的语义鸿沟问题, 在跳跃长连接中添加了特征融合模块, 采用将高级语义信息引入低级特征的方式, 使低级特征张量编码更多语义信息。

在解码端, 将第一层、第二层、第三层、第四层、第五层编码端层级输出的特征图经过特征融合模块后，将得到的结果与解码端同一层级的特征张量共同作为输入每一层级的通道注意力机制解码模块中，指导网络自适应地提取缺陷相关通道信息。在路径顶端嵌入了全局平均池化模块(global average pooling module, GAPM), 将其作为第五组卷积层解码模块中的高层语义输入, 进一步指导网络将注意力集中于缺陷形态特征。

1.2级联扩张卷积模块：

下采样具有降维和提取缺陷特征的能力, 但过程中损失的像素信息难以恢复,而皮革缺陷包含了丰富的形态特征, 低层分辨率信息对于正确分割至关重要。为了保留原始图像空间细节, 本案模型采取减少下采样次数的策略, 缓解了因此造成的低层分辨率信息丢失问题。式(1)为感受野计算公式, 其中,

和/>

分别表示第l-1和l层感受野, kl为第l层卷积核大小, si为第i层步长；

可以看出, 取消下采样操作会使si减小, 从而感受野减小, 导致网络识别多尺度缺陷的能力降低。为了弥补降低下采样次数对感受野造成的损失, 模型在第五层级引入了级联扩张卷积模块, 结构示意图如图2所示，该模块由三个连续的子模块组成, 每个子模块中都包含一个D_conv和一个ReLU激活函数, 其中, D_conv[(3, 3), d]代表扩张卷积运算, (3, 3)和d分别代表卷积核大小和扩张系数。

该模块中的扩张卷积通过在卷积核中相邻两个权值之间补零的方式增大卷积核,一定程度上能增大感受野面积。

其中, 新的卷积核尺寸计算公式如式(2)所示：

，

其中, kori代表原始卷积核大小, r代表扩张系数, knew为得到的新的卷积核大小，级联扩张卷积模块通过改变扩张系数r的方式来调整卷积核尺寸, 从而识别更大范围的缺陷信息，该方法能够在一定程度上弥补下采样次数减少带来视野不足的问题, 提高网络识别多尺度缺陷的能力。

1.3特征融合模块：

在恢复原始分辨率的过程中, 由于编码端传递的低层特征与解码端的深层特征语义差别较大, 直接融合会产生鸿沟, 导致分割结果不精确. 因此需要对传入的特征图进行处理, 降低语义鸿沟对识别结果造成的影响。

受ExFuse的启发, 本案改进了跳跃长连接, 在此基础上增添了特征融合模块.该模块通过在低层特征张量中引入高层语义信息的方式, 尽可能减少高低特征之间的语义差异，结构图如图3所示, 包含融合模块(fusion module, FM)和上采样模块(upsampling module, UM)两部分。将上采样模块生成的高级信息引入低级特征, 可以使低级特征编码更多语义信息, 获得相对清晰的语义边界. 该过程可以用公式表述为:

，

其中,

表示低级特征图,/>

代表经上采样模块生成的中间特征张量,/>

为该层级最终输出特征图, l和T分别代表当前层数和总层数. 该式可以描述为: 将第l层输入特征图/>

经过该模块, 生成的/>

作为解码端输入。

融合模块和上采样模块如图3所示。首先, 经过上采样模块, 完成对l+1至T层特征图上采样后的拼接融合, 得到包含丰富语义信息的中间特征张量

, 用公式表述为:

，

其中, up()代表双线性插值上采样操作, concat()代表在通道维度上进行向量拼接。

其次, 生成的中间张量

与输入特征图/>

在融合模块中分别进行两路操作.对于上方分支, 将/>

输入到一个3×3大小的卷积进行特征抽取, 得到低维张量/>

, 用公式表述为:/>

，

其中，conv(A, b)代表卷积运算, A为输入特征图, b为卷积核尺寸. 在这里, A代表

，b为3。对于融合模块下方分支, 将输入端依次经过一个1×1卷积和一个3×3卷积, 这两组卷积起到了降维和提取全局信息的作用, 可以得到高维特征张量/>

，如式(6)所示:

，

将结果

进行双线性插值上采样, 然后与/>

逐像素相乘, 得到输出特征图/>

该过程如公式(7)所示：

，

其中，

代表点乘运算，/>

为包含更多语义信息的特征张量, 将其代替原始特征图/>

，作为该层编码端最终输出结果。

1.4通道注意力解码模块：

皮革缺陷图像具有对比度低、类间相似度高的特点, 并且包含了丰富的纹理形态和细节特征, 这就导致在恢复分辨率的过程中容易产生边缘模糊、分割不精细等结果. 针对这一问题, 本案提出了一种基于通道注意力机制的解码模块, 该模块融合高低层特征信息作为语义指导, 对低层特征张量进行加权, 从而自适应地关联缺陷相关通道, 细化网络分割结果.

图4给出了该模型的结构图, 输入端

、/>

，用公式可以表示为:

，

和/>

其中M和N中的每个向量值Mc和Nc可以表示为:

，

。

，将得到的向量P依次经过1×1卷积/>

、ReLU函数1×1卷积/>

和Sigmoid激活函数, 实现通道间信息交流和整合, 生成权值向量/>

。 Z包含了[0, 1]区间内对L每个通道的选择权重, 其值越接近1, 表示该通道与缺陷信息的关联程度越大. 具体公式为:

，

将Z作为输入, 和低层输入特征L进行逐像素相乘得到

，完成对低层特征L的加权. 加权过程可以用公式表述为:

，

，用公式可以表示为：

，

此外, 为了聚集高层语义信息, 本案在编码端顶部嵌入了全局平均池化模块,其原理如图5所示. 对于输入特征图W, 在通道维度上对其进行全局平均池化, 然后得到的每一通道的向量值重新复制到原有图像尺寸, 得到的特征图G作为第五层解码模块的高层输入. 该过程可以用公式(14)表述, gap()代表全局平均池化操作：

，

完整的解码流程如公式(15)所示：

，

2实验设置

2.1实验数据：

实验使用皮革缺陷数据由峰安皮业股份有限公司提供, 包含开创伤、刺刮伤、烙印、破洞、皮肤藓、烂面、刺猴7种缺陷类型, 图6展示了每种缺陷的具体形态, 其中还包括一类无缺陷样本。

原始数据集中有131张3072×2048大小的图像，为扩充小样本数据集, 需对原始图像进行切割. 使用768×768大小的目标窗在原始图片上进行顺序裁剪, 可以得到15张带有部分重叠区域的图像, 如图7所示, 所得图像尺寸与目标窗相同。

另外，由于动物生前习性与机械工艺不同，导致各类缺陷数量有所差异，如刺刮伤在原始数据集中呈横跨范围大、数量多的特点，而刺猴、烂面等则表现出聚集性和偶然性。为避免类别不均衡导致的分割误差，需对部分缺陷样本进行数据增强。统计包含每种缺陷类型的图像在扩充后数据集中的占比，对统计值远小于1/7的皮肤藓、破洞、刺猴和烂面进行增强，增强方式为随机在该缺陷类别内选取一定量数据，通过左旋90°、左右镜像翻转、添加高斯噪声和模糊的方式，使得增强后的图像在总缺陷图像中的占比约为1/7。剔除失误样本后，共计得到1965张768×768大小的图像。对其按照7:1:2的比例进行随机划分, 可以得到1638张训练图像, 235张验证图像和468张测试图像。

2.2评价指标：

为了评估模型性能, 本案对分割结果进行量化, 选用语义分割中常用的像素精度(pixel accracy, PA)、平均像素精度(mean pixel accuracy, MPA)、平均交并比(meanintersection over union, MIoU)和加权交并比(frequency weighted intersectionover union, FWIoU)作为模型的评价指标。其中, MIoU是语义分割领域中衡量算法精度的通用度量, 作为主要性能指标。

其中, PA表示正确标记的像素点占总像素点的比例, 计算公式为:

，

MPA代表对每类分类正确的像素点数占该类像素的比值求平均后的结果, 如式(17)所示:

，

MIoU为预测值和真实值交集与并集的比值, 然后对所有类别求均值后的结果,如式(18)所示:

，

FWIoU根据每一类出现的频率, 对每一类的IoU值进行加权求和, 如式(19)所示:

。

其中, 共有k+1个类别数(包括k个缺陷类和1个正常类),

、/>

、/>

、/>

分别代表真正值(true positive, TP)、假正值(false positive, FP)、真负值(falsenegative, FN)、假负值(true negative, TN), 具体含义如表1所示。

2.3实验设置：

本案采用768×768分辨率大小的图像作为网络输入, 所有主干网络均使用在ImageNet数据集上的预训练结果作为初始化权重，训练的最大迭代次数为230次, 批量大小为8, 初始学习率为0.0001, 且每经过50个epochs, 学习率下降为原来的0.5，优化器选用Adam算法, 设置除偏置外的其他参数权值衰减为10-6, 损失函数采用像素级交叉熵损失函数。所有实验均采用早停策略防止过拟合, 在损失函数连续15个epochs未下降时, 停止训练。

实验硬件环境为Inter(R) Core(TM) i9-10900X, 两张NVDIA GeForce RTX 3090显卡; 操作系统为Ubuntu 18.04, CUDA版本为11.4, 采用Pytorch 1.8.0作为深度学习框架, Python 3.9.5为编程语言。

3结果与分析

3.1消融实验：

为说明各个模块在模型中的有效性, 本案设计了四组对比实验进行验证, 结果如表2所示，其中, 设置U-Net为基准模型。

首先, 进行了替换主干网络和添加级联扩张卷积模块的两组实验, 可以看出结果较基准模型有较大提升, 尤其是MPA和MIoU，说明对编码端的改进能够让网络显式地提取到更多信息, 且扩大感受野能使网络获得更丰富的全局信息, 提高了多尺度缺陷的识别能力。其次, 对添加特征融合模块的网络进行测试, 在第一组实验的基础上, MIoU值提升了0.42%, 剩余其余三个指标也均有提升, 说明高低层信息融合的方式能够在一定程度上消除语义差异, 减少对解码过程带来的影响。最后, 在继续添加了通道注意力解码模块和全局平均池化模块后, 网络精度达到最优, 说明该模块有助于精细化分割结果。最终, 模型的PA、MPA、FWIoU、MIoU结果值分别为99.17%、93.27%、98.39%、88.88%, 在四个评价指标中均达到最佳结果, 证明了各模块的有效性。

3.1.1级联扩张卷积模块有效性的验证：

为了验证和分析在不同层级使用级联扩张卷积对模型效果的影响, 设置了3组对比实验, 记作(5)、(4, 5)、(3, 4, 5), 其中, 括号内的数字表示使用级联扩张卷积的层级, 初始化膨胀系数为2，实验结果如表3所示。

从实验结果可以看出, 随着应用级联扩张卷积模块的网络层增多, 准确率逐渐下降，这是由于底层特征层负责提取空间细节特征, 随着网络深度的加深, 感受野会越来越大，如果较早使用扩张卷积, 则会使感受野增大速度过快, 削弱了底层网络提取细节特征的能力，皮革缺陷包含了丰富的多尺度信息, 过大的感受野会使得网络对于小缺陷群的细节信息感知能力下降, 导致分割精度降低。在本实验中, 添加了第三层网络层的精度值下降较多, 这是由于该层较后面两层包含了更多的形态细节特征, 采用级联扩张卷积模块使得感受野过早增大, 丧失了分割细节特征的能力。

基于上述实验的最优结果, 进一步探究级联扩张卷积模块中的膨胀系数对模型效果的影响, 分别设置了(2, 2, 2)、(4, 4, 4)、(2, 4, 6)三组对比实验, 如表4所示，其中, 括号内的数字依次代表了模块中的3个膨胀系数。

由公式(1)和公式(2)可知, 膨胀系数的选取间接影响感受野的大小, 且膨胀系数越大, 感受野越大。从实验结果可以看出, 在一定范围内, 感受野越大, 网络捕获信息的能力越强, 在级联扩张卷积模块中的三个卷积层的膨胀系数都选取4时, MIoU值达到最优, 为87.09%. 此外, 从结果来看, 选用递增的膨胀系数并不能显式地提升模型效果。

。

3.1.2特征融合模块有效性的验证：

由于解码端高低层特征图融合时会产生语义鸿沟问题, 因此本案在跳跃连接过程中添加了特征融合模块，为了说明该模块的有效性, 本案设计了3种结构进行对照实验。如图8所示, 图8其中的a为U-Net结构使用的无融合模块的跳跃连接结构, 记为No_fusion（不添加融合方式）。图8其中的b为特征金字塔(feature pyramid networks, FPN)融合方式, 具体过程为: 经过上采样的深层特征直接与浅层特征进行相加, 结果作为输入, 继续与上层特征进行融合, 直到融合了所有特征层为止，记为FPN（特征金字塔）。图8其中的c为本案采用的高层信息作为语义指导的融合结构, 记为FFM（特征融合模块）。实验结果如表5所示。

从表5可以看出, 没有采用特征融合的网络在四个评价指标中表现最差，而采用特征金字塔和本案特征融合方式的则均有提升, 且后者提升更多。这一现象可以说明,包含更多语义信息的低级特征, 在与高级特征融合将会变得相对容易, 只需将高层特征图与融合后的语义边界对齐即可获得精细的分割结果。而采用高低特征直接进行融合的方法, 忽略了特征间的相异性, 难以得到最佳的表现结果。

3.1.3 通道注意力模块有效性的验证：

为了验证提出的基于通道注意力机制的解码模块有效性, 本案在U-Net解码端引入了3种通道注意力机制, 分别为SE（压缩和激励模块）、DANet（双注意力网络）的CAM（通道注意力模块）、PANet（金字塔注意力网络）的GAU（全局注意力上采样模块）模块。其中, 将未添加注意力模块的实验结果作为参照实验, 记为No_attention（未添加注意力机制）。实验结果如表6所示。

可以看出, 添加了SE模块和DANet模块的网络在MIoU精度上分别下降了1.21%和7.47%, 而采用了PANet和本案模块的性能提升了0.11%和1.37%, 说明注意力机制在皮革缺陷的分割结果中呈现不稳定性, 过强或弱地关注图像某一区域都会导致精度的下降。本案模块在MIoU上达到了88.88%, 明显优于未添加注意力机制的网络, 说明该模块能够使网络关注缺陷的重要像素特征, 有效提取重要信息。

4可视化结果分析

对分割结果进行可视化分析。由于动物生前习性和生产加工方式, 缺陷区域在整张皮革中呈分布不均的特点, 因此实验所用单张图像包含一种缺陷和多种缺陷这两大类型，本案对这两类分布形式设计了实验, 选用FCN、Deeplabv3+、ExFuse、GCN、DANet和UNet六个在语义分割领域中表现优异的模型进行对照，所有实验结果均采用在ImageNet数据集上的预训练结果作为初始化权重。

4.1包含单类缺陷的分割结果：

图9给出了7种缺陷类型的分割结果,从上至下分别为刺刮伤、刺猴、皮肤藓、破洞、烙印、烂面和开创伤；其中，a纵为皮革缺陷原图组、b纵为参照组、c纵为FCN处理结果组、d纵为Deeplabv3+处理结果组、e纵为ExFuse处理结果组、f纵为GCN处理结果组、g纵为DANet处理结果组、h纵为U-Net处理结果组、i纵为ours（本案模型分割结果）处理结果组，图像根据不同颜色区分缺陷类型。

可以明显看到, 与其他缺陷具有相似特征的像素点较难被分割, 如皮肤藓和开创伤，对于皮肤藓, 由于图中缺陷的部分形态特征与烙印的边缘纹理较为相像, 因此FCN、Deeplabv3+、ExFuse、GCN、U-Net均产生了不同程度的错分, 虽然DANet没有将其错误识别为烙印, 但只分割出了中间形态较为明显的部分, 缺失了部分边缘像素点信息。开创伤也具有类似问题, 缺陷附近处的不光滑纹理被错误地识别为缺陷，另外, 对于烂面这种和正常纹理相差不大、对比度较低的缺陷也较难完整分割, 如DeepLabv3+和ExFuse就对其产生了明显的漏分, GCN和DANet虽然分割效果尚可, 但缺陷边缘处分割较为粗糙, 这是由于缺少了逐级上采样过程的结果，而从刺刮伤、刺猴、破洞和烙印的分割结果来看, 模型对于这四种类型的大部分像素点都可以正确分割, 只有少量像素被错分或漏分为其他类别, 但从边缘部分和轻微瑕疵的分割结果来看, 本案方法在细节处理上优于其他网络。

从单一类型缺陷的识别结果中可以看出本案模型有较强抗干扰能力, 在一定程度上能够避免类间相似度过高造成的错分, 且对缺陷的边缘轮廓和细节的处理较为精细，说明对于皮革缺陷这类与正常纹理差异较小的瑕疵, 该模型也具有较强提取特征的能力。

4.2包含多类缺陷的分割结果：

图10为包含多种缺陷类别的图像分割结果，其中，a纵为皮革缺陷原图组、b纵为参照组、c纵为FCN处理结果组、d纵为Deeplabv3+处理结果组、e纵为ExFuse处理结果组、f纵为GCN处理结果组、g纵为DANet处理结果组、h纵为U-Net处理结果组、i纵为ours处理结果组。从图中可以看出, 模型对于缺陷交界处的像素点识别较为困难，第三行图像展示了包含刺猴、刺刮伤和开创伤三类缺陷的识别结果, 在交界处展现出严重的粘连现象, 如GCN将与刺猴距离较近的开创伤识别为刺猴, 另外, 由于缺陷交界处的形态特征较为模糊, 还容易产生错误分割, 如DeepLabv3+和U-Net将缺陷错误识别为烙印和破洞, 虽然ExFuse、DANet和本案模型的结果相对较优, 但依旧有不同程度的错分和漏分。此外, 由于动物习性, 导致刺刮伤在所有缺陷中占比最大, 且部分缺陷较为轻微, 以致正确分割该缺陷的难度较大, 本案针对类似缺陷特征, 减少了下采样,且在解码端进行逐级还原, 从第一行和第四行对刺刮伤的识别结果来看, 这一操作能够有效地保留底层的空间信息, 较大程度地还原了狭长缺陷的细节信息。另外, 类间相似度高的缺陷也较难被分割, 如第一行所示, 刺猴的位置在烙印边缘，且部分与烙印特征相似, 增大了识别难度。可以看出,FCN、Deeplabv3+、ExFuse、GCN几乎将刺猴与烙印融为一体, DANet、U-Net虽然能够正确识别刺猴, 但对于靠近图像边缘的部分像素点未能正确分割, 对比之下, 本案模型还原了大部分缺陷像素, 具有精细分割缺陷细节的能力。

总体而言, 本案模型对包含多类缺陷的图像也能够尽量还原缺陷边界和细节特征, 说明减少下采样的策略和级联扩张卷积模块使得网络获取到了更多底层细节信息，同时, 对于具有相似特征的不同类别的像素信息, 网络也基本能够正确分割, 表明本案采用的特征融合模块和通道注意力模块能够使网络更加关注缺陷形态特征, 具有更强提取细节信息的能力。

5不同模型实验结果对比：

为了验证提出方法的有效性, 本节进行了不同模型之间的定量比较，其中, FCN和U-Net是语义分割编码-解码结构的代表, Deeplabv3+和GCN是将扩张卷积和大卷积核应用于多尺度目标分割的代表; ExFuse是用特征融合消除语义鸿沟的代表; DANet是用并行注意力机制捕获特征的代表; U-Net是本案基准模型, 也是纹理类型图像分割的优秀网络。

表7给出了本案模型与参照模型在测试集上的分割数据结果，从统计数据可以看出, 本案提出模型在PA、MPA、FWIoU、MIoU上分别达到了99.17%、93.27%、98.39%和88.88%,对比基准模型U-Net, 分别提升了0.28%、2.78%、0.53%和4.03%，说明改进后的模型对缺陷特征的识别能力优于U-Net网络, 其中, PA和MPA的值均在90%以上, 表明大部分像素点都能够被正确分割。同时, 在主要评价指标MIoU上比FCN、Deeplabv3+、ExFuse、GCN、DANet提升了13.82%、13.75%、9.92%、7.35%、5.16%，表明本案模型对比参照模型, 具有更强的皮革缺陷分割能力, 同时, 也说明了本案各个模块在分割过程中的有效性。

6总结：

本案提出了一种基于改进U-Net结构的皮革表面缺陷分割方法, 采用级联扩张卷积模块对编码端进行优化, 可以缓解感受野下降造成分割能力不足的问题, 通过在长程跳跃连接中添加特征融合模块, 使低层特征张量中包含更多高级语义信息, 有效缓解语义鸿沟问题, 最后通过通道注意力机制让网络自适应关联缺陷相关通道, 聚焦于缺陷细节形态, 从而精细化分割结果。实验结果表明, 在包含刺刮伤、刺猴、皮肤藓、破洞、烙印、烂面、开创伤和正常缺陷样本的皮革数据集中, 该网络较基准网络U-Net在四个评价指标上分别提升0.28%、2.78%、0.53%和4.03%, 和其他主流语义分割网络相比也均有不同程度的提升, 说明该网络具有更优的分割结果。同时, 通过可视化分析, 可以看出该模型对于缺陷细节信息的分割更加精细, 再次验证了模型的有效性，但由于本案采用了编解码结构, 导致参数量较大, 所以如何轻量化网络模型, 将这种分割框架实际应用于工业生产任务是下一步的研究方向。

以上显示和描述了本发明的基本原理和主要特征及其优点，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于精细化分割网络的皮革缺陷检测方法，其特征在于：包括：

在编码端, 采用五组卷积层对图像进行特征提取,前三组卷积中, 每组卷积完成后对图像进行最大池化下采样操作, 后两组卷积采用重叠池化的方式代替普通下采样, 得到特征图尺寸为原始图像的1/8；在第五组卷积层引入级联扩张卷积模块进行密集预测；在跳跃长连接中添加了特征融合模块, 采用将高级语义信息引入低级特征的方式, 使低级特征张量编码更多语义信息；

在解码端, 将第一层、第二层、第三层、第四层、第五层编码端层级输出的特征图经过特征融合模块后，在每一层级的通道注意力机制解码模块中，将得到的结果与解码端同一层级的特征张量共同作为输入，指导网络自适应地提取缺陷相关通道信息；在路径顶端嵌入了全局平均池化模块(global average pooling module, GAPM), 将其作为第五组卷积层解码模块中的高层语义输入, 指导网络将注意力集中于缺陷形态特征；

对分割结果进行量化, 选用语义分割中常用的像素精度(pixel accracy, PA)、平均像素精度(mean pixel accuracy, MPA)、平均交并比(mean intersection over union,MIoU)和加权交并比(frequency weighted intersection over union, FWIoU)作为模型的评价指标；其中, MIoU是语义分割领域中衡量算法精度的通用度量, 作为主要性能指标。

2.根据权利要求1所述的基于精细化分割网络的皮革缺陷检测方法，其特征在于：皮革缺陷包含丰富的形态特征, 低层分辨率信息对于皮革正确分割至关重要，采取减少下采样次数的策略, 来缓解低层分辨率信息丢失问题；