CN115294103B

CN115294103B - 一种基于语义分割的实时工业表面缺陷检测方法

Info

Publication number: CN115294103B
Application number: CN202211170008.3A
Authority: CN
Inventors: 都卫东; 夏海峰; 杨飞
Original assignee: Focusight Technology Co Ltd
Current assignee: Focusight Technology Co Ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-12-30
Anticipated expiration: 2042-09-26
Also published as: CN115294103A

Abstract

本发明涉及一种基于语义分割的实时工业表面缺陷检测方法，包括以下步骤，S1、利用数据构建模块，制作工业缺陷数据集；S2、利用网络模型构建模块，搭建语义分割网络和判别器网络；S3、利用网络模型训练模块，在构建好的缺陷数据集上训练模型；S4、利用缺陷检测模块，使用训练好的语义分割网络进行检测。本发明针对工业场景设计了一个精简的特征提取网络，可以快速有效地进行特征提取；设计了一个轻量化的解码器来加速缺陷检测，并通过特征增强模块和特征融合模块实现有效的高低层信息融合；设计了一个全卷积的判别器网络来辅助语义分割网络的学习，可以提高推理阶段的分割准确性，且无需额外的计算耗时。

Description

一种基于语义分割的实时工业表面缺陷检测方法

技术领域

本发明涉及缺陷检测技术领域，尤其是一种基于语义分割的实时工业表面缺陷检测方法。

背景技术

产品表面缺陷检测是工业自动化生产的重要一环，基于传统机器视觉的缺陷检测技术已经在很多工业场景中有效替代了人工目检，极大地提高了生产效率。但是由于工业缺陷种类的多样性和不可预见性，很难通过特征工程和常规图像处理算法实现对特征的完整建模。而深度卷积神经网络可以通过设计合适的网络结构和一定量的正负样本进行训练，就可以自动学习提取特征，而无需手动提取特征，因此可以实现更快速更准确的缺陷检测。随着以卷积神经网络为代表的深度学习算法在诸多计算机视觉领域的成功应用，例如人脸识别、目标检测、行人重识别和目标跟踪等，基于深度学习算法的工业缺陷检测也逐渐吸引了学术界和工业界的广泛关注。

语义分割是深度学习的重要研究领域，是一种像素级分类技术，可以将目标图像分割成具有不同语义信息的区域。相比于人工目检的费时费力和传统机器视觉强依赖于算法工程师的经验与试错，基于深度学习的语义分割方法可以实现对缺陷区域端到端的分割，因此当需要检测缺陷的位置、大小和面积等信息时，语义分割就是最佳的解决方案。

语义分割最常规的思路是采用编解码的结构，例如经典的全卷积神经网络（FullyConvolutional Networks，简称为FCN）。FCN是一个全卷积化的网络结构，包含卷积层、池化层和反卷积层，可以接受任意尺寸的输入图像，通过卷积操作进行编码下采样，然后再通过反卷积操作进行解码上采样，最后输出像素级的分割预测结果。

随着深度学习的发展，语义分割技术已经日趋成熟，但是在工业领域的应用仍然存在以下难点：（1）目前计算机视觉领域下的语义分割研究大多以自然场景为主，例如常用的cityscape数据集，便是涵盖了城市道路、树、车和人等物体的自然场景数据集。工业表面缺陷检测相比于自然场景，包含的语义信息更弱，通常会存在类间差异小，类内差异大、有模糊地带、样本不平衡和缺陷级别小等问题。检测的场景不同，任务存在的难点也不同，因此自然场景下优秀的模型算法往往也不能直接迁移过来使用。（2）不同于学术研究可以一味的追求高精度，工业表面缺陷检测是需要部署在产品流水线上，对于检测的实时性有着非常严苛的要求，这也意味着很多复杂的网络和操作无法适用。（3）产品质检是对检测精确度要求非常高的任务，这直接关系着产品的生产质量，因此在保证实时性检测的同时还要兼顾检测的精确度。

发明内容

本发明要解决的技术问题是：工业产品在生产过程中，表面容易受到划痕、凹坑和变形等损伤，影响产品质量；人工目检十分费力，不能及时准确地判断出产品表面瑕疵，质检效率和品控也难以把控；而传统机器视觉对于表面缺陷的检测，效率低，漏检误检高；因此本发明提出了一种基于语义分割的实时工业表面缺陷检测方法，使用卷积神经网络来解决表面缺陷检测问题。

本发明解决其技术问题所采用的技术方案是：一种基于语义分割的实时工业表面缺陷检测方法，包括以下步骤，

S1、利用数据构建模块，制作工业缺陷数据集：在稳定的成像结构下进行图像采集，并对缺陷区域进行像素级标注，按照检测区域将采集到的原图划分裁剪成小图后对得到的小图通过增强方法进行数据扩充，扩充后的小图划分为训练集和验证集；

S2、利用网络模型构建模块，搭建语义分割网络和判别器网络；所述的语义分割网络包括编码器和解码器，所述的编码器进行特征提取，所述的解码器对提取的特征进行增强和融合并输出分割结果；

S3、利用网络模型训练模块，在构建好的缺陷数据集上训练模型；

S4、利用缺陷检测模块，使用训练好的语义分割网络进行检测。

进一步的说，本发明所述的语义分割网络最大下采样倍数为16倍，编码器提取原图的1/4，1/8和1/16尺寸大小的特征图用于后续解码器的特征增强和融合。

再进一步的说，本发明所述的语义分割网络包括浅层特征提取部分和深层特征提取部分，所述的编码器提取下采样4倍的浅层特征图以及下采样8倍和16倍大小的深层特征图；所述的语义分割网络采用最大池化层替代带步长的卷积层进行下采样。

更进一步的说，本发明所述的浅层特征提取部分采用5x5的大卷积核；所述的深层特征提取部分包括残差结构。

进一步的说，本发明所述的解码器将编码器提取的下采样8倍和16倍的深层特征通过特征增强模块后送入特征融合模块，并与编码器提取的下采样4倍的浅层特征进行融合。

再进一步的说，本发明所述的特征增强模块通过在特征空间维度上取均值操作来获取全局语义信息，然后通过1x1卷积、BN层和sigmoid操作来计算一个特征向量对输入特征进行重新加权，进行特征筛选；所述的特征融合模块将深层特征和浅层特征在通道维度上进行拼接，然后使用和特征增强模块中相似的注意力机制操作，对高低层特征进行筛选。

进一步的说，本发明所述的步骤S2中，判别器网络为Patch-GAN全卷积结构，包括4个4x4卷积核，步长stride为2，带bn层和LeakyRelu激活的卷积层，进行下采样，输出通道数分别为32，64，128和256，最后再接一个1x1的卷积；所述的判别器网络的输出是一个矩阵，矩阵上的每一个元素对应着输入中的一个16x16大小的局部区域。

进一步的说，本发明所述的步骤S3中，训练时，输入图片经过语义分割网络输出预测结果；所述的判别器网络采用cGAN的训练方式，学习判断输入是语义分割网络预测的结果还是真实标签，并通过对抗学习使语义分割网络输出的结果接近真实标签。

本发明的有益效果是，解决了背景技术中存在的缺陷，首先，针对工业场景设计了一个精简的特征提取网络，可以快速有效地进行特征提取；其次，设计了一个轻量化的解码器来加速缺陷检测，并通过特征增强模块和特征融合模块实现有效的高低层信息融合；最后，设计了一个全卷积的判别器网络来辅助语义分割网络的学习，可以提高推理阶段的分割准确性，且无需额外的计算耗时。

附图说明

图1是本发明方法流程示意图；

图2是本发明总体框架示意图；

图3a是本发明语义分割网络主干部分结构示意图；

图3b是本发明增强模块结构示意图；

图3c是本发明残差模块结构示意图；

图3d是本发明融合模块结构示意图；

图4是本发明判别器网络结构示意图。

具体实施方式

现在结合附图和优选实施例对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1-图4所示的一种基于语义分割的实时工业表面缺陷检测方法，针对工业数据的特点，所设计的语义分割网络在检测速度和精确度上达到了均衡。

如图1所示，总体流程包括以下几个步骤：

步骤S1：采用数据构建模块，构建工业缺陷数据集。

具体包括：

（1）采集数据，在稳定光源下，通过检测平台上相机对流水线上的产品进行清晰成像，收集待检测数据。

（2）数据预处理，对采集到的图片进行一些预处理操作。

首先进行数据清洗，剔除成像质量不佳的图片。接下来使用标注软件对缺陷区域进行像素级标注，并按照检测区域将采集的大图划分裁剪成小图。然后对得到的小图选择合适的增强方法，包括但不局限于翻转、旋转和颜色变换等进行数据扩充。最后将扩充后的小图划分成训练集和验证集。

步骤S2: 采用网络模型构建模块，构建语义分割网络和判别器网络。

如图2所示，分割网络和判别器网络共同参与训练。对于输入的训练图片，首先经过分割网络输出预测概率，与输入的真实标签计算

交叉熵损失，来监督分割网络的学习，使得分割网络的预测结果逐渐接近真实标签。

判别器网络分为真实样本和假的样本，由于本发明采用cGAN的训练方式，以输入图片作为条件信息，因此真实样本由真实标签和输入图片构成，假的样本由分割网络的预测和输入图片构成，判别器网络通过对抗训练学习鉴别真实样本和假的样本的能力。

整体网络训练时采用交替优化的策略，分割网络和判别器网络分开优化训练。分割网络由

交叉熵损失和对抗损失

监督优化，其中

交叉熵损失是用真实标签进行监督训练，对抗损失

通过最大程度地将分割预测视为真实分布的概率来训练分割网络，使得分割网络的预测能够达到欺骗判别器的目的。

判别器网络输出1（判断输入是真实样本）和0（判断输入为假的样本），通过与真实样本标签1和假的样本标签0计算判别器损失

来监督判别器网络的训练，使得其具备鉴别真假输入样本的能力。整体思想是希望分割网络能够生成和真实标签尽可能相像的预测结果来欺骗判别器网络，同时希望判别器网络能够具备鉴别真假输入样本的能力，通过这种对抗博弈的策略，相互提高网络的性能，实现优化分割网络输出结果的目的。

训练时，语义分割网络和判别器网络都参与训练，而测试时仅需要语义分割网络。

如图3a-图3d所示的语义分割网络，网络模型结构采用了编码解码的架构，编码器负责特征提取，解码器负责对提取的特征进行增强和融合，并输出分割结果。

编码器是网络的主干部分，如图3a所示，对于输入图片，主干部分一共下采样16倍，提取原图1/4，1/8和1/16尺寸大小的特征图用于后续解码器部分的特征增强和融合。由于工业缺陷的级别通常非常小，因此在设计主干网络的时候，将模型的最大下采样倍数设为了16。同时模型在下采样的过程中会不可避免地造成信息流失，因此模型保留了仅下采样4倍的浅层特征图，用于后续和提取的深层特征图进行融合。浅层特征图由于下采样倍数少，最大程度地保留了输入图片的空间位置信息、轮廓信息和对比度信息等细节特征。模型提取的下采样8倍和16倍大小的深层特征图，则包含了更为丰富的语义特征，更大的感受野可以更为全局地理解输入图片。因此主干部分分为浅层特征提取部分和深层特征提取部分，并且为了减少模型的计算成本，这里采用了复用浅层特征的方式，没有采用额外的网络分支单独提取浅层特征。

由于工业数据由于数量级较少，不好做标准化处理，因此在数据进网络之前使用BN层进行数据预处理，帮助模型在训练时更好地拟合。在浅层网络，模型使用了5x5的大卷积核，大卷积核可以保证在网络的初始阶段有足够的感受野去处理局部信息。在深层网络中，为了丰富模型的特征提取能力，引入了残差结构，如图3c所示。为了进一步减少信息流失，模型中采用了最大池化层替代带步长的卷积层进行下采样，这样做的好处是可以使得小但是重要的特征能够在下采样的过程中保留。

网络模型的解码器部分，将编码器提取的下采样8倍和16倍的深层语义特征通过特征增强模块后送入特征融合模块，与编码器提取的下采样4倍的浅层特征进行融合。综合考虑深层信息和浅层信息，可以帮助模型更精确地分割缺陷。具体操作是：先将提取的下采样16倍的特征图经过特征增强后，进行反卷积上采样和经过特征增强后的下采样8倍的特征图相加，然后将得到的深层特征图通过反卷积上采样和提取的下采样4倍的浅层特征图进行特征融合，最后在上采样回原图尺寸输出分割预测结果。

特征增强模块如图3b所示，用于优化提取的深层特征。增强模块通过在特征空间维度上取均值操作来获取全局语义信息，然后通过1x1卷积、BN层和sigmoid操作来计算一个特征向量对输入特征进行重新加权，进行特征筛选。增强模块通过类似注意力机制的操作，可以在引入很少计算量的情况下，帮助模型学习到全局信息。

特征融合模块如图3d所示。由于在特征表示的层面，高低层特征包含的信息层级并不相同，不能通过简单的加权进行特征融合。因此本发明使用了融合模块来合理地对高低层特征进行筛选和融合。融合模块首先将深层特征和浅层特征在通道维度上进行拼接，然后使用和增强模块中相似的注意力机制操作，对高低层特征进行筛选。

在设计解码器的结构时，还采用了轻量化的设计。在解码器上采样的过程中，随着特征图通道数逐渐减少，根据编码器的通道数来灵活调整解码器对应网络层的通道数，减少解码器的冗余通道。

由于分割任务是一个逐像素的分类任务，对分辨率和细节的要求比较高，因此，判别器网络选择了Patch-GAN，这是一个全卷积的结构，包括4个卷积核4x4，步长stride=2，带bn层和LeakyRelu激活的卷积层，进行下采样，输出通道数分别为32，64，128和256，最后在接一个1x1的卷积。判别器网络的输出是一个矩阵，矩阵上的每一个元素对应着输入中的一个16x16大小的局部区域，相较于普通的GAN判别器将输入映射成一个值，显然Patch-GAN结构的判别器感受野更大，可以关注到更多的细节。

步骤S3：网络模型训练模块，在构建好的缺陷数据集上训练模型。

如图2所示，本发明在训练阶段用到了语义分割网络G和判别器网络D。对于输入图片x，语义分割网络输出将其映射为真实标签y，即

。

对于判别器D，本发明采用了cGAN的训练方式。使用输入图片x作为条件信息，真实样本由真实标签y和输入图片x构成，假的样本由分割网络输出的预测结果G(x)和输入图片x构成，判别器网络通过对抗训练来学习鉴别真实样本和假的样本的能力。

其中，判别器的损失定义如下：

其中，y_n是一个条件符号，D(x,y)表示输入为真实样本（即输入图片x和真实标签y）时判别器的输出，同理，D(x, G(x)) 表示输入为假的样本时，判别器的输出。

当y_n=0时，表示判别器的输入是语义分割网络预测的结果G(x)和原图片x，即假的样本；

当y_n=1时，表示判别器的输入为真实标签y和原图片x，即真实样本。

语义分割网络的损失由交叉熵损失和判别器的对抗损失共同组成，定义如下：

其中α是平衡两个损失的系数。

交叉熵损失定义如下：

对抗损失定义如下：

步骤S4：缺陷检测模块，使用训练好的语义分割网络对工业数据进行检测。

对于待测试的图像，通过滑窗裁剪成和训练图像相同尺寸的小图，然后将模型预测的小图结果拼接回大图，即可得到最终的预测结果。在实际部署到产品流水线上时，还可以使用TensorRT、TVM和MNN等高性能推理引擎对模型进行量化加速。以TensorRT量化本发明的分割模型为例，量化后的模型对于单张256x256大小的RGB图片的推理速度仅为1ms左右，达到了实时检测的效率需求。

本发明针对工业表面缺陷检测需要兼顾精度和速度的特点，进行了针对性的设计：

1、针对工业数据特点设计了一个精简的特征提取网络，可以快速有效地进行特征提取。工业数据通常缺陷级别很小，包含的语义信息很弱，因此本发明在设计网络结构时，兼顾了浅层特征信息的保留和深层语义特征的挖掘。在浅层网络采用了较大的5x5大卷积核，大卷积核可以保证在网络的初始阶段有更大的感受野去处理局部信息，在深层网络则采取了残差结构来丰富特征提取能力。网络中还采用了最大池化层代替具有步长的卷积层，这样可以更好地保证小但是重要的细节特征在下采样的过程中得到保留。这样针对性设计网络结构可以更好地处理工业数据，更准确地进行特征提取。

2、设计了一个轻量化的解码器来加速缺陷检测，并通过特征增强模块和特征融合模块实现有效的高低层信息融合，高低层特征融合的设计帮助模型更好地理解工业数据。在本发明中，浅层特征仅下采样了4倍，因此避免了细节信息在下采样中的流失。深层特征融合了下采样8倍和16倍的特征图，足够大的感受野保证了模型对全局信息的理解。因此通过将浅层特征和深层特征进行合理的融合，可以帮助模型更好地理解数据。

3、设计了一个全卷积的判别器网络来辅助语义分割网络的学习，可以提高推理阶段的分割准确性，且无需额外的计算耗时。训练过程中引入判别器来帮助语义分割网络学习，使得模型在推理阶段取得更好的分割结果。全卷积结构的判别器网络，可以有效根据缺陷周围信息提取缺陷特征并进行判别，在模型训练过程中该判别信息辅助主体语义分割网络生成更准确的缺陷预测结果。在上线应用测试中，该判别器网络不参与计算，保证实时检测效率不受影响。

4、复用浅层特征和轻量化的解码器设计有效地减少了模型的计算耗时，保证了实时性检测的需求。在编码器与解码器之间，设计特征复用模块，公用相同的浅层特征，减少模型计算量。解码器采用精简的轻量化设计，通过合理设置模型层参数，保证预测准确性。

以上说明书中描述的只是本发明的具体实施方式，各种举例说明不对本发明的实质内容构成限制，所属技术领域的普通技术人员在阅读了说明书后可以对以前所述的具体实施方式做修改或变形，而不背离发明的实质和范围。

Claims

1.一种基于语义分割的实时工业表面缺陷检测方法，其特征在于：包括以下步骤，

所述的语义分割网络包括浅层特征提取部分和深层特征提取部分，所述的编码器提取下采样4倍的浅层特征图以及下采样8倍和16倍大小的深层特征图；

所述的解码器将编码器提取的下采样8倍和16倍的深层特征通过特征增强模块后送入特征融合模块，并与编码器提取的下采样4倍的浅层特征进行融合；

判别器网络为Patch-GAN全卷积结构，包括4个4x4卷积核，步长stride为2，带bn层和LeakyRelu激活的卷积层，进行下采样，输出通道数分别为32，64，128和256，最后再接一个1x1的卷积；所述的判别器网络的输出是一个矩阵，矩阵上的每一个元素对应着输入中的一个16x16大小的局部区域；

训练时，输入图片经过语义分割网络输出预测结果；所述的判别器网络采用cGAN的训练方式，学习判断输入是语义分割网络预测的结果还是真实标签，并通过对抗学习使语义分割网络输出的结果接近真实标签；

2.如权利要求1所述的一种基于语义分割的实时工业表面缺陷检测方法，其特征在于：所述的语义分割网络最大下采样倍数为16倍，编码器提取原图的1/4，1/8和1/16尺寸大小的特征图用于后续解码器的特征增强和融合。

3.如权利要求2所述的一种基于语义分割的实时工业表面缺陷检测方法，其特征在于：所述的语义分割网络采用最大池化层替代带步长的卷积层进行下采样。

4.如权利要求3所述的一种基于语义分割的实时工业表面缺陷检测方法，其特征在于：所述的浅层特征提取部分采用5x5的大卷积核；所述的深层特征提取部分包括残差结构。

5.如权利要求1所述的一种基于语义分割的实时工业表面缺陷检测方法，其特征在于：所述的特征增强模块通过在特征空间维度上取均值操作来获取全局语义信息，然后通过1x1卷积、BN层和sigmoid操作来计算一个特征向量对输入特征进行重新加权，进行特征筛选；所述的特征融合模块将深层特征和浅层特征在通道维度上进行拼接，然后使用和特征增强模块中相似的注意力机制操作，对高低层特征进行筛选。