CN112465790A

CN112465790A - 基于多尺度卷积和三线性全局注意力的表面缺陷检测方法

Info

Publication number: CN112465790A
Application number: CN202011411468.1A
Authority: CN
Inventors: 孙美君; 吕超章; 王征
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-09

Abstract

本发明公开了一种基于多尺度卷积和三线性全局注意力的表面缺陷检测方法，包括：在编码模块中对主干特征进行卷积和池化操作，提取图像在不同尺度下的浅层特征图；在解码模块中通过上采样和卷积操作获取深层特征图；中间用四次拼接操作将浅层特征图同深层特征图融合在一起；三线性全局注意力模块的第一个分支通过线性操作将浅层特征图转为浅层注意力图，第二个分支通过压缩激活深层特征图获取其深层的特征权重，之后将深层的特征权重加权到浅层特征图上；决策网络模块中使用全局平均池化和全局最大池化处理解码模块的输出特征图，通过激活函数输出表面缺陷图像存在缺陷的概率，通过1x1卷积操作输出缺陷潜在位置的灰度图，用来可视化解释神经网络。

Description

基于多尺度卷积和三线性全局注意力的表面缺陷检测方法

技术领域

本发明涉及工业缺陷检测领域，尤其涉及一种基于多尺度卷积和三线性全局注意力的表面缺陷检测方法，在保证不降低模型性能的前提下，显著地减少样本标注成本，致力于从弱监督学习标签中得到有效的缺陷物体的位置信息和形状信息。

背景技术

在工业化过程中，由于不可抗拒的影响因素，工业器件表面可能出现缺陷，因此，表面缺陷检测是保证生产质量的一项基本任务，通常都是人工筛选，需要对工人花费大量时间进行培训。而这种方法效率低下、主观性强、限制产品的生产效率。通常，传统的缺陷异常检测方法遵循相同的流程，针对特定的问题领域人工对图像特征进行设计并提取，但由于缺陷的多种多样，上述的传统机器视觉方法很难对缺陷特征完整的建模迁移，复用性不大，浪费大量的时间和人力成本。

而近年来，随着深度学习技术的复兴，许多优秀的卷积神经网络模型在过去几年中陆续出现。深度学习在特征提取和检测分类上取得了非常好的结果，越来越多的学者和工程人员开始将深度学习算法引入到缺陷检测领域中。与经典的机器学习方法相比，深度学习算法能自动学习并挖掘出图像数据中具有代表性的特征，并已在表面缺陷控制中取得较高的准确率。

但是已有的大多数深度学习方法具有一定的局限性：第一，多数深度学习的方法是一种数据驱动的技术，往往需要大量的标注样本数据才能发挥作用。这是因为深度学习方法为了保证得到的模型具有较好的性能，对数据集有所要求：一是用于训练和测试的数据集要保持不同类别下的样本数据相差不大，满足独立同分布条件；二是要求训练样本数据集要足够大，但在工业表面缺陷检测中这两个条件很难满足，采集和标记缺陷图像的成本较高，而这导致采集到的缺陷图像数量非常有限，达不到现有神经网络方法训练的要求。第二，目前基于深度学习的缺陷检测方法通常使用强监督的学习策略，如额外的物体边界框或像素级标签来预测缺陷的位置，算法的效果在一定程度上取决于所提供的样本数量和标注的质量。第三，现有的缺陷检测中，仅利用到了最深层的特征进行预测，并没有融合浅层特征；第四，现有的缺陷检测往往都是在纹理背景重复性高的布匹图像上实验，并没有在实际的工业图像中进行实验，从而忽略了工业图像中缺陷尺寸差异大、工业环境背景复杂缺陷微小的问题，所以在工业应用中，往往是无法满足实际应用中的需要。

发明内容

本发明提供了一种基于多尺度卷积和三线性全局注意力的表面缺陷检测方法，本发明针对上述所提出的局限性，提出了一种弱监督的神经网络架构，在保证不降低模型性能的前提下，显著的减少了样本的标注成本，能够较为精准的实现缺陷的自动检测，详见下文描述：

一种基于多尺度卷积和三线性全局注意力的表面缺陷检测方法，所述方法包括以下步骤：

特征融合网络模块通过对原图经过两次下采样的操作分别得到浅层特征和深层特征，之后对浅层和深层的特征映射合并，得到融合后的主干特征，解决网络下采样造成的信息丢失的问题；

编解码网络模块中编码模块对主干特征进行卷积和池化操作，提取到图像在不同尺度下的浅层特征图；在解码模块中会进行一系列上采样和卷积操作来获取深层特征图；中间通过拼接操作将的浅层特征图同深层特征图融合在一起，共进行四次拼接操作；

三线性全局注意力模块共分为两个分支，第一个分支对浅层特征图通过线性操作转为浅层注意力图，第二个分支对深层特征图获取其深层的特征权重，通过乘法操作将深层的特征权重加权到浅层特征图上；

决策网络模块中使用全局平均池化和全局最大池化对解码模块的输出特征图进行处理，并将结果拼接在一起，通过sigmoid激活函数输出表面缺陷图像存在缺陷的概率。

其中，所述特征融合网络模块包括：多尺度感受野模块，通过模拟人类视觉的感受野从而增强其特征提取能力；

多尺度感受野卷积的左侧分支：使用1*1的卷积进行通道特征降维，修正非线性激活函数Relu，提高卷积神经网络的局部感知区域，采用不同尺寸卷积核的卷积层构成多分支并行结构，增加感受野大小，并将不同尺寸的卷积层输出进行拼接；

多尺度感受野卷积的右侧分支：使用残差结构，将左侧与右侧的输出按预设比例求和。

进一步地，所述三线性全局注意力模块用深层的语义信息指导浅层的特征，并对浅层特征进行注意力操作，将浅层的卷积特征图转为注意力图；

所述三线性全局注意力模块分为两个分支，第一分支中，浅层输入卷积特征图 (c×h×w)之后对其进行reshape操作使其为X_L(c×hw)，进行转置操作生成

代表浅层特征中各个通道之间的关系，将上述通道关系图与之前的特征图X再做一次整合即

操作，再经过reshape操作后，便可得到浅层特征注意力图；

第二分支中，深层输入卷积特征图X_H经过压缩阶段，对空间维度上进行特征压缩，之后进行激励阶段对特征通道进行建模其相关性，经过上述两次全连接的操作以及激活函数的操作便可得到深层特征的注意力图，如下式所示：

Attention(H)＝σ(F₂(δ(F₁(X_H))))

式中σ表示ReLU激活函数；δ表示Sigmoid激活函数；

将深层特征的权重值通过乘法逐通道加权到已被增强的浅层特征图上。

本发明提供的技术方案的有益效果是：

1、考虑到在真实的工业生产环境中，缺陷图像采集成本非常高且标注数据较少的情况下，本发明能够很好的适应少量的训练样本且标注成本较低，并使用批处理数据均衡策略，减轻样本数据不均衡的问题；

2、考虑到现有的基于深度学习的缺陷检测通过使用强监督的学习策略，如额外的物体边界框或像素级标签来预测缺陷的位置，本发明只使用图像级类别标注信息，无需使用预先训练的权重，也不需要对图像数据增强操作，仅50％的缺陷图像实现精准的表面缺陷图像检测；

3、本发明设计的用于小数据量的弱监督学习下的深度卷积神经网络架构，其结合了多尺度感受野的卷积模块和三线性全局注意力机制，有效增强了缺陷图像中像素点之间的差异，使得网络对图像中有判别性区域有较强的响应；

4、本发明在预测上，对表面缺陷进行了可视化的输出描述，使用图像级别类别标注标签进行训练，可输出缺陷潜在位置的灰度图，用作分类结果的可视化解释。

附图说明

图1为弱监督网络模型的架构示意图；

图2为多尺度感受野卷积模块结构示意图；

图3为特征融合网络结构示意图；

图4为三线性全局注意力结构示意图；

图5为KolektorSDD表面缺陷数据集图像示意图；

图6为图像缺陷潜在位置可视化结果图；

图7为模型单张图片分类精度的检测时间示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决背景技术中存在的技术问题，本发明聚焦于小数据的弱监督的注意力网络。一方面为了缓解数据集不足的问题,对编解码网络进行改进，使网络适用于逐像素的缺陷定位任务,并提出多尺度感受野模块和三线性全局注意力模块，从图像级分类任务变为像素级分类任务，且逐像素的定位结果可辅助最终的分类结果，也可用于分类结果的可视化解释。另一方面，为了减少对标注数据的依赖，训练过程仅使用图像级别标签，标注成本低，易于获取。但由于弱监督标签并不含有精准的位置信息，因此，本发明实施例主要致力于如何从弱监督学习中得到有效的缺陷物体的位置信息和形状信息。

实施例1

本发明实施例描述了一种基于多尺度卷积和三线性全局注意力的表面缺陷检测方法，如图1所示。

整个网络由四个部分组成：特征融合网络模块、编解码网络模块、三线性全局注意力模块以及最后的决策模块组成。其中第一特征融合网络模块将浅层和深层特征进行融合，为编解码模块提供多层次的语义信息，其具有很强的捕捉局部细粒度特征的能力；第二编解码网络模块复用卷积后相应尺度的特征实现语义信息的恢复；第三三线性全局注意力模块通过自适应学习的方法来获取每个特征通道的重要程度，学习特征之间的相关性，根据重要程度提升有用的特征并抑制对当前任务用处不大的特征。第四决策模块将全局平均池化和全局最大池化提取的特征结果拼接在一起，并通过sigmoid激活函数输出表面缺陷图像存在缺陷的概率。

1、特征融合网络模块

在第一特征融合网络模块中，针对缺陷图像中缺陷尺寸差异大的问题，例如有的缺陷占了图片的小部分，而有的缺陷占了图片中的大部分位置，因此特征融合网络模块需要具有较强的捕捉局部细粒度特征的能力，本发明实施例提出了一种新的多尺度感受野模块。通过模拟人类视觉的感受野从而增强其特征提取能力，如图2所示。

其具体实现过程如下：图2左侧部分首先使用1*1的卷积进行通道特征降维，其不仅可以减少通道的维度数从而降低计算量，还可以修正非线性激活函数Relu，提高了卷积神经网络的局部感知区域，采用不同尺寸卷积核的卷积层构成多分支并行结构，增加感受野大小，并将不同尺寸的卷积层输出进行拼接，通过融合不同的特征极大丰富了语义信息。图2右侧使用残差结构，其可以很好的提高网络的性能，加速网络训练，最后将左侧与右侧的输出按一定比例求和。

另一方面，为了给编解码网络模块提供多层次的语义信息，将浅层和深层特征进行融合，特征融合模块的结构细节如图3所示。输入图像经过两层卷积和一层最大池化得到 Feature Level1，具体操作如下：利用3*3的卷积核(步长为1)来捕获高分辨率图像中的小目标缺陷，在每个卷积层后都加入了归一化和非线性激活函数Relu，池化层采用2*2的内核，其可以起到减少计算量以及图像分辨率，捕获图像局部信息差异变化的作用。之后Feature Level1经过多尺度卷积模块和最大池化得到Feature Level2，由于FeatureLevel1和Feature Level2为两个不同尺度的特征映射，因此在拼接操作之前需要采用一次上采样操作将 Feature Level1和Feature Level2缩放到同一尺度。

2、编解码网络模块

在第二编解码网络模块中，对传统的U型结构进行了改进，使其更轻量更准确，具体操作如下：在编码网络中对特征融合网络生成的特征进行一系列的卷积池化操作，每一个卷积块操作由两个3*3卷积以及一个2*2的最大池化层所构成，其中在每个卷积后面会紧跟非线性激活函数Relu，共进行四次下采样的操作，在下采样操作中图像的空间分辨率逐渐减少，特征维度逐渐增大，编码网络层次式学习到目标特征，编码网络中学到的特征中浅层特征具有更多的空间信息，包含边缘和位置信息，而深层特征包含更多的语义类别信息。在编码网络的最后一个卷积层加入三线性全局注意力模块，对特征进行压缩激活处理提高对有效特征的利用能力，之后再将特征送入解码网络中。

解码网络采用了与U-Net相似的跳跃连接方式，对编码网络学习的特征进行空间分辨率的恢复，特征经过解码网络的上采样操作之后会与编码网络对应维度的特征进行拼接操作，重复这个过程从而形成一个U型结构。该结构使得解码器能够学习到在编码器中丢失的相关特征，并弥补解码过程中损失的空间信息等，之后再添加两个3*3的卷积层，增强解码器的学习能力，使其学习到图像中具有判别性区域的特征。

3、三线性全局注意力模块

在第三三线性全局注意力模块中，针对之前的注意力机制工作中存在以下：计算量大、未充分利用全局上下文信息，需手动设计pooling等复杂操作的问题，本发明实施例提出了一种三线性全局注意力模块，如图4所示。核心思想是用深层的语义信息来指导浅层的特征，并对浅层特征也进行了注意力操作，将浅层的卷积特征图转为注意力图。

其中，三线性全局注意力模块分为两个分支，第一个分支对浅层特征进行操作，而第二分支为深层特征操作，用于将全局上下文信息作为浅层特征的指导,从而实现类别的定位细节，具体操作如下：

在第一分支中，浅层输入卷积特征图(c×h×w)之后对其进行reshape操作使其为X_L (c×hw)，然后进行转置操作生成

而

可代表浅层特征中各个通道之间的关系，然后将上述的通道关系图与之前的特征图X再做一次整合即

操作，之后再经过reshape操作后，便可得到浅层特征注意力图。通过上述该分支可以方便快速的将浅层特征图转为注意力图，而这起到了对浅层特征细节部分增强的目的具体操作如式(1)所示：

Attention(L)＝R(N(N(X_L·X_L ^T)·X_L)) (1)

而在第二分支中，深层输入卷积特征图X_H会首先经过压缩阶段，对空间维度上进行特征压缩，之后进行激励阶段对特征通道进行建模其相关性，经过上述两次全连接的操作以及激活函数的操作便可得到深层特征的注意力图，具体操作如式(2)所示：

Attention(H)＝σ(F₂(δ(F₁(X_H)))) (2)

式中σ表示ReLU激活函数；δ表示Sigmoid激活函数。

在最后的重分配中，将富含语义信息的深层特征来指引对浅层特征进行选择，即将深层特征的权重值通过乘法操作逐通道加权到已被增强浅层特征图上，

具体操作如式(3)所示：

4、决策模块

决策模块的输入是来自编解码网络的输出，其主要由1*1卷积、全局平均池化和全局最大池化所组成，具体操作如下：解码网络对特征进行空间分辨率恢复后，便得到所需的分割输出图，其分辨率大小同输入图像一致，其中一条分支在分割输出图后添加一个1*1 的卷积模块，对其进行降维使得网络输出缺陷潜在位置的灰度图，用作分类结果的可视化解释。另一条分支上对分割输出图进行全局最大池化和全局平均池化运算，替代了CNN中的传统全连接层，通过全局最大池化运算可以增强模型的平移不变性以提高模型的预测能力。

与此全局平均池化运算赋予了每个通道实际的内在意义，在网络结构上正则化防止过拟合，之后将上述的输出结果拼接在一起，产生6个输出神经元。最后这些神经元与1*1 卷积线性权值组合成最终输出的神经元，并通过Sigmoid激活函数输出表面缺陷图像中存在缺陷的概率。

实施例2

下面结合具体的实验对实施例1中的方案进行可行性验证，详见下文描述：

1、实验设置

数据集及评价指标：

(1)KolektorSDD数据集

用于本次训练和评估KolektorSDD表面缺陷数据集是由Kolektor Group(http://www.vicos.si/Downloads/KolektorSDD)提供并注释的电子转向器的表面裂纹图像，数据集在工业环境下采集，分辨率为1408*512像素，如图5所示。更具体来说，该数据集是由50个有缺陷的电子转向器样本构成，每个转向器有多达8个表面这总共产生了399 张图片，其中52张为清晰可见的缺陷，并作为正样本，其余347张图片为无缺陷的负样本，训练集中正样本数目为26张，负样本为224张；测试集中正样本数目为26张，负样本为123张，图中的第一行为包含正样本和负样本的KolektorSDD数据集，第二为 KolektorSDD图像的像素级标注标签。

(2)实验细节

所提出的SDD-Net网络架构使用Adam优化器在KoletorSDD数据集上进行训练，学习率大小设置为0.0001，一阶动量项0.5，二阶动量项0.999，迭代轮数为300轮。由于图像大小较大以及GPU显存限制，在每次迭代过程仅使用单张图像，即批处理大小设置为1。此外非缺陷图像的数量是缺陷图像数量的8倍，为了确保网络训练过程中的有缺陷图像和无缺陷图像数量均衡，采取批处理数据均衡策略。具体而言，在训练过程的每次偶数迭代轮数中读取有缺陷的图像，在每次奇数迭代轮数中读取无缺陷的图像，该策略能够很好的分配缺陷图像和非缺陷图像，确保网络以恒定速率来观察缺陷图像和非缺陷图像，减轻了工业缺陷检测任务中样本存在不均衡的问题。本发明实施例提出的SDD-Net网络框架实现了缺陷位置和缺陷存在概率的同步预测，该网络是使用Facebook人工智能研究实验室开发的Pytorch机器学习人工智能框搭建的，在个人服务器上进行模型训练和测试，服务器配置了Ubuntu16.04的操作系统，4核AMD Ryzen 5 1500X CPU和11G Nvidia GetForce GTX1080Ti GPU驱动程序。

(3)实验评估指标

将表面缺陷检测作为图像二分类问题进行研究，即将图像分为两类：有缺陷的图像和无缺陷的图像，SDD-Net的可视化输出结果仅用作解释网络和定位缺陷位置，本次实验评估选取精准率、召回率、F-分数和准确率，具体数学公式所示：

在本次实验中，β＝1即F₁分数。式中：TP表示正确分类的正类别数；FP表示错误分类的正类别数；TN表示正确分类的负类别数；FN表示错误分类的负类别数。在本实验中，正类别是有缺陷的图像，负类别是无缺陷的图像。

2、训练结果评价

为评估所提出的SDD-Net网络的有效性，本实验和多种网络进行了分类精度的对比，其中包括：ResNet101、SE-ResNet101、SegNet、U-Net、Deeplabv3+、Seg and decnetwork 这些卷积神经网络。

为了保证实验结果只体现网络结构的差异而不受其它影响，对其中的SegNet、U-Net、 DeepLabv3+分割网络添加分类模块，本研究进行全面的精度评价，包括：错误分类的正类别数(FP)，错误分类的负类别数(FN)，精准率(Precision)，召回率(Recall)，准确度(AUC)， F1评分(F-score)，总体精度(Acc)，参数量(Million Params)。

表1将本发明实例所提出的方法与其它的常规方法进行了比较，本发明实施例提出的SDD-Net具有很好的分类性能，对KoletorSDD数据集的分类精度达到了99.33％，且其参数量少，网络收敛速度快。相比与分类网络ResNet101，由于分类网络的连续卷积和池化，在全连接层之前的特征并不能很好的描述小样本数据集中的微小缺陷，分类效果并不是很好。SE-ResNet101参考ResNet101的结构，加入了特征压缩激活模块，分类性能相比ResNet101有了一定程度的提升，证明特征激活模块在小样本数据集缺陷提取的问题上有效提升了模型能力，但其精准率过低仅68.57％，之后将经典的分割网络SegNet、U-Net、DeepLabv3+进行实验对比，在分割网络的输出后添加决策网络模块，实现最终的类别预测。其中DeepLabv3+性能最佳，在召回率为100％的情况下，平均准确率为97.99％，而Tabernik等人提出的强监督的两级网络结构Seg and dec network，其首先使用像素级标签对分割网络进行训练，之后使用图像级标签对分类网络训练，平均准确率达99.33％，然而这种方法需要获取像素级标签，耗费大量的时间和人工精力。

表1网络在KolektorSDD测试数据集上的精度评价对比

表2 SDD-Net模型拆分实验

表3模型的训练参数和平均精度的对比

本发明实例提出的SDD-Net在训练样本较少的情况下仅需要图像级的标签就能达到良好的性能，其通过将不同卷积核大小的卷积组合成新特征，在解码网络中复用编码网络中相应尺度的特征恢复低级视觉信息，并引入三线性全局注意力模块，其有效增强了缺陷像素和非缺陷像素的差异，使网络可以很好的捕获小样本数据集下的异常区域。

为了验证多尺度卷积模块和三级全局注意力模块对网络整体性能的贡献，本发明实施例对SDD-Net模型进行了拆分，分别验证了特征融合网络和三级全局注意力模型在模型中起到的作用，测试结果如上述表2所示。实验结果表明，特征融合网络和三级全局注意力机制加入之后，模型的性能分别有了一定程度上的提升。

如图6所示为图像缺陷潜在位置可视化结果图，这里仅用作可视化结果的视觉解释，其中(a)(d)是原始图像，(b)(e)是像素级标注标签，(c)(f)是本文SDD-Net网络输出缺陷潜在位置灰度图。从图6可以清楚的观察到本方法在仅使用图像级标签的前提下可以很好的聚焦到输入图像中的异常区域，从而有效地区分缺陷样本。此外本方法提出的SDD-Net网络在模型参数还优于之前的方法，如图7及表3所示为模型在Nvidia GetForce GTX1080Ti 机器上实验获得的单张图片分类精度的检测时间，从图7中可以看到，与SegNet，U-Net， DeepLabv3+和Seg and dec方法相比，本发明具有更快的速度以及更好的平均精度，其使用3.54M参数量实现，仅是U-Net的参数量的一半，其检测单张图像为30毫秒。

总的来说，本发明实施例采用基于多尺度卷积和三线性全局注意力的深度卷积神经网络架构来预测表面缺陷检测，在小样本的电机转向器表面裂纹数据集上进行了验证，仅使用图像级标签便可同时预测缺陷的位置和概率，获得优异的检测性能。可将网络用于训练识别其它材料(如钢或玻璃)中的缺陷，使其在工业实际应用中发挥价值。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度卷积和三线性全局注意力的表面缺陷检测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于多尺度卷积和三线性全局注意力的表面缺陷检测方法，其特征在于，所述特征融合网络模块包括：多尺度感受野模块，通过模拟人类视觉的感受野从而增强其特征提取能力；

3.根据权利要求1所述的一种基于多尺度卷积和三线性全局注意力的表面缺陷检测方法，其特征在于，所述三线性全局注意力模块用深层的语义信息指导浅层的特征，并对浅层特征进行注意力操作，将浅层的卷积特征图转为注意力图；

所述三线性全局注意力模块分为两个分支，第一分支中，浅层输入卷积特征图(c×h×w)之后对其进行reshape操作使其为X_L(c×hw)，进行转置操作生成

操作，再经过reshape操作后，便可得到浅层特征注意力图；

Attention(H)＝σ(F₂(δ(F₁(X_H))))

式中σ表示ReLU激活函数；δ表示Sigmoid激活函数；