CN114972280B

CN114972280B - 精细坐标注意力模块及其在表面缺陷检测中的应用

Info

Publication number: CN114972280B
Application number: CN202210635875.3A
Authority: CN
Inventors: 杨波; 肖猛; 王时龙; 张正萍; 唐小丽; 徐佳
Original assignee: Chongqing Branch Of Wuhan China Merchants Ro Ro Transportation Co ltd; Chongqing University; Seres Group Co Ltd
Current assignee: Chongqing Branch Of Wuhan China Merchants Ro Ro Transportation Co ltd; Chongqing University; Seres Group Co Ltd
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2023-11-17
Anticipated expiration: 2042-06-07
Also published as: CN114972280A

Abstract

本发明公开了一种精细坐标注意力模块，包括坐标信息聚合单元、跨维度交互单元和注意力生成单元；所述坐标信息聚合单元用于对中间特征图分别在高度和宽度方向上编码坐标信息，并在高度和宽度方向上分别进行坐标平均池化和坐标最大池化处理，生成四组聚合特征；所述跨维度交互单元采用一个带降维层的卷积块，使所述坐标信息聚合单元生成的四组聚合特征共用该卷积块并独立进行特征变换，得到四组变换特征；所述注意力生成单元利用注意力权重将四组变换特征分别生成在高度和宽度方向上的两组坐标注意力，利用该两组坐标注意力对中间特征图进行重校准，得到输出特征图。本发明还公开了一种如上所述精细坐标注意力模块在表面缺陷检测中的应用。

Description

精细坐标注意力模块及其在表面缺陷检测中的应用

技术领域

本发明属于图像处理技术领域，具体的为一种精细坐标注意力模块及其在表面缺陷检测中的应用。

背景技术

质量是工业制造过程中的重要部分，直接关系到产品的销量和企业的市场，在各大智能制造工厂和数字化车间的制造执行系统中，质量管理也是必备模块。表面缺陷是影响质量的重要因素，极端情况下甚至会对产品的性能造成严重损害。因此，表面缺陷检测作为控制产品质量的关键环节，在钢铁、汽车、智能制造等众多工业领域内一直都发挥着巨大作用，被涵盖在生产的多个环节，从而能够有效的杜绝或减少残次品流入市场。

传统的检测手段一般包括人工目视检测、超声检测、涡流检测。人工目视检查是一种通过人眼或借助辅助光学仪器，直接对产品表面缺陷进行判断的无损检测方法，虽然操作简单，但缺点十分明显，即检测结果容易受到主观原因的影响，并且很难检测到细微缺陷。用于超声检测的设备主要包括发射探头和接收探头，发射探头发射的超声波经过耦合剂传入待检测表面，然后反射回超声波形，通过对反射波形的研究实现对缺陷的类别判断和定位。超声检测的适用范围广泛，但是对形状复杂的表面的检测精度不高，并且必须依赖耦合介质。涡流检测是一种利用电磁感应原理的检测方法，高频变磁场在待检测表面产生涡流，而出现缺陷的部位会对涡流产生阻碍作用，导致缺陷部位与正常部位的温度存在差异，通过温差来实现对缺陷的检测。涡流检测的灵敏度高，缺点是成本过高，对铁磁性表面的检测效果不理想。

相比传统的检测手段，基于机器视觉的表面缺陷检测是一种更具前景的无损检测方法，它只需要对待检测表面进行拍摄，将其转换为图像数据输入到图像处理系统即可对表面缺陷做出判断，这类方法的关键是图像处理系统中的特征提取算法。传统机器视觉中的特征提取算法需要依靠大量的图像预处理工作和特征工程，即通过人工来挑选初始特征。对于工业产品的表面缺陷而言，这些前期工序的工作量是巨大的，因为表面缺陷图像存在如图1所示的三大挑战：

(1)同种缺陷类别的差异性大，如图1(a)中的带钢表面缺陷图像所示，两张图像都出现了斑块，左边的集中且巨大，而右边的分散且细小；

(2)不同缺陷类别的差异性小，如图1(b)中所示，两类点焊焊点的差异部位只占据整个焊点极小部分；

(3)目标不显著，一张图像上的大部分都是背景，目标看起来像是零散的落在了图像的各个区域上，如图1(c)中的焊点所示。

上述三大难题使得人工可挑选的特征非常有限，相应的就增加了图像预处理工作，导致基于传统机器视觉的缺陷检测非常低效。

由于具备强大的特征提取能力，基于深度学习卷积神经网络(ConvolutionalNeural Network，CNN)的计算机视觉技术正在逐渐取代传统的机器视觉技术，并在表面缺陷检测领域涌现出了大量的相关研究。归结起来，这些研究存在三个问题：

(1)只针对某一种工业产品，如带钢、轨道、白车身；

(2)只研究某一类检测任务，如图像分类、目标检测、语义分割；

(3)只考虑某一个检测难题，如数据不平衡、小目标检测。

根据某一具体的工业缺陷检测问题来定制深度学习模型往往是规模巨大且耗费成本的。但是，工业表面缺陷存在一些共性问题，如图1所示，所以一些在具体的表面缺陷检测问题上被验证了有效的模型同样可以用于其他的表面缺陷检测问题，只不过效果会稍差一些。因此，本发明旨在提出一种精细坐标注意力模块，用于提高已有模型的性能，使这些先进的模型能够更好的适应多种表面缺陷检测问题。

发明内容

有鉴于此，本发明的目的在于提供一种精细坐标注意力模块及其在表面缺陷检测中的应用，所述的精细坐标注意力模块提升了对缺陷区域的定位能力，并可用于多种工业产品的表面缺陷检测以及用于多种视觉检测任务，同时在应用时还可嵌入到任意的CNN模型内以实现性能的提升。

为达到上述目的，本发明提供如下技术方案：

本发明首先提出了一种精细坐标注意力模块，包括坐标信息聚合单元、跨维度交互单元和注意力生成单元；

所述坐标信息聚合单元用于对中间特征图分别在高度和宽度方向上编码坐标信息，并在高度和宽度方向上分别进行坐标平均池化和坐标最大池化处理，生成四组聚合特征；

所述跨维度交互单元采用一个带降维层的卷积块，使所述坐标信息聚合单元生成的四组聚合特征共用该卷积块并独立进行特征变换，得到四组变换特征；

所述注意力生成单元利用注意力权重将四组变换特征分别生成在高度和宽度方向上的两组坐标注意力，利用该两组坐标注意力对中间特征图进行重校准，得到输出特征图。

进一步，对于中间特征图其中，x_k表示第k个通道输入的特征图；/>表示三维张量；H表示高度；W表示宽度；C表示通道；

所述坐标信息聚合单元在高度方向上编码坐标信息得到的两组聚合特征为：

其中，分别表示在高度方向上编码坐标信息得到的两组聚合特征；和/>分别表示基于高度方向的坐标平均池化和坐标最大池化；

所述坐标信息聚合单元在宽度方向上编码坐标信息得到的两组聚合特征为：

其中，分别表示在宽度方向上编码坐标信息得到的两组聚合特征；和/>分别表示基于宽度方向的坐标平均池化和坐标最大池化。

进一步，所述跨维度交互单元可以表示为：

其中，表示在高度方向上的两组变换特征；/>表示在宽度方向上的两组变换特征；f_1×1(V₀,V₁)表示变换运算函数，实现了对聚合特征的跨维度交互；/>和/>均为1×1卷积核，r表示维度降低率；δ(·)表示ReLU函数。

进一步，所述注意力生成单元中，高度方向和宽度方向上的注意力权重为：

其中，和/>分别表示在高度和宽度方向上的两组坐标注意力；σ(·)表示Sigmoid函数；

利用两组坐标注意力对中间特征图X进行重校准，得到：

Z＝f_co(f_co(X,Y_h),Y_w)

其中，f_co(·,·)表示坐标级别的乘法，Z表示中间特征图X经过重校准后得到的输出特征图。

本发明还提出了一种如上所述精细坐标注意力模块在表面缺陷检测中的应用，利用卷积神经网络进行表面缺陷检测，将所述精细坐标注意力模块嵌入到所述卷积神经网络内。

本发明的有益效果在于：

本发明的精细坐标注意力模块，利用坐标信息聚合单元分别在高度和宽度方向上编码坐标信息，并以坐标平均池化和坐标最大池化聚合平均特征和显著特征，使注意力包含了更为细致的位置信息，提高了模型对缺陷区域的定位能力；同时，坐标平均池化和坐标最大池化沿着高度和宽度方向聚合特征，实现了在嵌入通道信息的同时保留特征图的空间位置信息，为跨纬度交互提供了条件；在跨维度交互单元中，并未进行拼接操作，四组聚合特征完全独立的执行特征变换，避免了两坐标方向的信息相互干扰，聚合特征与注意力权重的对应能够更加直接；注意力生成单元中，两组坐标注意力并行计算且同时校准中间特征图，使得四组聚合特征得以共享跨维度交互函数，从而最大限度的降低了参数量；

综上，本发明的精细坐标注意力模块以输入为条件生成的注意力图，两组注意力图都是基于输入的中间特征图编码了一组平均信息和一组显著信息；由于每组信息的每个元素都对应着一个高度坐标或者宽度坐标，输入特征的辨识度可以得到显著提高；具体来说，目标对象所在的行或列都能被反映在每个元素中，这一系列过程使得本发明的精细坐标注意力模块能够对表面缺陷实现精确的分类和定位，并可用于多种工业产品的表面缺陷检测以及用于多种视觉检测任务，同时在应用时还可嵌入到任意的CNN模型内以实现性能的提升。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为表面缺陷检测面临的挑战示例图；(a)同类缺陷差异性大；(b)不同类缺陷差异性小；(c)目标不显著；

图2为本发明精细坐标注意力模块的原理图；

图3为FCA模块在分类模型和目标检测模型中的部署示例；(a)部署到ResNet；(b)部署到YOLOv4；

图4为热轧带钢表面缺陷的示例图；

图5为焊点表面缺陷的示例图；

图6为RSW-D中的焊点缺陷图像示例；

图7为检测结果示例图；(a)缺陷较密集；(b)缺陷较稀疏；

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

一、精细坐标注意力模块

精细坐标注意力模块(以下简称“FCA”)对通道关系编码的同时保留了的位置信息，并且不同于卷积注意力模块(Convolutional Block Attention Module，CBAM)对空间像素的全局聚合方式。具体而言，它保留了两个坐标方向(即高度和宽度方向)的信息，这使得FCA在执行通道交互的时候可以进行远距离信息交互，相比也具备这种能力的像素级全局注意力PSANet，FCA非常轻量，因为它的参数构成仅为两组张量(卷积核)。又由于同时聚合了平均信息和显著信息，FCA比CA模块更为精细。FCA模块的结构如图2所示，其生成注意力图的计算过程分为三个步骤：坐标信息聚合、跨维度交互、注意力生成。即本实施例的精细坐标注意力模块包括坐标信息聚合单元、跨维度交互单元和注意力生成单元。

1.1、坐标信息聚合单元

坐标信息聚合单元用于对中间特征图分别在高度和宽度方向上编码坐标信息，并在高度和宽度方向上分别进行坐标平均池化和坐标最大池化处理，生成四组聚合特征。

在基于CNN的注意力机制中，第一步通常是特征信息聚合，最常用的手段则是GAP(如SE模块、CBAM和ECA模块)。但GAP存在两个不足：(1)将全局信息平均化，从而忽略了显著特征，这也是CBAM中引入GMP的原因；(2)只能编码一个维度的信息，即通道信息或者空间信息，显然，GMP也存在同样的问题。

FCA模块基于坐标方向执行平均池化和最大池化，这种运算并不同于CBAM中所采用的全局性池化，我们分别称其为坐标平均池化(coordinate average pooling，CAP)和坐标最大池化(coordinate max pooling，CMP)。给定一个中间特征图其中，x_k表示第k个通道输入的特征图；/>表示三维张量；H表示高度；W表示宽度；C表示通道；坐标信息聚合单元在高度方向上编码坐标信息得到的两组聚合特征为：

类似的，坐标信息聚合单元在宽度方向上编码坐标信息得到的两组聚合特征为：

与CBAM的理念相同，FCA模块在两个坐标方向都引入了最大池化以编码显著特征信息，从而有效避免了单一聚合运算所造成的特征表征性不足问题，对于工业缺陷图像而言，这是十分有必要的。因为不同的缺陷类别之间的差异会存在非常细微的情况，在这种情况下，仅采用平均池化可能会导致差异性最大的像素被忽略。

CAP和CMP沿着两坐标方向聚合特征，实现了在嵌入通道信息的同时保留特征图的空间位置信息，不需要像CBAM那样在两个独立的子模块中执行两次特征聚集，同时为远距离交互提供了条件。不仅如此，这一操作还为参数降低带来了巨大的便利，得到的聚合特征所需的跨维度交互编码可以完全共享，从理论上来说，这意味着FCA模块的空间复杂度仅和CBAM模块相当。

1.2、跨维度交互单元

所述跨维度交互单元采用一个带降维层的卷积块，使所述坐标信息聚合单元生成的四组聚合特征共用该卷积块并独立进行特征变换，得到四组变换特征。

为了有效利用聚合特征中的表征，FCA模块的跨维度交互函数应满足下列准则：首先也是重要的，能够同时捕捉远距离依赖和通道间关系以突出目标区域；其次，它应该尽可能简单和轻量以确保FCA模块能够嵌入到任意的CNN架构而不增加沉重的计算成本；最后，四组聚合特征的交互应该相对独立，避免产生干扰。为满足这些准则，我们采用了带一个降维层的1×1卷积块，除此之外没有引入任何附加参数，和/>将共享这一卷积块，于是跨维度交互可以表示为下列等式：

其中，表示在高度方向上的两组变换特征；/>表示在宽度方向上的两组变换特征；δ(·)表示ReLU函数；变换运算f_1×1(V₀,V₁)实现了对聚合特征的跨维度交互，它的两组1×1卷积核，即/>和/>包含了FCA模块的全部参数量。

得益于CAP和CMP，FCA模块在参数量仅仅和CBAM的通道注意力相同的情况下实现了通道间交互和空间位置交互。与CA模块相比，FCA模块没有拼接操作，四组聚合特征完全独立的执行特征变换，避免了两坐标方向的信息相互干扰，聚合特征与注意力权重的对应能够更加直接。

1.3、注意力生成单元

本实施例中，聚合特征都是独立编码和交互的。而在注意力生成单元中，变换特征将被相加以实现综合利用，这对表面缺陷检测而言具有重要意义。高度和宽度方向上的注意力权重计算如下：

其中，和/>分别表示在高度和宽度方向上的两组坐标注意力；σ(·)表示Sigmoid函数。

从而得到：

利用两组坐标注意力对中间特征图X进行重校准，得到：

Z＝f_co(f_co(X,Y_h),Y_w)

可以看出，FCA模块的两组注意力图是并行计算且同时校准特征图的，并不同于CBAM中两个子模块的串接，并且这种并行计算又使得四组聚合特征得以共享跨维度交互函数，从而最大限度的降低了参数量。

FCA模块实质上是以输入为条件来生成的注意力图，所以两组注意力图的都是基于输入特征图编码了一组平均信息和一组显著信息。又由于每组信息的每个元素都对应着一个高度坐标或者宽度坐标，输入特征的辨识度可以得到显著提高。具体来说，目标对象所在的行或列都能被反映在每个元素中。这一系列过程使得FCA模块能够对表面缺陷实现精确的分类和定位，并可用于多种工业产品的表面缺陷检测以及用于多种视觉检测任务，同时在应用时还可嵌入到任意的CNN模型内以实现性能的提升。

1.4、应用

本实施例还提出了一种如上所述精细坐标注意力模块在表面缺陷检测中的应用，利用卷积神经网络进行表面缺陷检测，将所述精细坐标注意力模块嵌入到所述卷积神经网络内。

如图2所示，FCA模块可以嵌入到任意的模型进行表面缺陷检测，本实施例选用了ResNet和YOLOv4作为基准模型，如图3(a)所示，在ResNet的残差块(residual block)中，FCA模块被放置在恒等连接之前。如图3(b)所示，在YOLOv4的主干网络CSPDarkNet中，FCA模块被部署在每两个Stage之间。当然，嵌入方式是灵活的，FCA模块也可以按照任意的其他方式进行部署。而在VGGNet等普通模型中，它的部署方式更为简单，可放置在任意卷积层之后。

二、卷积注意力模块

为了对比本实施例的精细坐标注意力模块与卷积注意力模块，下面对CBAM的具体实施方式进行介绍。

CBAM是最早将通道注意力和空间注意力相结合的工作之一，自然地，它可以分解为两个子模块：通道注意力模块和空间注意力模块，它们先后对特征图进行重校准。给定一个中间特征图X，通道注意力可表示如下：

其中，和/>分别表示通道级别的全局平均池化(global averagepooling，GAP)和全局最大池化(global max pooling，GMP)，以X为例，计算公式如下：

变换运算f(W₀,W₁)用于捕捉通道间依赖关系，由两个多层感知器(multi-layerperceptron，MLP)构成。由于MLPs是共享的，通道注意力引入的参数只有和r表示维度降低率，通常取r＝16或32，维度降低进一步降低了通道注意力的复杂度。δ(·)表示ReLU函数，σ(·)表示Sigmoid函数。将学习到的通道注意力图/>作用于X完成特征图的通道重校准，如下式所示：

Z′＝f_ch(X,Y_ch)

这里，f_ch(·,·)表示通道级别的乘法，是通道重校准后的特征图。

之后，空间注意力模块将在Z′上生成空间注意力图，其计算过程可表述如下：

其中，和/>分别表示空间级别的GAP和GMP，以Z′为例，计算公式如下：

其中，[·：·]表示基于通道方向的拼接操作，变换运算f_7×7(W₃)用于实现跨空间交互，CBAM采用的是一个卷积核大小为7×7的卷积运算，权重张量即卷积核，*表示卷积。将学习到的空间注意力图/>作用于Z′完成特征图的空间重校准，如下式所示：

Z＝f_sp(Z′,Y_sp) (4)

这里，f_sp(·,·)表示空间级别的乘法，即给定的中间特征图X经过CBAM重新校准后的特征图。

总的来看，CBAM对通道依赖和空间依赖都完成了建模，但是这种建模是比较孤立的，具体来说，两个子注意力模块的串接组成了CBAM，这增加了模块的参数量。CBAM的另一个不足是它的空间注意力直接对同一空间的全部像素进行聚合，这样虽然能够编码全局信息，但是得到的特征的表达性不足，这不足以准确的反映出目标缺陷所在的区域。因此，本文提出了更精巧的FCA模块，它可以在通道注意力中保留更精细的位置信息。对于具有差异性小和目标不显著等特点的工业表面缺陷而言，借助空间位置信息提升模型对目标区域的定位能力是不可或缺的。

三、实验验证

为了验证FCA模块在不同的CNN架构、数据集和视觉任务上的通用性和适用性，基于三组数据集做了两类实验：图像分类和目标检测。

3.1、图像分类

图像分类是计算机视觉的基础任务，分类模型是其他高阶任务(如目标检测)的主干网络，于是我们首先进行了图像分类实验。这一节使用了一组公开数据集和一组来自实际汽车生产线的数据集。

3.1.1、数据集

实验所用的公开数据集是Song等人构建的热轧带钢表面缺陷数据集，即东北大学(Northeastern University，NEU)表面缺陷数据集[K.Song and Y.Yan,“Anoise robustmethod based on completed local binary patterns for hot-rolled steel stripsurface defects,”Appl.Surface Sci.,vol.285,pp.858–864,Nov.2013.]。此数据集包含夹杂(inclusion，In)、斑块(patches，Pa)、裂纹(crazing，Cr)、麻点(pitted surface，PS)、压入氧化皮(rolled-in scale，RS)和划痕(scratches，Sc)六类表面缺陷，如图4所示。每一类缺陷各有300张图片，共1800张缺陷图片，大小均为299×299，在本实验中，将三分之二的图片用于训练，其余用于测试。

另一组数据集是电阻点焊(RSW)表面缺陷数据集，基于拍摄的白车身焊点图像制作了图像分类数据集(RSW-C)和目标检测数据集(RSW-D)。其中RSW-C包含七个类别(正常焊点和六种缺陷焊点)：正常、边缘、粘铜、重叠、残缺、飞溅和扭曲，如图5所示。由于采集自生产实际，各个类别的图片数目并不均衡，但总量远远多于NEU数据集，于是按照4:1的比例划分为训练集与测试集，具体划分情况如表1所示。

表1 RSW-C的划分

3.1.2、实验设置

所有的实验都在Pytorch深度学习框架上部署，没有对图像采取任何预处理。采用随机梯度下降(stochastic gradient descent)优化器，初始学习率设置为0.01，动量(momentum)设置为0.9，权重衰减设置为0.0005。采用余弦退火(cosine annealing)学习率衰减策略，每一批次训练图像数目(batch_size)设置为32，在NVIDIARTX 2060GPU上训练50个世代(epochs)。

3.1.3、实验结果

选用了经得起时间考验的也是表面缺陷检测应用得较多的ResNet50[13]作为基准模型，对其嵌入SE、CBAM、CA和FCA模块进行对比实验，实验结果如表2所示，其中，参数量(Param.)反映模型的空间复杂度，浮点运算次数(FLOPs，1GFLOPs＝10^9FLOPs)反映时间复杂度。结果显示，FCA模块通过引入少量参数就提高了基准模型的性能，在NEU数据集和RSW-C上分别提高了6％和4％的准确率，均高于其他注意力机制，尤其是在NEU数据集上，嵌入FCA模块的ResNet50能达到接近100％的准确率。根据各个模型的GFLOPs(1GFLOPs＝10^9FLOPs)，FCA模块的时间复杂度最大，这是因为它的跨维度交互函数对4组聚合特征都进行了独立的运算，由实验结果可知，这种运算是非常有效的。得益于共享的跨维度交互，FCA模块的空间复杂度很小，因为它引入的额外参数量仅和SE模块相同。总的来看，FCA模块是轻量和高效的，性能要好于其他注意力。

表2模型复杂度与分类结果

ResNet50+CBAM和ResNet50+FCA的模型具有较高的准确率，我们统计了两模型对所有缺陷的分类情况，因为对于工业缺陷检测而言，只考虑准确率是比较局限的。然后根据混淆矩阵计算了相应的度量指标，即precision(PR)、recall(RC)和F1分数(F1)，从而更加直观的展示分类效果，如表3所示。

可以看出，在NEU数据集上，ResNet50+FCA分类错误的两张缺陷图像都是RS，它们被模型预测为了PS，其余四种缺陷的F1分数都达到了1.00。由于NEU数据集中的图像数量分配均匀并且缺陷特征较简单，FCA模块的提升效果十分明显是，而在RSW-C上，图像数据较少的几种缺陷的识别效果要明显差于数据量较多的缺陷类别，但是这并没有影响FCA模块的性能，它的表现仍然要好于CBAM，因为ResNet50+FCA在五种缺陷类别上的F1分数都要高于ResNet50+CBAM，尤其是在飞溅和扭曲焊点上，具有显著优势。

表3各类表面缺陷的分类效果

3.2、目标检测

通过图像分类实验，证明了FCA模块不仅仅只适用于某一类数据集，它可以在增加少量计算负担的情况下提升CNN对工业表面缺陷的特征的提取能力，完成各种分类任务。然而在更多的情况下，工业实际生产中获取的表面缺陷图像往往有多个目标。这时，不仅需要对目标缺陷进行分类，还要对其定位，于是做了目标检测实验以验证FCA模块不止适用于图像分类任务，这使得我们的工作更具实用性。

3.2.1、数据集

实验采用的表面缺陷数据集是基于白车身焊点图像制作的RSW-D，它同样包含RSW-C中的七种焊点类别，不同的是每张图像包含多个不同缺陷的焊点，分辨率要高于RSW-C，图6所示为两张示例图。RSW-D一共有4134张图像，按9：1比例的划分为训练集和测试集。

3.2.3、实验设置

目标检测实验也在Pytorch框架上部署。采用Adam优化器，初始学习率设置为0.001，采用衰减系数为0.94的间隔(step)学习率衰减策略。由于RSW-D数据的分辨率较大，batch_size设置为4。其余设置与4.1.2节相同。

3.2.4、实验结果

实验采用先进的YOLOv4目标检测算法作为基准模型，将各个注意力模块(由于SE模块在图像分类实验中表现较差，本节不再进行比较)嵌入到其主干网络，即CSPDarkNet53的最后三个阶段(stage)，比较了两个典型交并比(Intersection over Union，IoU)阈值(0.5和0.75)下的mean Average Precision(mAP)，并用每秒传输帧数(Frame Per Second，FPS)来衡量模型的推理速度。实验结果如表4所示。

结果显示，在两种阈值下，YOLOv4+FCA都能实现最高的mAP，尤其是当阈值为0.5时，远远领先其他模型。相比FCA模块，CBAM在基准模型上性能提升效果比较微弱，在两个阈值下的mAP分别仅提高了约1％和2％，而CA模块仅在阈值为0.75时对基准模型实现了不到1％的性能提升。根据FPS，FCA模块与其他注意力一样，只需增加少量推理时间便能带来精度的提高。总的来说，FCA模块由于编码了缺陷的位置信息，在目标检测任务上有更好的表现。

表4检测结果

与图像分类一样，我们对每种缺陷的检测效果做了统计，统计结果如表5所示，对于目标检测实验，增加了一个Average Precision(AP)指标。根据表5可知，无论阈值为0.5还是0.75，FCA模块的所有AP和F1的几乎都要高于CBAM，这意味着它在几乎所有表面缺陷上的检测效果都要好于CBAM。FCA模块的卓越性能归功于它对坐标信息的精细化聚合，因为同时考虑了平均特征和显著特征，它编码的坐标信息能够实现对表面缺陷的准确分类和定位。

表5表面缺陷检测效果

最后随机选取了目标密集和稀疏的缺陷图像各4张，对YOLOv4+FCA的检测结果进行可视化，检测效果如图7所示。可以看出，FCA模块对各类表面缺陷都能做出准确的识别和定位，图7(a)和图7(b)中的绝大多数检测框的置信度都在0.90以上，即便是较模糊的目标(图7(b)右上角)也能实现准确的检测。

4、结论

本文研究了基于CNN的注意力机制在工业表面缺陷检测中的应用，提出的注意力机制FCA模块是用于表面缺陷检测的一种通用型架构。它的结构包括三个函数，首先，坐标信息聚合在通道信息嵌入的同时保留位置信息，这是由基于长度和宽度方向的CAP和CMP实现的；之后，基于1×1卷积块的跨维度交互函数对每一组聚合特征独立地完成了远距离依赖和空间依赖捕捉；最后，注意力生成函数对变换特征进行综合利用，在长度和宽度方向上各生成一组注意力图，得到的注意力图对表面缺陷的特征提取和定位时起到了至关重要的作用。FCA模块非常轻量和高效，它可以插入到任意的CNN模型中带来性能提升，适用于多种缺陷数据集和检测任务。在带钢缺陷数据集和焊点缺陷数据上对FCA模块的性能进行了验证，图像分类和目标检测实验都表明FCA模块的性能优于现有注意力机制，图像分类的准确率分别达到99.7％和95.7％，目标检测的mAP达到91.4％，能够帮助企业生产线实现准确快速的自动缺陷检测，降低人工成本，并提升自动化程度。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种精细坐标注意力模块在表面缺陷检测中的应用，其特征在于：包括图像分类和目标检测两种应用模式，且在图像分类和目标检测两种应用模式中，均需构建表面缺陷数据集；其中：在图像分类应用中构建的表面缺陷数据集，每张图片上具有一类表面缺陷；在目标检测应用中构建的表面缺陷数据集，每张图片上具有多个不同的表现缺陷；

在进行图像分类和目标检测两种应用中，利用卷积神经网络进行表面缺陷检测，将所述精细坐标注意力模块嵌入到所述卷积神经网络内；

所述精细坐标注意力模块包括坐标信息聚合单元、跨维度交互单元和注意力生成单元；

2.根据权利要求1所述的精细坐标注意力模块在表面缺陷检测中的应用，其特征在于：

对于中间特征图其中，x_k表示第k个通道输入的特征图；/>表示三维张量；H表示高度；W表示宽度；C表示通道；

其中，分别表示在高度方向上编码坐标信息得到的两组聚合特征；/>和/>分别表示基于高度方向的坐标平均池化和坐标最大池化；

3.根据权利要求2所述的精细坐标注意力模块在表面缺陷检测中的应用，其特征在于：所述跨维度交互单元表示为：

其中，表示在高度方向上的两组变换特征；/>表示在宽度方向上的两组变换特征；f_1×1(V₀,V₁)表示变换运算函数，实现了对聚合特征的跨维度交互；和/>均为1×1卷积核；r表示维度降低率；δ(·)表示ReLU函数。

4.根据权利要求3所述的精细坐标注意力模块在表面缺陷检测中的应用，其特征在于：所述注意力生成单元中，高度方向和宽度方向上的注意力权重为：

利用两组坐标注意力对中间特征图X进行重校准，得到：

Z＝f_co(f_co(X,Y_h),Y_w)