CN114972280A - 精细坐标注意力模块及其在表面缺陷检测中的应用 - Google Patents

精细坐标注意力模块及其在表面缺陷检测中的应用 Download PDF

Info

Publication number
CN114972280A
CN114972280A CN202210635875.3A CN202210635875A CN114972280A CN 114972280 A CN114972280 A CN 114972280A CN 202210635875 A CN202210635875 A CN 202210635875A CN 114972280 A CN114972280 A CN 114972280A
Authority
CN
China
Prior art keywords
coordinate
attention
aggregation
sets
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210635875.3A
Other languages
English (en)
Other versions
CN114972280B (zh
Inventor
杨波
肖猛
王时龙
张正萍
唐小丽
徐佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Branch Of Wuhan China Merchants Ro Ro Transportation Co ltd
Chongqing University
Chongqing Sokon Industry Group Co Ltd
Original Assignee
Chongqing Branch Of Wuhan China Merchants Ro Ro Transportation Co ltd
Chongqing University
Chongqing Sokon Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Branch Of Wuhan China Merchants Ro Ro Transportation Co ltd, Chongqing University, Chongqing Sokon Industry Group Co Ltd filed Critical Chongqing Branch Of Wuhan China Merchants Ro Ro Transportation Co ltd
Priority to CN202210635875.3A priority Critical patent/CN114972280B/zh
Publication of CN114972280A publication Critical patent/CN114972280A/zh
Application granted granted Critical
Publication of CN114972280B publication Critical patent/CN114972280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/84Systems specially adapted for particular applications
    • G01N21/88Investigating the presence of flaws or contamination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了一种精细坐标注意力模块,包括坐标信息聚合单元、跨维度交互单元和注意力生成单元;所述坐标信息聚合单元用于对中间特征图分别在高度和宽度方向上编码坐标信息,并在高度和宽度方向上分别进行坐标平均池化和坐标最大池化处理,生成四组聚合特征;所述跨维度交互单元采用一个带降维层的卷积块,使所述坐标信息聚合单元生成的四组聚合特征共用该卷积块并独立进行特征变换,得到四组变换特征;所述注意力生成单元利用注意力权重将四组变换特征分别生成在高度和宽度方向上的两组坐标注意力,利用该两组坐标注意力对中间特征图进行重校准,得到输出特征图。本发明还公开了一种如上所述精细坐标注意力模块在表面缺陷检测中的应用。

Description

精细坐标注意力模块及其在表面缺陷检测中的应用
技术领域
本发明属于图像处理技术领域,具体的为一种精细坐标注意力模块及其在表面缺陷检测 中的应用。
背景技术
质量是工业制造过程中的重要部分,直接关系到产品的销量和企业的市场,在各大智能 制造工厂和数字化车间的制造执行系统中,质量管理也是必备模块。表面缺陷是影响质量的 重要因素,极端情况下甚至会对产品的性能造成严重损害。因此,表面缺陷检测作为控制产 品质量的关键环节,在钢铁、汽车、智能制造等众多工业领域内一直都发挥着巨大作用,被 涵盖在生产的多个环节,从而能够有效的杜绝或减少残次品流入市场。
传统的检测手段一般包括人工目视检测、超声检测、涡流检测。人工目视检查是一种通 过人眼或借助辅助光学仪器,直接对产品表面缺陷进行判断的无损检测方法,虽然操作简单, 但缺点十分明显,即检测结果容易受到主观原因的影响,并且很难检测到细微缺陷。用于超 声检测的设备主要包括发射探头和接收探头,发射探头发射的超声波经过耦合剂传入待检测 表面,然后反射回超声波形,通过对反射波形的研究实现对缺陷的类别判断和定位。超声检 测的适用范围广泛,但是对形状复杂的表面的检测精度不高,并且必须依赖耦合介质。涡流 检测是一种利用电磁感应原理的检测方法,高频变磁场在待检测表面产生涡流,而出现缺陷 的部位会对涡流产生阻碍作用,导致缺陷部位与正常部位的温度存在差异,通过温差来实现 对缺陷的检测。涡流检测的灵敏度高,缺点是成本过高,对铁磁性表面的检测效果不理想。
相比传统的检测手段,基于机器视觉的表面缺陷检测是一种更具前景的无损检测方法, 它只需要对待检测表面进行拍摄,将其转换为图像数据输入到图像处理系统即可对表面缺陷 做出判断,这类方法的关键是图像处理系统中的特征提取算法。传统机器视觉中的特征提取 算法需要依靠大量的图像预处理工作和特征工程,即通过人工来挑选初始特征。对于工业产 品的表面缺陷而言,这些前期工序的工作量是巨大的,因为表面缺陷图像存在如图1所示的 三大挑战:
(1)同种缺陷类别的差异性大,如图1(a)中的带钢表面缺陷图像所示,两张图像都出 现了斑块,左边的集中且巨大,而右边的分散且细小;
(2)不同缺陷类别的差异性小,如图1(b)中所示,两类点焊焊点的差异部位只占据整 个焊点极小部分;
(3)目标不显著,一张图像上的大部分都是背景,目标看起来像是零散的落在了图像的 各个区域上,如图1(c)中的焊点所示。
上述三大难题使得人工可挑选的特征非常有限,相应的就增加了图像预处理工作,导致 基于传统机器视觉的缺陷检测非常低效。
由于具备强大的特征提取能力,基于深度学习卷积神经网络(ConvolutionalNeural Network,CNN)的计算机视觉技术正在逐渐取代传统的机器视觉技术,并在表面缺陷检测领 域涌现出了大量的相关研究。归结起来,这些研究存在三个问题:
(1)只针对某一种工业产品,如带钢、轨道、白车身;
(2)只研究某一类检测任务,如图像分类、目标检测、语义分割;
(3)只考虑某一个检测难题,如数据不平衡、小目标检测。
根据某一具体的工业缺陷检测问题来定制深度学习模型往往是规模巨大且耗费成本的。 但是,工业表面缺陷存在一些共性问题,如图1所示,所以一些在具体的表面缺陷检测问题 上被验证了有效的模型同样可以用于其他的表面缺陷检测问题,只不过效果会稍差一些。因 此,本发明旨在提出一种精细坐标注意力模块,用于提高已有模型的性能,使这些先进的模 型能够更好的适应多种表面缺陷检测问题。
发明内容
有鉴于此,本发明的目的在于提供一种精细坐标注意力模块及其在表面缺陷检测中的应 用,所述的精细坐标注意力模块提升了对缺陷区域的定位能力,并可用于多种工业产品的表 面缺陷检测以及用于多种视觉检测任务,同时在应用时还可嵌入到任意的CNN模型内以实 现性能的提升。
为达到上述目的,本发明提供如下技术方案:
本发明首先提出了一种精细坐标注意力模块,包括坐标信息聚合单元、跨维度交互单元 和注意力生成单元;
所述坐标信息聚合单元用于对中间特征图分别在高度和宽度方向上编码坐标信息,并在 高度和宽度方向上分别进行坐标平均池化和坐标最大池化处理,生成四组聚合特征;
所述跨维度交互单元采用一个带降维层的卷积块,使所述坐标信息聚合单元生成的四组 聚合特征共用该卷积块并独立进行特征变换,得到四组变换特征;
所述注意力生成单元利用注意力权重将四组变换特征分别生成在高度和宽度方向上的两 组坐标注意力,利用该两组坐标注意力对中间特征图进行重校准,得到输出特征图。
进一步,对于中间特征图
Figure BDA0003682013670000021
其中,xk表示第k个通道输 入的特征图;
Figure BDA0003682013670000022
表示三维张量;H表示高度;W表示宽度;C表示通道;
所述坐标信息聚合单元在高度方向上编码坐标信息得到的两组聚合特征为:
Figure BDA0003682013670000031
Figure BDA0003682013670000032
其中,
Figure BDA0003682013670000033
分别表示在高度方向上编码坐标信息得到的两组聚合特征;
Figure BDA0003682013670000034
Figure BDA0003682013670000035
分别表示基于高度方向的坐标平均池化和坐标最大池化;
所述坐标信息聚合单元在宽度方向上编码坐标信息得到的两组聚合特征为:
Figure BDA0003682013670000036
Figure BDA0003682013670000037
其中,
Figure BDA0003682013670000038
分别表示在宽度方向上编码坐标信息得到的两组聚合特征;
Figure BDA0003682013670000039
Figure BDA00036820136700000310
分别表示基于宽度方向的坐标平均池化和坐标最大池化。
进一步,所述跨维度交互单元可以表示为:
Figure BDA00036820136700000311
其中,
Figure BDA00036820136700000312
表示在高度方向上的两组变换特征;
Figure BDA00036820136700000313
表示在宽度 方向上的两组变换特征;f1×1(V0,V1)表示变换运算函数,实现了对聚合特征的跨维度交互;
Figure BDA00036820136700000314
Figure BDA00036820136700000315
均为1×1卷积核,r表示维度降低率;δ(·)表示ReLU函数。
进一步,所述注意力生成单元中,高度方向和宽度方向上的注意力权重为:
Figure BDA00036820136700000316
Figure BDA00036820136700000317
其中,
Figure BDA00036820136700000318
Figure BDA00036820136700000319
分别表示在高度和宽度方向上的两组坐标注意力;σ(·) 表示Sigmoid函数;
利用两组坐标注意力对中间特征图X进行重校准,得到:
Z=fco(fco(X,Yh),Yw)
其中,fco(·,·)表示坐标级别的乘法,Z表示中间特征图X经过重校准后得到的输出特征 图。
本发明还提出了一种如上所述精细坐标注意力模块在表面缺陷检测中的应用,利用卷积 神经网络进行表面缺陷检测,将所述精细坐标注意力模块嵌入到所述卷积神经网络内嵌入内。
本发明的有益效果在于:
本发明的精细坐标注意力模块,利用坐标信息聚合单元分别在高度和宽度方向上编码坐 标信息,并以坐标平均池化和坐标最大池化聚合平均特征和显著特征,使注意力包含了更为 细致的位置信息,提高了模型对缺陷区域的定位能力;同时,坐标平均池化和坐标最大池化 沿着高度和宽度方向聚合特征,实现了在嵌入通道信息的同时保留特征图的空间位置信息, 为跨纬度交互提供了条件;在跨维度交互单元中,并未进行拼接操作,四组聚合特征完全独 立的执行特征变换,避免了两坐标方向的信息相互干扰,聚合特征与注意力权重的对应能够 更加直接;注意力生成单元中,两组坐标注意力并行计算且同时校准中间特征图,使得四组 聚合特征得以共享跨维度交互函数,从而最大限度的降低了参数量;
综上,本发明的精细坐标注意力模块以输入为条件生成的注意力图,两组注意力图都是 基于输入的中间特征图编码了一组平均信息和一组显著信息;由于每组信息的每个元素都对 应着一个高度坐标或者宽度坐标,输入特征的辨识度可以得到显著提高;具体来说,目标对 象所在的行或列都能被反映在每个元素中,这一系列过程使得本发明的精细坐标注意力模块 能够对表面缺陷实现精确的分类和定位,并可用于多种工业产品的表面缺陷检测以及用于多 种视觉检测任务,同时在应用时还可嵌入到任意的CNN模型内以实现性能的提升。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为表面缺陷检测面临的挑战示例图;(a)同类缺陷差异性大;(b)不同类缺陷差异 性小;(c)目标不显著;
图2为本发明精细坐标注意力模块的原理图;
图3为FCA模块在分类模型和目标检测模型中的部署示例;(a)部署到ResNet;(b)部 署到YOLOv4;
图4为热轧带钢表面缺陷的示例图;
图5为焊点表面缺陷的示例图;
图6为RSW-D中的焊点缺陷图像示例;
图7为检测结果示例图;(a)缺陷较密集;(b)缺陷较稀疏;
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好的 理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
一、精细坐标注意力模块
精细坐标注意力模块(以下简称“FCA”)对通道关系编码的同时保留了的位置信息,并且 不同于卷积注意力模块(Convolutional Block Attention Module,CBAM)对空间像素的全局聚 合方式。具体而言,它保留了两个坐标方向(即高度和宽度方向)的信息,这使得FCA在执 行通道交互的时候可以进行远距离信息交互,相比也具备这种能力的像素级全局注意力 PSANet,FCA非常轻量,因为它的参数构成仅为两组张量(卷积核)。又由于同时聚合了平 均信息和显著信息,FCA比CA模块更为精细。FCA模块的结构如图2所示,其生成注意力 图的计算过程分为三个步骤:坐标信息聚合、跨维度交互、注意力生成。即本实施例的精细 坐标注意力模块包括坐标信息聚合单元、跨维度交互单元和注意力生成单元。
1.1、坐标信息聚合单元
坐标信息聚合单元用于对中间特征图分别在高度和宽度方向上编码坐标信息,并在高度 和宽度方向上分别进行坐标平均池化和坐标最大池化处理,生成四组聚合特征。
在基于CNN的注意力机制中,第一步通常是特征信息聚合,最常用的手段则是GAP(如 SE模块、CBAM和ECA模块)。但GAP存在两个不足:(1)将全局信息平均化,从而忽略 了显著特征,这也是CBAM中引入GMP的原因;(2)只能编码一个维度的信息,即通道信 息或者空间信息,显然,GMP也存在同样的问题。
FCA模块基于坐标方向执行平均池化和最大池化,这种运算并不同于CBAM中所采用 的全局性池化,我们分别称其为坐标平均池化(coordinate average pooling,CAP)和坐标最大 池化(coordinate max pooling,CMP)。给定一个中间特征图
Figure BDA0003682013670000051
其中,xk表示第k个通道输入的特征图;
Figure BDA0003682013670000052
表示三维张量;H表示高度;W表示宽度; C表示通道;坐标信息聚合单元在高度方向上编码坐标信息得到的两组聚合特征为:
Figure BDA0003682013670000053
Figure BDA0003682013670000054
其中,
Figure BDA0003682013670000055
分别表示在高度方向上编码坐标信息得到的两组聚合特征;
Figure BDA0003682013670000056
Figure BDA0003682013670000057
分别表示基于高度方向的坐标平均池化和坐标最大池化;
类似的,坐标信息聚合单元在宽度方向上编码坐标信息得到的两组聚合特征为:
Figure BDA0003682013670000058
Figure BDA0003682013670000059
其中,
Figure BDA0003682013670000061
分别表示在宽度方向上编码坐标信息得到的两组聚合特征;
Figure BDA0003682013670000062
Figure BDA0003682013670000063
分别表示基于宽度方向的坐标平均池化和坐标最大池化。
与CBAM的理念相同,FCA模块在两个坐标方向都引入了最大池化以编码显著特征信 息,从而有效避免了单一聚合运算所造成的特征表征性不足问题,对于工业缺陷图像而言, 这是十分有必要的。因为不同的缺陷类别之间的差异会存在非常细微的情况,在这种情况下, 仅采用平均池化可能会导致差异性最大的像素被忽略。
CAP和CMP沿着两坐标方向聚合特征,实现了在嵌入通道信息的同时保留特征图的空 间位置信息,不需要像CBAM那样在两个独立的子模块中执行两次特征聚集,同时为远距离 交互提供了条件。不仅如此,这一操作还为参数降低带来了巨大的便利,得到的聚合特征所 需的跨维度交互编码可以完全共享,从理论上来说,这意味着FCA模块的空间复杂度仅和 CBAM模块相当。
1.2、跨维度交互单元
所述跨维度交互单元采用一个带降维层的卷积块,使所述坐标信息聚合单元生成的四组 聚合特征共用该卷积块并独立进行特征变换,得到四组变换特征。
为了有效利用聚合特征中的表征,FCA模块的跨维度交互函数应满足下列准则:首先也 是重要的,能够同时捕捉远距离依赖和通道间关系以突出目标区域;其次,它应该尽可能简 单和轻量以确保FCA模块能够嵌入到任意的CNN架构而不增加沉重的计算成本;最后,四 组聚合特征的交互应该相对独立,避免产生干扰。为满足这些准则,我们采用了带一个降维 层的1×1卷积块,除此之外没有引入任何附加参数,
Figure BDA0003682013670000064
Figure BDA0003682013670000065
将共享这一卷积块, 于是跨维度交互可以表示为下列等式:
Figure BDA0003682013670000066
其中,
Figure BDA0003682013670000067
表示在高度方向上的两组变换特征;
Figure BDA0003682013670000068
表示在宽度 方向上的两组变换特征;δ(·)表示ReLU函数;变换运算f1×1(V0,V1)实现了对聚合特征的跨 维度交互,它的两组1×1卷积核,即
Figure BDA0003682013670000069
Figure BDA00036820136700000610
包含了FCA模块的全部 参数量。
得益于CAP和CMP,FCA模块在参数量仅仅和CBAM的通道注意力相同的情况下实现了通道间交互和空间位置交互。与CA模块相比,FCA模块没有拼接操作,四组聚合特征完 全独立的执行特征变换,避免了两坐标方向的信息相互干扰,聚合特征与注意力权重的对应能够更加直接。
1.3、注意力生成单元
所述注意力生成单元利用注意力权重将四组变换特征分别生成在高度和宽度方向上的两 组坐标注意力,利用该两组坐标注意力对中间特征图进行重校准,得到输出特征图。
本实施例中,聚合特征都是独立编码和交互的。而在注意力生成单元中,变换特征将被 相加以实现综合利用,这对表面缺陷检测而言具有重要意义。高度和宽度方向上的注意力权 重计算如下:
Figure BDA0003682013670000071
Figure BDA0003682013670000072
其中,
Figure BDA0003682013670000073
Figure BDA0003682013670000074
分别表示在高度和宽度方向上的两组坐标注意力;σ(·) 表示Sigmoid函数。
从而得到:
Figure BDA0003682013670000075
Figure BDA0003682013670000076
利用两组坐标注意力对中间特征图X进行重校准,得到:
Z=fco(fco(X,Yh),Yw)
其中,fco(·,·)表示坐标级别的乘法,Z表示中间特征图X经过重校准后得到的输出特征 图。
可以看出,FCA模块的两组注意力图是并行计算且同时校准特征图的,并不同于CBAM 中两个子模块的串接,并且这种并行计算又使得四组聚合特征得以共享跨维度交互函数,从 而最大限度的降低了参数量。
FCA模块实质上是以输入为条件来生成的注意力图,所以两组注意力图的都是基于输入 特征图编码了一组平均信息和一组显著信息。又由于每组信息的每个元素都对应着一个高度 坐标或者宽度坐标,输入特征的辨识度可以得到显著提高。具体来说,目标对象所在的行或 列都能被反映在每个元素中。这一系列过程使得FCA模块能够对表面缺陷实现精确的分类和 定位,并可用于多种工业产品的表面缺陷检测以及用于多种视觉检测任务,同时在应用时还 可嵌入到任意的CNN模型内以实现性能的提升。
1.4、应用
本实施例还提出了一种如上所述精细坐标注意力模块在表面缺陷检测中的应用,利用卷 积神经网络进行表面缺陷检测,将所述精细坐标注意力模块嵌入到所述卷积神经网络内嵌入 内。
如图2所示,FCA模块可以嵌入到任意的模型进行表面缺陷检测,本实施例选用了ResNet 和YOLOv4作为基准模型,如图3(a)所示,在ResNet的残差块(residual block)中,FCA 模块被放置在恒等连接之前。如图3(b)所示,在YOLOv4的主干网络CSPDarkNet中,FCA模块被部署在每两个Stage之间。当然,嵌入方式是灵活的,FCA模块也可以按照任意的其他方式进行部署。而在VGGNet等普通模型中,它的部署方式更为简单,可放置在任意卷积层之后。
二、卷积注意力模块
为了对比本实施例的精细坐标注意力模块与卷积注意力模块,下面对CBAM的具体实施 方式进行介绍。
CBAM是最早将通道注意力和空间注意力相结合的工作之一,自然地,它可以分解为两 个子模块:通道注意力模块和空间注意力模块,它们先后对特征图进行重校准。给定一个中 间特征图X,通道注意力可表示如下:
Figure BDA0003682013670000081
其中,
Figure BDA0003682013670000082
Figure BDA0003682013670000083
分别表示通道级别的全局平均池化(global averagepooling,GAP) 和全局最大池化(global max pooling,GMP),以X为例,计算公式如下:
Figure BDA0003682013670000084
Figure BDA0003682013670000085
变换运算f(W0,W1)用于捕捉通道间依赖关系,由两个多层感知器(multi-layerperceptron, MLP)构成。由于MLPs是共享的,通道注意力引入的参数只有
Figure BDA0003682013670000086
Figure BDA0003682013670000087
r表 示维度降低率,通常取r=16或32,维度降低进一步降低了通道注意力的复杂度。δ(·)表示 ReLU函数,σ(·)表示Sigmoid函数。将学习到的通道注意力图
Figure BDA0003682013670000088
作用于X完成特征 图的通道重校准,如下式所示:
Z'=fch(X,Ych)
这里,fch(·,·)表示通道级别的乘法,
Figure BDA0003682013670000089
是通道重校准后的特征图。
之后,空间注意力模块将在Z'上生成空间注意力图,其计算过程可表述如下:
Figure BDA0003682013670000091
其中,
Figure BDA0003682013670000092
Figure BDA0003682013670000093
分别表示空间级别的GAP和GMP,以Z'为例,计算公式如下:
Figure BDA0003682013670000094
Figure BDA0003682013670000095
其中,[·;·]表示基于通道方向的拼接操作,变换运算f7×7(W3)用于实现跨空间交互, CBAM采用的是一个卷积核大小为7×7的卷积运算,权重张量
Figure BDA0003682013670000096
即卷积核,*表 示卷积。将学习到的空间注意力图
Figure BDA0003682013670000097
作用于Z'完成特征图的空间重校准,如下式所 示:
Z=fsp(Z',Ysp) (4)
这里,fsp(·,·)表示空间级别的乘法,
Figure BDA0003682013670000098
即给定的中间特征图X经过CBAM重新校准 后的特征图。
总的来看,CBAM对通道依赖和空间依赖都完成了建模,但是这种建模是比较孤立的, 具体来说,两个子注意力模块的串接组成了CBAM,这增加了模块的参数量。CBAM的另一个不足是它的空间注意力直接对同一空间的全部像素进行聚合,这样虽然能够编码全局信息, 但是得到的特征的表达性不足,这不足以准确的反映出目标缺陷所在的区域。因此,本文提 出了更精巧的FCA模块,它可以在通道注意力中保留更精细的位置信息。对于具有差异性小 和目标不显著等特点的工业表面缺陷而言,借助空间位置信息提升模型对目标区域的定位能 力是不可或缺的。
三、实验验证
为了验证FCA模块在不同的CNN架构、数据集和视觉任务上的通用性和适用性,基于 三组数据集做了两类实验:图像分类和目标检测。
3.1、图像分类
图像分类是计算机视觉的基础任务,分类模型是其他高阶任务(如目标检测)的主干网 络,于是我们首先进行了图像分类实验。这一节使用了一组公开数据集和一组来自实际汽车 生产线的数据集。
3.1.1、数据集
实验所用的公开数据集是Song等人构建的热轧带钢表面缺陷数据集,即东北大学(Northeastern University,NEU)表面缺陷数据集[K.Song and Y.Yan,“A noise robustmethod based on completed local binary patterns for hot-rolled steel stripsurface defects,”Appl.Surface Sci., vol.285,pp.858–864,Nov.2013.]。此数据集包含夹杂(inclusion,In)、斑块(patches,Pa)、 裂纹(crazing,Cr)、麻点(pitted surface,PS)、压入氧化皮(rolled-in scale,RS)和划痕(scratches, Sc)六类表面缺陷,如图4所示。每一类缺陷各有300张图片,共1800张缺陷图片,大小均 为299×299,在本实验中,将三分之二的图片用于训练,其余用于测试。
另一组数据集是电阻点焊(RSW)表面缺陷数据集,基于拍摄的白车身焊点图像制作了 图像分类数据集(RSW-C)和目标检测数据集(RSW-D)。其中RSW-C包含七个类别(正常焊点和六种缺陷焊点):正常、边缘、粘铜、重叠、残缺、飞溅和扭曲,如图5所示。由于采 集自生产实际,各个类别的图片数目并不均衡,但总量远远多于NEU数据集,于是按照4:1 的比例划分为训练集与测试集,具体划分情况如表1所示。
表1 RSW-C的划分
Figure BDA0003682013670000101
3.1.2、实验设置
所有的实验都在Pytorch深度学习框架上部署,没有对图像采取任何预处理。采用随机梯 度下降(stochastic gradient descent)优化器,初始学习率设置为0.01,动量(momentum)设 置为0.9,权重衰减设置为0.0005。采用余弦退火(cosine annealing)学习率衰减策略,每一 批次训练图像数目(batch_size)设置为32,在NVIDIARTX 2060GPU上训练50个世代(epochs)。
3.1.3、实验结果
选用了经得起时间考验的也是表面缺陷检测应用得较多的ResNet50[13]作为基准模型,对 其嵌入SE、CBAM、CA和FCA模块进行对比实验,实验结果如表2所示,其中,参数量(Param.)反映模型的空间复杂度,浮点运算次数(FLOPs,1GFLOPs=10^9FLOPs)反映时 间复杂度。结果显示,FCA模块通过引入少量参数就提高了基准模型的性能,在NEU数据集 和RSW-C上分别提高了6%和4%的准确率,均高于其他注意力机制,尤其是在NEU数据集 上,嵌入FCA模块的ResNet50能达到接近100%的准确率。根据各个模型的GFLOPs (1GFLOPs=10^9FLOPs),FCA模块的时间复杂度最大,这是因为它的跨维度交互函数对4 组聚合特征都进行了独立的运算,由实验结果可知,这种运算是非常有效的。得益于共享的 跨维度交互,FCA模块的空间复杂度很小,因为它引入的额外参数量仅和SE模块相同。总 的来看,FCA模块是轻量和高效的,性能要好于其他注意力。
表2模型复杂度与分类结果
Figure BDA0003682013670000111
ResNet50+CBAM和ResNet50+FCA的模型具有较高的准确率,我们统计了两模型对所 有缺陷的分类情况,因为对于工业缺陷检测而言,只考虑准确率是比较局限的。然后根据混 淆矩阵计算了相应的度量指标,即precision(PR)、recall(RC)和F1分数(F1),从而更加 直观的展示分类效果,如表3所示。
可以看出,在NEU数据集上,ResNet50+FCA分类错误的两张缺陷图像都是RS,它们被 模型预测为了PS,其余四种缺陷的F1分数都达到了1.00。由于NEU数据集中的图像数量分 配均匀并且缺陷特征较简单,FCA模块的提升效果十分明显是,而在RSW-C上,图像数据较少的几种缺陷的识别效果要明显差于数据量较多的缺陷类别,但是这并没有影响FCA模块 的性能,它的表现仍然要好于CBAM,因为ResNet50+FCA在五种缺陷类别上的F1分数都要高于ResNet50+CBAM,尤其是在飞溅和扭曲焊点上,具有显著优势。
表3各类表面缺陷的分类效果
Figure BDA0003682013670000112
3.2、目标检测
通过图像分类实验,证明了FCA模块不仅仅只适用于某一类数据集,它可以在增加少量 计算负担的情况下提升CNN对工业表面缺陷的特征的提取能力,完成各种分类任务。然而在 更多的情况下,工业实际生产中获取的表面缺陷图像往往有多个目标。这时,不仅需要对目 标缺陷进行分类,还要对其定位,于是做了目标检测实验以验证FCA模块不止适用于图像分 类任务,这使得我们的工作更具实用性。
3.2.1、数据集
实验采用的表面缺陷数据集是基于白车身焊点图像制作的RSW-D,它同样包含RSW-C 中的七种焊点类别,不同的是每张图像包含多个不同缺陷的焊点,分辨率要高于RSW-C,图 6所示为两张示例图。RSW-D一共有4134张图像,按9:1比例的划分为训练集和测试集。
3.2.3、实验设置
目标检测实验也在Pytorch框架上部署。采用Adam优化器,初始学习率设置为0.001, 采用衰减系数为0.94的间隔(step)学习率衰减策略。由于RSW-D数据的分辨率较大, batch_size设置为4。其余设置与4.1.2节相同。
3.2.4、实验结果
实验采用先进的YOLOv4目标检测算法作为基准模型,将各个注意力模块(由于SE模 块在图像分类实验中表现较差,本节不再进行比较)嵌入到其主干网络,即CSPDarkNet53的 最后三个阶段(stage),比较了两个典型交并比(Intersection overUnion,IoU)阈值(0.5和 0.75)下的mean Average Precision(mAP),并用每秒传输帧数(Frame Per Second,FPS)来衡 量模型的推理速度。实验结果如表4所示。
结果显示,在两种阈值下,YOLOv4+FCA都能实现最高的mAP,尤其是当阈值为0.5时, 远远领先其他模型。相比FCA模块,CBAM在基准模型上性能提升效果比较微弱,在两个阈 值下的mAP分别仅提高了约1%和2%,而CA模块仅在阈值为0.75时对基准模型实现了不到1%的性能提升。根据FPS,FCA模块与其他注意力一样,只需增加少量推理时间便能带来精度的提高。总的来说,FCA模块由于编码了缺陷的位置信息,在目标检测任务上有更好的表现。
表4检测结果
Figure BDA0003682013670000121
与图像分类一样,我们对每种缺陷的检测效果做了统计,统计结果如表5所示,对于目 标检测实验,增加了一个Average Precision(AP)指标。根据表5可知,无论阈值为0.5还是 0.75,FCA模块的所有AP和F1的几乎都要高于CBAM,这意味着它在几乎所有表面缺陷上 的检测效果都要好于CBAM。FCA模块的卓越性能归功于它对坐标信息的精细化聚合,因为 同时考虑了平均特征和显著特征,它编码的坐标信息能够实现对表面缺陷的准确分类和定位。
表5表面缺陷检测效果
Figure BDA0003682013670000122
Figure BDA0003682013670000131
最后随机选取了目标密集和稀疏的缺陷图像各4张,对YOLOv4+FCA的检测结果进行 可视化,检测效果如图7所示。可以看出,FCA模块对各类表面缺陷都能做出准确的识别和 定位,图7(a)和图7(b)中的绝大多数检测框的置信度都在0.90以上,即便是较模糊的目标(图 7(b)右上角)也能实现准确的检测。
4、结论
本文研究了基于CNN的注意力机制在工业表面缺陷检测中的应用,提出的注意力机制 FCA模块是用于表面缺陷检测的一种通用型架构。它的结构包括三个函数,首先,坐标信息 聚合在通道信息嵌入的同时保留位置信息,这是由基于长度和宽度方向的CAP和CMP实现 的;之后,基于1×1卷积块的跨维度交互函数对每一组聚合特征独立地完成了远距离依赖和 空间依赖捕捉;最后,注意力生成函数对变换特征进行综合利用,在长度和宽度方向上各生 成一组注意力图,得到的注意力图对表面缺陷的特征提取和定位时起到了至关重要的作用。 FCA模块非常轻量和高效,它可以插入到任意的CNN模型中带来性能提升,适用于多种缺 陷数据集和检测任务。在带钢缺陷数据集和焊点缺陷数据上对FCA模块的性能进行了验证, 图像分类和目标检测实验都表明FCA模块的性能优于现有注意力机制,图像分类的准确率分 别达到99.7%和95.7%,目标检测的mAP达到91.4%,能够帮助企业生产线实现准确快速的 自动缺陷检测,降低人工成本,并提升自动化程度。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限 于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范 围之内。本发明的保护范围以权利要求书为准。

Claims (5)

1.一种精细坐标注意力模块,其特征在于:包括坐标信息聚合单元、跨维度交互单元和注意力生成单元;
所述坐标信息聚合单元用于对中间特征图分别在高度和宽度方向上编码坐标信息,并在高度和宽度方向上分别进行坐标平均池化和坐标最大池化处理,生成四组聚合特征;
所述跨维度交互单元采用一个带降维层的卷积块,使所述坐标信息聚合单元生成的四组聚合特征共用该卷积块并独立进行特征变换,得到四组变换特征;
所述注意力生成单元利用注意力权重将四组变换特征分别生成在高度和宽度方向上的两组坐标注意力,利用该两组坐标注意力对中间特征图进行重校准,得到输出特征图。
2.根据权利要求1所述的精细坐标注意力模块,其特征在于:
对于中间特征图
Figure FDA0003682013660000011
其中,xk表示第k个通道输入的特征图;
Figure FDA0003682013660000012
表示三维张量;H表示高度;W表示宽度;C表示通道;
所述坐标信息聚合单元在高度方向上编码坐标信息得到的两组聚合特征为:
Figure FDA0003682013660000013
Figure FDA0003682013660000014
其中,
Figure FDA0003682013660000015
分别表示在高度方向上编码坐标信息得到的两组聚合特征;
Figure FDA0003682013660000016
Figure FDA0003682013660000017
分别表示基于高度方向的坐标平均池化和坐标最大池化;
所述坐标信息聚合单元在宽度方向上编码坐标信息得到的两组聚合特征为:
Figure FDA0003682013660000018
Figure FDA0003682013660000019
其中,
Figure FDA00036820136600000110
分别表示在宽度方向上编码坐标信息得到的两组聚合特征;
Figure FDA00036820136600000111
Figure FDA00036820136600000112
分别表示基于宽度方向的坐标平均池化和坐标最大池化。
3.根据权利要求2所述的精细坐标注意力模块,其特征在于:所述跨维度交互单元可以表示为:
Figure FDA00036820136600000113
其中,
Figure FDA00036820136600000114
表示在高度方向上的两组变换特征;
Figure FDA00036820136600000115
表示在宽度方向上的两组变换特征;f1×1(V0,V1)表示变换运算函数,实现了对聚合特征的跨维度交互;
Figure FDA0003682013660000021
Figure FDA0003682013660000022
均为1×1卷积核;r表示维度降低率;δ(·)表示ReLU函数。
4.根据权利要求3所述的精细坐标注意力模块,其特征在于:所述注意力生成单元中,高度方向和宽度方向上的注意力权重为:
Figure FDA0003682013660000023
Figure FDA0003682013660000024
其中,
Figure FDA0003682013660000025
Figure FDA0003682013660000026
分别表示在高度和宽度方向上的两组坐标注意力;σ(·)表示Sigmoid函数;
利用两组坐标注意力对中间特征图X进行重校准,得到:
Z=fco(fco(X,Yh),Yw)
其中,fco(·,·)表示坐标级别的乘法,Z表示中间特征图X经过重校准后得到的输出特征图。
5.一种如权利要求1-4任一项所述精细坐标注意力模块在表面缺陷检测中的应用,其特征在于:利用卷积神经网络进行表面缺陷检测,将所述精细坐标注意力模块嵌入到所述卷积神经网络内嵌入内。
CN202210635875.3A 2022-06-07 2022-06-07 精细坐标注意力模块及其在表面缺陷检测中的应用 Active CN114972280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210635875.3A CN114972280B (zh) 2022-06-07 2022-06-07 精细坐标注意力模块及其在表面缺陷检测中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210635875.3A CN114972280B (zh) 2022-06-07 2022-06-07 精细坐标注意力模块及其在表面缺陷检测中的应用

Publications (2)

Publication Number Publication Date
CN114972280A true CN114972280A (zh) 2022-08-30
CN114972280B CN114972280B (zh) 2023-11-17

Family

ID=82959812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210635875.3A Active CN114972280B (zh) 2022-06-07 2022-06-07 精细坐标注意力模块及其在表面缺陷检测中的应用

Country Status (1)

Country Link
CN (1) CN114972280B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541587A (zh) * 2024-01-10 2024-02-09 山东建筑大学 太阳能电池板缺陷检测方法、系统、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949838A (zh) * 2021-04-15 2021-06-11 陕西科技大学 基于四分支注意力机制的卷积神经网络及图像分割方法
US20210232813A1 (en) * 2020-01-23 2021-07-29 Tongji University Person re-identification method combining reverse attention and multi-scale deep supervision
CN113537120A (zh) * 2021-07-28 2021-10-22 中国人民解放军空军预警学院 基于复数坐标注意力模块的卷积神经网络及目标识别方法
CN113569735A (zh) * 2021-07-28 2021-10-29 中国人民解放军空军预警学院 复数坐标注意力模块及复输入特征图处理方法及系统
CN113837275A (zh) * 2021-09-24 2021-12-24 南京邮电大学 基于扩张坐标注意力的改进YOLOv3目标检测方法
CN114187275A (zh) * 2021-12-13 2022-03-15 贵州大学 一种基于多阶段和多尺度注意力融合网络及图像去雨方法
CN114202502A (zh) * 2021-08-30 2022-03-18 浙大宁波理工学院 一种基于卷积神经网络的螺纹旋向分类方法
WO2022105655A1 (zh) * 2020-11-23 2022-05-27 中兴通讯股份有限公司 图像处理方法、图像处理装置、电子设备和计算机可读存储介质
CN114565557A (zh) * 2022-01-14 2022-05-31 山东师范大学 一种基于坐标注意力的对比增强能谱摄影分类方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210232813A1 (en) * 2020-01-23 2021-07-29 Tongji University Person re-identification method combining reverse attention and multi-scale deep supervision
WO2022105655A1 (zh) * 2020-11-23 2022-05-27 中兴通讯股份有限公司 图像处理方法、图像处理装置、电子设备和计算机可读存储介质
CN112949838A (zh) * 2021-04-15 2021-06-11 陕西科技大学 基于四分支注意力机制的卷积神经网络及图像分割方法
CN113537120A (zh) * 2021-07-28 2021-10-22 中国人民解放军空军预警学院 基于复数坐标注意力模块的卷积神经网络及目标识别方法
CN113569735A (zh) * 2021-07-28 2021-10-29 中国人民解放军空军预警学院 复数坐标注意力模块及复输入特征图处理方法及系统
CN114202502A (zh) * 2021-08-30 2022-03-18 浙大宁波理工学院 一种基于卷积神经网络的螺纹旋向分类方法
CN113837275A (zh) * 2021-09-24 2021-12-24 南京邮电大学 基于扩张坐标注意力的改进YOLOv3目标检测方法
CN114187275A (zh) * 2021-12-13 2022-03-15 贵州大学 一种基于多阶段和多尺度注意力融合网络及图像去雨方法
CN114565557A (zh) * 2022-01-14 2022-05-31 山东师范大学 一种基于坐标注意力的对比增强能谱摄影分类方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HUAPENG WU 等: "Pyramidal Dense Attention Networks for Lightweight Image Super-Resolution", 《ARXIV》, pages 1 - 10 *
MENG XIAO 等: "Fine coordinate attention for surface defect detection", 《ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE》, pages 1 - 12 *
QIBIN HOU 等: "Coordinate Attention for Efficient Mobile Network Design", 《ARXIV》, pages 1 - 10 *
YUWEN DENG 等: "SAR-Shipnet: SAR-Ship Detection Neural Network Via Bidirectional Coordinate Attention and Multi-Resolution Feature Fusion", 《ARXIV》, pages 1 - 5 *
刘渝 等: "坐标并行注意力 下密集空洞卷积的脉络 膜分割", 《华东理工大学学报(自然科 学版)》, vol. 49, no. 02, pages 247 - 254 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117541587A (zh) * 2024-01-10 2024-02-09 山东建筑大学 太阳能电池板缺陷检测方法、系统、电子设备及存储介质
CN117541587B (zh) * 2024-01-10 2024-04-02 山东建筑大学 太阳能电池板缺陷检测方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN114972280B (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN106504248B (zh) 基于计算机视觉的车辆损伤判别方法
CN111862064B (zh) 一种基于深度学习的银质丝材表面瑕疵识别方法
CN111915572B (zh) 一种基于深度学习的自适应齿轮点蚀定量检测系统及方法
CN103593670A (zh) 一种基于在线序列极限学习机的铜板带表面缺陷检测方法
CN106815819B (zh) 多策略粮虫视觉检测方法
Wan et al. Ceramic tile surface defect detection based on deep learning
CN110619352A (zh) 基于深度卷积神经网络的典型红外目标分类方法
CN111145145B (zh) 一种基于MobileNets的图像表面缺陷检测方法
CN115239632B (zh) 一种融合巡检图像和超声波图像的钢轨表面伤损检测方法
CN112819748B (zh) 一种带钢表面缺陷识别模型的训练方法及装置
CN110879982A (zh) 一种人群计数系统及方法
CN109001211A (zh) 基于卷积神经网络的长输管道焊缝检测系统及方法
Miao et al. Online inspection of narrow overlap weld quality using two-stage convolution neural network image recognition
CN101013126A (zh) 用计算机预测木质人造板强度的方法
CN114972280A (zh) 精细坐标注意力模块及其在表面缺陷检测中的应用
CN115359064A (zh) 工业缺陷检测方法和装置
CN114897855A (zh) 基于x射线图片灰度值分布判定缺陷类型的方法
CN115423995A (zh) 一种轻量化幕墙裂纹目标检测方法及系统、安全预警系统
CN114821316A (zh) 一种三维探地雷达裂缝病害识别方法及系统
CN114881987A (zh) 基于改进YOLOv5的热压导光板缺陷可视化检测方法
CN114881998A (zh) 一种基于深度学习的工件表面缺陷检测方法及系统
Xiao et al. Fine coordinate attention for surface defect detection
Zhang et al. Attention mechanism and texture contextual information for steel plate defects detection
Chen et al. Swintd: Transformer-based detection network for foreign objects in the cut section of tobacco packets
CN117496349A (zh) 轨道扣件异常检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 400044 No. 174 Shapingba street, Shapingba District, Chongqing

Applicant after: Chongqing University

Applicant after: Celes Group Co.,Ltd.

Applicant after: Chongqing Branch of Wuhan China Merchants ro ro Transportation Co.,Ltd.

Address before: 400044 No. 174 Shapingba street, Shapingba District, Chongqing

Applicant before: Chongqing University

Applicant before: CHONGQING SOKON INDUSTRY GROUP Co.,Ltd.

Applicant before: Chongqing Branch of Wuhan China Merchants ro ro Transportation Co.,Ltd.

GR01 Patent grant
GR01 Patent grant