CN117392116A

CN117392116A - 一种超宽幅金属表面瑕疵检测与识别方法

Info

Publication number: CN117392116A
Application number: CN202311636157.9A
Authority: CN
Inventors: 朱江; 庞晴蔚; 李建奇; 贺振东; 许海霞; 李赛斯
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-01-12

Abstract

本发明公开了一种超宽幅金属表面瑕疵检测与识别方法。本发明方法将工业产线上相机拍摄的超宽幅金属表面工业图像输入预先训练好的超宽幅金属表面瑕疵检测与识别模型，得到表面瑕疵检测结果，该模型包括：主干特征提取网络，用于对输入图像精准地提取不同层次的特征；邻近特征金字塔，以较低的计算成本有效地融合多尺度特征，增强特征跨空间坐标、通道和尺度的表示；大核卷积检测解耦头，以三分支形式获得对于缺陷目标的类别、置信度、边界框预测结果。本发明在减少计算资源需求的同时，提高了超宽幅金属表面工业图像中表面瑕疵的检测精度，可应用于铝材、钢板、钢带产品的生产线，实现超宽幅金属制品表面的高效自动化质量检测。

Description

一种超宽幅金属表面瑕疵检测与识别方法

技术领域

本发明涉及基于深度学习目标检测技术领域，尤其涉及一种超宽幅金属表面瑕疵检测与识别方法。

背景技术

制造业正经历着从传统生产模式向智能制造的重大转型。智能工厂、无人车间的出现，极大提高了生产效率和保障了产品生产的一致性。尽管生产的自动化程度越来越高，但是，产品表面瑕疵往往无法避免。通常，表面瑕疵又可称为表面缺陷，缺陷是产品表面局部物理或化学性质不均匀的区域，如金属表面的划痕、斑点、脏污、裂纹等。产品表面缺陷影响产品的美观、舒适度和使用性能。近年来，随着人工智能、深度学习、机器视觉技术的发展，基于视觉的工业产品外观检测已经大量应用于航空航天、纺织品、汽车零部件、半导体等产品的表面缺陷检测，提升了质检效率和质量。而且，精准地识别、统计缺陷类型和数量，有助于改善生产工艺，减少缺陷后续出现的概率。然而，由于大面幅钢板、铝材、钢带等产品的表面面积大，相机的成像范围非常大。相比通用目标检测任务，超宽幅金属表面缺陷检测仍面临如下挑战：

1)形态多样、多尺度、微弱目标难检测

由于超宽幅金属表面大，获取的大尺度图像中既包含了大尺寸的缺陷，也包含了形态微小的缺陷。一方面，不同大小缺陷的共存，检测时容易出现目标检测框同时包括了极大缺陷和微小缺陷，导致漏检。另一方面，微弱目标的尺寸极小、极其有限的外观信息、与背景纹理差异小，且易被背景和噪声所淹没，造成缺陷的特征提取难和识别难。

2)有限计算资源下的实时缺陷检测与识别

为了节约成本，工业现场用于部署缺陷检测模型的计算平台的计算资源有限。将检测模型部署在这种资源紧张的计算平台上，需要在确保检测精度的前提下减少模型的参数、计算复杂度和推理时间。

无论是现有通用的深度学习目标检测模型，还是他们的改进模型，仍无法解决上述挑战。如何在尽可能减少计算资源消耗的情形下，确保超宽幅金属表面瑕疵的检测精度成为亟需解决的难题。

发明内容

本发明针对上述问题，发明了一种超宽幅金属表面瑕疵检测与识别方法，旨在通过优化目标检测中常见检测器的三个主要组成部分，强化模型对于超宽幅金属表面工业图像中缺陷的特征提取能力，以提升复杂场景下二维缺陷目标检测精度，并通过轻量化的结构设计保持模型实时检测速率。

根据上述思路，实现本发明采取的技术方案为：

一种超宽幅金属表面瑕疵检测与识别方法，其特征在于，将工业产线上相机拍摄的超宽幅金属表面工业图像输入预先训练好的超宽幅金属表面瑕疵检测与识别模型，得到表面瑕疵检测结果，所述的超宽幅金属表面瑕疵检测与识别模型包括：

主干特征提取网络，用于对超宽幅金属表面工业图像提取不同层次特征，并通过多层级语义感知增强模块聚合不同层级特征；

邻近特征金字塔，用于以较低的计算成本有效地融合多尺度特征，并设计邻近特征注意融合模块，通过注意力机制等形式，增强特征跨空间坐标、通道和尺度的表示；

大核卷积检测解耦头，根据邻近特征金字塔结构输出特征，以三分支形式获得对于缺陷目标的类别、置信度、边界框预测。

可选地，所述主干特征提取网络为YOLOv7的ELAN结构，得到的特征图分别记为{C1，C2，C3，C4，C5}，通过多层级语义感知增强模块MSEM进一步聚合特征图C2、C3、C4和C5得到优化后的特征图C5’；

可选地，所述多层级语义感知增强模块MSEM由级联的多层级特征集成模块和改进的SPPCSPC结构组成；所述多层级特征集成模块由自适应平均池化和1×1卷积模块组成，将输入特征图C2、C3、C4和C5并行输入，通过自适应平均池化将特征图C2、C3和C4压缩至C5相同大小，将压缩后的特征图C3、C4与原始C5通道降维，处理后的特征图C2、C3、C4和C5经拼接操作拼接，通过非线性操作得到特征图M5，并将特征图M5输入改进的SPPCSPC结构；所述改进的SPPCSPC结构由级联的1×1卷积模块、无参数注意力、特征优化模块和1×1卷积模块组成，输入特征图M5通过1×1卷积模块和无参数注意力自主学习相应的权值来关注关键特征细节，再经特征优化模块和1×1卷积模块得到C5’输出特征送入邻近特征金字塔结构；

可选地，所述特征优化模块包含两条特征处理支路，第一条特征处理支路包括级联的轻量化的Ghost卷积块、1×1卷积模块、混合SPP模块、1×1卷积模块和轻量化的Ghost卷积块；第二条特征处理支路为对输入的特征直接传播，将两条特征处理支路的输出拼接，作为特征优化模块的输出；

可选地，混合SPP模块包括空洞卷积模块和最大池化，输入特征并行通过两个最大池化分别进行水平和垂直信息提取，同时通过空洞卷积模块扩大感受野，将最大池化和空洞卷积模块输出特征拼接，关注物体边界邻域特征；

可选地，所述邻近特征金字塔包括1×1卷积模块、邻近特征注意融合模块；所述邻近特征金字塔结构将输入特征图C3、C4和C5’并行通过不同的1×1卷积模块，其后特征图C3输出特征与特征图C5’输出特征分别经过下采样和上采样与C4输出特征通过拼接模块实现特征聚合，而聚合后特征经邻近特征注意融合模块强化，再分别经一个1×1卷积模块、上采样与C3输出特征通过拼接模块聚合和下采样与C5’输出特征聚合，同理聚合后特征都经邻近特征注意融合模块强化，并送入大核卷积检测解耦头；

可选地，所述邻近特征注意融合模块由级联的改进的坐标注意力、1×1卷积模块、通道注意力、特征多分支处理模块和1×1卷积模块组成；所述邻近特征注意融合模块将输入特征通过改进的坐标注意力实现特征加权，之后通过1×1卷积模块通道降维后，运用通道注意力关注不同通道特征之间的依赖关系，最终多重注意特征通过特征多分支处理模块传递；所述特征多分支处理模块共五条特征传播处理路径，一条为跳跃连接，其它为4个3×3卷积模块按不同数量串联构成；所述改进的坐标注意力包括自适应最大池化、自适应平均池化、1×1卷积模块、1×3深度卷积模块、拼接模块和批处理归一化，输入特征X为C×H×W的张量；所述改进的坐标注意力将输入特征X并行经过两个自适应平均池化和两个自适应最大池化，分别将所得C×H×1和C×1×W的张量通过拼接模块拼接，通过1×1卷积模块分别得到特征X1和X2，其后X1和X2按元素相加，并通过1×3深度卷积模块，分裂为特征Z1和Z2，Z1和Z2分别通过1×1卷积模块再同时经批处理归一化，通过Sigmoid函数得到Zh、Zw，最终将原始输入特征X与特征权重Zh、Zw相乘，实现对输入特征X的加权关注；

可选地，所述大核卷积检测解耦头由级联的重参数卷积模块和耦合检测分支模块组成；所述耦合检测分支模块由7×7深度卷积模块和1×1卷积模块组成；邻近特征金字塔结构输出特征经重参数卷积模块实现通道维度倍增作为耦合检测分支模块输入特征，其后输入特征经过7×7深度卷积模块和1×1卷积模块形成3个分支，分别预测缺陷目标类别、置信度和坐标；

本发明具有如下优点：本发明提升了超宽幅金属表面瑕疵的检测精度，且参数和计算量大幅减少，利于在嵌入式设备上部署应用，降低了部署成本。

附图说明

图1为本发明所提出超宽幅金属表面瑕疵检测与识别方法的网络结构示意图；

图2为本发明提出的多层级语义感知增强模块模块示意图；

图3为本发明提出的邻近特征注意融合模块示意图；

图4为本发明提出的大核卷积检测解耦头模块示意图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。下面将结合附图和具体实施例，对本发明进行详细说明。

典型的工业图像可由具体工业产线上相机拍摄得到，训练网络中基于深度学习模型依赖Pytorch框架实现。结合附图1所示，本发明实施例提供一种超宽幅金属表面瑕疵检测与识别方法包括：

主干特征提取网络，用于对超宽幅金属表面工业图像提取不同层次特征，并通过多层级语义感知增强模块MSEM聚合不同层级特征Ci(i＝2,3,4,5)，获得增强的高层级特征C5’；

邻近特征金字塔，用于以较低的计算成本有效地融合多尺度特征，并设计邻近特征注意融合模块PFAFM，通过注意力机制等形式，增强特征跨空间坐标、通道和尺度的表示；

大核卷积检测解耦头LKSDH，根据邻近特征金字塔输出特征，以三分支形式获得对于缺陷目标的类别、置信度、边界框预测。

主干特征提取网络也叫骨干网络，用于实现多个层次的特征提取。作为一种可选的实施方式，如图1所示，本实施例中主干特征提取网络遵循YOLOv7的ELAN结构，各阶段输出特征图为{C1，C2，C3，C4，C5}，在此基础上，采用特征通过多层级语义感知增强模块MSEM聚合C2、C3、C4和C5得到特征图C5’。随之将C3、C4和C5’送入邻近特征金字塔进一步特征处理。

如图2所示，多层级语义感知增强模块MSEM由由级联的多层级特征集成模块和改进的SPPCSPC结构组成。多层级特征集成模块以主干特征提取网络获得的特征图{C2，C3，C4，C5}作为初始输入，C5为C×H’×W’的张量，C表示特征图的通道数，H’表示特征图的高度，W’表示特征图的宽度；C2通过自适应平均池化，得到f₀；C3依次通过自适应平均池化和1×1卷积模块，得到f₁；C4依次通过自适应平均池化和1×1卷积模块，得到f₂；C5通过1×1卷积模块通道降维，得到f₃；f₀、f₁、f₂和f₃的大小均为C/4×H'×W’的张量；将f₀、f₁、f₂和f₃拼接，依次经过批处理归一化、Sigmoid函数处理，得到特征图M5；所述的改进的SPPCSPC结构的输入为特征图M5，M5经过依次级联的1×1卷积模块、无参数注意力SimAM、特征优化模块和1×1卷积模块得到特征图C5’。

特征优化模块包含两条特征处理支路，第一条特征处理支路包括级联的轻量化的Ghost卷积块、1×1卷积模块、混合SPP模块、1×1卷积模块和轻量化的Ghost卷积块；第二条特征处理支路为对输入的特征直接传播，将两条特征处理支路的输出拼接，作为特征优化模块的输出。

混合SPP模块由四条并行支路组成，第一条支路为池化核为1×3的最大池化，第二条支路为池化核为3×1的最大池化，第三条支路为3×3的空洞卷积模块，第四条对输入不做任何操作，对四条并行支路所得特征拼接作为输出。

邻近特征金字塔PFP如图1所示，主要由1×1卷积模块和邻近特征注意融合模块PFAFM构成；PFP的输入为特征图C3、C4和C5’；特征图C3经过1×1卷积模块得到C3_1×1，对C3_1×1下采样得到特征图C3_down；特征图C4经过1×1卷积模块得到特征图C4_1×1；特征图C5’经过1×1卷积模块得到特征图C5’_1×1，对特征图C5’_1×1上采样得到特征图C5’_up；将特征图C3_down、C4_1×1和C5’_up执行拼接操作，送入第一个PFAFM，得到特征图P4；特征图P4依次通过级联的1×1卷积模块和上采样得到特征图P4’；将特征图P4’与C3_1×1进行拼接，送入第二个PFAFM得到特征图P3；特征图C5’_1×1与下采样后的P4进行拼接，送入第三个PFAFM，得到特征图P5。

如图3所示，邻近特征注意融合模块PFAFM主要由级联的改进的坐标注意力ICA、1×1卷积模块、通道注意力、特征多分支处理模块和1×1卷积模块组成。所述的特征多分支处理模块包含五条特征传播处理路径，第一条特征传播处理路径为跳跃连接，第二条特征传播处理路径为一个3×3卷积模块，第三条特征传播处理路径为级联的两个3×3卷积模块，第四条特征传播处理路径为级联的三个3×3卷积模块，第五条特征传播处理路径为级联的四个3×3卷积模块，对五条特征传播处理路径的输出执行拼接操作作为特征多分支处理模块的输出；所述的改进的坐标注意力ICA由自适应最大池化、自适应平均池化、1×1卷积模块和1×3深度卷积模块组成；所述的改进的坐标注意力ICA的输入为一个尺寸为C×H×W的特征图X；特征图X分别经过两个自适应平均池化和两个自适应最大池化，对所得特征分别执行拼接操作，再分别经1×1卷积模块，得到特征图X1和X2，张量分别为C/r×1×(H+W)和C/r×1×(W+H)，r＝16；特征图X1和X2按元素相加，增加特征丰富性，经1×3深度卷积模块，得到特征图Z_c；特征图Z_c分裂为特征图Z1和Z2，张量分别为C/r×H×1和C/r×1×W；特征图Z1和Z2再分别依次通过1×1卷积模块、批处理归一化和Sigmoid函数得到特征图Zh、Zw，张量分别为C×H×1和C×1×W；原始输入特征图X与特征图Zh、Zw相乘，获得输出的注意力特征图Output。

最后，邻近特征金字塔的三个输出P3、P4和P5传入大核卷积检测解耦头模块网络进行最终预测。如图4所示，大核卷积检测解耦头LKSDH由级联的重参数卷积模块REP和耦合检测分支模块组成，输入特征为Pi(i＝3,4,5)。通过重参数卷积模块REP，将输入特征的通道维度扩充为原来的两倍。耦合检测分支模块包含三条检测支路；第一条检测支路为级联的7×7深度卷积模块和1×1卷积模块，得到目标对象的类别分数；第二条检测支路为级联的7×7深度卷积模块和1×1卷积模块，得到目标对象的置信度分数；第三条检测支路为级联的7×7深度卷积模块和1×1卷积模块，得到目标对象的边界框位置；第二条检测支路和第三条检测支路共用一个7×7深度卷积模块。而以整个网络模型初始输入416×416为例，当Pi(i＝3)时，特征输入LKSDH的第一检测头，对52×52大小的特征图进行检测；当Pi(i＝4)时，特征输入LKSDH的第二检测头，对26×26大小的特征图进行检测；当Pi(i＝5)时，特征输入LKSDH的第三检测头，对13×13大小的特征图进行检测。

实施本发明，采用在工厂获取的超宽幅铝材表面缺陷检测数据集验证数据，以此为例说明具体实施过程。该铝材表面缺陷数据集包含了10类缺陷，共3005张图像，铝材表面缺陷具有尺寸微小、形态多样、多尺度变化等特性，符合实际超宽幅金属表面瑕疵复杂的特点。

对比实验结果分析：为了对本实例方法所带来的更高的精度检测效果进行验证，分别与两阶段模型(Faster-rcnn)、一阶段检测模型(SSD、RetinaNet、EfficientDet-D2、YOLOv4、YOLOv5-m、YOLOX-m、YOLOv7和YOLOv8)、Anchor free检测模型(即CenterNet和FCOS)和Transformer检测模型(DETR和Swin-T)还有ConvNeXt-T(一个可与Transformer相媲美的CNN模型)进行检测精度对比，评价指标使用参数量Params、计算量FLOPs、推理时间Inference time、检测速度FPS、平均检测精度mAP和单类别检测精度AP，得到的实验结果如表1所示。

表1：本发明方法在铝材表面缺陷检测数据集上与其他算法对比实验结果

表1中，mAP(％)表示IoU阈值为0.5时10类铝材表面缺陷的平均准确度。根据表1可知，本实例方法的mAP为80.85％，在所有方法中表现最优，比表现次优的YOLOv7高出3.02％。不仅如此，本方法相较YOLOv7参数量和FLOPs分别减少了23.8％和13％。本方法在提高检测精度的同时减少了计算成本，对于单张图片的检测速度可达到63.41帧每秒，满足实时检测的要求。

为了对本实例方法中主干特征提取网络MSEM、邻近特征金字塔PFP和大核卷积检测解耦头LKSDH三部分的作用进行验证，将上述各结构添加至YOLOv7进行试验，得到实验结果如表2所示。可以看到，本方法各部分对于铝材表面缺陷检测精度的提升皆有促进作用。

表2本发明提出的各部分结构消融实验结果

为了对本实例方法中邻近特征金字塔PFP的作用进一步进行验证，将PFP与主流的特征金字塔结构FPN和PAN进行对比，实验结果如表3所示。可以看到，PFP具有最高的检测精度，同时相较于PAN，参数量和FLOPs分别减少了14.4％和10.6％。

表3本发明提出的PFP与其它特征金字塔结构对比实验结果

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种超宽幅金属表面瑕疵检测与识别方法，其特征在于，将工业产线上相机拍摄的超宽幅金属表面工业图像输入预先训练好的超宽幅金属表面瑕疵检测与识别模型，得到表面瑕疵检测结果，所述的超宽幅金属表面瑕疵检测与识别模型包括：

主干特征提取网络，遵循YOLOv7的ELAN结构，用于对超宽幅金属表面工业图像提取特征，得到的特征图分别记为{C1，C2，C3，C4，C5}，通过多层级语义感知增强模块MSEM进一步聚合特征图C2、C3、C4和C5得到优化后的特征图C5’；

邻近特征金字塔PFP，由1×1卷积模块和邻近特征注意融合模块PFAFM构成；PFP的输入为特征图C3、C4和C5’；特征图C3经过1×1卷积模块得到C3_1×1，对C3_1×1下采样得到特征图C3_down；特征图C4经过1×1卷积模块得到特征图C4_1×1；特征图C5’经过1×1卷积模块得到特征图C5’_1×1，对特征图C5’_1×1上采样得到特征图C5’_up；将特征图C3_down、C4_1×1和C5’_up执行拼接操作，送入第一个PFAFM，得到特征图P4；特征图P4通过级联的1×1卷积模块和上采样得到特征图P4’；将特征图P4’与C3_1×1进行拼接，送入第二个PFAFM得到特征图P3；特征图C5’_1×1与下采样后的P4进行拼接，送入第三个PFAFM，得到特征图P5；

大核卷积检测解耦头，包括7×7深度卷积模块和1×1卷积模块，根据邻近特征金字塔的输出特征，以三分支形式获得对于缺陷目标的类别、置信度、边界框预测。

2.根据权利要求1所述的一种超宽幅金属表面瑕疵检测与识别方法，其特征在于，所述多层级语义感知增强模块MSEM由级联的多层级特征集成模块和改进的SPPCSPC结构组成；所述的多层级特征集成模块以主干特征提取网络获得的特征图{C2，C3，C4，C5}作为输入，特征图C5为C×H’×W’的张量，C表示特征图的通道数，H’表示特征图的高度，W’表示特征图的宽度；特征图C2通过自适应平均池化，得到特征图f₀；特征图C3通过级联的自适应平均池化和1×1卷积模块，得到特征图f₁；特征图C4通过级联的自适应平均池化和1×1卷积模块，得到特征图f₂；特征图C5通过1×1卷积模块通道降维，得到特征图f₃；特征图f₀、f₁、f₂和f₃的大小均为C/4×H'×W’的张量；将特征图f₀、f₁、f₂和f₃拼接，依次经过正则化、批处理归一化、Sigmoid函数处理，得到特征图M5；所述的改进的SPPCSPC结构的输入即为特征图M5；特征图M5经过依次级联的1×1卷积模块、无参数注意力SimAM、特征优化模块和1×1卷积模块得到特征图C5’；所述的特征优化模块包含两条特征处理支路，第一条特征处理支路为级联的轻量化的Ghost卷积块、1×1卷积模块、混合SPP模块、1×1卷积模块和轻量化的Ghost卷积块；第二条特征处理支路为对输入的特征直接传播；将两条特征处理支路的输出拼接，作为特征优化模块的输出；所述的混合SPP模块由四条并行支路组成，第一条支路为池化核为1×3的最大池化，第二条支路为池化核为3×1的最大池化，第三条支路为3×3的空洞卷积模块，第四条对输入不做任何操作，对四条并行支路所得的特征拼接作为混合SPP模块的输出。

3.根据权利要求1所述的一种超宽幅金属表面瑕疵检测与识别方法，其特征在于，所述的邻近特征注意融合模块PFAFM由级联的改进的坐标注意力ICA、1×1卷积模块、通道注意力、特征多分支处理模块和1×1卷积模块组成；所述的特征多分支处理模块包含五条特征传播处理路径，第一条特征传播处理路径为跳跃连接，第二条特征传播处理路径为一个3×3卷积模块，第三条特征传播处理路径为级联的两个3×3卷积模块，第四条特征传播处理路径为级联的三个3×3卷积模块，第五条特征传播处理路径为级联的四个3×3卷积模块，对五条特征传播处理路径的输出执行拼接操作，作为特征多分支处理模块的输出；所述的改进的坐标注意力ICA由自适应最大池化、自适应平均池化、1×1卷积模块和1×3深度卷积模块组成；所述的改进的坐标注意力ICA的输入为一个尺寸为C×H×W的特征图X，其中C表示特征图的通道数，H表示特征图的高度，W表示特征图的宽度；特征图X分别经过两个自适应平均池化和两个自适应最大池化，对所得特征分别执行拼接操作，再分别经1×1卷积模块，得到特征图X1和X2，张量分别为C/r×1×(H+W)和C/r×1×(W+H)，r表示通道维度压缩倍数；特征图X1和X2按元素相加，增加特征丰富性，经1×3深度卷积模块，得到特征图Z_c；特征图Z_c分裂为特征图Z1和Z2，张量分别为C/r×H×1和C/r×1×W；特征图Z1和Z2再分别依次通过1×1卷积模块、批处理归一化和Sigmoid函数得到特征图Zh、Zw，张量分别为C×H×1和C×1×W；原始输入特征图X与特征图Zh、Zw相乘，获得输出的注意力特征图Output。

4.根据权利要求1所述的一种超宽幅金属表面瑕疵检测与识别方法，其特征在于，所述的大核卷积检测解耦头LKSDH由级联的重参数卷积模块REP和耦合检测分支模块组成；所述的耦合检测分支模块包含三条检测支路；第一条检测支路为级联的7×7深度卷积模块和1×1卷积模块，得到目标对象的类别分数；第二条检测支路为级联的7×7深度卷积模块和1×1卷积模块，得到目标对象的置信度分数；第三条检测支路为级联的7×7深度卷积模块和1×1卷积模块，得到目标对象的边界框位置；第二条检测支路和第三条检测支路共用一个7×7深度卷积模块。