CN117392116A - 一种超宽幅金属表面瑕疵检测与识别方法 - Google Patents
一种超宽幅金属表面瑕疵检测与识别方法 Download PDFInfo
- Publication number
- CN117392116A CN117392116A CN202311636157.9A CN202311636157A CN117392116A CN 117392116 A CN117392116 A CN 117392116A CN 202311636157 A CN202311636157 A CN 202311636157A CN 117392116 A CN117392116 A CN 117392116A
- Authority
- CN
- China
- Prior art keywords
- feature
- module
- convolution
- convolution module
- multiplied
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 38
- 229910052751 metal Inorganic materials 0.000 title claims abstract description 32
- 239000002184 metal Substances 0.000 title claims abstract description 32
- 230000007547 defect Effects 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000009776 industrial production Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 40
- 238000011176 pooling Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 230000008447 perception Effects 0.000 claims description 9
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000001965 increasing effect Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000006835 compression Effects 0.000 claims 1
- 238000007906 compression Methods 0.000 claims 1
- 229910052782 aluminium Inorganic materials 0.000 abstract description 8
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 abstract description 8
- 238000004519 manufacturing process Methods 0.000 abstract description 8
- 229910000831 Steel Inorganic materials 0.000 abstract description 4
- 239000010959 steel Substances 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30136—Metal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种超宽幅金属表面瑕疵检测与识别方法。本发明方法将工业产线上相机拍摄的超宽幅金属表面工业图像输入预先训练好的超宽幅金属表面瑕疵检测与识别模型,得到表面瑕疵检测结果,该模型包括:主干特征提取网络,用于对输入图像精准地提取不同层次的特征;邻近特征金字塔,以较低的计算成本有效地融合多尺度特征,增强特征跨空间坐标、通道和尺度的表示;大核卷积检测解耦头,以三分支形式获得对于缺陷目标的类别、置信度、边界框预测结果。本发明在减少计算资源需求的同时,提高了超宽幅金属表面工业图像中表面瑕疵的检测精度,可应用于铝材、钢板、钢带产品的生产线,实现超宽幅金属制品表面的高效自动化质量检测。
Description
技术领域
本发明涉及基于深度学习目标检测技术领域,尤其涉及一种超宽幅金属表面瑕疵检测与识别方法。
背景技术
制造业正经历着从传统生产模式向智能制造的重大转型。智能工厂、无人车间的出现,极大提高了生产效率和保障了产品生产的一致性。尽管生产的自动化程度越来越高,但是,产品表面瑕疵往往无法避免。通常,表面瑕疵又可称为表面缺陷,缺陷是产品表面局部物理或化学性质不均匀的区域,如金属表面的划痕、斑点、脏污、裂纹等。产品表面缺陷影响产品的美观、舒适度和使用性能。近年来,随着人工智能、深度学习、机器视觉技术的发展,基于视觉的工业产品外观检测已经大量应用于航空航天、纺织品、汽车零部件、半导体等产品的表面缺陷检测,提升了质检效率和质量。而且,精准地识别、统计缺陷类型和数量,有助于改善生产工艺,减少缺陷后续出现的概率。然而,由于大面幅钢板、铝材、钢带等产品的表面面积大,相机的成像范围非常大。相比通用目标检测任务,超宽幅金属表面缺陷检测仍面临如下挑战:
1)形态多样、多尺度、微弱目标难检测
由于超宽幅金属表面大,获取的大尺度图像中既包含了大尺寸的缺陷,也包含了形态微小的缺陷。一方面,不同大小缺陷的共存,检测时容易出现目标检测框同时包括了极大缺陷和微小缺陷,导致漏检。另一方面,微弱目标的尺寸极小、极其有限的外观信息、与背景纹理差异小,且易被背景和噪声所淹没,造成缺陷的特征提取难和识别难。
2)有限计算资源下的实时缺陷检测与识别
为了节约成本,工业现场用于部署缺陷检测模型的计算平台的计算资源有限。将检测模型部署在这种资源紧张的计算平台上,需要在确保检测精度的前提下减少模型的参数、计算复杂度和推理时间。
无论是现有通用的深度学习目标检测模型,还是他们的改进模型,仍无法解决上述挑战。如何在尽可能减少计算资源消耗的情形下,确保超宽幅金属表面瑕疵的检测精度成为亟需解决的难题。
发明内容
本发明针对上述问题,发明了一种超宽幅金属表面瑕疵检测与识别方法,旨在通过优化目标检测中常见检测器的三个主要组成部分,强化模型对于超宽幅金属表面工业图像中缺陷的特征提取能力,以提升复杂场景下二维缺陷目标检测精度,并通过轻量化的结构设计保持模型实时检测速率。
根据上述思路,实现本发明采取的技术方案为:
一种超宽幅金属表面瑕疵检测与识别方法,其特征在于,将工业产线上相机拍摄的超宽幅金属表面工业图像输入预先训练好的超宽幅金属表面瑕疵检测与识别模型,得到表面瑕疵检测结果,所述的超宽幅金属表面瑕疵检测与识别模型包括:
主干特征提取网络,用于对超宽幅金属表面工业图像提取不同层次特征,并通过多层级语义感知增强模块聚合不同层级特征;
邻近特征金字塔,用于以较低的计算成本有效地融合多尺度特征,并设计邻近特征注意融合模块,通过注意力机制等形式,增强特征跨空间坐标、通道和尺度的表示;
大核卷积检测解耦头,根据邻近特征金字塔结构输出特征,以三分支形式获得对于缺陷目标的类别、置信度、边界框预测。
可选地,所述主干特征提取网络为YOLOv7的ELAN结构,得到的特征图分别记为{C1,C2,C3,C4,C5},通过多层级语义感知增强模块MSEM进一步聚合特征图C2、C3、C4和C5得到优化后的特征图C5’;
可选地,所述多层级语义感知增强模块MSEM由级联的多层级特征集成模块和改进的SPPCSPC结构组成;所述多层级特征集成模块由自适应平均池化和1×1卷积模块组成,将输入特征图C2、C3、C4和C5并行输入,通过自适应平均池化将特征图C2、C3和C4压缩至C5相同大小,将压缩后的特征图C3、C4与原始C5通道降维,处理后的特征图C2、C3、C4和C5经拼接操作拼接,通过非线性操作得到特征图M5,并将特征图M5输入改进的SPPCSPC结构;所述改进的SPPCSPC结构由级联的1×1卷积模块、无参数注意力、特征优化模块和1×1卷积模块组成,输入特征图M5通过1×1卷积模块和无参数注意力自主学习相应的权值来关注关键特征细节,再经特征优化模块和1×1卷积模块得到C5’输出特征送入邻近特征金字塔结构;
可选地,所述特征优化模块包含两条特征处理支路,第一条特征处理支路包括级联的轻量化的Ghost卷积块、1×1卷积模块、混合SPP模块、1×1卷积模块和轻量化的Ghost卷积块;第二条特征处理支路为对输入的特征直接传播,将两条特征处理支路的输出拼接,作为特征优化模块的输出;
可选地,混合SPP模块包括空洞卷积模块和最大池化,输入特征并行通过两个最大池化分别进行水平和垂直信息提取,同时通过空洞卷积模块扩大感受野,将最大池化和空洞卷积模块输出特征拼接,关注物体边界邻域特征;
可选地,所述邻近特征金字塔包括1×1卷积模块、邻近特征注意融合模块;所述邻近特征金字塔结构将输入特征图C3、C4和C5’并行通过不同的1×1卷积模块,其后特征图C3输出特征与特征图C5’输出特征分别经过下采样和上采样与C4输出特征通过拼接模块实现特征聚合,而聚合后特征经邻近特征注意融合模块强化,再分别经一个1×1卷积模块、上采样与C3输出特征通过拼接模块聚合和下采样与C5’输出特征聚合,同理聚合后特征都经邻近特征注意融合模块强化,并送入大核卷积检测解耦头;
可选地,所述邻近特征注意融合模块由级联的改进的坐标注意力、1×1卷积模块、通道注意力、特征多分支处理模块和1×1卷积模块组成;所述邻近特征注意融合模块将输入特征通过改进的坐标注意力实现特征加权,之后通过1×1卷积模块通道降维后,运用通道注意力关注不同通道特征之间的依赖关系,最终多重注意特征通过特征多分支处理模块传递;所述特征多分支处理模块共五条特征传播处理路径,一条为跳跃连接,其它为4个3×3卷积模块按不同数量串联构成;所述改进的坐标注意力包括自适应最大池化、自适应平均池化、1×1卷积模块、1×3深度卷积模块、拼接模块和批处理归一化,输入特征X为C×H×W的张量;所述改进的坐标注意力将输入特征X并行经过两个自适应平均池化和两个自适应最大池化,分别将所得C×H×1和C×1×W的张量通过拼接模块拼接,通过1×1卷积模块分别得到特征X1和X2,其后X1和X2按元素相加,并通过1×3深度卷积模块,分裂为特征Z1和Z2,Z1和Z2分别通过1×1卷积模块再同时经批处理归一化,通过Sigmoid函数得到Zh、Zw,最终将原始输入特征X与特征权重Zh、Zw相乘,实现对输入特征X的加权关注;
可选地,所述大核卷积检测解耦头由级联的重参数卷积模块和耦合检测分支模块组成;所述耦合检测分支模块由7×7深度卷积模块和1×1卷积模块组成;邻近特征金字塔结构输出特征经重参数卷积模块实现通道维度倍增作为耦合检测分支模块输入特征,其后输入特征经过7×7深度卷积模块和1×1卷积模块形成3个分支,分别预测缺陷目标类别、置信度和坐标;
本发明具有如下优点:本发明提升了超宽幅金属表面瑕疵的检测精度,且参数和计算量大幅减少,利于在嵌入式设备上部署应用,降低了部署成本。
附图说明
图1为本发明所提出超宽幅金属表面瑕疵检测与识别方法的网络结构示意图;
图2为本发明提出的多层级语义感知增强模块模块示意图;
图3为本发明提出的邻近特征注意融合模块示意图;
图4为本发明提出的大核卷积检测解耦头模块示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。下面将结合附图和具体实施例,对本发明进行详细说明。
典型的工业图像可由具体工业产线上相机拍摄得到,训练网络中基于深度学习模型依赖Pytorch框架实现。结合附图1所示,本发明实施例提供一种超宽幅金属表面瑕疵检测与识别方法包括:
主干特征提取网络,用于对超宽幅金属表面工业图像提取不同层次特征,并通过多层级语义感知增强模块MSEM聚合不同层级特征Ci(i=2,3,4,5),获得增强的高层级特征C5’;
邻近特征金字塔,用于以较低的计算成本有效地融合多尺度特征,并设计邻近特征注意融合模块PFAFM,通过注意力机制等形式,增强特征跨空间坐标、通道和尺度的表示;
大核卷积检测解耦头LKSDH,根据邻近特征金字塔输出特征,以三分支形式获得对于缺陷目标的类别、置信度、边界框预测。
主干特征提取网络也叫骨干网络,用于实现多个层次的特征提取。作为一种可选的实施方式,如图1所示,本实施例中主干特征提取网络遵循YOLOv7的ELAN结构,各阶段输出特征图为{C1,C2,C3,C4,C5},在此基础上,采用特征通过多层级语义感知增强模块MSEM聚合C2、C3、C4和C5得到特征图C5’。随之将C3、C4和C5’送入邻近特征金字塔进一步特征处理。
如图2所示,多层级语义感知增强模块MSEM由由级联的多层级特征集成模块和改进的SPPCSPC结构组成。多层级特征集成模块以主干特征提取网络获得的特征图{C2,C3,C4,C5}作为初始输入,C5为C×H’×W’的张量,C表示特征图的通道数,H’表示特征图的高度,W’表示特征图的宽度;C2通过自适应平均池化,得到f0;C3依次通过自适应平均池化和1×1卷积模块,得到f1;C4依次通过自适应平均池化和1×1卷积模块,得到f2;C5通过1×1卷积模块通道降维,得到f3;f0、f1、f2和f3的大小均为C/4×H'×W’的张量;将f0、f1、f2和f3拼接,依次经过批处理归一化、Sigmoid函数处理,得到特征图M5;所述的改进的SPPCSPC结构的输入为特征图M5,M5经过依次级联的1×1卷积模块、无参数注意力SimAM、特征优化模块和1×1卷积模块得到特征图C5’。
特征优化模块包含两条特征处理支路,第一条特征处理支路包括级联的轻量化的Ghost卷积块、1×1卷积模块、混合SPP模块、1×1卷积模块和轻量化的Ghost卷积块;第二条特征处理支路为对输入的特征直接传播,将两条特征处理支路的输出拼接,作为特征优化模块的输出。
混合SPP模块由四条并行支路组成,第一条支路为池化核为1×3的最大池化,第二条支路为池化核为3×1的最大池化,第三条支路为3×3的空洞卷积模块,第四条对输入不做任何操作,对四条并行支路所得特征拼接作为输出。
邻近特征金字塔PFP如图1所示,主要由1×1卷积模块和邻近特征注意融合模块PFAFM构成;PFP的输入为特征图C3、C4和C5’;特征图C3经过1×1卷积模块得到C31×1,对C31×1下采样得到特征图C3down;特征图C4经过1×1卷积模块得到特征图C41×1;特征图C5’经过1×1卷积模块得到特征图C5’1×1,对特征图C5’1×1上采样得到特征图C5’up;将特征图C3down、C41×1和C5’up执行拼接操作,送入第一个PFAFM,得到特征图P4;特征图P4依次通过级联的1×1卷积模块和上采样得到特征图P4’;将特征图P4’与C31×1进行拼接,送入第二个PFAFM得到特征图P3;特征图C5’1×1与下采样后的P4进行拼接,送入第三个PFAFM,得到特征图P5。
如图3所示,邻近特征注意融合模块PFAFM主要由级联的改进的坐标注意力ICA、1×1卷积模块、通道注意力、特征多分支处理模块和1×1卷积模块组成。所述的特征多分支处理模块包含五条特征传播处理路径,第一条特征传播处理路径为跳跃连接,第二条特征传播处理路径为一个3×3卷积模块,第三条特征传播处理路径为级联的两个3×3卷积模块,第四条特征传播处理路径为级联的三个3×3卷积模块,第五条特征传播处理路径为级联的四个3×3卷积模块,对五条特征传播处理路径的输出执行拼接操作作为特征多分支处理模块的输出;所述的改进的坐标注意力ICA由自适应最大池化、自适应平均池化、1×1卷积模块和1×3深度卷积模块组成;所述的改进的坐标注意力ICA的输入为一个尺寸为C×H×W的特征图X;特征图X分别经过两个自适应平均池化和两个自适应最大池化,对所得特征分别执行拼接操作,再分别经1×1卷积模块,得到特征图X1和X2,张量分别为C/r×1×(H+W)和C/r×1×(W+H),r=16;特征图X1和X2按元素相加,增加特征丰富性,经1×3深度卷积模块,得到特征图Zc;特征图Zc分裂为特征图Z1和Z2,张量分别为C/r×H×1和C/r×1×W;特征图Z1和Z2再分别依次通过1×1卷积模块、批处理归一化和Sigmoid函数得到特征图Zh、Zw,张量分别为C×H×1和C×1×W;原始输入特征图X与特征图Zh、Zw相乘,获得输出的注意力特征图Output。
最后,邻近特征金字塔的三个输出P3、P4和P5传入大核卷积检测解耦头模块网络进行最终预测。如图4所示,大核卷积检测解耦头LKSDH由级联的重参数卷积模块REP和耦合检测分支模块组成,输入特征为Pi(i=3,4,5)。通过重参数卷积模块REP,将输入特征的通道维度扩充为原来的两倍。耦合检测分支模块包含三条检测支路;第一条检测支路为级联的7×7深度卷积模块和1×1卷积模块,得到目标对象的类别分数;第二条检测支路为级联的7×7深度卷积模块和1×1卷积模块,得到目标对象的置信度分数;第三条检测支路为级联的7×7深度卷积模块和1×1卷积模块,得到目标对象的边界框位置;第二条检测支路和第三条检测支路共用一个7×7深度卷积模块。而以整个网络模型初始输入416×416为例,当Pi(i=3)时,特征输入LKSDH的第一检测头,对52×52大小的特征图进行检测;当Pi(i=4)时,特征输入LKSDH的第二检测头,对26×26大小的特征图进行检测;当Pi(i=5)时,特征输入LKSDH的第三检测头,对13×13大小的特征图进行检测。
实施本发明,采用在工厂获取的超宽幅铝材表面缺陷检测数据集验证数据,以此为例说明具体实施过程。该铝材表面缺陷数据集包含了10类缺陷,共3005张图像,铝材表面缺陷具有尺寸微小、形态多样、多尺度变化等特性,符合实际超宽幅金属表面瑕疵复杂的特点。
对比实验结果分析:为了对本实例方法所带来的更高的精度检测效果进行验证,分别与两阶段模型(Faster-rcnn)、一阶段检测模型(SSD、RetinaNet、EfficientDet-D2、YOLOv4、YOLOv5-m、YOLOX-m、YOLOv7和YOLOv8)、Anchor free检测模型(即CenterNet和FCOS)和Transformer检测模型(DETR和Swin-T)还有ConvNeXt-T(一个可与Transformer相媲美的CNN模型)进行检测精度对比,评价指标使用参数量Params、计算量FLOPs、推理时间Inference time、检测速度FPS、平均检测精度mAP和单类别检测精度AP,得到的实验结果如表1所示。
表1:本发明方法在铝材表面缺陷检测数据集上与其他算法对比实验结果
表1中,mAP(%)表示IoU阈值为0.5时10类铝材表面缺陷的平均准确度。根据表1可知,本实例方法的mAP为80.85%,在所有方法中表现最优,比表现次优的YOLOv7高出3.02%。不仅如此,本方法相较YOLOv7参数量和FLOPs分别减少了23.8%和13%。本方法在提高检测精度的同时减少了计算成本,对于单张图片的检测速度可达到63.41帧每秒,满足实时检测的要求。
为了对本实例方法中主干特征提取网络MSEM、邻近特征金字塔PFP和大核卷积检测解耦头LKSDH三部分的作用进行验证,将上述各结构添加至YOLOv7进行试验,得到实验结果如表2所示。可以看到,本方法各部分对于铝材表面缺陷检测精度的提升皆有促进作用。
表2本发明提出的各部分结构消融实验结果
为了对本实例方法中邻近特征金字塔PFP的作用进一步进行验证,将PFP与主流的特征金字塔结构FPN和PAN进行对比,实验结果如表3所示。可以看到,PFP具有最高的检测精度,同时相较于PAN,参数量和FLOPs分别减少了14.4%和10.6%。
表3本发明提出的PFP与其它特征金字塔结构对比实验结果
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (4)
1.一种超宽幅金属表面瑕疵检测与识别方法,其特征在于,将工业产线上相机拍摄的超宽幅金属表面工业图像输入预先训练好的超宽幅金属表面瑕疵检测与识别模型,得到表面瑕疵检测结果,所述的超宽幅金属表面瑕疵检测与识别模型包括:
主干特征提取网络,遵循YOLOv7的ELAN结构,用于对超宽幅金属表面工业图像提取特征,得到的特征图分别记为{C1,C2,C3,C4,C5},通过多层级语义感知增强模块MSEM进一步聚合特征图C2、C3、C4和C5得到优化后的特征图C5’;
邻近特征金字塔PFP,由1×1卷积模块和邻近特征注意融合模块PFAFM构成;PFP的输入为特征图C3、C4和C5’;特征图C3经过1×1卷积模块得到C31×1,对C31×1下采样得到特征图C3down;特征图C4经过1×1卷积模块得到特征图C41×1;特征图C5’经过1×1卷积模块得到特征图C5’1×1,对特征图C5’1×1上采样得到特征图C5’up;将特征图C3down、C41×1和C5’up执行拼接操作,送入第一个PFAFM,得到特征图P4;特征图P4通过级联的1×1卷积模块和上采样得到特征图P4’;将特征图P4’与C31×1进行拼接,送入第二个PFAFM得到特征图P3;特征图C5’1×1与下采样后的P4进行拼接,送入第三个PFAFM,得到特征图P5;
大核卷积检测解耦头,包括7×7深度卷积模块和1×1卷积模块,根据邻近特征金字塔的输出特征,以三分支形式获得对于缺陷目标的类别、置信度、边界框预测。
2.根据权利要求1所述的一种超宽幅金属表面瑕疵检测与识别方法,其特征在于,所述多层级语义感知增强模块MSEM由级联的多层级特征集成模块和改进的SPPCSPC结构组成;所述的多层级特征集成模块以主干特征提取网络获得的特征图{C2,C3,C4,C5}作为输入,特征图C5为C×H’×W’的张量,C表示特征图的通道数,H’表示特征图的高度,W’表示特征图的宽度;特征图C2通过自适应平均池化,得到特征图f0;特征图C3通过级联的自适应平均池化和1×1卷积模块,得到特征图f1;特征图C4通过级联的自适应平均池化和1×1卷积模块,得到特征图f2;特征图C5通过1×1卷积模块通道降维,得到特征图f3;特征图f0、f1、f2和f3的大小均为C/4×H'×W’的张量;将特征图f0、f1、f2和f3拼接,依次经过正则化、批处理归一化、Sigmoid函数处理,得到特征图M5;所述的改进的SPPCSPC结构的输入即为特征图M5;特征图M5经过依次级联的1×1卷积模块、无参数注意力SimAM、特征优化模块和1×1卷积模块得到特征图C5’;所述的特征优化模块包含两条特征处理支路,第一条特征处理支路为级联的轻量化的Ghost卷积块、1×1卷积模块、混合SPP模块、1×1卷积模块和轻量化的Ghost卷积块;第二条特征处理支路为对输入的特征直接传播;将两条特征处理支路的输出拼接,作为特征优化模块的输出;所述的混合SPP模块由四条并行支路组成,第一条支路为池化核为1×3的最大池化,第二条支路为池化核为3×1的最大池化,第三条支路为3×3的空洞卷积模块,第四条对输入不做任何操作,对四条并行支路所得的特征拼接作为混合SPP模块的输出。
3.根据权利要求1所述的一种超宽幅金属表面瑕疵检测与识别方法,其特征在于,所述的邻近特征注意融合模块PFAFM由级联的改进的坐标注意力ICA、1×1卷积模块、通道注意力、特征多分支处理模块和1×1卷积模块组成;所述的特征多分支处理模块包含五条特征传播处理路径,第一条特征传播处理路径为跳跃连接,第二条特征传播处理路径为一个3×3卷积模块,第三条特征传播处理路径为级联的两个3×3卷积模块,第四条特征传播处理路径为级联的三个3×3卷积模块,第五条特征传播处理路径为级联的四个3×3卷积模块,对五条特征传播处理路径的输出执行拼接操作,作为特征多分支处理模块的输出;所述的改进的坐标注意力ICA由自适应最大池化、自适应平均池化、1×1卷积模块和1×3深度卷积模块组成;所述的改进的坐标注意力ICA的输入为一个尺寸为C×H×W的特征图X,其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度;特征图X分别经过两个自适应平均池化和两个自适应最大池化,对所得特征分别执行拼接操作,再分别经1×1卷积模块,得到特征图X1和X2,张量分别为C/r×1×(H+W)和C/r×1×(W+H),r表示通道维度压缩倍数;特征图X1和X2按元素相加,增加特征丰富性,经1×3深度卷积模块,得到特征图Zc;特征图Zc分裂为特征图Z1和Z2,张量分别为C/r×H×1和C/r×1×W;特征图Z1和Z2再分别依次通过1×1卷积模块、批处理归一化和Sigmoid函数得到特征图Zh、Zw,张量分别为C×H×1和C×1×W;原始输入特征图X与特征图Zh、Zw相乘,获得输出的注意力特征图Output。
4.根据权利要求1所述的一种超宽幅金属表面瑕疵检测与识别方法,其特征在于,所述的大核卷积检测解耦头LKSDH由级联的重参数卷积模块REP和耦合检测分支模块组成;所述的耦合检测分支模块包含三条检测支路;第一条检测支路为级联的7×7深度卷积模块和1×1卷积模块,得到目标对象的类别分数;第二条检测支路为级联的7×7深度卷积模块和1×1卷积模块,得到目标对象的置信度分数;第三条检测支路为级联的7×7深度卷积模块和1×1卷积模块,得到目标对象的边界框位置;第二条检测支路和第三条检测支路共用一个7×7深度卷积模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311636157.9A CN117392116A (zh) | 2023-12-01 | 2023-12-01 | 一种超宽幅金属表面瑕疵检测与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311636157.9A CN117392116A (zh) | 2023-12-01 | 2023-12-01 | 一种超宽幅金属表面瑕疵检测与识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117392116A true CN117392116A (zh) | 2024-01-12 |
Family
ID=89470470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311636157.9A Pending CN117392116A (zh) | 2023-12-01 | 2023-12-01 | 一种超宽幅金属表面瑕疵检测与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392116A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975372A (zh) * | 2024-03-29 | 2024-05-03 | 山东浪潮科学研究院有限公司 | 一种基于YOLOv8和Transformer编码器相结合的工地安全检测系统及方法 |
-
2023
- 2023-12-01 CN CN202311636157.9A patent/CN117392116A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975372A (zh) * | 2024-03-29 | 2024-05-03 | 山东浪潮科学研究院有限公司 | 一种基于YOLOv8和Transformer编码器相结合的工地安全检测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111223088B (zh) | 一种基于深层卷积神经网络的铸件表面缺陷识别方法 | |
Zhu et al. | Modified densenet for automatic fabric defect detection with edge computing for minimizing latency | |
CN112200045B (zh) | 基于上下文增强的遥感图像目标检测模型建立方法及应用 | |
CN113569667B (zh) | 基于轻量级神经网络模型的内河船舶目标识别方法及系统 | |
Wan et al. | Ceramic tile surface defect detection based on deep learning | |
CN113658132A (zh) | 基于计算机视觉的结构件焊缝检测方法 | |
CN117392116A (zh) | 一种超宽幅金属表面瑕疵检测与识别方法 | |
CN111400040B (zh) | 基于深度学习和边缘计算的工业互联网系统及工作方法 | |
CN110751195B (zh) | 一种基于改进YOLOv3的细粒度图像分类方法 | |
CN110942450A (zh) | 一种基于深度学习的多生产流水线实时缺陷检测方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN114972312A (zh) | 基于YOLOv4-Tiny改进的绝缘子缺陷检测方法 | |
CN112070727A (zh) | 一种基于机器学习的金属表面缺陷检测方法 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN115170529A (zh) | 基于注意力机制的多尺度微小瑕疵检测方法 | |
CN116168270A (zh) | 基于并行深度残差网络的轻量化煤矸石检测模型及方法 | |
CN116385430A (zh) | 一种机器视觉瑕疵检测方法、装置、介质及设备 | |
CN114021704B (zh) | 一种ai神经网络模型的训练方法及相关装置 | |
CN114898153A (zh) | 一种结合分类和检测的两阶段表面缺陷识别方法 | |
CN117788402A (zh) | 一种基于LIDD-Net高实时轻量化网络的工业产品缺陷检测方法 | |
CN117495836A (zh) | 一种素色织物疵点检测方法 | |
CN113469224A (zh) | 一种基于卷积神经网络与特征描述算子相融合的大米分类方法 | |
CN117078608B (zh) | 一种基于双掩码引导的高反光皮革表面缺陷检测方法 | |
CN116453111B (zh) | 一种基于轻量级YOLOv4的菠萝成熟度分析方法 | |
CN117218457B (zh) | 一种基于双层二维归一化流的自监督工业异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |