CN116129242A

CN116129242A - 一种基于改进YOLOv4铝材表面缺陷识别方法

Info

Publication number: CN116129242A
Application number: CN202310049285.7A
Authority: CN
Inventors: 李松松; 郭尚荣; 韩兆龙; 高明阳; 李虎; 张连贺
Original assignee: Dalian Ocean University
Current assignee: Dalian Ocean University
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-05-16

Abstract

本发明涉及表面缺陷识别技术领域，提供一种基于改进YOLOv4铝材表面缺陷识别方法，包括：步骤100，获取铝材缺陷图像的数据集；步骤200，建立改进YOLOv4缺陷识别网络；步骤300，利用K‑means算法，调整改进YOLOv4缺陷识别网络的先验框；步骤400，利用铝材缺陷图像的数据集，对调整先验框后的改进YOLOv4缺陷识别网络进行训练，得到缺陷识别模型；步骤500，将待识别铝材图像输入到缺陷识别模型中，识别出表面缺陷。本发明能够使网络有选择性的增强信息特征，进而提升对小目标的检测能力，增强网络的特征提取能力。

Description

一种基于改进YOLOv4铝材表面缺陷识别方法

技术领域

本发明涉及表面缺陷识别技术领域，尤其涉及一种基于改进YOLOv4铝材表面缺陷识别方法。

背景技术

铝金属材料硬度强，耐腐蚀性高且具有良好的导电导热性，广泛应于工业发展和生产生活中。在生产中铝材过程中由于各方面因素的影响，会产生擦花、喷流、杂色等表面缺陷，这些缺陷影响金属材料的质量，检查缺陷并将分类缺陷的大小、名称、形状和每个缺陷的位置等信息反馈给工作人员很重要。传统的金属表面缺陷识别依靠工作人员手动操作完成，利用具有丰富经验的检测人员对铝材表面进行周期性的检测和修复，这种方法既耗时，效率也非常低，工作人员在检测过程中不可避免存在错检、漏检的情况。

20世纪以来，深度学习作为机器视觉领域的重要突破，被广泛应用于目标检测任务，在识别表面缺陷方面取得了长足的进步。目前，基于深度学习的目标检测算法分为两类：一类是两阶段检测算法，主要以R-CNN(Region with CNN features)、Fast R-CNN(FastRegion with CNN features)、Faster R-CNN(Faster Region with CNN features)为代表，该类型算法首先产生候选区域，再区分候选区域，对含有目标的候选区域进行修订与回归，这类算法错识别和漏识别率较低，具有良好的精测精度，但提取过程复杂致使速度较慢。另一类是一阶段检测算法，典型代表算法有如YOLO(You Only Look Once)、SSD(SingleShot MultiBox Detector|SpringerLink)、RetinaNet等，其中YOLO系类算法是当前比较流行的目标检测算法，该算法对物体的类别概率和位置坐标值进行预测，通过输入端到输出端的模型结构直接得到最终的输出结果。与两阶段算法相比一阶段算法有更快的检测速度。

发明内容

本发明主要解决现有技术的铝材表面缺陷识别精度低、小目标检测性能差等技术问题，提出一种基于改进YOLOv4铝材表面缺陷识别方法，使网络有选择性的增强信息特征，进而提升对小目标的检测能力，增强网络的特征提取能力。

本发明提供一种基于改进YOLOv4铝材表面缺陷识别方法，包括以下过程：

步骤100，获取铝材缺陷图像的数据集；

步骤200，建立改进YOLOv4缺陷识别网络；

步骤300，利用K-means算法，调整改进YOLOv4缺陷识别网络的先验框；

步骤400，利用铝材缺陷图像的数据集，对调整先验框后的改进YOLOv4缺陷识别网络进行训练，得到缺陷识别模型；

步骤500，将待识别铝材图像输入到缺陷识别模型中，识别出表面缺陷。

进一步的，所述改进YOLOv4缺陷识别网络，包括：特征提取单元、特征融合单元和检测单元；

所述特征提取单元，包括：输入模块、卷积模块、改进的CSP模块；其中，CSP模块添加SENet注意力机制；

所述特征融合单元，包括：卷积模块、最大池化模块、拼接模块、上采样模块、下采样模块；

所述检测单元，包括：检测头模块。

进一步的，在步骤300中，所述K-means算法的过程如下：

步骤301，随机选取聚类中心：所有真实框作为聚类对象，随机选取k个作为初始聚类中心；

步骤302，根据距离进行分簇：计算聚类中心与所有真实框的交并比IOU，那么根据真实框和聚类中心得距离为1-IOU(box，centroid)，将每个真实框分给距离最近的聚类中心，形成K个簇；其中，距离度量公式：

d(box，centroid)＝1-IOU(box，centroid) (1)

步骤303，更新聚类中心：计算簇中所有聚类对象宽和高的均值，得到新的聚类中心；

步骤304，重复步骤302、步骤303：当聚类中心基本不变或达到最大迭代次数时停止。最终得出铝材缺陷真实框的聚类结果。

进一步的，训练的硬件平台配置参数如下：AMD Ryzen 7 5800H with RadeonGraphics八核处理器，NVIDIA GeForce RTX 3060 Laptop GPU的显卡，三星MZVLB512HBJQ-000L2；

软件配置：基于64位的windows11操作系统，基于pytorch的detectron2的框架，基于CUDA11.3，OpenCV2库及PyCharm集成开发环境。

本发明提供了一种基于改进YOLOv4铝材表面缺陷识别方法，首先，在骨干网络中结合SE注意力模块，使网络有选择性的增强信息特征，进而提升对小目标的检测能力；其次，在YOLOv4颈部增加卷积层数，增强网络的特征提取能力；最后，采用K-means聚类算法针对铝材数据样本重新计算出适用性强的先验框，加强网络对复杂缺陷的检出能力。

附图说明

图1是本发明提供的基于改进YOLOv4铝材表面缺陷识别方法的实现流程

图2是本发明提供的铝材数据集经过Mosaic数据增强的结果示意图

图3是本发明提供的SENet的结构示意图；

图4是本发明提供的改进YOLOv4缺陷识别网络的结构示意图；

图5是本发明方法对铝材缺陷识别的效果图；

图6是本发明提供的YOLOv4网络和YOLOv4+conv网络的检测性能对比情况示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

本发明提供的基于改进YOLOv4(You Only Look Once v4)铝材表面缺陷识别方法的实现流程，如图1所示。基于改进YOLOv4铝材表面缺陷识别方法，包括以下过程：

步骤100，获取铝材缺陷图像的数据集。

LabelImg是一个图形图像注释工具。注释被按照ImageNet所使用的PASCAL VOC格式存成XML文件。利用LabelImg制作好铝材缺陷数据集后，将铝材缺陷数据集输入网络，让网络学习数据集缺陷并识别出缺陷。通过输入端输入的图片，改进YOLOv4铝材表面缺陷识别网络的输入图像大小为416*416，通常包含图片预处理阶段，即将输入图像缩放到网络的输入大小并进行归一化等。在网络训练阶段，改进YOLOv4铝材表面缺陷识别网络使用Mosaic数据增强提升了模型的训练速度和网络精度。

Mosaic数据增强：这种数据增强方式简单来说就是把4张图片，通过随机缩放、随机裁减、随机排布的方式进行拼接。丰富了检测物体的背景和小目标，并且在计算BatchNormalization的时候一次会计算四张图片的数据，使得mini-batch大小不需要很大，一个GPU就可以达到比较好的效果。数据增强后得效果如图2所示。

步骤200，建立改进YOLOv4缺陷识别网络。

在YOLOv4骨干网络中嵌入SENet，实现有选择性的加强包含有用信息的特征，并抑制无用特征。在YOLOV4颈部网络增加卷积层，增强信息的流动。

YOLOv4是自上而下的网络结构，在多尺度缺陷检测任务中，利用原始的YOLOv4网络对铝材小目标检测时往往会存在漏检或者误检的情况，这是因为特征信息会随着网络深度的增加而丢失。虽然YOLOv4在FPN结构基础上添加PANet，缩短深层与浅层的特征图的信息路径，弥补语义信息和空间结构之间的不平衡，但是由于YOLOv4只做了一次边框回归并分类，在遇到缺陷目标尺度变化大的情况时，对于小目标的泛化能力差，导致检测效果不佳。因此，为了弥补YOLOv4对小目标检测能力的不足，将SENet加入到YOLOv4的骨干网络中，加强对小目标特征的训练。

SENet(Squeeze-and-Excitation Networks)通过学习全局信息，实现有选择性的加强包含有用信息的特征并抑制无用特征。SENet通过网络反馈的损失值去学习特征权重，使得有效的特征图赋值较大的权重，无效或者效果小的赋值较小的权重，使模型达到更好的效果。SENet分为压缩(Squeeze)和激发(Excitation)两个步骤：压缩的过程是进行全局平均池化，输入为h×w×c的Feature Map生成为1×1×c大小，将全局空间信息压缩到一个通道描述符，实现了网络的全局感受野信息的聚合；激发的过程是使用两个全连接进行非线性处理，第一个全连接层实现降维，输出为1×1×c/r，第二个全连接层又升维到了c个神经元，输出为1×1×c，其中存在r是一个缩放参数。最后将输出的1×1×c的Feature Map和h×w×c的Feature Map和进行全乘操作，使网络学习到特征通道的权重，权重表征通道的相关性与重要程度。SENet的基本结构如图3所示。YOLOv4的主干网络通过较深的卷积网络去提取图像中深层的特征，随着网络层数的加深，特征图表现的语义信息更丰富，感受野更大，特征图宽度越来越小，但SENet难以从抽象的小尺度特征图中有效的重构出有用和无用的特征，而在YOLOv4主干网络中蕴含着图片重要的浅层信息，将SENet嵌入至YOLOv4的主干网络中，这样能使网络对小目标检测有着更好的效果。SENet结构简单，可以直接在现有的网络中使用，将其嵌入在主干网络中的特征层与特征层之间。

YOLOv4算法的网络结构是自上而下的，通过改变卷积核的步长实现下采样，特征图的分辨率变小，感受野变大。YOLOv4算法使用CSPDarknet53作为骨干特征提取网络，输出P3、P4、P5三个尺度特征层，在输入尺寸的基础上，P3下采样8倍、P4下采样16倍、P5下采样32倍。YOLOv4颈部结构中，特征层P5连接SPP结构，再与特征层P3和P4共同参与到PANet结构中，多尺度特征图进行特征融合，对不同尺寸缺陷的目标进行检测。

这样的网络结构在一定程度上增强信息的流动，但对铝材表面缺陷检测中，缺陷类型复杂多样，基础的YOLOv4网络对各类缺陷类型存在检测能力弱和区分度差问题。因此为了获取与缺陷相关的多样化信息，我们在P5特征层的输出位置，将SPP结构前后的三个卷积层都增加至五个卷积层，增加完之后卷积核大小分别为1×1、3×3、1×1、3×3、1×1。

综上，如图4所示，所述改进的YOLOv4缺陷识别网络，包括：特征提取单元(Backbone)、特征融合单元(Neck)和检测单元(Head)；

所述特征提取单元(Backbone)，包括：输入模块(Inputs)、卷积模块(Conv2D)，改进的CSP模块(CSP+SE)；其中，CSP模块添加SENet注意力机制；

所述特征融合单元(Neck)，包括：卷积模块(conv)、最大池化模块(maxpooling)、拼接模块(concat)、上采样模块(upsampling)、下采样模块(downsampling)；其中，卷积模块(conv)的数量为5个。

所述检测单元，包括：检测头模块(yolo head)；

在骨干网络(Backbone)中添加SE注意力机制，将颈部网络(Neck)中三个卷积层都增加至五个卷积层。

步骤300，利用K-means算法，调整改进YOLOv4缺陷识别网络的先验框。

在YOLOv4算法检测过程中采用的先验框是利用VOC数据集运算得出的，先验框的尺寸和本发明数据集中缺陷目标的尺寸差异较大，并不能满足铝材缺陷检测，影响算法检测性能。因此对先验框尺寸进行调整，提高检测缺陷的精度。

本发明中选用K-means算法(k-means clustering algorithm，k均值聚类算法)在铝材缺陷的真实框数据上进行聚类，计算出适用性强的先验框。算法中采用交并比IOU作为距离度量标准。由公式(1)所示，不需考虑真实框本身的大小，当聚类中心和真实框的中心越相近，IOU值越大，那么距离d就越小，由此达到了算法聚类的目的。

K-means算法基本步骤：

d(box，centroid)＝1-IOU(box，centroid) (1)

其中，box表示真实框，centroid表示聚类中心的距离。

步骤304，重复步骤302、步骤303：当聚类中心基本不变或达到最大迭代次数时停止。最终得出铝材缺陷真实框的聚类结果，如表1所示。

表1 K-means聚类结果对比

由表1可以看出，原始先验框宽高比差异较为均衡，聚类之后的先验框宽高比差异更大，在形状上多为矩形，对铝材缺陷更具有针对性，使网络在检测过程中更容易选择出合适的预测框，提高网络对缺陷检出率。

步骤400，利用铝材缺陷图像的数据集，对调整先验框后的改进YOLOv4缺陷识别网络进行训练，得到缺陷识别模型。

模型训练的硬件平台配置参数如下：AMD Ryzen 7 5800H with Radeon Graphics八核处理器，NVIDIA GeForce RTX 3060 Laptop GPU的显卡，三星MZVLB512HBJQ-000L2(固态硬盘)；软件配置：基于64位的windows11操作系统，基于pytorch的detectron2的框架，基于CUDA11.3，OpenCV2库及PyCharm集成开发环境。

利用铝材缺陷图像的数据集，对调整先验框后的改进YOLOv4缺陷识别网络进行训练，得到缺陷识别模型。分类是输出最终目的，针对不同的检测算法，输出端的分支个数不尽相同，通常包含一个分类分支和一个回归分支。YOLOv4利用CIOU_Loss来代替Smooth L1Loss函数，并利用DIOU_nms来代替传统的NMS操作，从而进一步提升算法的检测精度。输出端表示输出的图片。通过改进YOLOv4缺陷识别网络模型得出的缺陷的种类及其置信度。最终改进YOLOv4缺陷识别网络识别效果图如图5所示。

下面对本发明采用的方法与现有技术进行对比论证：

速度评估指标用预测单张图片时间表示，速度越快，表明检测效率高，更满足实时检测要求。精度评估指标是平均精度均值(mean Average Precision，mAP)。以P为纵坐标，R为横坐标得到PR曲线。平均精度AP(Average Precision)的值等于PR曲线下的面积。AP值衡量的是模型在每个类别上的检测准确度，mAP是AP的均值，反映模型对所有类别上的好坏，mAP值越大，表明算法检测精度越高。

式(2)、(3)中，TP代表模型正确分类的样本数量；FP代表模型被错误分类的样本数量；FN代表模型漏检的样本数量。

为验证改进YOLOv4缺陷识别网络方法在铝材缺陷数据集中的有效性，分别进行了三组实验进行效果评估。

实验一：在YOLOv4网络颈部中增加部分卷积层

改进后的网络模型为YOLOv4+conv，与YOLOv4基础网络模型进行对比。如表2所示，两种网络模型检测性能对比情况，如图6所示，两种网络模型对于各类缺陷平均精度对比情况。

表2网络模型改进前后的性能对比

网络模型	mAP@0.75	Time
			YOLOv4	87.64％	0.0250s
YOLOv4+conv	88.92％	0.0253s

由表2与图6中可知，改进后的YOLOv4算法在测试集上的mAP值由原来的87.64％提升至88.92％，提高了1.28％，大部分缺陷检测精度得到了提高。由此分析，3×3、1×1卷积层能够增加非线性处理，增强网络对目标特征的学习能力，其次，加深了网络使获得更大感受野，语义信息层次更丰富，因此对复杂缺陷目标能够进一步增强特征信息的提取。

实验二：YOLOv4骨干网络嵌入SENet。

根据在主干网络中嵌入SENet数量的不同，共有BackBone+5SE、BackBone+4SE、BackBone+3SE三种不同主干网络，所形成的网络模型分别为YOLOv4+conv+5SE、YOLOv4+conv+4SE、YOLOv4+conv+3SE。为评估其嵌入不同数量的SENet对检测精度产生的不同结果，进行对比实验。如表3所示，嵌入SENet数量不同所产生的网络模型检测性能变化情况，如表4所示，不同模型对于各类缺陷平均精度对比情况。

表3不同模型检测性能的变化

网络模型	SENe数量	mAP@0.75	Time
				YOLOv4+conv	0	88.92％	0.0253s
YOLOv4+conv+5SE	5	91.02％	0.0268s
				YOLOv4+conv+4SE	4	92.51％	0.0267s
YOLOv4+conv+3SE	3	93.67％	0.0264s

表4嵌入SENet数量不同所产生的网络模型检测性能变化情况

从表3可以看出，在主干网的嵌入SE Net提高了目标的检测性能，说明YOLOv4中引入SENet，调整通道上信息的相关性能够网络能够学习到突出重要内容，从而提升检测结果的准确性。随着SENet嵌入数量的不同，产生了不同的实验结果。在中浅层后加入3个SENet检测效果最好，mAP值较YOLOv4+conv网络提升了4.75％。从表4可以看出，小缺陷的检测精度提升较为明显，小缺陷擦花mAP值从92％增加至95％、脏点mAP值从79％增加至84％、漆泡mAP值从78％增加至82％。而加入SENet数量为4、5没有加入SE模块数量为3的检测效果好，是由于深层特征图与浅层相比有丰富的特征信息，有更小尺寸以及有更大的感受野，而SENet对于这种小尺度特征图且高度聚集特征信息时也难以提取有利于小目标检测更有效的特征，因此不能产生更好的效果。由此，将YOLOv4+conv+3SE定义为最终的ImprovedYOLOv4网络模型。

实验三：优化Improved YOLOv4先验框

对Improved YOLOv4采用K-means算法聚类,调整先验框，并与YOLOv4相比较。对比结果如表4所示。

表4网络模型改进前后的性能指标对比

结果表明：优化先验框使网络对铝材缺陷目标的检测精度mAP提升了1.11％，由此说明调整后的先验框尺寸更符合铝材缺陷的尺寸，在预测过程中有更大的重合面积从而提高检出率，铝材缺陷识别达到更优异的效果。Improved YOLOv4与YOLOv4比较，mAP值达到94.78％，单张图片测试的时间为0.0265s，在网络参数和计算量相比于基础网络有所增加，会影响检测的速度，但差值在合理范围之内提高了铝材表面的缺陷检测精度，验证了本发明中改进方法的有效性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于改进YOLOv4铝材表面缺陷识别方法，其特征在于，包括以下过程：

步骤100，获取铝材缺陷图像的数据集；

步骤200，建立改进YOLOv4缺陷识别网络；

2.根据权利要求1所述的基于改进YOLOv4铝材表面缺陷识别方法，其特征在于，所述改进YOLOv4缺陷识别网络，包括：特征提取单元、特征融合单元和检测单元；

所述检测单元，包括：检测头模块。

3.根据权利要求2所述的基于改进YOLOv4铝材表面缺陷识别方法，其特征在于，在步骤300中，所述K-means算法的过程如下：

d(box，centroid)＝1-IOU(box，centroid)(1)

4.根据权利要求2所述的基于改进YOLOv4铝材表面缺陷识别方法，其特征在于，训练的硬件平台配置参数如下：AMD Ryzen 7 5800H with Radeon Graphics八核处理器，NVIDIAGeForce RTX 3060Laptop GPU的显卡，三星MZVLB512HBJQ-000L2；