CN114677362A

CN114677362A - 基于改进YOLOv5的表面缺陷检测方法

Info

Publication number: CN114677362A
Application number: CN202210369330.2A
Authority: CN
Inventors: 杨文�; 汤臣薇; 吉昱阳; 郭美彤; 刘沛东; 程锦国
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-06-28
Anticipated expiration: 2042-04-08
Also published as: CN114677362B

Abstract

本发明公开了一种基于改进YOLOv5的表面缺陷检测方法，涉及金属检测领域。本发明基于YOLOv5s神经网络模型结构进行改进，在原有Backbone主干网络部分尾部增添使用了C3STR模块，通过C3STR模块对缺陷特征进行捕获强化，从而提取出更加丰富的图像缺陷特征，提高对图像中缺陷识别的准确性，并且能够降低对缺陷特征进行提取时的计算量，使得具有轻量性的特点。在将缺陷特征提取处标注框信息时，使用Coordinate Attention坐标注意力模块先对通道、方向和位置等感知信息进行捕获，能够帮助YOLOv5s的Head检测头部分对缺陷特征进行定位和识别，具有灵活、轻量和快速等优点。

Description

基于改进YOLOv5的表面缺陷检测方法

技术领域

本发明涉及金属检测领域，具体涉及基于改进YOLOv5的表面缺陷检测方法。

背景技术

工业环境中的金属设备因处于高温，辐射，化学原料接触，高湿度等特殊运行环境，设备表面极大可能出现各种缺陷。金属设备的表面缺陷可能导致运行效率的降低，电子设备地失效甚至有毒物质的泄露等重大安全隐患，为工厂乃至社会带来重大损失。因此及时发现金属设备表面缺陷成为工厂安全管理的核心任务。但由于金属设备的数量多，分布广，结构复杂，缺陷形式多样(金属锈蚀/点蚀/开裂、涂层破损、衬胶层失效、土建结构破损等)，给缺陷检测工作带来巨大的困难，给工厂带来高昂的运维成本。在这种情况下选择使用目标检测算法作为辅助检测手段有利于提升检测人员的工作效率。

现有技术主要采用两种方式，一种是基于传统机器学习的目标检测算法，利用手工设计的特征，在感兴趣区域进行特征选取。但是，这种方式在面对多样复杂的环境时难以表现出较强的健壮性，检测的精度较低；采用滑动窗口的方式对图片选择感兴趣区域，这导致了较大的计算量，降低了运算速度，另外由于滑动窗口使用固定的步长及图像中存在不同尺度的目标，可能导致对同一目标的重复识别及对小目标的漏检。另一种是基于深度学习目标检测方法，虽然在某些方面表现较好，但同时也有着一些不容忽视的缺陷。例如，面向小目标的多尺度Faster-RCNN检测算法，提高了在小目标检测任务上的精度，但仅能应用于特定的问题背景下，缺乏一定的通用性，同时其又是基于锚点估计的方法，无法解决旋转目标角度偏移等问题。又如，基于稀疏Transformer的遥感旋转目标检测可以灵活地对图像的旋转精确检测，但其在较大背景下进行检测时，微小的角度误差会急剧降低检测的精度，在环境变得复杂时容易漏检，大大降低了物体检测的精度。此外，融合混合域注意力的YOLOv4目标检测在小目标和遮挡目标检测方面效果突出，但在图像画质较低时由于能够提取的信息不够充分，导致误检的概率较大，同时该模型的泛化能力不足，不能很好地适应更多的应用场景。

发明内容

针对现有技术的上述不足，本发明提供了一种具有轻量性以及较高准确度的优点的基于改进YOLOv5的表面缺陷检测方法。

为达到上述发明目的，本发明所采用的技术方案为：

提供一种基于改进YOLOv5的表面缺陷检测方法，包括如下步骤：

S1；对获取到的待检测图片进行预处理，得到预处理图片；

S2；将预处理图片输入优化好的改进YOLOv5神经网络模型中进行缺陷特征提取和预测，得到预处理图片中缺陷部分的标注框信息；具体步骤如下：

S21；将预处理图片输入Backbone主干网络部分，通过CSP-DarkNet网络提取出预处理图片中的缺陷特征ω；

S22；使用C3STR模块对缺陷特征ω进行捕获强化，得到缺陷特征ω'；

C3STR模块执行的具体步骤如下：

S221；将缺陷特征ω输入C3STR模块，对缺陷特征ω分别进行一次卷积得到缺陷特征ω₁和缺陷特征ω₂；

S222；将缺陷特征ω₁使用Swin-Transformer Block移动窗口转换器模块进行n次处理得到ω₁'；

S223；将缺陷特征ω₁'和缺陷特征ω₂进行残差连接后再进行一次卷积得到缺陷特征ω'；将缺陷特征ω'输出；

S23；将缺陷特征ω以及缺陷特征ω'输入Neck颈部连接部分，通过PANet网络对缺陷特征ω和缺陷特征ω'进行解码，得到缺陷特征ω”；

S24；将缺陷特征ω”输入Head检测头部分，通过Coordinate Attention坐标注意力模块对缺陷特征ω”进行注意力区域提取，得到标注框信息；

S3；将标注框信息绘制在待检测图片上，完成表面缺陷检测。

在处理分辨率较大的待测图片时，采用多次Swin-Transformer Block移动窗口转换器模块(以下简称STR模块)对待测图片进行处理。STR模块将待测图片进行窗口划分，在每个窗口内部进行自注意力计算；在下一次的STR模块对图像处理时，会将上一次划分的窗口在横纵坐标方向上均平移半个窗口后，再次在窗口内部进行自注意力计算，最后将每次STR模块处理得到的自注意力信息汇总。步骤虽然增加了，但是相较于直接对待测图片整体进行缺陷特征提取，极大的减少了参数量，从而减少了计算量，同时也能够保证整个图片的自注意力信息都被提取。

进一步的，步骤S222中n∈[3,9]。

进一步的，改进YOLOv5神经网络模型的优化步骤如下：

A1；对表面缺陷数据集进行预处理，并且将预处理好的表面缺陷数据集中随机选择半数的数据样本组成训练集P，剩余的数据样本组成测试集P'；

A2；提出损失函数Loss，使用训练集对改进YOLOv5神经网络模型进行迭代训练得到训练好的改进YOLOv5神经网络模型；

Loss＝L_rect+L_conf+L_class；

其中，L_rect为目标框损失、L_conf为置信度损失、L_class为分类损失；

目标框损失使用IOU损失函数度量，置信度损失和分类损失使用二元交叉熵损失函数L_BCE度量；

L_rect＝1-IOU；

其中，S_gt为目标框面积、S_pred为预测框面积；

其中，C为网格内含有目标对象的置信度、

为网格内是否含有目标对象，即

当网格内含有目标对象时，则

反之，则

其中，p(c)为预测框内检测对象归属于类别c的概率、

为该检测对象是否归属于类别c，即

当该检测对象归属于类别c时，则

反之，则

A3；使用测试集P'对训练好的改进YOLOv5神经网络模型进行测试验证得到优化好的改进YOLOv5神经网络模型。

传统使用的MSE均方差损失函数在对目标框损失进行度量时，会假设矩阵形的目标框的坐标和宽高是相对独立的，但是实际情况下两者往往有着较大相关度；采用IOU损失函数则不会出现将目标框的坐标和宽高进行独立考量的情况，能够更好的对改进YOLOv5神经网络模型进行训练。

进一步的，目标框损失使用CIOU损失函数度量，即：

L_rect＝1-CIOU；

其中，d为目标框和预测框的中心点坐标的欧氏距离、e表示包住目标框和预测框的最小方框的对角线距离、w_gt为目标框的宽、h_gt为目标框的高、w_pred为预测框的宽、h_pred为预测框的高。

则

其中，λ₁为目标框损失的惩罚因子；λ₂为置信度损失的惩罚因子；i为网格的标号数；p_i(c)为预测框内检测对象归属于类别c的概率；

为第i个网格中的检测对象是否归属于类别c，即

当第i个网格中的检测对象不归属与类别c时，则

反之，则

S×S为检测对象的网格数；C_i表示第i个网格中含有目标对象的置信度；j为锚框的标号数；N为一个网格内锚框的数量；

为目标对象是否落在第i个网格的第j个锚框中，即

当目标对象落在第i个网格的第j个锚框中时，

且

反之，则

且

使用CIOU损失函数对目标框损失进行度量，在IOU损失函数的基础上考虑了中心点距离和矩阵的宽高比，可以更好地平衡各个方面的损失。从而使得整个损失函数Loss更加合理，训练出的改进YOLOv5神经网络模型在对表面检测时更加精准。

进一步的，表面缺陷数据集使用NEU数据集、DAGM 2007数据集或RSDDs数据集。

进一步的，对所述训练集P进行增强，将训练集P中的每个数据样本分别进行90°、180°和270°翻转，将原有的数据样本与所有翻转后的数据样本并为增强训练集P_强，使用增强训练集P_强对改进YOLOv5神经网络模型进行训练。

表面缺陷数据集中数据样本数量有限，对训练集P进行增强增添用于训练的数据样本，确保改进YOLOv5神经网络模型的迭代训练有足够的训练量，从而得到最优的改进YOLOv5神经网络模型。

进一步的，步骤A1中预处理包括数据清洗、数据格式转换等。

本发明的有益效果为：

1、本发明基于YOLOv5s神经网络模型结构进行改进，在原有Backbone主干网络部分尾部增添使用了C3STR模块，通过C3STR模块对缺陷特征进行捕获强化，从而提取出更加丰富的图像缺陷特征，提高对图像中缺陷识别的准确性，并且能够降低对缺陷特征进行提取时的计算量，使得具有轻量性的特点。在将缺陷特征提取处标注框信息时，使用Coordinate Attention坐标注意力模块先对通道、方向和位置等感知信息进行捕获，能够帮助YOLOv5s的Head检测头部分对缺陷特征进行定位和识别，具有灵活、轻量和快速等优点。

2、使用CIOU损失函数对目标框损失进行度量，使用二元交叉熵损失函数对置信度损失和分类损失进行度量，使得本发明中提出的改进YOLOv5神经网络模型进行训练优化更加符合实际，在对金属表面缺陷进行检测时，能够更加精准。

附图说明

图1为本发明提出的基于改进YOLOv5的表面缺陷检测方法流程示意图；

图2为改进YOLOv5神经网络模型的结构示意图；

图3为C3STR模块的结构示意图；

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

YOLO是一种经典的单阶段目标检测算法，它将目标检测问题转化为空间中的中边界分离的回归问题，YOLO基于目标检测的处理速度非常快，对背景和目标的辨识度很高。YOLOv5是YOLO的最新系列，其根据模型大小一共分为YOLOv5s，YOLOv5m，YOLOv5l，YOLOv5x。整体上，我们以YOLOv5s的模型结构为主要参考，一方面是由于其已取得较为良好的结果，总体结果的准确度更加有保障；另一方面也是其模型较为轻量，符合我们实际应用和训练研究的需求，便于模型在边缘设备上的部署和实施检测任务。

本实施例中提供一种基于改进YOLOv5的表面缺陷检测方法，如图1所示，包括如下步骤：

S1；对获取到的待检测图片进行预处理，得到预处理图片；

C3STR模块如图2所示，C3STR模块执行的具体步骤如下：

S221；将缺陷特征ω输入C3STR模块，对缺陷特征ω分别进行一次1*1的卷积得到缺陷特征ω₁和缺陷特征ω₂；缺陷特征ω₁和缺陷特征ω₂的通道数均为缺陷特征ω的一半；

S222；将缺陷特征ω₁使用STR模块进行n次处理得到ω₁'；STR模块的执行次数n可以为3、4、5、6、7、8或9，根据实际待检测图片的分辨率大小选择，分辨率越大，为保证检测的精确度，所需执行STR模块的次数越多；在保证精确度的同时，限制执行次数不超过9次，避免较大的计算量对装载本模型的检测设备造成压力。

S223；将缺陷特征ω₁'和缺陷特征ω₂进行残差连接后再进行一次1*1的卷积得到缺陷特征ω'；使得缺陷特征ω'与缺陷特征ω的通道数重新保持一致；将缺陷特征ω'输出；

改进YOLOv5神经网络模型的优化步骤如下：

A1；对表面缺陷数据集进行数据清洗、数据格式转换、数据筛选和数据扩充等预处理，并且将预处理好的表面缺陷数据集中随机选择半数的数据样本组成训练集P，剩余的数据样本组成测试集P'；表面缺陷数据集使用NEU数据集、DAGM 2007数据集或RSDDs数据集。对所述训练集P进行增强，将训练集P中的每个数据样本分别进行90°、180°和270°翻转，将原有的数据样本与所有翻转后的数据样本并为增强训练集P_强，使用增强训练集P_强对改进YOLOv5神经网络模型进行训练。

A2；提出损失函数Loss，使用增强训练集P_强对改进YOLOv5神经网络模型进行迭代训练得到训练好的改进YOLOv5神经网络模型；

Loss＝L_rect+L_conf+L_class；

L_rect＝1-IOU；

其中，S_gt为目标框面积、S_pred为预测框面积；

其中，C为网格内含有目标对象的置信度、

为网格内是否含有目标对象，即

当网格内含有目标对象时，则

反之，则

其中，p(c)为预测框内检测对象归属于类别c的概率、

为该检测对象是否归属于类别c，即

当该检测对象归属于类别c时，则

反之，则

进一步的，目标框损失使用CIOU损失函数度量，即：

L_rect＝1-CIOU；

则

其中，λ₁为目标框损失的惩罚因子，本实施例中λ₁＝5；λ₂为置信度损失的惩罚因子，本实施例中λ₂＝0.5；i为网格的标号数；p_i(c)为预测框内检测对象归属于类别c的概率；

为第i个网格中的检测对象是否归属于类别c，即

当第i个网格中的检测对象不归属与类别c时，则

反之，则

为目标对象是否落在第i个网格的第j个锚框中，即

当目标对象落在第i个网格的第j个锚框中时，

且

反之，则

且

数据验证

本发明通过在三个表面缺陷检测的公开数据集上的实验说明本发明的有效性。三个表面缺陷数据集分别为NEU数据集，DAGM2007数据集以及RSDDs数据集。表面缺陷数据集中包括轧制氧化皮(RS)、斑块(Pa)、开裂(Cr)、点蚀表面(PS)、内含物(In)和划痕(Sc)等缺陷类别。本发明通过与现阶段表面缺陷领域的最高水准的检测模型YOLOv3，YOLOv5，RetinaNet进行准确度和模型参数量大小的对比，说明本发明所带来的有益效果。

检测准确度对比：

本发明对缺陷目标检测结果进行定量的分析和评估，选用如下两大指标作为定量评价标准：(1)平均精度：Average-Precision(AP)，表示正确识别的物体数占总识别的物体个数的百分比；

其中，TP为真正例，FP为假正例。

(2)平均召回率：Average-Precision(AR)，表示正确识别的物体数占真实情况下总的物体数的百分比；

其中，TP为真正例，FN为假正例。

1.NEU数据集，训练集样本量为1440，测试集样本量为360。下表为使用NEU数据集分别通过YOLOv3，YOLOv5，RetinaNet和本实施例提出的模型进行训练测试得到的精度的数据对比表，如下表1。

表1

	AP	AP<sub>50</sub>	AP<sub>75</sub>	AR
					YOLOv3	42.2	76.7	41.2	26.5
YOLOv5	39.3	73.1	36.3	24.9
					RetinaNet	29.2	61.4	24	20.4
本实施例提出的模型	43.3	80.3	41.1	27.1

其中，AP表示所有缺陷类别和10个IOU阈值(0.5:0.05:0.95)的平均精准率；AP₅₀表示所有缺陷类别在IOU值为0.5时的平均精准率；AP₇₅表示所有缺陷类别在IOU值为0.75时的平均精准率；AR表示每张图片中，1个检测结果中的最大召回率，是所有IOU值和全部缺陷类别上的平均值。

2.DAGM 2007数据集。DAGM数据集是一个用于纹理表面缺陷检测的合成数据集，最初为DAGM 2007年讨论会上的一个竞赛而创建的。数据为人为生成的，但和现实世界的问题相似。数据集包含10类缺陷图像，训练样本量为1046，测试样本量为1054。下表为使用DAGM2007数据集分别通过YOLOv3，YOLOv5，RetinaNet和本实施例提出的模型进行训练测试得到的精度的数据对比表，如下表2。

表2

	AP	AP<sub>50</sub>	AP<sub>75</sub>	AR
					YOLOv3	63.7	98.7	72.9	69.2
YOLOv5	54.8	90.2	58.6	60.0
					RetinaNet	58.7	96.0	64.0	65.3
本实施例提出的模型	65.7	99.3	74.2	71.8

3.RSDDs数据集。RSDDs数据集为铁轨表面缺陷数据集，包含两种类型的数据集：第一种是从快车道捕获的I型数据集，第二种是从普通/重型运输轨道捕获的Ⅱ型数据集。共有137张训练集样本，58张测试集样本。下表为使用RSDDs数据集分别通过YOLOv3，YOLOv5，RetinaNet和本实施例提出的模型进行训练测试得到的精度的数据对比表，如下表3。

表3

	AP	AP<sub>50</sub>	AP<sub>75</sub>	AR
					YOLOv3	33.9	71.4	29.7	30.6
YOLOv5	46.3	89.9	32.4	40.2
					RetinaNet	38.0	80.5	28.4	36.5
本实施例提出的模型	50.6	92.8	51.8	41.5

如表1-3可知，使用NEU数据集、DAGM 2007数据集和RSDDs数据集任一作为表面缺陷数据集时，本实施例提出的模型测试得出的AP、AP50、AP75和AR均大于或近似等于YOLOv3，YOLOv5和RetinaNet测试得出的精度数据。本实施例提出的模型相较于现有技术中使用的表面缺陷检测模型而言，具有较优的精准度。

模型参数量对比：

模型参数量越少，说明模型所占用的存储空间和所消耗的计算资源越少，更有利于模型在边缘设备上的部署。下表为YOLOv3，YOLOv5，RetinaNet和本实施例提出的模型的模型参数量的数据对比表，如下表4。

表4

	YOLOv3	RetinaNet	YOLOv5	本实施例提出的模型
					模型参数量	61.55M	36.43M	7.03M	7.20M

由表4可知，本实施例提出的模型的模型参数量略大于YOLOv5模型，明显小于YOLOv3和RetinaNet模型，具备轻量化的优点。

综上所述，本实施例提出的改进YOLOv5神经网络模型具有准确度高、轻量化的优点，便于模型在边缘设备上的部署和实施检测任务。