CN116664558A

CN116664558A - 一种钢铁表面缺陷检测方法、系统及计算机设备

Info

Publication number: CN116664558A
Application number: CN202310934150.9A
Authority: CN
Inventors: 杨涛; 刘美; 韩惠子; 苏鹏; 刘世杰
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-08-29
Anticipated expiration: 2043-07-28
Also published as: CN116664558B

Abstract

本发明公开了一种钢铁表面缺陷检测方法、系统及计算机设备，涉及钢铁表面缺陷检测技术领域，包括以下步骤：获取钢铁表面图像；将钢铁表面图像输入至改进的YOLOv5s网络模型，输出缺陷预测特征图；根据缺陷预测特征图对钢铁表面缺陷进行识别。本发明首先将SE通道注意力模块融入骨干网络中以增大缺陷特征通道权重，降低背景干扰，提高算法对缺陷特征的提取能力。其次在颈部网络融入STR多头自注意力模块，提高缺陷边缘纹理等细节特征的比重。最后改进损失函数为SIoU，缩短预测框回归收敛过程以提高算法检测速度。

Description

一种钢铁表面缺陷检测方法、系统及计算机设备

技术领域

本发明涉及钢铁表面缺陷检测技术领域，特别是涉一种钢铁表面缺陷检测方法、系统及计算机设备。

背景技术

从生产过程中操作不当，到自然界氧化腐蚀，再到使用过程中造成的自然磨损，钢铁表面缺陷伴随着钢铁本身存在，一些微小表面缺陷可能导致重大的事故，确保钢铁表面质量尤为重要。因此，针对检测精度高、速度快和模型体积小的钢铁表面缺陷检测方法的研究具有重要意义。

传统钢铁表面缺陷检测方法包括人工抽检法、红外检测法和基于图像处理的方法。人工抽检法通过质检工人以目测的方式随机抽取样本判断钢铁表面缺陷，该方式效率低、漏检率高、误检率高。沈立华等在红外热像仪分辨率允许的前提下采用单面法红外检测钢板内面伤损。吴秀永等基于Gaber小波KLPP算法提出一种特征提取方法。赵久梁等为了解决钢铁表面缺陷图片边缘难以检测到的问题，提出基于小波变换模极大值的多尺度边缘检测算法。杨永敏等人提出一种基于超熵和模糊集理论的图像分割算法。尽管传统方法对钢铁表面缺陷检测做出了贡献，但存在检测效率和检测精度低等问题。

近年来，随着深度学习技术快速发展，采用目标检测算法的钢铁表面缺陷检测方法相继提出。基于深度学习的目标检测算法分为两类，一类是双阶段目标检测算法，代表算法有Faster R-CNN，另一类是单阶段目标检测算法，代表算法有 SSD、YOLO系列。韩强等基于Faster R-CNN采用检测网络对区域建议框分类回归。JLI等基于YOLO网络模型进行改进构建钢铁表面缺陷检测模型，该模型能够有效提高钢铁表面缺陷的召回率。李维刚等基于YOLOv3目标检测算法进行网络结构的改进，采用K-means聚类获得数据集的初始锚框，将浅层特征信息和深层特征信息融合，改进后的模型mAP值提升明显。叶欣等基于 YOLOv4目标检测模型改进，通过替换损失函数为EIoU，同时采用自适应空间特征融合结构提高了冷轧带钢表面缺陷的检测精度。

但是上述钢铁表面缺陷检测算法存在检测精度低、检测速度慢和模型复杂度高等问题。

发明内容

本发明实施例提供了一种钢铁表面缺陷检测方法、系统及计算机设备，解决了现有算法存在检测精度低、检测速度慢和模型复杂度高等问题。

本发明提供一种钢铁表面缺陷检测方法，包括以下步骤：

获取钢铁表面图像；

将钢铁表面图像输入至改进的YOLOv5s网络模型，输出缺陷预测特征图；

根据缺陷预测特征图对钢铁表面缺陷进行识别；

所述将钢铁表面图像输入至改进的YOLOv5s网络模型，输出缺陷预测特征图，包括：

输入层接收钢铁表面图像；

骨干网络对钢铁表面图像进行特征提取，得到输出特征图；所述骨干网络中的多个CSP模块中均融入有SE 通道注意力模块；

颈部网络对输出特征图进行特征融合，得到多个不同尺度的缺陷预测特征图；所述颈部网络包括STR多头自注意力模块、特征金字塔网络和金字塔注意力网络；

检测头网络对多个不同尺度的缺陷预测特征图进行计算，输出缺陷预测特征图。

优选的，所述骨干网络包括Focus模块、多个特征层以及SPP模块，每个特征层均包括CBL模块和所述CSP模块；

通过Focus模块对钢铁表面图像进行切片，得到第一特征图；

通过CBL模块中对第一特征图进行卷积，得到第二特征图；

通过SE 通道注意力模块对第二特征图进行池化、全连接以及重新加权，得到第三特征图；

通过CSP模块对第三特征图进行Bottleneck和卷积，得到第四特征图；

通过SPP模块对第四特征图进行池化，得到固定大小的输出特征图。

优选的，通过SE 通道注意力模块对第二特征图进行池化、全连接以及重新加权，包括以下步骤：

通过Squeeze操作对第二特征图沿着空间维度做全局平均池化；

通过Excitation操作对全局平均池化后的第二特征图进行第一次全连接、激活以及第二次全连接；

通过Reweight操作对第二次全连接后的第二特征图进行重新加权。

优选的，通过下式进行Squeeze操作：

式中，F_sq表示Squeeze操作，u_c表示通道数为c的第二特征图，(i, j)表示特征图上横纵坐标为(i, j)的点，(H , W)表示特征图长宽，z_c为输出的结果；

通过下式进行Excitation操作：

式中，为第一层全连接层权重，/>为ReLU激活操作，/>为第二层全连接层操作权重，/>为Sigmoid 激活操作，s为输出的每个特征通道的权重，g为全局池化操作，F_ex为Excitation操作；

通过下式进行Reweight操作：

式中，为第三特征图，F_scale为Reweight操作。

优选的，所述颈部网络对输出特征图进行特征融合，得到多个不同尺度的缺陷预测特征图，包括以下步骤：

通过STR多头自注意力模块对输出特征图进行层级特征提取；

通过特征金字塔网络对层级特征提取后的输出特征图进行上采样，将高层特征信息和低层特征信息进行融合，计算出缺陷预测特征图；

通过金字塔注意力网络，对缺陷预测特征图进行下采样，输出不同尺度的缺陷预测特征图。

优选的，通过STR多头自注意力模块对输出特征图进行层级特征提取，包括以下步骤：

将输出特征图划分成固定大小的窗口；

将多个窗口通过层归一化后输入至W-MSA 层计算注意力，得到第一输出特征结果；

将第一输出特征结果输入至MLP层，得到W-MSA 的输出结果；

将W-MSA 的输出结果通过层归一化后输入至SW-MSA 层计算注意力，得到第二输出特征结果；

将第二输出特征结果输入至MLP层，得到SW-MSA 的输出结果。

优选的，通过SIoU损失函数对改进的YOLOv5s网络模型进行训练，所述SIoU损失函数如下所示：

式中，IoU表示预测框与真实框的交并比，为将角度成本考虑在内的距离公式，表示形状成本。

优选的，所述缺陷预测特征图的预测信息包括预测框的坐标信息、类别信息以及置信度信息。

一种钢铁表面缺陷检测系统，包括：

图像获取模块，用于获取钢铁表面图像；

特征预测模块，用于将钢铁表面图像输入至改进的YOLOv5s网络模型，输出缺陷预测特征图；

缺陷识别模块，用于根据缺陷预测特征图对钢铁表面缺陷进行识别；

所述特征预测模块包括：

图像输入模块，用于输入层接收钢铁表面图像；

特征提取模块，用于骨干网络对钢铁表面图像进行特征提取，得到输出特征图；所述骨干网络中的多个CSP模块中均融入有SE 通道注意力模块；

特征融合模块，用于颈部网络对输出特征图进行特征融合，得到多个不同尺度的缺陷预测特征图；所述颈部网络包括STR多头自注意力模块、特征金字塔网络和金字塔注意力网络；

特征输出模块，用于检测头网络对多个不同尺度的缺陷预测特征图进行计算，输出缺陷预测特征图。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述检测方法的步骤。

与现有技术相比，本发明的有益效果是：

本发明首先将SE通道注意力模块融入骨干网络中以增大缺陷特征通道权重，降低背景干扰，提高算法对缺陷特征的提取能力。其次在颈部网络融入STR 多头自注意力模块，提高缺陷边缘纹理等细节特征的比重。最后改进损失函数为SIoU，缩短预测框回归收敛过程以提高算法检测速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有YOLOv5s网络模型的整体结构图；

图2为现有YOLOv5s网络模型的骨干网络各模块结构图；

图3为本发明的改进YOLOv5s网络模型的整体结构图；

图4为本发明的改进YOLOv5s网络模型的多个CSP结构图；

图5为SE通道注意力结构图；

图6为STR多头自注意力模块结构示意图；

图7为本发明的预测框与真实框相对位置示意图；

图8为本实施例的实验方案流程图；

图9为本发明的改进YOLOv5s网络模型与现有YOLOv5s网络模型的检测精度对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图3为本发明的改进YOLOv5s网络模型结构图，图4为本发明改进的多个CSP结构图。参照图3和图4，本发明提供了一种钢铁表面缺陷检测方法，具体包括以下步骤：

第一步：获取钢铁表面图像。

第二步：将钢铁表面图像输入至改进的YOLOv5s网络模型，输出缺陷预测特征图。

YOLOv5系列算法包括YOLOv5s，YOLOv5m，YOLOv5l，YOLOv5x，其中YOLOv5s体积最小，检测精度较低。随着模型体积增大，YOLOv5系列的检测精度逐级提高，体积最大的是YOLOv5x，精度也最高。本发明旨在实现一个轻量化且精度较高的目标检测算法，因此采用YOLOv5s作为改进的基准模型。

参照图1，图1为现有YOLOv5s网络模型结构图，图2为现有YOLOv5s网络模型骨干网络各模块结构图。YOLOv5s模型由4个部分组成：输入端、骨干网络、颈部网络和检测头。输入端将图片进行预处理操作，方便网络处理，图片送入骨干网络中进行特征提取。骨干网络主要由Focus模块，卷积模块，CSP(n)模块以及空间金字塔池化(Spatial Pyramid Pooling，SPP)模块构建而成。Focus模块对输入特征图进行切片操作，以减少参数计算和CUDA的内存使用。CSP(n)结构中有两个特征通道，分别进行Bottleneck操作和卷积操作，两个特征通道的输出经过concat处理使模型学习更多特征。SPP模块有三个不同尺度的MaxPooling(5×5，9×9，13×13)，保证网络在输入图像大小随机的情况下输出固定大小的特征图。颈部网络包括特征金字塔网络(feature pyramid networks，FPN)和金字塔注意力网络(pyramidattention networks，PAN)，结合这两个网络，颈部网络更好的融合了浅层特征信息和高层语义信息。检测头输出3个尺度的模型预测信息，包括预测框的坐标信息，类别信息以及置信度信息。

基于深度学习的注意力模仿人类视觉注意力机制。人观察某个对象时自动忽略背景中的无关信息而将注意力集中在观察对象上。自然语言处理领域，注意力机制的运用取得了巨大成功。因此，在视觉领域，人们着手注意力机制应用可能性的研究。通道注意力机制SENet是注意力机制在视觉领域应用的重大突破，它赋予特征通道中某些通道更大权重，抑制特征通道中无用的干扰信息，以增强网络特征提取能力。

图5为SE通道注意力结构图。输入图像x经过骨干网络中卷积等模块处理后输出大小的特征图，其中(H,W)表示特征图的高宽，C表示特征图通道数，随后特征图被送入SE通道注意力模块中做处理。SE通道注意力模块主要包括三个操作，首先是F_sq操作Squeeze，将输入特征图沿着空间维度做全局平均池化，输出特征通道变成一个具有全局感受野的实数，通道数不变。Squeeze操作如下所示：

（1）

式中，F_sq表示Squeeze操作，u_c表示通道数为c的第二特征图，(i, j)表示特征图上横纵坐标为(i, j)的点，(H , W)表示特征图长宽，z_c为输出的结果。

经过Squeeze处理，F_ex对输入做Excitation操作。基于特征通道间的相关性，z_c通过一层全连接操作，通道数为原来的1/r，送入ReLU激活函数增加非线性，再经过一层全连接层处理恢复为输入通道数，经过Sigmoid激活函数生成每个特征通道权重，Excitation操作如下所示：

（2）

式中，为第一层全连接层权重，/>为ReLU激活操作，/>为第二层全连接层操作权重，/>为Sigmoid 激活操作，r为缩放因子，s为输出的每个特征通道的权重，F_ex为Excitation操作。

模块的最后对两路输入做Reweight操作Fs_cale，将求得的每个通道特征通道权重加权到原特征图上得到x'，Reweight操作如下所示：

（3）

式中，x'为第三特征图，F_scale为Reweight操作。

基于以上原因，本发明在YOLOv5s网络的特征提取网络中融入SE通道注意力模块，以增强网络对钢铁表面缺陷特征的提取能力。具体的，在骨干网络中的多个CSP模块中均融入有SE 通道注意力模块。通过Focus模块对钢铁表面图像进行切片，得到第一特征图，通过多个CBL模块中对第一特征图进行卷积，得到多个第二特征图，通过SE 通道注意力模块对第二特征图进行池化、全连接以及重新加权，得到第三特征图。通过CSP模块对第三特征图进行Bottleneck和卷积，得到第四特征图。通过SPP模块对第四特征图进行池化，得到固定大小的输出特征图。

参照图6，图6为STR多头自注意力模块结构示意图滑窗自注意力机制(SwinTransformer,STR)在ViT的基础上考虑视觉信号的特点，使得网络可以应用于复杂的视觉任务。在基于COCO数据集的目标检测任务中采用STR构建的网络在多个维度性能优于采用CNN构建的网络。

STR模块核心部分为窗口自注意力机制(W-MSA)和滑动窗口自注意力机制(SW-MSA)。输出特征图划分成固定大小的窗口送入网络，通过层归一化(LayerNormalization,LN)处理，在W-MSA层计算注意力，输出结果与/>残差连接，得到第一输出特征结果/>：

（4）

上层的输出经过多层感知机( MultilayerPerceptron,MLP)处理输出结果与做残差连接输出/>：

（5）

W-MSA的输出结果进入SW-MSA模块，通过LN层归一化，进入SW-MSA层做窗口信息交互后计算注意力：

（6）

第二输出结果在SW-MSA模块的最后经过MLP层处理输出结果，如公式：

（7）

由于经过骨干网络提取特征后钢铁表面缺陷的边缘纹理等细节特征信息丢失严重，考虑STR架构性能优于CNN架构，因此本发明选择STR作为一种探索式应用以增强颈部网络部分缺陷边缘纹理等细节特征的比重。具体的，在颈部网络的第一个CSP模块中融入STR多头自注意力模块。

参照图7，图7为本发明的预测框与真实框相对位置示意图。定位框回归预测是目标检测的主要任务之一。YOLOv5s的分类损失函数使用二元交叉熵(BCE)，置信度损失使用Logits损失函数，定位框损失函数采用CIoU。尽管CIoU使得预测框回归更为精确，但基于距离、重叠区域以及长宽比的设计没有考虑预测框与真实框中心点方向问题，二者相对位置存在很大自由，这导致预测框和真实框回归收敛速度较慢，进而影响模型的整体性能，SIoU考虑两框中心点角度因素和两框形状因素，重定义距离公式，有效加快预测框回归收敛速度，提升模型检测精度。因此本发明采用SIoU替代CIoU。

图中，B_gt表示真实框，B表示预测框，为预测框于真实框中心点的角度，c_h，c_w分别表示两框中心点构成矩形的长宽，/>表示中心点的距离。

以下是SIoU的计算过程，其中IoU表示预测框与真实框的交并比，为将角度成本考虑在内的距离公式，/>表示形状成本。

（8）

（9）

（10）

（11）

式中，和/>分别表示预测框和真实框的中心点位置坐标，/>和/>分别表示预测框和真实框的长宽，/>表示数据集形状成本值，本发明参定义范围为2到6。

第三步：根据缺陷预测特征图对钢铁表面缺陷进行识别。

基于以上钢铁表面缺陷检测方法，本发明实施例还提供一种钢铁表面缺陷检测系统，包括图像获取模块、特征预测模块和缺陷识别模块。图像获取模块用于获取钢铁表面图像。特征预测模块用于将钢铁表面图像输入至改进的YOLOv5s网络模型，输出缺陷预测特征图。缺陷识别模块用于根据缺陷预测特征图对钢铁表面缺陷进行识别。

特征预测模块包括：

图像输入模块，用于输入层接收钢铁表面图像；

为实现上述目的，本发明还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述一种钢铁表面缺陷检测方法的步骤。

实施例

本发明实验环境采用Windows10操作系统，内存为32GB，CPU型号为12thGenInter(R)Core(TM)i9-129003.19GHz，采用PyTorch1.11.0作为深度学习框架，Python版本为3.8.13，CUDA版本为11.3，cuDNN版本为8200。实验使用NEU-DET数据集，共有1800张钢材表面缺陷图像。模型训练过程中将数据集分为训练集、验证集和测试集，比例为8：1：1。使用labelimg标注工具对数据集标注，数据集有裂纹(Crazing,Cr)、夹杂(Inclusion,In)、斑块(Patches,Pa)、划痕(Scratches,Sc)、麻点(Pitted_surface,Ps)、氧化铁皮(Rolled-in_scale,Rs)等6类缺陷类型。

本发明采用mAP@0.5(IoU阈值为0.5时各个类别平均AP值)评价模型的检测精度，采用每秒检测图像数(FPS)评估模型的检测速度。其他评估指标有：模型权重体积(Weights)、GFLOPs、精确率(Precision,P)、召回率(Recall,R)、平均精度(AveragePrecision,AP)。模型权重体积表示模型权重数大小，GFLOPs表示10亿次浮点运算，用于衡量模型计算量，FPS表示模型每秒处理图片的数量，P表示所有预测为正样本的结果中预测正确的比率，R表示所有正样本中被正确预测的比率，AP表示在不同召回率下精确率的平均值。对各个类别的AP求均值得到mAP(所有类别的平均精度)，

（12）

（13）

（14）

（15）

式中，P表示精确率，R表示召回率，N表示总类别个数，PT正样本预测出正样本数量，PF表示负样本预测出正样本数量，NF表示正样本预测出负样本数量。

参照图8，图8为本实施例的实验方案流程图，本发明基于YOLOv5s算法作为改进基准算法。首先采用初始超参数，初始锚框组合和初始权重实验，实验结果显示，mAP@0.5仅有74.9%，因此在实验过程中采用遗传算法迭代5次获得基于本数据集的一组超参数，如表1所示，实验得mAP@0.5值为77.1%。最后基于钢铁表面缺陷检测任务设计消融实验改进算法，并对实验结果进行对比分析。

表1 进化超参数

为验证单个改进点对模型性能的影响，本发明进行了消融实验，对每个改进点在相同条件下进行训练、测试得到5种改进模型性能对比，如表2。

表2 改进点消融实验

消融实验结果显示，采用进化后的超参数，mAP值从74.9%提升至77.1%，但模型检测速度下降，说明模型精度提升，但网络计算量增大。在G3中，模型mAP值从77.1%提升至77.9%，模型检测速度达到111fps，引入SIoU模型精度略微提升，但大幅加快了预测框回归收敛的速度。在G4中模型mAP值从77.9%提升至79.1%，提升幅度为1.2%，表明STR模块有优良的提取细节特征信息能力，但网络趋向复杂。在G4中，模型mAP继续提升，从79.1%提升至80.4%，引入SE模块进一步加强了骨干网络提取特征的能力，虽然检测速度低于G4但仍高于YOLOv5s算法。

图9为本发明的改进YOLOv5s网络模型与现有YOLOv5s网络模型的检测精度对比图。参照图9，改进算法相对YOLOv5s在多种缺陷类别中检测精度提升显著，尤其对于缺陷Cr和Rs。Cr的AP值从47.8%提升至59.0%，提升了12.1%，Rs的AP值从51.6%提升至69.2%，提升了17.6%，算法的mAP值较YOLOv5s提升了5.5%。

为进一步验证改进算法在检测精度、检测速度以及模型复杂度较主流目标检测算法的优势，本发明开展了一系列实验就FasterR-CNN、SSD、YOLOv3以及YOLOv5系列在FPS、GFLOPS、模型体积以及mAP等多个维度展开实验，表3是对比实验结果。

表 3 不同算法在 NEU-DET 数据集上性能对比

实验结果显示，FasterR-CNNmAP值为78.0%，模型体积大小为108MB，模型计算量为307G，检测速度仅有27fps，这符合双阶段目标检测算法的性能预期。SSD模型体积有所降低，检测精度较 Faster R-CNN降低明显，检测速度达到148fps。YOLOv3模型体积为235MB，其检测精度并没有较大提升。YOLOv5系列算法随着模型体积增大检测精度随之提升，模型体积最小为YOLOv5s，其检测精度也最低，模型体积最大的YOLOv5x精度达到78.2%。本发明改进算法相比YOLOv5s，模型体积从16.4MB降到了13.2MB,降低了约20.0%，模型计算量降低约8.0%，检测速度提升了8.7%，mAP值提升5.5%。以上列举的算法中，改进算法的检测精度最高，模型复杂度最低，检测速度虽较SSD低但仍能满足实时性检测要求。

本发明的改进算法在检测精度、模型体积以及模型检测速度等性能上取得了较大提升，是相对于目前主流目标检测算法中精度最高，体积最小，检测速度较快的目标检测模型，因此本发明所提出的算法可以满足实时条件下对钢铁表面缺陷做精准定位识别分类检测的任务。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种钢铁表面缺陷检测方法，其特征在于，包括以下步骤：

获取钢铁表面图像；

根据缺陷预测特征图对钢铁表面缺陷进行识别；

输入层接收钢铁表面图像；

2.如权利要求1所述的一种钢铁表面缺陷检测方法，其特征在于，所述骨干网络包括Focus模块、多个特征层以及SPP模块，每个特征层均包括CBL模块和所述CSP模块；

通过Focus模块对钢铁表面图像进行切片，得到第一特征图；

通过CBL模块中对第一特征图进行卷积，得到第二特征图；

3.如权利要求2所述的一种钢铁表面缺陷检测方法，其特征在于，通过SE 通道注意力模块对第二特征图进行池化、全连接以及重新加权，包括以下步骤：

通过Squeeze操作对第二特征图沿着空间维度做全局平均池化；

4.如权利要求3所述的一种钢铁表面缺陷检测方法，其特征在于，通过下式进行Squeeze操作：

通过下式进行Excitation操作：

通过下式进行Reweight操作：

式中，为第三特征图，F_scale为Reweight操作。

5.如权利要求4所述的一种钢铁表面缺陷检测方法，其特征在于，所述颈部网络对输出特征图进行特征融合，得到多个不同尺度的缺陷预测特征图，包括以下步骤：

通过STR多头自注意力模块对输出特征图进行层级特征提取；

6.如权利要求5所述的一种钢铁表面缺陷检测方法，其特征在于，通过STR多头自注意力模块对输出特征图进行层级特征提取，包括以下步骤：

将输出特征图划分成固定大小的窗口；

将第一输出特征结果输入至MLP层，得到W-MSA 的输出结果；

将第二输出特征结果输入至MLP层，得到SW-MSA 的输出结果。

7.如权利要求1所述的一种钢铁表面缺陷检测方法，其特征在于，通过SIoU损失函数对改进的YOLOv5s网络模型进行训练，所述SIoU损失函数如下所示：

式中，IoU表示预测框与真实框的交并比，为将角度成本考虑在内的距离公式，/>表示形状成本。

8.如权利要求1所述的一种钢铁表面缺陷检测方法，其特征在于，所述缺陷预测特征图的预测信息包括预测框的坐标信息、类别信息以及置信度信息。

9.一种钢铁表面缺陷检测系统，其特征在于，包括：

图像获取模块，用于获取钢铁表面图像；

所述特征预测模块包括：

图像输入模块，用于输入层接收钢铁表面图像；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述方法的步骤。