CN117975176B

CN117975176B - 一种基于工业动态视觉自我提示的钢铁缺陷检测方法

Info

Publication number: CN117975176B
Application number: CN202410392385.4A
Authority: CN
Inventors: 李刚; 周鸣乐; 张敬林; 李敏; 韩德隆; 李旺; 冯正乾; 张泽恺
Original assignee: Shandong University; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong University; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2024-04-02
Filing date: 2024-04-02
Publication date: 2024-06-04
Anticipated expiration: 2044-04-02
Also published as: CN117975176A

Abstract

一种基于工业动态视觉自我提示的钢铁缺陷检测方法，涉及数字图像处理中的目标识别技术领域，对工业图片进行缺陷类别筛选、标注和数据预处理；搭建卷积模块，搭建自我提示ViT模块，搭建下采样模块，搭建检测头并将卷积模块、自我提示ViT模块、下采样模块、检测头按顺序级联并进行训练，训练结束后选择优化后的模型进行封装部署。提升了工业缺陷的检测精度，对工业缺陷检测具有应用能力。

Description

一种基于工业动态视觉自我提示的钢铁缺陷检测方法

技术领域

本发明涉及数字图像处理中的目标识别技术领域，具体涉及一种基于工业动态视觉自我提示的钢铁缺陷检测方法。

背景技术

钢铁缺陷的识别与检测是工业视觉场景中应用最为广泛的领域之一，工业场景中的缺陷识别是指从缺陷的形态、成因或者危害程度等角度对缺陷的定性分析，对模型提出了更高的要求。现阶段，工业视觉方向采用的方法大多沿用自然场景的方法，但不同于自然场景或开放世界下的计算机视觉任务，工业场景下的分类或检测等任务往往具有特定的挑战：

（1）稀疏低秩性导致网络效率低。工业场景中的缺陷图像常常在实体、特征和像素等层面体现出稀疏低秩特性。缺陷目标出现的概率通常较低，导致缺陷目标具备稀疏特性。钢铁缺陷图像表现出前景一致性并且面积通常较小，因此在原始灰度空间或特征空间中通常是低秩矩阵。但缺陷图像的整个特征空间通常具有高秩，特征建模时会产生大量无效特征，降低网络效率。

（2）特征表示能力差导致特征退化。随着网络深度的增加，网络会产生“特征退化”问题，即网络的关键特征发生丢失。针对钢铁缺陷来说，当前大部分通用视觉模型在深层网络中会以往先前网络学习到的先验信息。“特征退化”问题会导致深层网络无法建模并挖掘有效知识，从而影响缺陷的分类和位置标定。

（3）难以达到速度与精度平衡。工业生产中往往为边缘计算场景，边缘算力低下导致网络在下游应用任务中的推理速度慢。当前通用视觉模型并未考虑工业场景的应用问题，因此在实际工业场景中难以泛化。

为了解决稀疏低秩问题，将原始图像的特征矩阵视为低秩矩阵与稀疏矩阵之和。但基于低秩稀疏表示的工业视觉模型大多依赖于交替迭代更新的优化过程，导致其往往面临着复杂度高和实时性差。近年来，Vision Transformer由于高效的特征表达能力在计算机视觉的各类下游任务中被广泛使用。最近，基于提示引导模型的训练方式在基于ViTs的人工智能大模型中广泛使用。提示可以用于向深层网络中不断输入潜在知识以解决特征退化的潜力。然而，提示往往由输入的数据特性、可学习的提示向量或者人工先验生成，在网络的各个组件中，提示只是用于网络的微调阶段，不用于训练阶段。由于网络在训练过程中不同深度中的特征退化程度不同，这意味着网络不同深度对先验知识的需求程度不同，因此如何更好地运用提示中的先验知识在网络的训练过程解决特征退化问题具有重要的研究意义。

发明内容

本发明为了克服以上技术的不足，提供了一种实现钢铁缺陷图像精确检测的方法。

本发明克服其技术问题所采用的技术方案是：

一种基于工业动态视觉自我提示的钢铁缺陷检测方法，包括如下步骤：

(a)收集张钢铁缺陷图像数据，得到钢铁缺陷数据集，，其中为第张钢铁缺陷图像，；

(b)将第张钢铁缺陷图像进行图像增强，得到增强后的钢铁缺陷图像，得到增强后的图像集，；

(c)对增强后的钢铁缺陷图像进行标注，得到标签文件，所有的标签文件构成标签文件集，；

(d)构建钢铁缺陷数据标签集，，将钢铁缺陷数据标签集划分为训练集、验证集、测试集；

(e)构建钢铁缺陷检测网络，钢铁缺陷检测网络由第一下采样模块、第一卷积模块、第二下采样模块、第二卷积模块、第三下采样模块、自我提示ViT模块、第四下采样模块、自我提示ViT模块、检测头构成；

(f)将训练集中的增强后的钢铁缺陷图像输入到钢铁缺陷检测网络的第一下采样模块、第一卷积模块中，输出得到特征；

(g)将特征输入到钢铁缺陷检测网络的第二下采样模块、第二卷积模块、第三下采样模块中，输出得到特征；

(h)将特征输入到自我提示ViT模块中，输出得到特征；

(i)将特征输入到钢铁缺陷检测网络的第四下采样模块、自我提示ViT模块、检测头中，输出得到缺陷的预测位置标签及类别标签；

(j)计算损失函数，使用Adam优化器通过损失函数训练钢铁缺陷检测网络，得到优化后的钢铁缺陷检测网络；

(k)将测试集中增强后的钢铁缺陷图像输入到优化后的钢铁缺陷检测网络中，输出得到缺陷的预测位置标签及类别标签。

进一步的，步骤(b)中第张钢铁缺陷图像为RGB图像，通过公式计算得到第张钢铁缺陷图像中第个像素点的增强后的像素值，式中为第张钢铁缺陷图像中第个像素点的像素值，为平衡超参数，为自然常数，为第个通道的第个像素点的像素值，为第张钢铁缺陷图像中像素数，为通道数，，为R通道，2为G通道，3为B通道，增强后的钢铁缺陷图像。

优选的，取值范围为0-1。

进一步的，步骤(c)包括如下步骤：

(c-1)利用矩形框标注出增强后的钢铁缺陷图像种裂纹区域和/或破损区域和/或划痕区域和/或斑点区域和/或毛刺区域，得到个标注的矩形框，该矩形框作为真实框；

(c-2)第个矩形框的左上角坐标为，第个矩形框的右下角坐标为，第个矩形框的宽度为，第个矩形框的宽度为，第个矩形框的瑕疵类别为，，，为裂纹区域的类别，为破损区域的类别，为划痕区域的类别，为斑点区域的类别，为毛刺区域的类别，标签文件。

优选的，步骤(d)中将钢铁缺陷数据标签集按照6:2:2的比例划分为训练集、验证集、测试集。

进一步的，步骤(f)包括如下步骤：

(f-1)钢铁缺陷检测网络的第一下采样模块由卷积核大小为1×1的第一卷积层、特征分组聚合层、卷积核大小为1×1的第二卷积层构成；

(f-2)将训练集中的增强后的钢铁缺陷图像输入到第一下采样模块的第一卷积层中，输出得到特征；

(f-3)设定一邻域，该邻域大小为特征宽高的一半，，，将特征输入到第一下采样模块的特征分组聚合层中，将特征分组为特征空间，，为邻域第一行第一列的内容，为邻域第一行第二列的内容，为邻域第二行第一列的内容，为邻域第二行第二列的内容，为邻域的大小，，为特征的通道数，为特征的高，为特征的宽，将、、、按通道方向进行拼接操作，将拼接结果进在通道方向上进行shuffle操作，得到特征；

(f-4)将特征输入到第一下采样模块的第二卷积层中，输出得到特征；

(f-5)钢铁缺陷检测网络的第一卷积模块依次由第一卷积特征提取块、第二卷积特征提取块、瓶颈特征提取块构成，第一卷积特征提取块由卷积核大小为3×3的卷积层构成，将特征输入到第一卷积模块的第一卷积特征提取块中，输出得到特征，第二卷积特征提取块由卷积核大小为1×1的卷积层构成，将特征输入到第一卷积模块的第二卷积特征提取块中，输出得到特征，瓶颈特征提取块依次由卷积核大小为1×1的第一卷积层、卷积核大小为3×3的第二卷积层、卷积核大小为1×1的第三卷积层构成，将特征输入到瓶颈特征提取块中，输出得到特征，将特征、特征、特征进行拼接操作，得到特征。

进一步的，步骤(g)包括如下步骤：

(g-1)钢铁缺陷检测网络的第二下采样模块由卷积核大小为1×1的第一卷积层、特征分组聚合层、卷积核大小为1×1的第二卷积层构成；

(g-2)将特征输入到第二下采样模块的第一卷积层中，输出得到特征；

(g-3)设定一邻域，该邻域大小为特征宽高的一半，，，将特征输入到第二下采样模块的特征分组聚合层中，将特征分组为特征空间，，为邻域第一行第一列的内容，为邻域第一行第二列的内容，为邻域第二行第一列的内容，为邻域第二行第二列的内容，为邻域的大小，，为特征的通道数，为特征的高，为特征的宽，将、、、按通道方向进行拼接操作，将拼接结果进在通道方向上进行shuffle操作，得到特征；

(g-4)将特征输入到第二下采样模块的第二卷积层中，输出得到特征；

(g-5)钢铁缺陷检测网络的第二卷积模块依次由第一卷积特征提取块、第二卷积特征提取块、瓶颈特征提取块构成，第一卷积特征提取块由卷积核大小为3×3的卷积层构成，将特征输入到第一卷积模块的第一卷积特征提取块中，输出得到特征，第二卷积特征提取块由卷积核大小为1×1的卷积层构成，将特征输入到第一卷积模块的第二卷积特征提取块中，输出得到特征，瓶颈特征提取块依次由卷积核大小为1×1的第一卷积层、卷积核大小为3×3的第二卷积层、卷积核大小为1×1的第三卷积层构成，将特征输入到瓶颈特征提取块中，输出得到特征，将特征、特征、特征进行拼接操作，得到特征；

(g-6)钢铁缺陷检测网络的第三下采样模块由卷积核大小为1×1的第一卷积层、特征分组聚合层、卷积核大小为1×1的第二卷积层构成；

(g-7)将特征输入到第三下采样模块的第一卷积层中，输出得到特征；

(g-8)设定一邻域，该邻域大小为特征宽高的一半，，，将特征输入到第三下采样模块的特征分组聚合层中，将特征分组为特征空间，，为邻域第一行第一列的内容，为邻域第一行第二列的内容，为邻域第二行第一列的内容，为邻域第二行第二列的内容，为邻域的大小，，为特征的通道数，为特征的高，为特征的宽，将、、、按通道方向进行拼接操作，将拼接结果进在通道方向上进行shuffle操作，得到特征；

(g-9)将特征输入到第三下采样模块的第二卷积层中，输出得到特征。

进一步的，步骤(h)包括如需步骤：

(h-1)自我提示ViT模块由第一批归一化层、自我提示多头注意力、第二批归一化层、多层感知机MLP构成；

(h-2)将特征输入到自我提示ViT模块由第一批归一化层中，输出得到特征；

(h-3)自我提示多头注意力由提示编码器、提示池化模块、提示解码器、自我注意力层构成；

(h-4)将特征输入到自我提示多头注意力的提示编码器中通过公式计算得到全局激活特征空间，式中为空间激活，，为sigmoid函数，为特征的通道方向求取的平均值，为特征的通道方向求取的最大值，为通道激活，，，与均为向量矩阵，，与均为向量矩阵；

(h-5)将全局激活特征空间输入到自我提示多头注意力的提示池化模块中，通过公式计算得到特征嵌入，式中为维度映射矩阵；

(h-6)将特征嵌入输入到自我提示多头注意力的提示解码器中，通过公式计算得到动态的像素级特征，式中为聚合权重，与为互补的动态打分器权重；

(h-7)通过公式计算得到动态的像素级特征的前景掩码，式中表示将与动态的像素级特征的最大值设置为1，为大小为动态的像素级特征宽高一半的邻域矩阵，为邻域矩阵内的像素级均值，将前景掩码之外的区域作为背景掩码，通过公式计算得到前景提示，通过公式计算得到背景提示；

(h-8)将前景提示和背景提示输入到自我提示多头注意力的自我注意力层中，将特征输入到自我注意力层中的注意力机制中，分别输出得到值向量、键向量、查询向量，将前景提示输入到自我注意力层中的注意力机制中，分别输出得到值向量和键向量，将前景提示输入到自我注意力层中的注意力机制中，分别输出得到值向量和键向量，通过公式

计算得到特征，式中为转置，为权重矩阵，为维度映射矩阵，，为维度映射矩阵，，为使分母不为0的无穷小量；

(h-9)将特征依次输入到自我提示ViT模块的第二批归一化层、多层感知机MLP中，输出得到特征。

进一步的，步骤(i)包括如需步骤：

(i-1)钢铁缺陷检测网络的第四下采样模块由卷积核大小为1×1的第一卷积层、特征分组聚合层、卷积核大小为1×1的第二卷积层构成；

(i-2)将特征输入到第四下采样模块的第一卷积层中，输出得到特征；

(i-3)设定一邻域，该邻域大小为特征宽高的一半，，，将特征输入到第四下采样模块的特征分组聚合层中，将特征分组为特征空间，，为邻域第一行第一列的内容，为邻域第一行第二列的内容，为邻域第二行第一列的内容，为邻域第二行第二列的内容，为邻域的大小，，为特征的通道数，为特征的高，为特征的宽，将、、、按通道方向进行拼接操作，将拼接结果进在通道方向上进行shuffle操作，得到特征；

(i-4)将特征输入到第四下采样模块的第二卷积层中，输出得到特征；

(i-5)将特征输入到自我提示ViT模块中，将特征替代步骤(h-2)中的特征，重复执行步骤(h-2)至步骤(h-9)得到特征；

(i-6)钢铁缺陷检测网络的检测头由sigmoid函数、卷积核大小为1×1的卷积层、多层感知机MLP，将特征依次输入到检测头的sigmoid函数、卷积核大小为1×1的卷积层中，输出得到缺陷的预测位置标签，预测位置标签包括矩形框的左上角坐标、矩形框的右下角坐标、矩形框的宽，矩形框的高，该矩形框为预测框，将特征输入到检测头的多层感知机MLP中，输出得到缺陷的类别标签。

进一步的，步骤(j)包括如下步骤：

(j-1)通过公式计算得到定位损失函数，式中为真实框与预测框的交并比，为预测框和真实框的惩罚项，，为计算预测框的中心点与真实框的中心点的欧式距离，为覆盖真实框及预测框的最小包围框的对角线长度，为权重参数，为真实框的宽，为真实框的高；

(j-2)通过公式计算得到损失函数，式中和均为QFocal Loss，，，为，为，为，，，。

本发明的有益效果是：构建钢铁缺陷检测网络，通过自适应的分离图像前景背景，防止了钢铁缺陷图像的特征退化现象，实现钢铁缺陷图像的精确检测。

附图说明

图1为本发明的方法流程图；

图2为本发明的卷积模块的结构图；

图3为本发明的自我提示ViT模块的结构图；

图4为本发明的钢铁缺陷检测网络的结构图。

具体实施方式

下面结合附图1至附图4对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

在本发明的描述中，需要说明的是，本发明所描述的实施例是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如附图1所示，一种基于工业动态视觉自我提示的钢铁缺陷检测方法，包括如下步骤：

(a)收集张钢铁缺陷图像数据，得到钢铁缺陷数据集，，其中为第张钢铁缺陷图像，。

(b)将第张钢铁缺陷图像进行图像增强，得到增强后的钢铁缺陷图像，得到增强后的图像集，。

(c)对增强后的钢铁缺陷图像进行标注，得到标签文件，所有的标签文件构成标签文件集，。

(d)构建钢铁缺陷数据标签集，，将钢铁缺陷数据标签集划分为训练集、验证集、测试集。

(e)构建钢铁缺陷检测网络，如附图4所示，钢铁缺陷检测网络由第一下采样模块、第一卷积模块、第二下采样模块、第二卷积模块、第三下采样模块、自我提示ViT模块、第四下采样模块、自我提示ViT模块、检测头构成。

(f)将训练集中的增强后的钢铁缺陷图像输入到钢铁缺陷检测网络的第一下采样模块、第一卷积模块中，输出得到特征。

(g)将特征输入到钢铁缺陷检测网络的第二下采样模块、第二卷积模块、第三下采样模块中，输出得到特征。

(h)将特征输入到自我提示ViT模块中，输出得到特征。

(i)将特征输入到钢铁缺陷检测网络的第四下采样模块、自我提示ViT模块、检测头中，输出得到缺陷的预测位置标签及缺陷的类别标签。

(j)计算损失函数，使用Adam优化器通过损失函数训练钢铁缺陷检测网络，得到优化后的钢铁缺陷检测网络。

(k)将测试集中增强后的钢铁缺陷图像输入到优化后的钢铁缺陷检测网络中，输出得到缺陷的预测位置标签及缺陷的类别标签。

区别于现有技术，本发明的一种基于工业动态视觉自我提示的钢铁缺陷检测方法，对工业图片进行缺陷类别筛选、标注和数据预处理；搭建卷积模块，搭建自我提示ViT模块，搭建下采样模块，搭建检测头并将卷积模块、自我提示ViT模块、下采样模块、检测头按顺序级联并进行训练，训练结束后选择优化后的模型进行封装部署。提升了工业缺陷的检测精度，对工业缺陷检测具有应用能力。

在本发明的一个实施例中，步骤(b)中第张钢铁缺陷图像为RGB图像，通过公式计算得到第张钢铁缺陷图像中第个像素点的增强后的像素值，式中为第张钢铁缺陷图像中第个像素点的像素值，为平衡超参数，为自然常数，为第个通道的第个像素点的像素值，为第张钢铁缺陷图像中像素数，为通道数，，为R通道，2为G通道，3为B通道，增强后的钢铁缺陷图像。

在本发明的一个实施例中，优选的，取值范围为0-1。

在本发明的一个实施例中，步骤(c)包括如下步骤：

(c-1)利用矩形框标注出增强后的钢铁缺陷图像种裂纹区域和/或破损区域和/或划痕区域和/或斑点区域和/或毛刺区域，得到个标注的矩形框，该矩形框作为真实框。

(c-2)第个矩形框的左上角坐标为，第个矩形框的右下角坐标为，第个矩形框的宽度为，第个矩形框的宽度为，第个矩形框的瑕疵类别为，，，为裂纹区域的类别，为破损区域的类别，为划痕区域的类别，为斑点区域的类别，为毛刺区域的类别，标签文件。标签文件可以为XML格式的文件。

在本发明的一个实施例中，优选的，步骤(d)中将钢铁缺陷数据标签集按照6:2:2的比例划分为训练集、验证集、测试集。

在本发明的一个实施例中，步骤(f)包括如下步骤：

(f-1)钢铁缺陷检测网络的第一下采样模块由卷积核大小为1×1的第一卷积层、特征分组聚合层、卷积核大小为1×1的第二卷积层构成。

(f-2)将训练集中的增强后的钢铁缺陷图像输入到第一下采样模块的第一卷积层中，输出得到特征。

(f-3)设定一邻域，该邻域大小为特征宽高的一半，，，将特征输入到第一下采样模块的特征分组聚合层中，将特征分组为特征空间，，为邻域第一行第一列的内容，为邻域第一行第二列的内容，为邻域第二行第一列的内容，为邻域第二行第二列的内容，为邻域的大小，，为特征的通道数，为特征的高，为特征的宽，将、、、按通道方向进行拼接操作，将拼接结果进在通道方向上进行shuffle操作，得到特征。

(f-5)如附图2所示，钢铁缺陷检测网络的第一卷积模块依次由第一卷积特征提取块、第二卷积特征提取块、瓶颈特征提取块构成，第一卷积特征提取块由卷积核大小为3×3的卷积层构成，将特征输入到第一卷积模块的第一卷积特征提取块中，输出得到特征，第二卷积特征提取块由卷积核大小为1×1的卷积层构成，将特征输入到第一卷积模块的第二卷积特征提取块中，输出得到特征，瓶颈特征提取块依次由卷积核大小为1×1的第一卷积层、卷积核大小为3×3的第二卷积层、卷积核大小为1×1的第三卷积层构成，将特征输入到瓶颈特征提取块中，输出得到特征，将特征、特征、特征进行拼接操作，得到特征。

在本发明的一个实施例中，步骤(g)包括如下步骤：

(g-1)钢铁缺陷检测网络的第二下采样模块由卷积核大小为1×1的第一卷积层、特征分组聚合层、卷积核大小为1×1的第二卷积层构成。

(g-2)将特征输入到第二下采样模块的第一卷积层中，输出得到特征。

(g-3)设定一邻域，该邻域大小为特征宽高的一半，，，将特征输入到第二下采样模块的特征分组聚合层中，将特征分组为特征空间，，为邻域第一行第一列的内容，为邻域第一行第二列的内容，为邻域第二行第一列的内容，为邻域第二行第二列的内容，为邻域的大小，，为特征的通道数，为特征的高，为特征的宽，将、、、按通道方向进行拼接操作，将拼接结果进在通道方向上进行shuffle操作，得到特征。

(g-4)将特征输入到第二下采样模块的第二卷积层中，输出得到特征。

(g-5)钢铁缺陷检测网络的第二卷积模块依次由第一卷积特征提取块、第二卷积特征提取块、瓶颈特征提取块构成，第一卷积特征提取块由卷积核大小为3×3的卷积层构成，将特征输入到第一卷积模块的第一卷积特征提取块中，输出得到特征，第二卷积特征提取块由卷积核大小为1×1的卷积层构成，将特征输入到第一卷积模块的第二卷积特征提取块中，输出得到特征，瓶颈特征提取块依次由卷积核大小为1×1的第一卷积层、卷积核大小为3×3的第二卷积层、卷积核大小为1×1的第三卷积层构成，将特征输入到瓶颈特征提取块中，输出得到特征，将特征、特征、特征进行拼接操作，得到特征。

(g-6)钢铁缺陷检测网络的第三下采样模块由卷积核大小为1×1的第一卷积层、特征分组聚合层、卷积核大小为1×1的第二卷积层构成。

(g-7)将特征输入到第三下采样模块的第一卷积层中，输出得到特征。

(g-8)设定一邻域，该邻域大小为特征宽高的一半，，，将特征输入到第三下采样模块的特征分组聚合层中，将特征分组为特征空间，，为邻域第一行第一列的内容，为邻域第一行第二列的内容，为邻域第二行第一列的内容，为邻域第二行第二列的内容，为邻域的大小，，为特征的通道数，为特征的高，为特征的宽，将、、、按通道方向进行拼接操作，将拼接结果进在通道方向上进行shuffle操作，得到特征。

在本发明的一个实施例中，步骤(h)包括如需步骤：

(h-1)如附图3所示，自我提示ViT模块由第一批归一化层、自我提示多头注意力、第二批归一化层、多层感知机MLP构成。

(h-2)将特征输入到自我提示ViT模块由第一批归一化层中，输出得到特征。

(h-3)自我提示多头注意力由提示编码器、提示池化模块、提示解码器、自我注意力层构成。

(h-4)将特征输入到自我提示多头注意力的提示编码器中，提示编码器对不同层深的特征空间通道进行激活，优先筛选前景低秩的区域特征，具体的通过公式计算得到全局激活特征空间，式中为空间激活，，为sigmoid函数，为特征的通道方向求取的平均值，为特征的通道方向求取的最大值，为通道激活，，，与均为向量矩阵，，与均为向量矩阵。

(h-5)将全局激活特征空间输入到自我提示多头注意力的提示池化模块中，提示池化模块将全局激活特征空间映射到不同层级的特征维度，具体的，通过公式计算得到特征嵌入，式中为维度映射矩阵。

(h-6)将特征嵌入输入到自我提示多头注意力的提示解码器中，通过公式计算得到动态的像素级特征，式中为聚合权重，与为互补的动态打分器权重。

(h-7)通过公式计算得到动态的像素级特征的前景掩码，式中表示将与动态的像素级特征的最大值设置为1，为大小为动态的像素级特征宽高一半的邻域矩阵，为邻域矩阵内的像素级均值，将前景掩码之外的区域作为背景掩码，具体来说，本发明设计不同大小的邻域对内部的特征空间进行像素级均值，通过考虑选取top-k个邻域内部像素值大于均值的像素，并将该像素设置为1作为前景掩码，反之则作为背景掩码。通过公式计算得到前景提示，通过公式计算得到背景提示。

计算得到特征，式中为转置，为权重矩阵，为维度映射矩阵，，为维度映射矩阵，，为使分母不为0的无穷小量。

在本发明的一个实施例中，步骤(i)包括如需步骤：

(i-1)钢铁缺陷检测网络的第四下采样模块由卷积核大小为1×1的第一卷积层、特征分组聚合层、卷积核大小为1×1的第二卷积层构成。

(i-2)将特征输入到第四下采样模块的第一卷积层中，输出得到特征。

(i-3)设定一邻域，该邻域大小为特征宽高的一半，，，将特征输入到第四下采样模块的特征分组聚合层中，将特征分组为特征空间，，为邻域第一行第一列的内容，为邻域第一行第二列的内容，为邻域第二行第一列的内容，为邻域第二行第二列的内容，为邻域的大小，，为特征的通道数，为特征的高，为特征的宽，将、、、按通道方向进行拼接操作，将拼接结果进在通道方向上进行shuffle操作，得到特征。

(i-5)将特征输入到自我提示ViT模块中，将特征替代步骤(h-2)中的特征，重复执行步骤(h-2)至步骤(h-9)得到特征。

在本发明的一个实施例中，步骤(j)包括如下步骤：

(j-1)通过公式计算得到定位损失函数，式中为真实框与预测框的交并比，为预测框和真实框的惩罚项，，为计算预测框的中心点与真实框的中心点的欧式距离，为覆盖真实框及预测框的最小包围框的对角线长度，为权重参数，为真实框的宽，为真实框的高，为预测框的宽，为预测框的高。

(j-2)通过公式计算得到损失函数，式中和均为QFocal Loss，QFocal Loss为现有技术，具体详见（https://blog.csdn.net/qq_46497842/article/details/121256801），这里不再赘述，，，为，为，为，，，。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A 和/或B，可以表示：单独存在A，同时存在A 和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于工业动态视觉自我提示的钢铁缺陷检测方法，其特征在于，包括如下步骤：

(h)将特征输入到自我提示ViT模块中，输出得到特征；

(k)将测试集中增强后的钢铁缺陷图像输入到优化后的钢铁缺陷检测网络中，输出得到缺陷的预测位置标签及类别标签；

步骤(h)包括如下步骤：

(h-4)将特征输入到自我提示多头注意力的提示编码器中，通过公式计算得到全局激活特征空间，式中为空间激活，，为sigmoid函数，为特征的通道方向求取的平均值，为特征的通道方向求取的最大值，为通道激活，，，与均为向量矩阵，，与均为向量矩阵；

2.根据权利要求1所述的基于工业动态视觉自我提示的钢铁缺陷检测方法，其特征在于：步骤(b)中第张钢铁缺陷图像为RGB图像，通过公式计算得到第张钢铁缺陷图像中第个像素点的增强后的像素值，式中为第张钢铁缺陷图像中第个像素点的像素值，为平衡超参数，为自然常数，为第个通道的第个像素点的像素值，为第张钢铁缺陷图像中像素数，为通道数，，为R通道，2为G通道，3为B通道，增强后的钢铁缺陷图像。

3.根据权利要求2所述的基于工业动态视觉自我提示的钢铁缺陷检测方法，其特征在于：取值范围为0-1。

4.根据权利要求1所述的基于工业动态视觉自我提示的钢铁缺陷检测方法，其特征在于，步骤(c)包括如下步骤：

(c-2)第个矩形框的左上角坐标为，第个矩形框的右下角坐标为，第个矩形框的的宽度为，第个矩形框的的宽度为，第个矩形框的瑕疵类别为，，，为裂纹区域的类别，为破损区域的类别，为划痕区域的类别，为斑点区域的类别，为毛刺区域的类别，标签文件。

5.根据权利要求1所述的基于工业动态视觉自我提示的钢铁缺陷检测方法，其特征在于：步骤(d)中将钢铁缺陷数据标签集按照6:2:2的比例划分为训练集、验证集、测试集。

6.根据权利要求1所述的基于工业动态视觉自我提示的钢铁缺陷检测方法，其特征在于，步骤(f)包括如下步骤：

7.根据权利要求1所述的基于工业动态视觉自我提示的钢铁缺陷检测方法，其特征在于，步骤(g)包括如下步骤：

8.根据权利要求1所述的基于工业动态视觉自我提示的钢铁缺陷检测方法，其特征在于，步骤(i)包括如需步骤：

9.根据权利要求8所述的基于工业动态视觉自我提示的钢铁缺陷检测方法，其特征在于，步骤(j)包括如下步骤：