CN116363124B

CN116363124B - 一种基于深度学习的钢材表面缺陷检测方法

Info

Publication number: CN116363124B
Application number: CN202310606853.9A
Authority: CN
Inventors: 张磊; 黄忠虎
Original assignee: Nanjing Jiezhiyi Technology Co ltd
Current assignee: Nanjing Jiezhiyi Technology Co ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-08-01
Anticipated expiration: 2043-05-26
Also published as: CN116363124A

Abstract

本发明提供了一种基于深度学习的钢材表面缺陷检测方法，包括：构建初始深度学习网络模型；所述初始深度学习网络模型为YOLOv4模型；所述初始深度学习网络模型的Backbone网络的输入为预处理图像，输出为特征图；所述初始深度学习网络模型的Neck网络的输入为所述特征图，输出为自适应特征融合图；获取训练样本；所述训练样本包括钢材表面的缺陷数据和缺陷标签；基于所述训练样本，训练所述初始深度学习网络模型，得到训练好的深度学习网络模型；将钢材表面图片输入所述深度学习网络模型，模型输出预测的缺陷位置、缺陷类型和置信度；以满足工业生产中对钢材表面缺陷检测的需求。

Description

一种基于深度学习的钢材表面缺陷检测方法

技术领域

本发明涉及表面缺陷检测技术领域，具体而言，涉及一种基于深度学习的钢材表面缺陷检测方法。

背景技术

钢材在我们生活中扮演着非常重要的角色，许多行业都离不开它。钢材的生产流程比较繁琐。复杂的生产模式难免会生产出表面有缺陷的产品。钢材表面有缺陷不仅不美观而且其内部结构可能发生变化，影响其机械性能，降低腐蚀度。传统表面检测方法存在准确率低、实时性差和受主观影响较大等缺点。因此，针对钢材表面的缺陷检测工作显得格外重要。

鉴于此，本发明提出了一种基于深度学习的钢材表面缺陷检测方法，以满足工业生产中对钢材表面缺陷检测的需求。

发明内容

本发明的目的在于提供一种基于深度学习的钢材表面缺陷检测方法，包括：构建初始深度学习网络模型；所述初始深度学习网络模型为YOLOv4模型；所述初始深度学习网络模型的Backbone网络的输入为输入图像，输出为特征图；所述特征图包括第一特征图、第二特征图、第三特征图和第四特征图；所述初始深度学习网络模型的Neck网络的输入为所述特征图，输出为自适应特征融合图；所述自适应特征融合图包括第一自适应特征融合图、第二自适应特征融合图和第三自适应特征融合图；所述第一自适应特征融合图、所述第二自适应特征融合图和所述第三自适应特征融合图的尺度不同；获取训练样本；所述训练样本包括钢材表面的缺陷数据和缺陷标签；基于所述训练样本，训练所述初始深度学习网络模型，得到训练好的深度学习网络模型；将钢材表面图片输入所述深度学习网络模型，模型输出预测的缺陷位置、缺陷类型和置信度。

进一步的，所述初始深度学习网络模型的Backbone网络为多层特征提取结构；所述多层特征提取结构包括第一层、第二层、第三层、第四层和第五层；所述第一层的输入为预处理图像，输出为初始特征图；所述第二层的输入为所述初始特征图，输出为所述第一特征图；所述第三层的输入为所述第一特征图，输出为所述第二特征图；所述第四层的输入为所述第二特征图，输出为所述第三特征图；所述第五层的输入为所述第三特征图，输出为所述第四特征图。

进一步的，所述多层特征提取结构和所述Neck网络嵌入有视觉注意力SkNet，所述视觉注意力SkNet的嵌入位置为所述多层特征提取结构的第二层、第三层、第四层和第五层的输出端和所述Neck网络的三个输出端。

进一步的，所述初始深度学习网络模型的Neck网络包括SimSPPF网络和PANET网络；所述SkNet网络的输入分别为所述第一特征图、所述第二特征图、所述第三特征图和所述第四特征图，输出为自适应特征图；所述自适应特征图包括第一自适应特征图、第二自适应特征图、第三自适应特征图和第四自适应特征图；所述SimSPPF网络的输入为经过3次卷积的所述第四自适应特征图，输出为特征表示图；所述PANET网络的输入为所述第一自适应特征图、所述第二自适应特征图、所述第三自适应特征图和所述特征表示图，输出为所述特征融合图；所述特征融合图通过SkNet网络，输出所述自适应特征融合图。

进一步的，所述SkNet网络后级联空间注意力模块；所述空间注意力模块的第一层采用平均池化操作；所述空间注意力模块的第二层采用最大值池化操作；所述空间注意力模块的第三层采用拼接操作；所述拼接操作为将第一层与第二层按照通道维度拼接；所述空间注意力模块的第四层采用7*7的卷积，padding为3；所述空间注意力模块的第五层的激活函数采用Sigmoid。

进一步的，所述SimSPPF网络包括第一层、第二层、第三层、第四层、第五层、第六层和第七层；所述SimSPPF网络的第一层采用1*1卷积操作、归一化和Relu激活函数；所述SimSPPF网络的第二层、第三和第四层采用5*5最大池化层操作，padding为2；所述SimSPPF网络的第五层采用1*1池化、1*1卷积和上采样操作；所述SimSPPF网络的第六层采用拼接操作，将第一层到第五层的输出按照通道维度拼接；所述SimSPPF网络的第七层采用1*1卷积操作、归一化和Relu激活函数。

进一步的，所述PANET网络用于对所述自适应特征图和所述特征表示图进行采样操作和融合，包括：对所述特征表示图依次进行3次卷积和2倍上采样操作，并将上采样后的特征表示图与所述第三自适应特征图进行融合后卷积5次，得到第三初始特征融合图；对所述特征表示图依次进行3次卷积和4倍上采样操作以及对所述第三初始特征融合图进行2倍上采样操作，将上采样后的特征表示图和第三初始特征融合图与所述第二自适应特征图进行融合后卷积5次，得到第二初始特征融合图；对所述特征表示图依次进行3次卷积和8倍上采样操作、对所述第二初始特征融合图进行2倍上采样操作以及对所述第三初始特征融合图进行4倍上采样操作，将进行上采样操作后的特征表示图、第二初始特征融合图和第三初始特征融合图与所述第一自适应特征图进行融合后卷积5次，得到第一初始特征融合图；对所述第一初始特征融合图进行2倍下采样操作后卷积5次，得到所述第一特征融合图；对所述第一特征融合图进行2倍下采样操作，并将下采样后的第一特征融合图与所述第三初始特征融合图进行融合后卷积5次，得到所述第二特征融合图；对所述第二特征融合图进行2倍下采样操作，并将下采样后的第二特征融合图与所述特征表示图进行融合后卷积5次，得到所述第三特征融合图。

进一步的，所述训练样本为图像，所述缺陷标签至少包括真实缺陷框；所述真实缺陷框用于示意钢材表面的缺陷位置和范围；所述基于所述训练样本，训练所述初始深度学习网络模型，得到训练好的深度学习网络模型，包括：将所述真实缺陷框用k-means++算法聚类，聚类结果作为YOLOv4的锚框；将训练集中的训练样本输入所述初始深度学习网络模型进行模型训练；每轮训练完成后，利用验证集中的样本通过损失函数计算所述初始深度学习网络模型损失值；利用所述损失值执行梯度下降操作更新所述深度学习网络模型的参数；重复模型训练和模型验证过程，直至所述损失值不再下降或趋于动态平衡，训练完成，得到所述深度学习网络模型。

进一步的，所述损失函数的公式为：

其中，代表总损失值，/>代表Box位置损失，/>代表类别损失，/>代表置信度损失，/>代表真实缺陷框与预测缺陷框的交并比，/>代表真实缺陷框，/>代表预测缺陷框，/>代表真实缺陷框与预测缺陷框之间的欧式距离，/>代表包含真实缺陷框与预测缺陷框最小矩形的对角线长度，/>代表衡量预测缺陷框与真实缺陷框的横纵比，/>代表权重参数。

进一步的，还包括将所述缺陷位置、缺陷类型和置信度进行可视化展示。

本发明实施例的技术方案至少具有如下优点和有益效果：

本发明采取深度学习方法，直接实现从检测图片输入到预测结果输出的端到端网络建立，解决了传统方法检测精度低、实时性差等问题。

本发明采用了残差网络结构进行图像特征的提取，兼顾了网络复杂度和特征有效性的平衡。

本发明采用k-means++聚类算法对标签真实缺陷框进行聚类，有效提高了模型训练时的收敛速度。

本发明采用改进视觉注意力SkNet网络，有效提高了深度学习网络模型对缺陷的关注度，提高了深度学习网络模型的预测准确度。

本发明采用改进SimSPPF网络，能够让深度学习网络模型更加关注全局信息，提高困难样本的检测精度。

本发明采用改进的路径聚合网络，能够让深度学习网络模型更加关注不同尺度的缺陷特征，提高模型对小目标缺陷的检测精度。

附图说明

图1为本发明一些实施例提供的一种基于深度学习的钢材表面缺陷检测方法的示例性流程图；

图2为本发明一些实施例提供的初始深度学习网络模型的Backbone网络的示例性示意图；

图3为本发明一些实施例提供的初始深度学习网络模型的SkNet网络的示例性示意图；

图4为本发明一些实施例提供的初始深度学习网络模型的SimSPPF网络的示例性示意图；

图5为本发明一些实施例提供的初始深度学习网络模型的PANET网络的示例性示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

图1为本发明一些实施例提供的一种基于深度学习的钢材表面缺陷检测方法的示例性流程图。如图1所示，流程100包括以下内容：

步骤110，构建初始深度学习网络模型；所述初始深度学习网络模型为YOLOv4模型。

该初始深度学习网络模型是基于YOLOv4搭建的，其输出三种不同尺度的特征图，以用于提取不同大小缺陷的特征信息。

步骤110-1，所述初始深度学习网络模型的Backbone网络的输入为预处理图像，输出为特征图；所述特征图包括第一特征图、第二特征图、第三特征图和第四特征图。

预处理图像可以是指对输入图像进行处理后得到的图像。例如，输入图像可以为3*416*416的图像数据。预处理可以是指对输入图像进行卷积，方便后续处理。例如，可以通过卷积层对输入图像进行预处理，通过变换通道数，将输入的3*416*416大小的图像通过3*3卷积核，步长为1，BatchNorm2d和Mish激活函数变换为32*416*416大小的特征图。其中，第一层的卷积核的尺寸K=3，步长S=1，输入通道数in channel=3，输出通道数out channel=32。

输入图像可以是指钢材表面的图像。例如，输入图像可以为尺寸大小为3*416*416的钢材图像。特征图可以是指对所述输入图像进行一次或多次处理后得到的包含与钢材相关的特征的图。其中，第一特征图的尺寸大小为128*104*104；第二特征图的尺寸大小为256*52*52；第三特征图的尺寸大小为512*26*26；第四特征图的尺寸大小为1024*13*13。

步骤110-2，所述初始深度学习网络模型的Neck网络的输入为所述特征图，输出为自适应特征融合图；所述自适应特征融合图包括第一自适应特征融合图、第二自适应特征融合图和第三自适应特征融合图；所述第一自适应特征融合图、所述第二自适应特征融合图和所述第三自适应特征融合图的尺度不同。

本申请中的Neck网络主要采用了改进的SimSPPF网络、改进的FPN+PAN。改进后的SimSPPF网络使用4种不同尺度的最大池化，将各尺度池化后的特征图进行拼接操作。改进后的FPN+PAN是将不同尺度的特征融合，使得模型对缺陷信息更加敏感。

在一些实施例中，还包括在初始深度学习网络模型上嵌入视觉注意力机制，改进空间金字塔池化，改进路径聚合网络。其中，改进SkNet专注于模型提取特征图通道和空间上缺陷特征，让模型能够更快的锁定缺陷。原始SPP网络速度较慢，并且对于全局信息把控的不够好。改进SimSPPF更专注于让模型提升全局感受野，提高小目标缺陷的检测精度。原始路径聚合网络只是针对于三个尺度的特征图进行融合，小目标缺陷的检测性能较差，改进路径聚合网络增加了新的特征层，提高模型对小目标缺陷的检测性能的同时不减少对大目标缺陷的检测性能。关于在初始深度学习网络模型上嵌入视觉注意力机制，改进空间金字塔池化，改进路径聚合网络的更多内容，参见图2、图3图4和图5，及其相关描述。

步骤120，获取训练样本；所述训练样本包括钢材表面的缺陷数据和缺陷标签。

缺陷数据可以是指与钢材表面的缺陷相关的数据。在一些实施例中，所述训练样本为图像，所述缺陷标签至少包括真实缺陷框；所述真实缺陷框用于示意钢材表面的缺陷位置和范围。

步骤130，基于所述训练样本，训练所述初始深度学习网络模型，得到训练好的深度学习网络模型。

将训练数据划分为训练集、验证集和测试集。图像数据可以是公开数据集或者是自己采集的缺陷图片，然后将这些图片与对应的标签按照8：2的原则划分为训练验证集和测试集，再将训练验证集按照8：2的原则划分为训练集和验证集。图片的数量越多，模型训练的效果就会更好。例如，由东北大学制作的钢表面缺陷数据集NEU-DET，包含6个缺陷类别，每类300张图片，训练、验证和测试分别为1152、288、360。

在一些实施例中，得到训练好的深度学习网络模型，包括：

将所述真实缺陷框用k-means++算法聚类，聚类结果作为YOLOv4的锚框。在一些实施例中，由于网络有三个检测头输出，根据YOLOv4的原理，我们需要聚类9个先验框，本发明基于东北大学数据做了仿真，输入图像大小为416*416，具体的9个框数据如下：39,79、47,160、99,103、352,56、64,368、135,189、266,141、149,345、343,399。聚类的框与真实框的平均IOU为68%。训练参数设置如下：

学习率：初始1e-2,最小设置为1e-4,采用余弦退火学习率衰减策略；

Epoch：总共1000个epoch，分为50个冻结训练和950个解冻训练；

初始化参数：使用在VOC2007预训练模型权重；

输入图像大小：416*416；

Batchsize:冻结训练设置为8，解冻训练设置为16；

动量：0.937;

权值衰减：5e-4;

优化器：SGD；

Mosaic数据增强:1。

将训练集中的训练样本输入所述初始深度学习网络模型进行模型训练。

每轮训练完成后，利用验证集中的样本通过损失函数计算所述初始深度学习网络模型损失值。

利用所述损失值执行梯度下降操作更新所述深度学习网络模型的参数。

重复模型训练和模型验证过程，直至所述损失值不再下降或趋于动态平衡，训练完成，得到所述深度学习网络模型。

训练过程中，当一个epoch训练结束之后，通过验证集数据的损失值验证模型的性能。损失函数由三个部分组成：Box位置损失()、类别损失(/>)和置信度损失(/>)。在一些实施例中，所述损失函数的公式为：

其中，代表总损失值，/>代表Box位置损失，/>代表类别损失，/>代表置信度损失，/>代表真实缺陷框与预测缺陷框的交并比，/>代表真实缺陷框，/>代表预测缺陷框，/>代表真实缺陷框与预测缺陷框之间的欧式距离，/>代表包含真实缺陷框与预测缺陷框最小矩形的对角线长度，/>代表衡量预测缺陷框与真实缺陷框的横纵比，/>代表权重参数。/>并且/>。

在一些实施例中，还包括当深度学习网络模型训练完成后，将测试集数据和对应标签输入训练好的深度学习网络模型，将深度学习网络模型预测结果与真实标签相比，评价深度学习网络模型最终检测性能。深度学习网络模型训练完成后，我们选择验证集效果最好的深度学习模型作为最终深度学习网络模型，然后我们将测试集数据图片数据打包到一个文件夹中，模型遍历文件中的每一张图片并对它们分别进行预测。由于模型会对特征图的每个小方格都会进行预测，所以会产生许多的预测框，我们需要通过非极大值抑制的方法滤除那些置信度较低的预测框，阈值我们设置为0.5。预测的结果与真实结果进行对比，通过以下的评价指标来分析模型的检测性能：

其中，标为正样本被正确识别为正样本的个数，/>表示负样本被认为是正样本的个数，/>表示正样本被认为负样本的个数。/>为某一类的预测准确率，他表示预测正确的样本数量占所有预测为正的样本数量比例，该值越大说明误检率越低。表示某一类的召回率，他表示预测正确的正样本数量占总的正样本数量的比例，该值越大说明漏检率越低。/>表示某一类的预测平均准确率，以/>为横轴，/>为纵轴围城的面积，该值越大表示该类的预测性能越好。/>表示所有类的平均准确路，该值体现了模型的整体性能，数值越大，模型性能越好。

步骤140，将钢材表面图片输入所述深度学习网络模型，模型输出预测的缺陷位置、缺陷类型和置信度。

钢材表面图像是指需要进行缺陷预测的钢材表面的图像。在一些实施例中，钢材表面的图像可以通过生产线的监控设备或其他图像获取设备得到。缺陷位置可以是指钢材表面所存在的缺陷的位置。缺陷类型可以是指钢材表面的缺陷的类型。置信度可以是指模型判断该缺陷的缺陷类别正确的概率。

在一些实施例中，还包括将所述缺陷位置、缺陷类型和置信度进行可视化展示。深度学习网络模型预测的结果包括缺陷的类别，缺陷框在原始图中的位置以及缺陷类别的置信度。分别将这些信息映射到原始输入图像中，使预测结果更加直观。

图2为本发明一些实施例提供的初始深度学习网络模型的Backbone网络的示例性示意图。如图2所示，所述初始深度学习网络模型的Backbone网络为多层特征提取结构；所述多层特征提取结构包括第一层、第二层、第三层、第四层和第五层。

所述第一层的输入为预处理图像，输出为初始特征图。

初始特征图可以是指对预处理图像进行处理后得到的特征图。其中，特征与钢材表面的缺陷相关。例如，第一层可以将前一层输出的32*416*416大小的特征图变换成64*208*208，其内部用虚线框出的部分是残差模块，xi代表使用i次残差模块，在第一层中i=1。例如，第一层中第一个卷积层的卷积核的尺寸K=3，步长S=2，输入通道数in channel=a=32，输出通道数out channel=b=64，使用BatchNorm2d和Mish激活函数；第二个卷积层中左边的卷积层的步长S=1，输入通道数in channel=c=64，输出通道数out channel=d=64，使用BatchNorm2d和Mish激活函数；第二个卷积层中右边的卷积层依次为：步长S=1，输入通道数in channel=e=64，输出通道数out channel=f=64，使用BatchNorm2d和Mish激活函数；步长S=1，输入通道数in channel=g=64，输出通道数out channel=h=64，使用BatchNorm2d和Mish激活函数；步长S=3，输入通道数in channel=h=32，输出通道数out channel=j=64，使用BatchNorm2d和Mish激活函数；步长S=1，输入通道数等于输出通道数in channel=outchannel=k=64，使用BatchNorm2d和Mish激活函数；第一层的最后一个卷积层的步长S=1，输入通道数in channel=l=128，输出通道数out channel=m=64，使用BatchNorm2d和Mish激活函数。其中，(o,p,q)i为(208,208,64)/>64。第二层的输出记为out0。

第二层-第五层其结构与第一层相同，差别就体现在残差模块的数量上，第一层采用了1个残差模块连接，第二层采用了2个残差模块串联，第三层和第四层采用了8个残差模块串联，第五层使用了4个残差模块串联。它们的作用是降低输入特征图的大小方便提取更多不同尺度的缺陷特征，每层结束后分别连接一个输出，out1的特征图大小为128*104*104，out2的特征图大小为256*52*52，out3的特征图大小为512*26*26，out4的特征图大小为1024*13*13。具体地：

所述第二层的输入为所述初始特征图，输出为所述第一特征图。在第二层中，a=64，b=128，c=128，d=64，e=128，f=64，g=64，h=64，j=64，k=64，l=128，m=128，i=2，(o,p,q)i为(104,104,128)/>2。第二层的输出记为out1。

所述第三层的输入为所述第一特征图，输出为所述第二特征图。在第三层中，a=128，b=256，c=256，d=128，e=256，f=128，g=128，h=128，j=128，k=128，l=256，m=256，i=8，(o,p,q)i为(52,52,256)/>8。第三层的输出记为out2。

所述第四层的输入为所述第二特征图，输出为所述第三特征图。在第四层中，a=256，b=512，c=512，d=256，e=512，f=256，g=256，h=256，j=256，k=256，l=512，m=512，i=8，(o,p,q)i为(26,26,512)/>8。第四层的输出记为out3。

所述第五层的输入为所述第三特征图，输出为所述第四特征图。在第五层中，a=512，b=1024，c=1024，d=512，e=1024，f=512，g=512，h=512，j=512，k=512，l=1024，m=1024，i=4，(o,p,q)i为(13,13,1024)/>4。第五层的输出记为out4。

在一些实施例中，所述多层特征提取结构和所述Neck网络嵌入有视觉注意力SkNet，所述视觉注意力SkNet的嵌入位置为所述多层特征提取结构的第二层、第三层、第四层和第五层的输出端和以及所述Neck网络的三个输出端。

在一些实施例中，所述初始深度学习网络模型的Neck网络包括SimSPPF网络和PANET网络。关于SkNet网络、SimSPPF网络和PANET网络的更多内容，参见图3、图4和图5，及其相关描述。

图3为本发明一些实施例提供的初始深度学习网络模型的SkNet网络的示例性示意图。如图3所示，所述SkNet网络的输入分别为所述第一特征图、所述第二特征图和所述第三特征图，输出为自适应特征图；所述自适应特征图包括第一自适应特征图、第二自适应特征图和第三自适应特征图和第四自适应特征图。

在一些实施例中，所述SkNet网络后级联空间注意力模块；

所述空间注意力模块的第一层采用平均池化操作；

所述空间注意力模块的第二层采用最大值池化操作；

所述空间注意力模块的第三层采用拼接操作；所述拼接操作为将第一层与第二层按照通道维度拼接；

所述空间注意力模块的第四层采用7*7的卷积，边界填充padding为3；

所述空间注意力模块的第五层的激活函数采用Sigmoid。

例如，SkNet接受多层特征提取结构输出的特征图，其第一层结构将输入的B*C*H*W特征图分别使用3*3卷积核，S=1，P=1，G=32，BatchNorm2d,Rule和5*5卷积核，S=1，P=2，G=32，BatchNorm2d,Rule做Split操作，将他们得到的结果在通道维度相加得到融合后的B*C*H*W的特征图，再将其输入全局平均池化层和FC层得到一个B*d维矩阵（d=max(int(in_channel/16),32)），将该向量输入FCs层，FCs层包含两个输入d维输出C维的线性层，得到两个B*1*C维矩阵，将这两个矩阵按照第一维度拼接，得到B*2*C维矩阵，接着做Softmax得到B*2*C维矩阵，再将这个矩阵扩展成B*2*C*1*1与diyicen给输出结果分别相乘得到对应的Select结果，Select结果就是原始SkNet输出。

接下来，将原始SkNet输出分别做最大值池化和平均池化得到的两个结果按照第一维度拼接，接着做7*7卷积核,S=1，P=3，in channel=2，out channel=1，BatchNorm2d,Relu层卷积，得到结果送入Sigmoid函数得到改进SkNet的输出，输出矩阵维度与输入矩阵维度一致。

图4为本发明一些实施例提供的初始深度学习网络模型的SimSPPF网络的示例性示意图。如图4所示，所述SimSPPF网络的输入为经过3次卷积的第四自适应特征图，输出为特征表示图。

在一些实施例中，所述SimSPPF网络包括第一层、第二层、第三层、第四层、第五层、第六层和第七层；

所述SimSPPF网络的第一层采用1*1卷积操作、归一化和Relu激活函数；

所述SimSPPF网络的第二层、第三和第四层采用5*5最大池化层操作，padding为2；

所述SimSPPF网络的第五层采用1*1池化、1*1卷积和上采样操作；

所述SimSPPF网络的第六层采用拼接操作，将第一层到第五层的输出按照通道维度拼接；

所述SimSPPF网络的第七层采用1*1卷积操作、归一化和Relu激活函数。

例如，多层特征提取结构输出out4经过三次卷积降维成512*13*13特征图。

改进SimSPPF网络接受该特征图输入，一方面输入特征图经过1*1卷积核，S=1降维获得一个输出。

然后将降维的特征图依次进入三次最大值池化层产生三个输出。

另一方面输入特征图经过自适应平均池化层和1*1卷积核，S=1降维，再经双线性插值获得一个输出。

将这两部分的五个输出按维度拼获得最终改进SimSPPF的输出。

图5为本发明一些实施例提供的初始深度学习网络模型的PANET网络的示例性示意图。如图5所示，所述PANET网络的输入为所述第一自适应特征图、所述第二自适应特征图、所述第三自适应特征图和所述特征表示图，输出为所述特征融合图。

在一些实施例中，所述PANET网络用于对所述自适应特征图和所述特征表示图进行采样操作和融合，包括：

对所述特征表示图依次进行3次卷积和2倍上采样操作，并将上采样后的特征表示图与所述第三自适应特征图进行融合后卷积5次，得到第三初始特征融合图；对所述特征表示图依次进行3次卷积和4倍上采样操作以及对所述第三初始特征融合图进行2倍上采样操作，将上采样后的特征表示图和第三初始特征融合图与所述第二自适应特征图进行融合后卷积5次，得到第二初始特征融合图；对所述特征表示图依次进行3次卷积和8倍上采样操作、对所述第二初始特征融合图进行2倍上采样操作以及对所述第三初始特征融合图进行4倍上采样操作，将进行上采样操作后的特征表示图、第二初始特征融合图和第三初始特征融合图与所述第一自适应特征图进行融合后卷积5次，得到第一初始特征融合图；对所述第一初始特征融合图进行2倍下采样操作后卷积5次，得到所述第一特征融合图；对所述第一特征融合图进行2倍下采样操作，并将下采样后的第一特征融合图与所述第三初始特征融合图进行融合后卷积5次，得到所述第二特征融合图；对所述第二特征融合图进行2倍下采样操作，并将下采样后的第二特征融合图与所述特征表示图进行融合后卷积5次，得到所述第三特征融合图。在一些实施例中，还包括对第一自适应特征图、第二自适应特征图和第三自适应特征图进行卷积后再输入PANET网络。

本申请中的一些实施例通过改进后的PANET网络，增强了模型对于不同大小缺陷特征信息的提取能力，同时也增加了模型对于整体特征信息的把控。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的钢材表面缺陷检测方法，其特征在于，包括：

构建初始深度学习网络模型；所述初始深度学习网络模型为YOLOv4模型；

所述初始深度学习网络模型的Backbone网络的输入为预处理图像，输出为特征图；所述特征图包括第一特征图、第二特征图、第三特征图和第四特征图；

所述初始深度学习网络模型的Neck网络的输入为所述特征图，输出为自适应特征融合图；所述自适应特征融合图包括第一自适应特征融合图、第二自适应特征融合图和第三自适应特征融合图；所述第一自适应特征融合图、所述第二自适应特征融合图和所述第三自适应特征融合图的尺度不同；

获取训练样本；所述训练样本包括钢材表面的缺陷数据和缺陷标签；

基于所述训练样本，训练所述初始深度学习网络模型，得到训练好的深度学习网络模型；

将钢材表面图片输入所述深度学习网络模型，模型输出预测的缺陷位置、缺陷类型和置信度；

所述初始深度学习网络模型的Backbone网络为多层特征提取结构；所述多层特征提取结构包括第一层、第二层、第三层、第四层和第五层；

所述第一层的输入为预处理图像，输出为初始特征图；

所述第二层的输入为所述初始特征图，输出为所述第一特征图；

所述第三层的输入为所述第一特征图，输出为所述第二特征图；

所述第四层的输入为所述第二特征图，输出为所述第三特征图；

所述第五层的输入为所述第三特征图，输出为所述第四特征图；

所述多层特征提取结构和所述Neck网络嵌入有视觉注意力SkNet，所述视觉注意力SkNet的嵌入位置为所述多层特征提取结构的第二层、第三层、第四层和第五层的输出端以及所述Neck网络的三个输出端；

所述初始深度学习网络模型的Neck网络包括SimSPPF网络和PANET网络；

所述SkNet网络的输入分别为所述第一特征图、所述第二特征图、所述第三特征图和所述第四特征图，输出为自适应特征图；所述自适应特征图包括第一自适应特征图、第二自适应特征图、第三自适应特征图和第四自适应特征图；

所述SimSPPF网络的输入为经过3次卷积的所述第四自适应特征图，输出为特征表示图；

所述PANET网络的输入为所述第一自适应特征图、所述第二自适应特征图、所述第三自适应特征图和所述特征表示图，输出为特征融合图；

所述特征融合图通过SkNet网络，输出所述自适应特征融合图；

所述SkNet网络后级联空间注意力模块；

所述空间注意力模块的第一层采用平均池化操作；

所述空间注意力模块的第二层采用最大值池化操作；

所述空间注意力模块的第四层采用7*7的卷积，padding为3；

所述空间注意力模块的第五层的激活函数采用Sigmoid；

所述SimSPPF网络包括第一层、第二层、第三层、第四层、第五层、第六层和第七层；

所述SimSPPF网络的第五层采用1*1池化、1*1卷积和上采样操作；

所述SimSPPF网络的第七层采用1*1卷积操作、归一化和Relu激活函数；

所述PANET网络用于对所述自适应特征图和所述特征表示图进行采样操作和融合，包括：

对所述特征表示图依次进行3次卷积和2倍上采样操作，并将上采样后的特征表示图与所述第三自适应特征图进行融合后卷积5次，得到第三初始特征融合图；

对所述特征表示图依次进行3次卷积和4倍上采样操作以及对所述第三初始特征融合图进行2倍上采样操作，将上采样后的特征表示图和第三初始特征融合图与所述第二自适应特征图进行融合后卷积5次，得到第二初始特征融合图；

对所述特征表示图依次进行3次卷积和8倍上采样操作、对所述第二初始特征融合图进行2倍上采样操作以及对所述第三初始特征融合图进行4倍上采样操作，将进行上采样操作后的特征表示图、第二初始特征融合图和第三初始特征融合图与所述第一自适应特征图进行融合后卷积5次，得到第一初始特征融合图；

对所述第一初始特征融合图进行2倍下采样操作后卷积5次，得到第一特征融合图；

对所述第一特征融合图进行2倍下采样操作，并将下采样后的第一特征融合图与所述第三初始特征融合图进行融合后卷积5次，得到第二特征融合图；

对所述第二特征融合图进行2倍下采样操作，并将下采样后的第二特征融合图与所述特征表示图进行融合后卷积5次，得到第三特征融合图。

2.根据权利要求1所述的基于深度学习的钢材表面缺陷检测方法，其特征在于，所述训练样本为图像，所述缺陷标签至少包括真实缺陷框；所述真实缺陷框用于示意钢材表面的缺陷位置和范围；所述基于所述训练样本，训练所述初始深度学习网络模型，得到训练好的深度学习网络模型，包括：

将所述真实缺陷框用k-means++算法聚类，聚类结果作为YOLOv4的锚框；

将训练集中的训练样本输入所述初始深度学习网络模型进行模型训练；

每轮训练完成后，利用验证集中的样本通过损失函数计算所述初始深度学习网络模型损失值；

利用所述损失值执行梯度下降操作更新所述深度学习网络模型的参数；

3.根据权利要求2所述的基于深度学习的钢材表面缺陷检测方法，其特征在于，所述损失函数的公式为：

其中，代表损失值，/>代表/>损失值，/>代表cls损失值，/>代表conf损失值，/>代表真实缺陷框与预测缺陷框的交并比，/>代表真实缺陷框，/>代表预测缺陷框，/>代表真实缺陷框与预测缺陷框之间的欧式距离，/>代表包含真实缺陷框与预测缺陷框最小矩形的对角线长度，/>代表衡量预测缺陷框与真实缺陷框的横纵比，/>代表权重参数。

4.根据权利要求1所述的基于深度学习的钢材表面缺陷检测方法，其特征在于，还包括将所述缺陷位置、缺陷类型和置信度进行可视化展示。