CN116363124B - 一种基于深度学习的钢材表面缺陷检测方法 - Google Patents

一种基于深度学习的钢材表面缺陷检测方法 Download PDF

Info

Publication number
CN116363124B
CN116363124B CN202310606853.9A CN202310606853A CN116363124B CN 116363124 B CN116363124 B CN 116363124B CN 202310606853 A CN202310606853 A CN 202310606853A CN 116363124 B CN116363124 B CN 116363124B
Authority
CN
China
Prior art keywords
layer
map
feature
deep learning
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310606853.9A
Other languages
English (en)
Other versions
CN116363124A (zh
Inventor
张磊
黄忠虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Jiezhiyi Technology Co ltd
Original Assignee
Nanjing Jiezhiyi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Jiezhiyi Technology Co ltd filed Critical Nanjing Jiezhiyi Technology Co ltd
Priority to CN202310606853.9A priority Critical patent/CN116363124B/zh
Publication of CN116363124A publication Critical patent/CN116363124A/zh
Application granted granted Critical
Publication of CN116363124B publication Critical patent/CN116363124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的钢材表面缺陷检测方法,包括:构建初始深度学习网络模型;所述初始深度学习网络模型为YOLOv4模型;所述初始深度学习网络模型的Backbone网络的输入为预处理图像,输出为特征图;所述初始深度学习网络模型的Neck网络的输入为所述特征图,输出为自适应特征融合图;获取训练样本;所述训练样本包括钢材表面的缺陷数据和缺陷标签;基于所述训练样本,训练所述初始深度学习网络模型,得到训练好的深度学习网络模型;将钢材表面图片输入所述深度学习网络模型,模型输出预测的缺陷位置、缺陷类型和置信度;以满足工业生产中对钢材表面缺陷检测的需求。

Description

一种基于深度学习的钢材表面缺陷检测方法
技术领域
本发明涉及表面缺陷检测技术领域,具体而言,涉及一种基于深度学习的钢材表面缺陷检测方法。
背景技术
钢材在我们生活中扮演着非常重要的角色,许多行业都离不开它。钢材的生产流程比较繁琐。复杂的生产模式难免会生产出表面有缺陷的产品。钢材表面有缺陷不仅不美观而且其内部结构可能发生变化,影响其机械性能,降低腐蚀度。传统表面检测方法存在准确率低、实时性差和受主观影响较大等缺点。因此,针对钢材表面的缺陷检测工作显得格外重要。
鉴于此,本发明提出了一种基于深度学习的钢材表面缺陷检测方法,以满足工业生产中对钢材表面缺陷检测的需求。
发明内容
本发明的目的在于提供一种基于深度学习的钢材表面缺陷检测方法,包括:构建初始深度学习网络模型;所述初始深度学习网络模型为YOLOv4模型;所述初始深度学习网络模型的Backbone网络的输入为输入图像,输出为特征图;所述特征图包括第一特征图、第二特征图、第三特征图和第四特征图;所述初始深度学习网络模型的Neck网络的输入为所述特征图,输出为自适应特征融合图;所述自适应特征融合图包括第一自适应特征融合图、第二自适应特征融合图和第三自适应特征融合图;所述第一自适应特征融合图、所述第二自适应特征融合图和所述第三自适应特征融合图的尺度不同;获取训练样本;所述训练样本包括钢材表面的缺陷数据和缺陷标签;基于所述训练样本,训练所述初始深度学习网络模型,得到训练好的深度学习网络模型;将钢材表面图片输入所述深度学习网络模型,模型输出预测的缺陷位置、缺陷类型和置信度。
进一步的,所述初始深度学习网络模型的Backbone网络为多层特征提取结构;所述多层特征提取结构包括第一层、第二层、第三层、第四层和第五层;所述第一层的输入为预处理图像,输出为初始特征图;所述第二层的输入为所述初始特征图,输出为所述第一特征图;所述第三层的输入为所述第一特征图,输出为所述第二特征图;所述第四层的输入为所述第二特征图,输出为所述第三特征图;所述第五层的输入为所述第三特征图,输出为所述第四特征图。
进一步的,所述多层特征提取结构和所述Neck网络嵌入有视觉注意力SkNet,所述视觉注意力SkNet的嵌入位置为所述多层特征提取结构的第二层、第三层、第四层和第五层的输出端和所述Neck网络的三个输出端。
进一步的,所述初始深度学习网络模型的Neck网络包括SimSPPF网络和PANET网络;所述SkNet网络的输入分别为所述第一特征图、所述第二特征图、所述第三特征图和所述第四特征图,输出为自适应特征图;所述自适应特征图包括第一自适应特征图、第二自适应特征图、第三自适应特征图和第四自适应特征图;所述SimSPPF网络的输入为经过3次卷积的所述第四自适应特征图,输出为特征表示图;所述PANET网络的输入为所述第一自适应特征图、所述第二自适应特征图、所述第三自适应特征图和所述特征表示图,输出为所述特征融合图;所述特征融合图通过SkNet网络,输出所述自适应特征融合图。
进一步的,所述SkNet网络后级联空间注意力模块;所述空间注意力模块的第一层采用平均池化操作;所述空间注意力模块的第二层采用最大值池化操作;所述空间注意力模块的第三层采用拼接操作;所述拼接操作为将第一层与第二层按照通道维度拼接;所述空间注意力模块的第四层采用7*7的卷积,padding为3;所述空间注意力模块的第五层的激活函数采用Sigmoid。
进一步的,所述SimSPPF网络包括第一层、第二层、第三层、第四层、第五层、第六层和第七层;所述SimSPPF网络的第一层采用1*1卷积操作、归一化和Relu激活函数;所述SimSPPF网络的第二层、第三和第四层采用5*5最大池化层操作,padding为2;所述SimSPPF网络的第五层采用1*1池化、1*1卷积和上采样操作;所述SimSPPF网络的第六层采用拼接操作,将第一层到第五层的输出按照通道维度拼接;所述SimSPPF网络的第七层采用1*1卷积操作、归一化和Relu激活函数。
进一步的,所述PANET网络用于对所述自适应特征图和所述特征表示图进行采样操作和融合,包括:对所述特征表示图依次进行3次卷积和2倍上采样操作,并将上采样后的特征表示图与所述第三自适应特征图进行融合后卷积5次,得到第三初始特征融合图;对所述特征表示图依次进行3次卷积和4倍上采样操作以及对所述第三初始特征融合图进行2倍上采样操作,将上采样后的特征表示图和第三初始特征融合图与所述第二自适应特征图进行融合后卷积5次,得到第二初始特征融合图;对所述特征表示图依次进行3次卷积和8倍上采样操作、对所述第二初始特征融合图进行2倍上采样操作以及对所述第三初始特征融合图进行4倍上采样操作,将进行上采样操作后的特征表示图、第二初始特征融合图和第三初始特征融合图与所述第一自适应特征图进行融合后卷积5次,得到第一初始特征融合图;对所述第一初始特征融合图进行2倍下采样操作后卷积5次,得到所述第一特征融合图;对所述第一特征融合图进行2倍下采样操作,并将下采样后的第一特征融合图与所述第三初始特征融合图进行融合后卷积5次,得到所述第二特征融合图;对所述第二特征融合图进行2倍下采样操作,并将下采样后的第二特征融合图与所述特征表示图进行融合后卷积5次,得到所述第三特征融合图。
进一步的,所述训练样本为图像,所述缺陷标签至少包括真实缺陷框;所述真实缺陷框用于示意钢材表面的缺陷位置和范围;所述基于所述训练样本,训练所述初始深度学习网络模型,得到训练好的深度学习网络模型,包括:将所述真实缺陷框用k-means++算法聚类,聚类结果作为YOLOv4的锚框;将训练集中的训练样本输入所述初始深度学习网络模型进行模型训练;每轮训练完成后,利用验证集中的样本通过损失函数计算所述初始深度学习网络模型损失值;利用所述损失值执行梯度下降操作更新所述深度学习网络模型的参数;重复模型训练和模型验证过程,直至所述损失值不再下降或趋于动态平衡,训练完成,得到所述深度学习网络模型。
进一步的,所述损失函数的公式为:
其中,代表总损失值,/>代表Box位置损失,/>代表类别损失,/>代表置信度损失,/>代表真实缺陷框与预测缺陷框的交并比,/>代表真实缺陷框,/>代表预测缺陷框,/>代表真实缺陷框与预测缺陷框之间的欧式距离,/>代表包含真实缺陷框与预测缺陷框最小矩形的对角线长度,/>代表衡量预测缺陷框与真实缺陷框的横纵比,/>代表权重参数。
进一步的,还包括将所述缺陷位置、缺陷类型和置信度进行可视化展示。
本发明实施例的技术方案至少具有如下优点和有益效果:
本发明采取深度学习方法,直接实现从检测图片输入到预测结果输出的端到端网络建立,解决了传统方法检测精度低、实时性差等问题。
本发明采用了残差网络结构进行图像特征的提取,兼顾了网络复杂度和特征有效性的平衡。
本发明采用k-means++聚类算法对标签真实缺陷框进行聚类,有效提高了模型训练时的收敛速度。
本发明采用改进视觉注意力SkNet网络,有效提高了深度学习网络模型对缺陷的关注度,提高了深度学习网络模型的预测准确度。
本发明采用改进SimSPPF网络,能够让深度学习网络模型更加关注全局信息,提高困难样本的检测精度。
本发明采用改进的路径聚合网络,能够让深度学习网络模型更加关注不同尺度的缺陷特征,提高模型对小目标缺陷的检测精度。
附图说明
图1为本发明一些实施例提供的一种基于深度学习的钢材表面缺陷检测方法的示例性流程图;
图2为本发明一些实施例提供的初始深度学习网络模型的Backbone网络的示例性示意图;
图3为本发明一些实施例提供的初始深度学习网络模型的SkNet网络的示例性示意图;
图4为本发明一些实施例提供的初始深度学习网络模型的SimSPPF网络的示例性示意图;
图5为本发明一些实施例提供的初始深度学习网络模型的PANET网络的示例性示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
图1为本发明一些实施例提供的一种基于深度学习的钢材表面缺陷检测方法的示例性流程图。如图1所示,流程100包括以下内容:
步骤110,构建初始深度学习网络模型;所述初始深度学习网络模型为YOLOv4模型。
该初始深度学习网络模型是基于YOLOv4搭建的,其输出三种不同尺度的特征图,以用于提取不同大小缺陷的特征信息。
步骤110-1,所述初始深度学习网络模型的Backbone网络的输入为预处理图像,输出为特征图;所述特征图包括第一特征图、第二特征图、第三特征图和第四特征图。
预处理图像可以是指对输入图像进行处理后得到的图像。例如,输入图像可以为3*416*416的图像数据。预处理可以是指对输入图像进行卷积,方便后续处理。例如,可以通过卷积层对输入图像进行预处理,通过变换通道数,将输入的3*416*416大小的图像通过3*3卷积核,步长为1,BatchNorm2d和Mish激活函数变换为32*416*416大小的特征图。其中,第一层的卷积核的尺寸K=3,步长S=1,输入通道数in channel=3,输出通道数out channel=32。
输入图像可以是指钢材表面的图像。例如,输入图像可以为尺寸大小为3*416*416的钢材图像。特征图可以是指对所述输入图像进行一次或多次处理后得到的包含与钢材相关的特征的图。其中,第一特征图的尺寸大小为128*104*104;第二特征图的尺寸大小为256*52*52;第三特征图的尺寸大小为512*26*26;第四特征图的尺寸大小为1024*13*13。
步骤110-2,所述初始深度学习网络模型的Neck网络的输入为所述特征图,输出为自适应特征融合图;所述自适应特征融合图包括第一自适应特征融合图、第二自适应特征融合图和第三自适应特征融合图;所述第一自适应特征融合图、所述第二自适应特征融合图和所述第三自适应特征融合图的尺度不同。
本申请中的Neck网络主要采用了改进的SimSPPF网络、改进的FPN+PAN。改进后的SimSPPF网络使用4种不同尺度的最大池化,将各尺度池化后的特征图进行拼接操作。改进后的FPN+PAN是将不同尺度的特征融合,使得模型对缺陷信息更加敏感。
在一些实施例中,还包括在初始深度学习网络模型上嵌入视觉注意力机制,改进空间金字塔池化,改进路径聚合网络。其中,改进SkNet专注于模型提取特征图通道和空间上缺陷特征,让模型能够更快的锁定缺陷。原始SPP网络速度较慢,并且对于全局信息把控的不够好。改进SimSPPF更专注于让模型提升全局感受野,提高小目标缺陷的检测精度。原始路径聚合网络只是针对于三个尺度的特征图进行融合,小目标缺陷的检测性能较差,改进路径聚合网络增加了新的特征层,提高模型对小目标缺陷的检测性能的同时不减少对大目标缺陷的检测性能。关于在初始深度学习网络模型上嵌入视觉注意力机制,改进空间金字塔池化,改进路径聚合网络的更多内容,参见图2、图3图4和图5,及其相关描述。
步骤120,获取训练样本;所述训练样本包括钢材表面的缺陷数据和缺陷标签。
缺陷数据可以是指与钢材表面的缺陷相关的数据。在一些实施例中,所述训练样本为图像,所述缺陷标签至少包括真实缺陷框;所述真实缺陷框用于示意钢材表面的缺陷位置和范围。
步骤130,基于所述训练样本,训练所述初始深度学习网络模型,得到训练好的深度学习网络模型。
将训练数据划分为训练集、验证集和测试集。图像数据可以是公开数据集或者是自己采集的缺陷图片,然后将这些图片与对应的标签按照8:2的原则划分为训练验证集和测试集,再将训练验证集按照8:2的原则划分为训练集和验证集。图片的数量越多,模型训练的效果就会更好。例如,由东北大学制作的钢表面缺陷数据集NEU-DET,包含6个缺陷类别,每类300张图片,训练、验证和测试分别为1152、288、360。
在一些实施例中,得到训练好的深度学习网络模型,包括:
将所述真实缺陷框用k-means++算法聚类,聚类结果作为YOLOv4的锚框。在一些实施例中,由于网络有三个检测头输出,根据YOLOv4的原理,我们需要聚类9个先验框,本发明基于东北大学数据做了仿真,输入图像大小为416*416,具体的9个框数据如下:39,79、47,160、99,103、352,56、64,368、135,189、266,141、149,345、343,399。聚类的框与真实框的平均IOU为68%。训练参数设置如下:
学习率:初始1e-2,最小设置为1e-4,采用余弦退火学习率衰减策略;
Epoch:总共1000个epoch,分为50个冻结训练和950个解冻训练;
初始化参数:使用在VOC2007预训练模型权重;
输入图像大小:416*416;
Batchsize:冻结训练设置为8,解冻训练设置为16;
动量:0.937;
权值衰减:5e-4;
优化器:SGD;
Mosaic数据增强:1。
将训练集中的训练样本输入所述初始深度学习网络模型进行模型训练。
每轮训练完成后,利用验证集中的样本通过损失函数计算所述初始深度学习网络模型损失值。
利用所述损失值执行梯度下降操作更新所述深度学习网络模型的参数。
重复模型训练和模型验证过程,直至所述损失值不再下降或趋于动态平衡,训练完成,得到所述深度学习网络模型。
训练过程中,当一个epoch训练结束之后,通过验证集数据的损失值验证模型的性能。损失函数由三个部分组成:Box位置损失()、类别损失(/>)和置信度损失(/>)。在一些实施例中,所述损失函数的公式为:
其中,代表总损失值,/>代表Box位置损失,/>代表类别损失,/>代表置信度损失,/>代表真实缺陷框与预测缺陷框的交并比,/>代表真实缺陷框,/>代表预测缺陷框,/>代表真实缺陷框与预测缺陷框之间的欧式距离,/>代表包含真实缺陷框与预测缺陷框最小矩形的对角线长度,/>代表衡量预测缺陷框与真实缺陷框的横纵比,/>代表权重参数。/>并且/>
在一些实施例中,还包括当深度学习网络模型训练完成后,将测试集数据和对应标签输入训练好的深度学习网络模型,将深度学习网络模型预测结果与真实标签相比,评价深度学习网络模型最终检测性能。深度学习网络模型训练完成后,我们选择验证集效果最好的深度学习模型作为最终深度学习网络模型,然后我们将测试集数据图片数据打包到一个文件夹中,模型遍历文件中的每一张图片并对它们分别进行预测。由于模型会对特征图的每个小方格都会进行预测,所以会产生许多的预测框,我们需要通过非极大值抑制的方法滤除那些置信度较低的预测框,阈值我们设置为0.5。预测的结果与真实结果进行对比,通过以下的评价指标来分析模型的检测性能:
其中,标为正样本被正确识别为正样本的个数,/>表示负样本被认为是正样本的个数,/>表示正样本被认为负样本的个数。/>为某一类的预测准确率,他表示预测正确的样本数量占所有预测为正的样本数量比例,该值越大说明误检率越低。表示某一类的召回率,他表示预测正确的正样本数量占总的正样本数量的比例,该值越大说明漏检率越低。/>表示某一类的预测平均准确率,以/>为横轴,/>为纵轴围城的面积,该值越大表示该类的预测性能越好。/>表示所有类的平均准确路,该值体现了模型的整体性能,数值越大,模型性能越好。
步骤140,将钢材表面图片输入所述深度学习网络模型,模型输出预测的缺陷位置、缺陷类型和置信度。
钢材表面图像是指需要进行缺陷预测的钢材表面的图像。在一些实施例中,钢材表面的图像可以通过生产线的监控设备或其他图像获取设备得到。缺陷位置可以是指钢材表面所存在的缺陷的位置。缺陷类型可以是指钢材表面的缺陷的类型。置信度可以是指模型判断该缺陷的缺陷类别正确的概率。
在一些实施例中,还包括将所述缺陷位置、缺陷类型和置信度进行可视化展示。深度学习网络模型预测的结果包括缺陷的类别,缺陷框在原始图中的位置以及缺陷类别的置信度。分别将这些信息映射到原始输入图像中,使预测结果更加直观。
图2为本发明一些实施例提供的初始深度学习网络模型的Backbone网络的示例性示意图。如图2所示,所述初始深度学习网络模型的Backbone网络为多层特征提取结构;所述多层特征提取结构包括第一层、第二层、第三层、第四层和第五层。
所述第一层的输入为预处理图像,输出为初始特征图。
初始特征图可以是指对预处理图像进行处理后得到的特征图。其中,特征与钢材表面的缺陷相关。例如,第一层可以将前一层输出的32*416*416大小的特征图变换成64*208*208,其内部用虚线框出的部分是残差模块,xi代表使用i次残差模块,在第一层中i=1。例如,第一层中第一个卷积层的卷积核的尺寸K=3,步长S=2,输入通道数in channel=a=32,输出通道数out channel=b=64,使用BatchNorm2d和Mish激活函数;第二个卷积层中左边的卷积层的步长S=1,输入通道数in channel=c=64,输出通道数out channel=d=64,使用BatchNorm2d和Mish激活函数;第二个卷积层中右边的卷积层依次为:步长S=1,输入通道数in channel=e=64,输出通道数out channel=f=64,使用BatchNorm2d和Mish激活函数;步长S=1,输入通道数in channel=g=64,输出通道数out channel=h=64,使用BatchNorm2d和Mish激活函数;步长S=3,输入通道数in channel=h=32,输出通道数out channel=j=64,使用BatchNorm2d和Mish激活函数;步长S=1,输入通道数等于输出通道数in channel=outchannel=k=64,使用BatchNorm2d和Mish激活函数;第一层的最后一个卷积层的步长S=1,输入通道数in channel=l=128,输出通道数out channel=m=64,使用BatchNorm2d和Mish激活函数。其中,(o,p,q)i为(208,208,64)/>64。第二层的输出记为out0。
第二层-第五层其结构与第一层相同,差别就体现在残差模块的数量上,第一层采用了1个残差模块连接,第二层采用了2个残差模块串联,第三层和第四层采用了8个残差模块串联,第五层使用了4个残差模块串联。它们的作用是降低输入特征图的大小方便提取更多不同尺度的缺陷特征,每层结束后分别连接一个输出,out1的特征图大小为128*104*104,out2的特征图大小为256*52*52,out3的特征图大小为512*26*26,out4的特征图大小为1024*13*13。具体地:
所述第二层的输入为所述初始特征图,输出为所述第一特征图。在第二层中,a=64,b=128,c=128,d=64,e=128,f=64,g=64,h=64,j=64,k=64,l=128,m=128,i=2,(o,p,q)i为(104,104,128)/>2。第二层的输出记为out1。
所述第三层的输入为所述第一特征图,输出为所述第二特征图。在第三层中,a=128,b=256,c=256,d=128,e=256,f=128,g=128,h=128,j=128,k=128,l=256,m=256,i=8,(o,p,q)i为(52,52,256)/>8。第三层的输出记为out2。
所述第四层的输入为所述第二特征图,输出为所述第三特征图。在第四层中,a=256,b=512,c=512,d=256,e=512,f=256,g=256,h=256,j=256,k=256,l=512,m=512,i=8,(o,p,q)i为(26,26,512)/>8。第四层的输出记为out3。
所述第五层的输入为所述第三特征图,输出为所述第四特征图。在第五层中,a=512,b=1024,c=1024,d=512,e=1024,f=512,g=512,h=512,j=512,k=512,l=1024,m=1024,i=4,(o,p,q)i为(13,13,1024)/>4。第五层的输出记为out4。
在一些实施例中,所述多层特征提取结构和所述Neck网络嵌入有视觉注意力SkNet,所述视觉注意力SkNet的嵌入位置为所述多层特征提取结构的第二层、第三层、第四层和第五层的输出端和以及所述Neck网络的三个输出端。
在一些实施例中,所述初始深度学习网络模型的Neck网络包括SimSPPF网络和PANET网络。关于SkNet网络、SimSPPF网络和PANET网络的更多内容,参见图3、图4和图5,及其相关描述。
图3为本发明一些实施例提供的初始深度学习网络模型的SkNet网络的示例性示意图。如图3所示,所述SkNet网络的输入分别为所述第一特征图、所述第二特征图和所述第三特征图,输出为自适应特征图;所述自适应特征图包括第一自适应特征图、第二自适应特征图和第三自适应特征图和第四自适应特征图。
在一些实施例中,所述SkNet网络后级联空间注意力模块;
所述空间注意力模块的第一层采用平均池化操作;
所述空间注意力模块的第二层采用最大值池化操作;
所述空间注意力模块的第三层采用拼接操作;所述拼接操作为将第一层与第二层按照通道维度拼接;
所述空间注意力模块的第四层采用7*7的卷积,边界填充padding为3;
所述空间注意力模块的第五层的激活函数采用Sigmoid。
例如,SkNet接受多层特征提取结构输出的特征图,其第一层结构将输入的B*C*H*W特征图分别使用3*3卷积核,S=1,P=1,G=32,BatchNorm2d,Rule和5*5卷积核,S=1,P=2,G=32,BatchNorm2d,Rule做Split操作,将他们得到的结果在通道维度相加得到融合后的B*C*H*W的特征图,再将其输入全局平均池化层和FC层得到一个B*d维矩阵(d=max(int(in_channel/16),32)),将该向量输入FCs层,FCs层包含两个输入d维输出C维的线性层,得到两个B*1*C维矩阵,将这两个矩阵按照第一维度拼接,得到B*2*C维矩阵,接着做Softmax得到B*2*C维矩阵,再将这个矩阵扩展成B*2*C*1*1与diyicen给输出结果分别相乘得到对应的Select结果,Select结果就是原始SkNet输出。
接下来,将原始SkNet输出分别做最大值池化和平均池化得到的两个结果按照第一维度拼接,接着做7*7卷积核,S=1,P=3,in channel=2,out channel=1,BatchNorm2d,Relu层卷积,得到结果送入Sigmoid函数得到改进SkNet的输出,输出矩阵维度与输入矩阵维度一致。
图4为本发明一些实施例提供的初始深度学习网络模型的SimSPPF网络的示例性示意图。如图4所示,所述SimSPPF网络的输入为经过3次卷积的第四自适应特征图,输出为特征表示图。
在一些实施例中,所述SimSPPF网络包括第一层、第二层、第三层、第四层、第五层、第六层和第七层;
所述SimSPPF网络的第一层采用1*1卷积操作、归一化和Relu激活函数;
所述SimSPPF网络的第二层、第三和第四层采用5*5最大池化层操作,padding为2;
所述SimSPPF网络的第五层采用1*1池化、1*1卷积和上采样操作;
所述SimSPPF网络的第六层采用拼接操作,将第一层到第五层的输出按照通道维度拼接;
所述SimSPPF网络的第七层采用1*1卷积操作、归一化和Relu激活函数。
例如,多层特征提取结构输出out4经过三次卷积降维成512*13*13特征图。
改进SimSPPF网络接受该特征图输入,一方面输入特征图经过1*1卷积核,S=1降维获得一个输出。
然后将降维的特征图依次进入三次最大值池化层产生三个输出。
另一方面输入特征图经过自适应平均池化层和1*1卷积核,S=1降维,再经双线性插值获得一个输出。
将这两部分的五个输出按维度拼获得最终改进SimSPPF的输出。
图5为本发明一些实施例提供的初始深度学习网络模型的PANET网络的示例性示意图。如图5所示,所述PANET网络的输入为所述第一自适应特征图、所述第二自适应特征图、所述第三自适应特征图和所述特征表示图,输出为所述特征融合图。
在一些实施例中,所述PANET网络用于对所述自适应特征图和所述特征表示图进行采样操作和融合,包括:
对所述特征表示图依次进行3次卷积和2倍上采样操作,并将上采样后的特征表示图与所述第三自适应特征图进行融合后卷积5次,得到第三初始特征融合图;对所述特征表示图依次进行3次卷积和4倍上采样操作以及对所述第三初始特征融合图进行2倍上采样操作,将上采样后的特征表示图和第三初始特征融合图与所述第二自适应特征图进行融合后卷积5次,得到第二初始特征融合图;对所述特征表示图依次进行3次卷积和8倍上采样操作、对所述第二初始特征融合图进行2倍上采样操作以及对所述第三初始特征融合图进行4倍上采样操作,将进行上采样操作后的特征表示图、第二初始特征融合图和第三初始特征融合图与所述第一自适应特征图进行融合后卷积5次,得到第一初始特征融合图;对所述第一初始特征融合图进行2倍下采样操作后卷积5次,得到所述第一特征融合图;对所述第一特征融合图进行2倍下采样操作,并将下采样后的第一特征融合图与所述第三初始特征融合图进行融合后卷积5次,得到所述第二特征融合图;对所述第二特征融合图进行2倍下采样操作,并将下采样后的第二特征融合图与所述特征表示图进行融合后卷积5次,得到所述第三特征融合图。在一些实施例中,还包括对第一自适应特征图、第二自适应特征图和第三自适应特征图进行卷积后再输入PANET网络。
本申请中的一些实施例通过改进后的PANET网络,增强了模型对于不同大小缺陷特征信息的提取能力,同时也增加了模型对于整体特征信息的把控。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度学习的钢材表面缺陷检测方法,其特征在于,包括:
构建初始深度学习网络模型;所述初始深度学习网络模型为YOLOv4模型;
所述初始深度学习网络模型的Backbone网络的输入为预处理图像,输出为特征图;所述特征图包括第一特征图、第二特征图、第三特征图和第四特征图;
所述初始深度学习网络模型的Neck网络的输入为所述特征图,输出为自适应特征融合图;所述自适应特征融合图包括第一自适应特征融合图、第二自适应特征融合图和第三自适应特征融合图;所述第一自适应特征融合图、所述第二自适应特征融合图和所述第三自适应特征融合图的尺度不同;
获取训练样本;所述训练样本包括钢材表面的缺陷数据和缺陷标签;
基于所述训练样本,训练所述初始深度学习网络模型,得到训练好的深度学习网络模型;
将钢材表面图片输入所述深度学习网络模型,模型输出预测的缺陷位置、缺陷类型和置信度;
所述初始深度学习网络模型的Backbone网络为多层特征提取结构;所述多层特征提取结构包括第一层、第二层、第三层、第四层和第五层;
所述第一层的输入为预处理图像,输出为初始特征图;
所述第二层的输入为所述初始特征图,输出为所述第一特征图;
所述第三层的输入为所述第一特征图,输出为所述第二特征图;
所述第四层的输入为所述第二特征图,输出为所述第三特征图;
所述第五层的输入为所述第三特征图,输出为所述第四特征图;
所述多层特征提取结构和所述Neck网络嵌入有视觉注意力SkNet,所述视觉注意力SkNet的嵌入位置为所述多层特征提取结构的第二层、第三层、第四层和第五层的输出端以及所述Neck网络的三个输出端;
所述初始深度学习网络模型的Neck网络包括SimSPPF网络和PANET网络;
所述SkNet网络的输入分别为所述第一特征图、所述第二特征图、所述第三特征图和所述第四特征图,输出为自适应特征图;所述自适应特征图包括第一自适应特征图、第二自适应特征图、第三自适应特征图和第四自适应特征图;
所述SimSPPF网络的输入为经过3次卷积的所述第四自适应特征图,输出为特征表示图;
所述PANET网络的输入为所述第一自适应特征图、所述第二自适应特征图、所述第三自适应特征图和所述特征表示图,输出为特征融合图;
所述特征融合图通过SkNet网络,输出所述自适应特征融合图;
所述SkNet网络后级联空间注意力模块;
所述空间注意力模块的第一层采用平均池化操作;
所述空间注意力模块的第二层采用最大值池化操作;
所述空间注意力模块的第三层采用拼接操作;所述拼接操作为将第一层与第二层按照通道维度拼接;
所述空间注意力模块的第四层采用7*7的卷积,padding为3;
所述空间注意力模块的第五层的激活函数采用Sigmoid;
所述SimSPPF网络包括第一层、第二层、第三层、第四层、第五层、第六层和第七层;
所述SimSPPF网络的第一层采用1*1卷积操作、归一化和Relu激活函数;
所述SimSPPF网络的第二层、第三和第四层采用5*5最大池化层操作,padding为2;
所述SimSPPF网络的第五层采用1*1池化、1*1卷积和上采样操作;
所述SimSPPF网络的第六层采用拼接操作,将第一层到第五层的输出按照通道维度拼接;
所述SimSPPF网络的第七层采用1*1卷积操作、归一化和Relu激活函数;
所述PANET网络用于对所述自适应特征图和所述特征表示图进行采样操作和融合,包括:
对所述特征表示图依次进行3次卷积和2倍上采样操作,并将上采样后的特征表示图与所述第三自适应特征图进行融合后卷积5次,得到第三初始特征融合图;
对所述特征表示图依次进行3次卷积和4倍上采样操作以及对所述第三初始特征融合图进行2倍上采样操作,将上采样后的特征表示图和第三初始特征融合图与所述第二自适应特征图进行融合后卷积5次,得到第二初始特征融合图;
对所述特征表示图依次进行3次卷积和8倍上采样操作、对所述第二初始特征融合图进行2倍上采样操作以及对所述第三初始特征融合图进行4倍上采样操作,将进行上采样操作后的特征表示图、第二初始特征融合图和第三初始特征融合图与所述第一自适应特征图进行融合后卷积5次,得到第一初始特征融合图;
对所述第一初始特征融合图进行2倍下采样操作后卷积5次,得到第一特征融合图;
对所述第一特征融合图进行2倍下采样操作,并将下采样后的第一特征融合图与所述第三初始特征融合图进行融合后卷积5次,得到第二特征融合图;
对所述第二特征融合图进行2倍下采样操作,并将下采样后的第二特征融合图与所述特征表示图进行融合后卷积5次,得到第三特征融合图。
2.根据权利要求1所述的基于深度学习的钢材表面缺陷检测方法,其特征在于,所述训练样本为图像,所述缺陷标签至少包括真实缺陷框;所述真实缺陷框用于示意钢材表面的缺陷位置和范围;所述基于所述训练样本,训练所述初始深度学习网络模型,得到训练好的深度学习网络模型,包括:
将所述真实缺陷框用k-means++算法聚类,聚类结果作为YOLOv4的锚框;
将训练集中的训练样本输入所述初始深度学习网络模型进行模型训练;
每轮训练完成后,利用验证集中的样本通过损失函数计算所述初始深度学习网络模型损失值;
利用所述损失值执行梯度下降操作更新所述深度学习网络模型的参数;
重复模型训练和模型验证过程,直至所述损失值不再下降或趋于动态平衡,训练完成,得到所述深度学习网络模型。
3.根据权利要求2所述的基于深度学习的钢材表面缺陷检测方法,其特征在于,所述损失函数的公式为:
其中,代表损失值,/>代表/>损失值,/>代表cls损失值,/>代表conf损失值,/>代表真实缺陷框与预测缺陷框的交并比,/>代表真实缺陷框,/>代表预测缺陷框,/>代表真实缺陷框与预测缺陷框之间的欧式距离,/>代表包含真实缺陷框与预测缺陷框最小矩形的对角线长度,/>代表衡量预测缺陷框与真实缺陷框的横纵比,/>代表权重参数。
4.根据权利要求1所述的基于深度学习的钢材表面缺陷检测方法,其特征在于,还包括将所述缺陷位置、缺陷类型和置信度进行可视化展示。
CN202310606853.9A 2023-05-26 2023-05-26 一种基于深度学习的钢材表面缺陷检测方法 Active CN116363124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310606853.9A CN116363124B (zh) 2023-05-26 2023-05-26 一种基于深度学习的钢材表面缺陷检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310606853.9A CN116363124B (zh) 2023-05-26 2023-05-26 一种基于深度学习的钢材表面缺陷检测方法

Publications (2)

Publication Number Publication Date
CN116363124A CN116363124A (zh) 2023-06-30
CN116363124B true CN116363124B (zh) 2023-08-01

Family

ID=86941879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310606853.9A Active CN116363124B (zh) 2023-05-26 2023-05-26 一种基于深度学习的钢材表面缺陷检测方法

Country Status (1)

Country Link
CN (1) CN116363124B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116823819B (zh) * 2023-08-28 2023-11-07 常熟理工学院 一种焊缝表面缺陷检测方法、系统、电子设备及存储介质
CN116934762B (zh) * 2023-09-19 2024-01-16 华南理工大学 锂电池极片表面缺陷的检测系统及方法
CN116958148B (zh) * 2023-09-21 2023-12-12 曲阜师范大学 输电线路关键部件缺陷的检测方法、装置、设备、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967243A (zh) * 2021-02-26 2021-06-15 清华大学深圳国际研究生院 一种基于yolo的深度学习芯片封装裂纹缺陷检测方法
CN115147650A (zh) * 2022-07-04 2022-10-04 广西科学院 一种基于SKNet和YOLOv5的海洋目标识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949692A (zh) * 2021-02-03 2021-06-11 歌尔股份有限公司 一种目标检测方法和装置
CN113034478B (zh) * 2021-03-31 2023-06-06 太原科技大学 一种基于深度学习网络的焊缝缺陷识别定位方法、系统
CN113674203A (zh) * 2021-07-14 2021-11-19 歌尔股份有限公司 缺陷检测模型训练方法、装置和缺陷检测方法、装置
CN114283117A (zh) * 2021-11-24 2022-04-05 广西大学 一种基于改进YOLOv3卷积神经网络的绝缘子缺陷检测方法
CN114972312A (zh) * 2022-06-22 2022-08-30 闽江学院 基于YOLOv4-Tiny改进的绝缘子缺陷检测方法
CN115205467A (zh) * 2022-08-10 2022-10-18 南京理工大学 一种基于轻量化和注意力机制的空间非合作目标部件识别方法
CN115511796A (zh) * 2022-09-08 2022-12-23 潍坊大友电子科技有限公司 基于深度学习的纺织品瑕疵检测方法
CN116051953A (zh) * 2022-11-23 2023-05-02 中国铁塔股份有限公司重庆市分公司 基于可选择卷积核网络及加权双向特征金字塔的小目标检测方法
CN116012337A (zh) * 2023-01-09 2023-04-25 江苏科技大学 一种基于改进YOLOv4的热轧带钢表面缺陷检测方法
CN116030039A (zh) * 2023-02-20 2023-04-28 安徽工业大学 一种结合深度学习的塑封芯片内部缺陷检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967243A (zh) * 2021-02-26 2021-06-15 清华大学深圳国际研究生院 一种基于yolo的深度学习芯片封装裂纹缺陷检测方法
CN115147650A (zh) * 2022-07-04 2022-10-04 广西科学院 一种基于SKNet和YOLOv5的海洋目标识别方法

Also Published As

Publication number Publication date
CN116363124A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN116363124B (zh) 一种基于深度学习的钢材表面缺陷检测方法
CN113780296B (zh) 基于多尺度信息融合的遥感图像语义分割方法及系统
CN110458165B (zh) 一种引入注意力机制的自然场景文本检测方法
CN111476719B (zh) 图像处理方法、装置、计算机设备及存储介质
CN111292330A (zh) 基于编解码器的图像语义分割方法及装置
CN112381097A (zh) 一种基于深度学习的场景语义分割方法
CN111259853A (zh) 一种高分辨率遥感图像变化检测方法、系统及装置
CN112598657B (zh) 缺陷检测方法、装置、模型构造方法和计算机设备
CN115908772A (zh) 一种基于Transformer和融合注意力机制的目标检测方法及系统
CN110390340A (zh) 特征编码模型、视觉关系检测模型的训练方法及检测方法
CN112149590A (zh) 一种手部关键点检测方法
CN117351363A (zh) 基于Transformer的遥感影像建筑物提取方法
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN116168235A (zh) 一种基于双分支注意力网络的高光谱图像分类方法
CN114782798A (zh) 一种基于注意力融合的水下目标检测方法
CN113706544A (zh) 一种基于完备注意力卷积神经网络的医学图像分割方法
CN116994044A (zh) 一种基于掩码多模态生成对抗网络的图像异常检测模型的构建方法
CN115588013A (zh) 一种基于全尺度融合和流场注意力的图像分割方法
CN114037893A (zh) 一种基于卷积神经网络的高分辨率遥感图像建筑提取方法
CN116310869A (zh) 一种基于软融合策略的轻量化洪水检测方法和装置
CN116310828A (zh) 一种结合Transformer和CNN的高分辨率遥感图像变化检测方法及装置
CN117911879A (zh) 一种融合sam的细粒度高分遥感影像变化检测方法
CN112990041B (zh) 一种基于改进型U-net的遥感影像建筑物提取方法
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN112801201B (zh) 一种基于标准化的深度学习视觉惯导组合导航设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant