CN113947590B - 一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法 - Google Patents
一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法 Download PDFInfo
- Publication number
- CN113947590B CN113947590B CN202111246430.8A CN202111246430A CN113947590B CN 113947590 B CN113947590 B CN 113947590B CN 202111246430 A CN202111246430 A CN 202111246430A CN 113947590 B CN113947590 B CN 113947590B
- Authority
- CN
- China
- Prior art keywords
- network model
- resolution
- attention
- representing
- knowledge distillation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007547 defect Effects 0.000 title claims abstract description 93
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 74
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000010586 diagram Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 8
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 31
- 238000012360 testing method Methods 0.000 description 12
- 238000004821 distillation Methods 0.000 description 10
- 230000004927 fusion Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000005336 cracking Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007797 corrosion Effects 0.000 description 2
- 238000005260 corrosion Methods 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005187 foaming Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)
Abstract
本发明公开了一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法,包括以下步骤:S1:采集待检测工业设备的表面缺陷图片,构建并训练教师网络模型;S2:将表面缺陷图片输入至学生网络模型,并对学生网络模型进行训练;S3:对采集的表面缺陷图片进行检测,完成对工业设备的表面缺陷检测。将知识蒸馏应用于表面缺陷检测领域,提出了一种新的工业缺陷检测模型训练框架,在平衡精度和速度的情况下,极大的减少了深度神经网络在计算和内存上的消耗,训练出适用于工业部署的缺陷检测模型。本发明提出的多尺度注意力机制引导的知识蒸馏方法,使学生网络模仿教师网络关注的前景注意力图,提升特征层之间知识蒸馏的效率。
Description
技术领域
本发明属于图像检测技术领域,具体涉及一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法。
背景技术
工业生产环境中的设备由于长期运行并且暴露于空气之中,其表面会出现各种各样的缺陷,如腐蚀,开裂,脱落,起泡等缺陷,这些缺陷如果不及时修复,会严重影响设备的使用寿命和降低生产的效率与质量。深度学习方法在计算机视觉领域取得了巨大的成功,具有强大的自动学习特征的能力,许多人眼难以直接量化的特征,深度学习都能够轻松搞定。在计算机视觉领域,图像分类、目标检测和物体分割这些问题利用深度学习都得到了很好的解决。目前,性能最强的基于深度学习的目标检测算法不能直接应用于工业检测领域,因为这些最先进的深度神经网络总是消耗大量的计算和内存,这限制了算法在边缘设备如移动端或嵌入式设备上的部署。为了解决这一难题,提出了许多技术,包括减枝、模型压缩和知识蒸馏等。其中,知识蒸馏是将大型模型的知识转移到小型模型,从而提高小型模型的性能并达到模型压缩的目的。由于其简单,有效,在工业界被广泛应用。本发明开创性的将知识蒸馏应用到表面缺陷检测领域,并且提出多尺度注意力机制引导技术,使学生网络更有效的模仿教师网络,达到更有效的知识蒸馏效果。
基于传统的目标检测方法,首先在给定的缺陷图片上通过滑动窗口的方法选择一些候选的区域,然后对这些区域进行特征提取的操作,如抽取基本的直方图特征,常见的纹理特征等,最后使用训练好的分类器对缺陷进行分类。传统的目标检测算法只适用于有明显特征,背景简单的情形。在真实的工业生产环境中,背景复杂多变,光照条件也各不相同,并且待检测的缺陷目标复杂多变,很难通过一般的抽象特征完成对缺陷的检测。基于深度学习的目标检测方法。首先对大量图片数据进行缺陷位置和种类的标注,然后将深度神经网络在标注好的数据上进行训练,最后由训练好的网络完成对缺陷位置和种类的预测。目前,性能最强的基于深度学习的目标检测算法不能直接应用于工业检测领域,因为这些最先进的深度神经网络总是消耗大量的计算和内存,这限制了算法在边缘设备如移动端或嵌入式设备上的部署。
发明内容
本发明的目的是为了解决工业缺陷检测的问题,提出了一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法。
本发明的技术方案是:一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法包括以下步骤:
S1:采集待检测工业设备的表面缺陷图片,构建并训练教师网络模型;
S2:基于训练好的教师网络模型,将表面缺陷图片输入至学生网络模型,并对学生网络模型进行训练;
S3:利用训练好的学生网络模型对采集的表面缺陷图片进行检测,完成对工业设备的表面缺陷检测。
进一步地,步骤S1包括以下子步骤:
S11:采集待检测工业设备的表面缺陷图片,对表面缺陷图片依次进行预处理和下采样,并将下采样后的表面缺陷图片作为第一分辨率图片,将采集的原表面缺陷图片作为第二分辨率图片;
S12:将第一分辨率图片和第二分辨率图片输入至教师网络模型中,分别得到第一分辨率特征金字塔和第二分辨率特征金字塔,并将第一分辨率特征金字塔和第二分辨率特征金字塔中具有相同大小的特征层进行融合,得到第三分辨率特征金字塔;
S13:将第一分辨率特征金字塔、第二分辨率特征金字塔和第三分辨率特征金字塔输入至教师网络模型的头部,进行训练。
进一步地,步骤S11中,对表面缺陷图片进行预处理的具体方法为:对表面缺陷图片依次进行翻转、仿射变换和翻转;对表面缺陷图片进行下采样的具体方法为:将预处理后的表面缺陷图片进行0.5倍的缩放。
进一步地,步骤S2包括以下子步骤:
S21:将第一分辨率图片输入至学生网络模型中,并对第一分辨率特征金字塔进行特征适应性处理,得到第四分辨率特征金字塔;
S22:对第三分辨率特征金字塔和第四分辨率特征金字塔进行知识蒸馏操作,以使学生网络模型模仿教师网络模型;
S23:在完成训练的教师网络模型和完成模仿的学生网络模型的输出层依次进行分类操作、回归操作和中心距离损失操作,并固定教师网络模型的参数,利用教师网络模型对学生网络模型进行训练。
进一步地,步骤S21中,对第一分辨率特征金字塔进行特征适应性处理的具体方法为:对第一分辨率特征金字塔中各个特征层的所有通道依次进行均值运算和n次幂运算,并进行上采样,得到第四分辨率特征金字塔。
进一步地,步骤S22中,进行知识蒸馏操作的具体方法为:分别对第三分辨率特征金字塔和第四分辨率特征金字塔进行通道注意力操作和空间注意力操作,得到各自对应的通道注意力图和空间注意力图;利用最小化平方误差损失函数使学生网络模型模仿教师网络模型的通道注意力图和空间注意力图;将第三分辨率特征金字塔和第四分辨率特征金字塔各自对应的通道注意力图和空间注意力图分别与其特征层相乘,并利用特征层知识蒸馏损失函数使学生网络模型模仿教师网络模型的特征层。
进一步地,步骤S22中,第三分辨率特征金字塔对应的通道注意力图QT的计算公式为:
其中,T表示教师网络模型,H表示特征图的宽,W表示特征图的高,FT表示第三分辨率特征金字塔的某一层特征图;
第三分辨率特征金字塔对应的空间注意力图MT的计算公式为:
其中,C表示特征图的通道个数,n表示幂运算次数;
第四分辨率特征金字塔对应的通道注意力图QS的计算公式为:
其中,S表示学生网络模型,FS表示第四分辨率特征金字塔的某一层特征图;
第四分辨率特征金字塔对应的空间注意力图MS的计算公式为:
特征层知识蒸馏损失函数LossF的表达式为:
LossF=Lossc+Lossm+Lossg
其中,Lossc表示通道注意力知识蒸馏损失函数,Lossm表示空间注意力知识蒸馏损失函数,Lossg表示注意力引导的特征图知识蒸馏损失函数。
进一步地,步骤S23中,进行分类操作的计算公式为:
其中,表示学生网络模型的分类层损失函数,μ表示学生网络模型输出与标签的损失函数的权重,Lhard(·)表示学生网络模型输出与标签的损失函数,/>表示学生网络模型分类层的输出,ycls表示分类标签,Lsoft(·)表示类加权交叉熵损失函数,/>表示教师网络模型分类层的输出,wcls表示加权交叉熵损失函数的权值;
进行回归操作的计算公式为:
其中,表示学生网络模型回归层知识蒸馏损失函数,/>表示学生网络模型回归层输出,/>表示教师网络回归层输出,yreg表示回归层所需标签,LIOU(·)表示IOU损失函数,Treg表示教师网络模型回归层输出,/>表示学生网络回归层损失,v表示回归层知识蒸馏的损失占总回归层损失的比重;
进行中心距离损失操作的计算公式为:
其中,表示学生网络模型中心点距离知识蒸馏损失函数,/>表示学生网络模型中心点距离预测层的输出,/>表示教师网络模型中心点距离预测层的输出,ycn表示中心点距离的标签,LBCE(·)表示BCE损失函数,Tcn表示中心点距离的阈值。
本发明的有益效果是:
(1)将知识蒸馏应用于表面缺陷检测领域,提出了一种新的工业缺陷检测模型训练框架,在平衡精度和速度的情况下,极大的减少了深度神经网络在计算和内存上的消耗,训练出适用于工业部署的缺陷检测模型。
(2)本发明提出的多尺度注意力机制引导的知识蒸馏方法,使学生网络模仿教师网络关注的前景注意力图,提升特征层之间知识蒸馏的效率。
附图说明
图1为知识蒸馏表面缺陷检测方法的流程图;
图2为知识蒸馏表面缺陷检测方法框架图;
图3为多尺度融合框架图;
图4为不同n次幂在网络中不同阶段的空间注意力图可视化图;
图5为基于注意力机制引导的知识蒸馏框架图;
图6为NEU数据集中知识蒸馏缺陷检测方法在NEU数据集上的测试结果图;
图7为DAGM_2007数据集中知识蒸馏缺陷检测方法在NEU数据集上的测试结果图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
在描述本发明的具体实施例之前,为使本发明的方案更加清楚完整,首先对本发明中出现的缩略语和关键术语定义进行说明:
FCOS:Fully Convolutional One-Stage Object Detection,一种基于FCN的逐像素目标检测算法,实现了无锚点(anchor-free)、单阶段的检测方案,并且提出了中心度(Center-ness)的思想。
如图1所示,本发明提供了一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法,包括以下步骤:
S1:采集待检测工业设备的表面缺陷图片,构建并训练教师网络模型;
S2:基于训练好的教师网络模型,将表面缺陷图片输入至学生网络模型,并对学生网络模型进行训练;
S3:利用训练好的学生网络模型对采集的表面缺陷图片进行检测,完成对工业设备的表面缺陷检测。
在本发明实施例中,提出的基于多尺度注意力引导的表面缺陷检测方法如图2所示,分为以下2个步骤:
第一,训练一个强大的多分辨率输入的教师网络,将低分辨率输入得到的特征金字塔和高分辨率输入得到的特征金字塔进行融合,再同时将低分辨率、高分辨率、高低分辨率融合后的特征层输入到FCOS检测头的部分进行端到端的训练,最终将融合模型作为强大的多尺度教师。
第二,在教师网络的指导下训练一个更精简的学生网络。为了更高效的在特征之间进行知识蒸馏,提出了一种多尺度注意力机制引导的蒸馏方法,使学生网络的特征模仿多尺度教师融合特征的关键位置。对于分类层和回归层的知识蒸馏,我们首先对教师模型的输出结果加以噪声以达到正则化的效果,然后引入加权交叉熵损失来解决缺陷检测中的前景背景不平衡的问题。训练学生网络时,采用早停正则化蒸馏策略,即接近收敛时要提前停止蒸馏以达到最好的蒸馏效果。
在本发明实施例中,步骤S1包括以下子步骤:
S11:采集待检测工业设备的表面缺陷图片,对表面缺陷图片依次进行预处理和下采样,并将下采样后的表面缺陷图片作为第一分辨率图片,将采集的原表面缺陷图片作为第二分辨率图片;
S12:将第一分辨率图片和第二分辨率图片输入至教师网络模型中,分别得到第一分辨率特征金字塔和第二分辨率特征金字塔,并将第一分辨率特征金字塔和第二分辨率特征金字塔中具有相同大小的特征层进行融合,得到第三分辨率特征金字塔;
S13:将第一分辨率特征金字塔、第二分辨率特征金字塔和第三分辨率特征金字塔输入至教师网络模型的头部,进行训练。
在本发明实施例中,多尺度融合的FCOS教师网络模型中,将低分辨率缺陷图片和高分辨率缺陷图片同时作为多尺度融合教师网络的输入,并将低分辨率特征金字塔和高分辨率特征金字塔具有相同输出大小的层进行融合,如图3所示,使教师模型同时学习到高分辨率和低分辨率的特征。在实际部署时,为了达到实时性的要求,学生网络一般为低分辨率的输入,因此,在知识蒸馏的过程中,该多尺度融合教师网络能够很好的与低分辨率的学生网络相兼容。
为了让学生网络更高效的在特征层模仿教师网络,本发明提出了对特征金字塔的不同层进行不同力度的注意力引导的知识蒸馏。首先对网络不同阶段的特征图所有通道进行一个取均值的运算,再对结果进行一个n次幂的运算,最后再将特征图上采样到原图大小,其中不同n次幂在网络中不同阶段的空间注意力图可视化如图4所示,n越大,网络就会将注意力放在激活值越高的部分。不同网络层,注意力图也有所不同,在较低的网络层中,注意力图在缺陷周围具有较高的激活值,在较高的网络层中,注意力图激活值主要对应于缺陷整体部分,而不关注细节。因此本发明提出对不同层应进行不同力度的注意力引导的知识蒸馏。
在本发明实施例中,步骤S11中,对表面缺陷图片进行预处理的具体方法为:对表面缺陷图片依次进行翻转、仿射变换和翻转;对表面缺陷图片进行下采样的具体方法为:将预处理后的表面缺陷图片进行0.5倍的缩放。
在本发明实施例中,步骤S2包括以下子步骤:
S21:将第一分辨率图片输入至学生网络模型中,并对第一分辨率特征金字塔进行特征适应性处理,得到第四分辨率特征金字塔;
S22:对第三分辨率特征金字塔和第四分辨率特征金字塔进行知识蒸馏操作,以使学生网络模型模仿教师网络模型;
进行知识蒸馏操作的目的是是学生网络模型模仿教师网络特征金字塔层的输出,后续步骤是对学生网络模型的训练,这一部分的损失函数就包括S22阶段与教师网络模型之间的知识蒸馏的损失,也包括学生网络模型自身输出端与标签之间的硬损失;
S23:在完成训练的教师网络模型和完成模仿的学生网络模型的输出层依次进行分类操作、回归操作和中心距离损失操作,并固定教师网络模型的参数,利用教师网络模型对学生网络模型进行训练。
在本发明实施例中,步骤S21中,对第一分辨率特征金字塔进行特征适应性处理的具体方法为:对第一分辨率特征金字塔中各个特征层的所有通道依次进行均值运算和n次幂运算,并进行上采样,得到第四分辨率特征金字塔。
在本发明实施例中,步骤S22中,进行知识蒸馏操作的具体方法为:分别对第三分辨率特征金字塔和第四分辨率特征金字塔进行通道注意力操作和空间注意力操作,得到各自对应的通道注意力图和空间注意力图;利用最小化平方误差损失函数使学生网络模型模仿教师网络模型的通道注意力图和空间注意力图;将第三分辨率特征金字塔和第四分辨率特征金字塔各自对应的通道注意力图和空间注意力图分别与其特征层相乘,并利用特征层知识蒸馏损失函数使学生网络模型模仿教师网络模型的特征层。用L2 loss的目的就是让学生网络的通道注意力图和空间注意力图去学习教师网络的对应部分。第一次L2学习的是注意力图,第二次L2学习的是特征图。
基于注意力机制引导的知识蒸馏框架图如图5所示,首先对经过多尺度融合后的教师特征金字塔层和经过特征适应操作后的学生金字塔层进行通道注意力和空间注意力操作,然后分别对它们的通道注意力图和空间注意力图作L2Loss,最后将它们的特征金字塔层乘上对应的空间注意力图和通道注意力图,再作一个L2loss作为注意力引导的蒸馏Loss。并且对特征金子塔的不同层赋予不同的蒸馏权重,蒸馏权重取值为0到1,代表对不同层的蒸馏力度。
在本发明实施例中,如图5所示,为基于注意力机制引导的知识蒸馏框架图,特征层知识蒸馏主要由三部分组成:空间注意力知识蒸馏、通道注意力知识蒸馏和注意力引导的特征图知识蒸馏。首先,定义FT为教师网络T经过多尺度融合后的特征金字塔的某一层特征图,FS为学生网络S的特征金字塔网络对应的某一层特征图。QT和QS分别表示FT和FS的通道注意力图且QT和QS的维度为(C,1,1),其中C为特征图的通道个数。MT和MS分别表示FT和FS的空间注意力图且MT和MS的维度为(H,W,1),其中,H和W分别为特征图的宽高。
在本发明实施例中,步骤S22中,第三分辨率特征金字塔对应的通道注意力图QT的计算公式为:
其中,T表示教师网络模型,H表示特征图的宽,W表示特征图的高,FT表示第三分辨率特征金字塔的某一层特征图;
第三分辨率特征金字塔对应的空间注意力图MT的计算公式为:
其中,C表示特征图的通道个数,n表示幂运算次数;
第四分辨率特征金字塔对应的通道注意力图Qs的计算公式为:
其中,S表示学生网络模型,FS表示第四分辨率特征金字塔的某一层特征图;
第四分辨率特征金字塔对应的空间注意力图Ms的计算公式为:
特征层知识蒸馏损失函数LossF的表达式为:
LossF=Lossc+Lossm+Lossg
其中,Lossc表示通道注意力知识蒸馏损失函数,Lossm表示空间注意力知识蒸馏损失函数,Lossg表示注意力引导的特征图知识蒸馏损失函数。
在本发明实施例中,步骤S23中,进行分类操作的计算公式为:
其中,表示学生网络模型的分类层损失函数,μ表示学生网络模型输出与标签的损失函数的权重,Lhard(·)表示学生网络模型输出与标签的损失函数,/>表示学生网络模型分类层的输出,ycls表示分类标签,Lsoft(·)表示类加权交叉熵损失函数,/>表示教师网络模型分类层的输出,wcls表示加权交叉熵损失函数的权值;
进行回归操作的计算公式为:
其中,表示学生网络模型回归层知识蒸馏损失函数,/>表示学生网络模型回归层输出,/>表示教师网络回归层输出,yreg表示回归层所需标签,LIOU(·)表示IOU损失函数,Treg表示教师网络模型回归层输出,/>表示学生网络回归层损失,v表示回归层知识蒸馏的损失占总回归层损失的比重;
进行中心距离损失操作的计算公式为:
其中,表示学生网络模型中心点距离知识蒸馏损失函数,/>表示学生网络模型中心点距离预测层的输出,/>表示教师网络模型中心点距离预测层的输出,ycn表示中心点距离的标签,LBCE(·)表示BCE损失函数,Tcn表示中心点距离的阈值。
下面详细说明本发明在NEU数据集与DAGM_2007数据集上的实验结果。
NEU数据集是由东北大学(NEU)发布的表面缺陷数据库,收集了热轧钢带的六种典型表面缺陷,即开裂(crazing)、斑块(patches)、内含物(inclusion)、点蚀(pitted_surface)、轧制氧化皮(rolled-in_scale)、划痕(scratches)。NEU数据集共有1800张缺陷图片,以8:2的比例将NEU数据集划分为训练集和测试集。表1展示了NEU训练集与测试集中缺陷数量的统计情况,表2展示了教师网络和学生网络在NEU数据集上的测试结果。图6展示了NEU数据集中基于多尺度注意力引导的知识蒸馏缺陷检测方法在NEU数据集上的测试结果。
表1
Label | Train | Test | Total | |
开裂 | 1 | 547 | 142 | 716 |
斑块 | 2 | 712 | 169 | 881 |
内含物 | 3 | 810 | 201 | 1011 |
点蚀 | 4 | 350 | 82 | 432 |
轧制氧化皮 | 5 | 510 | 118 | 628 |
划痕 | 6 | 428 | 120 | 548 |
表2
AP | AP50 | AP75 | AR | InferenceTime(s) | |
Teacher | 38.53 | 69.3 | 38.99 | 27.5 | 0.103 |
Student | 38.47 | 69.44 | 39.03 | 27.8 | 0.077 |
DAGM_2007是一个各类纹理的表面缺陷图像数据集,以用于工业光学检测的算法的提升。DAGM_2007包含有10类缺陷,数据是人为生成的,但是其中大部分图像都是无缺陷图像,将DAGM_2007整理为可用于算法训练与测试的数据集后,其中训练集合测试集缺陷数量统计情况如表3所示。表4展示了教师网络和学生网络在DAGM_2007数据集上的测试结果。图7展示了DAGM_2007数据集中基于多尺度注意力引导的知识蒸馏缺陷检测方法在NEU数据集上的测试结果。
表3
Label | DAGM_train | DAGM_test | Total | |
class1 | 1 | 79 | 71 | 150 |
class2 | 2 | 66 | 84 | 150 |
class3 | 3 | 66 | 84 | 150 |
class4 | 4 | 82 | 68 | 150 |
class5 | 5 | 70 | 80 | 150 |
class6 | 6 | 83 | 67 | 150 |
class7 | 7 | 150 | 150 | 300 |
class8 | 8 | 150 | 150 | 300 |
class9 | 9 | 150 | 150 | 300 |
class10 | 10 | 150 | 150 | 300 |
表4
AP | AP50 | AP75 | AR | InferenceTime(s) | |
Teacher | 63.08 | 97.97 | 71.45 | 70.8 | 0.096 |
Student | 52.35 | 94.12 | 54.35 | 60.5 | 0.078 |
本发明的工作原理及过程为:本发明提出了一种基于注意力引导的知识蒸馏表面设备表面缺陷检测方法,为了能够更好的对教师模型进行知识提炼,针对特征层的知识蒸馏,本发明采用注意力机制引导的蒸馏方法,使学生对前景物体的特征进行更好的学习,并且对特征金字塔进行不同力度的知识蒸馏,使学生模型更有针对性的进行特征学习。针对输出层的知识蒸馏,本发明采用类加权交叉熵作为蒸馏损失,能够更好的处理缺陷检测过程中背景与前景数量严重不平衡的问题。此外教师网络和学生网络采用free-anchor检测模型FCOS,free-anchor检测模型拥有许多优点:1、不需要调与anchor相关的超参数;2、避免大量计算GT boxes和anchor boxes之间的IOU;3、anchor-free的方法由于网络结构简单,对于工业应用来说更加友好。
本发明的有益效果为:
(1)将知识蒸馏应用于表面缺陷检测领域,提出了一种新的工业缺陷检测模型训练框架,在平衡精度和速度的情况下,极大的减少了深度神经网络在计算和内存上的消耗,训练出适用于工业部署的缺陷检测模型。
(2)本发明提出的多尺度注意力机制引导的知识蒸馏方法,使学生网络模仿教师网络关注的前景注意力图,提升特征层之间知识蒸馏的效率。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (5)
1.一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法,其特征在于,包括以下步骤:
S1:采集待检测工业设备的表面缺陷图片,构建并训练教师网络模型;
S2:基于训练好的教师网络模型,将表面缺陷图片输入至学生网络模型,并对学生网络模型进行训练;
S3:利用训练好的学生网络模型对采集的表面缺陷图片进行检测,完成对工业设备的表面缺陷检测;
所述步骤S1包括以下子步骤:
S11:采集待检测工业设备的表面缺陷图片,对表面缺陷图片依次进行预处理和下采样,并将下采样后的表面缺陷图片作为第一分辨率图片,将采集的原表面缺陷图片作为第二分辨率图片;
S12:将第一分辨率图片和第二分辨率图片输入至教师网络模型中,分别得到第一分辨率特征金字塔和第二分辨率特征金字塔,并将第一分辨率特征金字塔和第二分辨率特征金字塔中具有相同大小的特征层进行融合,得到第三分辨率特征金字塔;
S13:将第一分辨率特征金字塔、第二分辨率特征金字塔和第三分辨率特征金字塔输入至教师网络模型的头部,进行训练;
所述步骤S2包括以下子步骤:
S21:将第一分辨率图片输入至学生网络模型中,并对第一分辨率特征金字塔进行特征适应性处理,得到第四分辨率特征金字塔;
S22:对第三分辨率特征金字塔和第四分辨率特征金字塔进行知识蒸馏操作,以使学生网络模型模仿教师网络模型;
S23:在完成训练的教师网络模型和完成模仿的学生网络模型的输出层依次进行分类操作、回归操作和中心距离损失操作,并固定教师网络模型的参数,利用教师网络模型对学生网络模型进行训练;
所述步骤S21中,对第一分辨率特征金字塔进行特征适应性处理的具体方法为:对第一分辨率特征金字塔中各个特征层的所有通道依次进行均值运算和n次幂运算,并进行上采样,得到第四分辨率特征金字塔。
2.根据权利要求1所述的基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法,其特征在于,所述步骤S11中,对表面缺陷图片进行预处理的具体方法为:对表面缺陷图片依次进行翻转、仿射变换和翻转;对表面缺陷图片进行下采样的具体方法为:将预处理后的表面缺陷图片进行0.5倍的缩放。
3.根据权利要求1所述的基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法,其特征在于,所述步骤S22中,进行知识蒸馏操作的具体方法为:分别对第三分辨率特征金字塔和第四分辨率特征金字塔进行通道注意力操作和空间注意力操作,得到各自对应的通道注意力图和空间注意力图;利用最小化平方误差损失函数使学生网络模型模仿教师网络模型的通道注意力图和空间注意力图;将第三分辨率特征金字塔和第四分辨率特征金字塔各自对应的通道注意力图和空间注意力图分别与其特征层相乘,并利用特征层知识蒸馏损失函数使学生网络模型模仿教师网络模型的特征层。
4.根据权利要求3所述的基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法,其特征在于,所述步骤S22中,第三分辨率特征金字塔对应的通道注意力图QT的计算公式为:
其中,T表示教师网络模型,H表示特征图的宽,W表示特征图的高,FT表示第三分辨率特征金字塔的某一层特征图;
第三分辨率特征金字塔对应的空间注意力图MT的计算公式为:
其中,C表示特征图的通道个数,n表示幂运算次数;
第四分辨率特征金字塔对应的通道注意力图QS的计算公式为:
其中,S表示学生网络模型,FS表示第四分辨率特征金字塔的某一层特征图;
第四分辨率特征金字塔对应的空间注意力图MS的计算公式为:
特征层知识蒸馏损失函数LossF的表达式为:
LossF=LosSc+LoSSm+Lossg
其中,Lossc表示通道注意力知识蒸馏损失函数,Lossm表示空间注意力知识蒸馏损失函数,Lossg表示注意力引导的特征图知识蒸馏损失函数。
5.根据权利要求1所述的基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法,其特征在于,所述步骤S23中,进行分类操作的计算公式为:
其中,表示学生网络模型的分类层损失函数,μ表示学生网络模型输出与标签的损失函数的权重,Lhard(·)表示学生网络模型输出与标签的损失函数,/>表示学生网络模型分类层的输出,ycls表示分类标签,Lsoft(·)表示类加权交叉熵损失函数,/>表示教师网络模型分类层的输出,wcls表示加权交叉熵损失函数的权值;/>
进行回归操作的计算公式为:
其中,表示学生网络模型回归层知识蒸馏损失函数,Preg表示学生网络模型回归层输出,/>表示教师网络回归层输出,yreg表示回归层所需标签,LIOU(·)表示IOU损失函数,Treg表示教师网络模型回归层输出,/>表示学生网络回归层损失,ν表示回归层知识蒸馏的损失占总回归层损失的比重;
进行中心距离损失操作的计算公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111246430.8A CN113947590B (zh) | 2021-10-26 | 2021-10-26 | 一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111246430.8A CN113947590B (zh) | 2021-10-26 | 2021-10-26 | 一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113947590A CN113947590A (zh) | 2022-01-18 |
CN113947590B true CN113947590B (zh) | 2023-05-23 |
Family
ID=79332354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111246430.8A Active CN113947590B (zh) | 2021-10-26 | 2021-10-26 | 一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947590B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230259760A1 (en) * | 2022-02-14 | 2023-08-17 | Samsung Display Co., Ltd. | System and method for defect detection |
CN114820444A (zh) * | 2022-03-21 | 2022-07-29 | 东华大学 | 基于多注意力宽度神经网络模型的混合缺陷识别方法 |
CN114972952B (zh) * | 2022-05-29 | 2024-03-22 | 重庆科技学院 | 一种基于模型轻量化的工业零部件缺陷识别方法 |
CN114998570B (zh) * | 2022-07-19 | 2023-03-28 | 上海闪马智能科技有限公司 | 一种对象检测框的确定方法、装置、存储介质及电子装置 |
CN115631178B (zh) * | 2022-11-03 | 2023-11-10 | 昆山润石智能科技有限公司 | 自动晶圆缺陷检测方法、系统、设备及存储介质 |
CN115861736B (zh) * | 2022-12-14 | 2024-04-26 | 广州科盛隆纸箱包装机械有限公司 | 基于知识蒸馏的高速瓦楞纸箱印刷缺陷检测方法、系统及存储介质 |
CN115965609B (zh) * | 2023-01-03 | 2023-08-04 | 江南大学 | 利用知识蒸馏的陶瓷基板瑕疵智能检测方法 |
CN116385794B (zh) * | 2023-04-11 | 2024-04-05 | 河海大学 | 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置 |
CN116778300B (zh) * | 2023-06-25 | 2023-12-05 | 北京数美时代科技有限公司 | 一种基于知识蒸馏的小目标检测方法、系统和存储介质 |
CN117474914B (zh) * | 2023-12-27 | 2024-04-12 | 湖南大学 | 一种基于轻量化神经网络的飞机蒙皮表面缺陷检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158969A (zh) * | 2021-05-10 | 2021-07-23 | 上海畅选科技合伙企业(有限合伙) | 一种苹果外观缺陷识别系统及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180247549A1 (en) * | 2017-02-21 | 2018-08-30 | Scriyb LLC | Deep academic learning intelligence and deep neural language network system and interfaces |
CN108764462A (zh) * | 2018-05-29 | 2018-11-06 | 成都视观天下科技有限公司 | 一种基于知识蒸馏的卷积神经网络优化方法 |
US20200175384A1 (en) * | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | System and method for incremental learning |
US11488010B2 (en) * | 2018-12-29 | 2022-11-01 | Northeastern University | Intelligent analysis system using magnetic flux leakage data in pipeline inner inspection |
CN110135562B (zh) * | 2019-04-30 | 2020-12-01 | 中国科学院自动化研究所 | 基于特征空间变化的蒸馏学习方法、系统、装置 |
US11151713B2 (en) * | 2019-09-18 | 2021-10-19 | Wipro Limited | Method and system for detection of anomalies in surfaces |
CN111126573B (zh) * | 2019-12-27 | 2023-06-09 | 深圳力维智联技术有限公司 | 基于个体学习的模型蒸馏改进方法、设备及存储介质 |
CN112766087A (zh) * | 2021-01-04 | 2021-05-07 | 武汉大学 | 一种基于知识蒸馏的光学遥感图像舰船检测方法 |
CN112991330B (zh) * | 2021-04-19 | 2021-08-13 | 征图新视(江苏)科技股份有限公司 | 基于知识蒸馏的正样本工业缺陷检测方法 |
-
2021
- 2021-10-26 CN CN202111246430.8A patent/CN113947590B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158969A (zh) * | 2021-05-10 | 2021-07-23 | 上海畅选科技合伙企业(有限合伙) | 一种苹果外观缺陷识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113947590A (zh) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113947590B (zh) | 一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法 | |
Kou et al. | Development of a YOLO-V3-based model for detecting defects on steel strip surface | |
Xue et al. | A fast detection method via region‐based fully convolutional neural networks for shield tunnel lining defects | |
CN104050471B (zh) | 一种自然场景文字检测方法及系统 | |
CN111080620B (zh) | 一种基于深度学习的道路病害检测方法 | |
CN103049763B (zh) | 一种基于上下文约束的目标识别方法 | |
CN110097053B (zh) | 一种基于改进Faster-RCNN的电力设备外观缺陷检测方法 | |
CN107680090A (zh) | 基于改进全卷积神经网络的输电线路绝缘子状态识别方法 | |
CN107506722A (zh) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 | |
CN107886133A (zh) | 一种基于深度学习的地下管道缺陷自动识别方法 | |
CN103048329B (zh) | 一种基于主动轮廓模型的路面裂缝检测方法 | |
CN103984959A (zh) | 一种基于数据与任务驱动的图像分类方法 | |
CN107945153A (zh) | 一种基于深度学习的路面裂缝检测方法 | |
CN104392463A (zh) | 一种基于联合稀疏多尺度融合的图像显著区域检测方法 | |
CN106022363B (zh) | 一种适用于自然场景下的中文文字识别方法 | |
CN112750129B (zh) | 一种基于特征增强位置注意力机制的图像语义分割模型 | |
CN105184265A (zh) | 一种基于自学习的手写表格数字字符串快速识别的方法 | |
CN110032952B (zh) | 一种基于深度学习的道路边界点检测方法 | |
CN107545571A (zh) | 一种图像检测方法及装置 | |
CN100382600C (zh) | 动态场景下的运动物体检测方法 | |
CN111191610A (zh) | 一种视频监控中人流量检测与处理方法 | |
CN111540203B (zh) | 基于Faster-RCNN调节绿灯通行时间的方法 | |
Fan et al. | Application of YOLOv5 neural network based on improved attention mechanism in recognition of Thangka image defects | |
CN115830535A (zh) | 一种变电站周边区域积水检测方法、系统、设备及介质 | |
Manzari et al. | A robust network for embedded traffic sign recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |