CN113947590B

CN113947590B - 一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法

Info

Publication number: CN113947590B
Application number: CN202111246430.8A
Authority: CN
Inventors: 吕建成; 郎九霖; 汤臣薇; 高毅; 胡宴清; 贺喆南
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2023-05-23
Anticipated expiration: 2041-10-26
Also published as: CN113947590A

Abstract

本发明公开了一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法，包括以下步骤：S1：采集待检测工业设备的表面缺陷图片，构建并训练教师网络模型；S2：将表面缺陷图片输入至学生网络模型，并对学生网络模型进行训练；S3：对采集的表面缺陷图片进行检测，完成对工业设备的表面缺陷检测。将知识蒸馏应用于表面缺陷检测领域，提出了一种新的工业缺陷检测模型训练框架，在平衡精度和速度的情况下，极大的减少了深度神经网络在计算和内存上的消耗，训练出适用于工业部署的缺陷检测模型。本发明提出的多尺度注意力机制引导的知识蒸馏方法，使学生网络模仿教师网络关注的前景注意力图，提升特征层之间知识蒸馏的效率。

Description

一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法

技术领域

本发明属于图像检测技术领域，具体涉及一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法。

背景技术

工业生产环境中的设备由于长期运行并且暴露于空气之中，其表面会出现各种各样的缺陷，如腐蚀，开裂，脱落，起泡等缺陷，这些缺陷如果不及时修复，会严重影响设备的使用寿命和降低生产的效率与质量。深度学习方法在计算机视觉领域取得了巨大的成功，具有强大的自动学习特征的能力，许多人眼难以直接量化的特征，深度学习都能够轻松搞定。在计算机视觉领域，图像分类、目标检测和物体分割这些问题利用深度学习都得到了很好的解决。目前，性能最强的基于深度学习的目标检测算法不能直接应用于工业检测领域，因为这些最先进的深度神经网络总是消耗大量的计算和内存，这限制了算法在边缘设备如移动端或嵌入式设备上的部署。为了解决这一难题，提出了许多技术，包括减枝、模型压缩和知识蒸馏等。其中，知识蒸馏是将大型模型的知识转移到小型模型，从而提高小型模型的性能并达到模型压缩的目的。由于其简单，有效，在工业界被广泛应用。本发明开创性的将知识蒸馏应用到表面缺陷检测领域，并且提出多尺度注意力机制引导技术，使学生网络更有效的模仿教师网络，达到更有效的知识蒸馏效果。

基于传统的目标检测方法，首先在给定的缺陷图片上通过滑动窗口的方法选择一些候选的区域，然后对这些区域进行特征提取的操作，如抽取基本的直方图特征，常见的纹理特征等，最后使用训练好的分类器对缺陷进行分类。传统的目标检测算法只适用于有明显特征，背景简单的情形。在真实的工业生产环境中，背景复杂多变，光照条件也各不相同，并且待检测的缺陷目标复杂多变，很难通过一般的抽象特征完成对缺陷的检测。基于深度学习的目标检测方法。首先对大量图片数据进行缺陷位置和种类的标注，然后将深度神经网络在标注好的数据上进行训练，最后由训练好的网络完成对缺陷位置和种类的预测。目前，性能最强的基于深度学习的目标检测算法不能直接应用于工业检测领域，因为这些最先进的深度神经网络总是消耗大量的计算和内存，这限制了算法在边缘设备如移动端或嵌入式设备上的部署。

发明内容

本发明的目的是为了解决工业缺陷检测的问题，提出了一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法。

本发明的技术方案是：一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法包括以下步骤：

S1：采集待检测工业设备的表面缺陷图片，构建并训练教师网络模型；

S2：基于训练好的教师网络模型，将表面缺陷图片输入至学生网络模型，并对学生网络模型进行训练；

S3：利用训练好的学生网络模型对采集的表面缺陷图片进行检测，完成对工业设备的表面缺陷检测。

进一步地，步骤S1包括以下子步骤：

S11：采集待检测工业设备的表面缺陷图片，对表面缺陷图片依次进行预处理和下采样，并将下采样后的表面缺陷图片作为第一分辨率图片，将采集的原表面缺陷图片作为第二分辨率图片；

S12：将第一分辨率图片和第二分辨率图片输入至教师网络模型中，分别得到第一分辨率特征金字塔和第二分辨率特征金字塔，并将第一分辨率特征金字塔和第二分辨率特征金字塔中具有相同大小的特征层进行融合，得到第三分辨率特征金字塔；

S13：将第一分辨率特征金字塔、第二分辨率特征金字塔和第三分辨率特征金字塔输入至教师网络模型的头部，进行训练。

进一步地，步骤S11中，对表面缺陷图片进行预处理的具体方法为：对表面缺陷图片依次进行翻转、仿射变换和翻转；对表面缺陷图片进行下采样的具体方法为：将预处理后的表面缺陷图片进行0.5倍的缩放。

进一步地，步骤S2包括以下子步骤：

S21：将第一分辨率图片输入至学生网络模型中，并对第一分辨率特征金字塔进行特征适应性处理，得到第四分辨率特征金字塔；

S22：对第三分辨率特征金字塔和第四分辨率特征金字塔进行知识蒸馏操作，以使学生网络模型模仿教师网络模型；

S23：在完成训练的教师网络模型和完成模仿的学生网络模型的输出层依次进行分类操作、回归操作和中心距离损失操作，并固定教师网络模型的参数，利用教师网络模型对学生网络模型进行训练。

进一步地，步骤S21中，对第一分辨率特征金字塔进行特征适应性处理的具体方法为：对第一分辨率特征金字塔中各个特征层的所有通道依次进行均值运算和n次幂运算，并进行上采样，得到第四分辨率特征金字塔。

进一步地，步骤S22中，进行知识蒸馏操作的具体方法为：分别对第三分辨率特征金字塔和第四分辨率特征金字塔进行通道注意力操作和空间注意力操作，得到各自对应的通道注意力图和空间注意力图；利用最小化平方误差损失函数使学生网络模型模仿教师网络模型的通道注意力图和空间注意力图；将第三分辨率特征金字塔和第四分辨率特征金字塔各自对应的通道注意力图和空间注意力图分别与其特征层相乘，并利用特征层知识蒸馏损失函数使学生网络模型模仿教师网络模型的特征层。

进一步地，步骤S22中，第三分辨率特征金字塔对应的通道注意力图Q^T的计算公式为：

其中，T表示教师网络模型，H表示特征图的宽，W表示特征图的高，F^T表示第三分辨率特征金字塔的某一层特征图；

第三分辨率特征金字塔对应的空间注意力图M^T的计算公式为：

其中，C表示特征图的通道个数，n表示幂运算次数；

第四分辨率特征金字塔对应的通道注意力图Q^S的计算公式为：

其中，S表示学生网络模型，F^S表示第四分辨率特征金字塔的某一层特征图；

第四分辨率特征金字塔对应的空间注意力图M^S的计算公式为：

特征层知识蒸馏损失函数Loss_F的表达式为：

Loss_F＝Loss_c+Loss_m+Loss_g

其中，Loss_c表示通道注意力知识蒸馏损失函数，Loss_m表示空间注意力知识蒸馏损失函数，Loss_g表示注意力引导的特征图知识蒸馏损失函数。

进一步地，步骤S23中，进行分类操作的计算公式为：

其中，

表示学生网络模型的分类层损失函数，μ表示学生网络模型输出与标签的损失函数的权重，L_hard(·)表示学生网络模型输出与标签的损失函数，/>

表示学生网络模型分类层的输出，y_cls表示分类标签，L_soft(·)表示类加权交叉熵损失函数，/>

表示教师网络模型分类层的输出，w_cls表示加权交叉熵损失函数的权值；

进行回归操作的计算公式为：

其中，

表示学生网络模型回归层知识蒸馏损失函数，/>

表示学生网络模型回归层输出，/>

表示教师网络回归层输出，y_reg表示回归层所需标签，L_IOU(·)表示IOU损失函数，T_reg表示教师网络模型回归层输出，/>

表示学生网络回归层损失，v表示回归层知识蒸馏的损失占总回归层损失的比重；

进行中心距离损失操作的计算公式为：

其中，

表示学生网络模型中心点距离知识蒸馏损失函数，/>

表示学生网络模型中心点距离预测层的输出，/>

表示教师网络模型中心点距离预测层的输出，y_cn表示中心点距离的标签，L_BCE(·)表示BCE损失函数，T_cn表示中心点距离的阈值。

本发明的有益效果是：

(1)将知识蒸馏应用于表面缺陷检测领域，提出了一种新的工业缺陷检测模型训练框架，在平衡精度和速度的情况下，极大的减少了深度神经网络在计算和内存上的消耗，训练出适用于工业部署的缺陷检测模型。

(2)本发明提出的多尺度注意力机制引导的知识蒸馏方法，使学生网络模仿教师网络关注的前景注意力图，提升特征层之间知识蒸馏的效率。

附图说明

图1为知识蒸馏表面缺陷检测方法的流程图；

图2为知识蒸馏表面缺陷检测方法框架图；

图3为多尺度融合框架图；

图4为不同n次幂在网络中不同阶段的空间注意力图可视化图；

图5为基于注意力机制引导的知识蒸馏框架图；

图6为NEU数据集中知识蒸馏缺陷检测方法在NEU数据集上的测试结果图；

图7为DAGM_2007数据集中知识蒸馏缺陷检测方法在NEU数据集上的测试结果图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

在描述本发明的具体实施例之前，为使本发明的方案更加清楚完整，首先对本发明中出现的缩略语和关键术语定义进行说明：

FCOS：Fully Convolutional One-Stage Object Detection，一种基于FCN的逐像素目标检测算法，实现了无锚点(anchor-free)、单阶段的检测方案，并且提出了中心度(Center-ness)的思想。

如图1所示，本发明提供了一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法，包括以下步骤：

在本发明实施例中，提出的基于多尺度注意力引导的表面缺陷检测方法如图2所示，分为以下2个步骤：

第一，训练一个强大的多分辨率输入的教师网络，将低分辨率输入得到的特征金字塔和高分辨率输入得到的特征金字塔进行融合，再同时将低分辨率、高分辨率、高低分辨率融合后的特征层输入到FCOS检测头的部分进行端到端的训练，最终将融合模型作为强大的多尺度教师。

第二，在教师网络的指导下训练一个更精简的学生网络。为了更高效的在特征之间进行知识蒸馏，提出了一种多尺度注意力机制引导的蒸馏方法，使学生网络的特征模仿多尺度教师融合特征的关键位置。对于分类层和回归层的知识蒸馏，我们首先对教师模型的输出结果加以噪声以达到正则化的效果，然后引入加权交叉熵损失来解决缺陷检测中的前景背景不平衡的问题。训练学生网络时，采用早停正则化蒸馏策略，即接近收敛时要提前停止蒸馏以达到最好的蒸馏效果。

在本发明实施例中，步骤S1包括以下子步骤：

在本发明实施例中，多尺度融合的FCOS教师网络模型中，将低分辨率缺陷图片和高分辨率缺陷图片同时作为多尺度融合教师网络的输入，并将低分辨率特征金字塔和高分辨率特征金字塔具有相同输出大小的层进行融合，如图3所示，使教师模型同时学习到高分辨率和低分辨率的特征。在实际部署时，为了达到实时性的要求，学生网络一般为低分辨率的输入，因此，在知识蒸馏的过程中，该多尺度融合教师网络能够很好的与低分辨率的学生网络相兼容。

为了让学生网络更高效的在特征层模仿教师网络，本发明提出了对特征金字塔的不同层进行不同力度的注意力引导的知识蒸馏。首先对网络不同阶段的特征图所有通道进行一个取均值的运算，再对结果进行一个n次幂的运算，最后再将特征图上采样到原图大小，其中不同n次幂在网络中不同阶段的空间注意力图可视化如图4所示，n越大，网络就会将注意力放在激活值越高的部分。不同网络层，注意力图也有所不同，在较低的网络层中，注意力图在缺陷周围具有较高的激活值，在较高的网络层中，注意力图激活值主要对应于缺陷整体部分，而不关注细节。因此本发明提出对不同层应进行不同力度的注意力引导的知识蒸馏。

在本发明实施例中，步骤S11中，对表面缺陷图片进行预处理的具体方法为：对表面缺陷图片依次进行翻转、仿射变换和翻转；对表面缺陷图片进行下采样的具体方法为：将预处理后的表面缺陷图片进行0.5倍的缩放。

在本发明实施例中，步骤S2包括以下子步骤：

进行知识蒸馏操作的目的是是学生网络模型模仿教师网络特征金字塔层的输出，后续步骤是对学生网络模型的训练，这一部分的损失函数就包括S22阶段与教师网络模型之间的知识蒸馏的损失，也包括学生网络模型自身输出端与标签之间的硬损失；

在本发明实施例中，步骤S21中，对第一分辨率特征金字塔进行特征适应性处理的具体方法为：对第一分辨率特征金字塔中各个特征层的所有通道依次进行均值运算和n次幂运算，并进行上采样，得到第四分辨率特征金字塔。

在本发明实施例中，步骤S22中，进行知识蒸馏操作的具体方法为：分别对第三分辨率特征金字塔和第四分辨率特征金字塔进行通道注意力操作和空间注意力操作，得到各自对应的通道注意力图和空间注意力图；利用最小化平方误差损失函数使学生网络模型模仿教师网络模型的通道注意力图和空间注意力图；将第三分辨率特征金字塔和第四分辨率特征金字塔各自对应的通道注意力图和空间注意力图分别与其特征层相乘，并利用特征层知识蒸馏损失函数使学生网络模型模仿教师网络模型的特征层。用L2 loss的目的就是让学生网络的通道注意力图和空间注意力图去学习教师网络的对应部分。第一次L2学习的是注意力图，第二次L2学习的是特征图。

基于注意力机制引导的知识蒸馏框架图如图5所示，首先对经过多尺度融合后的教师特征金字塔层和经过特征适应操作后的学生金字塔层进行通道注意力和空间注意力操作，然后分别对它们的通道注意力图和空间注意力图作L2Loss，最后将它们的特征金字塔层乘上对应的空间注意力图和通道注意力图，再作一个L2loss作为注意力引导的蒸馏Loss。并且对特征金子塔的不同层赋予不同的蒸馏权重，蒸馏权重取值为0到1，代表对不同层的蒸馏力度。

在本发明实施例中，如图5所示，为基于注意力机制引导的知识蒸馏框架图，特征层知识蒸馏主要由三部分组成：空间注意力知识蒸馏、通道注意力知识蒸馏和注意力引导的特征图知识蒸馏。首先，定义F^T为教师网络T经过多尺度融合后的特征金字塔的某一层特征图，F^S为学生网络S的特征金字塔网络对应的某一层特征图。Q^T和Q^S分别表示F^T和F^S的通道注意力图且Q^T和Q^S的维度为(C，1，1)，其中C为特征图的通道个数。M^T和M^S分别表示F^T和F^S的空间注意力图且M^T和M^S的维度为(H，W，1)，其中，H和W分别为特征图的宽高。

在本发明实施例中，步骤S22中，第三分辨率特征金字塔对应的通道注意力图Q^T的计算公式为：

其中，C表示特征图的通道个数，n表示幂运算次数；

特征层知识蒸馏损失函数Loss_F的表达式为：

Loss_F＝Loss_c+Loss_m+Loss_g

在本发明实施例中，步骤S23中，进行分类操作的计算公式为：

其中，

进行回归操作的计算公式为：

其中，

表示学生网络模型回归层知识蒸馏损失函数，/>

表示学生网络模型回归层输出，/>

进行中心距离损失操作的计算公式为：

其中，

表示学生网络模型中心点距离知识蒸馏损失函数，/>

表示学生网络模型中心点距离预测层的输出，/>

下面详细说明本发明在NEU数据集与DAGM_2007数据集上的实验结果。

NEU数据集是由东北大学(NEU)发布的表面缺陷数据库，收集了热轧钢带的六种典型表面缺陷，即开裂(crazing)、斑块(patches)、内含物(inclusion)、点蚀(pitted_surface)、轧制氧化皮(rolled-in_scale)、划痕(scratches)。NEU数据集共有1800张缺陷图片，以8:2的比例将NEU数据集划分为训练集和测试集。表1展示了NEU训练集与测试集中缺陷数量的统计情况，表2展示了教师网络和学生网络在NEU数据集上的测试结果。图6展示了NEU数据集中基于多尺度注意力引导的知识蒸馏缺陷检测方法在NEU数据集上的测试结果。

表1

	Label	Train	Test	Total
					开裂	1	547	142	716
斑块	2	712	169	881
					内含物	3	810	201	1011
点蚀	4	350	82	432
					轧制氧化皮	5	510	118	628
划痕	6	428	120	548

表2

	AP	AP₅₀	AP₇₅	AR	InferenceTime(s)
						Teacher	38.53	69.3	38.99	27.5	0.103
Student	38.47	69.44	39.03	27.8	0.077

DAGM_2007是一个各类纹理的表面缺陷图像数据集，以用于工业光学检测的算法的提升。DAGM_2007包含有10类缺陷，数据是人为生成的，但是其中大部分图像都是无缺陷图像，将DAGM_2007整理为可用于算法训练与测试的数据集后，其中训练集合测试集缺陷数量统计情况如表3所示。表4展示了教师网络和学生网络在DAGM_2007数据集上的测试结果。图7展示了DAGM_2007数据集中基于多尺度注意力引导的知识蒸馏缺陷检测方法在NEU数据集上的测试结果。

表3

	Label	DAGM_train	DAGM_test	Total
					class1	1	79	71	150
class2	2	66	84	150
					class3	3	66	84	150
class4	4	82	68	150
					class5	5	70	80	150
class6	6	83	67	150
					class7	7	150	150	300
class8	8	150	150	300
					class9	9	150	150	300
class10	10	150	150	300

表4

	AP	AP₅₀	AP₇₅	AR	InferenceTime(s)
						Teacher	63.08	97.97	71.45	70.8	0.096
Student	52.35	94.12	54.35	60.5	0.078

本发明的工作原理及过程为：本发明提出了一种基于注意力引导的知识蒸馏表面设备表面缺陷检测方法，为了能够更好的对教师模型进行知识提炼，针对特征层的知识蒸馏，本发明采用注意力机制引导的蒸馏方法，使学生对前景物体的特征进行更好的学习，并且对特征金字塔进行不同力度的知识蒸馏，使学生模型更有针对性的进行特征学习。针对输出层的知识蒸馏，本发明采用类加权交叉熵作为蒸馏损失，能够更好的处理缺陷检测过程中背景与前景数量严重不平衡的问题。此外教师网络和学生网络采用free-anchor检测模型FCOS，free-anchor检测模型拥有许多优点：1、不需要调与anchor相关的超参数；2、避免大量计算GT boxes和anchor boxes之间的IOU；3、anchor-free的方法由于网络结构简单，对于工业应用来说更加友好。

本发明的有益效果为：

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法，其特征在于，包括以下步骤：

S3：利用训练好的学生网络模型对采集的表面缺陷图片进行检测，完成对工业设备的表面缺陷检测；

所述步骤S1包括以下子步骤：

S13：将第一分辨率特征金字塔、第二分辨率特征金字塔和第三分辨率特征金字塔输入至教师网络模型的头部，进行训练；

所述步骤S2包括以下子步骤：

S23：在完成训练的教师网络模型和完成模仿的学生网络模型的输出层依次进行分类操作、回归操作和中心距离损失操作，并固定教师网络模型的参数，利用教师网络模型对学生网络模型进行训练；

所述步骤S21中，对第一分辨率特征金字塔进行特征适应性处理的具体方法为：对第一分辨率特征金字塔中各个特征层的所有通道依次进行均值运算和n次幂运算，并进行上采样，得到第四分辨率特征金字塔。

2.根据权利要求1所述的基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法，其特征在于，所述步骤S11中，对表面缺陷图片进行预处理的具体方法为：对表面缺陷图片依次进行翻转、仿射变换和翻转；对表面缺陷图片进行下采样的具体方法为：将预处理后的表面缺陷图片进行0.5倍的缩放。

3.根据权利要求1所述的基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法，其特征在于，所述步骤S22中，进行知识蒸馏操作的具体方法为：分别对第三分辨率特征金字塔和第四分辨率特征金字塔进行通道注意力操作和空间注意力操作，得到各自对应的通道注意力图和空间注意力图；利用最小化平方误差损失函数使学生网络模型模仿教师网络模型的通道注意力图和空间注意力图；将第三分辨率特征金字塔和第四分辨率特征金字塔各自对应的通道注意力图和空间注意力图分别与其特征层相乘，并利用特征层知识蒸馏损失函数使学生网络模型模仿教师网络模型的特征层。

4.根据权利要求3所述的基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法，其特征在于，所述步骤S22中，第三分辨率特征金字塔对应的通道注意力图Q^T的计算公式为：