CN114332007A

CN114332007A - 一种基于Transformer的工业缺陷检测和识别方法

Info

Publication number: CN114332007A
Application number: CN202111625693.XA
Authority: CN
Inventors: 陈平平; 严舒婷; 毛焕
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-12

Abstract

本发明涉及一种基于Transformer的工业缺陷检测和识别方法。所述方法包括：获取工业自动生产线上异常与无异常的工业产品图像作为原始数据集；将无异常的产品图像作为训练图像输入到师生框架训练网络；将学生网络的输出特征层输入到基于Transformer的自注意力机制网络；将训练后的异常检测与识别模型用于工业产品图像的预测。本发明有效的利用了产品图像不同层次的特征与特征间的信息交互，实现对异常产品的检测并定位异常位置，从而提升工业产品检测的效率。

Description

一种基于Transformer的工业缺陷检测和识别方法

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于Transformer的工业缺陷检测和识别方法。

背景技术

随着物联网技术的发展，工业领域缺陷识别算法的研发和应用成为可能。在工业自动化生产线上，生产出来的产品在个别情况下会含有一些缺陷，如凹陷、污渍、破损等。由于声誉良好的制造商致力于保持产品的一贯质量，及时发现不良产品的缺陷和异常显得尤为宝贵重要。近年来，随着工业领域的不断发展，传统的人工目视检测方法由于易受到人工经验和主观因素的影响已无法满足现行检测的要求。因此，工业领域异常检测逐渐成为计算机视觉领域一项价值与挑战并存的研究内容。

传统的基于机器视觉的异常检测方法主要采用常规图像处理算法或人工设计特征加分类器的方式。由于真实复杂的工业环境下存在较大噪声干扰，经典方法的检测效果不尽人意。目前工业异常检测的关键性挑战在于两大方面，一方面，异常是工业生产中不希望出现的，人们致力于降低异常出现的可能性，因此在实际的工业场景中。异常的情况极少发生，这就意味着能够获取的异常样本数量很少，出现了严重的样本不平衡问题。其次，异常总是出乎意料，我们无法预测其位置与大小，甚至无法确定它是否出现。

目前，深度学习方法在计算机视觉领域中得到广泛应用，并在异常检测取得了重大的进展。但关于异常定位的研究成果仍然较少，尤其是在不使用任何异常图像作为数据集的情况下。

发明内容

本发明的目的在于提供一种基于Transformer的工业缺陷检测和识别方法，该方法使用无异常图像训练师生网络模型与基于Transformer的自注意力机制模型，实现对预测图像的异常检测与异常区域定位。

为实现上述目的，本发明的技术方案是：一种基于Transformer的工业缺陷检测和识别方法，提供有基于Transformer的自注意力机制网络和师生网络，该方法包括如下步骤：

步骤S1、获取工业自动生产线上异常与无异常的产品图像x₁,x₂,......,x_N；

步骤S2、对获取到的产品图像行整理分类，将80％无异常的产品图像作为训练数据集，留取20％无异常图像与全部异常图像作为测试数据集；

步骤S3、将训练数据集图像输入到师生网络中，师生网络中的教师网络与学生网络分别从图像中提取出不同分辨率大小的特征层；

步骤S4、将学生网络提取的特征层作为基于Transformer的自注意力机制网络的输入，进行编解码；

步骤S5、将教师网络的特征层作为标签与基于Transformer的自注意力机制网络的输出一并进行训练并保存训练模型；

步骤S6、将待预测的图像输入至训练后的模型中进行异常检测，若图像检测为正常，则输出检测结果；若图像检测为异常，则输出检测与异常定位的结果。

在本发明一实施例中，步骤S1中异常与无异常的产品图像x₁,x₂,......,x_N来源于工业自动生产线上所拍摄的产品图像。

在本发明一实施例中，步骤S3中将原始数据集图像输入到师生网络框架中，将其分为两个阶段，具体包括以下步骤：

步骤S31、将训练数据集图像输入到教师网络当中，获取到不同分辨率的特征层，这部分特征层视作标签；

步骤S32、将训练数据集图像输入到学生网络当中，获取到与教师网络相同层数的不同分辨率的特征层。

在本发明一实施例中，步骤S4中基于Transformer的自注意力机制网络包括四个模块，分别是分词器、编码器、解码器、映射器；步骤S4中将学生网络提取的特征层作为基于Transformer的自注意力机制网络的输入，进行编解码的具体步骤如下：

步骤S41、将学生网络提取出的特征层输入分词器，将三维特征映射到二维空间，得到不同特征层的视觉标记；

步骤S42、将不同特征层的视觉标记输入到编码器中，编码器将不同特征层的视觉标记进行维度连接，通过自注意力机制获得带有权重信息的特征块；

步骤S43、将特征块输入到解码器，解码器以教师网络特征层提取的视觉标记信息作为标签对特征块进行解码，实现教师网络视觉标记与特征块的信息交互；

步骤S44、将解码器的输出输入到映射器中，映射器将解码器处理过的特征块映射回原学生网络特征层的三维空间。

在本发明一实施例中，步骤S5中将教师网络的特征层作为标签与基于Transformer的自注意力机制网络的输出一并进行训练并保存训练模型，具体包括以下步骤：

步骤S51、构建异常检测与识别网络对训练数据集进行训练；

步骤S52、构造异常检测与识别网络相应的损失函数，使之能够正确的对目标位置及类别信息进行检测和定位，保存训练模型。

相较于现有技术，本发明具有以下有益效果：

1、本发明提出了一种教师学生学习框架的新范式，学生网络能有效获取教师层的关键性信息，并在正常图像的数据拟合中表现出比教师网络更强的数据拟合能力，实现仅在正常图像训练网络模型。

2、本发明利用transformer的自我注意力机制，有效的增强多尺度特征之间的信息交互能力，给予异常区域更多的关注，实现异常区域的精准定位。

3、本发明针对物体类与缺陷类的产品都具有良好的异常检测和定位效果。

附图说明

图1为本发明实施例的结构流程图。

图2为本发明实施例中步骤S3构建的师生网络模型提取特征层的结构图。

图3为本发明实施例中步骤S4构建的基于Transformer的注意力机制网络模型结构图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明基于Transformer与师生网络架构的工业异常检测与定位方法，仅使用正常产品的图像作为训练数据集，而后将该数据集送入基于Transformer的自我注意力机制网络与师生网络进行训练，利用不同分辨率的特征及其信息交互，极大地提高了异常检测的准确度与异常定位精准度。

本发明提供了一种基于Transformer的工业缺陷检测和识别方法，提供有基于Transformer的自注意力机制网络和师生网络，该方法包括如下步骤：

以下为本发明具体实施实例。

如图1所示，本实施例提供了基于Transformer与师生网络架构的工业异常检测与定位方法，包括以下步骤：

步骤S1、获取工业自动生产线上异常与无异常的产品图像x₁，x₂，……，x_N；

步骤S2、对获取到的数据集进行整理分类，将80％无异常的产品图像作为网络的训练数据集，留取20％无异常图像与全部异常图像作为测试集；

步骤S3、将原始数据集图像输入到师生网络框架中，教师网络与学生网络分别从图像中提取出不同分辨率大小的特征层，具体如下：

步骤S31、第一阶段将训练图像输入到教师网络当中，获取到不同分辨率的特征层，这部分特征层视作标签；

在本实施例中，所述步骤S31具体包括以下步骤：

步骤S311、教师网络采用预训练过的ResNet18作为主干网络提取图像的关键层信息。教师网络利用ResNet18的前3个残差块，每一个残差块包含2层卷积层，去除最后的全连接层。该网络卷积层采用修正线性单元(Relu)作为激活函数，即：

最终利用教师网络提取出三层特征层ft₁，ft₂，ft₃。

步骤S32、第二阶段将训练图像输入到学生网络当中，获取到与教师网络相同层数的不同分辨率的特征层；

在本实施例中，所述步骤S32具体包括以下步骤：

步骤S321、学生网络采用未经过预训练过的ResNet18作为主干网络提取图像的关键层信息。层次结构与激活函数与教师网络相同。最终利用学生网络提取出三层特征层fs₁，fs₂，fs₃。

步骤S4、将学生网络提取的特征层作为基于Transformer的自注意力机制网络的输入，进行编解码。基于Transformer的自注意力机制网络包括四个模块，分别是分词器、编码器、解码器、映射器。具体阶段如下：

步骤S41、第一阶段将学生网络提取出的特征层输入分词器，将三维特征映射到二维空间，得到不同特征层的视觉标记。

在本实施例中，所述步骤S41具体包括以下步骤：

步骤S411、将学生网络提取出的特征层fs₁，fs₂，fs₃输入到分词器，将其映射到二维空间，得到视觉标记ts₁，ts₂，ts₃。

步骤S412、对视觉标记ts₁，ts₂，ts₃进行两个逐点卷积的处理，分别得到a₁，a₂，a₃与b₁，b₂，b₃。

步骤S413、通过空间注意力机制，得到视觉标记ts₁’，ts₂’，ts₃’。

步骤S42、第二阶段将不同特征层的视觉标记输入到编码器中，编码器将不同特征层的视觉标记进行维度连接，通过自注意力机制获得带有权重信息的特征块。

在本实施例中，所述步骤S42具体包括以下步骤：

步骤S421、将视觉标记ts₁’，ts₂’，ts₃’进行维度连接得到t。

步骤S422、使用transformer的学习权重矩阵W_q，W_k，W_v计算得到q，k，v。利用q，k，v计算自我注意力函数得到承载着权重信息的输出t′。

步骤S423、在自我注意力机制层使用长剩余连接与层规范化，得到编码器的输出t_out。

步骤S43、第三阶段将特征块输入到解码器，解码器以教师网络特征层提取的视觉标记信息作为标签对特征块进行解码，实现教师网络视觉标记与特征块的信息交互。

步骤S44、第四阶段将解码器的输出输入到映射器中，映射器将解码器处理过的特征块映射回原学生网络特征层的三维空间，得到fs₁′，fs₂′，fs₃′。

步骤S5、将教师网络的特征层作为标签与自注意力机制网络的输出一并进行训练并保存训练模型，具体如下：

步骤S51、构建异常检测与识别网络对无异常图像数据集进行训练，此训练网络由两个部分构成，分别是基于Transformer的注意力机制网络与师生网路。

步骤S52、构造该网络相应的损失函数，使之能够正确的对目标位置及类别信息进行检测和定位，保存训练模型。

在本实施例中，所述步骤S52具体包括以下步骤：

构造该网络的损失函数，包括位置点的欧式距离损失与方向向量的余弦相似度损失两部分，如下所示：

L_total＝L_euc+L_dir

其中，L_euc表示位置点的欧式距离损失，L_dtr方向向量的余弦相似度损失。h和w分别表示输入图像的长和宽，v(·)表示将矩阵转化成一维向量，||·||表示取向量的模。

步骤S6、将待预测的图像输入至训练后的模型中进行异常检测，若图像检测为正常，则输出检测结果。若图像检测为异常，则输出检测与异常定位的结果。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于Transformer的工业缺陷检测和识别方法，其特征在于，提供有基于Transformer的自注意力机制网络和师生网络，该方法包括如下步骤：

2.根据权利要求1所述的一种基于Transformer的工业缺陷检测和识别方法，其特征在于，步骤S1中异常与无异常的产品图像x₁,x₂,......,x_N来源于工业自动生产线上所拍摄的产品图像。

3.根据权利要求1所述的一种基于Transformer的工业缺陷检测和识别方法，其特征在于，步骤S3中将原始数据集图像输入到师生网络框架中，将其分为两个阶段，具体包括以下步骤：

4.根据权利要求1所述的一种基于Transformer的工业缺陷检测和识别方法，其特征在于，步骤S4中基于Transformer的自注意力机制网络包括四个模块，分别是分词器、编码器、解码器、映射器；步骤S4中将学生网络提取的特征层作为基于Transformer的自注意力机制网络的输入，进行编解码的具体步骤如下：

5.根据权利要求1所述的一种基于Transformer的工业缺陷检测和识别方法，其特征在于，步骤S5中将教师网络的特征层作为标签与基于Transformer的自注意力机制网络的输出一并进行训练并保存训练模型，具体包括以下步骤：

步骤S51、构建异常检测与识别网络对训练数据集进行训练；