CN113610754A

CN113610754A - 一种基于Transformer的缺陷检测方法及系统

Info

Publication number: CN113610754A
Application number: CN202110719488.3A
Authority: CN
Inventors: 叶朝伟
Original assignee: Zhejiang Wengu Technology Co ltd
Current assignee: Zhejiang Wengu Technology Co ltd
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-11-05
Anticipated expiration: 2041-06-28
Also published as: CN113610754B

Abstract

本发明涉及缺陷检测技术领域，公开了一种基于Transformer的缺陷检测方法及系统，本方法包括步骤：S1：获取待测目标的图像信息，并对待测目标的图像信息进行预设第一处理；S2：将预设第一处理后的待测目标的图像信息通过CNNBackbone进行特征提取，得到待测目标的图像特征信息；S3：将待测目标的图像特征信息输入Transformer结构中进行预设第二处理，并输出N个目标队列。本方法能够通过通过引入DETR(DetectionTransformer)算法来建立联合检测模型，使其既可适用于在小目标上的缺陷检测，也适用于在大目标上的缺陷检测。

Description

一种基于Transformer的缺陷检测方法及系统

技术领域

本发明涉及缺陷检测技术领域，尤其涉及一种基于Transformer的缺陷检测方法及系统。

背景技术

缺陷检测是工业上非常重要的一个应用，由于缺陷多种多样，传统的机器视觉算法很难做到对缺陷特征完整的建模和迁移，复用性不大，要求区分工况，这会浪费大量的人力成本。

深度学习算法用于缺陷检测，一般是按照目标检测路线进行，其中根据检测阶段数分为两类，代表的算法分别为yolo和faster-rcnn，在实践中这两种路线在性能、精度上各有优劣：单阶段检测器如yolo的优点是速度快，准确率和召回率可以满足大多数应用场景，且生态完善，因此yolo算法已经应用于许多工业检测场景；双阶段检测器如faster-rcnn的优点是准确率和召回率高，且有完善的理论工具针对小目标检测，虽然检测速度相比单阶段检测器较慢，但随着硬件性能的提升以及信息整合、主副帧检测等技术的发展，速度上已经能够满足实际检测的需求。但是随着检测任务对要求的提升，faster-rcnn检测器也开始展现出其瓶颈，主要体现在：对于密集小目标的检测性能不稳定，这是由于faster-rcnn系列算法的后处理步骤中需要nms算法(非极大值抑制)，使得靠得很紧的密集目标不能完全被识别；另外，由于存在先验框机制，对大目标(如横跨表面的裂纹)的适用性也不强。

发明内容

针对上述现有技术的现状，本发明所要解决的技术问题在于提供一种基于Transformer的缺陷检测方法及系统，通过引入DETR(Detection Transformer)算法来建立联合检测模型，使其既可适用于在小目标上的缺陷检测，也适用于在大目标上的缺陷检测。

本发明一种基于Transformer的缺陷检测方法及系统，具体的包括以下技术方案：

一种基于Transformer的缺陷检测方法，包括步骤：

S1：获取待测目标的图像信息，并对待测目标的图像信息进行预设第一处理；

S2：将预设第一处理后的待测目标的图像信息通过CNN Backbone进行特征提取，得到待测目标的图像特征信息；

S3：将待测目标的图像特征信息输入Transformer结构中进行预设第二处理，并输出N个目标队列；

S4：通过检测前馈网络FNN将Transformer结构输出的目标队列解码成目标框坐标和分类标签，并建立联合检测模型。

具体的，输入信息图像进行预设第一处理，预处理后的图像经过CNN Backbone初步提取特征；提取的特征图输入编码-解码结构的Transformer，输出N个目标队列；Transformer输出的目标队列经过检测前馈网络(FFN)，被分别解码成目标框坐标和分类标签。

进一步地，所述预设第一处理包括步骤：

S11：将待测目标的图像信息的图像尺寸处理为预设尺寸范围的标准图像尺寸；

S12：将步骤S11处理后的待测目标的图像信息进行归一化。

进一步地，所述预设尺寸范围为：

待测目标的图像信息中的图像尺寸最大值小于等于1333，待测目标的图像信息中的图像尺寸最小值大于等于800；

所述归一化的均值和标准差为获取的所有待测目标的图像信息的均值和标准差。

具体的，处理后的图片尺寸最大值为1333，最小值为800，对一张获取的原始图片，在保证宽高比不变的前提下对其缩放，使其短边的长度等于最小值800，如果此时长边的长度大于最大值1333，则进一步缩放图像使其长边等于最大值1333。缩放完成后对图像像素值进行归一化，归一化所需的均值和标准差为训练时采集的全体图像的均值和标准差。

进一步地，所述步骤S2包括：

S21：将步骤S1处理后的待测目标的图像信息进行2D卷积、批标准化和最大池化层，并通过四组级联的残差块进行特征提取，得到图像特征；

S22：对步骤S21得到的图像特征的宽、高方向分别做累积总和，并扩充一个尺寸为t的维度，沿该维度奇数项求正弦，偶数项求余弦，将两组特征拼接得到位置特征；

S23：将步骤S21得到的图像特征和步骤S22得到的位置特征合并输出，得到待测目标的图像特征信息。

具体的，其中2D卷积层的步长为2、输出通道数为64、卷积核尺寸为64。

进一步地，所述步骤S3包括：

S31：将步骤S23得到的待测目标的图像特征信息进行预设第二处理；

S32：通过编码器将步骤S31处理后的待测目标的图像特征信息经过个层标准化得到编码后的记忆；

S33：将编码后的记忆输入解码器，每一级的输出作为下一级的target，将每一级的输出通过层标准化，得到N个中间特征，并输出N个目标队列。

进一步地，所述第二预设处理为：

将待测目标的图像特征信息中的图像特征过输出2D卷积作为预处理图像特征；将待测目标的图像特征信息中的位置特征展平并保留前三个维度，再将第三维提升至第一维，得到预处理位置特征；合并预处理图像特征和预处理位置特征，得到处理后的待测目标的图像特征信息。

具体的，Backbone中的特征过输出2D卷积(输入通道数为512，输出通道数为512，卷积核尺寸为1)作为图像特征，图像特征和Backbone中的位置特征都展平到保留前三个维度，再将第三维提升至第一维，得到预处理好的图像和位置特征。

一种基于Transformer的缺陷检测系统，包括：

信息获取处理模块：用于获取待测目标的图像信息，并对待测目标的图像信息进行预设第一处理；

特征提取模块：将预设第一处理后的待测目标的图像信息通过CNN Backbone进行特征提取，得到待测目标的图像特征信息；

输出模块：将待测目标的图像特征信息输入Transformer结构中进行预设第二处理，并输出N个目标队列；

模型建立模块：通过检测前馈网络FNN将Transformer结构输出的目标队列解码成目标框坐标和分类标签，建立联合检测模型。

进一步地，所述预设第一处理包括：

第一处理单元：将待测目标的图像信息的图像尺寸处理为预设尺寸范围的标准图像尺寸；

计算单元：将处理单元处理后的待测目标的图像信息进行归一化。

进一步地，所述特征提取模块包括：

第一提取单元：将信息获取处理模块处理后的待测目标的图像信息进行2D卷积、批标准化和最大池化层，并通过四组级联的残差块进行特征提取，得到图像特征；

第二提取单元：对第一提取单元得到的图像特征的宽、高方向分别做累积总和，并扩充一个尺寸为t的维度，沿该维度奇数项求正弦，偶数项求余弦，将两组特征拼接得到位置特征；

输出单元：将第一提取单元得到的图像特征和第二提取单元得到的位置特征合并输出，得到待测目标的图像特征信息。

进一步地，所述输出模块包括：

第二处理单元：将输出单元得到的待测目标的图像特征信息进行预设第二处理；

编码模块：通过编码器将第二处理单元处理后的待测目标的图像特征信息经过一个层标准化得到编码后的记忆；

解码模块：将编码后的记忆输入解码器，每一级的输出作为下一级的target，将每一级的输出通过层标准化，得到N个中间特征，并输出N个目标队列。

本发明采用上述技术方案包括以下有益效果：

本发明增强了对大目标的缺陷的检测能力，如长裂纹，在传统的目标识别算法下表现不佳，这是因为包住它的矩形框面积过大，与先验锚框的差距过大，很难拟合其位置。但在本发明的方法下，由于每个目标本质上是由整个特征图产生，而不是部分特征图，也没有对大小的先验知识，因此识别大目标更为简单直接，性能也得到大大的改善。由于不需要nms(非极大值抑制)处理，从而改善了对密集小目标(如铝材表面的大量气孔)的检测性能，DETR用set-based loss(集合的损失)将目标间的区分度纳入模型之中，而不依赖其他后处理算法，即使目标之间相互靠近，也可以精准区分。

附图说明

图1为本发明实施例一提供的基于Transformer的缺陷检测方法流程图一；

图2为本发明实施例一提供的基于Transformer的缺陷检测方法流程图二；

图3为本发明实施例一提供的基于Transformer的缺陷检测方法的残差块结构示意图；

图4为本发明实施例二提供的基于Transformer的缺陷检测方系统结构图一；

图5为本发明实施例二提供的基于Transformer的缺陷检测系统结构图二。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

本实施例提供了一种基于Transformer的缺陷检测方法，如图1和图2所示，本方法包括步骤：S1：获取待测目标的图像信息，并对待测目标的图像信息进行预设第一处理；S2：将预设第一处理后的待测目标的图像信息通过CNN Backbone进行特征提取，得到待测目标的图像特征信息；S3：将待测目标的图像特征信息输入Transformer结构中进行预设第二处理，并输出N个目标队列；S4：通过检测前馈网络FNN将Transformer结构输出的目标队列解码成目标框坐标和分类标签，并建立联合检测模型。

具体的，输入信息图像进行预设第一处理，预处理后的图像经过CNN Backbone(残差骨干卷积神经网络)初步提取特征；提取的特征图输入编码-解码结构的Transformer(级联神经网络)，输出N个目标队列；Transformer输出的目标队列经过检测前馈网络(FFN)，被分别解码成目标框坐标和分类标签。

其中，预设第一处理包括步骤：S11：将待测目标的图像信息的图像尺寸处理为预设尺寸范围的标准图像尺寸；S12：将步骤S11处理后的待测目标的图像信息进行归一化。

其中，预设尺寸范围为：待测目标的图像信息中的图像尺寸最大值小于等于1333，待测目标的图像信息中的图像尺寸最小值大于等于800；归一化的均值和标准差为获取的所有待测目标的图像信息的均值和标准差。

其中，步骤S2包括：

具体的，依次通过2d卷积、批标准化(batchnormalization)、最大池化层，其中2D卷积层的步长为2、输出通道数为64、卷积核尺寸为64。

参阅图3，提取特征，依次通过四组级联的残差块，四组级联的残差块分为第一组残差块、第二组残差块、第三组残差块和第四组残差块；输出图像特征，残差块的参数分别为(64,3),(128,4),(256,6),(512,3)，整体结构与残差块模块结构如图3所示，第一个参数代表残差块内部卷积层的输出通道数，第二个参数代表堆叠数量，即每个残差块由若干残差模块堆叠而成。

正弦位置嵌入，对步骤S21得到的图像特征分别对宽、高方向做累积总和，得到两组位置特征，分别在末尾扩充一个尺寸为t的维度，沿着此维度奇数项求正弦，偶数项求余弦，再将两组特征拼接，得到位置特征。

其中，步骤S3包括：

S33：将编码后的记忆输入解码器，每一级的输出作为下一级的target(目标)，将每一级的输出通过层标准化，得到N个中间特征，并输出N个目标队列。

具体的，Backbone中特征过输出2D卷积(输入通道数为512，输出通道数为512，卷积核尺寸为1)作为图像特征，图像特征和Backbone中的位置特征都展平到保留前三个维度，再将第三维提升至第一维，得到预处理好的图像和位置特征。

图像特征和位置特征经过一个层标准化(Layernormalization)得到编码后的记忆(Memory)。

其中，步骤S32输出为Memory(记忆)，Query_pos是尺寸为num_queries*batch_size*512的数组，num_queries是每张图检测的目标，batch_size是每次输入的图像数量，这个数组由一个embedding(特征空间)层的权重扩展而来，对一个已经训练好的模型来说是定值。Target是与Query_pos形状相同的全0数组，这三项输入decoder(解码器)结构，其中每一级的输出作为下一级的Target，将每一级的输出通过层标准化(Layernormalizatio)，得到6个中间特征，输出。

其中，第二预设处理为：将待测目标的图像特征信息中的图像特征过输出2D卷积作为预处理图像特征；将待测目标的图像特征信息中的位置特征展平并保留前三个维度，再将第三维提升至第一维，得到预处理位置特征；合并预处理图像特征和预处理位置特征，得到处理后的待测目标的图像特征信息。

具体的，对transformer输出的6个中间特征，拼接在一起后通过类嵌入层(全连接层，输出batch_size*num_queries个类别)和坐标嵌入层(组合的全连接层，输出batch_size*num_queries组坐标)，其中类别值为0时表示这项预测为背景，不作输出，类别值为1-num_classes(总类别数)时，表示这项输出的类别是数字对应的类别，对应坐标表示目标在图上的位置，每组坐标值为[ymin,xmin,ymax,xmax]，代表矩形框左上角和右下角的位置。

本方法增强了对大目标的缺陷的检测能力，如长裂纹，在传统的目标识别算法下表现不佳，这是因为包住它的矩形框面积过大，与先验锚框的差距过大，很难拟合其位置。但在本发明的方法下，由于每个目标本质上是由整个特征图产生，而不是部分特征图，也没有对大小的先验知识，因此识别大目标更为简单直接，性能也得到大大的改善。由于不需要nms(非极大值抑制)处理，从而改善了对密集小目标(如铝材表面的大量气孔)的检测性能，DETR用set-based loss将目标间的区分度纳入模型之中，而不依赖其他后处理算法，即使目标之间相互靠近，也可以精准区分。

实施例二

本实施例提供了一种基于Transformer的缺陷检测系统，如图4所示，本系统包括：信息获取处理模块：用于获取待测目标的图像信息，并对待测目标的图像信息进行预设第一处理；特征提取模块：将预设第一处理后的待测目标的图像信息通过CNN Backbone进行特征提取，得到待测目标的图像特征信息；输出模块：将待测目标的图像特征信息输入Transformer结构中进行预设第二处理，并输出N个目标队列；模型建立模块：通过检测前馈网络FNN将Transformer结构输出的目标队列解码成目标框坐标和分类标签，建立联合检测模型。

具体的，通过信息获取处理模块获取图像信息并进行预设第一处理，预处理后的图像由特征提取模块经过CNN Backbone初步提取特征；提取的特征图由输出模块输入编码-解码结构的Transformer，并输出N个目标队列；由模型建立模块将Transformer输出的目标队列经过检测前馈网络(FFN)，被分别解码成目标框坐标和分类标签，同时建立联合检测模型。

参阅图5，其中，预设第一处理包括：

其中，特征提取模块包括：

其中，输出模块包括：

本系统通过增强对大目标的缺陷的检测能力，如长裂纹，在传统的目标识别算法下表现不佳，这是因为包住它的矩形框面积过大，与先验锚框的差距过大，很难拟合其位置。但在本发明的系统下，由于每个目标本质上是由整个特征图产生，而不是部分特征图，也没有对大小的先验知识，因此识别大目标更为简单直接，性能也得到大大的改善。由于不需要nms(非极大值抑制)处理，从而改善了对密集小目标(如铝材表面的大量气孔)的检测性能，DETR用set-based loss将目标间的区分度纳入模型之中，而不依赖其他后处理算法，即使目标之间相互靠近，也可以精准区分。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于Transformer的缺陷检测方法，其特征在于，包括步骤：

2.根据权利要求1所述的基于Transformer的缺陷检测方法，其特征在于，所述预设第一处理包括步骤：

S12：将步骤S11处理后的待测目标的图像信息进行归一化。

3.根据权利要求2所述的基于Transformer的缺陷检测方法，其特征在于，所述预设尺寸范围为：

4.根据权利要求1所述的基于Transformer的缺陷检测方法，其特征在于，所述步骤S2包括：

5.根据权利要求4所述的基于Transformer的缺陷检测方法，其特征在于，所述步骤S3包括：

6.根据权利要求5所述的基于Transformer的缺陷检测方法，其特征在于，所述第二预设处理为：

7.一种基于Transformer的缺陷检测系统，其特征在于，包括：

8.根据权利要求7所述的基于Transformer的缺陷检测系统，其特征在于，所述预设第一处理包括：

9.根据权利要求7所述的基于Transformer的缺陷检测系统，其特征在于，所述特征提取模块包括：

10.根据权利要求9所述的基于Transformer的缺陷检测系统，其特征在于，所述输出模块包括：