CN114332007A - 一种基于Transformer的工业缺陷检测和识别方法 - Google Patents

一种基于Transformer的工业缺陷检测和识别方法 Download PDF

Info

Publication number
CN114332007A
CN114332007A CN202111625693.XA CN202111625693A CN114332007A CN 114332007 A CN114332007 A CN 114332007A CN 202111625693 A CN202111625693 A CN 202111625693A CN 114332007 A CN114332007 A CN 114332007A
Authority
CN
China
Prior art keywords
network
transformer
teacher
feature
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111625693.XA
Other languages
English (en)
Inventor
陈平平
严舒婷
毛焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202111625693.XA priority Critical patent/CN114332007A/zh
Publication of CN114332007A publication Critical patent/CN114332007A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于Transformer的工业缺陷检测和识别方法。所述方法包括:获取工业自动生产线上异常与无异常的工业产品图像作为原始数据集;将无异常的产品图像作为训练图像输入到师生框架训练网络;将学生网络的输出特征层输入到基于Transformer的自注意力机制网络;将训练后的异常检测与识别模型用于工业产品图像的预测。本发明有效的利用了产品图像不同层次的特征与特征间的信息交互,实现对异常产品的检测并定位异常位置,从而提升工业产品检测的效率。

Description

一种基于Transformer的工业缺陷检测和识别方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于Transformer的工业缺陷检测和识别方法。
背景技术
随着物联网技术的发展,工业领域缺陷识别算法的研发和应用成为可能。在工业自动化生产线上,生产出来的产品在个别情况下会含有一些缺陷,如凹陷、污渍、破损等。由于声誉良好的制造商致力于保持产品的一贯质量,及时发现不良产品的缺陷和异常显得尤为宝贵重要。近年来,随着工业领域的不断发展,传统的人工目视检测方法由于易受到人工经验和主观因素的影响已无法满足现行检测的要求。因此,工业领域异常检测逐渐成为计算机视觉领域一项价值与挑战并存的研究内容。
传统的基于机器视觉的异常检测方法主要采用常规图像处理算法或人工设计特征加分类器的方式。由于真实复杂的工业环境下存在较大噪声干扰,经典方法的检测效果不尽人意。目前工业异常检测的关键性挑战在于两大方面,一方面,异常是工业生产中不希望出现的,人们致力于降低异常出现的可能性,因此在实际的工业场景中。异常的情况极少发生,这就意味着能够获取的异常样本数量很少,出现了严重的样本不平衡问题。其次,异常总是出乎意料,我们无法预测其位置与大小,甚至无法确定它是否出现。
目前,深度学习方法在计算机视觉领域中得到广泛应用,并在异常检测取得了重大的进展。但关于异常定位的研究成果仍然较少,尤其是在不使用任何异常图像作为数据集的情况下。
发明内容
本发明的目的在于提供一种基于Transformer的工业缺陷检测和识别方法,该方法使用无异常图像训练师生网络模型与基于Transformer的自注意力机制模型,实现对预测图像的异常检测与异常区域定位。
为实现上述目的,本发明的技术方案是:一种基于Transformer的工业缺陷检测和识别方法,提供有基于Transformer的自注意力机制网络和师生网络,该方法包括如下步骤:
步骤S1、获取工业自动生产线上异常与无异常的产品图像x1,x2,......,xN
步骤S2、对获取到的产品图像行整理分类,将80%无异常的产品图像作为训练数据集,留取20%无异常图像与全部异常图像作为测试数据集;
步骤S3、将训练数据集图像输入到师生网络中,师生网络中的教师网络与学生网络分别从图像中提取出不同分辨率大小的特征层;
步骤S4、将学生网络提取的特征层作为基于Transformer的自注意力机制网络的输入,进行编解码;
步骤S5、将教师网络的特征层作为标签与基于Transformer的自注意力机制网络的输出一并进行训练并保存训练模型;
步骤S6、将待预测的图像输入至训练后的模型中进行异常检测,若图像检测为正常,则输出检测结果;若图像检测为异常,则输出检测与异常定位的结果。
在本发明一实施例中,步骤S1中异常与无异常的产品图像x1,x2,......,xN来源于工业自动生产线上所拍摄的产品图像。
在本发明一实施例中,步骤S3中将原始数据集图像输入到师生网络框架中,将其分为两个阶段,具体包括以下步骤:
步骤S31、将训练数据集图像输入到教师网络当中,获取到不同分辨率的特征层,这部分特征层视作标签;
步骤S32、将训练数据集图像输入到学生网络当中,获取到与教师网络相同层数的不同分辨率的特征层。
在本发明一实施例中,步骤S4中基于Transformer的自注意力机制网络包括四个模块,分别是分词器、编码器、解码器、映射器;步骤S4中将学生网络提取的特征层作为基于Transformer的自注意力机制网络的输入,进行编解码的具体步骤如下:
步骤S41、将学生网络提取出的特征层输入分词器,将三维特征映射到二维空间,得到不同特征层的视觉标记;
步骤S42、将不同特征层的视觉标记输入到编码器中,编码器将不同特征层的视觉标记进行维度连接,通过自注意力机制获得带有权重信息的特征块;
步骤S43、将特征块输入到解码器,解码器以教师网络特征层提取的视觉标记信息作为标签对特征块进行解码,实现教师网络视觉标记与特征块的信息交互;
步骤S44、将解码器的输出输入到映射器中,映射器将解码器处理过的特征块映射回原学生网络特征层的三维空间。
在本发明一实施例中,步骤S5中将教师网络的特征层作为标签与基于Transformer的自注意力机制网络的输出一并进行训练并保存训练模型,具体包括以下步骤:
步骤S51、构建异常检测与识别网络对训练数据集进行训练;
步骤S52、构造异常检测与识别网络相应的损失函数,使之能够正确的对目标位置及类别信息进行检测和定位,保存训练模型。
相较于现有技术,本发明具有以下有益效果:
1、本发明提出了一种教师学生学习框架的新范式,学生网络能有效获取教师层的关键性信息,并在正常图像的数据拟合中表现出比教师网络更强的数据拟合能力,实现仅在正常图像训练网络模型。
2、本发明利用transformer的自我注意力机制,有效的增强多尺度特征之间的信息交互能力,给予异常区域更多的关注,实现异常区域的精准定位。
3、本发明针对物体类与缺陷类的产品都具有良好的异常检测和定位效果。
附图说明
图1为本发明实施例的结构流程图。
图2为本发明实施例中步骤S3构建的师生网络模型提取特征层的结构图。
图3为本发明实施例中步骤S4构建的基于Transformer的注意力机制网络模型结构图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明基于Transformer与师生网络架构的工业异常检测与定位方法,仅使用正常产品的图像作为训练数据集,而后将该数据集送入基于Transformer的自我注意力机制网络与师生网络进行训练,利用不同分辨率的特征及其信息交互,极大地提高了异常检测的准确度与异常定位精准度。
本发明提供了一种基于Transformer的工业缺陷检测和识别方法,提供有基于Transformer的自注意力机制网络和师生网络,该方法包括如下步骤:
步骤S1、获取工业自动生产线上异常与无异常的产品图像x1,x2,......,xN
步骤S2、对获取到的产品图像行整理分类,将80%无异常的产品图像作为训练数据集,留取20%无异常图像与全部异常图像作为测试数据集;
步骤S3、将训练数据集图像输入到师生网络中,师生网络中的教师网络与学生网络分别从图像中提取出不同分辨率大小的特征层;
步骤S4、将学生网络提取的特征层作为基于Transformer的自注意力机制网络的输入,进行编解码;
步骤S5、将教师网络的特征层作为标签与基于Transformer的自注意力机制网络的输出一并进行训练并保存训练模型;
步骤S6、将待预测的图像输入至训练后的模型中进行异常检测,若图像检测为正常,则输出检测结果;若图像检测为异常,则输出检测与异常定位的结果。
以下为本发明具体实施实例。
如图1所示,本实施例提供了基于Transformer与师生网络架构的工业异常检测与定位方法,包括以下步骤:
步骤S1、获取工业自动生产线上异常与无异常的产品图像x1,x2,……,xN
步骤S2、对获取到的数据集进行整理分类,将80%无异常的产品图像作为网络的训练数据集,留取20%无异常图像与全部异常图像作为测试集;
步骤S3、将原始数据集图像输入到师生网络框架中,教师网络与学生网络分别从图像中提取出不同分辨率大小的特征层,具体如下:
步骤S31、第一阶段将训练图像输入到教师网络当中,获取到不同分辨率的特征层,这部分特征层视作标签;
在本实施例中,所述步骤S31具体包括以下步骤:
步骤S311、教师网络采用预训练过的ResNet18作为主干网络提取图像的关键层信息。教师网络利用ResNet18的前3个残差块,每一个残差块包含2层卷积层,去除最后的全连接层。该网络卷积层采用修正线性单元(Relu)作为激活函数,即:
Figure BDA0003439446540000041
最终利用教师网络提取出三层特征层ft1,ft2,ft3
步骤S32、第二阶段将训练图像输入到学生网络当中,获取到与教师网络相同层数的不同分辨率的特征层;
在本实施例中,所述步骤S32具体包括以下步骤:
步骤S321、学生网络采用未经过预训练过的ResNet18作为主干网络提取图像的关键层信息。层次结构与激活函数与教师网络相同。最终利用学生网络提取出三层特征层fs1,fs2,fs3
步骤S4、将学生网络提取的特征层作为基于Transformer的自注意力机制网络的输入,进行编解码。基于Transformer的自注意力机制网络包括四个模块,分别是分词器、编码器、解码器、映射器。具体阶段如下:
步骤S41、第一阶段将学生网络提取出的特征层输入分词器,将三维特征映射到二维空间,得到不同特征层的视觉标记。
在本实施例中,所述步骤S41具体包括以下步骤:
步骤S411、将学生网络提取出的特征层fs1,fs2,fs3输入到分词器,将其映射到二维空间,得到视觉标记ts1,ts2,ts3
步骤S412、对视觉标记ts1,ts2,ts3进行两个逐点卷积的处理,分别得到a1,a2,a3与b1,b2,b3
步骤S413、通过空间注意力机制,得到视觉标记ts1’,ts2’,ts3’。
步骤S42、第二阶段将不同特征层的视觉标记输入到编码器中,编码器将不同特征层的视觉标记进行维度连接,通过自注意力机制获得带有权重信息的特征块。
在本实施例中,所述步骤S42具体包括以下步骤:
步骤S421、将视觉标记ts1’,ts2’,ts3’进行维度连接得到t。
步骤S422、使用transformer的学习权重矩阵Wq,Wk,Wv计算得到q,k,v。利用q,k,v计算自我注意力函数得到承载着权重信息的输出t′。
步骤S423、在自我注意力机制层使用长剩余连接与层规范化,得到编码器的输出tout
步骤S43、第三阶段将特征块输入到解码器,解码器以教师网络特征层提取的视觉标记信息作为标签对特征块进行解码,实现教师网络视觉标记与特征块的信息交互。
步骤S44、第四阶段将解码器的输出输入到映射器中,映射器将解码器处理过的特征块映射回原学生网络特征层的三维空间,得到fs1′,fs2′,fs3′。
步骤S5、将教师网络的特征层作为标签与自注意力机制网络的输出一并进行训练并保存训练模型,具体如下:
步骤S51、构建异常检测与识别网络对无异常图像数据集进行训练,此训练网络由两个部分构成,分别是基于Transformer的注意力机制网络与师生网路。
步骤S52、构造该网络相应的损失函数,使之能够正确的对目标位置及类别信息进行检测和定位,保存训练模型。
在本实施例中,所述步骤S52具体包括以下步骤:
构造该网络的损失函数,包括位置点的欧式距离损失与方向向量的余弦相似度损失两部分,如下所示:
Ltotal=Leuc+Ldir
Figure BDA0003439446540000051
Figure BDA0003439446540000052
其中,Leuc表示位置点的欧式距离损失,Ldtr方向向量的余弦相似度损失。h和w分别表示输入图像的长和宽,v(·)表示将矩阵转化成一维向量,||·||表示取向量的模。
步骤S6、将待预测的图像输入至训练后的模型中进行异常检测,若图像检测为正常,则输出检测结果。若图像检测为异常,则输出检测与异常定位的结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.一种基于Transformer的工业缺陷检测和识别方法,其特征在于,提供有基于Transformer的自注意力机制网络和师生网络,该方法包括如下步骤:
步骤S1、获取工业自动生产线上异常与无异常的产品图像x1,x2,......,xN
步骤S2、对获取到的产品图像行整理分类,将80%无异常的产品图像作为训练数据集,留取20%无异常图像与全部异常图像作为测试数据集;
步骤S3、将训练数据集图像输入到师生网络中,师生网络中的教师网络与学生网络分别从图像中提取出不同分辨率大小的特征层;
步骤S4、将学生网络提取的特征层作为基于Transformer的自注意力机制网络的输入,进行编解码;
步骤S5、将教师网络的特征层作为标签与基于Transformer的自注意力机制网络的输出一并进行训练并保存训练模型;
步骤S6、将待预测的图像输入至训练后的模型中进行异常检测,若图像检测为正常,则输出检测结果;若图像检测为异常,则输出检测与异常定位的结果。
2.根据权利要求1所述的一种基于Transformer的工业缺陷检测和识别方法,其特征在于,步骤S1中异常与无异常的产品图像x1,x2,......,xN来源于工业自动生产线上所拍摄的产品图像。
3.根据权利要求1所述的一种基于Transformer的工业缺陷检测和识别方法,其特征在于,步骤S3中将原始数据集图像输入到师生网络框架中,将其分为两个阶段,具体包括以下步骤:
步骤S31、将训练数据集图像输入到教师网络当中,获取到不同分辨率的特征层,这部分特征层视作标签;
步骤S32、将训练数据集图像输入到学生网络当中,获取到与教师网络相同层数的不同分辨率的特征层。
4.根据权利要求1所述的一种基于Transformer的工业缺陷检测和识别方法,其特征在于,步骤S4中基于Transformer的自注意力机制网络包括四个模块,分别是分词器、编码器、解码器、映射器;步骤S4中将学生网络提取的特征层作为基于Transformer的自注意力机制网络的输入,进行编解码的具体步骤如下:
步骤S41、将学生网络提取出的特征层输入分词器,将三维特征映射到二维空间,得到不同特征层的视觉标记;
步骤S42、将不同特征层的视觉标记输入到编码器中,编码器将不同特征层的视觉标记进行维度连接,通过自注意力机制获得带有权重信息的特征块;
步骤S43、将特征块输入到解码器,解码器以教师网络特征层提取的视觉标记信息作为标签对特征块进行解码,实现教师网络视觉标记与特征块的信息交互;
步骤S44、将解码器的输出输入到映射器中,映射器将解码器处理过的特征块映射回原学生网络特征层的三维空间。
5.根据权利要求1所述的一种基于Transformer的工业缺陷检测和识别方法,其特征在于,步骤S5中将教师网络的特征层作为标签与基于Transformer的自注意力机制网络的输出一并进行训练并保存训练模型,具体包括以下步骤:
步骤S51、构建异常检测与识别网络对训练数据集进行训练;
步骤S52、构造异常检测与识别网络相应的损失函数,使之能够正确的对目标位置及类别信息进行检测和定位,保存训练模型。
CN202111625693.XA 2021-12-28 2021-12-28 一种基于Transformer的工业缺陷检测和识别方法 Pending CN114332007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111625693.XA CN114332007A (zh) 2021-12-28 2021-12-28 一种基于Transformer的工业缺陷检测和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111625693.XA CN114332007A (zh) 2021-12-28 2021-12-28 一种基于Transformer的工业缺陷检测和识别方法

Publications (1)

Publication Number Publication Date
CN114332007A true CN114332007A (zh) 2022-04-12

Family

ID=81015669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111625693.XA Pending CN114332007A (zh) 2021-12-28 2021-12-28 一种基于Transformer的工业缺陷检测和识别方法

Country Status (1)

Country Link
CN (1) CN114332007A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758206A (zh) * 2022-06-13 2022-07-15 武汉珈鹰智能科技有限公司 一种钢网架结构异常检测方法及装置
CN115905807A (zh) * 2022-11-18 2023-04-04 中国市政工程西南设计研究总院有限公司 一种基于深度学习的粗格栅优化运行方法
CN116523917A (zh) * 2023-07-04 2023-08-01 宁德时代新能源科技股份有限公司 缺陷检测方法、装置、计算机设备和存储介质
CN116756574A (zh) * 2023-08-16 2023-09-15 腾讯科技(深圳)有限公司 多模态预训练模型的训练方法、使用方法、装置和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200175264A1 (en) * 2017-08-07 2020-06-04 Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences Teaching assistance method and teaching assistance system using said method
JP6830707B1 (ja) * 2020-01-23 2021-02-17 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
CN112991330A (zh) * 2021-04-19 2021-06-18 征图新视(江苏)科技股份有限公司 基于知识蒸馏的正样本工业缺陷检测方法
CN113807214A (zh) * 2021-08-31 2021-12-17 中国科学院上海微系统与信息技术研究所 基于deit附属网络知识蒸馏的小目标人脸识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200175264A1 (en) * 2017-08-07 2020-06-04 Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences Teaching assistance method and teaching assistance system using said method
JP6830707B1 (ja) * 2020-01-23 2021-02-17 同▲済▼大学 ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法
CN112991330A (zh) * 2021-04-19 2021-06-18 征图新视(江苏)科技股份有限公司 基于知识蒸馏的正样本工业缺陷检测方法
CN113807214A (zh) * 2021-08-31 2021-12-17 中国科学院上海微系统与信息技术研究所 基于deit附属网络知识蒸馏的小目标人脸识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑思凡: ""双粒度光流流形学习的刮刷总成摆杆摆幅检测"", 《华南理工大学学报(自然科学版)》, 31 January 2020 (2020-01-31) *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758206A (zh) * 2022-06-13 2022-07-15 武汉珈鹰智能科技有限公司 一种钢网架结构异常检测方法及装置
CN114758206B (zh) * 2022-06-13 2022-10-28 武汉珈鹰智能科技有限公司 一种钢网架结构异常检测方法及装置
CN115905807A (zh) * 2022-11-18 2023-04-04 中国市政工程西南设计研究总院有限公司 一种基于深度学习的粗格栅优化运行方法
CN115905807B (zh) * 2022-11-18 2023-10-20 中国市政工程西南设计研究总院有限公司 一种基于深度学习的粗格栅优化运行方法
CN116523917A (zh) * 2023-07-04 2023-08-01 宁德时代新能源科技股份有限公司 缺陷检测方法、装置、计算机设备和存储介质
CN116523917B (zh) * 2023-07-04 2023-10-13 宁德时代新能源科技股份有限公司 缺陷检测方法、装置、计算机设备和存储介质
CN116756574A (zh) * 2023-08-16 2023-09-15 腾讯科技(深圳)有限公司 多模态预训练模型的训练方法、使用方法、装置和设备
CN116756574B (zh) * 2023-08-16 2023-11-21 腾讯科技(深圳)有限公司 多模态预训练模型的训练方法、使用方法、装置和设备

Similar Documents

Publication Publication Date Title
CN114332007A (zh) 一种基于Transformer的工业缺陷检测和识别方法
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN111401384A (zh) 一种变电设备缺陷图像匹配方法
CN110598733A (zh) 一种基于交互建模的多标记距离度量学习方法
CN115294150A (zh) 一种图像处理方法和终端设备
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
Moradi et al. Automated anomaly detection and localization in sewer inspection videos using proportional data modeling and deep learning–based text recognition
CN115937651A (zh) 基于改进的yolov5s网络模型的圆柱滚子表面检测方法及系统
CN107273793A (zh) 一种用于人脸识别的特征提取方法
CN115359304B (zh) 一种面向单幅图像特征分组的因果不变性学习方法及系统
CN115205650B (zh) 基于多尺度标准化流的无监督异常定位与检测方法及装置
CN115984968A (zh) 一种学生时空动作识别方法、装置、终端设备及介质
CN116994024A (zh) 集装箱图像中的部件识别方法、装置、设备、介质及产品
CN102999763B (zh) 基于尺度选择的自顶向下的视觉显著性提取方法
CN111931689B (zh) 一种在线提取视频卫星数据鉴别特征的方法
CN115205275A (zh) 基于深度学习算法的表面缺陷检测方法
CN111325194B (zh) 一种文字识别方法、装置及设备、存储介质
CN112464952A (zh) 一种图像对齐方法以及图像匹配识别方法
CN111951287A (zh) 一种二维码检测和识读方法
CN116452794B (zh) 一种基于半监督学习的有向目标检测方法
CN116912183B (zh) 一种基于边缘引导和对比损失的深度修复图像的篡改定位方法及系统
CN112818965B (zh) 多尺度影像目标检测方法、系统、电子设备及存储介质
CN113177511A (zh) 基于多数据流的旋转边框智能感知目标检测方法
Le et al. Essential keypoints to enhance visual object recognition with saliency-based metrics
Mugumya Matching veneer sheets images with Siamese neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination