CN114529507B - 一种基于视觉Transformer的刨花板表面缺陷检测方法 - Google Patents
一种基于视觉Transformer的刨花板表面缺陷检测方法 Download PDFInfo
- Publication number
- CN114529507B CN114529507B CN202111680499.1A CN202111680499A CN114529507B CN 114529507 B CN114529507 B CN 114529507B CN 202111680499 A CN202111680499 A CN 202111680499A CN 114529507 B CN114529507 B CN 114529507B
- Authority
- CN
- China
- Prior art keywords
- module
- swin
- characteristic data
- dimension
- transducer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007547 defect Effects 0.000 title claims abstract description 51
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 230000000007 visual effect Effects 0.000 title claims abstract description 21
- 239000002245 particle Substances 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 34
- 230000011218 segmentation Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012795 verification Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 5
- 238000002360 preparation method Methods 0.000 claims abstract description 4
- 238000012512 characterization method Methods 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 4
- 230000035515 penetration Effects 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 239000000428 dust Substances 0.000 claims description 3
- 239000003292 glue Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011179 visual inspection Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 208000003464 asthenopia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30161—Wood; Lumber
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于视觉Transformer的刨花板表面缺陷检测方法,包括以下步骤:(1)数据集制作;(2)构建一个基于视觉Transformer的语义分割网络;所述语义分割网络由输入模块、编码器、瓶颈模块、解码器、输出模块、跳跃连接构成;(3)构建损失函数;(4)模型训练:将训练集输入至步骤(2)中的语义分割网络,采用步骤(3)中的损失函数进行监督训练,训练过程中,将验证集输入至训练好的中间模型进行验证,获得训练好的模型参数;(5)模型推理。本发明解决刨花板表面缺陷尺度范围跨度较大的问题,降低漏检率与误检率,提高缺陷区域分割的精确率。
Description
技术领域
本发明涉及刨花板表面缺陷检测的技术领域,更具体地,涉及一种基于视觉Transformer的刨花板表面缺陷检测方法。
背景技术
刨花板表面缺陷是评判刨花板质量的重要指标之一,刨花板表面缺陷存在影响外观、降低强度、影响二次加工等弊端,对用户造成安全隐患,对企业带来经济损失,因此,为保障刨花板质量,表面缺陷检测是刨花板加工过程中必不可少的环节。
传统的刨花板表面检测方法依赖生产线工人肉眼观察后根据经验对刨花板质量进行评级,但生产线上刨花板的运动速度可达1.5~2m/s,工人经过长时间的肉眼观察,易产生视觉疲劳,导致漏检率高、误检率高,影响检测效果。
随着机械化、自动化的发展,基于视觉的刨花板表面缺陷检测系统逐渐被应用到生产线上,实现无人干预、无损检测。刨花板表面缺陷类型较多、模式复杂,传统的机器视觉算法需要人工设计特征,难以适应复杂多变的缺陷数据,鲁棒性和泛化性较差;基于通用卷积神经网络的缺陷检测算法,通过机器学习的方式自动提取图像局部特征,实现对缺陷区域的分割,但刨花板表面缺陷的尺度范围跨度较大,如划痕通常较长、砂穿面积较大、大刨花面积较小等,导致分割效果不稳定。
发明内容
本发明针对现有技术不足,提供一种基于视觉Transformer的刨花板表面缺陷检测方法,利用视觉Transformer的自注意力机制、U形跨层网络结构的低层细节与高层语义跨层融合特性,实现端到端的语义分割算法,解决刨花板表面缺陷尺度范围跨度较大的问题,降低漏检率与误检率,提高缺陷区域分割的精确率。
为解决上述技术问题,本发明所采用的技术方案是:一种基于视觉Transformer的刨花板表面缺陷检测方法,包括以下步骤:
(1)数据集制作:收集海量刨花板表面缺陷的图片,设定缺陷类别、初始分辨率和初始维度;将所有图片按一定的比例划分训练集、验证集与测试集;将训练集和验证集的图片裁剪成若干个分块图片,每个分块图片的分辨率和维度都为初始分辨率和初始维度;对分块图片依据缺陷类别进行语义分割标注;
(2)预设的临界维度,构建一个基于视觉Transformer的语义分割网络:所述语义分割网络由输入模块、编码器、瓶颈模块、解码器、输出模块、跳跃连接构成;
所述输入模块,用于将输入图片进行[-0.5,0.5]归一化,并按4x4网格的方式进行图片分块获得输入处理图片;所述输入处理图片的维度为目标维度;
所述编码器,由线性变换层组件、编码Swin Transformer模块组件与分块合并组件构成,用于逐层特征编码;
所述线性变换层组件用于将输入处理图片进行特征升维操作获得特征数据;所述编码Swin Transformer模块组件有若干个接收分辨率和维度都不同的编码SwinTransformer模块,每个编码Swin Transformer模块用于对接收指定维度的特征数据进行自注意力表征学习,并进行低层细节与高层语义跨层融合;所述分块合并组件有若干个接收维度不同的分块合并,每个分块合并用于将接收编码Swin Transformer模块组件指定维度的特征数据后将特征数据按2x2邻域进行连接,分辨率2倍下采样,并进行2倍维度的升维,得到特征数据并对比临界维度;若特征数据未达到临界维度则继续输入相应的编码Swin Transformer模块,直至得到的特征数据达到临界维度后输入至瓶颈模块;
所述瓶颈模块,用于深度特征的自注意力表征学习,加速训练收敛速度;所述瓶颈模块的输入为编码器模块输出的特征数据,输出为自注意力表征学习后的特征数据至解码器,输入的特征数据与输出的特征数据的分辨率、维度保持不变;
所述解码器,由分块扩展组件、解码Swin Transformer模块组件构成,用于逐层特征解码;所述分块扩展组件有若干个接收维度不同的分块拓展,每个分块拓展将接收的特征数据进行2倍降维得到,再进行特征重分配得到2倍上采样的特征数据,将特征数据并对比预设的目标维度;若特征数据未达到目标维度则继续输入至相应的解码SwinTransformer模块,直至得到的特征数据达到目标维度后输入至输出模块;所述解码SwinTransformer模块包括若干个解码Swin Transformer模块,且解码Swin Transformer模块接收分辨率和维度与编码Swin Transformer模块相对应;所述解码Swin Transformer模块用于将分块扩展输出的特征数据进行自注意力表征学习,通过跳跃连接接收解码器模块的Swin Transformer模块,进行低层细节与高层语义跨层融合;
所述输出模块,用于对解码器模块最终分块扩展输出的特征数据进行线性映射后得到输出结果;
所述编码器的Swin Transformer模块组件通过跳跃连接输入至解码器模块中分辨率和维度都相同的Swin Transformer模块组件;
(3)构建损失函数:采用Dice Loss作为损失函数;
(4)模型训练:将训练集输入至步骤(2)中的语义分割网络,采用步骤(3)中的损失函数进行监督训练,训练过程中,将验证集输入至训练好的中间模型进行验证,获得训练好的模型参数;
(5)模型推理:将步骤(4)中训练好的模型参数加载至步骤(2)的语义分割网络,并将步骤(1)中测试集的刨花板表面缺陷的图片进行滑窗裁剪成分块图片,依次将分块图片输入至语义分割网络进行推理,得到每个分块图片的输出结果,最后将每个分块图片的输出结果合并成整块结果。
特别的,所述步骤(1)中,设初始分辨率为1024x1024,初始维度为1,将图片裁剪成若干个分块图片的具体方法为:通过滑窗的方式将图片裁剪成若干个1024x1024x1的分块图片。
特别的,所述缺陷类别包含大刨花、划痕、砂穿、粉尘斑、鼓泡、胶斑、裂缝、乌云斑、油污、缺边、缺角、凹坑。
特别的,所述步骤(1)中分块图片划分训练集、验证集与测试集的比例为0.8:0.1:0.1。
特别的,所述编码Swin Transformer模块分别为Swin Transformer模块1、SwinTransformer模块2、Swin Transformer模块3、Swin Transformer模块7,且分别对应解码Swin Transformer模块为Swin Transformer模块10,Swin Transformer模块9和SwinTransformer模块8和Swin Transformer模块7。
特别的,所述临界维度为512,
特别的,所述瓶颈模块由Swin Transformer模块5和Swin Transformer模块6串联组成;所述瓶颈模块输出为经过Swin Transformer模块5、Swin Transformer模块6进行自注意力表征学习后的特征数据。
特别的,所述Dice Loss为:
其中,x表示输入样本,fi(x)表示第i个类别的预测结果,yi表示第i个类别对应的真实标签;
特别的,所述步骤(4)中,采用步骤(3)中的损失函数进行监督训练的具体方法为使用学习率为0.001的AdamW优化器进行训练,并采用步骤(3)中的损失函数进行监督训练。
与现有技术相比,本发明所具有的有益效果为:
本发明的语义分割网络为U形跨层网络结构,输入模块、编码器负责底层特征提取,解码器和输出模块负责高层语义提取,两边通过跳跃连接进行跨层融合。本发明与现有刨花板表面缺陷检测做法相比,利用视觉Transformer的自注意力机制、U形跨层网络结构的低层细节与高层语义跨层融合特性,实现端到端的语义分割算法,解决刨花板表面缺陷尺度范围跨度较大的问题,降低漏检率与误检率,提高缺陷区域分割的精确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的整体流程图。
图2为本发明实施例的构建一个基于视觉Transformer的语义分割网络的流程图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1所示,本实施例的一种基于视觉Transformer的刨花板表面缺陷检测方法,包括以下步骤:
(1)数据集制作:收集海量刨花板表面缺陷的图片,设定缺陷类别、初始分辨率和初始维度;将所有图片按0.8:0.1:0.1的比例划分训练集、验证集与测试集;设初始分辨率为1024x1024,初始维度为1,通过滑窗的方式将训练集和验证集的图片裁剪成若干个1024x1024x1的分块图片。对分块图片依据缺陷类别进行语义分割标注。缺陷类别包含大刨花、划痕、砂穿、粉尘斑、鼓泡、胶斑、裂缝、乌云斑、油污、缺边、缺角、凹坑。
(2)预设的临界维度,如图2所示,构建一个基于视觉Transformer的语义分割网络:语义分割网络由输入模块、编码器、瓶颈模块、解码器、输出模块、跳跃连接构成。
输入模块:将1024x1024x1的输入图片进行[-0.5,0.5]归一化,并按4x4网格的方式进行图片分块获得输入处理图片。输入处理图片为256x256 x16,即目标维度为16;
编码器,由线性变换层组件、编码Swin Transformer模块组件与分块合并组件构成,用于逐层特征编码;
线性变换层组件用于将输入处理图片进行特征升维操作获得特征数据。编码SwinTransformer模块组件有若干个接收分辨率和维度都不同的编码Swin Transformer模块,每个编码Swin Transformer模块用于对接收指定维度的特征数据进行自注意力表征学习,并进行低层细节与高层语义跨层融合。分块合并组件有若干个接收维度不同的分块合并,每个分块合并用于将接收编码Swin Transformer模块组件指定维度的特征数据后将特征数据按2x2邻域进行连接,分辨率2倍下采样,并进行2倍维度的升维,得到特征数据并对比临界维度;若特征数据未达到临界维度则继续输入相应的编码Swin Transformer模块,直至得到的特征数据达到临界维度后输入至瓶颈模块。
编码Swin Transformer模块分别为Swin Transformer模块1、Swin Transformer模块2、Swin Transformer模块3、Swin Transformer模块7,且分别对应解码SwinTransformer模块为Swin Transformer模块10,Swin Transformer模块9和SwinTransformer模块8和Swin Transformer模块7。
本实施例中,临界维度为512。线性变换层将256x256x16图像数据映射到256x256x32特征数据,进行特征升维操作;Swin Transformer模块1对256x256x32特征数据进行自注意力表征学习,通过跳跃连接1输入至解码器模块的Swin Transformer模块10,进行低层细节与高层语义跨层融合;分块合并1按2x2邻域进行连接,分辨率2倍下采样,并进行2倍维度的升维,得到128x128x64的特征数据;Swin Transformer模块2对128x128x64特征数据进行自注意力表征学习,通过跳跃连接2输入至解码器模块的Swin Transformer模块9,进行低层细节与高层语义跨层融合;分块合并2按2x2邻域进行连接,分辨率2倍下采样,并进行2倍维度的升维,得到64x64x128的特征数据;Swin Transformer模块3对64x64x128特征数据进行自注意力表征学习,通过跳跃连接3输入至解码器模块的SwinTransformer模块8,进行低层细节与高层语义跨层融合;分块合并3按2x2邻域进行连接,分辨率2倍下采样,并进行2倍维度的升维,得到32x32x256的特征数据;Swin Transformer模块4对32x32x256特征数据进行自注意力表征学习,通过跳跃连接4输入至解码器模块的Swin Transformer模块7,进行低层细节与高层语义跨层融合;分块合并4按2x2邻域进行连接,分辨率2倍下采样,并进行2倍维度的升维,得到16x16x512的特征数据。
瓶颈模块,用于深度特征的自注意力表征学习,加速训练收敛速度;所述瓶颈模块的输入为编码器模块输出的特征数据,输出为自注意力表征学习后的特征数据至解码器,输入的特征数据与输出的特征数据的分辨率、维度保持不变。瓶颈模块由SwinTransformer模块5和Swin Transformer模块6串联组成。瓶颈模块输出为经过SwinTransformer模块5、Swin Transformer模块6进行自注意力表征学习后的特征数据。
解码器,为由分块扩展组件、解码Swin Transformer模块组件构成,用于逐层特征解码;所述分块扩展组件有若干个接收维度不同的分块拓展,每个分块拓展将接收的特征数据进行2倍降维得到,再进行特征重分配得到2倍上采样的特征数据,将特征数据并对比预设的目标维度;若特征数据未达到目标维度则继续输入至相应的解码Swin Transformer模块,直至得到的特征数据达到目标维度后输入至输出模块;所述解码Swin Transformer模块包括若干个解码Swin Transformer模块,且解码Swin Transformer模块接收分辨率和维度与编码Swin Transformer模块相对应。解码Swin Transformer模块用于将分块扩展输出的特征数据进行自注意力表征学习,通过跳跃连接接收解码器模块的Swin Transformer模块,进行低层细节与高层语义跨层融合。
本实施例中,分块扩展1将瓶颈模块Swin Transformer模块6的16x16x512特征数据作为输入,先进行2倍降维得到16x16x256的特征数据,再进行特征重分配得到2倍上采样的32x32x256特征数据;Swin Transformer模块7将分块扩展1输出的32x32x256特征数据进行自注意力表征学习,通过跳跃连接4输入至解码器模块的Swin Transformer模块7,进行低层细节与高层语义跨层融合;分块扩展2将Swin Transformer模块7的32x32x256特征数据作为输入,先进行2倍降维得到32x32x128的特征数据,再进行特征重分配得到2倍上采样的64x64x128特征数据;Swin Transformer模块8将分块扩展2输出的64x64x128特征数据进行自注意力表征学习,通过跳跃连接3输入至解码器模块的Swin Transformer模块8,进行低层细节与高层语义跨层融合;分块扩展3将Swin Transformer模块8的64x64x128特征数据作为输入,先进行2倍降维得到64x64x64的特征数据,再进行特征重分配得到2倍上采样的128x128x64特征数据;Swin Transformer模块9将分块扩展3输出的128x128x64特征数据进行自注意力表征学习,通过跳跃连接2输入至解码器模块的Swin Transformer模块9,进行低层细节与高层语义跨层融合;分块扩展4将Swin Transformer模块9的128x128x64特征数据作为输入,先进行2倍降维得到128x128x32的特征数据,再进行特征重分配得到2倍上采样的256x256x32特征数据;Swin Transformer模块10将分块扩展4输出的256x256x32特征数据进行自注意力表征学习,通过跳跃连接1输入至解码器模块的Swin Transformer模块10,进行低层细节与高层语义跨层融合;分块扩展5将Swin Transformer模块10的256x256x32特征数据作为输入,先进行2倍降维得到256x256x16的特征数据,再进行特征重分配得到4倍上采样的1024x1024x16特征数据。
编码器的Swin Transformer模块组件通过跳跃连接输入至解码器模块中分辨率和维度都相同的Swin Transformer模块组件。
输出模块,用于对解码器模块最终分块扩展输出的特征数据进行线性映射后得到输出结果;本实施例中,输出模块通过分块扩展5输出的1024x1024x16特征数据进行线性映射,得到1024x1024x12输出结果,其中,12为缺陷类别数。
(3)构建损失函数:采用Dice Loss作为损失函数;
Dice Loss为:
其中,x表示输入样本,fi(x)表示第i个类别的预测结果,yi表示第i个类别对应的真实标签。
(4)模型训练:将训练集输入至步骤(2)中的语义分割网络,使用学习率为0.001的AdamW优化器进行训练,并采用步骤(3)中的损失函数进行监督训练。训练过程中,将验证集输入至训练好的中间模型进行验证,获得训练好的模型参数。
(5)模型推理:将步骤(4)中训练好的模型参数加载至步骤(2)的语义分割网络,并将步骤(1)中测试集的刨花板表面缺陷的图片进行滑窗裁剪成分块图片,依次将分块图片输入至语义分割网络进行推理,得到每个分块图片的输出结果,最后将每个分块图片的输出结果合并成整块结果。
虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。
Claims (6)
1.一种基于视觉Transformer的刨花板表面缺陷检测方法,其特征在于:包括以下步骤:
(1)数据集制作:收集海量刨花板表面缺陷的图片,设定缺陷类别、初始分辨率和初始维度;将所有图片按一定的比例划分训练集、验证集与测试集;将训练集和验证集的图片裁剪成若干个分块图片,每个分块图片的分辨率和维度都为初始分辨率和初始维度;对分块图片依据缺陷类别进行语义分割标注;
(2)预设的临界维度,构建一个基于视觉Transformer的语义分割网络:所述语义分割网络由输入模块、编码器、瓶颈模块、解码器、输出模块、跳跃连接构成;
所述输入模块,用于将输入图片进行[-0.5,0.5]归一化,并按4x4网格的方式进行图片分块获得输入处理图片;所述输入处理图片的维度为目标维度;
所述编码器,由线性变换层组件、编码Swin Transformer模块组件与分块合并组件构成,用于逐层特征编码;
所述线性变换层组件用于将输入处理图片进行特征升维操作获得特征数据;所述编码Swin Transformer模块组件有若干个接收分辨率和维度都不同的编码Swin Transformer模块,每个编码Swin Transformer模块用于对接收指定维度的特征数据进行自注意力表征学习,并进行低层细节与高层语义跨层融合;所述分块合并组件有若干个接收维度不同的分块合并,每个分块合并用于将接收编码Swin Transformer模块组件指定维度的特征数据后将特征数据按2x2邻域进行连接,分辨率2倍下采样,并进行2倍维度的升维,得到特征数据并对比临界维度;若特征数据未达到临界维度则继续输入相应的编码Swin Transformer模块,直至得到的特征数据达到临界维度后输入至瓶颈模块;
所述瓶颈模块,用于深度特征的自注意力表征学习,加速训练收敛速度;所述瓶颈模块的输入为编码器模块输出的特征数据,输出为自注意力表征学习后的特征数据至解码器,输入的特征数据与输出的特征数据的分辨率、维度保持不变;
所述解码器,由分块扩展组件、解码Swin Transformer模块组件构成,用于逐层特征解码;所述分块扩展组件有若干个接收维度不同的分块拓展,每个分块拓展将接收的特征数据进行2倍降维得到,再进行特征重分配得到2倍上采样的特征数据,将特征数据并对比预设的目标维度;若特征数据未达到目标维度则继续输入至相应的解码Swin Transformer模块,直至得到的特征数据达到目标维度后输入至输出模块;所述解码Swin Transformer模块包括若干个解码Swin Transformer模块,且解码Swin Transformer模块接收分辨率和维度与编码Swin Transformer模块相对应;所述解码Swin Transformer模块用于将分块扩展输出的特征数据进行自注意力表征学习,通过跳跃连接接收解码器模块的SwinTransformer模块,进行低层细节与高层语义跨层融合;
所述输出模块,用于对解码器模块最终分块扩展输出的特征数据进行线性映射后得到输出结果;
所述编码器的Swin Transformer模块组件通过跳跃连接输入至解码器模块中分辨率和维度都相同的Swin Transformer模块组件;
(3)构建损失函数:采用Dice Loss作为损失函数;
(4)模型训练:将训练集输入至步骤(2)中的语义分割网络,采用步骤(3)中的损失函数进行监督训练,训练过程中,将验证集输入至训练好的中间模型进行验证,获得训练好的模型参数;
(5)模型推理:将步骤(4)中训练好的模型参数加载至步骤(2)的语义分割网络,并将步骤(1)中测试集的刨花板表面缺陷的图片进行滑窗裁剪成分块图片,依次将分块图片输入至语义分割网络进行推理,得到每个分块图片的输出结果,最后将每个分块图片的输出结果合并成整块结果;
所述缺陷类别包含大刨花、划痕、砂穿、粉尘斑、鼓泡、胶斑、裂缝、乌云斑、油污、缺边、缺角、凹坑;
所述编码Swin Transformer模块分别为Swin Transformer模块1、Swin Transformer模块2、Swin Transformer模块3、Swin Transformer模块4,且分别对应解码SwinTransformer模块为Swin Transformer模块10,Swin Transformer模块9和SwinTransformer模块8和Swin Transformer模块7;
所述瓶颈模块由Swin Transformer模块5和Swin Transformer模块6串联组成;所述瓶颈模块输出为经过Swin Transformer模块5、Swin Transformer模块6进行自注意力表征学习后的特征数据。
2.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法,其特征在于:所述步骤(1)中,设初始分辨率为1024x1024,初始维度为1,将图片裁剪成若干个分块图片的具体方法为:通过滑窗的方式将图片裁剪成若干个1024x1024x1的分块图片。
3.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法,其特征在于:所述步骤(1)中分块图片划分训练集、验证集与测试集的比例为0.8:0.1:0.1。
4.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法,其特征在于:所述临界维度为512。
5.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法,其特征在于:所述Dice Loss为:
其中,x表示输入样本,fi(x)表示第i个类别的预测结果,yi表示第i个类别对应的真实标签。
6.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法,其特征在于:所述步骤(4)中,采用步骤(3)中的损失函数进行监督训练的具体方法为使用学习率为0.001的AdamW优化器进行训练,并采用步骤(3)中的损失函数进行监督训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111680499.1A CN114529507B (zh) | 2021-12-30 | 2021-12-30 | 一种基于视觉Transformer的刨花板表面缺陷检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111680499.1A CN114529507B (zh) | 2021-12-30 | 2021-12-30 | 一种基于视觉Transformer的刨花板表面缺陷检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114529507A CN114529507A (zh) | 2022-05-24 |
CN114529507B true CN114529507B (zh) | 2024-05-17 |
Family
ID=81621146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111680499.1A Active CN114529507B (zh) | 2021-12-30 | 2021-12-30 | 一种基于视觉Transformer的刨花板表面缺陷检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529507B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661377B (zh) * | 2022-12-28 | 2023-05-05 | 中国科学院自动化研究所 | 自监督深度学习及构建各向同性超分辨率三维图像的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018000731A1 (zh) * | 2016-06-28 | 2018-01-04 | 华南理工大学 | 一种曲面表面缺陷自动检测方法及其装置 |
CN110688312A (zh) * | 2019-09-26 | 2020-01-14 | 山东浪潮人工智能研究院有限公司 | 一种基于Transformer的软件缺陷预测方法 |
CN111652852A (zh) * | 2020-05-08 | 2020-09-11 | 浙江华睿科技有限公司 | 一种产品表面缺陷检测方法和装置及设备 |
CN111784670A (zh) * | 2020-06-30 | 2020-10-16 | 平安国际智慧城市科技股份有限公司 | 基于计算机视觉的热轧钢板表面缺陷识别方法及装置 |
CN113297804A (zh) * | 2021-06-24 | 2021-08-24 | 上海交通大学 | 基于U-Transformer多层次特征重构的异常检测方法及系统 |
CN113379728A (zh) * | 2021-07-02 | 2021-09-10 | 上海电气集团股份有限公司 | 铁轨表面的缺陷检测方法、系统、设备及可读存储介质 |
CN113674253A (zh) * | 2021-08-25 | 2021-11-19 | 浙江财经大学 | 基于U-Transformer的直肠癌CT影像自动分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020134187A (ja) * | 2019-02-14 | 2020-08-31 | ファナック株式会社 | 傷検査装置および方法 |
-
2021
- 2021-12-30 CN CN202111680499.1A patent/CN114529507B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018000731A1 (zh) * | 2016-06-28 | 2018-01-04 | 华南理工大学 | 一种曲面表面缺陷自动检测方法及其装置 |
CN110688312A (zh) * | 2019-09-26 | 2020-01-14 | 山东浪潮人工智能研究院有限公司 | 一种基于Transformer的软件缺陷预测方法 |
CN111652852A (zh) * | 2020-05-08 | 2020-09-11 | 浙江华睿科技有限公司 | 一种产品表面缺陷检测方法和装置及设备 |
CN111784670A (zh) * | 2020-06-30 | 2020-10-16 | 平安国际智慧城市科技股份有限公司 | 基于计算机视觉的热轧钢板表面缺陷识别方法及装置 |
CN113297804A (zh) * | 2021-06-24 | 2021-08-24 | 上海交通大学 | 基于U-Transformer多层次特征重构的异常检测方法及系统 |
CN113379728A (zh) * | 2021-07-02 | 2021-09-10 | 上海电气集团股份有限公司 | 铁轨表面的缺陷检测方法、系统、设备及可读存储介质 |
CN113674253A (zh) * | 2021-08-25 | 2021-11-19 | 浙江财经大学 | 基于U-Transformer的直肠癌CT影像自动分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114529507A (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110570396A (zh) | 一种基于深度学习的工业产品缺陷检测方法 | |
CN111652227B (zh) | 铁路货车底部地板破损故障检测方法 | |
Li et al. | An end-to-end defect detection method for mobile phone light guide plate via multitask learning | |
CN111415329A (zh) | 一种基于深度学习的工件表面缺陷检测方法 | |
CN114529507B (zh) | 一种基于视觉Transformer的刨花板表面缺陷检测方法 | |
CN110186375A (zh) | 智能化高铁白车身焊接装配特征检测装置及检测方法 | |
CN113111875B (zh) | 一种基于深度学习的无缝钢轨焊缝缺陷识别装置及方法 | |
CN111062383A (zh) | 一种基于图像的船舶检测深度神经网络算法 | |
CN105931246A (zh) | 一种基于小波变换和遗传算法的织物瑕疵检测方法 | |
CN114723709A (zh) | 隧道病害检测方法、装置和电子设备 | |
CN116612106A (zh) | 一种基于yolox算法的光学元件表面缺陷检测方法 | |
CN114612468B (zh) | 一种基于正样本的设备外部缺陷检测方法 | |
CN114550135B (zh) | 一种基于注意力机制和特征聚合的车道线检测方法 | |
Han et al. | SSGD: A smartphone screen glass dataset for defect detection | |
CN116645567A (zh) | 基于像素单点结构和多元配对逻辑的无监督异常检测方法 | |
Zuo et al. | An X-ray-based automatic welding defect detection method for special equipment system | |
CN113762247A (zh) | 一种基于显著实例分割算法的道路裂缝自动检测方法 | |
CN116894941A (zh) | 一种轻量级图像分割神经网络构建方法、基于轻量级图像分割神经网络的实时鲁棒焊缝跟踪检测方法及系统 | |
CN117058077A (zh) | 一种基于改进YOLOv5的刨花板表面缺陷检测方法和装置 | |
CN110910352A (zh) | 基于深度学习的太阳能电池缺陷检测系统及检测方法 | |
CN115546144A (zh) | 基于改进Yolov5算法的PCB表面缺陷检测方法 | |
CN114494236A (zh) | 基于过完备卷积神经网络的织物缺陷检测方法及系统 | |
CN112001396B (zh) | 一种轴承表面形变及文字混合缺陷图像检测方法 | |
Han et al. | Damage detection of quayside crane structure based on improved faster R-CNN | |
Cao et al. | Detection and classification of surface defects of magnetic tile based on SE-U-Net |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |