CN115170529A - 基于注意力机制的多尺度微小瑕疵检测方法 - Google Patents

基于注意力机制的多尺度微小瑕疵检测方法 Download PDF

Info

Publication number
CN115170529A
CN115170529A CN202210855596.8A CN202210855596A CN115170529A CN 115170529 A CN115170529 A CN 115170529A CN 202210855596 A CN202210855596 A CN 202210855596A CN 115170529 A CN115170529 A CN 115170529A
Authority
CN
China
Prior art keywords
network
attention
convolution
layer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210855596.8A
Other languages
English (en)
Inventor
刘静
王奕卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute of Technology of Xidian University
Original Assignee
Guangzhou Institute of Technology of Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Technology of Xidian University filed Critical Guangzhou Institute of Technology of Xidian University
Priority to CN202210855596.8A priority Critical patent/CN115170529A/zh
Publication of CN115170529A publication Critical patent/CN115170529A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及瑕疵检测技术领域,具体的说是基于注意力机制的多尺度微小瑕疵检测方法,通过获取训练样本集和测试样本集,构建基于注意力机制的多尺度YOLOv5模型,对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练,获取微小瑕疵目标缺陷图像的识别结果,采用了数据增强与卷积块注意力机制模,提高网络的特征提取能力,对通道特征具有强化重要信息,抑制无关信息的作用,能够使得网络提取出更加关键的特征,从而提高检测效率,并且采用YOLOv5处理算法,大大提升了算法运行速度,实现在线实时检测,优化了检测层的结构,使得本发明适用于不同大小规格的车标,本发明算法速度快,可以实现在线实时检测。

Description

基于注意力机制的多尺度微小瑕疵检测方法
技术领域
本发明涉及一种检测方法,具体为基于注意力机制的多尺度微小瑕疵检测方法,属于瑕疵检测技术领域。
背景技术
随着国内企业数字化的发展,许多传统企业需要就行数字化转型。目前,国内的许多企业在商品的质量检测上,依然依靠人眼辨识,这种人工识别的方法,随着观察时间的增加,检测员的眼睛过度疲劳,导致准确率会降低,检测时间会下降,最终影响生产效率。由于计算机视觉技术有自动、准确且能够快速识别的特点,因此,将计算机视觉技术应用于产品质量检测方面具有极其重要的意义和实际价值。
作为机器视觉检测的一种,现行表面缺陷检测技术,一般为使用工业相机采集被测物图像,处理图像得到被测物的瑕疵信息。表面缺陷检测技术目前已经广泛的应用在视觉检测的各个领域之中,它已经成为自动化生产中确保产品质量的一个非常重要的环节。表面质量检测相对于肉眼来说具有更高的精确程度,速度更快,能让更多的企业省时省力,取代人工,同时也节约了成本,安全与高效并存。表面质量检测基于机器视觉检测技术,对于工件表面存在斑点、缺损以及色差等缺陷进行检测。
微小瑕疵检测作为表面缺陷检测的一个分支,解决一般表面缺陷检测容易出现的错分、漏检等问题,该类缺陷目标在整个图像中所占的像元很少,并且信噪比低、背景区域分布不均匀、背景与目标灰度值区分不明显等。例如车标检测上的刮伤、漏镀、颗粒、异色、凹痕等微小缺陷。
然而,现阶段的微小瑕疵检测算法大多针对大于1mm的瑕疵,对于大小为0.1-0.2mm瑕疵的检测算法较少且精度较低。例如车标采集回的图像大小为5500×3600像素,0.2mm的瑕疵在图像中的投影大小为2×2,占比约为千万分之二。相比于其他算法,图像大小是3000×2000像素,瑕疵投影大小却占据20×20像素,占比约为十万分之六。现阶段的算法针对微小瑕疵进行处理,耗时短的计算快的,漏检率高,而漏检率低的算法,由于耗时原因,难以实现在线检测,难以对车标的微小瑕疵进行精准在线检测。
有鉴于此特提出本发明,以解决现有技术中对微小瑕疵检测速度慢和漏检率高的问题。
发明内容
本发明的目的就在于为了解决上述问题而提供基于注意力机制的多尺度微小瑕疵检测方法,用于解决对微小瑕疵检测速度慢和漏检率高的问题。
本发明通过以下技术方案来实现上述目的,基于注意力机制的多尺度微小瑕疵检测方法,包括以下步骤:
步骤一、获取训练样本集和测试样本集;
步骤二、构建基于注意力机制的多尺度YOLOv5模型;
步骤三、对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练;
步骤四、获取微小瑕疵目标缺陷图像的识别结果。
进一步的,在步骤一中,获取训练样本集和测试样本集时,获取V幅包含不同类别瑕疵的图像O={oi|1≤i≤V},并对每幅瑕疵图像oi中的瑕疵类别及位置坐标进行标注,得到类别标签集
Figure BDA0003754391350000021
和位置坐标标签集
Figure BDA0003754391350000022
其中,V>600,oi表示第i幅瑕疵图像,
Figure BDA0003754391350000023
Figure BDA0003754391350000024
分别表示oi所包含瑕疵的类别标签和位置坐标标签,
Figure BDA0003754391350000031
表示第u类瑕疵,U表示瑕疵类别标签的总数,U≥2,
Figure BDA0003754391350000032
Figure BDA0003754391350000033
分别表示
Figure BDA0003754391350000034
所围成的标记框中心的横坐标、标记框中心的纵坐标、标记框的宽和标记框的高,将随机选取O中半数以上的瑕疵图像及其对应的类别标签和位置坐标标签组成训练样本集Otrain={oj|1≤j≤Vtrain},V/2<Vtrain≤V,将其余瑕疵图像及其对应的类别标签和位置坐标标签组成测试样本集,Otest={ol|1≤l≤Vtest},其中,oj表示训练样本集中的第j张瑕疵图像,ol表示训练样本集中的第l张瑕疵图像,V/2<Vtrain≤V,Vtest=V-Vtrain
进一步的,在步骤二中,构建基于注意力机制的多尺度YOLOv5模型时,先构建基于注意力机制的多尺度YOLOv5模型的结构,构建包括顺次连接的特征提取网络fextract、注意力网络fattention、输出网络foutput;其中特征提取网络fextract包括输入层、多个卷积模块和多个残差模块;注意力网络fattention包括两个网络通道注意力网络fCAM和空间注意力网络fSAM,其中包括多个卷积层、池化层和激活函数;输出网络foutput包括多个卷积层、多个归一化层和多个激活函数层,其中特征提取网络fextract用于初步提取图像中的高级特征,为排除微小瑕疵目标上的无关信息,然后利用卷积块注意力模块(CBAM)注意力网络fattention对通道特征具有强化重要信息,抑制微小瑕疵目标的其他位置以及背景的传送带的纹理信息等无关信息的作用,能够使得网络提取出更加关键的特征,从而提升检测精度;foutput使输入图像经过特征网络和上采样以及拼接最终的搭配4个尺度的检测头,进一步提升网络对于微小车标瑕疵这类小目标的识别准确率,基于注意力机制的多尺度YOLOv5模型包括特征提取网络fextract、注意力网络fattention、输出网络foutput,提取网络fextract采用包含和五个卷积模块和二十三个残差模块的卷积神经网络,其结构依次为:输入层→第一卷积模块第一残差模块→第二卷积模块→第二残差模块→第三残差模块→第三卷积模块→第四残差模块→第五残差模块→第六残差模块→第七残差模块→第八残差模块→第九残差模块→第十残差模块→第十一残差模块→第四卷积模块→第十二残差模块→第十三残差模块→第十四残差模块→第十五残差模块→第十六残差模块→第十七残差模块→第十八残差模块→第十九残差模块→第五卷积模块→第二十残差模块→第二十一残差模块→第二十二残差模块→第二十三残差模块,卷积模块的具体结构依次为:第一卷积层→第一归一化层→第一激活函数层,残差模块的具体结构依次为:第一卷积模块→第二卷积模块→shortcut拼接层,特征提取网络fextract的每层参数设置为:将第一至第五卷积模块中的第一卷积层的卷积核大小设置为3×3,卷积步长设置为2,填充值为1,将第一至第二十三残差模块中第一卷积模块的第一卷积层的卷积核大小设置为1×1,卷积步长设置为1,填充值为0,将第二卷积模块的第一卷积层积核大小设置为3×3,卷积步长设置为1,填充值为1;第一至第五卷积模块和第一至第二十三残差模块中的归一化层均采用BatchNorm2d函数,第一至第五卷积模块和第一至第二十三残差模块中的激活函数层均采用LeakyReLU函数,其斜率均设置为0.2,卷积块注意力模块(CBAM)注意力网络fattention包含两个网络,通道注意力网络fCAM和空间注意力网络fSAM,其结构先手顺序为通道注意力网络和空间注意力网络,其中通道注意力网络包含两个池化层(平均池化层和最大池化层),一个两层的全连接层,一层Relu激活函数层和一层Sigmoid激活函数层,空间注意力网络包含两个池化层(平均池化层和最大池化层),一个shortcut拼接层,一个7×7的卷积层,一层Sigmoid激活函数层,输出网络foutput采用包含四组两个卷积层,一个归一化层和一个激活函数层的神经网络,其结构依次为:第一卷积层→第二卷积层→第一归一化层→第一激活函数层,输出网络foutput的每层参数设置为:将第一卷积层的卷积核大小设置为3×3,卷积步长设置为2,填充值为1,将第二卷积层的卷积核大小设置为1×1,卷积步长设置为1,填充值为0,第一归一化层采用BatchNorm2d函数,第一激活函数层第一激活函数采用LeakyReLU函数,进行定义损失函数,算法在训练时,将标签同时分配给3个anchor,相当于使正样本数量扩大到原来的三倍,一定程度上缓解了正负样本不均衡的问题,损失函数如公式(一)所示:
Figure BDA0003754391350000051
其中,N为检测层个数,B是标签分配到先验框的目标个数,S×S为该尺寸被分割成的网格数,Lbox为边界框回归损失,对每个目标计算;Lobj为目标物体损失,对每个网格计算;Lcls为分类损失,同样对每个目标计算λ123分别为这三种损失的权重;
CIoU损失计算如公示(二)所示:
Figure BDA0003754391350000052
Figure BDA0003754391350000053
Figure BDA0003754391350000054
其中,b与bgt分别为预测框和标签框,wgt、hgt、w、h分别为标签框的宽高和预测框的宽高,代表计算两个框的中心点距离,α为权重系数;
Lobj和Lcls均采用BCE With Logits Loss,计算方式如公示(三)所示:
Figure BDA0003754391350000061
Figure BDA0003754391350000062
注意力网络fattention当中,通道注意力网络fCAM公式如公式(四)所示:
Mc(F)=σ(MLP(AugPool(F))+MLP(MaxPool(F)))
=σ(W1(W0(FaugC))+(W1(W0(FmaxC)))
空间注意力网络fSAM公式如公式(五)所示:
Ms(F)=σ(f(7*7)([AugPool(F),MaxPool(F)]))=σ(f(7*7)([FaugS;FmaxS]))。
进一步的,在步骤三中,进行对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练时包括以下步骤;
S1、初始化特征提取网络fextract的网络权重参数为
Figure BDA0003754391350000063
注意力网络fattention的网络权重参数为
Figure BDA0003754391350000064
输出网络foutput的网络权重参数为
Figure BDA0003754391350000065
迭代次数为t,本实例中最大迭代次数为T=300,并令t=0;
S2、首先将输入的图像进行预处理,主要使用Mosaic、Cutout方法对数据进行初步扩充,同时使用了图像扰动,改变亮度、对比度、饱和度、色调,加噪声,随机缩放,随机裁剪(random crop),翻转,旋转,随机擦除等方式对数据进行进一步扩充,增强数据的多样性,尽可能的模拟现实场景的复杂性;
S3、将训练样本集Otrain与Otemp中的每幅图像oj与oi作为特征提取网络fextract的输入,每幅图像oj与oi在特征提取网络中进行前向传播,得到图像oj与oi的高级特征
Figure BDA0003754391350000071
Figure BDA0003754391350000072
S4、将图像oj作为注意力网络fattention的输入fattention进行向前传播,得到图像oi的注意力图
Figure BDA0003754391350000073
S5、将图像oj的注意力图
Figure BDA0003754391350000074
与图像oj的高级特征
Figure BDA0003754391350000075
相乘,得到图像oj关注于微小瑕疵图像的高级特征
Figure BDA0003754391350000076
S6、将图像oj关注于微小瑕疵图像的高级特征
Figure BDA0003754391350000077
作为输出网络foutput的输入进行向前传播,得到图像oi的所包含微小瑕疵的预测位置坐标标签
Figure BDA0003754391350000078
置信度信息
Figure BDA0003754391350000079
和预测类别标签概率
Figure BDA00037543913500000710
S7、采用损失函数Losstotal计算损失函数:
Figure BDA00037543913500000711
S8、判断t≥T是否成立,若是,得到训练好的前后背景分离卷积神经网络模型,否则,令t=t+1,并执行步骤(3c)。
进一步的,在步骤四中,获取微小瑕疵目标缺陷图像的识别结果包括以下步骤:
A、将测试样本集Otest中的每一个测试图像ol作为训练好的基于注意力机制的多尺度Yolov5网络模型的输入进行前向传播,得到微小瑕疵的预测位置坐标标签(xl,yl,wl,hl),置信度信息Cl和类别标签概率pl(c);
B、将测试图像ol预测的置信度信息
Figure BDA00037543913500000712
中大于0.5的结果所对应的预测位置坐标标签(xl,yl,wl,hl)和类别标签概率pl(c)中最大值对应的瑕疵类别分别作为测试图像ol微小瑕疵的位置预测结果和类别预测结果。
本发明的技术效果和优点:采用了数据增强与卷积块注意力机制模,提高网络的特征提取能力,同时,对通道特征具有强化重要信息,抑制如车标的其他位置以及背景的传送带的纹理信息等无关信息的作用,能够使得网络提取出更加关键的特征,从而提高检测效率,并且采用YOLOv5处理算法,大大提升了算法运行速度,可实现在线实时检测,同时,优化了检测层的结构,使得本发明适用于不同大小规格的车标,本发明算法速度快,可以实现在线实时检测。
附图说明
图1为现实工业车标检测数据集实验结果;
图2为天池工业瓷砖检测结果;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2所示,基于注意力机制的多尺度微小瑕疵检测方法,包括以下步骤:
步骤一、获取训练样本集和测试样本集;
步骤二、构建基于注意力机制的多尺度YOLOv5模型;
步骤三、对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练;
步骤四、获取微小瑕疵目标缺陷图像的识别结果。
作为本发明的一种技术优化方案,在步骤一中,获取训练样本集和测试样本集时,获取V幅包含不同类别瑕疵的图像O={oi|1≤i≤V},并对每幅瑕疵图像oi中的瑕疵类别及位置坐标进行标注,得到类别标签集
Figure BDA0003754391350000091
和位置坐标标签集
Figure BDA0003754391350000092
其中,V>600,oi表示第i幅瑕疵图像,
Figure BDA0003754391350000093
Figure BDA0003754391350000094
分别表示oi所包含瑕疵的类别标签和位置坐标标签,
Figure BDA0003754391350000095
Figure BDA0003754391350000096
表示第u类瑕疵,U表示瑕疵类别标签的总数,U≥2,
Figure BDA0003754391350000097
Figure BDA0003754391350000098
Figure BDA0003754391350000099
分别表示
Figure BDA00037543913500000910
所围成的标记框中心的横坐标、标记框中心的纵坐标、标记框的宽和标记框的高,将随机选取O中半数以上的瑕疵图像及其对应的类别标签和位置坐标标签组成训练样本集Otrain={oj|1≤j≤Vtrain},V/2<Vtrain≤V,将其余瑕疵图像及其对应的类别标签和位置坐标标签组成测试样本集,Otest={ol|1≤l≤Vtest},其中,oj表示训练样本集中的第j张瑕疵图像,ol表示训练样本集中的第l张瑕疵图像,V/2<Vtrain≤V,Vtest=V-Vtrain
作为本发明的一种技术优化方案,在步骤二中,构建基于注意力机制的多尺度YOLOv5模型时,先构建基于注意力机制的多尺度YOLOv5模型的结构,构建包括顺次连接的特征提取网络fextract、注意力网络fattention、输出网络foutput;其中特征提取网络fextract包括输入层、多个卷积模块和多个残差模块;注意力网络fattention包括两个网络通道注意力网络fCAM和空间注意力网络fSAM,其中包括多个卷积层、池化层和激活函数;输出网络foutput包括多个卷积层、多个归一化层和多个激活函数层,其中特征提取网络fextract用于初步提取图像中的高级特征,为排除微小瑕疵目标上的无关信息,然后利用卷积块注意力模块(CBAM)注意力网络fattention对通道特征具有强化重要信息,抑制微小瑕疵目标的其他位置以及背景的传送带的纹理信息等无关信息的作用,能够使得网络提取出更加关键的特征,从而提升检测精度;foutput使输入图像经过特征网络和上采样以及拼接最终的搭配4个尺度的检测头,进一步提升网络对于微小车标瑕疵这类小目标的识别准确率,基于注意力机制的多尺度YOLOv5模型包括特征提取网络fextract、注意力网络fattention、输出网络foutput,提取网络fextract采用包含和五个卷积模块和二十三个残差模块的卷积神经网络,其结构依次为:输入层→第一卷积模块第一残差模块→第二卷积模块→第二残差模块→第三残差模块→第三卷积模块→第四残差模块→第五残差模块→第六残差模块→第七残差模块→第八残差模块→第九残差模块→第十残差模块→第十一残差模块→第四卷积模块→第十二残差模块→第十三残差模块→第十四残差模块→第十五残差模块→第十六残差模块→第十七残差模块→第十八残差模块→第十九残差模块→第五卷积模块→第二十残差模块→第二十一残差模块→第二十二残差模块→第二十三残差模块,卷积模块的具体结构依次为:第一卷积层→第一归一化层→第一激活函数层,残差模块的具体结构依次为:第一卷积模块→第二卷积模块→shortcut拼接层,特征提取网络fextract的每层参数设置为:将第一至第五卷积模块中的第一卷积层的卷积核大小设置为3×3,卷积步长设置为2,填充值为1,将第一至第二十三残差模块中第一卷积模块的第一卷积层的卷积核大小设置为1×1,卷积步长设置为1,填充值为0,将第二卷积模块的第一卷积层积核大小设置为3×3,卷积步长设置为1,填充值为1;第一至第五卷积模块和第一至第二十三残差模块中的归一化层均采用BatchNorm2d函数,第一至第五卷积模块和第一至第二十三残差模块中的激活函数层均采用LeakyReLU函数,其斜率均设置为0.2,卷积块注意力模块(CBAM)注意力网络fattention包含两个网络,通道注意力网络fCAM和空间注意力网络fSAM,其结构先手顺序为通道注意力网络和空间注意力网络,其中通道注意力网络包含两个池化层(平均池化层和最大池化层),一个两层的全连接层,一层Relu激活函数层和一层Sigmoid激活函数层,空间注意力网络包含两个池化层(平均池化层和最大池化层),一个shortcut拼接层,一个7×7的卷积层,一层Sigmoid激活函数层,输出网络foutput采用包含四组两个卷积层,一个归一化层和一个激活函数层的神经网络,其结构依次为:第一卷积层→第二卷积层→第一归一化层→第一激活函数层,输出网络foutput的每层参数设置为:将第一卷积层的卷积核大小设置为3×3,卷积步长设置为2,填充值为1,将第二卷积层的卷积核大小设置为1×1,卷积步长设置为1,填充值为0,第一归一化层采用BatchNorm2d函数,第一激活函数层第一激活函数采用LeakyReLU函数,进行定义损失函数,算法在训练时,将标签同时分配给3个anchor,相当于使正样本数量扩大到原来的三倍,一定程度上缓解了正负样本不均衡的问题,损失函数如公式(一)所示:
Figure BDA0003754391350000111
其中,N为检测层个数,B是标签分配到先验框的目标个数,S×S为该尺寸被分割成的网格数,Lbox为边界框回归损失,对每个目标计算;Lobj为目标物体损失,对每个网格计算;Lcls为分类损失,同样对每个目标计算λ123分别为这三种损失的权重;
CIoU损失计算如公示(二)所示:
Figure BDA0003754391350000112
Figure BDA0003754391350000121
Figure BDA0003754391350000122
其中,b与bgt分别为预测框和标签框,wgt、hgt、w、h分别为标签框的宽高和预测框的宽高,代表计算两个框的中心点距离,α为权重系数;
Lobj和Lcls均采用BCE With Logits Loss,计算方式如公示(三)所示:
Figure BDA0003754391350000123
Figure BDA0003754391350000124
注意力网络fattention当中,通道注意力网络fCAM公式如公式(四)所示:
Mc(F)=σ(MLP(AugPool(F))+MLP(MaxPool(F)))
=σ(W1(W0(FaugC))+(W1(W0(FmaxC)))
空间注意力网络fSAM公式如公式(五)所示:
Ms(F)=σ(f(7*7)([AugPool(F),MaxPool(F)]))=σ(f(7*7)([FaugS;FmaxS]))。
作为本发明的一种技术优化方案,在步骤三中,进行对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练时包括以下步骤;
S1、初始化特征提取网络fextract的网络权重参数为
Figure BDA0003754391350000125
注意力网络fattention的网络权重参数为
Figure BDA0003754391350000126
输出网络foutput的网络权重参数为
Figure BDA0003754391350000127
迭代次数为t,本实例中最大迭代次数为T=300,并令t=0;
S2、首先将输入的图像进行预处理,主要使用Mosaic、Cutout方法对数据进行初步扩充,同时使用了图像扰动,改变亮度、对比度、饱和度、色调,加噪声,随机缩放,随机裁剪(random crop),翻转,旋转,随机擦除等方式对数据进行进一步扩充,增强数据的多样性,尽可能的模拟现实场景的复杂性;
S3、将训练样本集Otrain与Otemp中的每幅图像oj与oi作为特征提取网络fextract的输入,每幅图像oj与oi在特征提取网络中进行前向传播,得到图像oj与oi的高级特征
Figure BDA0003754391350000131
Figure BDA0003754391350000132
S4、将图像oj作为注意力网络fattention的输入fattention进行向前传播,得到图像oi的注意力图
Figure BDA0003754391350000133
S5、将图像oj的注意力图
Figure BDA0003754391350000134
与图像oj的高级特征
Figure BDA0003754391350000135
相乘,得到图像oj关注于微小瑕疵图像的高级特征
Figure BDA0003754391350000136
S6、将图像oj关注于微小瑕疵图像的高级特征
Figure BDA0003754391350000137
作为输出网络foutput的输入进行向前传播,得到图像oi的所包含微小瑕疵的预测位置坐标标签
Figure BDA0003754391350000138
置信度信息
Figure BDA0003754391350000139
和预测类别标签概率
Figure BDA00037543913500001310
S7、采用损失函数Losstotal计算损失函数:
Figure BDA00037543913500001311
S8、判断t≥T是否成立,若是,得到训练好的前后背景分离卷积神经网络模型,否则,令t=t+1,并执行步骤(3c)。
作为本发明的一种技术优化方案,在步骤四中,获取微小瑕疵目标缺陷图像的识别结果包括以下步骤:
A、将测试样本集Otest中的每一个测试图像ol作为训练好的基于注意力机制的多尺度Yolov5网络模型的输入进行前向传播,得到微小瑕疵的预测位置坐标标签(xl,yl,wl,hl),置信度信息Cl和类别标签概率pl(c);
B、将测试图像ol预测的置信度信息
Figure BDA0003754391350000141
中大于0.5的结果所对应的预测位置坐标标签(xl,yl,wl,hl)和类别标签概率pl(c)中最大值对应的瑕疵类别分别作为测试图像ol微小瑕疵的位置预测结果和类别预测结果。
本发明仿真实验中生成训练集和测试集时,使用了工厂采集的现实工业车标检测数据集,现实工业车标检测数据集包含8类分别为凹痕(Dent),缺口(Gap),漏镀(Skip-plating),刮伤(Scratch),颗粒(Grain),异色(Heterochromatic),油墨透底(Thoroughly),油墨残留(Residual)。下文表格中分别以(DE、GA、SK、SC、GR、HE、TH、RE)指代,共631张图像,其中训练集508张,验证集有123张。
本发明仿真实验是采用本发明与现有技术(Yolov5、CascadeR-cnn等)分别在同等条件下进行对比实验的。
为了对本发明仿真结果的效果进行评估,本发明采用平均精度(AP(IoU=0.50:0.95))作为性能评价指标与现有技术进行对比,AP的定义为精度Precision和和召回率Recall所成曲线下的面积,精度Precision定义为TP/(TP+FP),召回率Recall定义为TP/(TP+FN),其中TP,TN,FP和FN分别代表真正类,真反类,假正类和假反类,mAP定义为AP的平均值,(IoU=0.50:0.95)定义为IoU为0.50到IoU为0.95下的每0.05做一次mAP记录,最后取平均的结果。对比结果见图1,基于注意力机制的多尺度YOLOv5车标检测技术性能在时间成本与精度成本综合考虑的前提下优于现有技术。
同时考虑到现实工业车标数据集规模较小的问题,选用了2020年天池大数据竞赛工业瓷砖检测数据集进行进一步验证,该数据集共包含六种异常:角异常、边异常、深色点块瑕疵、白色点瑕疵、浅色点块瑕疵与光圈瑕疵,共5388张图片,其中训练集有4310张,验证集有1078张。实验结果见图2,结果显示,在大规模数据集中,我们的方法依然有效,尽可能的避免了实验的随机性影响。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (9)

1.基于注意力机制的多尺度微小瑕疵检测方法,其特征在于:该方法包括以下步骤:
步骤一、获取训练样本集和测试样本集;
步骤二、构建基于注意力机制的多尺度YOLOv5模型;
步骤三、对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练;
步骤四、获取微小瑕疵目标缺陷图像的识别结果。
2.根据权利要求1所述的基于注意力机制的多尺度微小瑕疵检测方法,其特征在于:在步骤一中,获取训练样本集和测试样本集时,获取V幅包含不同类别瑕疵的图像O={oi|1≤i≤V},并对每幅瑕疵图像oi中的瑕疵类别及位置坐标进行标注,得到类别标签集
Figure FDA0003754391340000011
和位置坐标标签集
Figure FDA0003754391340000012
其中,V>600,oi表示第i幅瑕疵图像,
Figure FDA0003754391340000013
Figure FDA0003754391340000014
分别表示oi所包含瑕疵的类别标签和位置坐标标签,
Figure FDA0003754391340000015
Figure FDA0003754391340000016
表示第u类瑕疵,U表示瑕疵类别标签的总数,U≥2,
Figure FDA0003754391340000017
Figure FDA0003754391340000018
Figure FDA0003754391340000019
分别表示
Figure FDA00037543913400000110
所围成的标记框中心的横坐标、标记框中心的纵坐标、标记框的宽和标记框的高。
3.根据权利要求2所述的基于注意力机制的多尺度微小瑕疵检测方法,其特征在于:将随机选取O中半数以上的瑕疵图像及其对应的类别标签和位置坐标标签组成训练样本集Otrain={oj|1≤j≤Vtrain},V/2<Vtrain≤V,将其余瑕疵图像及其对应的类别标签和位置坐标标签组成测试样本集,Otest={ol|1≤l≤Vtest},其中,oj表示训练样本集中的第j张瑕疵图像,ol表示训练样本集中的第l张瑕疵图像,V/2<Vtrain≤V,Vtest=V-Vtrain
4.根据权利要求3所述的基于注意力机制的多尺度微小瑕疵检测方法,其特征在于:在步骤二中,构建基于注意力机制的多尺度YOLOv5模型时,先构建基于注意力机制的多尺度YOLOv5模型的结构,构建包括顺次连接的特征提取网络fextract、注意力网络fattention、输出网络foutput;其中特征提取网络fextract包括输入层、多个卷积模块和多个残差模块;注意力网络fattention包括两个网络通道注意力网络fCAM和空间注意力网络fSAM,其中包括多个卷积层、池化层和激活函数;输出网络foutput包括多个卷积层、多个归一化层和多个激活函数层,其中特征提取网络fextract用于初步提取图像中的高级特征,为排除微小瑕疵目标上的无关信息,然后利用卷积块注意力模块(CBAM)注意力网络fattention对通道特征具有强化重要信息,抑制微小瑕疵目标的其他位置以及背景的传送带的纹理信息等无关信息的作用,能够使得网络提取出更加关键的特征,从而提升检测精度;foutput使输入图像经过特征网络和上采样以及拼接最终的搭配4个尺度的检测头,进一步提升网络对于微小车标瑕疵这类小目标的识别准确率,基于注意力机制的多尺度YOLOv5模型包括特征提取网络fextract、注意力网络fattention、输出网络foutput
5.根据权利要求4所述的基于注意力机制的多尺度微小瑕疵检测方法,其特征在于:提取网络fextract采用包含和五个卷积模块和二十三个残差模块的卷积神经网络,其结构依次为:输入层→第一卷积模块第一残差模块→第二卷积模块→第二残差模块→第三残差模块→第三卷积模块→第四残差模块→第五残差模块→第六残差模块→第七残差模块→第八残差模块→第九残差模块→第十残差模块→第十一残差模块→第四卷积模块→第十二残差模块→第十三残差模块→第十四残差模块→第十五残差模块→第十六残差模块→第十七残差模块→第十八残差模块→第十九残差模块→第五卷积模块→第二十残差模块→第二十一残差模块→第二十二残差模块→第二十三残差模块。
6.根据权利要求5所述的基于注意力机制的多尺度微小瑕疵检测方法,其特征在于:卷积模块的具体结构依次为:第一卷积层→第一归一化层→第一激活函数层,残差模块的具体结构依次为:第一卷积模块→第二卷积模块→shortcut拼接层,特征提取网络fextract的每层参数设置为:将第一至第五卷积模块中的第一卷积层的卷积核大小设置为3×3,卷积步长设置为2,填充值为1,将第一至第二十三残差模块中第一卷积模块的第一卷积层的卷积核大小设置为1×1,卷积步长设置为1,填充值为0,将第二卷积模块的第一卷积层积核大小设置为3×3,卷积步长设置为1,填充值为1;第一至第五卷积模块和第一至第二十三残差模块中的归一化层均采用BatchNorm2d函数,第一至第五卷积模块和第一至第二十三残差模块中的激活函数层均采用LeakyReLU函数,其斜率均设置为0.2,卷积块注意力模块(CBAM)注意力网络fattention包含两个网络,通道注意力网络fCAM和空间注意力网络fSAM,其结构先手顺序为通道注意力网络和空间注意力网络,其中通道注意力网络包含两个池化层(平均池化层和最大池化层),一个两层的全连接层,一层Relu激活函数层和一层Sigmoid激活函数层,空间注意力网络包含两个池化层(平均池化层和最大池化层),一个shortcut拼接层,一个7×7的卷积层,一层Sigmoid激活函数层,输出网络foutput采用包含四组两个卷积层,一个归一化层和一个激活函数层的神经网络,其结构依次为:第一卷积层→第二卷积层→第一归一化层→第一激活函数层,输出网络foutput的每层参数设置为:将第一卷积层的卷积核大小设置为3×3,卷积步长设置为2,填充值为1,将第二卷积层的卷积核大小设置为1×1,卷积步长设置为1,填充值为0,第一归一化层采用BatchNorm2d函数,第一激活函数层第一激活函数采用LeakyReLU函数。
7.根据权利要求6所述的基于注意力机制的多尺度微小瑕疵检测方法,其特征在于:在步骤二中,构建模型后,进行定义损失函数,算法在训练时,将标签同时分配给3个anchor,相当于使正样本数量扩大到原来的三倍,一定程度上缓解了正负样本不均衡的问题,损失函数如公式(一)所示:
Figure FDA0003754391340000041
其中,N为检测层个数,B是标签分配到先验框的目标个数,S×S为该尺寸被分割成的网格数,Lbox为边界框回归损失,对每个目标计算;Lobj为目标物体损失,对每个网格计算;Lcls为分类损失,同样对每个目标计算λ123分别为这三种损失的权重;
CIoU损失计算如公示(二)所示:
Figure FDA0003754391340000042
Figure FDA0003754391340000043
Figure FDA0003754391340000044
其中,b与bgt分别为预测框和标签框,wgt、hgt、w、h分别为标签框的宽高和预测框的宽高,代表计算两个框的中心点距离,α为权重系数;
Lobj和Lcls均采用BCE With Logits Loss,计算方式如公示(三)所示:
Figure FDA0003754391340000045
Figure FDA0003754391340000046
注意力网络fattention当中,通道注意力网络fCAM公式如公式(四)所示:
Mc(F)=σ(MLP(AugPool(F))+MLP(MaxPool(F)))
=σ(W1(W0(FaugC))+(W1(W0(FmaxC)))
空间注意力网络fSAM公式如公式(五)所示:
Ms(F)=σ(f(7*7)([AugPool(F),MaxPool(F)]))=σ(f(7*7)([FaugS;FmaxS]))。
8.根据权利要求7所述的基于注意力机制的多尺度微小瑕疵检测方法,其特征在于:在步骤三中,进行对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练时包括以下步骤;
S1、初始化特征提取网络fextract的网络权重参数为
Figure FDA0003754391340000051
注意力网络fattention的网络权重参数为
Figure FDA0003754391340000052
输出网络foutput的网络权重参数为
Figure FDA0003754391340000053
迭代次数为t,本实例中最大迭代次数为T=300,并令t=0;
S2、首先将输入的图像进行预处理,主要使用Mosaic、Cutout方法对数据进行初步扩充,同时使用了图像扰动,改变亮度、对比度、饱和度、色调,加噪声,随机缩放,随机裁剪(random crop),翻转,旋转,随机擦除等方式对数据进行进一步扩充,增强数据的多样性,尽可能的模拟现实场景的复杂性;
S3、将训练样本集Otrain与Otemp中的每幅图像oj与oi作为特征提取网络fextract的输入,每幅图像oj与oi在特征提取网络中进行前向传播,得到图像oj与oi的高级特征
Figure FDA0003754391340000054
Figure FDA0003754391340000055
S4、将图像oj作为注意力网络fattention的输入fattention进行向前传播,得到图像oi的注意力图
Figure FDA0003754391340000056
S5、将图像oj的注意力图
Figure FDA0003754391340000057
与图像oj的高级特征
Figure FDA0003754391340000058
相乘,得到图像oj关注于微小瑕疵图像的高级特征
Figure FDA0003754391340000059
S6、将图像oj关注于微小瑕疵图像的高级特征
Figure FDA00037543913400000510
作为输出网络foutput的输入进行向前传播,得到图像oi的所包含微小瑕疵的预测位置坐标标签
Figure FDA00037543913400000511
置信度信息
Figure FDA00037543913400000512
和预测类别标签概率
Figure FDA00037543913400000513
S7、采用损失函数Losstotal计算损失函数:
Figure FDA0003754391340000061
S8、判断t≥T是否成立,若是,得到训练好的前后背景分离卷积神经网络模型,否则,令t=t+1,并执行步骤(3c)。
9.根据权利要求8所述的基于注意力机制的多尺度微小瑕疵检测方法,其特征在于:在步骤四中,获取微小瑕疵目标缺陷图像的识别结果包括以下步骤:
A、将测试样本集Otest中的每一个测试图像ol作为训练好的基于注意力机制的多尺度Yolov5网络模型的输入进行前向传播,得到微小瑕疵的预测位置坐标标签(xl,yl,wl,hl),置信度信息Cl和类别标签概率pl(c);
B、将测试图像ol预测的置信度信息
Figure FDA0003754391340000062
中大于0.5的结果所对应的预测位置坐标标签(xl,yl,wl,hl)和类别标签概率pl(c)中最大值对应的瑕疵类别分别作为测试图像ol微小瑕疵的位置预测结果和类别预测结果。
CN202210855596.8A 2022-07-20 2022-07-20 基于注意力机制的多尺度微小瑕疵检测方法 Pending CN115170529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210855596.8A CN115170529A (zh) 2022-07-20 2022-07-20 基于注意力机制的多尺度微小瑕疵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210855596.8A CN115170529A (zh) 2022-07-20 2022-07-20 基于注意力机制的多尺度微小瑕疵检测方法

Publications (1)

Publication Number Publication Date
CN115170529A true CN115170529A (zh) 2022-10-11

Family

ID=83495698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210855596.8A Pending CN115170529A (zh) 2022-07-20 2022-07-20 基于注意力机制的多尺度微小瑕疵检测方法

Country Status (1)

Country Link
CN (1) CN115170529A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527189A (zh) * 2022-11-01 2022-12-27 杭州枕石智能科技有限公司 车位状态的检测方法、终端设备及计算机可读存储介质
CN115984269A (zh) * 2023-03-20 2023-04-18 湖南长理尚洋科技有限公司 一种非侵入式局部水生态安全检测方法与系统
CN116611503A (zh) * 2023-07-21 2023-08-18 浙江双元科技股份有限公司 用于多类别瑕疵实时检测的轻量化模型构建方法及装置
CN117132584A (zh) * 2023-09-22 2023-11-28 山东省计算中心(国家超级计算济南中心) 一种基于深度学习的液晶显示屏瑕疵检测方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527189A (zh) * 2022-11-01 2022-12-27 杭州枕石智能科技有限公司 车位状态的检测方法、终端设备及计算机可读存储介质
CN115527189B (zh) * 2022-11-01 2023-03-21 杭州枕石智能科技有限公司 车位状态的检测方法、终端设备及计算机可读存储介质
CN115984269A (zh) * 2023-03-20 2023-04-18 湖南长理尚洋科技有限公司 一种非侵入式局部水生态安全检测方法与系统
CN116611503A (zh) * 2023-07-21 2023-08-18 浙江双元科技股份有限公司 用于多类别瑕疵实时检测的轻量化模型构建方法及装置
CN116611503B (zh) * 2023-07-21 2023-09-22 浙江双元科技股份有限公司 用于多类别瑕疵实时检测的轻量化模型构建方法及装置
CN117132584A (zh) * 2023-09-22 2023-11-28 山东省计算中心(国家超级计算济南中心) 一种基于深度学习的液晶显示屏瑕疵检测方法及装置
CN117132584B (zh) * 2023-09-22 2024-02-13 山东省计算中心(国家超级计算济南中心) 一种基于深度学习的液晶显示屏瑕疵检测方法及装置

Similar Documents

Publication Publication Date Title
CN115170529A (zh) 基于注意力机制的多尺度微小瑕疵检测方法
CN111223093A (zh) 一种aoi缺陷检测方法
CN112070727B (zh) 一种基于机器学习的金属表面缺陷检测方法
Wan et al. Ceramic tile surface defect detection based on deep learning
CN113920107A (zh) 一种基于改进yolov5算法的绝缘子破损检测方法
CN114663346A (zh) 一种基于改进YOLOv5网络的带钢表面缺陷检测方法
CN111242185A (zh) 一种基于深度学习的缺陷快速初筛方法及系统
CN116310785B (zh) 基于YOLO v4的无人机影像路面病害检测方法
CN112926652B (zh) 一种基于深度学习的鱼类细粒度图像识别方法
CN112712516A (zh) 一种基于YOLOv5的高铁底部胶条故障检测方法及系统
Fan et al. Application of YOLOv5 neural network based on improved attention mechanism in recognition of Thangka image defects
CN112819748A (zh) 一种带钢表面缺陷识别模型的训练方法及装置
CN116883393A (zh) 一种基于无锚框目标检测算法的金属表面缺陷检测方法
CN114881998A (zh) 一种基于深度学习的工件表面缺陷检测方法及系统
CN114863198A (zh) 一种基于神经网络的小龙虾质量分级方法
CN113516652A (zh) 电池表面缺陷和粘合剂检测方法、装置、介质和电子设备
CN116958073A (zh) 基于注意力特征金字塔机制的小样本钢材缺陷检测方法
CN117197146A (zh) 一种铸件内部缺陷自动识别方法
CN112614113A (zh) 一种基于深度学习的带钢缺陷检测方法
CN116051808A (zh) 一种基于YOLOv5的轻量化零件识别定位方法
CN115423743A (zh) 一种基于改进YOLOv5的热轧带钢表面缺陷检测方法
CN114596271A (zh) 一种高反光表面腐蚀特征提取方法
CN113902695A (zh) 一种针对色织物裁片缺陷区域的检测方法
CN113516193A (zh) 基于图像处理的红枣缺陷识别分类方法及装置
CN113313678A (zh) 一种基于多尺度特征融合的精子形态学自动分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination