CN115170529A

CN115170529A - 基于注意力机制的多尺度微小瑕疵检测方法

Info

Publication number: CN115170529A
Application number: CN202210855596.8A
Authority: CN
Inventors: 刘静; 王奕卓
Original assignee: Guangzhou Institute of Technology of Xidian University
Current assignee: Guangzhou Institute of Technology of Xidian University
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-10-11

Abstract

本发明涉及瑕疵检测技术领域，具体的说是基于注意力机制的多尺度微小瑕疵检测方法，通过获取训练样本集和测试样本集，构建基于注意力机制的多尺度YOLOv5模型，对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练，获取微小瑕疵目标缺陷图像的识别结果，采用了数据增强与卷积块注意力机制模，提高网络的特征提取能力，对通道特征具有强化重要信息，抑制无关信息的作用，能够使得网络提取出更加关键的特征，从而提高检测效率，并且采用YOLOv5处理算法，大大提升了算法运行速度，实现在线实时检测，优化了检测层的结构，使得本发明适用于不同大小规格的车标，本发明算法速度快，可以实现在线实时检测。

Description

基于注意力机制的多尺度微小瑕疵检测方法

技术领域

本发明涉及一种检测方法，具体为基于注意力机制的多尺度微小瑕疵检测方法，属于瑕疵检测技术领域。

背景技术

随着国内企业数字化的发展，许多传统企业需要就行数字化转型。目前，国内的许多企业在商品的质量检测上，依然依靠人眼辨识，这种人工识别的方法，随着观察时间的增加，检测员的眼睛过度疲劳，导致准确率会降低，检测时间会下降，最终影响生产效率。由于计算机视觉技术有自动、准确且能够快速识别的特点，因此，将计算机视觉技术应用于产品质量检测方面具有极其重要的意义和实际价值。

作为机器视觉检测的一种，现行表面缺陷检测技术，一般为使用工业相机采集被测物图像，处理图像得到被测物的瑕疵信息。表面缺陷检测技术目前已经广泛的应用在视觉检测的各个领域之中，它已经成为自动化生产中确保产品质量的一个非常重要的环节。表面质量检测相对于肉眼来说具有更高的精确程度，速度更快，能让更多的企业省时省力，取代人工，同时也节约了成本，安全与高效并存。表面质量检测基于机器视觉检测技术，对于工件表面存在斑点、缺损以及色差等缺陷进行检测。

微小瑕疵检测作为表面缺陷检测的一个分支，解决一般表面缺陷检测容易出现的错分、漏检等问题，该类缺陷目标在整个图像中所占的像元很少，并且信噪比低、背景区域分布不均匀、背景与目标灰度值区分不明显等。例如车标检测上的刮伤、漏镀、颗粒、异色、凹痕等微小缺陷。

然而，现阶段的微小瑕疵检测算法大多针对大于1mm的瑕疵，对于大小为0.1-0.2mm瑕疵的检测算法较少且精度较低。例如车标采集回的图像大小为5500×3600像素，0.2mm的瑕疵在图像中的投影大小为2×2，占比约为千万分之二。相比于其他算法，图像大小是3000×2000像素，瑕疵投影大小却占据20×20像素，占比约为十万分之六。现阶段的算法针对微小瑕疵进行处理，耗时短的计算快的，漏检率高，而漏检率低的算法，由于耗时原因，难以实现在线检测，难以对车标的微小瑕疵进行精准在线检测。

有鉴于此特提出本发明，以解决现有技术中对微小瑕疵检测速度慢和漏检率高的问题。

发明内容

本发明的目的就在于为了解决上述问题而提供基于注意力机制的多尺度微小瑕疵检测方法，用于解决对微小瑕疵检测速度慢和漏检率高的问题。

本发明通过以下技术方案来实现上述目的，基于注意力机制的多尺度微小瑕疵检测方法，包括以下步骤：

步骤一、获取训练样本集和测试样本集；

步骤二、构建基于注意力机制的多尺度YOLOv5模型；

步骤三、对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练；

步骤四、获取微小瑕疵目标缺陷图像的识别结果。

进一步的，在步骤一中，获取训练样本集和测试样本集时，获取V幅包含不同类别瑕疵的图像O＝{o_i|1≤i≤V}，并对每幅瑕疵图像o_i中的瑕疵类别及位置坐标进行标注，得到类别标签集

和位置坐标标签集

其中，V>600，o_i表示第i幅瑕疵图像，

和

分别表示o_i所包含瑕疵的类别标签和位置坐标标签，

表示第u类瑕疵，U表示瑕疵类别标签的总数，U≥2，

和

分别表示

所围成的标记框中心的横坐标、标记框中心的纵坐标、标记框的宽和标记框的高，将随机选取O中半数以上的瑕疵图像及其对应的类别标签和位置坐标标签组成训练样本集O_train＝{o_j|1≤j≤V_train}，V/2＜V_train≤V，将其余瑕疵图像及其对应的类别标签和位置坐标标签组成测试样本集，O_test＝{o_l|1≤l≤V_test}，其中，o_j表示训练样本集中的第j张瑕疵图像，o_l表示训练样本集中的第l张瑕疵图像，V/2＜V_train≤V，V_test＝V-V_train。

进一步的，在步骤二中，构建基于注意力机制的多尺度YOLOv5模型时，先构建基于注意力机制的多尺度YOLOv5模型的结构，构建包括顺次连接的特征提取网络f_extract、注意力网络f_attention、输出网络f_output；其中特征提取网络f_extract包括输入层、多个卷积模块和多个残差模块；注意力网络f_attention包括两个网络通道注意力网络f_CAM和空间注意力网络f_SAM，其中包括多个卷积层、池化层和激活函数；输出网络f_output包括多个卷积层、多个归一化层和多个激活函数层，其中特征提取网络f_extract用于初步提取图像中的高级特征，为排除微小瑕疵目标上的无关信息，然后利用卷积块注意力模块(CBAM)注意力网络f_attention对通道特征具有强化重要信息，抑制微小瑕疵目标的其他位置以及背景的传送带的纹理信息等无关信息的作用，能够使得网络提取出更加关键的特征，从而提升检测精度；f_output使输入图像经过特征网络和上采样以及拼接最终的搭配4个尺度的检测头，进一步提升网络对于微小车标瑕疵这类小目标的识别准确率，基于注意力机制的多尺度YOLOv5模型包括特征提取网络f_extract、注意力网络f_attention、输出网络f_output，提取网络f_extract采用包含和五个卷积模块和二十三个残差模块的卷积神经网络，其结构依次为：输入层→第一卷积模块第一残差模块→第二卷积模块→第二残差模块→第三残差模块→第三卷积模块→第四残差模块→第五残差模块→第六残差模块→第七残差模块→第八残差模块→第九残差模块→第十残差模块→第十一残差模块→第四卷积模块→第十二残差模块→第十三残差模块→第十四残差模块→第十五残差模块→第十六残差模块→第十七残差模块→第十八残差模块→第十九残差模块→第五卷积模块→第二十残差模块→第二十一残差模块→第二十二残差模块→第二十三残差模块，卷积模块的具体结构依次为：第一卷积层→第一归一化层→第一激活函数层，残差模块的具体结构依次为：第一卷积模块→第二卷积模块→shortcut拼接层，特征提取网络f_extract的每层参数设置为：将第一至第五卷积模块中的第一卷积层的卷积核大小设置为3×3，卷积步长设置为2，填充值为1，将第一至第二十三残差模块中第一卷积模块的第一卷积层的卷积核大小设置为1×1，卷积步长设置为1，填充值为0，将第二卷积模块的第一卷积层积核大小设置为3×3，卷积步长设置为1，填充值为1；第一至第五卷积模块和第一至第二十三残差模块中的归一化层均采用BatchNorm2d函数，第一至第五卷积模块和第一至第二十三残差模块中的激活函数层均采用LeakyReLU函数，其斜率均设置为0.2，卷积块注意力模块(CBAM)注意力网络f_attention包含两个网络，通道注意力网络f_CAM和空间注意力网络f_SAM，其结构先手顺序为通道注意力网络和空间注意力网络，其中通道注意力网络包含两个池化层(平均池化层和最大池化层)，一个两层的全连接层，一层Relu激活函数层和一层Sigmoid激活函数层，空间注意力网络包含两个池化层(平均池化层和最大池化层)，一个shortcut拼接层，一个7×7的卷积层，一层Sigmoid激活函数层，输出网络f_output采用包含四组两个卷积层，一个归一化层和一个激活函数层的神经网络，其结构依次为：第一卷积层→第二卷积层→第一归一化层→第一激活函数层，输出网络f_output的每层参数设置为：将第一卷积层的卷积核大小设置为3×3，卷积步长设置为2，填充值为1，将第二卷积层的卷积核大小设置为1×1，卷积步长设置为1，填充值为0，第一归一化层采用BatchNorm2d函数，第一激活函数层第一激活函数采用LeakyReLU函数，进行定义损失函数，算法在训练时，将标签同时分配给3个anchor，相当于使正样本数量扩大到原来的三倍，一定程度上缓解了正负样本不均衡的问题，损失函数如公式(一)所示：

其中，N为检测层个数，B是标签分配到先验框的目标个数，S×S为该尺寸被分割成的网格数，L_box为边界框回归损失，对每个目标计算；L_obj为目标物体损失，对每个网格计算；L_cls为分类损失，同样对每个目标计算λ₁+λ₂+λ₃分别为这三种损失的权重；

CIoU损失计算如公示(二)所示：

其中，b与b^gt分别为预测框和标签框，w^gt、h^gt、w、h分别为标签框的宽高和预测框的宽高，代表计算两个框的中心点距离，α为权重系数；

L_obj和L_cls均采用BCE With Logits Loss，计算方式如公示(三)所示：

注意力网络f_attention当中，通道注意力网络f_CAM公式如公式(四)所示：

M_c(F)＝σ(MLP(AugPool(F))+MLP(MaxPool(F)))

＝σ(W₁(W₀(F_aug^C))+(W₁(W₀(F_max^C)))

空间注意力网络f_SAM公式如公式(五)所示：

M_s(F)＝σ(f^(7*7)([AugPool(F),MaxPool(F)]))＝σ(f^(7*7)([F_aug^S；F_max^S]))。

进一步的，在步骤三中，进行对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练时包括以下步骤；

S1、初始化特征提取网络f_extract的网络权重参数为

注意力网络f_attention的网络权重参数为

输出网络f_output的网络权重参数为

迭代次数为t，本实例中最大迭代次数为T＝300，并令t＝0；

S2、首先将输入的图像进行预处理，主要使用Mosaic、Cutout方法对数据进行初步扩充，同时使用了图像扰动，改变亮度、对比度、饱和度、色调，加噪声，随机缩放，随机裁剪(random crop)，翻转，旋转，随机擦除等方式对数据进行进一步扩充，增强数据的多样性，尽可能的模拟现实场景的复杂性；

S3、将训练样本集O_train与O_temp中的每幅图像o_j与o_i作为特征提取网络f_extract的输入，每幅图像o_j与o_i在特征提取网络中进行前向传播，得到图像o_j与o_i的高级特征

与

S4、将图像o_j作为注意力网络f_attention的输入f_attention进行向前传播，得到图像o_i的注意力图

S5、将图像o_j的注意力图

与图像o_j的高级特征

相乘，得到图像o_j关注于微小瑕疵图像的高级特征

S6、将图像o_j关注于微小瑕疵图像的高级特征

作为输出网络f_output的输入进行向前传播，得到图像o_i的所包含微小瑕疵的预测位置坐标标签

置信度信息

和预测类别标签概率

S7、采用损失函数Loss_total计算损失函数：

S8、判断t≥T是否成立，若是，得到训练好的前后背景分离卷积神经网络模型，否则，令t＝t+1，并执行步骤(3c)。

进一步的，在步骤四中，获取微小瑕疵目标缺陷图像的识别结果包括以下步骤：

A、将测试样本集O_test中的每一个测试图像o_l作为训练好的基于注意力机制的多尺度Yolov5网络模型的输入进行前向传播，得到微小瑕疵的预测位置坐标标签(x_l,y_l,w_l,h_l)，置信度信息C_l和类别标签概率p_l(c)；

B、将测试图像o_l预测的置信度信息

中大于0.5的结果所对应的预测位置坐标标签(x_l,y_l,w_l,h_l)和类别标签概率p_l(c)中最大值对应的瑕疵类别分别作为测试图像o_l微小瑕疵的位置预测结果和类别预测结果。

本发明的技术效果和优点：采用了数据增强与卷积块注意力机制模，提高网络的特征提取能力，同时，对通道特征具有强化重要信息，抑制如车标的其他位置以及背景的传送带的纹理信息等无关信息的作用，能够使得网络提取出更加关键的特征，从而提高检测效率，并且采用YOLOv5处理算法，大大提升了算法运行速度，可实现在线实时检测，同时，优化了检测层的结构，使得本发明适用于不同大小规格的车标，本发明算法速度快，可以实现在线实时检测。

附图说明

图1为现实工业车标检测数据集实验结果；

图2为天池工业瓷砖检测结果；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2所示，基于注意力机制的多尺度微小瑕疵检测方法，包括以下步骤：

步骤一、获取训练样本集和测试样本集；

步骤二、构建基于注意力机制的多尺度YOLOv5模型；

步骤四、获取微小瑕疵目标缺陷图像的识别结果。

作为本发明的一种技术优化方案，在步骤一中，获取训练样本集和测试样本集时，获取V幅包含不同类别瑕疵的图像O＝{o_i|1≤i≤V}，并对每幅瑕疵图像o_i中的瑕疵类别及位置坐标进行标注，得到类别标签集

和位置坐标标签集

其中，V>600，o_i表示第i幅瑕疵图像，

和

分别表示o_i所包含瑕疵的类别标签和位置坐标标签，

表示第u类瑕疵，U表示瑕疵类别标签的总数，U≥2，

和

分别表示

作为本发明的一种技术优化方案，在步骤二中，构建基于注意力机制的多尺度YOLOv5模型时，先构建基于注意力机制的多尺度YOLOv5模型的结构，构建包括顺次连接的特征提取网络f_extract、注意力网络f_attention、输出网络f_output；其中特征提取网络f_extract包括输入层、多个卷积模块和多个残差模块；注意力网络f_attention包括两个网络通道注意力网络f_CAM和空间注意力网络f_SAM，其中包括多个卷积层、池化层和激活函数；输出网络f_output包括多个卷积层、多个归一化层和多个激活函数层，其中特征提取网络f_extract用于初步提取图像中的高级特征，为排除微小瑕疵目标上的无关信息，然后利用卷积块注意力模块(CBAM)注意力网络f_attention对通道特征具有强化重要信息，抑制微小瑕疵目标的其他位置以及背景的传送带的纹理信息等无关信息的作用，能够使得网络提取出更加关键的特征，从而提升检测精度；f_output使输入图像经过特征网络和上采样以及拼接最终的搭配4个尺度的检测头，进一步提升网络对于微小车标瑕疵这类小目标的识别准确率，基于注意力机制的多尺度YOLOv5模型包括特征提取网络f_extract、注意力网络f_attention、输出网络f_output，提取网络f_extract采用包含和五个卷积模块和二十三个残差模块的卷积神经网络，其结构依次为：输入层→第一卷积模块第一残差模块→第二卷积模块→第二残差模块→第三残差模块→第三卷积模块→第四残差模块→第五残差模块→第六残差模块→第七残差模块→第八残差模块→第九残差模块→第十残差模块→第十一残差模块→第四卷积模块→第十二残差模块→第十三残差模块→第十四残差模块→第十五残差模块→第十六残差模块→第十七残差模块→第十八残差模块→第十九残差模块→第五卷积模块→第二十残差模块→第二十一残差模块→第二十二残差模块→第二十三残差模块，卷积模块的具体结构依次为：第一卷积层→第一归一化层→第一激活函数层，残差模块的具体结构依次为：第一卷积模块→第二卷积模块→shortcut拼接层，特征提取网络f_extract的每层参数设置为：将第一至第五卷积模块中的第一卷积层的卷积核大小设置为3×3，卷积步长设置为2，填充值为1，将第一至第二十三残差模块中第一卷积模块的第一卷积层的卷积核大小设置为1×1，卷积步长设置为1，填充值为0，将第二卷积模块的第一卷积层积核大小设置为3×3，卷积步长设置为1，填充值为1；第一至第五卷积模块和第一至第二十三残差模块中的归一化层均采用BatchNorm2d函数，第一至第五卷积模块和第一至第二十三残差模块中的激活函数层均采用LeakyReLU函数，其斜率均设置为0.2，卷积块注意力模块(CBAM)注意力网络f_attention包含两个网络，通道注意力网络f_CAM和空间注意力网络f_SAM，其结构先手顺序为通道注意力网络和空间注意力网络，其中通道注意力网络包含两个池化层(平均池化层和最大池化层)，一个两层的全连接层，一层Relu激活函数层和一层Sigmoid激活函数层，空间注意力网络包含两个池化层(平均池化层和最大池化层)，一个shortcut拼接层，一个7×7的卷积层，一层Sigmoid激活函数层，输出网络f_output采用包含四组两个卷积层，一个归一化层和一个激活函数层的神经网络，其结构依次为：第一卷积层→第二卷积层→第一归一化层→第一激活函数层，输出网络f_output的每层参数设置为：将第一卷积层的卷积核大小设置为3×3，卷积步长设置为2，填充值为1，将第二卷积层的卷积核大小设置为1×1，卷积步长设置为1，填充值为0，第一归一化层采用BatchNorm2d函数，第一激活函数层第一激活函数采用LeakyReLU函数，进行定义损失函数，算法在训练时，将标签同时分配给3个anchor，相当于使正样本数量扩大到原来的三倍，一定程度上缓解了正负样本不均衡的问题，损失函数如公式(一)所示：

CIoU损失计算如公示(二)所示：

M_c(F)＝σ(MLP(AugPool(F))+MLP(MaxPool(F)))

＝σ(W₁(W₀(F_aug^C))+(W₁(W₀(F_max^C)))

空间注意力网络f_SAM公式如公式(五)所示：

作为本发明的一种技术优化方案，在步骤三中，进行对基于注意力机制的多尺度YOLOv5模型网络进行迭代训练时包括以下步骤；

S1、初始化特征提取网络f_extract的网络权重参数为

注意力网络f_attention的网络权重参数为

输出网络f_output的网络权重参数为

迭代次数为t，本实例中最大迭代次数为T＝300，并令t＝0；

与

S5、将图像o_j的注意力图

与图像o_j的高级特征

相乘，得到图像o_j关注于微小瑕疵图像的高级特征

S6、将图像o_j关注于微小瑕疵图像的高级特征

置信度信息

和预测类别标签概率

S7、采用损失函数Loss_total计算损失函数：

作为本发明的一种技术优化方案，在步骤四中，获取微小瑕疵目标缺陷图像的识别结果包括以下步骤：

B、将测试图像o_l预测的置信度信息

本发明仿真实验中生成训练集和测试集时，使用了工厂采集的现实工业车标检测数据集，现实工业车标检测数据集包含8类分别为凹痕(Dent)，缺口(Gap)，漏镀(Skip-plating)，刮伤(Scratch)，颗粒(Grain)，异色(Heterochromatic)，油墨透底(Thoroughly)，油墨残留(Residual)。下文表格中分别以(DE、GA、SK、SC、GR、HE、TH、RE)指代，共631张图像，其中训练集508张，验证集有123张。

本发明仿真实验是采用本发明与现有技术(Yolov5、CascadeR-cnn等)分别在同等条件下进行对比实验的。

为了对本发明仿真结果的效果进行评估，本发明采用平均精度(AP(IoU＝0.50：0.95))作为性能评价指标与现有技术进行对比，AP的定义为精度Precision和和召回率Recall所成曲线下的面积，精度Precision定义为TP/(TP+FP)，召回率Recall定义为TP/(TP+FN)，其中TP，TN，FP和FN分别代表真正类，真反类，假正类和假反类，mAP定义为AP的平均值，(IoU＝0.50：0.95)定义为IoU为0.50到IoU为0.95下的每0.05做一次mAP记录，最后取平均的结果。对比结果见图1，基于注意力机制的多尺度YOLOv5车标检测技术性能在时间成本与精度成本综合考虑的前提下优于现有技术。

同时考虑到现实工业车标数据集规模较小的问题，选用了2020年天池大数据竞赛工业瓷砖检测数据集进行进一步验证，该数据集共包含六种异常：角异常、边异常、深色点块瑕疵、白色点瑕疵、浅色点块瑕疵与光圈瑕疵，共5388张图片，其中训练集有4310张，验证集有1078张。实验结果见图2，结果显示，在大规模数据集中，我们的方法依然有效，尽可能的避免了实验的随机性影响。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于注意力机制的多尺度微小瑕疵检测方法，其特征在于：该方法包括以下步骤：

步骤一、获取训练样本集和测试样本集；

步骤二、构建基于注意力机制的多尺度YOLOv5模型；

步骤四、获取微小瑕疵目标缺陷图像的识别结果。

2.根据权利要求1所述的基于注意力机制的多尺度微小瑕疵检测方法，其特征在于：在步骤一中，获取训练样本集和测试样本集时，获取V幅包含不同类别瑕疵的图像O＝{o_i|1≤i≤V}，并对每幅瑕疵图像o_i中的瑕疵类别及位置坐标进行标注，得到类别标签集

和位置坐标标签集

其中，V>600，o_i表示第i幅瑕疵图像，

和

分别表示o_i所包含瑕疵的类别标签和位置坐标标签，

表示第u类瑕疵，U表示瑕疵类别标签的总数，U≥2，

和

分别表示

所围成的标记框中心的横坐标、标记框中心的纵坐标、标记框的宽和标记框的高。

3.根据权利要求2所述的基于注意力机制的多尺度微小瑕疵检测方法，其特征在于：将随机选取O中半数以上的瑕疵图像及其对应的类别标签和位置坐标标签组成训练样本集O_train＝{o_j|1≤j≤V_train}，V/2＜V_train≤V，将其余瑕疵图像及其对应的类别标签和位置坐标标签组成测试样本集，O_test＝{o_l|1≤l≤V_test}，其中，o_j表示训练样本集中的第j张瑕疵图像，o_l表示训练样本集中的第l张瑕疵图像，V/2＜V_train≤V，V_test＝V-V_train。

4.根据权利要求3所述的基于注意力机制的多尺度微小瑕疵检测方法，其特征在于：在步骤二中，构建基于注意力机制的多尺度YOLOv5模型时，先构建基于注意力机制的多尺度YOLOv5模型的结构，构建包括顺次连接的特征提取网络f_extract、注意力网络f_attention、输出网络f_output；其中特征提取网络f_extract包括输入层、多个卷积模块和多个残差模块；注意力网络f_attention包括两个网络通道注意力网络f_CAM和空间注意力网络f_SAM，其中包括多个卷积层、池化层和激活函数；输出网络f_output包括多个卷积层、多个归一化层和多个激活函数层，其中特征提取网络f_extract用于初步提取图像中的高级特征，为排除微小瑕疵目标上的无关信息，然后利用卷积块注意力模块(CBAM)注意力网络f_attention对通道特征具有强化重要信息，抑制微小瑕疵目标的其他位置以及背景的传送带的纹理信息等无关信息的作用，能够使得网络提取出更加关键的特征，从而提升检测精度；f_output使输入图像经过特征网络和上采样以及拼接最终的搭配4个尺度的检测头，进一步提升网络对于微小车标瑕疵这类小目标的识别准确率，基于注意力机制的多尺度YOLOv5模型包括特征提取网络f_extract、注意力网络f_attention、输出网络f_output。

5.根据权利要求4所述的基于注意力机制的多尺度微小瑕疵检测方法，其特征在于：提取网络f_extract采用包含和五个卷积模块和二十三个残差模块的卷积神经网络，其结构依次为：输入层→第一卷积模块第一残差模块→第二卷积模块→第二残差模块→第三残差模块→第三卷积模块→第四残差模块→第五残差模块→第六残差模块→第七残差模块→第八残差模块→第九残差模块→第十残差模块→第十一残差模块→第四卷积模块→第十二残差模块→第十三残差模块→第十四残差模块→第十五残差模块→第十六残差模块→第十七残差模块→第十八残差模块→第十九残差模块→第五卷积模块→第二十残差模块→第二十一残差模块→第二十二残差模块→第二十三残差模块。

6.根据权利要求5所述的基于注意力机制的多尺度微小瑕疵检测方法，其特征在于：卷积模块的具体结构依次为：第一卷积层→第一归一化层→第一激活函数层，残差模块的具体结构依次为：第一卷积模块→第二卷积模块→shortcut拼接层，特征提取网络f_extract的每层参数设置为：将第一至第五卷积模块中的第一卷积层的卷积核大小设置为3×3，卷积步长设置为2，填充值为1，将第一至第二十三残差模块中第一卷积模块的第一卷积层的卷积核大小设置为1×1，卷积步长设置为1，填充值为0，将第二卷积模块的第一卷积层积核大小设置为3×3，卷积步长设置为1，填充值为1；第一至第五卷积模块和第一至第二十三残差模块中的归一化层均采用BatchNorm2d函数，第一至第五卷积模块和第一至第二十三残差模块中的激活函数层均采用LeakyReLU函数，其斜率均设置为0.2，卷积块注意力模块(CBAM)注意力网络f_attention包含两个网络，通道注意力网络f_CAM和空间注意力网络f_SAM，其结构先手顺序为通道注意力网络和空间注意力网络，其中通道注意力网络包含两个池化层(平均池化层和最大池化层)，一个两层的全连接层，一层Relu激活函数层和一层Sigmoid激活函数层，空间注意力网络包含两个池化层(平均池化层和最大池化层)，一个shortcut拼接层，一个7×7的卷积层，一层Sigmoid激活函数层，输出网络f_output采用包含四组两个卷积层，一个归一化层和一个激活函数层的神经网络，其结构依次为：第一卷积层→第二卷积层→第一归一化层→第一激活函数层，输出网络f_output的每层参数设置为：将第一卷积层的卷积核大小设置为3×3，卷积步长设置为2，填充值为1，将第二卷积层的卷积核大小设置为1×1，卷积步长设置为1，填充值为0，第一归一化层采用BatchNorm2d函数，第一激活函数层第一激活函数采用LeakyReLU函数。

7.根据权利要求6所述的基于注意力机制的多尺度微小瑕疵检测方法，其特征在于：在步骤二中，构建模型后，进行定义损失函数，算法在训练时，将标签同时分配给3个anchor，相当于使正样本数量扩大到原来的三倍，一定程度上缓解了正负样本不均衡的问题，损失函数如公式(一)所示：