CN116188361A

CN116188361A - 一种基于深度学习的铝型材表面缺陷分类方法及装置

Info

Publication number: CN116188361A
Application number: CN202211437048.XA
Authority: CN
Inventors: 谭棉; 王林; 冯夫健; 王杰; 汤华椿; 严晓波; 夏大文
Original assignee: Guizhou Minzu University
Current assignee: Guizhou Minzu University
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-05-30

Abstract

本申请公开了一种基于深度学习的铝型材表面缺陷分类方法及装置，用于提升对铝型材表面缺陷分类的检测性能。本申请方法包括将缺陷样本图像输入到初始模型，通过残差网络第一段对缺陷样本图像进行特征提取获取第一特征图；通过带权非局部模块和残差网络第二段对第一特征图进行特征增强得到第二特征图；将第二特征图输入残差网络第三段进行特征提取得到第三特征图；通过特征融合辅助分类器对第二特征图和第三特征图进行特征融合得到第四特征图；对第三特征图和第四特征图进行损失计算并利用反向传播算法对模型参数优化；执行上述步骤进行迭代训练直至损失收敛或达到预设迭代次数，得到缺陷分类模型，该模型用于进行铝型材表面缺陷的分类检测。

Description

一种基于深度学习的铝型材表面缺陷分类方法及装置

技术领域

本申请涉及图像检测领域，尤其涉及一种基于深度学习的铝型材表面缺陷分类方法及装置。

背景技术

目前，缺陷检测是工业生产中不可或缺的一环，其中，铝型材作为工业产品中的基础材料。在铝型材生产过程中会因为多种原因形成缺陷，形成了多种不同缺陷的缺陷类型，例如“擦花”、“桔皮”、“漏底”、“喷流”、“漆泡”、“起坑”、“杂色”、“脏点”等。为保证产品质量，就需要对铝型材进行表面缺陷检测，以便根据检测出的不同缺陷类型再经过不同的加工处理。

早前的铝材表面检测主要通过人工进行肉眼目测或传统无损检测。然而，铝材的表面自身会含有纹路，与瑕疵的区分度不高，人工肉眼检查比较费力，不能及时准确的判断出表面缺陷，质检的效率难以把控。传统无损检测包括涡流检测分类、红外检测分类、漏磁检测分类、激光检测分类等,但是这些方法检出的缺陷种类少,并且检测分类的实时性不强。

随着深度学习的发展，特别是卷积神经网络在计算机视觉中的图像识别、图像检测和图像分割等方面的应用，所取得的效果是过往使用传统算法无法比拟的。图像检测处于图像识别和图像分割的衔接阶段，是一种能够检测出图像中特定类别的物体的位置并给出相应的类别置信度。目前通用的铝材缺陷检测算法例如二分类算法和支持向量机分类法，通过对图像或者像素点进行二分类实现铝材缺陷检测。

但是由于铝材表面缺陷存在缺陷面积大小不一，形状不固定、极端长宽比等原因，通用的检测算法对于铝材表面缺陷的检测性能并不近乎人意。

发明内容

本申请提供了一种基于深度学习的铝型材表面缺陷分类方法及装置，用于加强缺陷分类模型对铝型材缺陷分类的检测效果，提升模型对铝材表面缺陷的分类性能。

本申请第一方面提供了一种基于深度学习的铝型材表面缺陷分类方法，包括：

从铝型材图像训练集中获取携带缺陷标签的缺陷样本图像；

将所述缺陷样本图像输入到初始模型，所述初始模型包括残差网络、带权非局部模块、特征融合辅助分类器和特征映射模块；

通过所述残差网络的第一段对所述缺陷样本图像进行特征提取，获取所述第一段输出的第一特征图；

通过所述带权非局部模块和所述残差网络的第二段对所述第一特征图进行特征增强，得到第二特征图；

将所述第二特征图输入所述残差网络的第三段进行特征提取，得到第三特征图；

通过所述特征融合辅助分类器对所述第二特征图和所述第三特征图进行特征融合，得到第四特征图；

通过所述特征映射模块对所述第三特征图和所述第四特征图进行损失计算，并根据损失结果利用反向传播算法对模型参数进行更新优化；

输入所述铝型材图像训练集中的缺陷样本图像到所述初始模型中并执行上述步骤进行迭代训练直至损失收敛或达到预设迭代次数，得到训练后的缺陷分类模型，所述缺陷分类模型用于进行铝型材表面缺陷的分类检测。

可选地，所述残差网络包括主干模块、第一阶段模块、第二阶段模块、第三阶段模块和第四阶段模块，所述第一阶段模块、所述第二阶段模块、第三阶段模块和第四阶段模块依次由3、4、6、3个残差结构模块构成；

所述通过所述残差网络的第一段对所述缺陷样本图像进行特征提取，获取所述第一段输出的第一特征图包括：

将所述缺陷样本图像依次输入所述主干模块和第一阶段模块中进行图像特征提取，得到第一特征图；

所述通过所述带权非局部模块和所述残差网络的第二段对所述第一特征图进行特征增强，得到第二特征图包括：

将所述第一特征图输入所述带权非局部模块中进行特征增强，得到目标特征图；

将所述目标特征图输入所述第二阶段模块中进行特征提取，得到第二特征图；

所述将所述第二特征图输入所述残差网络的第三段进行特征提取，得到第三特征图包括：

将所述第二特征图依次输入第三阶段模块和第四阶段模块中进行图像特征提取，得到第三特征图；

所述通过所述特征映射模块对所述第三特征图和所述第四特征图进行损失计算包括：

通过所述特征映射模块对所述第三特征图进行展平、全连接和softmax归一化操作，确定所述第三特征图的第一预测概率向量；根据所述第一预测概率向量和标签真实值计算交叉熵损失，得到第一损失；

对所述第四特征图进行展平、全连接和softmax归一化操作，确定所述第四特征图的第二预测概率向量；根据所述第二预测概率向量和标签真实值计算交叉熵损失，得到第二损失；

根据所述第一损失和所述第二损失计算总损失。

可选地，所述残差结构模块包括两个1×1卷积模块和一个3×3卷积模块，所述主干模块为7×7卷积模块。

可选地，所述带权非局部模块包括通道注意力模块，所述将所述第一特征图输入所述带权非局部模块中进行特征增强，得到目标特征图包括：

向所述带权非局部模块中输入大小为H×W×C的第一特征图，并分别经过θ线性变换、

线性变换和g线性变换得到特征图X_θ、特征图/>

和特征图X_g；

将所述特征图X_θ输入到通道注意力模块获取通道注意力权重向量λ＝[λ¹,λ²,…,λ^k,…,λ^C]，其中，C为所述特征图X_θ的通道数，k为索引值；

将所述通道注意力权重向量λ与特征图X_θ进行对应元素相乘，再与特征图

进行矩阵乘法获取相似度矩阵S_M；

将所述相似度矩阵S_M进行Softmax归一化得到空间注意力图A_M；

将所述空间注意力图A_M与所述特征图X_g进行矩阵乘法后使用1×1卷积模块进行卷积；

将卷积后得到的特征图与所述第一特征图进行对应元素的相加运算，得到目标特征图。

可选地，所述将所述特征图X_θ输入到通道注意力模块获取通道注意力权重向量λ＝[λ¹,λ²,…,λ^k,…,λ^C]包括：

将所述特征图X_θ输入到通道注意力模块；

通过全局平均池化公式对所述特征图X_θ进行全局平均池化操作，以使得将所述特征图X_θ压缩为具有全局信息的特征实数Z＝[z¹,z²,…,z^k,…,z^C]；

根据所述特征实数Z＝[z¹,z²,…,z^k,…,z^C]基于全连接公式进行全连接操作，获取通道注意力权重向量λ＝[λ¹,λ²,…,λ^k,…,λ^C]。

可选地，所述全局平均池化公式定义如下：

其中，H、W为特征图尺寸的高、宽，i、j代表特征图空间上的像素索引；

全连接公式定义如下：

F_ex(Z,W)＝σ(W₂δ(W₁Z))

其中，δ、σ分别表示ReLU、Sigmoid激活函数，W₁∈R^(C/r)×C、W₂∈R^C×(C/r)，R表示全连接的实数域空间，r表示预设参数；

通道注意力权重向量λ的计算方式为：

可选地，所述通过所述特征融合辅助分类器对所述第二特征图和所述第三特征图进行特征融合，得到第四特征图包括：

将所述第二特征图和所述第三特征图输入特征融合辅助分类器中，通过亚像素卷积对所述第三特征图进行上采样，以使得所述第三特征图与所述第二特征图的空间尺寸相同；

将第二特征图和采样后的第三特征图进行拼接得到第四特征图。

本申请第二方面提供了一种基于深度学习的铝型材表面缺陷分类方法，所述方法中应用到的缺陷分类模型通过第一方面所述的方法训练得到，所述方法包括：

获取待检测铝材图像；

将所述待检测铝材图像输入所述缺陷分类模型，通过残差网络的第一段对所述待检测铝材图像进行特征提取，获取所述第一段输出的第一特征图；

通过带权非局部模块和所述残差网络的第二段对所述第一特征图进行特征增强，得到第二特征图；

通过特征映射模块对所述第三特征图进行类别预测概率计算，根据计算结果确定所述缺陷分类模型输出的待检测铝材图像的表面缺陷类别。

本申请第三方面提供了一种基于深度学习的铝型材表面缺陷分类装置，所述装置包括：

获取单元，用于从铝型材图像训练集中获取携带缺陷标签的缺陷样本图像；

输入单元，用于将所述缺陷样本图像输入到初始模型，所述初始模型包括残差网络、带权非局部模块、特征融合辅助分类器和特征映射模块；

第一提取单元，用于通过所述残差网络的第一段对所述缺陷样本图像进行特征提取，获取所述第一段输出的第一特征图；

第二提取单元，用于通过所述带权非局部模块和所述残差网络的第二段对所述第一特征图进行特征增强，得到第二特征图；

第三提取单元，用于将所述第二特征图输入所述残差网络的第三段进行特征提取，得到第三特征图；

融合单元，用于通过所述特征融合辅助分类器对所述第二特征图和所述第三特征图进行特征融合，得到第四特征图；

优化单元，用于通过所述特征映射模块对所述第三特征图和所述第四特征图进行损失计算，并根据损失结果利用反向传播算法对模型参数进行更新优化；

所述输入单元还用于输入所述铝型材图像训练集中的缺陷样本图像到所述初始模型中并执行上述步骤进行迭代训练直至损失收敛或达到预设迭代次数，得到训练后的缺陷分类模型，所述缺陷分类模型用于进行铝型材表面缺陷的分类检测。

所述第一提取单元具体用于将所述缺陷样本图像依次输入所述主干模块和第一阶段模块中进行图像特征提取，得到第一特征图；

所述第二提取单元具体用于将所述第一特征图输入所述带权非局部模块中进行特征增强，得到目标特征图；

所述第三提取单元具体用于将所述第二特征图依次输入第三阶段模块和第四阶段模块中进行图像特征提取，得到第三特征图；

所述优化单元具体用于通过所述特征映射模块对所述第三特征图进行展平、全连接和softmax归一化操作，确定第三特征图的第一预测概率向量；

根据所述第一预测概率向量和标签真实值计算交叉熵损失，得到第一损失；

对所述第四特征图进行展平、全连接和softmax归一化操作，确定所述第四特征图的第二预测概率向量；

根据所述第二预测概率向量和标签真实值计算交叉熵损失，得到第二损失；

根据所述第一损失和所述第二损失计算总损失，根据总损失结果利用反向传播算法对模型参数进行更新优化。

可选地，所述带权非局部模块包括通道注意力模块，所述第二提取单元具体用于向所述带权非局部模块中输入大小为H×W×C的第一特征图，并分别经过θ线性变换、

线性变换和g线性变换得到特征图X_θ、特征图/>

和特征图X_g；/>

进行矩阵乘法获取相似度矩阵S_M；

将所述相似度矩阵S_M进行Softmax归一化得到空间注意力图A_M；

可选地，所述第二提取单元具体用于将所述特征图X_θ输入到通道注意力模块；

可选地，所述融合单元具体用于将所述第二特征图和所述第三特征图输入特征融合辅助分类器中，通过亚像素卷积对所述第三特征图进行上采样，以使得所述第三特征图与所述第二特征图的空间尺寸相同；

本申请第四方面提供了一种基于深度学习的铝型材表面缺陷分类装置，所述装置包括：

获取单元，用于获取待检测铝材图像；

输入单元，用于将所述待检测铝材图像输入所述缺陷分类模型，通过残差网络的第一段对所述待检测铝材图像进行特征提取，获取所述第一段输出的第一特征图；

特征增强单元，用于通过带权非局部模块和所述残差网络的第二段对所述第一特征图进行特征增强，得到第二特征图；

提取单元，用于将所述第二特征图输入所述残差网络的第三段进行特征提取，得到第三特征图；

输出单元，用于通过特征映射模块对所述第三特征图进行类别预测概率计算，根据计算结果确定所述缺陷分类模型输出的待检测铝材图像的表面缺陷类别。

本申请第五方面提供了一种基于深度学习的铝型材表面缺陷分类装置，所述装置包括：

处理器、存储器、输入输出单元以及总线；

所述处理器与所述存储器、所述输入输出单元以及所述总线相连；

所述存储器保存有程序，所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的铝型材表面缺陷分类方法，或执行第二方面的铝型材表面缺陷分类方法。

本申请第六方面提供了一种计算机可读存储介质，所述计算机可读存储介质上保存有程序，所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的铝型材表面缺陷分类方法，或执行第二方面的铝型材表面缺陷分类方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请首先将缺陷样本图像输入到初始模型，其中，该初始模型包括残差网络、带权非局部模块、特征融合辅助分类器和特征映射模块。然后通过残差网络的第一段对缺陷样本图像进行特征提取，获取第一段输出的第一特征图；通过带权非局部模块和残差网络的第二段对第一特征图进行特征增强，得到第二特征图；将第二特征图输入残差网络的第三段进行特征提取，得到第三特征图；通过特征融合辅助分类器对第二特征图和第三特征图进行特征融合，得到第四特征图；通过特征映射模块对第三特征图和第四特征图进行损失计算，并根据损失结果利用反向传播算法对模型参数进行更新优化。最后输入铝型材图像训练集中的缺陷样本图像到初始模型中并执行上述步骤进行迭代训练直至损失收敛或达到预设迭代次数，得到训练后的缺陷分类模型。从而，可通过本申请的缺陷分类模型进行铝型材表面缺陷检测，与人工目测检测相比识别效率、准确性更高，与传统检测相比，能适应多种缺陷种类识别，适应性更强，且能实时输入检测。另外，本申请的缺陷分类模型以残差网络为主干网络，引入带权非局部模块进行特征增强，以计算特征图不同像素点之间的相似度，提升模型捕捉特征的长距离依赖关系及上下文信息；同时，通过特征融合辅助分类器进行特征融合，以提升模型对纹理、边缘等细节信息特征的挖掘能力，加强了模型对铝型材缺陷分类的检测效果，提升了模型对铝材表面缺陷的分类性能。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的基于深度学习的铝型材表面缺陷分类方法一个实施例流程示意图；

图2为本申请提供的基于深度学习的铝型材表面缺陷分类方法另一个实施例流程示意图；

图3为本申请提供的基于深度学习的铝型材表面缺陷分类方法中缺陷分类模型一个实施例结构示意图；

图4为本申请提供的基于深度学习的铝型材表面缺陷分类方法的缺陷分类模型中的带权非局部模块一个实施例结构示意图；

图5为本申请提供的带权非局部模块中通道注意力模块一个实施例结构示意图；

图6为本申请提供的基于深度学习的铝型材表面缺陷分类方法的缺陷分类模型中的特征融合辅助分类器一个实施例结构示意图

图7为本申请提供的基于深度学习的铝型材表面缺陷分类方法另一个实施例流程示意图；

图8为本申请提供的基于深度学习的铝型材表面缺陷分类装置一个实施例结构示意图；

图9为本申请提供的基于深度学习的铝型材表面缺陷分类装置另一个实施例结构示意图；

图10为本申请提供的基于深度学习的铝型材表面缺陷分类装置一个实施例结构示意图。

具体实施方式

本申请提供了一种基于深度学习的铝型材表面缺陷分类及装置，用于提升对铝型材表面缺陷分类的检测性能。

需要说明的是，本申请提供的基于深度学习的铝型材表面缺陷分类方法，可以应用于终端，还可以应用于服务器上，例如终端可以是智能手机或电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述，本申请中以终端为执行主体进行举例说明。

请参阅图1，图1为本申请提供的基于深度学习的铝型材表面缺陷分类方法的一个实施例，该方法包括：

101、从铝型材图像训练集中获取携带缺陷标签的缺陷样本图像；

首先，在终端中存储有用于模型训练的铝型材图像训练集，在该训练集中保存有大量的铝型材的缺陷样本图像，每张缺陷样本图像中标注有相应的缺陷标签。具体地，该缺陷标签可包括缺陷在图像中的坐标位置、缺陷类别等。该缺陷类别包括铝型材的基本缺陷类型，例如擦花、角位漏底、桔皮、漏底。喷流、漆泡、起坑、杂色和脏点等。需要注意的是，在该铝型材图像训练集中同样包含没有缺陷的缺陷样本图像，即若该铝型材样本图像没有缺陷，则缺陷类别标注为“正常”或“norm”。然后，终端从铝型材图像训练集中获取缺陷样本图像，以使得将缺陷样本图像输入到初始模型中进行训练。在可能的实施例中，可对铝型材图像训练集中的缺陷样本图像进行顺序标号，例如，若该训练集中存储有10000张携带缺陷标签的缺陷样本图像，可将此10000张缺陷样本图像进行重命名标号为1.jpg，2.jpg，…，10000.jpg等，然后按照顺序获取训练集中的缺陷样本图像。

102、将缺陷样本图像输入到初始模型，该初始模型包括残差网络、带权非局部模块、特征融合辅助分类器和特征映射模块；

终端从铝型材图像训练集中获取到缺陷样本图像后，将该缺陷样本图像输入到初始模型中进行模型训练。其中，该初始模型以残差网络为主干网络，该残差网络包括第一段、第二段以及第三段。此外，在残差网络中引入带权非局部模块，通过带权非局部模块计算残差网络中得到的特征图的不同像素点间的相似度，以提升初始模型捕捉特征的长距离依赖关系和上下文信息。同时，该初始模型还引入了特征融合辅助分类器，对在残差网络中先、后得到的特征图进行特征融合，以提升模型对浅层特征中细节信息，例如纹理信息、边缘信息的挖掘能力。此外，该初始模型还包括特征映射模块，以使得将残差网络或特征融合辅助分类器得到的特征图进行映射，例如展平、全连接等操作将特征图转化为标签类型预测概率，以确定图像的缺陷类别。

103、通过残差网络的第一段对缺陷样本图像进行特征提取，获取第一段输出的第一特征图；

终端将缺陷样本图像输入初始模型后，首先输入到残差网络的第一段，以对缺陷样本图像进行特征提取，转换为预设图像尺寸下的第一特征图。

104、通过带权非局部模块和残差网络的第二段对第一特征图进行特征增强，得到第二特征图；

终端通过残差网络的第一段获取到第一特征图后，将第一特征图输入到带权非局部模块中进行特征增强。具体地，通过带权非局部模块提取第一特征图中的特征，计算特征不同像素点的相似度，确定不同特征像素点的权重向量，根据权重向量对不同特征进行特征增强。然后将特征增强后的特征图输入残差网络的第二段，进行特征提取得到包含丰富细节信息，但语义信息较为不足的大分辨率的第二特征图。

105、将第二特征图输入残差网络的第三段进行特征提取，得到第三特征图；

终端将第二特征图输入残差网络的第三段进行特征提取，获取存在部分细节信息损失，但语义信息丰富的小分辨率的第三特征图。

106、通过特征融合辅助分类器对第二特征图和第三特征图进行特征融合，得到第四特征图；

终端通过将经过带权非局部模块和残差网络的第二段的包含了丰富细节信息但语义信息不足的大分辨率的第二特征图和经过残差网络的第三段得到的细节信息损失但语义信息丰富的第三特征图进行融合，得到融合后的第四特征图。

107、通过特征映射模块分别对第三特征图和第四特征图进行损失计算，并根据损失结果利用反向传播算法对模型参数进行更新优化；

终端通过特征映射模块分别将第三特征图和第四特征图进行展平、全连接等操作，分别将第三特征图和第四特征图转化为相应的标签类型预测概率；然后根据相应的标签类型预测概率向量和标签真实值计算交叉熵损失。根据计算得到的交叉熵损失结果利用反向传播算法对初始模型的模型参数进行更新优化。

108、输入铝型材图像训练集中的缺陷样本图像到初始模型中并执行上述步骤进行迭代训练直至损失收敛或达到预设迭代次数，得到训练后的缺陷分类模型，该缺陷分类模型用于进行铝型材表面缺陷的分类检测。

终端在对初始模型的模型参数更新优化后，再次执行上述步骤，即从铝型材图像训练集中获取缺陷样本图像，将缺陷样本图像再次输入到更新后的初始模型中进行训练。当损失收敛后，或者输入缺陷样本图像进行迭代训练达到预设迭代次数，例如迭代训练10000次，则模型训练完成，得到训练后的缺陷分类模型，该缺陷分类模型能够对输入的待检测铝材图像进行缺陷分类检测。

本实施例中，可通过本申请的缺陷分类模型进行铝型材表面缺陷检测，与人工目测检测相比识别效率、准确性更高，与传统检测相比，能适应多种缺陷种类识别，适应性更强，且能实时输入检测。另外，本实施例中的缺陷分类模型以残差网络为主干网络，引入带权非局部模块进行特征增强，以计算特征图不同像素点之间的相似度，提升模型捕捉特征的长距离依赖关系及上下文信息；同时，通过特征融合辅助分类器进行特征融合，以提升模型对纹理、边缘等细节信息特征的挖掘能力，减少计算量，加强了模型对铝型材缺陷分类的检测效果，以较少的计算代价提升了模型对铝材表面缺陷的分类性能。

为使本申请提供的基于深度学习的铝型材表面缺陷分类方法更加的明显易懂，下面对本申请提供的基于深度学习的铝型材表面缺陷分类方法进行详细说明：

请参阅图2至图6，图2为本申请提供的基于深度学习的铝型材表面缺陷分类方法另一个实施例，该方法包括：

201、从铝型材图像训练集中获取携带缺陷标签的缺陷样本图像；

本实施例中的步骤201与前述图1所示实施例中的步骤101类似，具体此处不做赘述。

202、将缺陷样本图像输入到初始模型，该初始模型包括残差网络、带权非局部模块、特征融合辅助分类器和特征映射模块；

终端从铝型材图像训练集中获取到缺陷样本图像后，将该缺陷样本图像输入到初始模型中进行模型训练。其中，请参阅图3，该初始模型FWACNet以残差网络为主干网络，并引入带权非局部模块、特征融合辅助分类器和特征映射模块(图3未示出)。该残差网络包括第一段、第二段以及第三段。第一段包括主干模块和第一阶段模块(Stage1)。第二段包括第二阶段模块(Stage2)，第三段包括第三阶段模块(Stage3)和第四阶段模块(Stage4)。其中，该主干模块由一个7×7卷积模块组成。该第一阶段模块、第二阶段模块、第三阶段模块和第四阶段模块依次由3、4、6、3个残差结构模块构成。该残差结构模块(Stage)依次由一个1×1卷积模块、一个3×3卷积模块和一个1×1卷积模块组成。

203、将缺陷样本图像依次输入主干模块和第一阶段模块中进行图像特征提取，得到第一特征图；

终端将大小为H×W×C缺陷样本图像输入初始模型FWACNet之后，缺陷样本图像经过主干模块进行卷积处理后，进入第一阶段模块进行特征提取，得到第一特征图。其中，H×W为图像尺寸的高×宽，C为通道数。例如，将大小为384×384×3的缺陷样本图像输入到7×7卷积模块中，得到空间大小为96×96×64的特征图X_stage1，再进入Stage1中进行特征提取，得到空间大小为96×96×256的第一特征图X_stage2。

204、将第一特征图输入带权非局部模块中进行特征增强，得到目标特征图；

考虑到带权非局部模块的计算量受特征图的空间大小影响，在残差网络的第二阶段模块中引入带权非局部模块。然后将第一特征图输入到带权非局部模块中进行特征增强。第一特征图在带权非局部模块中的数据流传递过程如下，请参阅图4，图4为带权非局部模块结构图：

向带权非局部模块中输入大小为H×W×C的第一特征图X＝[x₁,x₂,…,x_i]，并分别经过θ线性变换、

线性变换和g线性变换得到特征图X_θ、特征图/>

和特征图X_g。

具体地，θ线性变换θ(x_i)＝W_θx_i、

线性变换/>

g线性变换/>

一般通过1×1卷积实现，其中W_θ、/>

代表了卷积核中的参数,X_i代表图像像素。

将特征图X_θ输入到通道注意力模块获取通道注意力权重向量λ＝[λ¹,λ²,…,λ^k,…,λ^C]，其中，C为特征图X_θ的通道数，k为其索引值。其中，通道注意力模块如图5所示，包括全局平均池化操作F_sq与全连接结构F_ex。具体地，全局平均池化公式定义如下：

其中，H、W为特征图尺寸的高、宽，i、j代表特征图空间上的像素索引。全局平均池化操作F_sq将输入的特征图X_θ进行全局平均池化操作，将特征图X_θ每个通道上大小为H×W的特征图压缩至一个具有全局信息的特征实数，设压缩后的特征实数为Z＝[z¹,z²,…,z^k,…,z^C]。

然后，根据特征实数Z＝[z¹,z²,…,z^k,…,z^C]进行全连接操作，获取通道注意力权重向量λ＝[λ¹,λ²,…,λ^k,…,λ^C]。具体地，基于以下全连接公式进行全连接操作：

F_ex(Z,W)＝σ(W₂δ(W₁Z))

其中，δ、σ分别表示ReLU、Sigmoid激活函数，W₁∈R^(C/r)×C和W₂∈R^C×(C/r)代表全连接FC₁、FC₂，R表示全连接的实数域空间，r表示预设参数，r可人为根据实际情况设置，具体此处不做限定。

从而，通道注意力权重向量λ的计算方式为：

进行矩阵乘法获取相似度矩阵S_M。将所述相似度矩阵S_M进行Softmax归一化得到空间注意力图A_M。具体计算方式如下：

A_M(i,j)＝Softmax(S_M(i,j))

其中，i,j代表特征图空间上的像素索引，1≤i≤H×W、1≤j≤H×W。

然后，将大小为HW×HW的空间注意力图A_M与特征图X_g进行矩阵乘法，再经过1×1卷积模块进行卷积，实现通道升维，使得可以与第一特征图进行对应元素相加运算。最后，将卷积后得到的特征图与第一特征图X进行对应元素的相加运算，得到目标特征图V＝[v₁,v₂,…,v_i]。

具体地，计算方式为：

本实施例中，通过带权非局部模块计算不同像素点间的相似度，例如对第一特征图X的某一像素点A，与特征图上所有像素点进行计算相似度。从而，根据计算的不同像素点之间的相似度来提升模型对捕捉特征的长距离依赖关系和上下文信息。

205、将目标特征图输入第二阶段模块中进行特征提取，得到第二特征图；

终端将进入带权非局部模块后输出的目标特征图输入到第二阶段模块中，对目标特征图进行特征提取，得到包含丰富细节信息，但语义信息不足的大分辨率的第二特征图。例如，将空间大小为96×96×256的第一特征图X_stage2输入带权非局部模块中得到相同大小的特征增强的目标特征图后，将目标特征图输入第二阶段模块Stage2中，得到包含丰富细节信息，例如纹理信息、边缘信息，但语义信息不足的空间大小为48×48×512的大分辨率第二目标特征图X_stage3。

206、将第二特征图依次输入第三阶段模块和第四阶段模块中进行图像特征提取，得到第三特征图；

终端将第二特征图输入残差网络的第三阶段、第四阶段分别进行特征提取，获取存在细节信息损失，但语义信息丰富的小分辨率的第三特征图。例如，将大小为48×48×512的第二特征图，输入第三阶段模块Stage3中，得到大小为24×24×1024的特征图，再输入第四阶段模块Stage4中，得到大小为12×12×2048的第三特征图。

207、将第二特征图和第三特征图输入特征融合辅助分类器中，通过亚像素卷积对第三特征图进行上采样，以使得第三特征图与第二特征图的空间尺寸相同；

请参阅图6，图6为模型中引入的特征融合辅助分类器结构示意图。本实施例中，终端通过将经过Stage2包含了丰富细节信息但语义信息不足的大分辨率的第二特征图和经过Stage3、Stage4得到的细节信息损失但语义信息丰富的第三特征图进行融合，得到融合后的第四特征图。具体地，D代表残差网络中提取到的深层特征，即第三特征图。S为残差网络提取到的浅层特征，即第二特征图。其中，特征融合辅助分类器的数据流传递过程如下：

首先，对第三特征图使用亚像素卷积进行上采样，使得其特征图空间尺寸与第二特征图一致，得到采样后的第三特征图。具体地，亚像素卷积利用通道信息完成特征图在空间上的填补，通过填补公式实现特征图D∈R^H×W×C到D₁∈R^{4H×4W×(C/16)}的映射。其中，填补公式的表达式如下：

其中，PS(D)_x,y,c为输出特征图索引为(x,y,c)的特征像素，RoundDown为向下取整函数，mod为取余函数。

208、将第二特征图和采样后的第三特征图进行拼接得到第四特征图；

终端将经过207步骤输出的采样后的第三特征图与第二特征图进行通道维度上的拼接，得到第四特征图。具体地，将两张特征图即第三特征图和第二特征图叠放，使其拼接融合成一张特征图即第四特征图。本实施例中，通过特征融合辅助分类器，对残差网络提取的深层特征的特征图和浅层特征的特征图进行融合，可提升模型对浅层特征中细节信息的挖掘能力，同时模型的减少计算量。

209、通过特征映射模块对第三特征图进行展平、全连接和softmax归一化操作，确定第三特征图的第一预测概率向量；根据第一预测概率向量和标签真实值计算交叉熵损失，得到第一损失；

特征映射模块包括展平模块、全连接模块和softmax批量归一化模块等。终端通过特征映射模块对第三特征图依次进行展平操作、全连接操作、softmax归一化操作等，确定第三特征图的第一预测概率向量。具体地，将第三特征图展开成为一个一维的向量，传递到全连接层中进行全连接操作，然后将全连接层的输出传入到softmax归一化模块中，得到输入图像即缺陷样本图像的第一预测概率向量。其中，该第一预测概率向量的长度由铝型材图像训练集中的缺陷标签类别的类别数量确定。然后，将该第一预测概率向量和缺陷样本图像携带的标签真实值计算交叉熵损失，得到第一损失。

210、对第四特征图进行展平、全连接和softmax归一化操作，确定第四特征图的第二预测概率向量；根据第二预测概率向量和标签真实值计算交叉熵损失，得到第二损失；

终端将经过步骤208后由第二特征图和第四特征图进行融合得到的第四特征图，经过堆叠两个卷积块后，进行展平和全连接操作，确定第四特征图的第二预测概率向量。其中，该卷积块依次包括一个3×3卷积块、批量归一化模块和ReLU模块。具体地，第二预测概率向量的计算公式如下：

Predict Probability＝W₅δ(W₄δ(W₃[PS(D),S]))

其中，W₃、W₄为卷积参数，W₅为全连接层参数，δ为ReLU激活函数。该第二预测概率向量的长度由铝型材图像训练集中的缺陷标签类别的类别数量确定。然后，将该第二预测概率向量和缺陷样本图像携带的标签真实值计算交叉熵损失，得到第二损失。

211、根据第一损失和第二损失计算总损失，根据总损失结果利用反向传播算法对模型参数进行更新优化；

终端将第一损失和第二损失进行相加计算，得到总损失。根据计算得到的总损失结果利用反向传播算法对初始模型的模型参数进行更新优化。

212、输入铝型材图像训练集中的缺陷样本图像到初始模型中并执行上述步骤进行迭代训练直至损失收敛或达到预设迭代次数，得到训练后的缺陷分类模型，该缺陷分类模型用于进行铝型材表面缺陷的分类检测；

本实施例中的步骤212与前述图1所示实施例中的步骤108类似，具体此处不做赘述。

本实施例中，首先将缺陷样本图像输入到初始模型，通过模型的残差网络的主干模块、第一阶段模块对缺陷样本图像进行特征提取，得到第一特征图。将第一特征图输入带权非局部模块和残差网络的第二阶段模块中，得到第二特征图。将第二特征图依次输入第三阶段模块和第四阶段模块中，得到第三特征图，然后对第三特征图依次进行展平操作、全连接、softmax，得到缺陷样本图像的第一预测概率向量，将第一预测概率向量与标签真实值计算交叉熵损失，得到第一损失。同时，将第二特征图和第三特征图输入至特征融合辅助分类器中进行特征融合并计算得到第二损失。将第一损失和第二损失相加得到总损失，根据总损失利用反向传播算法自动优化更新模型参数。在模型参数更新后，重复上述步骤再次输入训练集中的缺陷样本图像进行训练。当总损失收敛或迭代次数达到预设次数后，模型训练完成，得到最终的缺陷分类模型，从而可通过该缺陷分类模型进行铝材表面缺陷的自动检测分类。

本实施例中，缺陷分类模型以残差网络为主干网络，引入带权非局部模块进行特征增强，以计算特征图不同像素点之间的相似度，提升模型捕捉特征的长距离依赖关系及上下文信息；同时，通过特征融合辅助分类器进行特征融合，以提升模型对纹理、边缘等细节信息特征的挖掘能力，减少计算量，加强了模型对铝型材缺陷分类的检测效果，以较少的计算代价提升了模型对铝材表面缺陷的分类性能。

下面为使用本申请提供的缺陷分类模型进行铝型材表面缺陷分类检测的一个实施例。请参阅图7，图7为本申请提供的基于深度学习的铝型材表面缺陷分类方法的另一个实施例，该方法包括：

301、获取待检测铝材图像；

当需要某一铝型材进行表面缺陷分类检测时，使用摄像头对该铝型材进行图像拍摄，获取该铝型材的待检测铝材图像。

302、将待检测铝材图像输入缺陷分类模型，通过残差网络的第一段对待检测铝材图像进行特征提取，获取第一段输出的第一特征图；

终端将该待检测铝材图像输入缺陷分类模型中，该缺陷分类模型通过上述图1或图2所示实施例方法训练得到。首先，该待检测铝材图像首先输入至模型残差网络的第一段中，得到第一特征图。具体地，将待检测铝材图像输入主干模块和第一阶段模块中，得到第一特征图。

303、通过带权非局部模块和残差网络的第二段对第一特征图进行特征增强，得到第二特征图；

将第一特征图依次输入带权非局部模块和残差网络的第二阶段模块中进行特征提取，得到第二特征图。

304、将第二特征图输入残差网络的第三段进行特征提取，得到第三特征图；

将第二特征图输入残差网络的第三段进行特征提取，得到第三特征图。具体地，将第二特征图依次输入残差网络的第三阶段模块、第四阶段模块中进行特征提取，得到第三特征图。

305、通过特征映射模块对第三特征图进行类别预测概率计算，根据计算结果确定缺陷分类模型输出的待检测铝材图像的表面缺陷类别。

本实施例中，因此终端通过模型的特征映射模块对第三特征图依次进行展平操作、全连接操作、softmax归一化操作等，确定第三特征图的类别预测概率。根据类别预测概率中概率最高的缺陷类别输出待检测铝材图像的表面缺陷类别。

本实施例中，可通过本申请的缺陷分类模型进行铝型材表面缺陷检测，与人工目测检测相比识别效率、准确性更高，与传统检测相比，能适应多种缺陷种类识别，适应性更强，且能实时输入检测。此外，由于该缺陷分类模型已经训练完毕，可在通过对得到的第三特征图依次进行展平操作、全连接操作、softmax归一化操作确定第三特征图的类别预测概率之后，直接根据类别预测概率中概率最高的缺陷类别输出待检测铝材图像的表面缺陷类别，无需特征融合辅助分类器参与识别，以较少的计算代价提高模型对于缺陷图像的分类性能。

上述对本申请提供的基于深度学习的铝型材表面缺陷分类方法进行了说明，下面对本申请提供的基于深度学习的铝型材表面缺陷分类装置进行说明：

请参阅图8，图8为本申请提供的基于深度学习的铝型材表面缺陷分类装置一个实施例，该装置包括：

获取单元401，用于从铝型材图像训练集中获取携带缺陷标签的缺陷样本图像；

输入单元402，用于将缺陷样本图像输入到初始模型，初始模型包括残差网络、带权非局部模块、特征融合辅助分类器和特征映射模块；

第一提取单元403，用于通过残差网络的第一段对缺陷样本图像进行特征提取，获取第一段输出的第一特征图；

第二提取单元404，用于通过带权非局部模块和残差网络的第二段对第一特征图进行特征增强，得到第二特征图；

第三提取单元405，用于将第二特征图输入残差网络的第三段进行特征提取，得到第三特征图；

融合单元406，用于通过特征融合辅助分类器对第二特征图和第三特征图进行特征融合，得到第四特征图；

优化单元407，用于通过特征映射模块对第三特征图和第四特征图进行损失计算，并根据损失结果利用反向传播算法对模型参数进行更新优化；

输入单元402还用于输入铝型材图像训练集中的缺陷样本图像到初始模型中并执行上述步骤进行迭代训练直至损失收敛或达到预设迭代次数，得到训练后的缺陷分类模型，缺陷分类模型用于进行铝型材表面缺陷的分类检测。

可选地，残差网络包括主干模块、第一阶段模块、第二阶段模块、第三阶段模块和第四阶段模块，第一阶段模块、第二阶段模块、第三阶段模块和第四阶段模块依次由3、4、6、3个残差结构模块构成；

第一提取单元403具体用于将缺陷样本图像依次输入主干模块和第一阶段模块中进行图像特征提取，得到第一特征图；

第二提取单元404具体用于将第一特征图输入带权非局部模块中进行特征增强，得到目标特征图；

将目标特征图输入第二阶段模块中进行特征提取，得到第二特征图；

第三提取单元405具体用于将第二特征图依次输入第三阶段模块和第四阶段模块中进行图像特征提取，得到第三特征图；

优化单元407具体用于通过特征映射模块对第三特征图进行展平、全连接和softmax归一化操作，确定第三特征图的第一预测概率向量；根据第一预测概率向量和标签真实值计算交叉熵损失，得到第一损失；

对第四特征图进行展平、全连接和softmax归一化操作，确定第四特征图的第二预测概率向量；根据第二预测概率向量和标签真实值计算交叉熵损失，得到第二损失；

根据第一损失和第二损失计算总损失，根据总损失结果利用反向传播算法对模型参数进行更新优化。

可选地，带权非局部模块包括通道注意力模块，第二提取单元404具体用于向带权非局部模块中输入大小为H×W×C的第一特征图，并分别经过θ线性变换、

线性变换和g线性变换得到特征图X_θ、特征图/>

和特征图X_g；

将特征图X_θ输入到通道注意力模块获取通道注意力权重向量λ＝[λ¹,λ²,…,λ^k,…,λ^C]，其中，C为特征图X_θ的通道数，k为索引值；

将通道注意力权重向量λ与特征图X_θ进行对应元素相乘，再与特征图

进行矩阵乘法获取相似度矩阵S_M；

将相似度矩阵S_M进行Softmax归一化得到空间注意力图A_M；

将空间注意力图A_M与特征图X_g进行矩阵乘法后使用1×1卷积模块进行卷积；

将卷积后得到的特征图与第一特征图进行对应元素的相加运算，得到目标特征图。

可选地，第二提取单元404具体用于将特征图X_θ输入到通道注意力模块；

通过全局平均池化公式对特征图X_θ进行全局平均池化操作，以使得将特征图X_θ压缩为具有全局信息的特征实数Z＝[z¹,z²,…,z^k,…,z^C]；

根据特征实数Z＝[z¹,z²,…,z^k,…,z^C]基于全连接公式进行全连接操作，获取通道注意力权重向量λ＝[λ¹,λ²,…,λ^k,…,λ^C]。

可选地，融合单元406具体用于将第二特征图和第三特征图输入特征融合辅助分类器中，通过亚像素卷积对第三特征图进行上采样，以使得第三特征图与第二特征图的空间尺寸相同；

本实施例装置中，各单元所执行的功能与前述图1或图2所示方法实施例中的步骤对应，具体此处不再赘述。

本实施例中，训练得到的缺陷分类模型以残差网络为主干网络，引入带权非局部模块进行特征增强，以计算特征图不同像素点之间的相似度，提升模型捕捉特征的长距离依赖关系及上下文信息；同时，通过特征融合辅助分类器进行特征融合，以提升模型对纹理、边缘等细节信息特征的挖掘能力，减少计算量，加强了模型对铝型材缺陷分类的检测效果，以较少的计算代价提升了模型对铝材表面缺陷的分类性能。

请参阅图9，图9为本申请提供的基于深度学习的铝型材表面缺陷分类装置另一个实施例，该装置包括：

获取单元501，用于获取待检测铝材图像；

输入单元502，用于将待检测铝材图像输入缺陷分类模型，通过残差网络的第一段对待检测铝材图像进行特征提取，获取第一段输出的第一特征图；

特征增强单元503，用于通过带权非局部模块和残差网络的第二段对第一特征图进行特征增强，得到第二特征图；

提取单元504，用于将第二特征图输入残差网络的第三段进行特征提取，得到第三特征图；

输出单元505，用于通过特征映射模块对第三特征图进行类别预测概率计算，根据计算结果确定缺陷分类模型输出的待检测铝材图像的表面缺陷类别。

本实施例装置中，各单元所执行的功能与前述图7所示方法实施例中的步骤对应，具体此处不再赘述。

本申请还提供了一种基于深度学习的铝型材表面缺陷分类装置，请参阅图10，图10为本申请提供的基于深度学习的铝型材表面缺陷分类装置一个实施例，该装置包括：

处理器601、存储器602、输入输出单元603、总线604；

处理器601与存储器602、输入输出单元603以及总线604相连；

存储器602保存有程序，处理器601调用程序以执行如上任一基于深度学习的铝型材表面缺陷分类方法。

本申请还涉及一种计算机可读存储介质，计算机可读存储介质上保存有程序，当程序在计算机上运行时，使得计算机执行如上任一基于深度学习的铝型材表面缺陷分类方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-only memory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。