CN116310519A

CN116310519A - 一种半监督深度学习的表面缺陷分类方法

Info

Publication number: CN116310519A
Application number: CN202310148239.2A
Authority: CN
Inventors: 葛铭; 刘叶清; 郑小青; 魏江; 郑松
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-06-23

Abstract

本发明公开了一种半监督深度学习的表面缺陷分类方法，包括S1，从数据集的每一个类别都随机选取70％的数据作训练集，剩余的作为测试集；S2，对训练集进行离线数据增强，将训练集扩充3倍；S3，数据预处理；S4，从扩充训练集中随机抽取30％的标记样本，剩余的训练样本作为无标记样本；S5，构建并初始化学生网络f(θ_{s_t})；S6，构建并初始化教师网络f(θ_{t_t})；S7，迭代训练学生网络和教师网络的权重参数；S8，保存网络模型权重，将需要分类的表面缺陷图像进行预处理再输入学生网络；学生网络预测分类类别，完成分类。本发明不仅可以在只有少量标记样本条件下实现表面缺陷分类任务，还可以在类别不平衡数据集中完成分类任务，适用范围更广。

Description

一种半监督深度学习的表面缺陷分类方法

技术领域

本发明属于自动缺陷检测技术领域，涉及一种半监督深度学习的表面缺陷分类方法。

背景技术

工业产品制造过程中工业产品不可避免会存在缺陷，比如可能存在印记、坑、油污和针孔等缺陷，这些缺陷一方面影响产品外观，一方面存在安全隐患。因此，在生产加工过程对工业产品表面进行缺陷检测十分必要。传统的基于图像处理的缺陷检测方法需要针对特定的问题人工设计特定的特征，再利用分类器或者规则进行分类，该方法要求苛刻的成像环境且适应性差。深度学习在图像分类领域展示了巨大的优越性，也是工业产品缺陷检测领域最具潜力的智能化方法。但目前流行的监督深度学习方法非常依赖大量的有标记样本，而在许多实际问题中往往无法提供大量带有标记的训练样本，同时实际样本数据也可能存在类别不平衡问题。

发明内容

为解决上述问题，本发明提供一种半监督深度学习的表面缺陷分类方法，包括以下步骤：

S1，从数据集的每一个类别都随机选取70％的数据作训练集，剩余的作为测试集；

S2，对训练集进行离线数据增强，将训练集扩充3倍；

S3，数据预处理；

S4，从扩充训练集中随机抽取30％的标记样本，剩余的训练样本作为无标记样本；

S5，构建并初始化学生网络f(θ_{s_t})；

S6，构建并初始化教师网络f(θ_{t_t})；

S7，迭代训练学生网络和教师网络的权重参数；

S8，保存网络模型权重，经过S7的迭代训练后，保存学生网络权重，然后将需要分类的表面缺陷图像进行预处理再输入学生网络；学生网络预测分类类别，完成分类。

优选地，所述S2中离线数据增强包括：均值滤波处理、添加高斯噪声和添加椒盐噪声。

优选地，所述S5中学生网络结构包括5个卷积层，其中，第一个卷积层其输入通道为3，输出通道为64，卷积核尺寸为3*3，步长为1，输入图片格式为224*224*3，经过第一个卷积层后的输出特征为222*222*64，然后在第一个卷积层后面添加注意力模块，接着是RELU激活函数以及过滤器参数为2*2，步长为2的最大池化层，经过最大池化操作后的特征维度大小是111*111*64；接着是第二个卷积层，其输入通道是64，输出通道是128，卷积核尺寸为3*3，步长为2，经过第二个卷积层后的特征图大小是55*55*128，在第二个卷积层后面添加注意力模块，然后是RELU激活函数以及滤波器参数为2*2，步长为2的最大池化层，经过最大池化操作后的特征维度大小是27*27*128；接着是第三个卷积层，其输入通道是128，输出通道是256，卷积核尺寸为3*3，步长为2，经过第三个卷积层后的特征图大小是13*13*256。然后在第三个卷积层后面是注意力模块，然后是RELU激活函数以及过滤器参数为2*2，步长为2的最大池化层，经过第三个卷积层后的特征图大小是6*6*256；接着是第四个卷积层，其输入通道是256，输出通道是1024，卷积核尺寸为1*1，步长为2，经过第四个卷积层后的特征图大小是3*3*1024，然后是RELU激活函数以及滤波器参数为2*2，步长为2的最大池化层，经过最大池化操作后的特征维度大小是1*1*1024；接着是第五个卷积层，其输入通道是1024，输出通道是分类图像的种类个数，最后接着softmax分类层，用于计算输出属于每一类的概率。

优选地，所述注意力模块的计算过程包括：

输入特征F₁经过BN层后，其每个通道乘以一个权重W_i，然后被输入sigmoid()激活函数，最后得到输出特征M_c，

M_c＝sigmoid(W_i(BN(F₁))

其中，BN层的计算方式为：

其中，μB和σ²B分别表示输入特征的平均值和方差，ε是辅助参数，防止分母为0；γ是比例因子，β是位移因子，这两个参数的取值会随着网络训练更新优化；B_in为BN层的输入特征，B_out为BN层的输出特征；

权重W_i的计算方式为：

其中，n表示总通道数量，λ_i和λ_j分别表示第i个和第j个通道的比例因子，e^λi为和e^λj为对这两个比例因子进行指数化处理。

优选地，所述S5中学生网络的初始化包括：使用Xavier进行权值初始化，其中初始权值采用标准差为sqrt(2/(n_in+n_out))，均值为0的正态分布，其中n_in和n_out分别为每一层输入神经网络的数量和输出神经网络的数量。

优选地，所述S6中将学生网络的网络架构和权重参数复制一份作为教师网络。

优选地，所述S7中定义当前叙述的是t时刻的训练流程，包括以下步骤：

S71，采样标记数据X，对X进行弱增强处理，并采样无标记数据U，同时对其进行弱增强和强增强处理，得到两份无标记数据；

S72，计算监督损失：将经过弱増强数据扩充后的标记样本X输入到学生网络f(θ_{s_t-1})，其中，θ_{s_t-1}表示学生网络的权重参数，t-1表示当前网络的权重参数是t-1时刻学习到的；然后，利用学生网络f(θ_{s_t-1})计算标记样本X的预测值p_x；最后采用CFL损失函数计算方法计算标记样本的预测p_x与其样本X对应的标签Y之间的距离作为监督损失；

S73，计算无监督损失：无标签样本U经过强增强数据扩充后输入到学生网络，学生网络f(θ_{s_t-1})计算其预测值p_u；同时，无标记样本U经过弱增强数据扩充后输入到教师网络f(θ_{t_t-1})，教师网络计算其预测值q_u,θ_{t_t-1}表示教师网络的权值参数，然后进行学习效果预估和动态阈值计算；最后使用CFL损失函数计算学生网络的预测p_u与伪标签q_u的距离作为无监督损失loss_u；

S74，计算总损失：在获得了有监督损失值loss_x和无监督损失值loss_u后计算总损失：loss＝loss_x+λ_uloss_u，其中，未标记损失权重λ_μ设置为1；

S75，更新网络权值：得到总损失后，反向传播计算学生网络权重梯度，然后，利用SGD优化器更新学生网络的权重，得的t时刻的学生网络权重f(θ_{s_t})，在更新学生网络权重后，利用t时刻学生网络权重更新教师网络权重f(θ_{t_t-1})，获得了t时刻的教师网络f(θ_{t_t})，到此，学生网络和教师网络都学习到了t时刻训练步骤的权重参数。

优选地，所述S73中学习效果预估包括以下步骤：

S731，对每个类别统计所有超过固定阈值的样本数量，将统计出的数量作为学习效果，公式为：

其中，σ_t(c)表示c类别在t时刻的学习效果，p_m,t(y|u_n)表示网络对无标记样本u_n在t时刻的预测，N表示无标记样本的总数，σ_t(c)越大表示c类别的学习效果越好；

S732，进行归一化：σ_t(c)是对样本的一个计数，它的大小会随数据集变化，因此需要对其进行归一化使其范围在0到1之间，

这里归一化分母num(c)是c类别的无标记样本的数量，每个类别的动态阈值考虑到每个类别的数量，解决类间样本数量不平衡问题带来的干扰；K是类别数量，用以保证动态阈值的下限不低于/>

S733，进行非线性映射，使得阈值有一个非线性增加曲线，公式为：

T_t(c)＝M(β_t(c))·τ

其中，M(x)是一个非线性映射凸函数，当β_t(c)小于预设值时，该函数使阈值增长，并随着β_t(c)的增大而变得更加敏感，置信阈值τ取值0.95。

优选地，所述S73中动态阈值计算包括：取教师网络预测结果q_u中的最大值，如果其最大值超过β_t(c),β_t(c)表示当前时刻c类别的阈值，c类别为最大值所属的类别，那么认为该样本的预测结果和其真实标签是一致的，将保留这个样本参与无标签数据损失项的计算，否则，本次训练将抛弃该样本，不允许该样本参与当前步骤训练。

优选地，所述S73中CFL损失函数计算包括：

总体计算公式为：

CFL(p,y)＝ξL_hc+(1-ξ)L_lc

其中：

其中，y表示真实类别,p∈[0,1]表示模型的预测概率，γ和γ_hc是可以调节的超参数，γ_hc设置为3，γ_lc设置为3，L_hc损失项关注高置信度的训练样本，L_lc则关注低置信度的样本，并通过一个与epoch有关的超参数使网络在训练早期和快结束时期更加关注置信度高的训练样本的贡献，而在中期更加侧重置信度低的训练样本；

随训练epoch变化的参数：

其中，e_i表示当前的训练epoch,e_n表示总的训练epoch次数，周期性因子f_c≥1，f_c设置为4。

本发明有益效果至少包括：提出的表面缺陷分类方法不仅可以在只有少量标记样本条件下实现表面缺陷分类任务，还可以在类别不平衡数据集中完成分类任务，适用范围更广。同时，本文方法适应性很强，可以根据实际数据集复杂程度选择卷积网络。

附图说明

图1为本发明半监督深度学习的表面缺陷分类方法的步骤流程图；

图2为本发明半监督深度学习的表面缺陷分类方法的迭代训练流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参见图1，为本发明实施例的本发明的技术方案为半监督深度学习的表面缺陷分类方法的示意图，包括以下步骤：

S2，对训练集进行离线数据增强，将训练集扩充3倍；具体实施例中，分别经过如下三种数据增强方式：均值滤波处理、添加高斯噪声和添加椒盐噪声，再将这些增强后的数据样本放在一起，得到原有训练集3倍大的扩充训练集；

S3，数据预处理，将扩充训练集和测试集的数据都调整为224×224×3的统一格式；

S4，从扩充训练集中随机抽取30％的标记样本，剩余的训练样本作为无标记样本；定义标记训练数据集(X,Y)，其中样本为X,对应的标记为Y,同时定义无标记训练集为U；

S5，构建并初始化学生网络f(θ_s _t)，其中，θ_s _t表示学生网络的权重参数；学生网络结构包括5个卷积层，其中，第一个卷积层其输入通道为3，输出通道为64，卷积核尺寸为3*3，步长为1，输入图片格式为224*224*3，经过第一个卷积层后的输出特征为222*222*64，然后在第一个卷积层后面添加注意力模块，接着是RELU激活函数以及过滤器参数为2*2，步长为2的最大池化层，经过最大池化操作后的特征维度大小是111*111*64；接着是第二个卷积层，其输入通道是64，输出通道是128，卷积核尺寸为3*3，步长为2，经过第二个卷积层后的特征图大小是55*55*128，在第二个卷积层后面添加注意力模块，然后是RELU激活函数以及滤波器参数为2*2，步长为2的最大池化层，经过最大池化操作后的特征维度大小是27*27*128；接着是第三个卷积层，其输入通道是128，输出通道是256，卷积核尺寸为3*3，步长为2，经过第三个卷积层后的特征图大小是13*13*256。然后在第三个卷积层后面是注意力模块，然后是RELU激活函数以及过滤器参数为2*2，步长为2的最大池化层，经过第三个卷积层后的特征图大小是6*6*256；接着是第四个卷积层，其输入通道是256，输出通道是1024，卷积核尺寸为1*1，步长为2，经过第四个卷积层后的特征图大小是3*3*1024，然后是RELU激活函数以及滤波器参数为2*2，步长为2的最大池化层，经过最大池化操作后的特征维度大小是1*1*1024；接着是第五个卷积层，其输入通道是1024，输出通道是分类图像的种类个数，最后接着softmax分类层，用于计算输出属于每一类的概率。

注意力模块的计算过程包括：

M_c＝sigmoid(W_i(BN(F₁))

其中，BN层的计算方式为：

其中，μB和σ²B分别表示输入特征的平均值和方差，ε是辅助参数，防止分母为0；γ是比例因子，β是位移因子，这两个参数的取值会随着网络训练更新优化；B_in为BN层的输入特征，B_out为BN层的输出特征；BN(Batch Normalization)层为用在激活函数前，用来使上一层的输出，分布在均值为0，方差为1的情况下，也就是对下一层的输入做归一化的操作，这样就能够使它经过激活函数时能够有一定的梯度，从而避免值太大而进入饱和区，梯度就非常小了，不利于梯度下降。

权重W_i的计算方式为：

学生网络的初始化包括：使用Xavier进行权值初始化，其中初始权值采用标准差为sqrt(2/(n_in+n_out))，均值为0的正态分布，其中n_in和n_out分别为每一层输入神经网络的数量和输出神经网络的数量。

S6，构建并初始化教师网络f(θ_{t_t})，具体实施例中，将学生网络的网络架构和权重参数复制一份作为教师网络；

S7，迭代训练学生网络和教师网络的权重参数；

具体实施例中，S7中定义当前叙述的是t时刻的训练流程，参见图2，包括以下步骤：

S71，采样标记数据X，对X进行弱增强处理，并采样无标记数据U，同时对其进行弱增强和强增强处理，得到两份无标记数据；其中，弱増强是将图片样本以50％的概率执行随机水平翻转或者随机裁剪操作。强增强则是对图像先随机调整图像亮度，再随机调整图像的对比度。

具体实施例中，S73中学习效果预估包括以下步骤：

T_t(c)＝M(β_t(c))×τ

S73中动态阈值计算包括：取教师网络预测结果q_u中的最大值，如果其最大值超过β_t(c),β_t(c)表示当前时刻c类别的阈值，c类别为最大值所属的类别，那么认为该样本的预测结果和其真实标签是一致的，将保留这个样本参与无标签数据损失项的计算，否则，本次训练将抛弃该样本，不允许该样本参与当前步骤训练。

S73中CFL损失函数计算包括：

总体计算公式为：

CFL(p,y)＝ξL_hc+(1-ξ)L_lc

其中：

随训练epoch变化的参数：

具体实施例中，教师网络训练步骤t时刻时的网络权重计算如下面公式所示：

θ_{t_t}＝aθ_{t_t-1}+(1-a)θ_{s_t}

其中，a一个平滑系数的超参数，θ_{t_t}表示当前t时刻教师模型的权重，θ_{t_t-1}表示前一时刻教师模型的权重，θ_{s_t}表示当前t时刻学生模型的权重。

上述迭代训练中的一些参数设置如下：batch_size设置为32。最大训练周期设置为1024。使用动量为0.9的SGD优化器。迭代训练过程的学习率设置为如下公式：

上式中，η为初始学习率，设置为0.1；k为当前训练步骤，K为总的训练步骤次数。按照上式，学习率遵循余弦曲线有效地从η衰减到接近0。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种半监督深度学习的表面缺陷分类方法，其特征在于，包括以下步骤：

S2，对训练集进行离线数据增强，将训练集扩充3倍；

S3，数据预处理；

S5，构建并初始化学生网络f(θ_{s_t})；

S6，构建并初始化教师网络f(θ_{t_t})；

S7，迭代训练学生网络和教师网络的权重参数；

2.根据权利要求1所述的一种半监督深度学习的表面缺陷分类方法，其特征在于，所述S2中离线数据增强包括：均值滤波处理、添加高斯噪声和添加椒盐噪声。

3.根据权利要求1所述的一种半监督深度学习的表面缺陷分类方法，其特征在于，所述S5中学生网络结构包括5个卷积层，其中，第一个卷积层其输入通道为3，输出通道为64，卷积核尺寸为3*3，步长为1，输入图片格式为224*224*3，经过第一个卷积层后的输出特征为222*222*64，然后在第一个卷积层后面添加注意力模块，接着是RELU激活函数以及过滤器参数为2*2，步长为2的最大池化层，经过最大池化操作后的特征维度大小是111*111*64；接着是第二个卷积层，其输入通道是64，输出通道是128，卷积核尺寸为3*3，步长为2，经过第二个卷积层后的特征图大小是55*55*128，在第二个卷积层后面添加注意力模块，然后是RELU激活函数以及滤波器参数为2*2，步长为2的最大池化层，经过最大池化操作后的特征维度大小是27*27*128；接着是第三个卷积层，其输入通道是128，输出通道是256，卷积核尺寸为3*3，步长为2，经过第三个卷积层后的特征图大小是13*13*256。然后在第三个卷积层后面是注意力模块，然后是RELU激活函数以及过滤器参数为2*2，步长为2的最大池化层，经过第三个卷积层后的特征图大小是6*6*256；接着是第四个卷积层，其输入通道是256，输出通道是1024，卷积核尺寸为1*1，步长为2，经过第四个卷积层后的特征图大小是3*3*1024，然后是RELU激活函数以及滤波器参数为2*2，步长为2的最大池化层，经过最大池化操作后的特征维度大小是1*1*1024；接着是第五个卷积层，其输入通道是1024，输出通道是分类图像的种类个数，最后接着softmax分类层，用于计算输出属于每一类的概率。

4.根据权利要求3所述的一种半监督深度学习的表面缺陷分类方法，其特征在于，所述注意力模块的计算过程包括：

M_c＝sigmoid(W_i(BN(F₁))

其中，BN层的计算方式为：

其中，μB和σ²B分别表示输入特征的平均值和方差，ε是辅助参数，防止分母为0；λ是比例因子，β是位移因子，这两个参数的取值会随着网络训练更新优化；B_in为BN层的输入特征，B_out为BN层的输出特征；

权重W_i的计算方式为：

5.根据权利要求4所述的一种半监督深度学习的表面缺陷分类方法，其特征在于，所述S5中学生网络的初始化包括：使用Xavier进行权值初始化，其中初始权值采用标准差为sqrt(2/(n_in+n_out))，均值为0的正态分布，其中n_in和n_out分别为每一层输入神经网络的数量和输出神经网络的数量。

6.根据权利要求5所述的一种半监督深度学习的表面缺陷分类方法，其特征在于，所述S6中将学生网络的网络架构和权重参数复制一份作为教师网络。

7.根据权利要求1所述的一种半监督深度学习的表面缺陷分类方法，其特征在于，所述S7中定义当前叙述的是t时刻的训练流程，包括以下步骤：

8.根据权利要求7所述的一种半监督深度学习的表面缺陷分类方法，其特征在于，所述S73中学习效果预估包括以下步骤：

T_t(c)＝M(β_t(c))×τ

9.根据权利要求7所述的一种半监督深度学习的表面缺陷分类方法，其特征在于，所述S73中动态阈值计算包括：取教师网络预测结果q_u中的最大值，如果其最大值超过β_t(c),β_t(c)表示当前时刻c类别的阈值，c类别为最大值所属的类别，那么认为该样本的预测结果和其真实标签是一致的，将保留这个样本参与无标签数据损失项的计算，否则，本次训练将抛弃该样本，不允许该样本参与当前步骤训练。

10.根据权利要求7所述的一种半监督深度学习的表面缺陷分类方法，其特征在于，所述S73中CFL损失函数计算包括：

总体计算公式为：

CFL(p,y)＝ξL_hc+(1-ξ)L_lc

其中：L_lc＝-(1-p_t)^γ(log(p_t))；

随训练epoch变化的参数：