CN116109613A

CN116109613A - 一种基于分布表征的缺陷检测方法和系统

Info

Publication number: CN116109613A
Application number: CN202310163563.1A
Authority: CN
Inventors: 李斌; 李鹤; 牛拴龙; 王苗; 刘保辉; 柳春浩
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-05-12

Abstract

本发明公开了一种基于分布表征的缺陷检测方法和系统，属于工业产品缺陷检测技术领域。本发明针对简单随机采样在缺陷样本量少的工业数据集上容易产生分布偏差的问题，本发明设计分布表征网络获取数据分布作为数据集拆分的理论依据；同时综合考虑了距离因素和密度因素，距离因素能够有效控制在整个数据分布上的各个区域中进行采样，保证样本区域采样的全面性，密度因素能够根据样本的聚集程度自适应调节样本采样的数量，保证抽取的样本均匀性。本发明能够有效保证拆分子集数据分布的一致性，有助于促进模型更稳定的性能表现以及更低达的分类误差。

Description

一种基于分布表征的缺陷检测方法和系统

技术领域

本发明属于工业产品缺陷检测技术领域，更具体地，涉及一种基于分布表征的缺陷检测方法和系统。

背景技术

缺陷检测对于监控生产过程和保障产品质量有着重要作用。随着深度学习在计算机领域的飞速发展，许多人员将图像分类、语义分割和目标检测等技术用于工业产品表面缺陷检测，相比于传统手工设计提取特征的方法取得了长足进步。数据拆分是深度学习模型开发中的一个基础而又重要的环节，其将数据集采样为训练集、测试集和验证集。需要注意的是数据拆分过程中引入额外的偏差会对模型性能产生显著影响，因此应尽可能保证训练集和测试集独立同分布，这样模型在测试集样本上的性能度量才能准确反应模型的泛化误差，从而获得真实可靠的性能评估。

目前使用最广泛的数据拆分方法仍然是简单随机采样。在样本数量多，图像多样性丰富的大型公有数据集上，依据概率论中心极限定理，随机拆分就能满足训练集和测试集在数据分布的一致性。而在工业场景中，生产线上产品合格率通常能达到99％以上，异常数据量少。随机拆分容易导致训练集、测试集在数据分布上差异过大而不能同等代表问题域，在多次数据拆分中无法保持模型性能的稳定，无法评估模型的真实性能。因此，随机拆分难以满足小型工业图像数据集拆分的需求，研究一种新的工业数据集拆分方法是非常必要的。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于分布表征的缺陷检测方法和系统，其目的在于解决随机拆分容易导致训练集、测试集在数据分布上差异过大而不能同等代表问题域，在多次数据拆分中无法保持模型性能稳定的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于分布表征的缺陷检测方法，包括：

S1.对工业图像数据集进行正常图像和缺陷类别图像标记；

S2.对标记的工业图像数据集图像进行多次数据增强，将来自同一张图像的两次增强视图作为正样本对，而来自不同图像的增强视图则作为负样本对；

S3.构建分布表征网络；所述分布表征网络包括编码器和投影头；所述编码器用于提取图像特征，将增强视图映射到潜在空间；所述投影头用于将编码器提取的图像特征进一步映射到单位超球面；

S4.将正样本对和负样本对输入分布表征网络，将标签先验信息引入对比损失作为损失函数迭代训练所述分布表征网络；

S5.将工业图像数据集输入训练好的分布表征模型，得到数据分布；所述数据分布中的表征向量与数据集中的每个图像一一对应；

S6.将所有表征向量划分为多个邻域：对向量间的特征差异进行量化，将特征差异小于设定阈值的向量划分为同一邻域；

S7.采样各个邻域的中心点，并根据邻域内样本的聚集程度确定各个邻域采样样本的数量α，在每个邻域中再次采样α个样本；将各个邻域的中心点以及α个样本点对应的图像构成测试集；

S8.将剩余图像作为训练集；并在剩余图像上重复步骤S6-S7得到验证集。

S9.利用划分的训练集、测试集和验证集进行缺陷检测。

进一步地，每一次数据增强具体过程为：

从数据变换空间中同等概率选取多种图像变换方式，对数据集图像进行初步数据增强；所述数据变换空间中包含像素值反转、直方图均衡化、随机涂抹、旋转、高斯模糊和仿射变换；

对初步增强的数据集图像进行常规的数据变换；常规的数据变换包括固定顺序的随机裁剪并归一化大小，随机水平翻转，改变图像属性和随机转换为灰度图。

进一步地，迭代训练所述分布表征网络的损失函数为：

C(i)是向量v_i对应所有正样本的集合，i∈B＝{1，2，3...2N}是批次B中2N个增强视图的序号，v_i＝g(f(x_i))为投影头输出的表示向量，(i，j)为一组正样本对的序号，1_(k≠i)为指示函数当且仅当k≠i时值为1，τ为温度参数，sim(v_i，v_j)＝v_i·v_j/||v_i||||v_j||为余弦相似度函数。

进一步地，分布表征网络训练过程中，采用轮廓系数作为分布表征质量评价指标，当其达到设定阈值，终止迭代训练。

进一步地，以表征向量x^*为中心的邻域N_∈(x^*)满足：

N_∈(x^*)＝{x_i∈D|dist(x_i，x^*)≤∈}

其中，dist(·)为距离度量函数用于将表示向量间的特征差异数值化，D＝{x₁，x₂，...，x_n}为表征向量的集合，∈为设定的距离阈值。

进一步地，根据邻域内样本的聚集程度确定各个邻域采样样本的数量α的计算方式为：

其中ρ：0＜ρ＜1表示密度变量，调节ρ可以控制每个邻域内采样的密度，round为四舍五入取整函数，MinVecs为设定的阈值，|N_∈(x)|体现了邻域中样本的聚集程度。

本发明还提供了一种基于分布表征的缺陷检测系统，包括：

图像标记模块，用于对工业图像数据集进行正常图像和缺陷类别图像标记；

数据增强模块，对标记的工业图像数据集图像进行多次数据增强，将来自同一张图像的两次增强视图作为正样本对，而来自不同图像的增强视图则作为负样本对；

分布表征网络构建模块；用于构建分布表征网络；所述分布表征网络包括编码器和投影头；所述编码器用于提取图像特征，将增强视图映射到潜在空间；所述投影头用于将编码器提取的图像特征进一步映射到单位超球面；

分布表征网络训练模块，用于将正样本对和负样本对输入分布表征网络，将标签先验信息引入对比损失作为损失函数迭代训练所述分布表征网络；

数据分布获取模块，用于将工业图像数据集输入训练好的分布表征模型，得到数据分布；所述数据分布中的表征向量与数据集中的每个图像一一对应；

邻域划分模块，用于将所有表征向量划分为多个邻域：对向量间的特征差异进行量化，将特征差异小于设定阈值的向量划分为同一邻域；

第一数据集拆分模块，用于采样各个邻域的中心点，并根据邻域内样本的聚集程度确定各个邻域采样样本的数量α，在每个邻域中再次采样α个样本；将各个邻域的中心点以及α个样本点对应的图像构成测试集；

第二数据集拆分模块，用于将剩余图像作为训练集；并在剩余图像上执行邻域划分模块和采样模块的处理过程得到验证集；

缺陷检测模块，利用划分的训练集、测试集和验证集进行缺陷检测。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

(1)本发明针对简单随机采样在缺陷样本量少的工业数据集上容易产生分布偏差的问题，本发明设计分布表征网络获取数据分布作为数据集拆分的理论依据；同时综合考虑了距离因素和密度因素，距离因素能够有效控制在整个数据分布上的各个区域中进行采样，保证样本区域采样的全面性，密度因素能够根据样本的聚集程度自适应调节样本采样的数量，保证抽取的样本均匀性，能够有效保证训练集和测试集数据分布上的一致性，克服数据拆分过程中引入潜在的偏差，获得更稳定的模型和更可靠的模型性能评估。

(2)本发明通过丰富多样的数据变换方式，对图像进行更强的数据变换，能够生成更多的有难度的负例，促使模型更全面的提取特征。

(3)本发明采用对比损失并将标签类别信息作为先验知识引入损失函数，来引导和约束分布表征网络特征的提取，能够减少模型训练样本的数量以及加强和后续缺陷检测任务的联系。

(4)本发明具有很好的泛化性和可迁移性，可适用于不同的工业图像数据集，无需进行繁琐的超参数优化，只需要在新的数据集上训练分布表征模型即可，涉及的超参数根据数据集拆分比例即可轻松确定。

附图说明

图1为本发明提供的一种新颖的基于分布表征的两阶段工业数据集拆分方法流程图；

图2为本发明实施例构建的工业图像数据集部分图像数据示意图。

图3为本发明构建的数据增强模块以及分布表征网络的示意图；

图4中(a)-(c)为本发明设计的拆分策略示意图；

图5为本发明实施例的记录了20次拆分实验中模型分类错误率的箱线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于分布表征的缺陷检测方法包括以下步骤，核心过程参考图1：

(1)数据集构建

由于本发明主要任务目标是拆分数据集，整个数据集需参与分布表征模型训练，因此训练前不需要拆分为训练集和测试集。所有图像归一化处理，像素大小为512x512，并对所有图像进行图像级标注，标记类别为正常图像和细分的缺陷类别图像，部分数据集图像见图2，三个数据集样本量及类别数见表1。

表1数据集样本量及类别数

数据集	样本量	类别数
			NEU	1800	6
OCC	3300	4
			MTD	1344	6

(2)数据增强

本发明数据增强的目的在于生成同一图像两个不同的增强视图，其包括一个常规的数据变换

一个更强的数据变换

详细信息见图3中(a)，包括以下步骤：

(2-1)常规的数据变换方式

由固定顺序的随机裁剪、水平翻转、图像属性(亮度、对比度、饱和度和色相)改变和转换为灰度图组成，常规变换主要改变的是图像的位置和大小。

(2-2)选择像素值反转、直方图均衡化、随机涂抹以及常规变换中未包含的旋转、高斯模糊等7种数据变换方式构建数据变换空间，每次同等概率从其中选取两种数据变换方式组成

依据排列组合可知

有着

种组合方式。

(2-3)将

插入到

前来对图像进行更强的数据变换，提高变换多样性，生成更多的有难度的负例，促使模型更全面的提取特征，如图3中(a)示，输入图像x依次经过

和

成两个增强视图x_i，x_j。

(3)构建分布表征网络。分布表征网络用于将输入数据映射到低维空间，其包括一个编码器和一个投影头。

(3-1)构建编码器f(·)，编码器将经过数据增强模块的视图投影到图像特征信息丰富的潜在空间

编码器可以选择各种主流的特征提取模型，考虑工业数据集样本数量和模型特征提取能力，本发明编码器采用ResNet-50(不包含最后用于分类的全连接层)。

(3-2)构建投影头g(·)，投影头为一个多层感知机，作为一个可选的实施例，本发明将其设置为具有单个大小为2048的隐藏层，将编码器提取的图像特征进一步映射到对比损失空间

输出空间为一个128维的单位超球面。

(4)模型迭代训练；包括对比损失，以及引入标签先验知识。

(4-1)构建对比损失，其目标是减少正样本对之间的差异，增大负样本对之间的距离来学习分布表示，计算公式如下。

其中i∈B＝{1，2，3...2N}是批次B中2N个增强视图的序号，v_i＝g(f(x_i))为投影头输出的表示向量，(i，j)为一组正样本对的序号，1_(k≠i)为指示函数当且仅当k≠i时值为1，τ为温度参数，sim(v_i，v_j)＝v_i·v_j/||v_i||||v_j||为余弦相似度函数。

(4-2)将标签先验信息引入对比损失，来引导和约束特征的提取，来减少模型训练样本的数量以及加强和后续缺陷检测任务的联系，通过标签信息获取批次中与当前图像属于同一类别的样本，并将其增强视图加入到正例中，最终损失函数如下：

其中C(i)是向量v_i对应所有正样本的集合。

(4-3)对样本数量为N的数据集中的图像随机排序，进行平均分配，每批次图像数量为256张。

(4-4)输入数据分批依次进入数据增强模块，数据增强模块对每一张图像进行两次增强生成2个相关的增强视图，因此总的训练图像数量为2N。

(4-5)训练图像分批依次输入模型，当一个批次中所有样本梯度下降数值计算完成后，进行网络参数权值的更新。重复上述过程直至所有批次样本更新完成，再进行下一轮迭代。

本发明采用轮廓系数(SC)作为模型的表征质量的评价指标，计算公式如下：

其中a(i)表示向量i到它所属簇中所有其他样本的平均距离，b(i)表示向量i到与其距离最近的簇中样本的平均距离，s(i)∈[-1,1]为样本轮廓系数，集合的轮廓系数是所有样本轮廓系数的平均值。轮廓系数使用样本之间的相似性度量来评估簇的密集与分散程度，很好的契合分布表征网络的表征质量评估的要求，计算SC值能够有效监控分布表征网络的训练进程，来确保分布表征网络获取的数据分布质量达到所设定的阈值。

(4-6)每迭代20次，用SC评价指标对当前训练模型进行评估，当SC值达到阈值0.3，停止训练。

(5)如图3中(b)，整个数据集不经过数据增强模块，直接送入训练好的表征模型，获得分布表征向量，表征向量和样本一一对应，从而获得整个数据集的数据分布。

(6)在数据分布表示的基础上对数据集进行拆分，包括两个采样过程，依据距离因素采样和依据密度因素采样。

(6-1)依据距离因素采样(如图4中(a)-(b)所示)，假设图4中(a)为获取的数据分布，随机抽取一个向量点并求出其邻域，在剩余的表征向量中重复这个过程直到所有表征向量点都包含于某一个邻域内。当∈取较小值时，形成的邻域范围较小，可以认为邻域中样本的特征是相近的。控制距离变量∈并选取每一个邻域的中心点，保证抽取的样本均匀分布在超球面的各个区域。

(6-2)依据密度因素采样(如图4中(b)-图4中(c)所示)，遍历(6-1)中的每一个邻域，当邻域内向量点数量超过设定的阈值MinVecs时，再从邻域中随机抽取α个样本。

(6-3)将步骤(6-1)和(6-2)中采样的向量点对应的样本挑选出来组成测试集，数据集中剩余的样本为训练集，至此完成对数据集的拆分。

数据集拆分评价。

首先对拆分所得的训练集和测试集之间的数据分布差异进行评价，评价指标为MMD(maximum mean discrepancy)和EMD(earth mover’s distance)。

在训练集中应用本发明进一步拆分出验证集，最终的训练集，验证集和测试集样本量的比例为6：2：2，当模型在验证集上表现最佳时取测试集上的错误率作为最终结果。为进一步比较，再调换训练集和测试集，保持验证集不变，再做一组实验。

在数据集拆分结果上搭建缺陷分类模型进行测试，由于本发明关注的是数据拆分方法而非网络结构的有效性，为了更明显的观察到数据拆分带来的影响，选用最常用的ResNet并遵循一般的设置，使用分类误差和标准差评价拆分方法对模型性能的影响。

为充分验证方法有效性和保证实验的准确性，上述完整的实验步骤独立重复20次并记录实验数据。表2和表3分别为提出方法和简单随机采样(SRS)方法拆分所得训练集和测试集数据分布的MMD和EMD距离的均值和方差。

表2MMD和EMD距离的均值的定量比较

表3MMD和EMD距离的标准差的定量比较

通过表2和表3的结果，本发明的方法MMD及EMD距离均值和标准差均明显低于SRS方法。低的距离均值表明划分的训练集和测试集的数据分布是基本一致的，低的标准差表明所提划分方法各次划分之间数据分布差异的可变性低，稳定性好。相反，随机划分方法距离均值和标准差明显高于所提方法，SRS拆分结果的数据分布的差异大，同时各次划分结果的可变性大，稳定性差。

其次是缺陷分类结果的比较，表4和表5分别显示了20次划分结果上训练的模型的测试误差均值和标准差，图5中(a)-(c)为箱线图记录了20次测试误差的结果。本发明方法的数据集划分结果上缺陷分类模型性能的可变性低，稳定性好，能得到更准确的性能评价。而在随机划分结果上，模型性能高度可变，极不稳定，产生错误的性能评估。

表4模型分类误差均值的定量比较

表5模型分类误差标准差的定量比较

综上，本发明主要包括工业图像数据集收集，标记图像类别，数据增强模块和数据增强空间设计，分布表征网络设计，模型优化目标构建和标签先验知识的引入，最优模型选择，拆分策略设计，以此完成工业数据集的拆分。本发明首先通过设计的分布表征网络(DRN)并引入标签先验知识来准确获取待拆分数据集的数据分布。随后，用提议的拆分策略DDS对获取的表示向量进行拆分获得最终数据拆分结果。结果表明，本发明有着低的MMD和EMD距离，表明所提方法能够有效保证训练集和测试集数据分布的一致性，同时有着更低的分类误差和标准差，表明能得到更稳定的模型和更准确的性能评价。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分布表征的缺陷检测方法，其特征在于，包括：

S1.对工业图像数据集进行正常图像和缺陷类别图像标记；

S8.将剩余图像作为训练集；并在剩余图像上重复步骤S6-S7得到验证集；

S9.利用划分的训练集、测试集和验证集进行缺陷检测。

2.根据权利要求1所述的一种基于分布表征的缺陷检测方法，其特征在于，每一次数据增强具体过程为：

3.根据权利要求2所述的一种基于分布表征的缺陷检测方法，其特征在于，迭代训练所述分布表征网络的损失函数为：

C(i)是向量v_i对应所有正样本的集合，i∈B＝{1,2,3…2N}是批次B中2N个增强视图的序号，v_i＝g(f(x_i))为投影头输出的表示向量，(i,j)为一组正样本对的序号，1_(k≠i)为指示函数当且仅当k≠i时值为1，τ为温度参数，sim(v_i,v_j)＝v_i·v_j/||v_i||||v_j||为余弦相似度函数。

4.根据权利要求3所述的一种基于分布表征的缺陷检测方法，其特征在于，分布表征网络训练过程中，采用轮廓系数作为分布表征质量评价指标，当其达到设定阈值，终止迭代训练。

5.根据权利要求1所述的一种基于分布表征的缺陷检测方法，其特征在于，以表征向量x^*为中心的邻域N_∈(x^*)满足：

N_∈(x^*)＝{x_i∈D|dist(x_i,x^*)≤∈}

其中，dist(·)为距离度量函数用于将表示向量间的特征差异数值化，D＝{x₁,x₂,…,x_n}为表征向量的集合，∈为设定的距离阈值。

6.根据权利要求1所述的一种基于分布表征的缺陷检测方法，其特征在于，根据邻域内样本的聚集程度确定各个邻域采样样本的数量α的计算方式为：

其中ρ：0<ρ<1表示密度变量，调节ρ可以控制每个邻域内采样的密度，round为四舍五入取整函数，MinVecs为设定的阈值，|N_∈(x)|体现了邻域中样本的聚集程度。

7.一种基于分布表征的缺陷检测系统，其特征在于，包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1至5任一项所述的一种基于分布表征的缺陷检测方法。