CN117635553A

CN117635553A - 一种基于人机混合策略的工业表面缺陷分割方法

Info

Publication number: CN117635553A
Application number: CN202311546462.9A
Authority: CN
Inventors: 张云洲; 单德兴; 金雨昕; 张腾达; 吴支飞; 胡自强; 刘世同
Original assignee: 东北大学
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-03-01

Abstract

本发明属于工业缺陷检测技术领域，提出一种基于人机混合策略的工业表面缺陷分割方法。通过人工输入无缺陷图像或指导文本，构建一个可提示的工业场景缺陷分割任务，基于无缺陷图像指导模块和文本指导模块，以无缺陷的图像或文本作为指导信息，最终获得工业表面缺陷分割结果；对于未见过的工业场景中的未见过的类别，使用无缺陷图像作为指导信息；对于见过的工业场景中见过的类别，使用指导文本作为指导信息。本发明通过以上两种策略该模型可以有效地解决工业缺陷检测领域中缺陷样本稀缺和模型适应性较差的问题，有效提升工业缺陷分割系统的研发周期和研发成本。

Description

一种基于人机混合策略的工业表面缺陷分割方法

技术领域

本发明涉及工业缺陷检测技术领域，尤其涉及一种基于人机混合策略的工业表面缺陷分割方法。

背景技术

工业产品表面经常出现裂纹、污染、孔洞和划痕等。如果这些问题不及时处理，就会影响产品质量和生产安全。快速检测缺陷可确保产品质量并防止安全事故。以往的工业缺陷检测大多需要人工检测，不仅耗时，而且主观性很强。近年来，随着深度学习的兴起，一些作品开始尝试将其应用于缺陷检测。使用深度学习的好处是可以自动提取图像特征，摆脱对人类经验的依赖，可以实现端到端的训练。语义分割是基于深度学习的视觉检测技术之一，由于其能够对缺陷进行像素级分类而受到广泛关注。

当缺陷类型已知并且有足够的注释样本时，工业缺陷分割通常采用监督方法。经典分割网络的启发，缺陷分割的主要思想是融合多尺度特征或引入注意机制。监督方法可以解决缺陷的多分类问题，适用于大多数缺陷类型已知或缺陷特征明显的情况。尽管标记成本高，但此类方法在样本充足的情况下具有优异的性能，并且这些方法的有效性已在一些实际应用中得到验证。

当缺陷类型未知且标记样本不足时，基于缺陷先验知识的方法有很大的局限性。因此，无监督设置引起了广泛关注。这些方法中的大多数借鉴了异常检测的思想来对易于获取和描述的正常样本进行建模，缺陷被定义为正常范围之外的模式。基于无监督设置的深度学习方法只需要容易获得的正常样本进行模型训练，而无需使用真正的缺陷样本。它不仅可以解决有监督深度学习方法无法发现未知缺陷的问题，而且比传统方法具有更强的图像特征表达能力，因此成为研究热点。

真实的工业场景往往介于上述两种设置之间，不仅可以获得相对充足的无缺陷样本，还可以提前采集少量缺陷样本并进行标注。即使有少量的缺陷样本注释也可以提高检测性能。纯监督和无监督的方法很难充分利用所提供的数据，因此它们不是最好的解决方案。因此，面对样本稀缺、数据不平衡等问题，充分利用充足的无缺陷样本和少量标注有缺陷的样本来设计缺陷分割方法更为合理。

一个可行的方向是“Y.Bao et al.,"Triplet-Graph Reasoning Network forFew-Shot Metal Generic Surface Defect Segmentation,"in IEEE Transactions onInstrumentation and Measurement,vol.70,pp.1-11,2021,Art no.5011111,doi:10.1109/TIM.2021.3083561.”中利用少样本学习的思想来减少模型对大规模数据集的依赖。传统的少样本学习需要正样本和相应的标签作为支持集，通过最大化使用支持集中的少数表示来构造少样本分类器。然而，由于缺陷样本不足、缺陷尺寸小、颜色变化不明显，正样本作为支持图像无法提供足够的引导信息。在工业智能检测领域，有两个问题亟待解决，一是如何将复杂的工业检测专业知识融入算法。第二是如何通过现有产品的先验知识来预测其他未被发现的类似产品。解决这两个问题可以有效地解决样本不足和适应性差的问题。因此，我们提出了一种人机混合策略，通过人工输入易于获得的无缺陷图像或文本作为指导信息来构建可提示的工业场景分割任务。

发明内容

我们提出了一种人机混合策略，通过人工输入无缺陷图像和文本来构建一个可提示的工业场景分割任务，以获得无缺陷的图像或文本作为指导信息。降低缺陷分割算法对大规模数据集的依赖，提升缺陷分割算法的部署效率，减少开发周期。

本发明的技术方案为：一种基于人机混合策略的工业表面缺陷分割方法，通过人工输入无缺陷图像或指导文本，构建一个可提示的工业场景缺陷分割任务，基于视觉-语言模型CLIP获得工业表面缺陷分割结果；所述视觉-语言模型CLIP包括无缺陷图像指导模块和文本指导模块，以无缺陷的图像或指导文本作为指导信息；对于未见过的工业场景中的未见过的类别，使用无缺陷图像作为指导信息；对于见过的工业场景中见过的类别，使用指导文本作为指导信息。

所述无缺陷图像指导模块，以无缺陷图像作为指导信息，通过相关性学习和相关性解码器进行工业表面缺陷结果判定；

所述相关性学习中，根据输入的查询图像和无缺陷图像(X_Q,X_B)，通过权重共享的图像编码器A和图像解码器B分别对查询图像和无缺陷图像(X_Q,X_B)进行特征提取，得到多尺度查询特征和多尺度无缺陷特征其中，p是图像编码器A和图像解码器B中第p层金字塔层；

在每个金字塔层p，通过计算多尺度查询特征和多尺度无缺陷特征之间的余弦相似度，获得相关性图S_p，如式(1)所示：

其中，L_p表示p层金字塔的特征层数，H_p和W_p分别表示p层多尺度查询特征或多尺度无缺陷特征的高和宽。

所述相关性解码器包括多个压缩块，其压缩相关性学习所得相关图的最后两个背景维度，在p＝1，2，3三个尺度的相关图上通过压缩块执行压缩操作。

所述压缩块包括多个残差连接的3D残差卷积网络、融合模块和解码器；所述3D残差卷积网络压缩相关图的最后两个背景维度的背景信息，并对多尺度查询特征的查询维度进行相关性计算，且保持多尺度查询特征大小不变，将相关性图重新调整为/>

其中，σ_p表示压缩块，H_δ和W_δ是压缩后的两个背景维度对应的特征尺寸的高度和宽度；

通过2倍上采样将相邻尺度的相关性图的尺寸进行统一，然后将两种尺度的相关性图逐像素相加；再通过融合模块对不同尺度的关性图进行融合，融合模块2输出张量的最后两个空间维度被压缩为1×1，得到二维特征图

其中，Up表示2倍上采样操作，表示元素求和，H₁和W₁分别表示S'_p的高和宽，f₁和f₂分别表示两个不同的融合模块；

通过二维卷积对相关图进行解码，得到缺陷分割结果P；

其中，Decoder表示解码器，P表示分割结果，H_out和W_out分别是缺陷分割结果的高度和缺陷分割结果的宽度。

所述文本指导模块，通过图像编码器C和文本编码器分别获得视觉查询特征和文本特征，为视觉查询特征每个像素位置分配文本特征中最接近的文本标签，进行工业表面缺陷结果判定；预定义一种组合式的文本模板；

所述视觉查询特征通过图像编码器C获得，图像编码器C将查询图像嵌入到连续向量空间中，产生视觉查询特征/>

其中，表示图像编码器C，Image表示查询图像，H和W分别是视觉查询特征的高和宽；训练过程中，冻结文本编码器，图像编码器C在训练期间更新参数。

所述文本编码器将一组文本嵌入到连续的向量空间中，产生文本特征F_fb＝(F_f,F_b)；

其中，φ表示文本编码器，Text表示文本引导，N＝2表示文本原型的数量，包括前景文本特征F_f和背景文本特征F_b；

所述文本指导模块设有全局自注意机制，位于文本编码器后，用于学习每个文本特征的整体模式，将文本特征与看不见的工业类别的视觉查询特征对齐；全局自注意机制将某个像素位置处的置信度计算为输入文本特征中所有位置处的特征的加权和；

全局自注意机制计算将文本特征嵌入到查询、键和值三元组中：Q、K、分别使用三个多层感知器层MLP进行编码；注意力上下文通过softmax进行归一化，最后，注意力上下文A用于聚合嵌入V的值：

其中P_fb＝(P_f,P_b)表示文本原型，P_f表示前景文本原型，P_b表示背景文本原型，C表示通道数；

计算视觉查询特征的像素(i,j)和文本原型P_fb之间的余弦相似性：

在训练过程中，给定文本原型P_f,P_b∈R^C和视觉查询特征与每个像素位置处的相似性相对应的标签Y_ij，训练目标是最大化每个像素位置(i，j)的相似性；

其中，M_ij、H_out和W_out分别是缺陷分割结果的高度和缺陷分割结果的宽度。

所述组合式的指导文本模板具体为：指导文本的格式为“[material]with[class]defects”；[material]是材料级标签；[class]是类别级标签；背景用“[others]”表示。

本发明的有益效果：本发明提出一种基于人机混合策略的工业缺陷分割方法，该方法参考了现有工业产品的先验知识，并使用人类先验知识作为指导输入，以完成对其他看不见的产品的分割。与使用缺陷图像和相应标签作为引导信息的常规少样本分割方法不同，一是，我们提出了一种无缺陷图像引导策略，通过使用3D残差卷积网络来实现对未见过场景中未见过缺陷类别的分割；二是，发明了一种基于视觉-语言模型(CLIP)的文本指导策略，该策略引入了全局自注意力机制，将文本特征映射到视觉特征空间，人类将文本作为指导信息，引导模型对见过场景中未见过的缺陷类别进行分割。通过以上两种策略该模型可以有效地解决工业缺陷检测领域中缺陷样本稀缺和模型适应性较差的问题，有效提升工业缺陷分割系统的研发周期和研发成本。

附图说明

图1为一种基于人机混合策略的工业表面缺陷分割方法的流程图；

图2为相关性解码器的示意图。

图3为无缺陷图像指导策略下的缺陷分割结果；

图4为文本指导策略下的缺陷分割结果。

具体实施方式

本发明对于对未见过场景中未见过缺陷类别，使用无缺陷图像作为引导信息，在无缺陷图像和查询图像之间建立精确的像素级对应关系，并通过3D残差卷积网络解码相关图。对于对见过场景中未见过缺陷类别，我们提出了通过视觉-语言模型(CLIP)来提取与文本对齐的视觉特征。为了建立更准确的文本引导，我们通过全局自注意获得文本特征的整体模式，并在文本特征和视觉特征之间建立全局引导。大量实验表明，我们提出的方法不需要额外的训练或微调，仅依靠无缺陷的图像和文本作为指导，可以有效地在可见和不可见的场景中分割出以前看不见的缺陷类别。该方法有效地解决了工业领域中有限缺陷样本的挑战。

我们在人类有限信息(无缺陷图像和文本)的指导下，提供了两种用于工业场景中缺陷语义分割的策略，如图1所示。

指导策略1：对于未见过的场景中的未见过的类别，我们使用无缺陷图像作为指导信息。

指导策略2：对于见过的场景中未见过的缺陷类别，我们使用文本作为指导信息。

1.无缺陷图像指导

(1)相关性学习

多尺度特征提取网络，根据所述的查询图像和无缺陷图像(X_Q,X_B)，利用权重共享的图像编码器A和图像解码器B提取多尺度语义相似性，图像编码器A和图像解码器B可以为ResNet主干网络中的ReLU激活函数层；获得多尺度查询特征和多尺度无缺陷特征其中，p是图像编码器A和图像解码器B中第p层金字塔层；

具体为：在每个金字塔层p，通过计算多尺度查询特征和多尺度背景特征之间的余弦相似度，获得初始背景相关张量如式(1)所示：

(2)相关性解码器

我们压缩包含背景信息的相关图的最后两个维度。具体来说，我们在三个尺度的相关图上执行上述操作，相关压缩块(3D残差卷积网络)如图2所示。我们使用3D卷积来压缩背景维度(最后两个维度)，并对查询维度进行相关性计算，但保持特征大小不变。为了便于三维卷积网络的计算，我们将重新整形为/>此外，我们使用多层3D卷积压缩块之间的残差连接来保留更详细的信息。

其中σ_p表示挤压块，H_δ和W_δ是导向尺寸的高度和宽度，H_δ＜＜H_p,W_δ＜＜W_p。通过这个过程，我们逐步压缩背景引导信息，以便在查询维度中进行后续像素级分类。受FPN(特征金字塔网络)的启发，我们融合了不同尺度的相关图，以增强模型捕获多尺度信息的能力。最后，通过两个阶段的融合过程，将输出张量的最后两个空间维度(背景)进一步压缩为1×1，得到二维特征图

其中Up表示上采样操作，表示元素求和，H₁和W₁分别表示两个融合块。

最后，我们通过二维卷积对相关图进行解码，得到缺陷分割结果。

其中Decoder表示解码器，P表示分割结果，H_out和W_out分别是缺陷分割结果的高度和宽度。

2.无缺陷图像指导

(1)文本提示

这项工作的研究目标之一是探索CLIP特征在工业缺陷像素级密集预测任务中的适用性。文本引导模块将文本和图像编码在一起，并为每个像素分配最接近的文本标签。为了更好地定义缺陷的类别，我们提出了一个合成提示集来生成文本模板的预定义列表的所有组合，而不是自由编写定义。提示文本标签包括25类5种材料，提示文本的格式为“有[类]缺陷的[材料]”，其中[材料]和[类]是可选的。[材料]是材料级标签，例如“地毯”，[类别]是类别级标签，如“切割”。除了输入指导文本“具有[类别]缺陷的[材料]”外，还自动包含一个额外的文本“其他”，用于生成背景文本特征。值得注意的是，对于有限人指导的缺陷分割，操作员可以输入文本标签([材料]和[类别])，结合人类的专业知识和判断，提高模型对环境的适应性。我们在实验中没有特别强调缺陷的数量。预先训练的CLIP为缺陷分割任务提供了文本和图像之间的强对齐，并且缺陷的特定定义对于良好的性能是必要的。

(2)视觉查询特征

文本编码器和图像6编码器都是使用CLIP预训练的文本编码器和图像编码器完成的。图像编码器将查询图像嵌入到连续向量空间中，产生向量/>作为输出。

其中表示图像编码器，Image表示查询图像，H和W分别是查询特征图的空间大小。值得注意的是，在训练过程中，由于缺陷数据集中可用的文本数量有限，我们冻结了文本编码器。然而，我们没有冻结图像编码器，允许在训练期间更新参数。这种方法使图像编码器能够主动学习与工业缺陷相关的视觉特征，促进视觉特征和文本特征的对齐。

(3)文本原型

受对比语言图像预训练的启发，我们通过文本编码器将一组文本指南嵌入到连续的向量空间中，产生文本特征F_fb＝(F_f,F_b)。

其中φ表示文本编码器，Text表示文本引导，N＝2表示功能的数量，这些功能是前景文本原型F_f和背景文本原型F_b。此外，我们使用全局自注意机制来学习每个文本特征的整体模式，以更好地将文本特征与看不见的工业类别的视觉特征对齐。全局自注意机制将某个位置处的响应计算为输入特征图中所有位置处的特征的加权和。

具体而言，自注意计算将文本特征嵌入到查询、键和值三元组中：Q、K、分别使用三个MLP(多层感知器)层进行编码。接下来，注意力上下文通过softmax进行归一化。最后，注意力上下文A用于聚合嵌入V的值：

其中P_fb＝(P_f,P_b)表示文本原型，P_f表示前景文本原型，P_b表示背景文本原型，C表示通道数。

(4)文本指导

查询特征是通过图像编码器获得的。我们计算像素(i,j)和文本原型P_fb之间的余弦相似性：

具体来说，在训练过程中，给定文本原型P_f,P_b∈R^C和图像嵌入与每个像素位置处的相似性相对应的标签Y_ij，我们的目标是最大化每个像素位置的相似性。我们通过在整个图像上定义每像素softmax目标来实现这一点：

其中，H_out和W_out分别是缺陷分割结果的高度和宽度。

本发明仅使用无缺陷图像作为引导信息，其达到了35.52％的mIoU。如图3所示，对于背景复杂、对象多的金属缺陷，本发明的分割性能仍然非常接近真值标签。

仅使用文本作为指导信息，其达到了27.70％的mIoU。如图4所示，本发明对于背景和前景之间具有高度相似性的金属缺陷的分割性能仍然非常接近真值标签。

Claims

1.一种基于人机混合策略的工业表面缺陷分割方法，其特征在于，通过人工输入无缺陷图像或指导文本，构建一个可提示的工业场景缺陷分割任务，基于视觉-语言模型CLIP获得工业表面缺陷分割结果；所述视觉-语言模型CLIP包括无缺陷图像指导模块和文本指导模块，以无缺陷的图像或指导文本作为指导信息；对于未见过的工业场景中的未见过的类别，使用无缺陷图像作为指导信息；对于见过的工业场景中见过的类别，使用指导文本作为指导信息。

2.根据权利要求1所述的一种基于人机混合策略的工业表面缺陷分割方法，其特征在于，所述无缺陷图像指导模块，以无缺陷图像作为指导信息，通过相关性学习和相关性解码器进行工业表面缺陷结果判定；

3.根据权利要求2所述的一种基于人机混合策略的工业表面缺陷分割方法，其特征在于，所述相关性解码器包括多个压缩块，其压缩相关性学习所得相关图的最后两个背景维度，在p＝1，2，3三个尺度的相关图上通过压缩块执行压缩操作。

4.根据权利要求3所述的一种基于人机混合策略的工业表面缺陷分割方法，其特征在于，所述压缩块包括多个残差连接的3D残差卷积网络、融合模块和解码器；所述3D残差卷积网络压缩相关图的最后两个背景维度的背景信息，并对多尺度查询特征的查询维度进行相关性计算，且保持多尺度查询特征大小不变，将相关性图重新调整为

通过二维卷积对相关图进行解码，得到缺陷分割结果P；

5.根据权利要求4所述的一种基于人机混合策略的工业表面缺陷分割方法，其特征在于，所述文本指导模块，通过图像编码器C和文本编码器分别获得视觉查询特征和文本特征，为视觉查询特征每个像素位置分配文本特征中最接近的文本标签，进行工业表面缺陷结果判定；预定义一种组合式的文本模板；

6.根据权利要求5所述的一种基于人机混合策略的工业表面缺陷分割方法，其特征在于，所述文本编码器将一组文本嵌入到连续的向量空间中，产生文本特征F_fb＝(F_f,F_b)；

其中φ表示文本编码器，Text表示文本引导，N＝2表示文本原型的数量，包括前景文本特征F_f和背景文本特征F_b；

7.根据权利要求6所述的一种基于人机混合策略的工业表面缺陷分割方法，其特征在于，所述组合式的指导文本模板具体为：指导文本的格式为“[material]with[class]defects”；[material]是材料级标签；[class]是类别级标签；背景用“[others]”表示。