CN118196027A

CN118196027A - 一种缺陷检测方法、多模态融合网络及设备

Info

Publication number: CN118196027A
Application number: CN202410290896.5A
Authority: CN
Inventors: 沈卫明; 姜雨欣; 程育奇; 张天航
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-06-14

Abstract

本发明属于工业图像处理相关技术领域，其公开了一种缺陷检测方法、多模态融合网络及设备，包括以下步骤：基于自注意机制、视觉的相似性图及文本引导的相似图得到注意力矩阵；将注意力矩阵以通道方式叠加成注意力图，并基于注意力图进行融合得到视觉信息及文本信息，进而用损失函数对分割子模块进行训练，并基于训练后的分割子模块得到像素级缺陷定位结果；其中，训练过程中引入真值掩膜作为参考标签，分割子模块的输入为融合得到的视觉信息及文本信息。本发明通过多模态注意力融合方式来实现文本特征与视觉特征的融合，以有效捕获两种模态的互补信息，避免多模态融合期间出现特征干扰。

Description

一种缺陷检测方法、多模态融合网络及设备

技术领域

本发明属于工业图像处理相关技术领域，更具体地，涉及一种缺陷检测方法、多模态融合网络及设备。

背景技术

随着工业的浪潮涌动，数字化、信息化和智能化已经成为工业制造的重要趋势。在工业生产中，表面缺陷检测，在改善产品质量、增加产品的可靠性和合格率方面显得尤为关键。传统的缺陷检测依赖于人工的经验，通过目视进行产品检查。然而，由于视觉疲劳、环境干扰和个体差异等因素的影响，检测的效率和质量无法得到充分保证。为了应对这些挑战，许多企业选择采用机器视觉技术来进行工业缺陷检测。机器视觉借助计算机视觉系统模拟人类的感知能力，在工业生产领域具备广泛的应用潜力。该技术通过光学设备如摄像头拍摄产品图像，随后利用图像处理算法对拍摄图像进行分析和识别，进而辨别产品表面的缺陷。

然而在真实工业检测场景中应用图像缺陷检测方法面临独特的挑战。首先，获取大量缺陷数据，无论是标记的还是未标记的，都被认为是一项具有挑战性的任务。其次，在各种产品类别中收集全面且多样化的正常数据需要大量资源和时间。因此，仅利用有限正常数据的小样本缺陷检测，被认为是解决这些挑战的有效方法。

在小样本缺陷检测领域，提出了两种不同的框架：基于视觉的框架和文本引导的框架。如图1中的(a)所示，基于视觉的框架主要利用从RGB图像中提取的视觉信息，如纹理和语义，生成紧凑的正常原型，这些原型常用作定位缺陷的模板。然而，由于在训练过程中网络对真实缺陷的接触有限，该框架缺乏对缺陷固有特征的全面理解，导致正常实例和缺陷实例之间的决策边界不清晰。

最近的研究越来越专注于一种文本引导的框架，该框架利用在大规模数据集下预训练好的视觉语言模型来检测缺陷。这种方法旨在获取关于缺陷属性的先验知识，从而解决缺陷样本稀缺性带来的挑战。如图1中的(b)所示，文本引导的框架利用视觉语言模型，将文本信息与视觉特征相结合，从而提取出用于缺陷识别的常识信息。该框架在处理已知和未知对象类别方面表现出显著的性能，从而解决了缺陷检测中遇到的缺陷多样性问题。然而，尽管这些文本引导模型在识别常见对象方面表现出色，但它们可能缺乏对待检测对象的特定领域知识。此外，在当前的文本引导框架中，最终的缺陷定位结果是通过直接拼接基于视觉的预测和文本引导的预测得出的。然而，由于多模态特征中存在的潜在干扰，这种直接拼接会削弱缺陷定位性能。

总而言之，缺陷检测是工业质量检测中的关键一环。然而，目前基于视觉的小样本缺陷检测算法容易出现构造的正常特征空间松散，而文本引导的小样本缺陷检测算法缺乏特定领域的信息以及有效的多模态融合策略，无法精确定位缺陷等问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种缺陷检测方法、多模态融合网络及设备，其通过多模态注意力融合方式来实现文本特征与视觉特征的融合，以有效捕获两种模态的互补信息，避免多模态融合期间出现特征干扰。

为实现上述目的，按照本发明的一个方面，提供了一种缺陷检测方法，该方法包括以下步骤：

基于自注意机制、视觉的相似性图及文本引导的相似图得到注意力矩阵；将注意力矩阵以通道方式叠加成注意力图，并基于注意力图进行融合得到视觉信息及文本信息，进而用损失函数对分割子模块进行训练，并基于训练后的分割子模块得到像素级缺陷定位结果；其中，训练过程中引入真值掩膜作为参考标签，分割子模块的输入为融合得到的视觉信息及文本信息。

进一步地，获得注意力矩阵之前还包括以下步骤：构建包含多种缺陷样本的缺陷数据样本集，采用自适应CLIP编码器从缺陷数据样本集中提取文本特征和视觉特征，进而得到视觉的相似性图及文本引导的相似图；其中，自适应CLIP编码器包括文本编码器及视觉编码器，视觉编码器及文本编码器的输出端分别连接有图像适配器及文本适配器。

进一步地，采用正常特征紧凑度损失函数在预设半径r内压缩正常样本，其利用最近邻搜索来找到第k个距离正常特征最近的原型特征P^k，正常特征被嵌入到P^k的附近，半径r作为识别缺陷的阈值，正常特征紧凑度损失函数为：

式中，预定义的距离度量表示为D(.,.)，被用来衡量特征空间中样本之间的不同和相似性；特征补丁的数量表示为N，原型特征数量定义为K；ij代表特定位置的坐标；为在(i,j)处的正常特征块；/>为在(i,j)处第k个距离正常特征最近的原型特征块。

进一步地，使用缺陷特征分离损失函数将缺陷特征从正常簇中推开，缺陷特征分离损失函数为：

式中，特征补丁的数量表示为N，原型特征数量定义为K；ij代表特定位置的坐标；α为半径松弛系数；预定义的距离度量表示为D(.,.)，为在(i,j)处的异常特征块；/>为在(i,j)处第k个距离异常特征最近的原型特征块。

进一步地，采用多类型缺陷合成模块生成4种类型的缺陷，并将将4种类型的缺陷合成到一张图片上，进而形成包含多种缺陷样本的缺陷数据样本集；4种类型的缺陷分别为结构错位型缺陷、裂痕缺陷、模糊型缺陷及噪声型缺陷。

进一步地，结构错位型缺陷是通过剪切和粘贴操作生成的；裂痕型缺陷为合成多个各种形状、长度和大小的裂痕状掩模，然后将这些掩模叠加到原始正常样本的前景上，从而模拟物体表面出现裂缝或划痕的外观；模糊型缺陷为通过应用高斯模糊在图像中模拟模糊区域；噪声型缺陷是通过向特定区域添加各种形式的噪声引入的。

进一步地，通过对提取特征F_v和原型特征P^k进行比较计算基于视觉的特征相似性图，对应的公式为：

基于文本特征F_t计算文本引导的相似性图，所采用的计算公式为：

式中，预定义的距离度量表示为D(.,.)；为提取的视觉特征。

本发明还提供了一种多模态融合网络，所述多模态融合网络包括多模态注意力融合模块，所述多模态注意力融合模块包括自注意机制子模块、融合子模块及分割子模块；

所述自注意机制子模块用于基于自注意机制、视觉的相似性图及文本引导的相似图得到注意力矩阵；

所述融合子模块用于将注意力矩阵以通道方式叠加成注意力图，并基于注意力图进行融合得到视觉信息及文本信息；

所述分割子模块是被采用损失函数进行训练的，训练过程中引入真值掩膜作为参考标签，分割子模块的输入为融合得到的视觉信息及文本信息，其用于生成像素级缺陷定位结果。

本发明还提供了一种计算机可读存储介，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上所述的缺陷检测方法。

本发明还提供了一种缺陷检测系统，所述系统包括存储器及处理器，所述存储器储存有计算机程序，所述处理器执行所述计算机程序时执行如上所述的缺陷检测方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，本发明提供的缺陷检测方法、多模态融合网络及设备主要具有以下有益效果：

1.本发明通过多模态注意力融合模块来实现文本特征与视觉特征的融合，促进了对两种缺陷理解形式的整合，避免了多模态融合期间出现特征干扰，提高了鲁棒性。

2.构建包含多种缺陷样本的缺陷数据样本集，采用自适应CLIP编码器从缺陷数据样本集中提取文本特征和视觉特征，进而得到视觉的相似性图及文本引导的相似图，如此引入了多种缺陷，增强了缺陷外观的多样性，缺陷合成与自适应的CLIP视觉编码器结合使用，使其弥合域差异问题，从而产生更具判别性的特征原型。

3.视觉编码器及文本编码器的输出端分别连接有图像适配器及文本适配器，图像适配器的设置使得配饰过程中保持视觉编码器除了图像适配器之外的其他结构冻结的同时训练图像适配器，从而实现从CLIP的嵌入空间到特定域空间的编码特征转移；将文本编码器的输出端设置文本适配器，即一个MLP层，以改进CLIP文本编码器获取的文本特征。

4.正常特征紧凑度损失函数用于在预设半径r内压缩正常样本，使用了缺陷特征分离损失函数有效将缺陷特征从正常簇中推开，正常特征紧凑度损失函数及缺陷特征分离损失函数共同作用以使正常原型特征紧凑并在正常样本和缺陷样本之间建立明确的边界，保证了检测缺陷的能力。

5.采用多类型缺陷合成模块生成4种类型的缺陷，并将4种类型的缺陷合成到一张图片上，如此会对缺陷有更强的理解能力，更容易泛化到真实的异常样本。

6.结构错位型缺陷是通过剪切和粘贴操作生成的，其中一些补丁随机从原始样本中剪切，然后放置在不同的位置。这个过程有效地模拟了结构错位和语义不规则，同时保留了样本固有的纹理。

7.通过将视觉特征与特征原型进行比较生成基于视觉的相似性图，基于视觉的相似性图中包含了关键的领域特定缺陷知识。

8.所述缺陷检测方法可以在工业制造和质量控制领域发挥重要作用，提高了产品质量和生产效率。

附图说明

图1中的(a)、(b)、(c)分别是基于视觉的缺陷检测框架图、基于文本的缺陷检测框架图及本发明提供的多模态融合的框架图；

图2是本发明提供的以合成缺陷为基础的多模态融合网络的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

请参阅图1及图2，本发明提供了一种缺陷检测方法，所述缺陷检测方法涉及两种模态流：视觉和文本。在视觉流中，引入了多种缺陷，增强了缺陷外观的多样性。缺陷合成与自适应的CLIP视觉编码器结合使用，使其弥合域差异问题，从而产生更具判别性的特征原型。通过将视觉特征与特征原型进行比较生成基于视觉的相似性图，基于视觉的相似性图中包含了关键的领域特定缺陷知识。同时，在文本流中，本实施方式使用自适应的CLIP文本编码器从与正常缺陷与合成缺陷样本相关的描述中提取文本信息。通过将文本特征与视觉特征进行比较，以获得文本引导的相似性图，这提供了对缺陷的先验理解。为了有效融合基于视觉的相似性图及文本引导的相似性图，采用了一个多模态注意力融合模块，该多模态注意力融合模块首先对基于视觉的相似性图及文本引导的相似性图应用自注意机制，随后将生成的注意力矩阵拼接起来，通过融合进一步处理以促进信息整合；最后，融合后的特征经过分割处理以生成细粒度的缺陷定位结果。

所述方法主要包括以下步骤：

步骤一，构建包含多种缺陷样本的缺陷数据样本集。

改善缺陷检测对先前未见数据的泛化能力的关键在于增加训练数据的丰富度，使其包括各种缺陷类型。多样化的缺陷数据有助于网络全面了解缺陷属性，包括图案、形状、纹理和空间分布。本实施方式中，采用多类型缺陷合成模块生成4种类型的缺陷，并将4种类型的缺陷合成到一张图片上，如此会对缺陷有更强的理解能力，更容易泛化到真实的异常样本。

4种类型的缺陷分别为结构错位型缺陷、裂痕缺陷、模糊型缺陷及噪声型缺陷。其中，结构错位型缺陷是通过剪切和粘贴操作生成的，其中一些补丁随机从原始样本中剪切，然后放置在不同的位置。这个过程有效地模拟了结构错位和语义不规则，同时保留了样本固有的纹理。

裂痕型缺陷涉及合成多个各种形状、长度和大小的裂痕状掩模，并且具有与正常模式一致的纹理，然后将这些掩模叠加到原始正常样本的前景上，从而模拟物体表面出现裂缝或划痕的外观。

模糊型缺陷涉及通过应用高斯模糊在图像中模拟模糊区域，这模拟了图像退化和模糊，通常由于物体细节不清晰或遮挡引起。

噪声型缺陷是通过向特定区域添加各种形式的噪声(例如均匀噪声、正分布噪声或高斯噪声)引入的，这有效地模拟传感器故障或信号干扰的影响。

步骤二，采用自适应CLIP编码器从缺陷数据样本集中提取文本特征和视觉特征；其中，自适应CLIP编码器包括文本编码器及视觉编码器，视觉编码器及文本编码器的输出端分别连接有图像适配器及文本适配器。

CLIP的视觉编码器具有丰富的语义理解能力，使其适合直接部署在工业缺陷检测中。然而，由于预训练数据集与目标工业图像之间固有的领域差距，这个视觉编码器提取的特征可能缺乏足够的描述能力。为此，本实施方式在视觉编码器的输出端设置了图像适配器，图像适配器的设置使得配饰过程中保持视觉编码器除了图像适配器之外的其他结构冻结的同时训练图像适配器，从而实现从CLIP的嵌入空间到特定域空间的编码特征转移。对于图像自适应CLIP视觉编码器产生了一个c维特征图，表示为其中l表示这些特征是由视觉编码器中的第l阶段提取的。对于正常图像x_n，提取的正常特征表示为/>对于合成缺陷图像x_a，提取的缺陷特征表示为这两组特征对于生成有辨别性的视觉原型至关重要。

视觉原型最初通过对所有阶段在通道级别聚合的正常特征的拼接进行平均得到。然而，初始原型在紧凑性方面存在不足，从而影响了其准确检测缺陷的能力。为了使正常原型特征紧凑并在正常样本和缺陷样本之间建立明确的边界，使用了两个损失函数，分别为正常特征紧凑度损失函数及缺陷特征分离损失函数。

正常特征紧凑度损失函数用于在预设半径r内压缩正常样本。具体来说，它利用最近邻搜索来找到第k个距离正常特征最近的原型特征P^k，正常特征被嵌入到P^k的附近，半径r作为识别缺陷的阈值。正常特征紧凑度损失函数定义为：

式中，预定义的距离度量表示为D(.,.)，被用来衡量特征空间中样本之间的不同和相似性。特征补丁的数量，表示为N，等于h×w，原型特征数量定义为K。

为进一步细化已建立的边界，使用了缺陷特征分离损失函数，其目标是有效将缺陷特征从正常簇中推开。缺陷特征分离损失函数定义为：

获取代表性原型P^k后，通过对提取特征F_v和原型特征P^k进行比较计算基于视觉的特征相似性图，用于定量评估像素为缺陷的概率，公式如下：

在另一个实施方式中，还进一步利用CLIP的文本编码器所具有的强大泛化能力，为了解决前面提到的领域差距，将文本编码器的输出端设置文本适配器，即一个MLP层，以改进CLIP文本编码器获取的文本特征。通过将文本描述输入到自适应文本编码器中获得文本特征然后使用以下公式计算文本引导的相似性图：

步骤三，基于自注意机制、视觉的相似性图及文本引导的相似图得到注意力矩阵；将注意力矩阵以通道方式叠加成注意力图，并基于注意力图进行融合得到视觉信息及文本信息，进而用损失函数对分割子模块进行训练，并基于训练后的分割子模块得到像素级缺陷定位结果；其中，训练过程中引入真值掩膜作为参考标签，分割子模块的输入为融合得到的视觉信息及文本信息。

在现有的文本引导框架中，直接将基于视觉和文本引导的预测进行拼接和平均以获取最终的缺陷定位结果可能会导致性能下降，因为多模态特征之间可能存在潜在的干扰。因此，为了促进多模态特征表示的集成并获得对缺陷的更全面理解，本实施方式引入了一个多模态注意力融合模块。

采用多模态注意力融合模块对文本特征及视觉特征进行融合，进而进行缺陷定位。所述多模态注意力融合模块包括自注意机制子模块、融合子模块及分割子模块。所述自注意机制子模块用于自基于视觉的相似性图及文本引导的相似性图中捕获不同区域或者特征的相对重要性和相关性，进而得到注意力矩阵。所述融合子模块的输入为融合的注意力图，其采用卷积、归一化和ReLU激活函数对输入进行融合得到视觉信息及文本信息。所述分割子模块的输入为所述融合子模块融合得到的视觉信息及文本信息，采用损失函数对分割子模块进行训练，并用训练好的分割子模块分割得到像素级缺陷定位结果。

其中，自注意机制子模块用于自基于视觉和文本引导的相似性图中捕获不同区域或特征的相对重要性和相关性。具体来说，本实施方式使用卷积层将基于视觉和文本引导的相似性图分别转化为查询特征Q_ij，类似地，通过类似的操作获得键特征K_ij和值特征V_ij，然后使用以下过程计算注意力矩阵：

式中，A_ij(S)是注意力矩阵，突出对定位异常有重要贡献的判别性区域，c^′是一个缩放因子。此外，本实施方式将将基于视觉的注意力矩阵定义为文本引导的注意力矩阵定义为/>

融合子模块定义为F，其利用卷积、批量归一化和ReLU激活函数有效地集成不同模态的特征。从自注意机制中获得的和/>注意力矩阵以通道方式叠加，形成一个融合的注意力图，以作为融合块的输入。随后的融合过程采用卷积、批量归一化和ReLU激活函数以整合视觉和文本信息。这种方法不仅增强了模型识别和分析合成缺陷的能力，还使其能够泛化到以前未见的缺陷。

所述分割子模块定义为S，采用类似FPN的网络，旨在生成细粒度的缺陷定位图。所述分割子模块以从融合子模块获取的融合特征为输入，为了增强对缺陷特征的理解，通过在整个训练阶段引入地面真值掩膜来为像素提供指导。这些真值掩膜作为参考标签，赋予分割子模块捕获缺陷的独特属性的能力。使用损失函数对分割子模块进行训练，基于训练后的分割子模块生成像素级缺陷分数图，指示个别像素被归类为缺陷的可能性。对应的分割损失函数为：

式中，M_ij和分别是输出的缺陷分割和地面真值掩模；concat(,)函数表示通道级别的连接操作，而Upsample函数用于插值输出以匹配输入样本的分辨率。

本发明还提供了一种多模态融合网络，所述多模态融合网络包括所述多类型缺陷合成模块、所述自适应CLIP编码器及所述多模态注意力融合模块。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上所述的缺陷检测方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种缺陷检测方法，该方法包括以下步骤：

2.如权利要求1所述的缺陷检测方法，其特征在于：获得注意力矩阵之前还包括以下步骤：构建包含多种缺陷样本的缺陷数据样本集，采用自适应CLIP编码器从缺陷数据样本集中提取文本特征和视觉特征，进而得到视觉的相似性图及文本引导的相似图；其中，自适应CLIP编码器包括文本编码器及视觉编码器，视觉编码器及文本编码器的输出端分别连接有图像适配器及文本适配器。

3.如权利要求2所述的缺陷检测方法，其特征在于：采用正常特征紧凑度损失函数在预设半径r内压缩正常样本，其利用最近邻搜索来找到第k个距离正常特征最近的原型特征P^k，正常特征被嵌入到P^k的附近，半径r作为识别缺陷的阈值，正常特征紧凑度损失函数为：

4.如权利要求2所述的缺陷检测方法，其特征在于：使用缺陷特征分离损失函数将缺陷特征从正常簇中推开，缺陷特征分离损失函数为：

式中，特征补丁的数量表示为N，原型特征数量定义为K；i j代表特定位置的坐标；α为半径松弛系数；预定义的距离度量表示为D(.,.)，为在(i,j)处的异常特征块；/>为在(i,j)处第k个距离异常特征最近的原型特征块。

5.如权利要求2所述的缺陷检测方法，其特征在于：采用多类型缺陷合成模块生成4种类型的缺陷，并将将4种类型的缺陷合成到一张图片上，进而形成包含多种缺陷样本的缺陷数据样本集；4种类型的缺陷分别为结构错位型缺陷、裂痕缺陷、模糊型缺陷及噪声型缺陷。

6.如权利要求5所述的缺陷检测方法，其特征在于：结构错位型缺陷是通过剪切和粘贴操作生成的；裂痕型缺陷为合成多个各种形状、长度和大小的裂痕状掩模，然后将这些掩模叠加到原始正常样本的前景上，从而模拟物体表面出现裂缝或划痕的外观；模糊型缺陷为通过应用高斯模糊在图像中模拟模糊区域；噪声型缺陷是通过向特定区域添加各种形式的噪声引入的。

7.如权利要求1-6任一项所述的缺陷检测方法，其特征在于：通过对提取特征F_v和原型特征P^k进行比较计算基于视觉的特征相似性图，对应的公式为：

式中，预定义的距离度量表示为D(.,.)；为提取的视觉特征。

8.一种多模态融合网络，其特征在于：所述多模态融合网络包括多模态注意力融合模块，所述多模态注意力融合模块包括自注意机制子模块、融合子模块及分割子模块；

9.一种计算机可读存储介，其特征在于：所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-7任一项所述的缺陷检测方法。

10.一种缺陷检测系统，其特征在于：所述系统包括存储器及处理器，所述存储器储存有计算机程序，所述处理器执行所述计算机程序时执行权利要求1-7任一项所述的缺陷检测方法。