CN117853492A

CN117853492A - 一种基于融合模型的智能化工业缺陷检测方法及系统

Info

Publication number: CN117853492A
Application number: CN202410263242.3A
Authority: CN
Inventors: 陈宇; 郭晶晶
Original assignee: Xiamen Weitu Software Technology Co ltd; Xiamen Weiya Intelligent Technology Co ltd
Current assignee: Xiamen Weitu Software Technology Co ltd; Xiamen Weiya Intelligent Technology Co ltd
Priority date: 2024-03-08
Filing date: 2024-03-08
Publication date: 2024-04-09

Abstract

本发明提供了一种基于融合模型的智能化工业缺陷检测方法及系统，首先通过本地化基础模型获取数据的区域位置感知标记，其次通过视觉语言表示学习基础模型获得数据的图像级语义特征。之后，通过注意力机制在图像和文本之间进行了重构和深度融合挖掘基础模型的协同潜力，结合以上获得的区域位置感知标记以及图像级语义特征，使检测模型具有语言感知能力。最后，通过余弦相似度损失函数来监督损失分数。从而构成一个强大高效且轻量的区域识别架构。本发明将工作中心仅集中在轻量级的知识集成模块，实现在较少参数量的高效训练，能够处理未知类别或标签，在测试时不仅仅可以识别已知类别，同时还可以识别未处理或未知的缺陷类别。

Description

一种基于融合模型的智能化工业缺陷检测方法及系统

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于融合模型的智能化工业缺陷检测方法及系统。

背景技术

在工业生产过程中，产品质量的保证至关重要。传统的产品质量检测方法多依赖于人工检查，但这种方法耗时长、成本高且易受主观因素影响，检测结果往往存在不一致性。随着计算机视觉和机器学习技术的发展，自动化的缺陷检测方法逐渐被引入到工业生产中，旨在提高检测的速度和准确性。

然而，现有的自动化工业检测技术仍然存在一些局限性。其中，一个主要问题是缺乏灵活性和适应性。工业生产中的缺陷类型多种多样，并且新的缺陷类型可能会随着时间而出现。许多基于深度学习的检测系统在处理未见过的缺陷类型时可能会失效，尤其是在缺少相应标注数据的情况下。此外，深度学习模型通常需要大量的计算资源，这对于资源有限的生产环境是不利的。

另一个问题是，单一的模型可能在某些特定类型的缺陷检测上性能出众，但在其他类型上表现平庸。这是由于单一模型可能无法同时捕捉到所有相关的特征和模式。此外，现有系统往往忽略了生产过程中生成的文本信息，如操作员的备注、机器日志等，这些信息对于完整理解生产状况和潜在的缺陷原因至关重要。

发明内容

有鉴于此，针对以上问题，本发明的目的在于提出一种基于融合模型的智能化工业缺陷检测方法及系统，继承了本地化基础模型、视觉语言表示基础模型、注意力机制和余弦相似度损失函数，能够在保证高性能的同时，减少对计算资源的需求，并实现快速、准确地检测生产线上的缺陷，本发明能够快速适应新出现的缺陷类型，同时利用生产过程中的图像和文本数据提供更全面的检测。此外，为了在有限的硬件条件下运行，通过模型轻量化优化计算效率。

基于上述目的，第一方面，本发明提供了一种基于融合模型的智能化工业缺陷检测方法，包括以下步骤：

采集工业产品表面的图像数据，使用本地化基础模型处理图像数据，获取潜在缺陷的区域位置感知标记；

通过视觉语言表示学习基础模型，获得图像数据的图像级语义特征；

使用注意力机制重构和深度融合图像和缺陷描述文本信息，将区域位置感知标记和图像级语义特征相结合，通过神经网络处理使基础模型获得对缺陷描述的语言感知能力；

通过余弦相似度损失函数来量化基础模型预测与实际标签之间的差异，在标注数据集上训练基础模型，使用余弦相似度损失函数指导基础模型学习，以辨识缺陷的位置和类型；

将训练好的基础模型部署到生产线，对新的工业产品图像进行自动检测，识别缺陷类型，并根据区域位置感知标记定位缺陷。

作为本发明的进一步方案，获取潜在缺陷的区域位置感知标记时，使用ResNet50网络作为骨干网络对输入图像进行特征提取，图像通过ResNet50后，得到降维后的特征图，将特征图输入到Transformer模型获得区域位置感知标记。

作为本发明的进一步方案，使用ResNet50网络作为骨干网络对输入图像进行特征提取，包括以下步骤：

图像输入到ResNet50网络中，经过尺寸调整后输出特征图；

将特征图输入到一个1x1的卷积层进行降维，得到降维后的特征图。

作为本发明的进一步方案，将特征图输入到Transformer模型获得区域位置感知标记，包括以下步骤：

将降维后的特征图变形并输入到Transformer编码器中，获取固定维度的编码器输出特征；

构建可学习的区域位置感知标记P，并使用多头注意力机制进行处理，以指导模型关注潜在的物体存在区域。

作为本发明的进一步方案，通过文本编码器和图像编码器，获得图像数据的图像级语义特征，其中，采用EfficientNet作为图像编码器来获取图像特征；文本编码器中使用语言表征模型BERT编码器得到语义表征，并接入带有激活函数的全连接层来匹配图像特征维度。

作为本发明的进一步方案，获得图像数据的图像级语义特征时，图像－文本对比损失为：

文本－图像对比损失为：

其中，和/>分别表示第i个图像和第j个文本的归一化嵌入；N表示训练时设置的批次大小；/>表示训练时的Temperature系数；式中，将/>为第i个图像的图像级语义特征，统一记为V。

作为本发明的进一步方案，使用注意力机制重构和深度融合图像和缺陷描述文本信息时，使用注意力机制建立区域位置感知标记和图像级语义特征之间的关联，关联公式为：

其中，P为本文1部分中获取的区域级位置感知标记，表示经过线性变换后的P；与/>为经过线性变换后的V；C表示/>的维度。

作为本发明的进一步方案，通过余弦相似度损失函数来量化基础模型预测与实际标签之间的差异，包括：

将区域级位置感知标记与图像级语义特征两两组合，计算余弦相似度，并计算每一组两两特征向量的相似度，其中，计算余弦相似度的公式为：

式中，表示第z个图像的语义级特征，/>表示第s个区域位置感知标记，分别对/>和/>进行线性投影并进行/>归一化得到维度相同的两两特征/>和；

余弦相似度损失的公式为：

。

第二方面，本发明提供了一种基于融合模型的智能化工业缺陷检测系统，包括：

图像采集单元：用于采集工业产品表面的实时图像数据；

图像处理单元：用于通过使用本地化基础模型对采集到的图像数据进行特征提取，获取潜在缺陷的区域位置感知标记；

视觉语言融合单元：用于通过视觉语言表示学习基础模型，获得图像数据的图像级语义特征；

注意力机制单元：用于使用注意力机制重构和深度融合图像和缺陷描述文本信息；将区域位置感知标记和图像级语义特征相结合，通过神经网络处理使基础模型获得对缺陷描述的语言感知能力；

损失函数计算单元：用于通过余弦相似度损失函数来量化基础模型预测与实际标签之间的差异，在标注数据集上训练基础模型，使用余弦相似度损失函数指导基础模型学习，以辨识缺陷的位置和类型；

自动检测单元：将训练好的基础模型部署到生产线，对新的工业产品图像进行自动检测，识别缺陷类型，并根据区域位置感知标记定位缺陷。

作为本发明的进一步方案，所述基于融合模型的智能化工业缺陷检测系统，还包括：

用户界面（UI）：用于提供一个界面供操作人员监控检测结果，调整参数和接收系统报警；

控制系统单元：用于接收检测结果，并根据缺陷的类型和位置，自动调整生产线或通知维修人员。

本发明的又一方面，还提供了一种计算机设备，包括存储器和处理器，该存储器中存储有计算机程序，该计算机程序被处理器执行时执行上述任一项根据本发明的基于融合模型的智能化工业缺陷检测方法。

本发明的再一方面，还提供了一种计算机可读存储介质，存储有计算机程序指令，该计算机程序指令被执行时实现上述任一项根据本发明的基于融合模型的智能化工业缺陷检测方法。

与现有技术相比较而言，本发明提出的一种基于融合模型的智能化工业缺陷检测方法及系统，具有以下有益效果：

1.提高了检测准确性：结合了深度学习中的CNN模型和Transformer模型的注意力机制，使系统能够准确识别缺陷的位置和类型，降低误报和漏报率。深度特征提取时，使用ResNet50和EfficientNet作为特征提取器，可以捕捉到图像的深层次特征；区域位置感知标记时，通过Transformer模型能够生成精细的区域位置感知标记，有助于识别出潜在存在缺陷的区域，从而提高准确性。

2.优化了缺陷检测效率：通过模型融合将不同模型获得的特征进行结合，可以利用各个模型的优势，提高缺陷检测的效率和准确度。通过余弦相似度损失函数引导模型学习，可以在有限的标注数据上实现高效训练，减少了大量数据标注的需求，降低减少训练难度。在训练过程中，基础模型保持冻结状态，可以重用预训练的模型，只需训练顶层结构，从而节省了大量的计算资源和时间。

3.减少了误检率：通过最小化正样本对的距离和最大化负样本对的距离，能够使得模型更加准确地区分出缺陷与非缺陷区域，减少误检。整个缺陷检测流程实现自动化，减少了人工介入，降低了劳动成本和人为错误，提高了生产效率。

4.提高泛化能力：将图像与文本信息融合，使系统不仅仅依赖图像信息，还结合了文本信息，可以帮助模型理解更复杂的缺陷背景和类型，进而提高在不同工业环境中的泛化能力，能够适应多种不同的工业场景和产品类型。

5.实时检测，降低延迟：由于基础模型不需要从头开始训练，并且在检测阶段的计算量得到优化，这使得系统可以实现实时检测，对于生产线上的即时质量控制至关重要，能够在生产线上实时监控工业产品质量，快速响应并定位缺陷，有效避免次品流入市场。

6.增强语义理解能力：利用视觉语言表示学习模型，系统不仅能够识别图像中的缺陷，还能理解与缺陷相关的描述性文本信息，提供更丰富的语义理解。

综上所述，本发明的基于融合模型的智能化工业缺陷检测方法及系统，通过集成多种模型和技术，能有效提升工业生产过程中的缺陷检测质量、效率和自动化水平，具有重要的实用价值和广泛的应用前景。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

在图中：

图1为本发明实施例的基于融合模型的智能化工业缺陷检测方法的流程图。

图2为本发明实施例的基于融合模型的智能化工业缺陷检测方法中获得区域位置感知标记的结构图。

图3为本发明实施例的基于融合模型的智能化工业缺陷检测方法中获取数据的图像级语义特征的结构图。

图4为本发明实施例的基于融合模型的智能化工业缺陷检测方法中通过多头注意力机制建立关联的结构图。

图5为本发明实施例的基于融合模型的智能化工业缺陷检测方法及系统的完整架构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称的非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备固有的其他步骤或单元。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

由于在工业缺陷检测领域，检测场景的多元和缺陷场景的多样化，导致同质缺陷的表示特征会随着时间和场景的变化发生繁杂多样的变化。这一现象导致分布漂移现象的产生，需要不断更新和维护标注文件以兼容不断变化的缺陷表征特征，从而增加了常规采用标注文件进行缺陷学习识别的检测方法的训练成本以及标注成本。这对检测场景的快速迁移和缺陷标注以及模型训练的开销都存在着考验。

为了解决以上限制，最大化减少训练开销保证模型稳健性，在显著性能改进的同时大量的节约计算资源。本发明提出了一种基于融合模型的智能化工业缺陷检测方法及系统，通过融合基础模型在不同层面的优势中的协同潜力，引入一种高效的架构。本发明有效集成融合了视觉语言基础模型和本地化基础模型来解决区域级视觉表示，通过较少的计算资源消耗来达到高效的性能实现工业检测场景模型架构的快速迁移。

本发明提出了一种基于融合模型的智能化工业缺陷检测方法及系统，充分利用不同基础模型的区域位置感知和图像级语义信息的融合，将工作中心仅集中在轻量级的知识集成模块，实现在较少参数量的高效训练，能够处理未知类别或标签，在测试时不仅仅可以识别已知类别，同时还可以识别未处理或未知的缺陷类别。

本发明的实施例提供了一种基于融合模型的智能化工业缺陷检测方法，主要包括四部分：首先通过本地化基础模型获取数据的区域位置感知标记，其次通过视觉语言表示学习基础模型获得数据的图像级语义特征。之后，通过注意力机制在图像和文本之间进行了重构和深度融合挖掘基础模型的协同潜力，结合以上获得的区域位置感知标记以及图像级语义特征，使检测模型具有语言感知能力。最后，通过余弦相似度损失函数来监督损失分数。从而构成一个强大高效且轻量的区域识别架构。

参见图1所示，本发明提供了一种基于融合模型的智能化工业缺陷检测方法，包括以下步骤：

步骤S10、采集工业产品表面的图像数据，使用本地化基础模型处理图像数据，获取潜在缺陷的区域位置感知标记；

步骤S20、通过视觉语言表示学习基础模型，获得图像数据的图像级语义特征；

步骤S30、使用注意力机制重构和深度融合图像和缺陷描述文本信息，将区域位置感知标记和图像级语义特征相结合，通过神经网络处理使基础模型获得对缺陷描述的语言感知能力；

步骤S40、通过余弦相似度损失函数来量化基础模型预测与实际标签之间的差异，在标注数据集上训练基础模型，使用余弦相似度损失函数指导基础模型学习，以辨识缺陷的位置和类型；

步骤S50、将训练好的基础模型部署到生产线，对新的工业产品图像进行自动检测，识别缺陷类型，并根据区域位置感知标记定位缺陷。

在本实施例中，在步骤S10中，获取潜在缺陷的区域位置感知标记时，使用ResNet50网络作为骨干网络对输入图像进行特征提取，图像通过ResNet50后，得到降维后的特征图，将特征图输入到Transformer模型获得区域位置感知标记。

其中，使用ResNet50网络作为骨干网络对输入图像进行特征提取，包括以下步骤：

图像输入到ResNet50网络中，经过尺寸调整后输出特征图；

其中，将特征图输入到Transformer模型获得区域位置感知标记，包括以下步骤：

在本实施例中，在步骤S10中，获取区域位置感知标记时，通过骨干网络进行特征提取，并通过Transformer模型获得区域位置感知标记。其中，特征提取时可采用任意卷积神经网络来进行图像特征表示的抽取。本实施例中采用ResNet50为例。具体流程如下：

（1）将图像数据中图像的长宽分别用来表示，将/>的图像输入到ResNet50网络中，经过5次每次所见为原尺寸的/>后，输出，维度变化为/>的特征图；

（2）将特征图输入到的卷积层对特征图进行降维，降维后的特征图维度为。

在本实施例中，参见图2所示，通过Transformer模型获得区域位置感知标记时，由于已经获得了降维后的特征图，接下来需要将特征图输入到Transformer模型获得区域位置感知标记，具体步骤如下：

（1）将降维后的维度为的特征图作为输入，并将其变形（Reshape操作）为/>大小输入到Transformer编码器，Transformer在网络中采用固定的向量维度。经过Transformer的输入会被映射至固定的向量维度，这种映射方式被称为Parch embedding。因此经过编码器输出同维度大小的编码器输出特征。

（2）假设构建00 （物体区域）个维度为256的物体区域位置感知标记P，其中区域位置感知标记为多头注意力（MSA）的输入，区域位置感知标记为可学习的嵌入，在模型初始时为随机初始化的一组随机数，随着模型的训练而可学习的变化。其作用为引导transformer的解码器在图像中哪些区域为潜在的可能会有物体存在的区域。

参见图3所示，在步骤S20中，获取数据的图像级语义特征时，由图像和文本两个编码器构成。其中文本编码器Text Encoder基于Text Transformer模型构成；图像编码器Image Encoder基于EfficientNet模型构成。

在本实施例中，采用EfficientNet作为图像编码器来获取图像特征。通过增大输入图片的分辨率以及增大神经网络的深度，获取更丰富的学习和表达来提取图像特征。在实际应用中一张图像可以包含多个跨类别的对象，包含上下文的集成信息。因此为充分结合文本与图像信息，将输入图片直接变形（Reshape）为输入。

其中，只采用EfficientNet作为图像编码器来获取图像特征，所以需要去掉分类头中的的卷积层，经由全局池化层作为图像特征输出。

在本实施例中，文本编码器中使用语言表征模型BERT编码器得到语义表征，并接入带有激活函数的全连接层来匹配图像特征维度。其中为了匹配图像编码器获取到的图像特征维度，在编码器顶端接入一个带有激活函数的全连接层来匹配图像特征维度。

获取数据的图像级语义特征这一部分，需要输入图像文本进行微调训练，这一部分主要需要优化图像－文本对的对比损失和文本－图像对的对比，通过最小化图像－文本和文本－图像间的距离，最大化不相关图像－文本和文本－图像距离，来学习文本与图像间的视觉语言表示。

在本实施例中，获得图像数据的图像级语义特征时，图像－文本对比损失为：

文本－图像对比损失为：

在本实施例中，在步骤S30中，区域位置感知标记以及图像级语义特征的关联时，通过引入不同基础模型获取的不同特征进行结合的框架，从集成模型的角度来解决区域级的视觉理解，同时，该框架不需要从头训练，在训练过程中只需要迭代本部分即可，不需要采用消耗过大的基础模型进行从头训练，基础模型在此阶段保持“冻结”状态。因此该创新部分在优化效率上也有了显著的优势。具体实现过程步骤如下：

（1）使用注意力机制建立区域位置感知标记和图像级语义特征之间的关联，关联公式为：

其中，P为本文1部分中获取的区域级位置感知标记，表示经过线性变换后的P；与/>为经过线性变换后的V；C表示/>的维度。通过多头注意力机制建立关联的结构图参见图4所示。

在本实施例中，将区域级位置感知标记与图像级语义特征两两组合，计算其余弦相似度，从而计算每一组两两特征向量的相似度。

其中，计算余弦相似度的公式为：

余弦相似度损失参见图5所示，对角线为正样本对其余为负样本对，训练目标为最小化正样本对得余弦相似度损失最大化非正样本对余弦相似度损失。余弦相似度损失的公式为：

。

综上所述，本发明从当前工业领域缺陷检测的检测场景快速迁移需求出发提出的一种基于融合模型的智能化工业缺陷检测方法，集成了基础模型的区域位置感知和图像级语义信息。同时规避了基础模型需要大量计算资源成本的问题，最大化的减小了训练中的参数量实现了只迭代局部模块的轻量级知识集成模块，在较少参数量和节约大量计算资源的前提下，实现高性能。从而达到可满足工业快速迁移迭代的高效缺陷检测架构。

需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应该理解的是，上述虽然是按照某一顺序描述的，但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，本实施例的一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本发明实施例的第二个方面，本发明还提供了一种基于融合模型的智能化工业缺陷检测系统，包括：

图像采集单元：用于采集工业产品表面的实时图像数据；

其中，所述基于融合模型的智能化工业缺陷检测系统，还包括：

本发明的基于融合模型的智能化工业缺陷检测系统，采用了多种深度学习模型，如ResNet50和EfficientNet，结合Transformer等结构，实现了特征提取和缺陷识别的高效融合。本发明的工业缺陷检测系统不仅仅依赖于图像数据的深度学习处理，还包括了自然语言处理技术，以处理和结合相关的文本描述或注释，提供更全面的缺陷检测。通过优化的模型和算法设计，系统可以在工业生产线上实现自动化和实时的缺陷检测，提高生产效率并减少延误。本发明的系统支持微调训练，能够根据新的数据样本自我优化，增强模型的适应性和泛化能力。利用对比损失函数和精细的区域位置感知标记，系统能够显著减少误检和漏检率，提高检测的准确性。通过基础模型的“冻结”和模块化设计使得系统在节省计算资源的同时，还能够减少人工检查成本，提高整体经济效益。通过分析累积的检测数据，系统可以为企业提供数据驱动的洞察，辅助决策，优化生产流程。模块化的设计方法使得系统容易根据不同的应用场景进行扩展或定制，提供了良好的灵活性。

本发明的智能化工业缺陷检测系统能够在多种工业生产环境中提供高效、准确且可靠的自动化检测解决方案，从而帮助企业提高产品质量，优化生产流程，降低生产成本。

本发明实施例的第三个方面，还提供了一种计算机设备，包括存储器和处理器，该存储器中存储有计算机程序，该计算机程序被该处理器执行时实现上述任意一项实施例的方法。

在该计算机设备中包括一个处理器以及一个存储器，并还可以包括：输入系统和输出系统。处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，输入系统可接收输入的数字或字符信息，以及产生与基于融合模型的智能化工业缺陷检测的迁移有关的信号输入。输出系统可包括显示屏等显示设备。

存储器作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的基于融合模型的智能化工业缺陷检测方法对应的程序指令/模块。存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储基于融合模型的智能化工业缺陷检测方法的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据。本实施例计算机设备的多个计算机设备的处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的基于融合模型的智能化工业缺陷检测方法的步骤。

应当理解，在相互不冲突的情况下，以上针对根据本发明的基于融合模型的智能化工业缺陷检测方法阐述的所有实施方式、特征和优势同样地适用于根据本发明的基于融合模型的智能化工业缺陷检测和存储介质。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

最后需要说明的是，本文的计算机可读存储介质（例如，存储器）可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦写可编程ROM（EEPROM）或快闪存储器。易失性存储器可以包括随机存取存储器（RAM），该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM 可以以多种形式获得，比如同步RAM（DRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据速率SDRAM（DDRSDRAM）、增强SDRAM（ESDRAM）、同步链路DRAM（SLDRAM）、以及直接Rambus RAM（DRRAM）。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行：通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围（包括权利要求）被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种基于融合模型的智能化工业缺陷检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于融合模型的智能化工业缺陷检测方法，其特征在于，获取潜在缺陷的区域位置感知标记时，使用ResNet50网络作为骨干网络对输入图像进行特征提取，图像通过ResNet50后，得到降维后的特征图，将特征图输入到Transformer模型获得区域位置感知标记。

3.根据权利要求2所述的基于融合模型的智能化工业缺陷检测方法，其特征在于，使用ResNet50网络作为骨干网络对输入图像进行特征提取，包括以下步骤：

图像输入到ResNet50网络中，经过尺寸调整后输出特征图；

4.根据权利要求3所述的基于融合模型的智能化工业缺陷检测方法，其特征在于，将特征图输入到Transformer模型获得区域位置感知标记，包括以下步骤：

5.根据权利要求4所述的基于融合模型的智能化工业缺陷检测方法，其特征在于，通过文本编码器和图像编码器，获得图像数据的图像级语义特征，其中，采用EfficientNet作为图像编码器来获取图像特征；文本编码器中使用语言表征模型BERT编码器得到语义表征，并接入带有激活函数的全连接层来匹配图像特征维度。

6.根据权利要求5所述的基于融合模型的智能化工业缺陷检测方法，其特征在于，获得图像数据的图像级语义特征时，图像－文本对比损失为：

文本－图像对比损失为：

7.根据权利要求6所述的基于融合模型的智能化工业缺陷检测方法，其特征在于，使用注意力机制重构和深度融合图像和缺陷描述文本信息时，使用注意力机制建立区域位置感知标记和图像级语义特征之间的关联，关联公式为：

其中，P为本文1部分中获取的区域级位置感知标记，表示经过线性变换后的P；/>与为经过线性变换后的V；C表示/>的维度。

8.根据权利要求7所述的基于融合模型的智能化工业缺陷检测方法，其特征在于，通过余弦相似度损失函数来量化基础模型预测与实际标签之间的差异，包括：

式中，表示第z个图像的语义级特征，/> 表示第s个区域位置感知标记，分别对/>和进行线性投影并进行/>归一化得到维度相同的两两特征/>和；

余弦相似度损失的公式为：

。

9.一种基于融合模型的智能化工业缺陷检测系统，其特征在于，用于执行权利要求1-8任一项所述的基于融合模型的智能化工业缺陷检测方法，所述基于融合模型的智能化工业缺陷检测系统包括：

图像采集单元：用于采集工业产品表面的实时图像数据；

10.根据权利要求9所述的基于融合模型的智能化工业缺陷检测系统，其特征在于，所述基于融合模型的智能化工业缺陷检测系统，还包括：

用户界面：用于提供一个界面供操作人员监控检测结果，调整参数和接收系统报警；