CN116883416B

CN116883416B - 工业产品缺陷的检测方法、装置、设备及介质

Info

Publication number: CN116883416B
Application number: CN202311155303.6A
Authority: CN
Inventors: 吴凯; 林愉欢; 周逸峰; 刘永; 汪铖杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-11-24
Anticipated expiration: 2043-09-08
Also published as: CN116883416A

Abstract

本申请公开了一种工业产品缺陷的检测方法、装置、设备及介质，属于图像处理领域，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。方法包括：获取第一产品图像和第二产品图像，第一产品图像和第二产品图像分别是同一工业产品类别下的无缺陷的工业产品的图像和待检测的工业产品的图像；对第一产品图像和第二产品图像分别进行特征输出，得到第一图像特征和第二图像特征；将第一图像特征和第二图像特征相加，得到第一中间特征；将第一中间特征输入缺陷检测模型，得到推理特征；将推理特征进行上采样，得到第二中间特征；基于第二中间特征，预测得到缺陷所在位置。上述利用大模型的推理能力能实现跨类别的缺陷检测。

Description

工业产品缺陷的检测方法、装置、设备及介质

技术领域

本申请涉及图像处理领域，特别涉及一种工业产品缺陷的检测方法、装置、设备及介质。

背景技术

在工业生产场景中，出于各种原因，生产出的工业产品经常具有各种缺陷。比如，染色后的布匹色泽不均、布匹存在异常白点/黑点、布匹破洞、花纹不一致等。因此，需要对生产出的工业产品进行缺陷检测。

相关技术中，采用建立特征库的方式进行缺陷检测。相关技术获取无缺陷产品的图像，在特征库中存储无缺陷产品的图像的特征，之后，获取待检测产品的图像，若待检测产品的图像的特征不在特征库中，则认为待检测产品存在缺陷。

然而，采用特征库的方式只能适用于单类别产品，当采用特征库进行另一类别产品的缺陷检测时，相关技术需要重新训练模型。

发明内容

本申请提供了一种工业产品缺陷的检测方法、装置、设备及介质，提供了一种基于大模型的缺陷检测架构，缺陷检测架构利用了大模型的推理能力，使得整体架构具备跨类别产品的缺陷检测能力。所述技术方案包括如下内容。

根据本申请的一个方面，提供了一种工业产品缺陷的检测方法，所述方法包括如下步骤。

获取第一产品图像和第二产品图像，所述第一产品图像和所述第二产品图像是同一工业产品类别下的图像，所述第一产品图像是无缺陷的工业产品的图像，所述第二产品图像是待检测的工业产品的图像。

对所述第一产品图像进行特征输出，得到第一图像特征；以及，对所述第二产品图像进行特征输出，得到第二图像特征。

将所述第一图像特征和所述第二图像特征相加，得到第一中间特征；将所述第一中间特征输入缺陷检测模型，得到推理特征，所述缺陷检测模型满足参数数量达到参数量阈值和网络层数达到层数阈值中的至少一种条件，所述缺陷检测模型是根据多个工业产品类别的图像分别训练得到的。

将所述推理特征进行上采样，得到第二中间特征。

基于所述第二中间特征，预测得到所述第二产品图像中缺陷的所在位置。

根据本申请的另一方面，提供了一种工业产品缺陷的检测装置，所述装置包括如下模块。

获取模块，用于获取第一产品图像和第二产品图像，所述第一产品图像和所述第二产品图像是同一工业产品类别下的图像，所述第一产品图像是无缺陷的工业产品的图像，所述第二产品图像是待检测的工业产品的图像。

特征输出模块，用于对所述第一产品图像进行特征输出，得到第一图像特征；以及，对所述第二产品图像进行特征输出，得到第二图像特征。

处理模块，用于将所述第一图像特征和所述第二图像特征相加，得到第一中间特征；将所述第一中间特征输入缺陷检测模型，得到推理特征，所述缺陷检测模型满足参数数量达到参数量阈值和网络层数达到层数阈值中的至少一种条件，所述缺陷检测模型是根据多个工业产品类别的图像分别训练得到的。

所述处理模块，还用于将所述推理特征进行上采样，得到第二中间特征。

预测模块，用于基于所述第二中间特征，预测得到所述第二产品图像中缺陷的所在位置。

根据本申请的一个方面，提供了一种计算机设备，计算机设备包括：处理器和存储器，存储器存储有计算机程序，计算机程序由处理器加载并执行以实现如上的工业产品缺陷的检测方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序由处理器加载并执行以实现如上的工业产品缺陷的检测方法。

根据本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述工业产品缺陷的检测方法。

本申请实施例提供的技术方案带来的有益效果至少包括如下内容。

通过将第一产品图像对应的第一图像特征和第二产品图像对应的第二图像特征相加，得到第一中间特征；将第一中间特征输入缺陷检测模型，得到推理特征；将推理特征进行上采样操作得到第二中间特征；基于第二中间特征预测缺陷的所在位置。缺陷检测模型满足参数数量达到参数量阈值和网络层数达到层数阈值中的至少一种条件，即缺陷检测模型为大模型。

即，本申请提供了一种基于大模型的缺陷检测架构，缺陷检测架构的输入为无缺陷产品图像和待检测产品图像。缺陷检测架构利用了大模型的推理能力，大模型的推理能力使得整体架构具备跨类别产品的缺陷检测能力。相比于相关技术只能针对单类别产品进行缺陷检测，本申请提供的缺陷检测架构具有通用性。

并且，相关技术中每对一个新的产品类别都需要重新训练模型，实际使用过程中，产品更新换代较快（如布匹染色等），每生产一种新类别的产品都需重新训练模型严重耽误了生产进度。本申请提供的缺陷检测架构利用了大模型的推理能力，大模型的推理能力使得整体架构具备跨类别产品的缺陷检测能力，整体的缺陷检测架构无需重新训练部署，无论生产的产品类别如何变化，只要提供无缺陷产品图像和待检测产品图像即可，进而提高了产品的整体生产效率。

并且，缺陷检测模型是根据多个工业产品类别的图像训练得到的，有助于提升缺陷检测模型的泛化性，进而有利于缺陷检测模型执行跨类别的缺陷检测。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是相关技术中通过大模型进行图像检测和图像分割的算法示意图。

图2是本申请一个实施例提供的工业产品缺陷的检测原理的示意图。

图3是本申请一个实施例提供的工业产品缺陷的检测方法的流程图。

图4是本申请一个示例性实施例提供的缺陷检测架构的示意图。

图5是本申请另一个示例性实施例提供的缺陷检测架构的示意图。

图6是本申请一个示例性实施例提供的缺陷检测结果的示意图。

图7是本申请一个示例性实施例提供的缺陷检测模型的训练方法的流程图。

图8是本申请另一个示例性实施例提供的缺陷检测架构的示意图。

图9是本申请一个实施例提供的工业产品缺陷的检测装置的结构框图。

图10是本申请一个实施例提供的计算机设备的结构框图。

图11是本申请另一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍。

人工智能（Artificial Intelligence，AI）：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

无监督异常检测：缺陷检测是工业制造过程的重要环节，最主要的检测手段是仅给出无缺陷产品的图像和待检测产品的图像，让神经网络模型判断待检测产品是否异常。无监督异常检测即指神经网络模型不采用真实的缺陷图像进行训练，神经网络模型的训练样本无需人工标注，模型训练时仅需使用易于获取的正常图像。

大模型：通常指参数量大，网络层数深的模型。大模型是指具有大量参数和计算资源的机器学习模型。这些模型在训练过程中需要大量的数据和计算能力，并且具有数百万到数十亿个参数。大模型的设计目的是为了提高模型的表示能力和性能，在处理复杂任务时能够更好地捕捉数据中的模式和规律。

相关技术中，提供了工业产品的无监督异常检测方法。如PatchCore、DREAM、SimpleNet等都具备根据正常图像推理输入图像是否异常的能力。PatchCore采用特征库进行异常检测，PatchCore的方法会将正常图像的特征存储在特征库中，若输入的待检测图像的特征不在特征库中，则认为待检测图像异常。PatchCore的方式只能适用单类别产品。比如，第一型号的布匹的特征库中不存在波浪花纹，检测时会将波浪花纹视为布匹的缺陷；当生产第二型号的布匹时，第二型号的布匹添加了波浪花纹的设计，此时第一型号的布匹的特征库无法用于第二型号的布匹的缺陷检测。DREAM采用正常图像训练重建的方式，若DREAM中的模型没见过输入的待检测图像的异常区域，则模型无法将待检测图像重建为异常修复后的图像。SimpleNet也采用类似的重建方式，与DREAM的区别在于，SimpleNet考虑的是图像的特征层面，若模型没见过输入的待检测图像的异常特征，则模型无法将异常特征重建为正常特征。

可以理解的是，上述相关技术提供的无监督异常检测方法均无法对没见过的图像进行异常检测，不具有泛化性。上述相关技术只能应用于单类别的图像。

相关技术中，提供了通过大模型进行图像检测和图像分割的算法。比如，Painter和SegGPT将利用给出的一个例子（包含输入图和输出图），通过模仿的方式对新的输入图进行预测，模型输出相应的检测结果和分割结果。示意性的，图1示出了相关技术中Painter提供的模型预测方式，图1的最左侧为给出的任务例子，一个任务例子包含输入图像和输出图像，图1中间为新的输入图像，图1的右侧为模型根据给出的任务例子对新的输入图像进行预测的输出结果。

可以理解的是，相关技术中通过大模型进行图像检测和图像分割，依赖的是大模型的模仿能力，然而，无监督异常检测需要根据给出的正常图像让模型判断待检测图像是否异常，需要推理能力，目前研究尚未拓展至此。

图2是本申请一个示例性实施例提供的工业产品缺陷的检测原理的示意图。图2示出了计算机系统，计算机系统包括缺陷检测架构的使用设备201和缺陷检测架构的训练设备202，训练设备202将训练得到的缺陷检测架构发送至使用设备201，可选的，使用设备201与训练设备202为同一计算机设备。可选的，使用设备201和训练设备202之间通过无线或有线方式进行传输。

图2示出了缺陷检测架构的使用过程210和缺陷检测架构的训练过程220，可选的，采用端到端的方式预测产品图像中缺陷的所在位置。

图2示出了缺陷检测架构的使用过程210。获取第一产品图像211，对第一产品图像211进行特征输出，得到第一图像特征212。以及，获取第二产品图像213，对第二产品图像213进行特征输出，得到第二图像特征214。第一产品图像211和第二产品图像213是同一工业产品类别下的图像，例如，同一型号的布匹。第一产品图像是无缺陷产品的图像（也可称为正常图像、标准图像），第二产品图像是待检测产品的图像。

将第一图像特征212和第二图像特征214相加，得到第一中间特征215。将第一中间特征215输入缺陷检测模型216，输出推理特征217。缺陷检测模型216满足参数数量达到参数量阈值和网络层数达到层数阈值中的至少一种条件，即，缺陷检测模型216为大模型。可选的，缺陷检测模型216为经过测试得到的支持执行通用产品类别的缺陷检测方法的大模型。可以理解的是，缺陷检测模型216用于将待检测产品图像与无缺陷产品图像进行比较，推理特征217即表征对比结果。

将推理特征217进行上采样，得到第二中间特征218，上采样操作用于放大缺陷检测模型216压缩得到的推理特征217的尺寸。基于第二中间特征218，预测得到第二产品图像中缺陷的所在位置219。

图2还示出了缺陷检测架构的训练过程220。获取第四产品图像221，对第四产品图像221进行特征输出，得到第四图像特征222。以及，获取第五产品图像223，对第五产品图像223中的部分区域进行数据增强，得到增强后的第六产品图像224，对第六产品图像224进行特征输出，得到第六图像特征225。第四产品图像221和第五产品图像223是同一工业产品类别下的无缺陷产品的图像。可选的，缺陷检测架构所利用的训练数据来自于多个数据集，多个数据集有利于提升缺陷检测架构在产品类别上的通用性，以实现多类别产品的缺陷检测。

将第四图像特征222和第六图像特征225相加，得到第四中间特征226。将第四中间特征226输入缺陷检测模型216，输出训练特征227。将训练特征227进行上采样，得到第五中间特征228。根据第五中间特征228预测得到第六产品图像中缺陷的所在位置229。基于预测得到第六产品图像中缺陷的所在位置229和进行数据增强的部分区域的所在位置的误差，训练缺陷检测模型216。

可以理解的是，训练过程220将对第五产品图像中的部分区域进行数据增强（如通过其他图像的图像内容覆盖第五产品图像中的部分区域），进而实现了无监督的方式，整个缺陷检测架构实现了无监督异常检测。

还可理解的是，缺陷检测模型216为大模型，本申请即提供了一种基于大模型的用于检测工业产品缺陷的缺陷检测架构，利用大模型的推理能力，缺陷检测架构支持对多类别产品的缺陷进行检测，本申请提供的缺陷检测架构针对产品类别具有通用性。

在上文中，缺陷检测架构的训练设备201和缺陷检测架构的使用设备202可以是具有机器学习能力的计算机设备，计算机设备可以是终端或服务器。

可选的，上述使用设备201和训练设备202可以是同一个计算机设备，或者，使用设备201和训练设备202也可以是不同的计算机设备。并且，当使用设备201和训练设备202是不同的设备时，使用设备201和训练设备202可以是同一类型的设备，比如使用设备201和训练设备202可以都是服务器；或者，使用设备201和训练设备202也可以是不同类型的设备。上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是手机、电脑、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的产品图像都是在充分授权的情况下获取的。

并且，涉及到相关信息的，相关信息处理者会遵循合法、正当、必要的原则，明确相关信息处理的目的、方式和范围，获得相关信息主体的同意，并采取必要的技术和组织措施，保障相关信息的安全。

图3示出了本申请一个示例性实施例提供的工业产品缺陷的检测方法的流程图，以该方法由图2所示的使用设备201执行进行举例说明，该方法包括如下步骤。

步骤310，获取第一产品图像和第二产品图像。

第一产品图像和第二产品图像是同一工业产品类别下的图像。

工业产品类别，是根据工业产品之间的相似程度进行划分得到的。可选的，将同一生产型号的工业产品划分为同一工业产品类别。

可以理解的是，同一型号的工业产品追求的生产目标是生产出完全相同的无缺陷的工业产品，此时将生产出的同一型号的工业产品认为是同一工业产品类别。举例来说，第一型号为包含荷花纹理的标准布匹，第二型号为包含波浪纹理的标准布匹，此时，生产出的第一型号的布匹为同一工业产品类别，生产出的第二型号的布匹为另一工业产品类别。

在工业生产场景中，将存在各种各样的缺陷，因此需要执行缺陷检测。比如说，布匹染色缺陷检测，目标是检测染色后的布匹是否有与客户给出的样品布料不一致的地方，如色泽不均，染色白点黑点，布匹破洞等。由于布匹花纹多变，生产工厂每几天就需要生产不同花纹的布匹。

又比如说，与布匹染色缺陷检测相同，纸板印刷缺陷检测是需要检测印刷后的纸板是否有与客户给出的样品纸板不一致的地方，如色泽不均，白点黑点，纸板破洞缺损等。又由于印刷花纹多变，生产工厂经常需要生产不同花纹的纸板。

第一产品图像是无缺陷的工业产品的图像，需要说明的是，此处的“无缺陷”应认为该产品的缺陷少到可忽略不计，在本申请所要执行的缺陷检测方法中，第一产品图像将作为标准图像用于与待检测产品图像进行对比。

第二产品图像是待检测的工业产品的图像。第二产品图像可以是无缺陷的工业产品的图像，也可以是具有缺陷的工业产品的图像。本申请的目标即是在第二产品图像为具有缺陷的工业产品的图像的情况下，检测出缺陷的所在位置。

需要说明的是，第一产品图像和第二产品图像可以同时获取或不同时获取，本申请对此并不加以限制。

步骤320，对第一产品图像进行特征输出，得到第一图像特征。

可选的，将第一产品图像输入若干卷积层，得到第一图像特征，第一图像特征是第一产品图像的特征表示。

步骤330，对第二产品图像进行特征输出，得到第二图像特征。

可选的，将第二产品图像输入若干卷积层，得到第二图像特征，第二图像特征是第二产品图像的特征表示。

步骤340，将第一图像特征和第二图像特征相加，得到第一中间特征。

第一图像特征和第二图像特征的尺寸相同，将第一图像特征和第二图像特征相加，得到第一中间特征，第一中间特征作为缺陷检测模型的输入特征。

步骤350，将第一中间特征输入缺陷检测模型，得到推理特征。

缺陷检测模型，用于在第一产品图像和第二产品图像中进行对比。推理特征即用于表征第一产品图像和第二产品图像的对比结果。缺陷检测模型满足参数数量达到参数量阈值和网络层数达到层数阈值中的至少一种条件。即，缺陷检测模型为大模型，或者说，缺陷检测模型为大模型的主干网络（主要发挥作用的网络）。

可选的，缺陷检测模型为经过测试得到的支持执行跨产品类别的缺陷检测方法的大模型。可选的，缺陷检测模型为Vit large、Vit Huge等。

缺陷检测模型是根据多个工业产品类别的图像分别训练得到的，即训练缺陷检测模型时，将使用多个类别的产品图像进行训练，有助于提升缺陷检测模型的泛化性，进而有助于提升缺陷检测模型执行跨类别的缺陷检测。

可选的，训练缺陷检测模型的多个工业产品类别的图像来源于多个数据集，例如，同时来自MVTec数据集和ViSA数据集中的图像，这也有助于提升缺陷检测模型执行跨类别的缺陷检测。

步骤360，将推理特征进行上采样，得到第二中间特征。

上采样操作用于放大缺陷检测模型压缩得到的推理特征的尺寸。

步骤370，基于第二中间特征，预测得到第二产品图像中缺陷的所在位置。

在一个实施例中，将第二中间特征的通道数压缩为三，即红绿蓝三通道，得到第三中间特征，第三中间特征的长宽与第二产品图像的像素点阵的尺寸相同。比如，第三中间特征为3×h×w，第二产品图像也表示为3×h×w。

将第三中间特征进行指数归一化操作，得到分割图，分割图上的像素点的像素值表征像素点为缺陷像素点的概率。例如，对第三中间特征执行softmax计算，得到分割图。根据需求，将像素值大于0.3（或0.5）的像素点确定为缺陷像素点。全部的缺陷像素点的所在位置即构成了缺陷的所在位置。

采用公式表示为F=softmax（Convs（x）），x为第二中间特征，Convs即卷积操作，用于将通道数压缩为三，F为分割图，softmax为指数归一化函数。

综上所述，通过将第一产品图像对应的第一图像特征和第二产品图像对应的第二图像特征相加，得到第一中间特征；将第一中间特征输入缺陷检测模型，得到推理特征；将推理特征进行上采样操作得到第二中间特征；基于第二中间特征预测缺陷的所在位置。缺陷检测模型满足参数数量达到参数量阈值和网络层数达到层数阈值中的至少一种条件，即缺陷检测模型为大模型。

并且，相关技术中每对一个新的产品类别都需要重新训练模型，实际使用过程中，产品更新换代较快（如布匹染色等），每生产一种新类别的产品都需重新训练模型严重耽误了生产进度。本申请提供的缺陷检测架构无需重新训练部署，无论生产的产品类别如何变化，只要提供无缺陷产品图像和待检测产品图像即可，进而提高了产品的整体生产效率。

并且，缺陷检测模型是根据多个工业产品类别的图像训练得到的，有助于提升缺陷检测模型的泛化性，进而有利于缺陷检测模型执行跨类别的缺陷检测。并且，上文介绍了通过分割图预测缺陷所在位置，分割图的生成方式较为简单，分割图可直观和准确地呈现出缺陷像素点，进而完整呈现出产品缺陷。

基于图3所示的可选实施例，图4示出了进一步的缺陷检测架构。

（1），获取第一产品图像401和第二产品图像402，对第一产品图像401进行特征输出（可选的，由一些卷积层执行），得到第一图像特征403，对第二产品图像402进行特征输出（可选的，由一些卷积层执行），得到第二图像特征404。第一图像特征403和第二图像特征404的形状相同。

示意性的，第一图像特征403表示为c×h×w，第二图像特征404表示为c×h×w。c为特征的通道数，h为特征的宽、w为特征的长。

示意性的，第一产品图像401的尺寸为3×h×w，3表示图像的红绿蓝三通道，h表示图像的宽，w为图像的高。c为大于3的整数，第一图像特征403即用于扩大图像的通道数量和表征图像。示意性的，第二产品图像402的尺寸为3×h×w，3表示图像的红绿蓝三通道，h表示图像的宽，w为图像的高。c为大于3的整数，第二图像特征404即用于扩大图像的通道数量和表征图像。

（2），将第一图像特征403和第二图像特征404相加，得到第一中间特征405，第一中间特征405和第一图像特征403、第二图像特征404的形状均相同。

示意性的，将表示为c×h×w的第一图像特征403和表示为c×h×w的第二图像特征404相加，得到表示为c×h×w的第一中间特征405。

（3），将第一中间特征405输入缺陷检测模型406，输出推理特征407。可选的，缺陷检测模型406用于将第一中间特征405进行特征压缩，得到推理特征407。推理特征407的尺寸小于第二图像特征404（或第一图像特征403）的尺寸。可选的，缺陷检测模型406用于将第一中间特征405的长和宽进行同等程度的特征压缩，得到推理特征407。推理特征407的长小于第二图像特征404（或第一图像特征403）的长，推理特征407的宽小于第二图像特征404（或第一图像特征403）的宽。

示意性的，缺陷检测模型用于将表示为c×h×w的第一中间特征405进行特征压缩，得到表示为c×（h/k）×（w/k）的推理特征407。k为正整数。示意性的，第一中间特征405表示为c×（h/32）×（w/32）、c×（h/16）×（w/16）。

（4），将推理特征407输入解码网络408，输出第二中间特征409。

解码网络408用于将推理特征407通过上采样进行特征还原，得到第二中间特征409，第二中间特征409的特征尺寸与第一中间特征405的特征尺寸相同。通过上采样将推理特征407的尺寸变化为第二图像特征404（或第一图像特征403）的尺寸，得到第二中间特征409。

可选的，解码网络408用于将推理特征407的长和宽通过上采样进行同等程度的特征还原，得到第二中间特征409。通过上采样将推理特征407的长变化为第二图像特征404（或第一图像特征403）的长，将推理特征407的宽变化为第二图像特征404（或第一图像特征403）的宽。

示意性的，解码网络408用于将表示为c×（h/k）×（w/k）的推理特征407通过上采样进行特征还原，得到表示为c×h×w的第二中间特征409。可选的，解码网络408为MAE（一篇论文）中的解码器。论文的引用信息如下：He，K.，Chen，X.，Xie，S.，Li，Y.，Dollár，P.，&Girshick，R（2022）. Masked autoencoders are scalable vision learners. InProceedings of the IEEE/CVF conference on computer vision and patternrecognition.（pp. 16000-16009）。

（5），基于第二中间特征409，执行预测缺陷所在位置410的步骤。

综上所述，上述实施例提供了缺陷检测架构中各个阶段的特征图尺寸，进一步提供了缺陷检测架构的整体结构设计，使得仅需输入无缺陷产品的图像和待检测产品的图像即可实现缺陷检测。

基于图4所示的缺陷检测架构，图5示出了进一步的缺陷检测架构。

图5示出了缺陷检测时还将获取其他第一产品图像411，其他第一产品图像411是与第一产品图像401处于同一工业产品类别下的其他的无缺陷的工业产品的图像。对其他第一产品图像411进行特征输出（可选的，由一些卷积层执行），得到其他第一图像特征412；

基于其他第一图像特征412和第一图像特征403，结合得到模板图像特征413。将模板图像特征413和第二图像特征404相加，得到第一中间特征405。

可选的，第一图像特征403和其他第一图像特征412的形状相同。计算第一图像特征403和其他第一图像特征412的平均值，得到模板图像特征413，模板图像特征413和第一图像特征403、其他第一图像特征412的形状均相同。

示意性的，第一图像特征403和其他第一图像特征412均表示为c×h×w，c为特征的通道数，h为特征的宽，w为特征的长，c、h和w为正整数。计算表示为c×h×w的第一图像特征403和表示为c×h×w的其他第一图像特征412的平均值，得到表示为c×h×w的模板图像特征413。

可选的，第一产品图像401和其他第一图像411共享卷积层进行特征输出。

图5还示出了基于第二中间特征409执行重建图像411的步骤。基于第二中间特征进行图像重建，得到第三产品图像，第三产品图像表征第二产品图像中的缺陷修复后的图像。在一个实施例中，将第二中间特征的通道数压缩为三，即红绿蓝三通道，再执行图像重建。

采用公式表示为F=Convs（x），x为第二中间特征，Convs即卷积操作，用于将通道数压缩为三，F为第三产品图像（重建结果）。

综上所述，上述实施例将根据多张无缺陷产品的图像特征得到模板图像的特征，不同的无缺陷产品的图像可以具有不同的特征，进而模板图像将融合多种条件下的特征，得到标准特征。比如说，一张无缺陷产品的图像是在强光条件下（如晴天）拍摄得到的，另一张无缺陷产品的图像是在弱光条件下（如雨天）拍摄得到的，融合后的模板图像将具有更接近无缺陷的标准的光照特征，进而提高了无缺陷产品图像和待检测产品图像的对比效果，使得缺陷检测结果更准确。

并且，还基于第二中间特征执行图像重建。重建图像用于修复待检测产品图像中的缺陷。

图6示出了本申请一个示例性实施例提供的缺陷检测结果的示意图。

图6的（A）部分为无缺陷产品的图像（即第一产品图像），图6的（B）部分为待检测产品的图像（此处示出的为具有缺陷的产品的图像），图6的（C）部分示出了预测得到的缺陷的所在位置，图6的（C）部分即上述分割图。图6的（D）部分示出了重建后的图像，即图6的（D）部分示出了第二产品图像中的缺陷修复后的图像。可以看出，缺陷检测架构已经预测得到全部的缺陷，并且重建得到的图像并没有缺陷。

经过测试，本申请在MVtec 数据集上使用Vit Large（缺陷检测模型）能直接达到90的AUROC（Area Under the Receiver Operating Characteristic Curve，ROC曲线线下面积），可以简单理解为准确率达到90%，实际应用到产线满足正常使用需求，微调输出的缺陷阈值，可获得更好的效果。为保证通用性，设置缺陷阈值为0.5。

图7示出了本申请一个示例性实施例提供的缺陷检测模型的训练方法的流程图。图7示出了采用无监督的方式训练缺陷检测模型。可选的，通过端到端进行预测缺陷位置，在训练时将训练缺陷检测框架中的全部神经网络，图7示出了针对缺陷检测模型的训练方法，以该方法由图2中的训练设备202执行进行举例说明，该方法包括如下步骤。

步骤710，获取第四产品图像和第五产品图像。

第四产品图像和第五产品图像是同一工业产品类别下的无缺陷产品的图像。例如，第四产品图像和第五产品图像是针对相机镜头的图像、针对布匹的图像。第四产品图像和第五产品图像为训练样本。可选的，第四产品图像和第五产品图像为MVTec数据集中的图像。或者，第四产品图像和第五产品图像为ViSA数据集中的图像。

MVTec数据集包含5354张不同目标和纹理类型的高分辨彩色图像。它包含用于训练的正常（即不包含缺陷）的图像，以及用于测试的异常图像。MVTec数据集中的异常有70种不同类型的缺陷，例如划痕、凹痕、污染和不同结构变化。

ViSA数据集包含 12 个子集，对应 12 个不同的对象。共有 10821 张图像，其中包含 9621 个正常样本和 1200 个异常样本。

步骤720，对第四产品图像进行特征输出，得到第四图像特征。

可选的，将第四产品图像输入若干卷积层，得到第四图像特征。第四图像特征是第四产品图像的特征表示。

步骤730，对第五产品图像的部分区域进行数据增强，得到第六产品图像。

可选的，在第五产品图像的部分区域上覆盖其他图像的图像内容，得到第六产品图像，其他图像的图像内容与第五产品图像上的部分区域的图像内容不同。

示意性的，裁剪第五产品图像上的部分区域，复制粘贴其他图像的图像内容至第五产品图像上的部分区域，得到第六产品图像。

步骤740，对第六产品图像进行特征输出，得到第六图像特征。

可选的，将第六产品图像输入若干卷积层，得到第六图像特征，第六图像特征是第六产品图像的特征表示。

步骤750，将第四图像特征和第六图像特征相加，得到第四中间特征。

第四图像特征和第六图像特征的尺寸相同，将第四图像特征和第六图像特征相加，得到第四中间特征，第四中间特征作为缺陷检测模型的输入特征。

步骤760，将第四中间特征输入缺陷检测模型，得到训练特征。

将第四中间特征输入缺陷检测模型，得到训练特征。

步骤770，将训练特征进行上采样，得到第五中间特征。

步骤780，基于第五中间特征，预测第六产品图像中缺陷的所在位置。

基于第五中间特征，预测第六产品图像中缺陷的所在位置。

步骤790，基于预测得到的缺陷的所在位置和部分区域的所在位置的误差，训练缺陷检测模型。

可选的，基于缺陷的所在位置的像素坐标和部分区域的像素坐标的误差，训练缺陷检测模型。通过该误差，缺陷检测模型学习到预测缺陷位置的能力。

在一个实施例中，训练设备201还基于第五中间特征进行图像重建，得到第七产品图像；基于第七产品图像和第五产品图像之间的误差，训练缺陷检测模型。重建后的图像与原图的误差，用于帮助缺陷检测模型具备无缺陷产品的图像的认知能力，进一步的，缺陷检测模型还学习了无缺陷产品的图像的结构信息。

需要说明的是，缺陷检测架构的训练过程和使用过程相类似，关于缺陷检测架构的训练过程的其他内容可以参考上述使用过程的介绍。

综上所述，上述实施例提供了无监督的缺陷检测模型的训练方式。将通过对部分区域进行数据增强，根据部分区域和预测得到的缺陷位置的误差训练缺陷检测模型，满足了无监督异常检测的特点。

并且，上述实施例利用了重建后的图像与原图之间的重建误差，训练缺陷检测模型。重建误差不仅有利于缺陷检测模型认知第一产品图像是无缺陷产品图像（正常图像），还有利于缺陷检测模型学习无缺陷产品图像的结构信息，进而有利于预测缺陷的所在位置。

图8示出了本申请一个示例性实施例提供的工业产品缺陷的检测框架的示意图。

（1）模板图分支：给定N张模板图801（即正常产品的图像），输入到模板共享卷积块（也就是一些卷积层，不固定可变化）中，每张图像输出的特征的大小为 c × h × w （其中c为通道数，h为卷积后的图像特征的宽，w为卷积后的图像特征的长），执行模板图特征合并（多图直接平均），得到一个c× h ×w的特征。

（2）输入图分支：输入图803经过输入卷积块（也就是一些卷积层，不固定可变化）中，得到的输入图的特征大小也为c ×h × w。

（3）大模型主干网络805：输入图的特征和模板图特征直接相加，特征形状仍然为c×h × w，然后经过大模型主干网络805提取特征（大模型主干网络为参数量比较大的网络，如Vit Large，Vit Huge）。

（4）解码网络806：因为大模型主干网络805输出的结果会将特征压缩的比较小，一般相对输入的 c × h ×w会变成 c ×（h/32）×（w/32）或者 c ×（h/16） ×（w/16）等，因此需要通过一些卷积层执行上采样操作。可选的，解码网络806为MAE中的解码器。

解码网络的主要作用就是让特征恢复到图像的大小。解码网络的最后一个网络层的通道数变大，然后将输出特征限定为输入图803的大小。

（5）重建分支807：重建分支旨在将输入图803修复为无缺陷的图像。因为无监督异常检测并没有监督信号，但是又必须让大模型理解输入模板图的特征才能推理异常，重建分支807使用大模型主干网络805的特征重建为原图，来帮助大模型具备输入模板图的认知能力。

在训练过程中，因为无监督训练，都是正常图像没有缺陷，通过加入一些数据增强，如复制粘贴其他图像的区域到输入图803，直接裁剪一些黑色区域，然后重建分支807直接使用增强后的图像重建回增强前的输入图803即可。

由于注重通用性，模型训练最好跨数据集。可选的，使用MvTec和ViSA作为训练的数据集。

（6）预测缺陷位置分支808：此分支直接输出一个与原图大小相同的分割图，每个像素都有一个异常分支，端到端进行缺陷检测。

因为模型能够直接端到端预测缺陷位置（预测缺陷位置分支），所以直接输入模板图801之后，输入需要检测的图片（输入图803），直接用预测缺陷位置分支808预测得到的分割图就行了，分割图的长和宽与原图一致，每个像素值是单个像素是缺陷的概率，概率值属于[0，1]。通过卡阈值的方式确定像素是否是缺陷像素。例如，根据实际需求使用阈值0.3或0.5。

在训练过程中，因为无监督训练，都是正常图像没有缺陷，通过加入一些数据增强，如复制粘贴其他图像的区域到输入图803，直接裁剪一些黑色区域，然后预测缺陷位置分支808预测被裁减区域即可。

图9示出了本申请一个示例性实施例提供的工业产品缺陷的检测装置的结构框图，该装置包括如下模块。

获取模块901，用于获取第一产品图像和第二产品图像，第一产品图像和第二产品图像是同一工业产品类别下的图像，第一产品图像是无缺陷的工业产品的图像，第二产品图像是待检测的工业产品的图像。

特征输出模块902，用于对第一产品图像进行特征输出，得到第一图像特征；以及，对第二产品图像进行特征输出，得到第二图像特征。

处理模块903，用于将第一图像特征和第二图像特征相加，得到第一中间特征；将第一中间特征输入缺陷检测模型，得到推理特征，缺陷检测模型满足参数数量达到参数量阈值和网络层数达到层数阈值中的至少一种条件，缺陷检测模型是根据多个工业产品类别的图像分别训练得到的。

处理模块903，还用于将推理特征进行上采样，得到第二中间特征。

预测模块904，用于基于第二中间特征，预测得到第二产品图像中缺陷的所在位置。

在一个实施例中，推理特征的尺寸小于第二图像特征的尺寸。处理模块903，还用于通过上采样将推理特征的尺寸变化为第二图像特征的尺寸，得到第二中间特征。

在一个实施例中，推理特征的长小于第二图像特征的长，推理特征的宽小于第二图像特征的宽。处理模块903，用于通过上采样将推理特征的长变化为第二图像特征的长，将推理特征的宽变化为第二图像特征的宽，得到第二中间特征。

在一个实施例中，获取模块901，还用于获取其他第一产品图像，其他第一产品图像是与第一产品图像处于同一工业产品类别下的其他的无缺陷的工业产品的图像。特征输出模块902，还用于对其他第一产品图像进行特征输出，得到其他第一图像特征，基于其他第一图像特征和第一图像特征，结合得到模板图像特征。处理模块903，还用于将模板图像特征和第二图像特征相加，得到第一中间特征。

在一个实施例中，第一图像特征和其他第一图像特征的尺寸相同。特征输出模块902，还用于计算第一图像特征和其他第一图像特征的平均值，得到模板图像特征，模板图像特征和第一图像特征、其他第一图像特征的尺寸均相同。

在一个实施例中，预测模块904，还用于将第二中间特征的通道数压缩为三，得到第三中间特征，第三中间特征的长宽与第二产品图像的像素点阵的尺寸相同；

将第三中间特征进行指数归一化操作，得到分割图，分割图上的像素点的像素值表征像素点为缺陷像素点的概率。

在一个实施例中，装置还包括重建模块905。重建模块905，用于基于第二中间特征进行图像重建，得到第三产品图像，第三产品图像表征第二产品图像中的缺陷修复后的图像。

在一个实施例中，获取模块901，还用于获取第四产品图像和第五产品图像，第四产品图像和第五产品图像是同一工业产品类别下的无缺陷产品的图像；对第五产品图像的部分区域进行数据增强，得到第六产品图像。

特征输出模块902，还用于对第四产品图像进行特征输出，得到第四图像特征；以及，对第六产品图像进行特征输出，得到第六图像特征。

处理模块903，还用于将第四图像特征和第六图像特征相加，得到第四中间特征；将第四中间特征输入缺陷检测模型，得到训练特征；将训练特征进行上采样，得到第五中间特征。

预测模块904，还用于基于第五中间特征，预测第六产品图像中缺陷的所在位置。

装置还包括训练模块906。训练模块906，用于基于预测得到的缺陷的所在位置和部分区域的所在位置的误差，训练缺陷检测模型。

在一个实施例中，获取模块901，还用于在第五产品图像的部分区域上覆盖其他图像的图像内容，得到第六产品图像，其他图像的图像内容与第五产品图像上的部分区域的图像内容不同。

在一个实施例中，重建模块905，还用于基于第五中间特征进行图像重建，得到第七产品图像。训练模块906，还用于基于第七产品图像和第五产品图像之间的误差，训练缺陷检测模型。

在一个实施例中，训练缺陷检测模型的多个工业产品类别的图像来源于多个数据集。

图10是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1000包括中央处理单元（Central Processing Unit，CPU）1001、包括随机存取存储器（Random Access Memory，RAM）1002和只读存储器（Read-Only Memory，ROM）1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统（Input/Output，I/O系统）1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器（未示出）连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机设备可读介质为计算机设备1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者只读光盘（Compact Disc Read-Only Memory，CD-ROM）驱动器之类的计算机设备可读介质（未示出）。

不失一般性，所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器（Erasable Programmable ReadOnly Memory，EPROM）、带电可擦可编程只读存储器（Electrically ErasableProgrammable Read-Only Memory，EEPROM），CD-ROM、数字视频光盘（Digital Video Disc，DVD）或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本公开的各种实施例，所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1012连接到网络1011，或者说，也可以使用网络接口单元1012来连接到其他类型的网络或远程计算机设备系统（未示出）。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1001通过执行该一个或一个以上程序来实现上述工业产品缺陷的检测方法的全部或者部分步骤。

图11示出了本申请一个示例性实施例提供的计算机设备1100的结构框图。该计算机设备1100可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器（MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。计算机设备1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的工业产品缺陷的检测方法。

在一些实施例中，计算机设备1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。示例地，外围设备可以包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107和电源1108中的至少一种。

外围设备接口1103可被用于将I/O（Input /Output，输入/输出）相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi（Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1104还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置在计算机设备1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在计算机设备1100的不同表面或呈折叠设计；在另一些实施例中，显示屏1105可以是柔性显示屏，设置在计算机设备1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（OrganicLight-Emitting Diode，有机发光二极管）等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

电源1108用于为计算机设备1100中的各个组件进行供电。电源1108可以是交流电、直流电、一次性电池或可充电电池。当电源1108包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备1100还包括有一个或多个传感器1109。该一个或多个传感器1109包括但不限于：加速度传感器1110、陀螺仪传感器1111、压力传感器1112、光学传感器1113以及接近传感器1114。

加速度传感器1110可以检测以计算机设备1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1110可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1110采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1110还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1111可以检测计算机设备1100的机体方向及转动角度，陀螺仪传感器1111可以与加速度传感器1110协同采集用户对计算机设备1100的3D动作。处理器1101根据陀螺仪传感器1111采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1112可以设置在计算机设备1100的侧边框和/或显示屏1105的下层。当压力传感器1112设置在计算机设备1100的侧边框时，可以检测用户对计算机设备1100的握持信号，由处理器1101根据压力传感器1112采集的握持信号进行左右手识别或快捷操作。当压力传感器1112设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1113用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1113采集的环境光强度，控制显示屏1105的显示亮度。示例地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1113采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1114，也称距离传感器，通常设置在计算机设备1100的前面板。接近传感器1114用于采集用户与计算机设备1100的正面之间的距离。在一个实施例中，当接近传感器1114检测到用户与计算机设备1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1114检测到用户与计算机设备1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对计算机设备1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的工业产品缺陷的检测方法。

本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的工业产品缺陷的检测方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种工业产品缺陷的检测方法，其特征在于，所述方法包括：

获取第一产品图像和第二产品图像，所述第一产品图像和所述第二产品图像是同一工业产品类别下的图像，所述第一产品图像是无缺陷的工业产品的图像，所述第二产品图像是待检测的工业产品的图像；

对所述第一产品图像进行特征输出，得到第一图像特征；以及，对所述第二产品图像进行特征输出，得到第二图像特征；

将所述第一图像特征和所述第二图像特征相加，得到第一中间特征；将所述第一中间特征输入缺陷检测模型，得到推理特征，所述缺陷检测模型满足参数数量达到参数量阈值和网络层数达到层数阈值中的至少一种条件，所述缺陷检测模型是根据多个工业产品类别的图像分别训练得到的；所述缺陷检测模型是通过以下步骤训练得到的：获取第四产品图像和第五产品图像，所述第四产品图像和所述第五产品图像是同一工业产品类别下的无缺陷产品的图像；对所述第五产品图像的部分区域进行数据增强，得到第六产品图像；对所述第四产品图像进行特征输出，得到第四图像特征；以及，对所述第六产品图像进行特征输出，得到第六图像特征；将所述第四图像特征和所述第六图像特征相加，得到第四中间特征；将所述第四中间特征输入所述缺陷检测模型，得到训练特征；将所述训练特征进行上采样，得到第五中间特征；基于所述第五中间特征，预测所述第六产品图像中缺陷的所在位置；基于预测得到的缺陷的所在位置和所述部分区域的所在位置的误差，训练所述缺陷检测模型；

将所述推理特征进行上采样，得到第二中间特征；

将所述第二中间特征的通道数压缩为三，得到第三中间特征，所述第三中间特征的长宽与所述第二产品图像的像素点阵的尺寸相同；

将所述第三中间特征进行指数归一化操作，得到分割图，所述分割图上的像素点的像素值表征所述像素点为缺陷像素点的概率。

2.根据权利要求1所述的方法，其特征在于，所述推理特征的尺寸小于所述第二图像特征的尺寸；

所述将所述推理特征进行上采样，得到第二中间特征，包括：

通过所述上采样将所述推理特征的尺寸变化为所述第二图像特征的尺寸，得到所述第二中间特征。

3.根据权利要求2所述的方法，其特征在于，所述推理特征的长小于所述第二图像特征的长，所述推理特征的宽小于所述第二图像特征的宽；

所述通过所述上采样将所述推理特征的尺寸变化为所述第二图像特征的尺寸，得到所述第二中间特征，包括：

通过所述上采样将所述推理特征的长变化为所述第二图像特征的长，将所述推理特征的宽变化为所述第二图像特征的宽，得到所述第二中间特征。

4.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

获取N张模板图，所述N张模板图为正常的产品图像；

对所述N张模板图执行模板图特征合并，得到模板图像特征；

所述将所述第一图像特征和所述第二图像特征相加，得到第一中间特征，包括：

将所述模板图像特征和所述第二图像特征相加，得到所述第一中间特征。

5.根据权利要求4所述的方法，其特征在于，所述N张模板图的模板图特征的尺寸相同；所述对所述N张模板图执行模板图特征合并，得到模板图像特征，包括：

计算所述N张模板图的模板图特征的平均值，得到所述模板图像特征，所述模板图像特征和所述模板图特征的尺寸相同。

6.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

基于所述第二中间特征进行图像重建，得到第三产品图像，所述第三产品图像表征所述第二产品图像中的缺陷修复后的图像。

7.根据权利要求1至3任一所述的方法，其特征在于，所述对所述第五产品图像的部分区域进行数据增强，得到第六产品图像，包括：

在所述第五产品图像的部分区域上覆盖其他图像的图像内容，得到所述第六产品图像，所述其他图像的图像内容与所述第五产品图像上的所述部分区域的图像内容不同。

8.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

基于所述第五中间特征进行图像重建，得到第七产品图像；

基于所述第七产品图像和所述第五产品图像之间的误差，训练所述缺陷检测模型。

9.根据权利要求1至3任一所述的方法，其特征在于，训练所述缺陷检测模型的多个工业产品类别的图像来源于多个数据集。

10.一种工业产品缺陷的检测装置，其特征在于，所述装置包括：

获取模块，用于获取第一产品图像和第二产品图像，所述第一产品图像和所述第二产品图像是同一工业产品类别下的图像，所述第一产品图像是无缺陷的工业产品的图像，所述第二产品图像是待检测的工业产品的图像；

特征输出模块，用于对所述第一产品图像进行特征输出，得到第一图像特征；以及，对所述第二产品图像进行特征输出，得到第二图像特征；

处理模块，用于将所述第一图像特征和所述第二图像特征相加，得到第一中间特征；将所述第一中间特征输入缺陷检测模型，得到推理特征，所述缺陷检测模型满足参数数量达到参数量阈值和网络层数达到层数阈值中的至少一种条件，所述缺陷检测模型是根据多个工业产品类别的图像分别训练得到的；所述缺陷检测模型是通过以下步骤训练得到的：获取第四产品图像和第五产品图像，所述第四产品图像和所述第五产品图像是同一工业产品类别下的无缺陷产品的图像；对所述第五产品图像的部分区域进行数据增强，得到第六产品图像；对所述第四产品图像进行特征输出，得到第四图像特征；以及，对所述第六产品图像进行特征输出，得到第六图像特征；将所述第四图像特征和所述第六图像特征相加，得到第四中间特征；将所述第四中间特征输入所述缺陷检测模型，得到训练特征；将所述训练特征进行上采样，得到第五中间特征；基于所述第五中间特征，预测所述第六产品图像中缺陷的所在位置；基于预测得到的缺陷的所在位置和所述部分区域的所在位置的误差，训练所述缺陷检测模型；

所述处理模块，还用于将所述推理特征进行上采样，得到第二中间特征；

预测模块，用于将所述第二中间特征的通道数压缩为三，得到第三中间特征，所述第三中间特征的长宽与所述第二产品图像的像素点阵的尺寸相同；将所述第三中间特征进行指数归一化操作，得到分割图，所述分割图上的像素点的像素值表征所述像素点为缺陷像素点的概率。

11.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一所述的工业产品缺陷的检测方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至9任一所述的工业产品缺陷的检测方法。