CN116416247A

CN116416247A - 基于预训练的缺陷检测方法及装置

Info

Publication number: CN116416247A
Application number: CN202310671297.3A
Authority: CN
Inventors: 钱智明; 潘正颐; 侯大为; 童竹勍
Original assignee: Changzhou Weiyizhi Technology Co Ltd
Current assignee: Changzhou Weiyizhi Technology Co Ltd
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-07-11

Abstract

本发明涉及工业质检技术领域，提供一种基于预训练的缺陷检测方法及装置，方法包括：基于多模态预训练数据集，采用多模态预训练方式对骨干网络模型进行预训练；构建至少一个适配器网络模型，对适配器网络模型进行预训练；构建缺陷检测模型，缺陷检测模型包括任务网络模型、预训练后的骨干网络模型和适配器网络模型；基于缺陷检测训练数据集对缺陷检测模型进行训练；并通过提示学习法将图像输入训练后的缺陷检测模型进行缺陷检测。由此，在预训练的基础上实现模型训练，且通过提示学习方法结合训练后的缺陷检测模型实现缺陷检测，既可以解决训练样本量不足的问题，又可以提高检测效率，从而可以应用于中小批量的产品的缺陷检测。

Description

基于预训练的缺陷检测方法及装置

技术领域

本发明涉及工业质检技术领域，具体涉及一种基于预训练的缺陷检测方法和一种基于预训练的缺陷检测装置。

背景技术

目前，主流的自动工业质检方案通常根据产品具体缺陷进行数据收集，一般采用目标检测和语义分割等方法对缺陷进行检测和形态识别，并结合专家经验、缺陷位置信息和形态特征来进一步降低缺陷“过杀”风险。然而，目前大部分此类方案难以很好的传承专家经验和复用历史数据，使得训练缺陷检测模型所需要的训练数据成本大且迭代周期长，进一步使得训练数据有限，从而导致中小批量的产品因训练数据有限难以进行缺陷检测。

为此，相关技术中把已有的标注任务应用于相关的新任务中去，这就产生了基于迁移学习的“预训练+微调”范式，特别是基于ImageNet数据集的预训练模型被广泛应用于众多视觉任务上，引导了一系列视觉任务的性能突破。然而，这种通用目标识别技术在产品缺陷检测领域存在巨大的域偏差，即不同产品的图像数据分布不同，使得这种迁移学习方式在缺陷检测领域的效率不高。

发明内容

本发明为解决训练数据有限、检测效率不高的问题，提出了如下技术方案。

本发明第一方面实施例提出了一种基于预训练的缺陷检测方法，包括以下步骤：获取多模态预训练数据集、缺陷检测预训练数据集和缺陷检测训练数据集；构建骨干网络模型，并基于所述多模态预训练数据集，采用多模态预训练方式对所述骨干网络模型进行预训练；构建至少一个适配器网络模型，并根据所述缺陷检测预训练数据集、预训练后的骨干网络模型，使每个所述适配器网络模型适配于一个预训练任务；根据所述缺陷检测预训练数据集、所述适配器网络模型和所述预训练后的骨干网络模型，对所述适配器网络模型进行预训练；构建缺陷检测模型，其中，所述缺陷检测模型包括任务网络模型、所述预训练后的骨干网络模型和适配器网络模型；将所述预训练后的骨干网络模型的参数、所述预训练后的适配器网络模型的参数固定后，基于所述缺陷检测训练数据集对所述缺陷检测模型进行训练；获取待测产品的图像，并通过提示学习法将所述图像输入训练后的缺陷检测模型进行缺陷检测。

另外，根据本发明上述实施例的基于预训练的缺陷检测方法还可以具有如下附加的技术特征。

根据本发明的一个实施例，所述骨干网络模型包括n个阶段，所有适配器网络模型为物理层适配器模型和语义层适配器模型，每个所述适配器网络模型包括依次连接的n-1个适配器网络，n为大于1的整数。

根据本发明的一个实施例，根据所述缺陷检测预训练数据集、预训练后的骨干网络模型，使每个所述适配器网络模型适配于一个预训练任务，包括：将所述缺陷检测预训练数据集的缺陷类别信息抹除后，划分为物理层次预训练数据集和语义层次预训练数据集；根据所述预训练后的骨干网络模型、所述物理层次预训练数据集和所述语义层次预训练数据集，通过K-Adapter方法使所述物理层适配器模型适配于物理层次的预训练任务、所述语义层适配器模型适配于语义层次的预训练任务。

根据本发明的一个实施例，所述骨干网络模型包括四个阶段，根据所述预训练后的骨干网络模型、所述物理层次预训练数据集和所述语义层次预训练数据集，通过K-Adapter方法使所述物理层适配器模型适配于物理层次的预训练任务、所述语义层适配器模型适配于语义层次的预训练任务，包括：将所述预训练后的骨干网络模型的参数固定；将所述物理层次预训练数据集输入所述预训练后的骨干网络模型，并获取所述预训练后的骨干网络模型前三个阶段输出的第一特征图；将所述语义层次预训练数据集输入所述预训练后的骨干网络模型，并获取所述预训练后的骨干网络模型前三个阶段输出的第二特征图；使所述物理层适配器模型的三个适配器网络一一对应依次适配于所述预训练后的骨干网络模型前三个阶段输出的第一特征图，并使所述语义层适配器模型的三个适配器网络一一对应依次适配于所述预训练后的骨干网络模型前三个阶段输出的第二特征图。

根据本发明的一个实施例，根据所述缺陷检测预训练数据集、所述适配器网络模型和所述预训练后的骨干网络模型，对所述适配器网络模型进行预训练，包括：将所述预训练后的骨干网络模型的前三个阶段输出的第一特征图，分别一一对应输入所述物理层适配器模型的三个适配器网络，并获取所述物理层适配器模型的三个适配器网络分别输出的第三特征图，以得到每个物理层次预训练数据对应的各个第三特征图；将所述预训练后的骨干网络模型的前三个阶段输出的第二特征图，分别一一对应输入所述语义层适配器模型的三个适配器网络，并获取所述语义层适配器模型的三个适配器网络分别输出的第四特征图，以得到每个语义层次预训练数据对应的各个第四特征图；将每个所述物理层次预训练数据对应的各个第一特征图与第三特征图进行拼接，以得到一个物理层次拼接特征图；将每个所述语义层次预训练数据对应的各个第二特征图与第四特征图进行拼接，以得到一个语义层次拼接特征图；基于所有所述物理层次拼接特征图对所述物理层适配器模型进行预训练，并基于所有所述语义层次拼接特征图对所述语义层适配器模型进行预训练。

根据本发明的一个实施例，通过提示学习法将所述图像输入训练后的缺陷检测模型进行缺陷检测，包括：通过提示学习法对提示器网络进行训练，并将训练后的提示器网络参数嵌入所述预训练后的骨干网络模型每个所述阶段的第一个模块中；将所述图像输入训练后的缺陷检测模型进行缺陷检测。

根据本发明的一个实施例，所述物理层次预训练数据集中的物理层次预训练数据包含物理层次的缺陷，所述语义层次预训练数据集中的语义层次预训练数据包含语义层次的缺陷，其中，所述物理层次的缺陷包括划伤、擦伤、压伤、异色和刀纹中的至少一种，所述语义层次的缺陷包括缺料、错位和形变中的至少一种。

根据本发明的一个实施例，所述任务网络模型为头部网络模型。

本发明第二方面实施例提出了一种基于预训练的缺陷检测装置，包括：获取模块，用于获取多模态预训练数据集、缺陷检测预训练数据集和缺陷检测训练数据集；第一预训练模块，用于构建骨干网络模型，并基于所述多模态预训练数据集，采用多模态预训练方式对所述骨干网络模型进行预训练；适配模块，用于构建至少一个适配器网络模型，并根据所述缺陷检测预训练数据集、预训练后的骨干网络模型，使每个所述适配器网络模型适配于一个预训练任务；第二预训练模块，用于根据所述缺陷检测预训练数据集、所述适配器网络模型和所述预训练后的骨干网络模型，对所述适配器网络模型进行预训练；构建模块，用于构建缺陷检测模型，其中，所述缺陷检测模型包括任务网络模型、所述预训练后的骨干网络模型和适配器网络模型；训练模块，用于将所述预训练后的骨干网络模型的参数、所述预训练后的适配器网络模型的参数固定后，基于所述缺陷检测训练数据集对所述缺陷检测模型进行训练；检测模块，用于获取待测产品的图像，并通过提示学习法将所述图像输入训练后的缺陷检测模型进行缺陷检测。

本发明实施例的技术方案，在预训练的基础上实现模型训练，且通过提示学习方法结合训练后的缺陷检测模型实现缺陷检测，既可以解决训练样本量不足的问题，又可以提高检测效率，从而可以应用于中小批量的产品的缺陷检测。

附图说明

图1为本发明实施例的基于预训练的缺陷检测方法的流程图。

图2为本发明一个实施例的多模态预训练和缺陷检测预训练的示意图。

图3为本发明一个示例的生成物理层次拼接特征图的流程示意图。

图4为本发明一个示例的生成语义层次拼接特征图的流程示意图。

图5为本发明实施例的基于预训练的缺陷检测装置的方框示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，基于迁移学习的“预训练+微调”范式实现缺陷检测，然而该技术因图像之间巨大的域偏差导致其效率不高。

近年来，相比于ImageNet预训练，在多模态和自监督方面都涌现出更好的预训练方法和应用，使得特定人工智能一步步地迈向通用人工智能。

因此，本发明实施例提出了一种基于预训练的缺陷检测方法，既可以解决样本量不足的问题，又可以提高检测效率，从而可以应用于中小批量的产品的缺陷检测。

图1为本发明实施例的基于预训练的缺陷检测方法的流程图。

如图1所示，该基于预训练的缺陷检测方法包括以下步骤S1至S7。

S1，获取多模态预训练数据集、缺陷检测预训练数据集和缺陷检测训练数据集。

其中，多模态可包括图像模态和文本模态。多模态预训练数据集是指用于进行多模态预训练的数据集，缺陷检测预训练数据集是指用于进行缺陷检测预训练的数据集，缺陷检测训练数据集是指用于进行缺陷检测训练的数据集。多模态预训练数据集可以是诺亚-悟空数据集（一个亿级多模态数据集）。缺陷检测预训练数据集和缺陷检测训练数据集均包括工业产品缺陷领域内的缺陷标注图像数据（包含缺陷标注）。

具体地，缺陷检测是基于缺陷检测模型实现的，因此事先需要对缺陷检测模型通过机器学习或者深度学习进行训练，在此之前，为了解决用于训练的缺陷标注图像数据有限导致的模型难以训练问题，先进行预训练，本发明实施例包括两部分的预训练，即基于大型数据集的多模态预训练（通用型预训练）和缺陷检测领域的缺陷检测预训练（专业型预训练）。因此，可通过任何可行方式事先获取用于多模态预训练的多模态预训练数据集、用于缺陷检测预训练的缺陷检测预训练数据集和用于缺陷检测训练的缺陷检测训练数据集。

S2，构建骨干网络模型，并基于多模态预训练数据集，采用多模态预训练方式对骨干网络模型进行预训练。

需要说明的是，本发明实施例中对骨干网络模型的具体网络结构不做具体限定，只要能够实现对应识别功能即可，比如，骨干网络模型可以是ResNet（Residual Network，残余网络）模型、EfficientNet网络模型、Swin Transformer网络模型和ViT网络模型等。

具体地，为了使骨干网络模型的参数泛化性能足够强，可以在多模态预训练数据集比如诺亚-悟空数据集上开展预训练，即采用多模态预训练方式，比如CLIP（ContrastiveLanguage-Image Pre-Training，对比语言-图像预训练）方法对骨干网络模型进行预训练，以得到训练后的骨干网络模型，目的是使训练后的骨干网络模型获得足够强的基础认知能力。

S3，构建至少一个适配器网络模型，并根据缺陷检测预训练数据集、预训练后的骨干网络模型，使每个适配器网络模型适配于一个预训练任务。

其中，预训练任务可以是面向特定层次缺陷检测的预训练任务，比如物理层次的预训练任务、语义层次的预训练任务等，其中，物理层次的预训练任务即进行图像重构，语义层次的预训练任务即对应无类别目标检测。

具体地，构建至少一个适配器网络模型，每个适配器网络模型包括至少一个依次相连的适配器网络，并根据缺陷检测预训练数据集、预训练后的骨干网络模型，使各个适配器网络模型一一对应适配于至少一种预训练任务。比如，构建两个适配器网络模型，使其中一个适配器网络模型适配于物理层次的预训练任务、另一个适配器网络模型适配于语义层次的预训练任务。

S4，根据缺陷检测预训练数据集、适配器网络模型和预训练后的骨干网络模型，对适配器网络模型进行预训练。

具体地，对于每个适配器网络模型，可通过预训练后的骨干网络模型对缺陷检测预训练数据集进行处理后，基于处理后的缺陷检测预训练数据集对适配器网络模型进行预训练，以得到预训练后的适配器网络模型，目的是使每个训练后的适配器网络模型具有缺陷检测领域的专业检测能力，即“专家”能力。

S5，构建缺陷检测模型，其中，缺陷检测模型包括任务网络模型、预训练后的骨干网络模型和适配器网络模型。

其中，任务网络模型的网络结构可以根据具体任务的实际需求确定，比如可以为轻量级的头部网络模型，比如YOLO网络模型、实例分割网络模型如Mask-RCNN（MaskRegion-based Convolutional Neural Network，面具区域卷积神经网络）网络模型。

具体地，在得到预训练后的骨干网络模型和适配器网络模型后，构建用于缺陷检测的缺陷检测模型，该模型包括任务网络模型、预训练后的骨干网络模型和适配器网络模型。其中，预训练后的骨干网络模型、适配器网络模型和任务网络模型依次相连，用于在训练后实现后续的缺陷检测。

S6，将预训练后的骨干网络模型的参数、预训练后的适配器网络模型的参数固定后，基于缺陷检测训练数据集对缺陷检测模型进行训练。

具体地，在构建好缺陷检测模型后，先将预训练后的骨干网络模型的参数、预训练后的适配器网络模型的参数固定，即冻结所有预训练得到的模型参数，后基于缺陷检测训练数据集对缺陷检测模型进行训练，以得到训练后的缺陷检测模型。

也就是说，在训练时冻结所有预训练模型的参数，只优化新增参数，这使得参与优化的参数量大大减少，因而模型所需的训练样本量即缺陷检测训练数据也大大减少。

S7，获取待测产品的图像，并通过提示学习法将图像输入训练后的缺陷检测模型进行缺陷检测。

需要说明的是，在依次进行预训练、训练后，且在预训练后的适配器网络模型的基础上进行具体的缺陷检测任务时，缺陷检测预训练数据集所在的标准数据域、缺陷检测训练数据集所在的训练数据域和缺陷检测模型对应的测试数据域之间，都存在图像数据分布不一致、即域偏差的问题，导致缺陷检测效率不高。

为此，本发明实施例在实现具体的缺陷检测任务时，采用基于提示学习（Promptlearning）的深度域适应方法，以提高缺陷检测效率。

具体地，在需要对待测产品进行缺陷检测时，可通过任何可行方式获取待测产品的图像，并将图像通过提示学习法输入训练后的缺陷检测模型，以使训练后的缺陷检测模型更好地适应于图像所在的域，进而训练后的缺陷检测模型能够更快、更好地输出待测产品的缺陷检测结果。

基于上述描述可知，本发明实施例将面向缺陷检测的预训练机制分为两部分，第一部分为通用预训练，通过多模态预训练方式对骨干网络模型进行预训练，使得预训练后的骨干网络模型具有泛化性能足够强的参数；第二部分为缺陷检测领域内的预训练，将缺陷检测领域内的预训练进一步分为至少一种缺陷检测预训练，比如物理层次的缺陷检测预训练和语义层次的缺陷检测预训练，并对适配器网络模型进行预训练，使得预训练后的适配器网络模型具有缺陷领域内的专业技能，即实现了专家知识赋能。之后构建包括任务网络模型、预训练后的骨干网络模型和适配器网络模型的缺陷检测模型，并在冻结预训练参数（预训练后的骨干网络模型和适配器网络模型的参数）后，对缺陷检测模型进行训练，以得到训练后的缺陷检测模型。因此，通过这种训练方式，一方面，使得训练后的缺陷检测模型能够很好地继承预训练后的骨干网络模型（作为通用预训练模型）的泛化性能，同时兼顾吸收预训练后的适配器网络模型（作为领域专家模型）的专家领域知识，而且使得模型训练所需样本量（即缺陷检测训练数据）大大减少，并极大地提高了模型的鲁棒性；另一方面，在训练时冻结所有预训练参数，只优化新增参数，这使得参与优化的参数量大大减少，因而模型所需的训练样本量进一步大大减少。因此，本发明实施例可以在缺陷检测训练数据极少情况下进行缺陷检测模型训练，从而适用于中小批量产品的缺陷检测。

在具体应用训练后的缺陷检测模型实现缺陷检测任务时，为了减少或者避免预训练对应的标准数据域、训练数据所在的数据域之间，存在的图像数据分布不一致、即域偏差的问题导致检测效率不高的现象，本发明实施例采用提示学习的方法，基于训练后的缺陷检测模型实现待测产品的缺陷检测。通过这种检测方法，可以解决域偏差问题，从而大大提高缺陷检测效率。

由此，本发明实施例的基于预训练的缺陷检测方法，在预训练的基础上实现模型训练，且通过提示学习方法结合训练后的缺陷检测模型实现缺陷检测，既可以解决训练样本量不足的问题，又可以提高检测效率，从而可以应用于中小批量的产品的缺陷检测。

在本发明的一个实施例中，骨干网络模型包括n个阶段，所有适配器网络模型为物理层适配器模型和语义层适配器模型，每个适配器网络模型包括依次连接的n-1个适配器网络，n为大于1的整数。

即构建两个适配器网络模型，分别为物理层适配器模型和语义层适配器模型。比如，骨干网络模型包括四个阶段时，物理层适配器模型和语义层适配器模型均包括三个适配器网络。

在本发明的一个示例中，步骤S3中的根据缺陷检测预训练数据集、预训练后的骨干网络模型，使每个适配器网络模型适配于一个预训练任务，可包括：将缺陷检测预训练数据集的缺陷类别信息抹除后，划分为物理层次预训练数据集和语义层次预训练数据集；根据预训练后的骨干网络模型、物理层次预训练数据集和语义层次预训练数据集，通过K-Adapter方法使物理层适配器模型适配于物理层次的预训练任务、语义层适配器模型适配于语义层次的预训练任务。

具体地，如图2所示，在诺亚-悟空数据集上通过CLIP方法对骨干网络模型进行多模态预训练后，进行缺陷检测预训练。因为不同产品所检测的缺陷类型不一样，定义也不一样，而在预训练时只学习是不是缺陷，所以将缺陷检测预训练数据集中各个数据的缺陷类别信息抹除，并将该数据集划分为物理层次预训练数据集和语义层次预训练数据集，其中，物理层次预训练数据集中的物理层次预训练数据包含物理层次的缺陷，物理层次的缺陷包括划伤、擦伤、压伤、异色和刀纹中的至少一种，语义层次预训练数据集中的语义层次预训练数据包含语义层次的缺陷，语义层次的缺陷包含缺料、错位和形变中的至少一种。之后，根据预训练后的骨干网络模型、物理层次预训练数据集，通过K-Adapter方法使物理层适配器模型适配于物理层次的预训练任务，并通过K-Adapter方法使语义层适配器模型适配于语义层次的预训练任务。

进一步地，骨干网络模型包括四个阶段，根据预训练后的骨干网络模型、物理层次预训练数据集和语义层次预训练数据集，通过K-Adapter方法使物理层适配器模型适配于物理层次的预训练任务、语义层适配器模型适配于语义层次的预训练任务，可包括：将预训练后的骨干网络模型的参数固定；将物理层次预训练数据集输入预训练后的骨干网络模型，并获取预训练后的骨干网络模型前三个阶段输出的第一特征图；将语义层次预训练数据集输入预训练后的骨干网络模型，并获取预训练后的骨干网络模型前三个阶段输出的第二特征图；使物理层适配器模型的三个适配器网络一一对应依次适配于预训练后的骨干网络模型前三个阶段输出的第一特征图，并使语义层适配器模型的三个适配器网络一一对应依次适配于预训练后的骨干网络模型前三个阶段输出的第二特征图。

具体而言，骨干网络模型包括四个阶段：第一阶段、第二阶段、第三阶段和第四阶段，在对骨干网络模型和适配器网络模型进行预训练后，将预训练后的骨干网络模型的参数固定，将物理层次预训练数据集中的各个图像数据依次输入预训练后的骨干网络模型，进而预训练后的骨干网络模型的各个阶段分别输出分辨率不同的第一特征图，使物理层适配器模型的三个适配器网络依次与预训练后的骨干网络模型前三个阶段输出的第一特征图一一对应适配，从而使得物理层适配器模型适配于物理层次的预训练任务；将预训练后的骨干网络模型的参数固定，将语义层次预训练数据集中的各个图像数据依次输入预训练后的骨干网络模型，进而预训练后的骨干网络模型的各个阶段输出分辨率不同的第二特征图，使语义层适配器模型的三个适配器网络依次与预训练后的骨干网络模型前三个阶段输出的第二特征图一一对应适配，从而使得语义层适配器模型适配于语义层次的预训练任务。

之后，执行步骤S4，即根据缺陷检测预训练数据集、适配器网络模型和预训练后的骨干网络模型，对适配器网络模型进行预训练。

在本发明的一个实施例中，上述步骤S4可包括：将预训练后的骨干网络模型的前三个阶段输出的第一特征图，分别一一对应输入物理层适配器模型的三个适配器网络，并获取物理层适配器模型的三个适配器网络分别输出的第三特征图，以得到每个物理层次预训练数据对应的各个第三特征图；将预训练后的骨干网络模型的前三个阶段输出的第二特征图，分别一一对应输入语义层适配器模型的三个适配器网络，并获取语义层适配器模型的三个适配器网络分别输出的第四特征图，以得到每个语义层次预训练数据对应的各个第四特征图；将每个物理层次预训练数据对应的各个第一特征图与第三特征图进行拼接，以得到一个物理层次拼接特征图；将每个语义层次预训练数据对应的各个第二特征图与第四特征图进行拼接，以得到一个语义层次拼接特征图；基于所有物理层次拼接特征图对物理层适配器模型进行预训练，并基于所有语义层次拼接特征图对语义层适配器模型进行预训练。

具体而言，在使物理层适配器模型的三个适配器网络一一对应依次适配于预训练后的骨干网络模型前三个阶段输出的第一特征图，并使语义层适配器模型的三个适配器网络一一对应依次适配于预训练后的骨干网络模型前三个阶段输出的第二特征图之后，如图3所示，将预训练后的骨干网络模型的前三个阶段输出的第一特征图，分别一一对应输入物理层适配器模型的三个适配器网络（第一适配器网络、第二适配器网络和第三适配器网络），并获取该三个适配器网络分别输出的第三特征图，以得到每个物理层次预训练数据对应的各个第三特征图，如图4所示，将预训练后的骨干网络模型的前三个阶段输出的第二特征图，分别一一对应输入语义层适配器模型的三个适配器网络（第一适配器网络、第二适配器网络和第三适配器网络），并获取该三个适配器网络分别输出的第四特征图，以得到每个语义层次预训练数据对应的各个第四特征图。

也就是说，对于每个物理层次预训练数据，对应预训练后的骨干网络模型四个阶段分别输出的四个第一特征图、物理层适配器模型三个适配器网络分别输出的三个第三特征图；对于每个语义层次预训练数据，对应预训练后的骨干网络模型四个阶段分别输出的四个第二特征图、语义层适配器模型三个适配器网络分别输出的三个第四特征图。

之后，参照图3，对于每个物理层次预训练数据，将其对应的四个第一特征图和三个第三特征图进行拼接，以得到一个物理层次拼接特征图；参照图4，对于每个语义层次预训练数据，将其对应的四个第二特征图和三个第四特征图进行拼接，以得到一个语义层次拼接特征图。基于所有物理层次拼接特征图对物理层适配器模型进行预训练，并基于所有语义层次拼接特征图对语义层适配器模型进行预训练，以得到预训练后的物理层适配器模型和语义层适配器模型。

之后，依次执行步骤S5 、S6和S7，即构建缺陷检测模型，并对缺陷检测模型进行训练，通过提示学习法将待测产品的图像输入训练后的缺陷检测模型进行缺陷检测。

在本发明的一个实施例中，步骤S7中的通过提示学习法将图像输入训练后的缺陷检测模型进行缺陷检测，可包括：通过提示学习法对提示器网络进行训练，并将训练后的提示器网络参数嵌入预训练后的骨干网络模型每个阶段的第一个模块中；将图像输入训练后的缺陷检测模型进行缺陷检测。

需要说明的是，本发明实施例中提示器网络参数是一组可学习的网络参数，用于将预训练模型（预训练后的骨干网络模型）更好地作用于输入的图像所在的数据域。

具体而言，骨干网络模型可包括四个阶段，可通过提示学习法对提示器网络进行训练，进而训练得到一组可学习的提示器网络参数，并将训练后的提示器网络参数嵌入训练后的缺陷检测模型中预训练后的骨干网络模型每个阶段的第一个模块中，之后，将图像输入训练后的缺陷检测模型进行缺陷检测，以使训练后的缺陷检测模型输出待测产品的缺陷检测结果，即缺陷类别和位置信息。

本发明实施例旨在通过一种轻量级缺陷检测方式来建立有效的知识积累、转化与迁移机制，实现模型“冷启动”和小样本学习，使其能够适应中小批量产品缺陷检测需求。该方案从行业痛点问题的“智能”需求入手，落地在实际“制造”效率的提升，能够以较少样本量（20%~30%）实现相当或更高指标的缺陷检测性能，使定制化的缺陷检测周期由3~5个月缩短至1个月左右，实现了数据与知识驱动的产品缺陷检测，从而将自动化工业质检应用赋能到中小企业，助力其实现数字化转型和降本增效。

数据与知识驱动的缺陷检测可以应用于中小企业小批量产品的外观缺陷自动检测业务，特别是在汽车零部件外观缺陷检测行业。通过在10个项目（包括8个3C（computer、communication and consumer，即计算机、通信和消费类）电子产品零部件、1个汽车零部件和一个新能源电池壳）上进行了方法验证。实验结果表明，采用本发明实施例的预训练机制和缺陷检测方法，相较于直接通过目标检测和语义分割进行缺陷检测的方法，达到交付指标所需数据量平均减少80%，交付周期由3-5个月缩短到1个月以内。

综上所述，本发明实施例在预训练的基础上实现模型训练，且通过提示学习方法结合缺陷检测模型实现缺陷检测，解决了样本量不足而影响缺陷检测以及因域偏差导致的缺陷检测效率不高的问题，既可以在训练样本量不足的情况下进行模型训练，又可以提高检测效率，从而可以应用于中小批量的产品的缺陷检测。

对应上述实施例的基于预训练的缺陷检测方法，本发明还提出一种基于预训练的缺陷检测装置。

如图5所示，该基于预训练的缺陷检测装置包括：获取模块10、第一预训练模块20、适配模块30、第二预训练模块40、构建模块50、训练模块60和检测模块70。

其中，获取模块10用于获取多模态预训练数据集、缺陷检测预训练数据集和缺陷检测训练数据集；第一预训练模块20用于构建骨干网络模型，并基于所述多模态预训练数据集，采用多模态预训练方式对所述骨干网络模型进行预训练；适配模块30用于构建至少一个适配器网络模型，并根据所述缺陷检测预训练数据集、预训练后的骨干网络模型，使每个所述适配器网络模型适配于一个预训练任务；第二预训练模块40用于根据所述缺陷检测预训练数据集、所述适配器网络模型和所述预训练后的骨干网络模型，对所述适配器网络模型进行预训练；构建模块50用于构建缺陷检测模型，其中，所述缺陷检测模型包括任务网络模型、所述预训练后的骨干网络模型和适配器网络模型；训练模块60用于将所述预训练后的骨干网络模型的参数、所述预训练后的适配器网络模型的参数固定后，基于所述缺陷检测训练数据集对所述缺陷检测模型进行训练；检测模块70用于获取待测产品的图像，并通过提示学习法将所述图像输入训练后的缺陷检测模型进行缺陷检测。

在本发明的一个实施例中，所述骨干网络模型包括n个阶段，所有适配器网络模型为物理层适配器模型和语义层适配器模型，每个所述适配器网络模型包括依次连接的n-1个适配器网络，n为大于1的整数。

在本发明的一个实施例中，适配模块30具体用于：将所述缺陷检测预训练数据集的缺陷类别信息抹除后，划分为物理层次预训练数据集和语义层次预训练数据集；根据所述预训练后的骨干网络模型、所述物理层次预训练数据集和所述语义层次预训练数据集，通过K-Adapter方法使所述物理层适配器模型适配于物理层次的预训练任务、所述语义层适配器模型适配于语义层次的预训练任务。

在本发明的一个实施例中，所述骨干网络模型包括四个阶段，适配模块30在根据所述预训练后的骨干网络模型、所述物理层次预训练数据集和所述语义层次预训练数据集，通过K-Adapter方法使所述物理层适配器模型适配于物理层次的预训练任务、所述语义层适配器模型适配于语义层次的预训练任务时，具体用于：将所述预训练后的骨干网络模型的参数固定；将所述物理层次预训练数据集输入所述预训练后的骨干网络模型，并获取所述预训练后的骨干网络模型前三个阶段输出的第一特征图；将所述语义层次预训练数据集输入所述预训练后的骨干网络模型，并获取所述预训练后的骨干网络模型前三个阶段输出的第二特征图；使所述物理层适配器模型的三个适配器网络一一对应依次适配于所述预训练后的骨干网络模型前三个阶段输出的第一特征图，并使所述语义层适配器模型的三个适配器网络一一对应依次适配于所述预训练后的骨干网络模型前三个阶段输出的第二特征图。

在本发明的一个实施例中，第二预训练模块40具体用于：将所述预训练后的骨干网络模型的前三个阶段输出的第一特征图，分别一一对应输入所述物理层适配器模型的三个适配器网络，并获取所述物理层适配器模型的三个适配器网络分别输出的第三特征图，以得到每个物理层次预训练数据对应的各个第三特征图；将所述预训练后的骨干网络模型的前三个阶段输出的第二特征图，分别一一对应输入所述语义层适配器模型的三个适配器网络，并获取所述语义层适配器模型的三个适配器网络分别输出的第四特征图，以得到每个语义层次预训练数据对应的各个第四特征图；将每个所述物理层次预训练数据对应的各个第一特征图与第三特征图进行拼接，以得到一个物理层次拼接特征图；将每个所述语义层次预训练数据对应的各个第二特征图与第四特征图进行拼接，以得到一个语义层次拼接特征图；基于所有所述物理层次拼接特征图对所述物理层适配器模型进行预训练，并基于所有所述语义层次拼接特征图对所述语义层适配器模型进行预训练。

在本发明的一个实施例中，检测模块70具体用于：通过提示学习法对提示器网络进行训练，并将训练后的提示器网络参数嵌入所述预训练后的骨干网络模型每个所述阶段的第一个模块中；将所述图像输入训练后的缺陷检测模型进行缺陷检测。

在本发明的一个实施例中，所述物理层次预训练数据集中的物理层次预训练数据包含物理层次的缺陷，所述语义层次预训练数据集中的语义层次预训练数据包含语义层次的缺陷，其中，所述物理层次的缺陷包括划伤、擦伤、压伤、异色和刀纹中的至少一种，所述语义层次的缺陷包括缺料、错位和形变中的至少一种。

在本发明的一个实施例中，所述任务网络模型为头部网络模型。

需要说明的是，该基于预训练的缺陷检测装置的具体实施方式及实施原理可参见上述基于预训练的缺陷检测方法的具体实施方式，为避免冗余，此处不再详细赘述。

本发明实施例的基于预训练的缺陷检测装置，在预训练的基础上实现模型训练，且通过提示学习方法结合训练后的缺陷检测模型实现缺陷检测，既可以解决训练样本量不足的问题，又可以提高检测效率，从而可以应用于中小批量的产品的缺陷检测。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于预训练的缺陷检测方法，其特征在于，包括以下步骤：

获取多模态预训练数据集、缺陷检测预训练数据集和缺陷检测训练数据集；

构建骨干网络模型，并基于所述多模态预训练数据集，采用多模态预训练方式对所述骨干网络模型进行预训练；

构建至少一个适配器网络模型，并根据所述缺陷检测预训练数据集、预训练后的骨干网络模型，使每个所述适配器网络模型适配于一个预训练任务；

根据所述缺陷检测预训练数据集、所述适配器网络模型和所述预训练后的骨干网络模型，对所述适配器网络模型进行预训练；

构建缺陷检测模型，其中，所述缺陷检测模型包括任务网络模型、所述预训练后的骨干网络模型和适配器网络模型；

将所述预训练后的骨干网络模型的参数、所述预训练后的适配器网络模型的参数固定后，基于所述缺陷检测训练数据集对所述缺陷检测模型进行训练；

获取待测产品的图像，并通过提示学习法将所述图像输入训练后的缺陷检测模型进行缺陷检测。

2.根据权利要求1所述的基于预训练的缺陷检测方法，其特征在于，所述骨干网络模型包括n个阶段，所有适配器网络模型为物理层适配器模型和语义层适配器模型，每个所述适配器网络模型包括依次连接的n-1个适配器网络，n为大于1的整数。

3.根据权利要求2所述的基于预训练的缺陷检测方法，其特征在于，根据所述缺陷检测预训练数据集、预训练后的骨干网络模型，使每个所述适配器网络模型适配于一个预训练任务，包括：

将所述缺陷检测预训练数据集的缺陷类别信息抹除后，划分为物理层次预训练数据集和语义层次预训练数据集；

根据所述预训练后的骨干网络模型、所述物理层次预训练数据集和所述语义层次预训练数据集，通过K-Adapter方法使所述物理层适配器模型适配于物理层次的预训练任务、所述语义层适配器模型适配于语义层次的预训练任务。

4.根据权利要求3所述的基于预训练的缺陷检测方法，其特征在于，所述骨干网络模型包括四个阶段，根据所述预训练后的骨干网络模型、所述物理层次预训练数据集和所述语义层次预训练数据集，通过K-Adapter方法使所述物理层适配器模型适配于物理层次的预训练任务、所述语义层适配器模型适配于语义层次的预训练任务，包括：

将所述预训练后的骨干网络模型的参数固定；

将所述物理层次预训练数据集输入所述预训练后的骨干网络模型，并获取所述预训练后的骨干网络模型前三个阶段输出的第一特征图；

将所述语义层次预训练数据集输入所述预训练后的骨干网络模型，并获取所述预训练后的骨干网络模型前三个阶段输出的第二特征图；

使所述物理层适配器模型的三个适配器网络一一对应依次适配于所述预训练后的骨干网络模型前三个阶段输出的第一特征图，并使所述语义层适配器模型的三个适配器网络一一对应依次适配于所述预训练后的骨干网络模型前三个阶段输出的第二特征图。

5.根据权利要求4所述的基于预训练的缺陷检测方法，其特征在于，根据所述缺陷检测预训练数据集、所述适配器网络模型和所述预训练后的骨干网络模型，对所述适配器网络模型进行预训练，包括：

将所述预训练后的骨干网络模型的前三个阶段输出的第一特征图，分别一一对应输入所述物理层适配器模型的三个适配器网络，并获取所述物理层适配器模型的三个适配器网络分别输出的第三特征图，以得到每个物理层次预训练数据对应的各个第三特征图；

将所述预训练后的骨干网络模型的前三个阶段输出的第二特征图，分别一一对应输入所述语义层适配器模型的三个适配器网络，并获取所述语义层适配器模型的三个适配器网络分别输出的第四特征图，以得到每个语义层次预训练数据对应的各个第四特征图；

将每个所述物理层次预训练数据对应的各个第一特征图与第三特征图进行拼接，以得到一个物理层次拼接特征图；

将每个所述语义层次预训练数据对应的各个第二特征图与第四特征图进行拼接，以得到一个语义层次拼接特征图；

基于所有所述物理层次拼接特征图对所述物理层适配器模型进行预训练，并基于所有所述语义层次拼接特征图对所述语义层适配器模型进行预训练。

6.根据权利要求2所述的基于预训练的缺陷检测方法，其特征在于，通过提示学习法将所述图像输入训练后的缺陷检测模型进行缺陷检测，包括：

通过提示学习法对提示器网络进行训练，并将训练后的提示器网络参数嵌入所述预训练后的骨干网络模型每个所述阶段的第一个模块中；

将所述图像输入训练后的缺陷检测模型进行缺陷检测。

7.根据权利要求3所述的基于预训练的缺陷检测方法，其特征在于，所述物理层次预训练数据集中的物理层次预训练数据包含物理层次的缺陷，所述语义层次预训练数据集中的语义层次预训练数据包含语义层次的缺陷，其中，所述物理层次的缺陷包括划伤、擦伤、压伤、异色和刀纹中的至少一种，所述语义层次的缺陷包括缺料、错位和形变中的至少一种。

8.根据权利要求1-7任一项所述的基于预训练的缺陷检测方法，其特征在于，所述任务网络模型为头部网络模型。

9.一种基于预训练的缺陷检测装置，其特征在于，包括：

获取模块，用于获取多模态预训练数据集、缺陷检测预训练数据集和缺陷检测训练数据集；

第一预训练模块，用于构建骨干网络模型，并基于所述多模态预训练数据集，采用多模态预训练方式对所述骨干网络模型进行预训练；

适配模块，用于构建至少一个适配器网络模型，并根据所述缺陷检测预训练数据集、预训练后的骨干网络模型，使每个所述适配器网络模型适配于一个预训练任务；

第二预训练模块，用于根据所述缺陷检测预训练数据集、所述适配器网络模型和所述预训练后的骨干网络模型，对所述适配器网络模型进行预训练；

构建模块，用于构建缺陷检测模型，其中，所述缺陷检测模型包括任务网络模型、所述预训练后的骨干网络模型和适配器网络模型；

训练模块，用于将所述预训练后的骨干网络模型的参数、所述预训练后的适配器网络模型的参数固定后，基于所述缺陷检测训练数据集对所述缺陷检测模型进行训练；

检测模块，用于获取待测产品的图像，并通过提示学习法将所述图像输入训练后的缺陷检测模型进行缺陷检测。