CN115147353A

CN115147353A - 缺陷检测模型的训练方法、装置、设备、介质及程序产品

Info

Publication number: CN115147353A
Application number: CN202210577987.8A
Authority: CN
Inventors: 张博深
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-10-04

Abstract

本申请提供了一种缺陷检测模型的训练方法、装置、设备、介质及程序产品；方法包括：获取多个携带第一标签的第一图像和多个携带第二标签的第二图像；通过缺陷检测模型对各第一图像分别进行缺陷检测，得到各第一图像的缺陷置信度；根据各第一图像的第一标签及相应的缺陷置信度，确定各第一图像对应的样本损失；基于多个携带第二标签的第二图像，确定各样本损失对应的目标权重，并基于确定的目标权重对各样本损失进行加权求和，得到加权损失；基于加权损失，更新缺陷检测模型的模型参数。通过本申请，能够有效提高缺陷检测模型的检测精确度的同时，提升训练效率。

Description

缺陷检测模型的训练方法、装置、设备、介质及程序产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种缺陷检测模型的训练方法、装置、设备、介质及程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

在相关技术中，通常是对输入图像进行手工特征提取，根据提取到的特征对分类器进行训练，基于训练后的分类器对待检测图像进行二分类。由于对输入图像进行手工特征提取精确度不高，导致所训练的分类器精确度不高且训练效率低下。

发明内容

本申请实施例提供一种缺陷检测模型的训练方法、装置、计算机可读存储介质及计算机程序产品，能够有效提高缺陷检测模型的检测精确度的同时，提升训练效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种缺陷检测模型的训练方法，包括：

获取多个携带第一标签的第一图像和多个携带第二标签的第二图像，其中，多个所述第一标签中包含标签噪声，多个所述第二标签中不包含标签噪声，所述第二图像的数量小于所述第一图像的数量；

通过缺陷检测模型对各所述第一图像分别进行缺陷检测，得到各所述第一图像的缺陷置信度，所述缺陷置信度用于，指示所述第一图像所包含的目标物品存在缺陷的可靠程度；

根据各所述第一图像的第一标签及相应的所述缺陷置信度，确定各所述第一图像对应的样本损失；

基于所述多个携带第二标签的第二图像，确定各所述样本损失对应的目标权重，并基于确定的所述目标权重对各所述样本损失进行加权求和，得到加权损失；

基于所述加权损失，更新所述缺陷检测模型的模型参数。

本申请实施例提供一种缺陷检测模型的训练装置，包括：

获取模块，用于获取多个携带第一标签的第一图像和多个携带第二标签的第二图像，其中，多个所述第一标签中包含标签噪声，多个所述第二标签中不包含标签噪声，所述第二图像的数量小于所述第一图像的数量；

缺陷检测模块，用于通过缺陷检测模型对各所述第一图像分别进行缺陷检测，得到各所述第一图像的缺陷置信度，所述缺陷置信度用于，指示所述第一图像所包含的目标物品存在缺陷的可靠程度；

样本损失确定模块，用于根据各所述第一图像的第一标签及相应的所述缺陷置信度，确定各所述第一图像对应的样本损失；

加权损失确定模块，用于基于所述多个携带第二标签的第二图像，确定各所述样本损失对应的目标权重，并基于确定的所述目标权重对各所述样本损失进行加权求和，得到加权损失；

更新模块，用于基于所述加权损失，更新所述缺陷检测模型的模型参数。

在一些实施例中，当所述第一图像的数量为第一数量、所述第二图像的数量为第二数量时，上述加权损失确定模块，还用于针对各所述第二图像分别执行以下处理：基于所述第二图像，调用强化学习模型迭代进行N轮权重计算，得到所述第一数量的权重，每个所述权重对应一个所述样本损失；其中，N为大于或等于2的整数；针对每个所述样本损失对应的权重分别执行以下处理：将所述第二数量的权重求平均，得到各所述样本损失对应的目标权重。

在一些实施例中，所述强化学习模型包括权重计算模型和环境模型，其中，所述环境模型的结构与所述缺陷检测模型的结构相同；上述加权损失确定模块，还用于基于所述第二图像，调用所述权重计算模型迭代进行N轮权重计算，得到所述第一数量的权重；在执行每轮所述权重计算的过程中，调用所述环境模型对所述第二图像进行缺陷检测，以得到所述第二图像对应的缺陷损失，并基于所述缺陷损失，在执行每轮所述权重计算后更新所述强化学习模型的模型参数。

在一些实施例中，上述加权损失确定模块，还用于基于所述第二图像，调用所述环境模型进行第1轮缺陷检测，得到第1轮所述第二图像的缺陷置信度；根据第1轮所述第二图像的缺陷置信度，确定第1轮所述第二图像对应的缺陷损失；基于第1轮所述第二图像对应的缺陷损失，对所述环境模型和所述权重计算模型的模型参数进行更新，得到第1轮更新后的权重计算模型和第1轮更新后的环境模型；基于所述第二图像，调用所述第1轮更新后的环境模型迭代进行N-1轮缺陷检测，得到第N轮所述第二图像的缺陷损失；上述加权损失确定模块，还用于基于所述第二图像，调用所述权重计算模型进行第1轮权重计算，得到第1轮所述第一数量的权重；基于所述第二图像，调用所述第1轮更新后的权重计算模型，迭代进行N-1轮权重计算，得到第N轮所述第一数量的权重；其中，第N轮所述第二图像对应的缺陷损失与第N-1轮所述第二图像对应的缺陷损失的差值小于缺陷损失阈值。

在一些实施例中，当N＝2时，上述加权损失确定模块，还用于基于所述第二图像，调用所述第1轮更新后的环境模型，进行第2轮缺陷检测，得到第2轮所述第二图像的缺陷置信度；根据第2轮所述第二图像的缺陷置信度，确定第2轮所述第二图像对应的缺陷损失；其中，第2轮所述第二图像的缺陷损失与第1轮所述第二图像的缺陷损失的差值小于所述缺陷损失阈值；上述加权损失确定模块，还用于基于所述第二图像，调用所述第1轮更新后的权重计算模型进行第2轮权重计算，得到第2轮所述第一数量的权重。

在一些实施例中，当N>2时，上述加权损失确定模块，还用于基于所述第二图像，调用第i轮更新后的环境模型进行第i+1次缺陷检测，得到第i+1轮所述第二图像的缺陷置信度，其中，1≤i≤N-1；根据第i+1轮所述第二图像的缺陷置信度，确定第i+1轮所述第二图像对应的缺陷损失；上述加权损失确定模块，还用于基于所述第二图像，调用第i轮更新后的权重计算模型进行第i+1次缺陷计算，得到第i+1轮所述第一数量的权重。

在一些实施例中，上述加权损失确定模块，还用于针对各所述样本损失分别执行以下处理：将所述样本损失与对应的所述权重进行相乘处理，得到所述样本损失对应的相乘处理结果；将各所述相乘处理结果进行求和，得到所述加权损失。

在一些实施例中，上述样本损失确定模块，还用于针对各所述第一图像分别执行以下处理：获取所述第一图像的第一标签所指示的标签置信度，并获取所述缺陷检测模型的损失函数；基于所述第一图像的标签置信度和所述第一图像的缺陷置信度，调用所述损失函数进行损失计算，得到所述第一图像对应的样本损失。

在一些实施例中，上述缺陷检测模型的训练装置，还包括：采样模块，用于对待检测物品的多个不同位置进行采样，得到所述待检测物品的多个采样图像；采样检测模块，用于通过所述更新后的所述缺陷检测模型，对各所述采样图像分别进行缺陷检测，得到各所述采样图像的缺陷置信度。

在一些实施例中，上述缺陷检测模型的训练装置，还包括：关系确定模块，用于针对各所述采样图像分别执行以下处理：确定所述采样图像的缺陷置信度分别与至少两个检测阈值之间的相对关系，其中，所述相对关系表征所述缺陷置信度是否大于所述检测阈值；其中，所述至少两个检测阈值的大小互不相同；检测结果确定模块，用于基于所述相对关系，确定所述采样图像的缺陷检测结果，其中，所述缺陷检测结果表征所述采样图像的缺陷程度。

在一些实施例中，所述至少两个检测阈值包括第一检测阈值和第二检测阈值；上述检测结果确定模块，还用于当所述相对关系表征所述缺陷置信度大于所述第一检测阈值时，确定所述采样图像存在严重缺陷；当所述相对关系表征所述缺陷置信度大于所述第二检测阈值，且小于所述第一检测阈值时，确定所述采样图像存在轻度缺陷；当所述相对关系表征所述缺陷置信度小于所述第二检测阈值时，确定所述采样图像不存在缺陷。

在一些实施例中，上述缺陷检测模型的训练装置，还包括：物品分类模块，用于当存在严重缺陷的所述采样图像的数量大于数量阈值时，将所述待检测物品确定为存在严重缺陷的物品；当存在轻度缺陷的所述采样图像的数量大于所述数量阈值时，将所述待检测物品确定为存在轻度缺陷的物品；当不存在缺陷的所述采样图像的数量大于所述数量阈值时，将所述待检测物品确定为不存在缺陷的物品。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的缺陷检测模型的训练方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的缺陷检测模型的训练方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的缺陷检测模型的训练方法。

本申请实施例具有以下有益效果：

通过基于多个携带第二标签的第二图像，确定各样本损失对应的目标权重，并基于目标权重对各样本损失进行加权求和，通过所得到的加权损失更新缺陷检测模型的模型参数，得到更新后的缺陷检测模型。由于第二标签中不包含标签噪声，使得所确定的各样本损失对应的目标权重，能够有效克服标签噪声对缺陷检测模型训练阶段的影响，使得更新后的缺陷检测模型可以输出稳定、可靠的缺陷检测结果，能够有效提高缺陷检测模型的检测精确度。同时，由于第二图像的数量小于第一图像的数量，进而可以有效减少训练样本的数量，有效增强训练效率。

附图说明

图1是本申请实施例提供的缺陷检测模型的训练系统架构的结构示意图；

图2是本申请实施例提供的缺陷检测模型的训练装置的结构示意图；

图3A至图3E是本申请实施例提供的缺陷检测模型的训练方法的流程示意图；

图4A至图4L是本申请实施例提供的缺陷检测模型的训练方法的原理示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)置信度(Confidence Coefficient)：在统计学中，一个概率样本的置信区间(Confidence Interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围，即前面所要求的一定概率。这个概率被称为置信水平。缺陷置信度用于，指示图像所包含的目标物品存在缺陷的可靠程度。

2)缺陷检测(Defect Detection)：缺陷检测通常是指对物品表面缺陷的检测，表面缺陷检测是采用先进的机器视觉检测技术，对工件表面的斑点、凹坑、划痕、色差、缺损等缺陷进行检测。

3)权重：某一因素或指标相对于某一事物的重要程度，其不同于一般的比重，体现的不仅仅是某一因素或指标所占的百分比，强调的是因素或指标的相对重要程度，倾向于贡献度或重要性。

4)人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。

5)卷积神经网络(CNN，Convolutional Neural Networks)：是一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feed forward Neural Networks)，是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力，能够按其阶层结构对输入图像进行平移不变分类(Shift-InvariantClassification)。

在本申请实施例的实施过程中，申请人发现相关技术存在以下问题：

在相关技术中，对于图像的缺陷检测，通常是对输入图像进行手工特征的提取，包含梯度特征、纹理特征等，随后根据提取到的手工特征，训练一个分类器，对当前图片是否是缺陷图像进行二分类。这种方式存在如下问题：

(1)提取到的手工特征泛化性比较差，对于多样化的视频数据往往会提取到一些对后续分类器产生混淆的有害特征；

(2)特征提取和分类器的训练二者是独立进行的，模型的训练代价比较高。

针对上述问题，本申请实施例利用元学习以及强化学习策略，借助少量的“可信样本”集，使得缺陷检测模型可以在存在标签噪声的数据集上进行训练，从而得到鲁棒的缺陷检测模型以及精确的缺陷输出结果。

本申请实施例提供一种缺陷检测模型的训练方法、装置、设备、计算机可读存储介质及计算机程序产品，能够有效提高缺陷检测模型的检测精确度的同时，提升训练效率。下面说明本申请实施例提供的缺陷检测模型的训练设备的示例性应用，本申请实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。

参见图1，图1是本申请实施例提供的缺陷检测模型的训练系统100的架构示意图，为实现缺陷检测的应用场景，终端(示例性示出了终端400)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于供用户使用客户端410，在图形界面410-1(示例性示出了图形界面410-1)显示。终端400和服务器200通过有线或者无线网络相互连接。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，服务器200从终端400获取第一图像和第二图像，并将第一图像和第二图像发送到终端400，终端400结合第一图像和第二图像对缺陷检测模型进行训练，得到更新后的缺陷检测模型，并将更新后的缺陷检测模型发送至服务器200。

在另一些实施例中，终端400获取第一图像和第二图像，并将第一图像和第二图像发送到服务器200，服务器200结合第一图像和第二图像对缺陷检测模型进行训练，得到更新后的缺陷检测模型，并将更新后的缺陷检测模型发送至终端400。

在另一些实施例中，本申请实施例可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。

参见图2，图2是本申请实施例提供的缺陷检测模型的训练方法的服务器200的一种结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他电子设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的缺陷检测模型的训练装置可以采用软件方式实现，图2示出了存储在存储器250中的缺陷检测模型的训练装置255，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块2551、缺陷检测模块2552、样本损失确定模块2553、加权损失确定模块2554、更新模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的缺陷检测模型的训练装置可以采用硬件方式实现，作为示例，本申请实施例提供的缺陷检测模型的训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的缺陷检测模型的训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

将结合本申请实施例提供的服务器或终端的示例性应用和实施，说明本申请实施例提供的缺陷检测模型的训练方法。

在一些实施例中，图4A是本申请实施例提供的缺陷检测模型的训练方法的原理示意图。参见图4A，基于多个携带第一标签的第一图像分别调用缺陷检测模型进行缺陷检测，确定各第一图像对应的样本损失(L₁至L_N)；基于多个携带第二标签的第二图像，调用权重计算模型和环境模型进行权重计算，确定各样本损失对应的目标权重(w₁至w_N)，并基于确定的目标权重对各样本损失进行加权求和，得到加权损失；基于加权损失，更新缺陷检测模型的模型参数。

参见图3A，图3A是本申请实施例提供的缺陷检测模型的训练方法的流程示意图，将结合图3A示出的步骤101至步骤106进行说明，下述步骤101至步骤106的执行主体可以是服务器或终端，下面将以执行主体为服务器为例进行说明。

在步骤101中，服务器获取多个携带第一标签的第一图像和多个携带第二标签的第二图像。

其中，多个第一标签中包含标签噪声，多个第二标签中不包含标签噪声，第二图像的数量小于第一图像的数量。

在一些实施例中，第一图像所携带的第一标签可以是指示第一图像的标签置信度的标签，由于第一图像所携带的第一标签包含标签噪声，标签噪声表征第一图像的标签置信度和第一图像的真实置信度之间的差距，因此，携带有第一标签的第一图像的标签置信度不能准确表征第一图像的真实置信度，即，第一图像的标签置信度与第一图像的真实置信度之间存在一定误差，该误差可以理解为对应的标签噪声。

在一些实施例中，第二图像所携带的第二标签可以是指示第二图像的标签置信度的标签，由于第二图像所携带的第二标签不包含标签噪声，标签噪声表征第二图像的标签置信度和第二图像的真实置信度之间的差距，因此，携带有第二标签的第二图像的标签置信度能够准确表征第二图像的真实置信度，即，第二图像的标签置信度与第二图像的真实置信度之间没有误差，该误差可以理解为对应的标签噪声。即，第二图像的标签置信度等于第二图像的真实置信度。

作为示例，第二图像的数量为10幅，第一图像的数量为100幅，第二图像的数量小于第一图像的数量。

如此，通过获取多个携带第一标签的第一图像和多个携带第二标签的第二图像，且第一图像的数量大于第二图像的数量，由于第二图像的标签置信度比较准确，因此，标签标注成本较高。第一图像的标签置信度容许存在误差，因此，标签标注成本较低。通过获取大量低标注成本的第一图像和获取少量高标注成本的第二图像，对缺陷检测模型进行训练，由于有效减少了高标注成本的第二图像，从而能够有效减少训练成本，显著增强训练效率。

在步骤102中，通过缺陷检测模型对各第一图像分别进行缺陷检测，得到各第一图像的缺陷置信度。

在一些实施例中，缺陷置信度用于，指示第一图像所包含的目标物品存在缺陷的可靠程度。

在一些实施例中，缺陷检测模型可以是基于卷积神经网络模型实现的，其中，缺陷检测模型的表达式可以为：

p_i＝f(x_i；θ) (1)

其中，x_i为缺陷检测模型的输入，即，第一图像；θ为缺陷检测模型的参数；f(.)表征缺陷检测模型，p_i表征缺陷检测模型的输出，即第一图像的缺陷置信度。

在步骤103中，根据各第一图像的第一标签及相应的缺陷置信度，确定各第一图像对应的样本损失。

在一些实施例中，第一图像所携带的第一标签可以是指示第一图像的标签置信度的标签，进而，可以根据第一图像的标签置信度和相应的缺陷置信度，确定第一图像对应的样本损失。第一图像的样本损失表征第一图像的缺陷置信度和标签置信度之间的差异，通过第一图像的样本损失可以确定缺陷检测模型的预测准确性。

如此，通过根据第一图像的第一标签及相应的缺陷置信度，确定第一图像对应的样本损失，便于后续根据样本损失确定加权损失，进而根据加权损失对缺陷检测模型进行训练。

在一些实施例中，参见图3B，图3B是本申请实施例提供的缺陷检测模型的训练方法的流程示意图，图3B所示出的步骤103可以针对各第一图像分别执行以下步骤1031至步骤1032实现。

在步骤1031中，获取第一图像的第一标签所指示的标签置信度，并获取缺陷检测模型的损失函数。

在一些实施例中，第一图像所携带的第一标签可以是指示第一图像的标签置信度的标签，对第一图像的第一标签进行解析处理，得到第一图像的第一标签所指示的标签置信度。

在步骤1032中，基于第一图像的标签置信度和第一图像的缺陷置信度，调用损失函数进行损失计算，得到第一图像对应的样本损失。

在一些实施例中，缺陷检测模型的损失函数可以为归一化指数函数(Softmax)，缺陷检测模型的损失函数的表达式可以为：

L_i＝L(p_i，y_i) (2)

其中，L(.)表征缺陷检测模型的损失函数，p_i表征缺陷检测模型的输出，即第一图像的缺陷置信度，y_i表征第一图像的第一标签所指示的标签置信度，L_i表征第一图像对应的样本损失。

作为示例，基于第一图像的标签置信度y_i和第一图像的缺陷置信度p_i，调用损失函数L(.)进行损失计算，得到第一图像对应的样本损失L_i。

在步骤104中，基于多个携带第二标签的第二图像，确定各样本损失对应的目标权重。

在一些实施例中，每个样本损失对应一个目标权重，第一图像的数量为第一数量，第二图像的数量为第二数量，第一数量大于第二数量，样本损失的数量等于第一图像的数量，样本损失的数量等于目标权重的数量。

作为示例，当第一数量为10，第二数量为5时，基于5个携带第二标签的第二图像，确定10个样本损失分别对应的目标权重。

在一些实施例中，参见图3B，图3B是本申请实施例提供的缺陷检测模型的训练方法的流程示意图，当第一图像的数量为第一数量、第二图像的数量为第二数量时，图3B所示出的步骤104可以通过执行以下步骤1041至步骤1042实现。

在步骤1041中，针对各第二图像分别执行以下处理：基于第二图像，调用强化学习模型迭代进行N轮权重计算，得到第一数量的权重，每个权重对应一个样本损失。

其中，N为大于或等于2的整数。

在一些实施例中，强化学习模型用于计算样本损失的权重，强化学习模型包括权重计算模型和环境模型，强化学习模型用于描述和解决权重计算模型和环境模型的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

作为示例，基于第二图像1，调用强化学习模型迭代进行N轮权重计算，得到第一数量的权重，每个权重对应一个样本损失；基于第二图像2，调用强化学习模型迭代进行N轮权重计算，得到第一数量的权重；基于第二图像3，调用强化学习模型迭代进行N轮权重计算，得到第一数量的权重。

在一些实施例中，参见图3C，图3C是本申请实施例提供的缺陷检测模型的训练方法的流程示意图，强化学习模型包括权重计算模型和环境模型，其中，环境模型的结构与缺陷检测模型的结构相同；图3C所示出的步骤1041可以通过执行以下步骤10411至步骤10412实现。

在步骤10411中，基于第二图像，调用权重计算模型迭代进行N轮权重计算，得到第一数量的权重。

在一些实施例中，强化学习模型包括权重计算模型，权重计算模型用于完成强化学习模型计算样本损失的权重的功能。

在一些实施例中，权重计算模型的表达式可以为：

w_i＝f_val(x_val，ε) (3)

其中，w_i表征权重，f_val(.)表征权重计算模型，x_val表征第二图像，ε表征权重计算模型的模型参数。

作为示例，基于第二图像x_val，调用权重计算模型f_val(.)迭代进行N轮权重计算，得到第一数量的权重。

在一些实施例中，参见图3D，图3D是本申请实施例提供的缺陷检测模型的训练方法的流程示意图，图3D所示出的步骤10411可以通过执行以下步骤104111至步骤104112实现。

在步骤104111中，基于第二图像，调用权重计算模型进行第1轮权重计算，得到第1轮第一数量的权重。

作为示例，参见图4B，图4B是本申请实施例提供的缺陷检测模型的训练方法的原理示意图。基于第二图像，调用权重计算模型进行第1轮权重计算，得到第1轮第一数量的权重。

在步骤104112中，基于第二图像，调用第1轮更新后的权重计算模型，迭代进行N-1轮权重计算，得到第N轮第一数量的权重。

作为示例，参见图4B，基于第二图像，调用第1轮更新后的权重计算模型，迭代进行N-1轮权重计算，得到第N轮第一数量的权重。

作为示例，基于第二图像，调用第1轮更新后的权重计算模型，迭代进行2轮权重计算，得到第3轮第一数量的权重。

其中，第N轮第二图像对应的缺陷损失与第N-1轮第二图像对应的缺陷损失的差值小于缺陷损失阈值。

在一些实施例中，第N-1轮第二图像对应的缺陷损失与第N-2轮第二图像对应的缺陷损失大于缺陷损失阈值。

作为示例，当N＝2时，第2轮第二图像对应的缺陷损失与第1轮第二图像对应的缺陷算是的差值小于缺陷损失阈值。

作为示例，当N＝3时，第3轮第二图像对应的缺陷损失与第2轮第二缺陷损失对应的缺陷损失小于缺陷损失阈值，第2轮第二图像对应的缺陷损失与第1轮第二图像对应的缺陷损失大于缺陷损失阈值。

在一些实施例中，当N＝2时，上述步骤104112可以通过以下方式实现：基于第二图像，调用第1轮更新后的权重计算模型进行第2轮权重计算，得到第2轮第一数量的权重。

作为示例，参见图4C，图4C是本申请实施例提供的缺陷检测模型的训练方法的原理示意图。基于第二图像，调用第1轮更新后的权重计算模型进行第2轮权重计算，得到第2轮第一数量的权重。

在一些实施例中，当N>2时，上述步骤104112可以通过执行以下方式实现：基于第二图像，调用第i轮更新后的权重计算模型进行第i+1次缺陷计算，得到第i+1轮第一数量的权重。

作为示例，参见图4D，图4D是本申请实施例提供的缺陷检测模型的训练方法的原理示意图。基于第二图像，调用第i轮更新后的权重计算模型进行第i+1次缺陷计算，得到第i+1轮第一数量的权重。

在步骤10412中，在执行每轮权重计算的过程中，调用环境模型对第二图像进行缺陷检测，以得到第二图像对应的缺陷损失，并基于缺陷损失，在执行每轮权重计算后更新强化学习模型的模型参数。

作为示例，在执行第2轮权重计算的过程中，调用环境模型对第二图像进行缺陷检测，以得到第二图像对应的第2轮缺陷损失，并基于第2轮缺陷损失，在执行第2轮权重计算后更新强化学习模型的模型参数，以得到第2轮更新后的强化学习模型。

作为示例，在执行第3轮权重计算的过程中，调用环境模型对第二图像进行缺陷检测，以得到第二图像对应的第3轮缺陷损失，并基于第3轮缺陷损失，在执行第3轮权重计算后更新强化学习模型的模型参数，以得到第3轮更新后的强化学习模型。

在一些实施例中，参见图3E，图3E是本申请实施例提供的缺陷检测模型的训练方法的流程示意图，图3E所示出的步骤10412可以通过执行以下步骤104121至步骤104124实现。

在步骤104121中，基于第二图像，调用环境模型进行第1轮缺陷检测，得到第1轮第二图像的缺陷置信度。

在一些实施例中，第1轮第二图像的缺陷置信度大于第2轮第二图像的缺陷置信度，第i轮第二图像的缺陷置信度大于第i+1轮第二图像的缺陷置信度。

在步骤104122中，根据第1轮第二图像的缺陷置信度，确定第1轮第二图像对应的缺陷损失。

在一些实施例中，上述步骤104122可以通过以下方式实现：基于第1轮第二图像的缺陷置信度和第二图像的标签置信度，调用损失函数进行损失计算，得到第1轮第二图像对应的缺陷损失。

在步骤104123中，基于第1轮第二图像对应的缺陷损失，对环境模型和权重计算模型的模型参数进行更新，得到第1轮更新后的权重计算模型和第1轮更新后的环境模型。

在一些实施例中，上述步骤104123可以通过以下方式实现：基于第1轮第二图像对应的缺陷损失，采用梯度更新的方式，对环境模型和权重计算模型的模型参数进行更新，得到第1轮更新后的权重计算模型和第1轮更新后的环境模型。

在一些实施例中，梯度更新包括：随机梯度下降更新(Stochastic GradientDescent)、小批量梯度下降更新(Mini Batch Gradient Descent)、动量更新(MomentumUpdate)。

在步骤104124中，基于第二图像，调用第1轮更新后的环境模型迭代进行N-1轮缺陷检测，得到第N轮第二图像的缺陷损失。

作为示例，参见图4E，图4E是本申请实施例提供的缺陷检测模型的训练方法的流程示意图。基于第二图像，调用第1轮更新后的环境模型迭代进行N-1轮缺陷检测，得到第N轮第二图像的缺陷损失。

在一些实施例中，当N＝2时，上述步骤104124可以通过以下方式实现：基于第二图像，调用第1轮更新后的环境模型，进行第2轮缺陷检测，得到第2轮第二图像的缺陷置信度。根据第2轮第二图像的缺陷置信度，确定第2轮第二图像对应的缺陷损失。

作为示例，参见图4F，图4F是本申请实施例提供的缺陷检测模型的训练方法的流程示意图。基于第二图像，调用第1轮更新后的环境模型，进行第2轮缺陷检测，得到第2轮第二图像的缺陷置信度。

其中，第2轮第二图像的缺陷损失与第1轮第二图像的缺陷损失的差值小于缺陷损失阈值。

在一些实施例中，上述确定第2轮第二图像对应的缺陷损失可以通过以下方式实现：基于第2轮第二图像的缺陷置信度和第二图像的标签置信度，调用损失函数进行计算，得到第2轮第二图像对应的缺陷损失。

在一些实施例中，当N>2时，上述步骤104124可以通过以下方式实现：基于第二图像，调用第i轮更新后的环境模型进行第i+1次缺陷检测，得到第i+1轮第二图像的缺陷置信度。根据第i+1轮第二图像的缺陷置信度，确定第i+1轮第二图像对应的缺陷损失。

其中，1≤i≤N-1。

作为示例，参见图4G，图4G是本申请实施例提供的缺陷检测模型的训练方法的流程示意图。基于第二图像，调用第i轮更新后的环境模型，进行第i+1次缺陷检测，得到第i+1轮第二图像的缺陷置信度。

在一些实施例中，上述确定第i+1轮第二图像对应的缺陷损失可以通过以下方式实现：基于第i+1轮第二图像的缺陷置信度和第二图像的标签置信度，调用损失函数进行计算，得到第i+1轮第二图像对应的缺陷损失。

在步骤1042中，针对每个样本损失对应的权重分别执行以下处理：将第二数量的权重求平均，得到各样本损失对应的目标权重。

在一些实施例中，上述样本损失对应的目标权重的表达式可以为：

其中，w_j表征样本损失对应的目标权重，s表征第二数量，w₁至w_s表征权重。

在步骤105中，基于确定的目标权重对各样本损失进行加权求和，得到加权损失。

在一些实施例中，参见图3B，图3B是本申请实施例提供的缺陷检测模型的训练方法的流程示意图，图3B所示出的步骤105可以针对各样本损失分别执行以下步骤1051至步骤1052实现。

在步骤1051中，将样本损失与对应的权重进行相乘处理，得到样本损失对应的相乘处理结果。

作为示例，针对第j个样本损失与对应的权重进行相乘处理，得到第j个样本损失对应的相乘处理结果，其中，第j个样本损失对应的相乘处理结果的表达式可以为：

Q_j＝w_j×L_j (5)

其中，Q_j表征第j个样本损失对应的相乘处理结果，w_j表征第j个样本损失对应的权重，L_j表征第j个样本损失。

在步骤1052中，将各相乘处理结果进行求和，得到加权损失。

作为示例，将各相乘处理结果进行求和，得到加权损失，加权损失的表达式可以为：

其中，L_train表征加权损失，Q_j表征相乘处理结果，w_j表征第j个样本损失对应的权重，L_j表征第j个样本损失，M表征相乘处理结果的个数，即，相乘处理结果的数量与样本损失的数量相同，即，M也可以表征样本损失的数量。

如此，通过使用不包含标签噪声的第二图像进行引导，确定与每个样本损失对应的权重，进而将每个样本损失与对应的权重进行加权求和，得到的加权损失更够有效克服标签噪声对缺陷检测模型训练的影响，使得训练所得到的缺陷检测模型更够输出稳定且可靠的缺陷检测结果，为缺陷质量检测提供可靠的技术支撑。

在步骤106中，基于加权损失，更新缺陷检测模型的模型参数。

在一些实施例中，上述步骤106可以通过以下方式实现：基于加权损失，采用梯度更新的方式，更新缺陷检测模型的模型参数。

在一些实施例中，在上述步骤106之后，还可以通过以下方式对待检测物品进行缺陷检测：对待检测物品的多个不同位置进行采样，得到待检测物品的多个采样图像；通过更新后的缺陷检测模型，对各采样图像分别进行缺陷检测，得到各采样图像的缺陷置信度。

在一些实施例中，对待检测物品的多个不同位置进行采样可以是对待检测物品的多个不用位置进行拍摄的方式实现，对待检测物品的一个位置进行采样可以得到待检测物品的一个采样图像。

在一些实施例中，通过更新后的缺陷检测模型，对各采样图像分别进行缺陷检测，得到各采样图像的缺陷置信度可以通过以下方式实现：针对各采样图像分别执行以下处理：基于采样图像，调用更行后的缺陷检测模型进行缺陷检测，得到采样图像的缺陷置信度。

作为示例，参见图4H，图4H是本申请实施例提供的缺陷检测模型的训练方法的原理示意图。对待检测物品的多个不同表面，表面44、表面45、表面46进行采样，得到待检测物品的多个采样图像；通过更新后的缺陷检测模型，对各采样图像分别进行缺陷检测，得到各采样图像的缺陷置信度。

在一些实施例中，在得到各采样图像的缺陷置信度之后，可以针对各采样图像分别执行以下处理：确定采样图像的缺陷置信度分别与至少两个检测阈值之间的相对关系，其中，相对关系表征缺陷置信度是否大于检测阈值；其中，至少两个检测阈值的大小互不相同；基于相对关系，确定采样图像的缺陷检测结果，其中，缺陷检测结果表征采样图像的缺陷程度。

作为示例，当采样图像的缺陷置信度为0.95时，至少两个检测阈值为0.3和0.6时，确定采样图像的缺陷置信度0.95分别与至少两个检测阈值0.3和0.6之间的相对关系，其中，相对关系表征采样图像的缺陷置信度大于检测阈值0.3和检测阈值0.6。

如此，通过设置至少两个检测阈值与采样图像的缺陷置信度进行比较，检测阈值的设置数量与采样图像的检测精确度正相关。设置越多的检测阈值，能够对采样图像进行更加细密的划分，将采样图像的缺陷等级划分成不同的等级，从而能够有效避免采样二分类的方式，对采样图像进行检测区分导致的检测不准确的问题，有效提高了采样图像的分类准确度。

在一些实施例中，至少两个检测阈值包括第一检测阈值和第二检测阈值，第一检测阈值大于第二检测阈值，第一检测阈值和第二检测阈值用于对采样图像的缺陷检测结果进行区分。

在一些实施例中，上述基于相对关系，确定采样图像的缺陷检测结果，可以通过以下方式实现：当相对关系表征缺陷置信度大于第一检测阈值时，确定采样图像存在严重缺陷；当相对关系表征缺陷置信度大于第二检测阈值，且小于第一检测阈值时，确定采样图像存在轻度缺陷；当相对关系表征缺陷置信度小于第二检测阈值时，确定采样图像不存在缺陷。

作为示例，采样图像的缺陷置信度为0.4，第一检测阈值为0.6、第二检测阈值为0.3，即，相对关系表征缺陷置信度大于第二检测阈值且小于第一检测阈值，确定缺陷置信度为0.4的采样图像存在轻度缺陷。

作为示例，采样图像的缺陷置信度为0.2，第一检测阈值为0.6、第二检测阈值为0.3，即，相对关系表征缺陷置信度小于第二检测阈值，确定缺陷置信度为0.4的采样图像不存在缺陷。

作为示例，采样图像的缺陷置信度为0.8，第一检测阈值为0.6、第二检测阈值为0.3，即，相对关系表征缺陷置信度大于第一检测阈值，确定缺陷置信度为0.8的采样图像存在严重缺陷。

如此，通过第一检测阈值和第二检测阈值的设置，将不同的缺陷置信度的采样图像划分为存在严重缺陷、存在轻度缺陷和不存在缺陷三种类型，从而有效对不同缺陷置信度的图像进行划分，有效提高了检测检测的准确性。

在一些实施例中，基于相对关系，确定采样图像的缺陷检测结果之后，可以通过以下方式确定待检测物品的类型：当存在严重缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为存在严重缺陷的物品；当存在轻度缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为存在轻度缺陷的物品；当不存在缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为不存在缺陷的物品。

作为示例，由于采样图像是对待检测物品的不同表面进行采样得到的，因此，采样图像的缺陷程度可以表征待检测物品的缺陷程度，通过对存在严重缺陷的采样图像、存在轻度缺陷的采样图像和不存在缺陷的采样图像的数量分别进行统计，当存在严重缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为存在严重缺陷的物品；当存在轻度缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为存在轻度缺陷的物品；当不存在缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为不存在缺陷的物品。从而，通过不同类型的采样图像的数量对待检测物品的缺陷程度进行划分，有效提高了待检测物品的分类准确度。

如此，通过基于多个携带第二标签的第二图像，确定各样本损失对应的目标权重，并基于目标权重对各样本损失进行加权求和，通过所得到的加权损失更新缺陷检测模型的模型参数，得到更新后的缺陷检测模型。由于第二标签中不包含标签噪声，使得所确定的各样本损失对应的目标权重，能够有效克服标签噪声对缺陷检测模型训练阶段的影响，使得更新后的缺陷检测模型可以输出稳定、可靠的缺陷检测结果，能够有效提高缺陷检测模型的检测精确度。同时，由于第二图像的数量小于第一图像的数量，进而可以有效减少训练样本的数量，有效增强训练效率。

下面，将说明本申请实施例在一个实际的缺陷检测的应用场景中的示例性应用。

工业缺陷质检是指对生产制造过程中的工业产品进行质量检测，传统的工业质检一般是由质检工人进行人工目检。

本申请实施例提出一种缺陷检测模型的训练方法，利用元学习以及强化学习策略，借助少量的“可信样本”集，使得缺陷检测模型可以在存在标签噪声的数据集上进行训练，从而得到鲁棒的缺陷检测模型以及精确的缺陷输出结果。

作为示例，参见图4I，图4I是本申请实施例提供的缺陷检测模型的训练方法的原理示意图。图4I中的子图(a)所展示的是无缺陷图像，图4I中的子图(b)所展示的是轻度缺陷图像，图4I中的子图(c)所展示的是严重缺陷图像。

作为示例，参见图4J，图4J是本申请实施例提供的缺陷检测模型的训练方法的原理示意图。图4J中所示出的无缺陷图像的缺陷置信度可以为0.05，图4J中所示出的缺陷图像的缺陷置信度可以为0.95。

在一些实施例中，参见图4K，图4K是本申请实施例提供的缺陷检测模型的训练方法的原理示意图。训练数据包括大量含有标签噪声的标注数据(即上文所描述的携带第一标签的第一图像)以及部分不含标签噪声的元数据(即上文所描述的不包含标签噪声的第二标签)。基于多个标注数据，分别调用深度模型(即上文所描述的缺陷检测模型)进行预测处理，得到每个标注数据分别对应的缺陷损失；基于多个元数据，调用强化学习模型进行处理，得到每个缺陷损失对应的权重；将每个标注数据分别对应的缺陷损失与相应的权重进行加权求和，得到加权损失。基于加权损失，采样梯度更新的方式，对深度模型进行训练，得到训练后的深度模型。基于待检测图像调用训练后的深度模型进行检测处理，得到待检测图像对应的缺陷置信度。

如此，通过不含噪声的元数据(即上文所描述的第二图像)能够提供强有力的引导信息，进而克服噪声数据对深度模型训练阶段造成的干扰，且元数据是在训练阶段发挥作用的，不影响实际模型部署阶段的耗时。

在一些实施例中，含有噪声的训练数据的数量为N，不含有噪声的元数据的数量为M，此处M＜＜N，训练数据经过深度模型之后，可以得到深度模型对每个训练样本的预测结果，p₁,p₂,…,p_N，该过程可以表示为：

p_i＝f(x_i；θ)i∈[1,2,…,N] (7)

其中，θ表示深度模型的参数，f(.；θ)表征深度模型，p_i表征深度模型对训练样本的预测结果。针对每一个训练样本，都能够使用损失函数L进行计算：

L_i＝L(,y_i)i∈[1,2,…,N] (8)

其中，L的选择一般是归一化(Soft max)函数，p_i表征深度模型对训练样本的预测结果，y_i表征训练样本的真实结果，L_i表征训练样本的样本损失。得到了每个样本的损失之后，会对每个样本进行加权得到最终的损失：

其中，w_i表征样本损失的权重，w_i的获取是通过元数据实现的，L_i表征训练样本的样本损失，L_train表征加权损失。具体而言，此处使用强化学习的算法对w_i进行计算。

强化学习是一种优化算法，参见图4L所示，根据当前的状态s，通过智能体的行为策略(动作a)来改变环境，奖励函数r用来衡量当前状态下的得分值，得分越高表示智能体的行为越正确，基于此，智能体可以学习到一个使得奖励函数r最大化的策略。

在本申请实施例中，智能体就对应训练集输入图片的权重值w＝[w₁,w₂,…,w_i,…,w_N]，w_i是0-1之间的数，w_i越大表示当前图片越有可能是带有干净标注的样本，反之则说明当前图片很有可能是噪声样本。w是一个超参数，和深度模型的参数均在训练阶段进行更新。

w是依据图4K中强化学习算法产生的，具体而言，输入元数据x_val，经过强化学习中的agent模块，这里agent可以采用一个小型的卷积神经网络结构，可以表示为：

w＝f_val(x_val,θ′) (10)

其中f_val(·,θ′)表示CNN结构，θ′表示CNN结构的参数。CNN执行w的输出这个步骤对应图4K中的“动作a”，进而影响“环境”，新的环境可以计算得到奖励函数，奖励函数定义为元数据集上的准确率，也即：

Reward＝-L_val (11)

其中，M表征元数据的数量，L_j表征元数据的样本损失，L_val表征元数据的综合样本损失，Reward表征奖励函数。Reward越大表示验证集上的损失越小、即预测越准确，进而辅助训练集上权重w_i的获取(即f_val(·,θ′)的训练过程)，w_i进而指导计算L_train，L_train则对深度模型进行端到端的监督训练，进而得到最终的模型权重。

如此，针对工业缺陷检测任务，采用本申请实施例可以精准的对输入图像的缺陷程度进行检测，通过使用元数据的信息进行引导，有效克服标签噪声数据对模型训练阶段的影响，训练所得的模型可以输出稳定、可靠的缺陷检测结果，为工业缺陷质量检测提供可靠的技术支撑。

可以理解的是，在本申请实施例中，涉及到第一图像、第二图像等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的缺陷检测模型的训练装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器240的缺陷检测模型的训练装置255中的软件模块可以包括：获取模块2551，用于获取多个携带第一标签的第一图像和多个携带第二标签的第二图像，其中，多个第一标签中包含标签噪声，多个第二标签中不包含标签噪声，第二图像的数量小于第一图像的数量；缺陷检测模块2552，用于通过缺陷检测模型对各第一图像分别进行缺陷检测，得到各第一图像的缺陷置信度，缺陷置信度用于，指示第一图像所包含的目标物品存在缺陷的可靠程度；样本损失确定模块2553，用于根据各第一图像的第一标签及相应的缺陷置信度，确定各第一图像对应的样本损失；加权损失确定模块2554，用于基于多个携带第二标签的第二图像，确定各样本损失对应的目标权重，并基于确定的目标权重对各样本损失进行加权求和，得到加权损失；更新模块2555，用于基于加权损失，更新缺陷检测模型的模型参数。

在一些实施例中，当第一图像的数量为第一数量、第二图像的数量为第二数量时，上述加权损失确定模块2554，还用于针对各第二图像分别执行以下处理：基于第二图像，调用强化学习模型迭代进行N轮权重计算，得到第一数量的权重，每个权重对应一个样本损失；其中，N为大于或等于2的整数；针对每个样本损失对应的权重分别执行以下处理：将第二数量的权重求平均，得到各样本损失对应的目标权重。

在一些实施例中，强化学习模型包括权重计算模型和环境模型，其中，环境模型的结构与缺陷检测模型的结构相同；上述加权损失确定模块2554，还用于基于第二图像，调用权重计算模型迭代进行N轮权重计算，得到第一数量的权重；在执行每轮权重计算的过程中，调用环境模型对第二图像进行缺陷检测，以得到第二图像对应的缺陷损失，并基于缺陷损失，在执行每轮权重计算后更新强化学习模型的模型参数。

在一些实施例中，上述加权损失确定模块2554，还用于基于第二图像，调用环境模型进行第1轮缺陷检测，得到第1轮第二图像的缺陷置信度；根据第1轮第二图像的缺陷置信度，确定第1轮第二图像对应的缺陷损失；基于第1轮第二图像对应的缺陷损失，对环境模型和权重计算模型的模型参数进行更新，得到第1轮更新后的权重计算模型和第1轮更新后的环境模型；基于第二图像，调用第1轮更新后的环境模型迭代进行N-1轮缺陷检测，得到第N轮第二图像的缺陷损失；上述加权损失确定模块，还用于基于第二图像，调用权重计算模型进行第1轮权重计算，得到第1轮第一数量的权重；基于第二图像，调用第1轮更新后的权重计算模型，迭代进行N-1轮权重计算，得到第N轮第一数量的权重；其中，第N轮第二图像对应的缺陷损失与第N-1轮第二图像对应的缺陷损失的差值小于缺陷损失阈值。

在一些实施例中，当N＝2时，上述加权损失确定模块2554，还用于基于第二图像，调用第1轮更新后的环境模型，进行第2轮缺陷检测，得到第2轮第二图像的缺陷置信度；根据第2轮第二图像的缺陷置信度，确定第2轮第二图像对应的缺陷损失；其中，第2轮第二图像的缺陷损失与第1轮第二图像的缺陷损失的差值小于缺陷损失阈值；上述加权损失确定模块，还用于基于第二图像，调用第1轮更新后的权重计算模型进行第2轮权重计算，得到第2轮第一数量的权重。

在一些实施例中，当N>2时，上述加权损失确定模块2554，还用于基于第二图像，调用第i轮更新后的环境模型进行第i+1次缺陷检测，得到第i+1轮第二图像的缺陷置信度，其中，1≤i≤N-1；根据第i+1轮第二图像的缺陷置信度，确定第i+1轮第二图像对应的缺陷损失；上述加权损失确定模块，还用于基于第二图像，调用第i轮更新后的权重计算模型进行第i+1次缺陷计算，得到第i+1轮第一数量的权重。

在一些实施例中，上述加权损失确定模块2554，还用于针对各样本损失分别执行以下处理：将样本损失与对应的权重进行相乘处理，得到样本损失对应的相乘处理结果；将各相乘处理结果进行求和，得到加权损失。

在一些实施例中，上述样本损失确定模块2553，还用于针对各第一图像分别执行以下处理：获取第一图像的第一标签所指示的标签置信度，并获取缺陷检测模型的损失函数；基于第一图像的标签置信度和第一图像的缺陷置信度，调用损失函数进行损失计算，得到第一图像对应的样本损失。

在一些实施例中，上述缺陷检测模型的训练装置，还包括：采样模块，用于对待检测物品的多个不同位置进行采样，得到待检测物品的多个采样图像；采样检测模块，用于通过更新后的缺陷检测模型，对各采样图像分别进行缺陷检测，得到各采样图像的缺陷置信度。

在一些实施例中，上述缺陷检测模型的训练装置，还包括：关系确定模块，用于针对各采样图像分别执行以下处理：确定采样图像的缺陷置信度分别与至少两个检测阈值之间的相对关系，其中，相对关系表征缺陷置信度是否大于检测阈值；其中，至少两个检测阈值的大小互不相同；检测结果确定模块，用于基于相对关系，确定采样图像的缺陷检测结果，其中，缺陷检测结果表征采样图像的缺陷程度。

在一些实施例中，至少两个检测阈值包括第一检测阈值和第二检测阈值；上述检测结果确定模块，还用于当相对关系表征缺陷置信度大于第一检测阈值时，确定采样图像存在严重缺陷；当相对关系表征缺陷置信度大于第二检测阈值，且小于第一检测阈值时，确定采样图像存在轻度缺陷；当相对关系表征缺陷置信度小于第二检测阈值时，确定采样图像不存在缺陷。

在一些实施例中，上述缺陷检测模型的训练装置，还包括：物品分类模块，用于当存在严重缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为存在严重缺陷的物品；当存在轻度缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为存在轻度缺陷的物品；当不存在缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为不存在缺陷的物品。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的缺陷检测模型的训练方法，例如，如图3A示出的缺陷检测模型的训练方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本申请实施例具有如下有益效果：

(1)通过基于多个携带第二标签的第二图像，确定各样本损失对应的目标权重，并基于目标权重对各样本损失进行加权求和，通过所得到的加权损失更新缺陷检测模型的模型参数，得到更新后的缺陷检测模型。由于第二标签中不包含标签噪声，使得所确定的各样本损失对应的目标权重，能够有效克服标签噪声对缺陷检测模型训练阶段的影响，使得更新后的缺陷检测模型可以输出稳定、可靠的缺陷检测结果，能够有效提高缺陷检测模型的检测精确度。同时，由于第二图像的数量小于第一图像的数量，进而可以有效减少训练样本的数量，有效增强训练效率。

(2)通过获取多个携带第一标签的第一图像和多个携带第二标签的第二图像，且第一图像的数量大于第二图像的数量，由于第二图像的标签置信度比较准确，因此，标签标注成本较高。第一图像的标签置信度容许存在误差，因此，标签标注成本较低。通过获取大量低标注成本的第一图像和获取少量高标注成本的第二图像，对缺陷检测模型进行训练，由于有效减少了高标注成本的第二图像，从而能够有效减少训练成本，显著增强训练效率。

(3)通过根据第一图像的第一标签及相应的缺陷置信度，确定第一图像对应的样本损失，便于后续根据样本损失确定加权损失，进而根据加权损失对缺陷检测模型进行训练。

(4)通过使用不包含标签噪声的第二图像进行引导，确定与每个样本损失对应的权重，进而将每个样本损失与对应的权重进行加权求和，得到的加权损失更够有效克服标签噪声对缺陷检测模型训练的影响，使得训练所得到的缺陷检测模型更够输出稳定且可靠的缺陷检测结果，为缺陷质量检测提供可靠的技术支撑。

(5)通过设置至少两个检测阈值与采样图像的缺陷置信度进行比较，检测阈值的设置数量与采样图像的检测精确度正相关。设置越多的检测阈值，能够对采样图像进行更加细密的划分，将采样图像的缺陷等级划分成不同的等级，从而能够有效避免采样二分类的方式，对采样图像进行检测区分导致的检测不准确的问题，有效提高了采样图像的分类准确度。

(6)通过第一检测阈值和第二检测阈值的设置，将不同的缺陷置信度的采样图像划分为存在严重缺陷、存在轻度缺陷和不存在缺陷三种类型，从而有效对不同缺陷置信度的图像进行划分，有效提高了检测检测的准确性。

(7)由于采样图像是对待检测物品的不同表面进行采样得到的，因此，采样图像的缺陷程度可以表征待检测物品的缺陷程度，通过对存在严重缺陷的采样图像、存在轻度缺陷的采样图像和不存在缺陷的采样图像的数量分别进行统计，当存在严重缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为存在严重缺陷的物品；当存在轻度缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为存在轻度缺陷的物品；当不存在缺陷的采样图像的数量大于数量阈值时，将待检测物品确定为不存在缺陷的物品。从而，通过不同类型的采样图像的数量对待检测物品的缺陷程度进行划分，有效提高了待检测物品的分类准确度。

(8)针对工业缺陷检测任务，采用本申请实施例可以精准的对输入图像的缺陷程度进行检测，通过使用元数据的信息进行引导，有效克服标签噪声数据对模型训练阶段的影响，训练所得的模型可以输出稳定、可靠的缺陷检测结果，为工业缺陷质量检测提供可靠的技术支撑。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种缺陷检测模型的训练方法，其特征在于，所述方法包括：

基于所述加权损失，更新所述缺陷检测模型的模型参数。

2.根据权利要求1所述的方法，其特征在于，当所述第一图像的数量为第一数量、所述第二图像的数量为第二数量时，所述基于所述多个携带第二标签的第二图像，确定各所述样本损失对应的目标权重，包括：

针对各所述第二图像分别执行以下处理：基于所述第二图像，调用强化学习模型迭代进行N轮权重计算，得到所述第一数量的权重，每个所述权重对应一个所述样本损失；

其中，N为大于或等于2的整数；

针对每个所述样本损失对应的权重分别执行以下处理：

将所述第二数量的权重求平均，得到各所述样本损失对应的目标权重。

3.根据权利要求2所述的方法，其特征在于，所述强化学习模型包括权重计算模型和环境模型，其中，所述环境模型的结构与所述缺陷检测模型的结构相同；

所述基于所述第二图像，调用强化学习模型迭代进行N轮权重计算，得到所述第一数量的权重，包括：

基于所述第二图像，调用所述权重计算模型迭代进行N轮权重计算，得到所述第一数量的权重；

在执行每轮所述权重计算的过程中，调用所述环境模型对所述第二图像进行缺陷检测，以得到所述第二图像对应的缺陷损失，并基于所述缺陷损失，在执行每轮所述权重计算后更新所述强化学习模型的模型参数。

4.根据权利要求3所述的方法，其特征在于，所述在执行每轮所述权重计算的过程中，调用所述环境模型对所述第二图像进行缺陷检测，以得到所述第二图像对应的缺陷损失，并基于所述缺陷损失，在执行每轮所述权重计算后更新所述强化学习模型的模型参数，包括：

基于所述第二图像，调用所述环境模型进行第1轮缺陷检测，得到第1轮所述第二图像的缺陷置信度；

根据第1轮所述第二图像的缺陷置信度，确定第1轮所述第二图像对应的缺陷损失；

基于第1轮所述第二图像对应的缺陷损失，对所述环境模型和所述权重计算模型的模型参数进行更新，得到第1轮更新后的权重计算模型和第1轮更新后的环境模型；

基于所述第二图像，调用所述第1轮更新后的环境模型迭代进行N-1轮缺陷检测，得到第N轮所述第二图像的缺陷损失；

所述基于所述第二图像，调用所述权重计算模型迭代进行N轮权重计算，得到所述第一数量的权重，包括：

基于所述第二图像，调用所述权重计算模型进行第1轮权重计算，得到第1轮所述第一数量的权重；

基于所述第二图像，调用所述第1轮更新后的权重计算模型，迭代进行N-1轮权重计算，得到第N轮所述第一数量的权重；

其中，第N轮所述第二图像对应的缺陷损失与第N-1轮所述第二图像对应的缺陷损失的差值小于缺陷损失阈值。

5.根据权利要求4所述的方法，其特征在于，当N＝2时，所述基于所述第二图像，调用所述第1轮更新后的环境模型迭代进行N-1轮缺陷检测，得到第N轮所述第二图像的缺陷损失，包括：

基于所述第二图像，调用所述第1轮更新后的环境模型，进行第2轮缺陷检测，得到第2轮所述第二图像的缺陷置信度；

根据第2轮所述第二图像的缺陷置信度，确定第2轮所述第二图像对应的缺陷损失；

其中，第2轮所述第二图像的缺陷损失与第1轮所述第二图像的缺陷损失的差值小于所述缺陷损失阈值；

所述基于所述第二图像，调用所述第1轮更新后的权重计算模型迭代进行N-1轮权重计算，得到第N轮所述第一数量的权重，包括：

基于所述第二图像，调用所述第1轮更新后的权重计算模型进行第2轮权重计算，得到第2轮所述第一数量的权重。

6.根据权利要求4所述的方法，其特征在于，当N>2时，所述基于所述第二图像，调用所述第1轮更新后的环境模型迭代进行N-1轮缺陷检测，得到第N轮所述第二图像的缺陷损失，包括：

基于所述第二图像，调用第i轮更新后的环境模型进行第i+1次缺陷检测，得到第i+1轮所述第二图像的缺陷置信度，其中，1≤i≤N-1；

根据第i+1轮所述第二图像的缺陷置信度，确定第i+1轮所述第二图像对应的缺陷损失；

基于所述第二图像，调用第i轮更新后的权重计算模型进行第i+1次缺陷计算，得到第i+1轮所述第一数量的权重。

7.根据权利要求1所述的方法，其特征在于，所述基于确定的所述目标权重对各所述样本损失进行加权求和，得到加权损失，包括：

针对各所述样本损失分别执行以下处理：

将所述样本损失与对应的所述权重进行相乘处理，得到所述样本损失对应的相乘处理结果；

将各所述相乘处理结果进行求和，得到所述加权损失。

8.根据权利要求1所述的方法，其特征在于，所述根据各所述第一图像的第一标签及相应的所述缺陷置信度，确定各所述第一图像对应的样本损失，包括：

针对各所述第一图像分别执行以下处理：

获取所述第一图像的第一标签所指示的标签置信度，并获取所述缺陷检测模型的损失函数；

基于所述第一图像的标签置信度和所述第一图像的缺陷置信度，调用所述损失函数进行损失计算，得到所述第一图像对应的样本损失。

9.根据权利要求1所述的方法，其特征在于，所述基于所述加权损失，更新所述缺陷检测模型的模型参数之后，所述方法还包括：

对待检测物品的多个不同位置进行采样，得到所述待检测物品的多个采样图像；

通过所述更新后的所述缺陷检测模型，对各所述采样图像分别进行缺陷检测，得到各所述采样图像的缺陷置信度。

10.根据权利要求9所述的方法，其特征在于，所述通过所述更新后的所述缺陷检测模型，对各所述采样图像进行缺陷检测，得到各所述采样图像的缺陷置信度之后，所述方法还包括：

针对各所述采样图像分别执行以下处理：

确定所述采样图像的缺陷置信度分别与至少两个检测阈值之间的相对关系，其中，所述相对关系表征所述缺陷置信度是否大于所述检测阈值；

其中，所述至少两个检测阈值的大小互不相同；

基于所述相对关系，确定所述采样图像的缺陷检测结果，其中，所述缺陷检测结果表征所述采样图像的缺陷程度。

11.根据权利要求10所述的方法，其特征在于，所述至少两个检测阈值包括第一检测阈值和第二检测阈值，所述第一检测阈值大于所述第二检测阈值；所述基于所述相对关系，确定所述采样图像的缺陷检测结果，包括：

当所述相对关系表征所述缺陷置信度大于所述第一检测阈值时，确定所述采样图像存在严重缺陷；

当所述相对关系表征所述缺陷置信度大于所述第二检测阈值，且小于所述第一检测阈值时，确定所述采样图像存在轻度缺陷；

当所述相对关系表征所述缺陷置信度小于所述第二检测阈值时，确定所述采样图像不存在缺陷。

12.根据权利要求11所述的方法，其特征在于，所述基于所述相对关系，确定所述采样图像的缺陷检测结果之后，所述方法还包括：

当存在严重缺陷的所述采样图像的数量大于数量阈值时，将所述待检测物品确定为存在严重缺陷的物品；

当存在轻度缺陷的所述采样图像的数量大于所述数量阈值时，将所述待检测物品确定为存在轻微缺陷的物品；

当不存在缺陷的所述采样图像的数量大于所述数量阈值时，将所述待检测物品确定为不存在缺陷的物品。

13.一种缺陷检测模型的训练装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令或者计算机程序时，实现权利要求1至12任一项所述的缺陷检测模型的训练方法。

15.一种计算机可读存储介质，存储有可执行指令或者计算机程序，其特征在于，所述可执行指令被处理器执行时实现权利要求1至12任一项所述的缺陷检测模型的训练方法。

16.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至12任一项所述的缺陷检测模型的训练方法。