CN117315387A

CN117315387A - 一种工业缺陷图像生成方法

Info

Publication number: CN117315387A
Application number: CN202311152065.3A
Authority: CN
Inventors: 曾利宏; 杨洋; 李杰明; 黄淦
Original assignee: Shenzhen Huahan Weiye Technology Co ltd
Current assignee: Shenzhen Huahan Weiye Technology Co ltd
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-12-29

Abstract

本发明提供一种工业缺陷图像生成方法。该方法包括：获取缺陷前景图像和良品图像；将缺陷前景图像和良品图像输入至工业缺陷图像生成模型，上述模型生成仿真工业缺陷图像；上述模型包括：编码模块、特征融合模块、特征扩散模块和解码模块；编码模块用于提取缺陷前景图像的特征图和良品图像的特征图；特征融合模块用于对编码模块所提取的缺陷前景图像的特征图和良品图像的特征图进行融合，以得到融合特征；特征扩散模块用于实现融合特征的深度融合，并生成扩散特征；解码模块用于对扩散特征进行解码，以输出仿真工业缺陷图像。本方法仅需要数张真实的缺陷样本的图像，就能够在短时间内生成大量的仿真工业缺陷图像。

Description

一种工业缺陷图像生成方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种工业缺陷图像生成方法。

背景技术

在消费电子、新能源汽车电池等高良率的生产场景中，通常需要足够数量的包含各类缺陷的高质量训练样本用于深度视觉模型的训练，以实现工业图像缺陷的精准检测。然而，在实际生产过程中，工业缺陷图像的数量较少，且人工收集上述工业缺陷图像所需的时间长、成本高；此外，由于上述缺陷的不确定性，以及缺陷呈现多样化且伴随着类别严重失衡的特点，导致获取高质量样本的难度大幅提升，从而影响相关的模型的检测精度，甚至严重影响相关工程项目的交付进度。因此，如何在短时间内获取高质量的训练数据（即类型完备且均衡的训练样本）的问题，是视觉模型训练的一个痛点问题。而高质量的训练数据的最大问题在于部分缺陷类别图像样本的数量稀少，其类别失衡，进而导致难以满足构建良好的视觉检测模型的要求，对于缺陷类别数量较少的样本的传统获取方式包括：（1）通过人工方式在生产线进行收集：人工在生产线上获取所需的缺陷类型的目标样本，直至其数量达到要求，这是最直接的收集方式，但是这种方法耗时太长，无法满足工程项目交付的时间要求；（2）使用图像处理软件（例如Photoshop（一种图像处理软件）等）制作目标类型的缺陷样本：技术人员使用软件制作目标类型的缺陷样本，人工成本高，生成的缺陷样本的数量有限，缺陷的真实性不高；（3）在正常产品上人为地制造目标类型缺陷：该方式会对生产的良好产品会造成不可逆的破坏，尤其是对于高价值产品的破坏成本，企业是无法承受的。因此，视觉检测市场对智能缺陷生成的需求旺盛。

在缺乏训练数据或者所需检测的缺陷类别的样本数量不足的情形下，深度视觉检测模型难以训练以达到目标精度，因此，对训练数据或者部分类别的训练样本进行快速而有效的扩充，增加训练数据的多样性，有利于平衡训练集缺陷特征，实现检测模型的快速迭代，降低模型对样本的过检、漏检，提升检测性能。

在深度方式上，目前大部分缺陷生成系统采用基于生成对抗网络的方法，一般处理方式是将收集到的目标缺陷样本组成训练样本，随机初始化噪声输入生成对抗网络的生成器，生成仿真图像，生成对抗网络的判别器同时接受生成的仿真图像和对应的目标缺陷样本两个输入，然后进行判别，最后在生成对抗网络的对抗损失函数的控制下进行训练；推理时，随机初始化噪声输入训练好的生成器，生成最终的仿真工业缺陷图像。基于生成对抗网络的缺陷图像生成方式，其缺点主要包括：一是模式崩溃的问题，即生成的样本趋同，缺乏多样性；二是灵活性较差，使用者无法较好地控制，生成缺陷的位置和形状；三是，生成的缺陷图像，无法自动生成对应标注，需要后期人工添加标注，增加了成本。综合这三个方面，此种生成方式整体效果欠佳。

因此，针对现有技术的不足有必要进行改进。

发明内容

本申请针对用于深度视觉模型的包含各类缺陷的高质量训练样本的数量不足或者类别失衡问题，提出一种新的工业缺陷图像生成方法。

根据第一方面，一种实施例中提供一种工业缺陷图像生成方法。该工业缺陷图像生成方法包括：

获取缺陷前景图像和良品图像；

将所述缺陷前景图像和良品图像输入至已经训练好的工业缺陷图像生成模型，所述工业缺陷图像生成模型生成仿真工业缺陷图像；其中，所述仿真工业缺陷图像为包含仿真缺陷的工业产品图像；

其中，所述缺陷前景图像是指包含真实缺陷的工业产品图像中所述真实缺陷的图像和/或所述工业缺陷图像生成模型中缺陷记忆库所预先存储的所述真实缺陷的图像，所述良品图像是基于与所述缺陷前景图像对应的无真实缺陷的工业产品图像而得到的；

其中，所述工业缺陷图像生成模型包括：编码模块、特征融合模块、特征扩散模块和解码模块；

所述编码模块用于提取所述缺陷前景图像的特征图和良品图像的特征图；

所述特征融合模块用于对所述编码模块所提取的缺陷前景图像的特征图和良品图像的特征图进行融合，以得到融合特征；

所述特征扩散模块用于实现所述融合特征的深度融合，并生成扩散特征；

所述解码模块用于对所述扩散特征进行解码，以输出所述仿真工业缺陷图像。

一实施例中，所述编码模块包括第一背景特征提取子模块、第二背景特征提取子模块、第一前景特征提取子模块和第二前景特征提取子模块，所述特征融合模块包括第一特征融合子模块和第二特征融合子模块；

其中，

所述第一背景特征提取子模块用于对所述良品图像进行特征提取，以得到第一背景特征图；

所述第一前景特征提取子模块用于对所述缺陷前景图像进行特征提取，以得到第一前景特征图；

所述第一特征融合子模块用于对所述第一背景特征图和第一前景特征图进行特征融合，以得到第一融合特征图；

所述第二背景特征提取子模块用于对所述第一融合特征图进行特征提取，以得到第二背景特征图；

所述第二前景特征提取子模块用于对所述第一前景特征图进行特征提取，以得到第二前景特征图；

所述第二特征融合子模块对所述第二背景特征图和第二前景特征图进行特征融合，以得到第二融合特征图；

其中，所述包含真实缺陷的工业产品图像中真实缺陷的图像和/或所述缺陷记忆库所预先存储的真实缺陷的图像是将所述包含真实缺陷的工业产品图像中除预先被标注为所述真实缺陷的位置之外的像素执行置0操作或置成随机数操作或者置成所述工业产品图像中像素的均值的操作而得到的，所述良品图像是将所述无真实缺陷的工业产品图像中与所述缺陷前景图像对应的被标注为所述真实缺陷的位置的像素执行置0操作或置成随机数操作或者置成所述工业产品图像中像素的均值的操作而得到的。

一实施例中，所述第一背景特征提取子模块和第一前景特征提取子模块均包括三层标准卷积层；其中，所述标准卷积层包括依次连接的一个第一卷积层、一个批标准化层和一个激活层；

所述第二背景特征提取子模块和第二前景特征提取子模块均包括一个卷积层、一个最大池化层和两个串联的残差模块，每个所述残差模块包括两个卷积子层；所述最大池化层的输入特征图为所述卷积层的输出特征图，每个所述残差模块的输出与上一级残差模块的输出相加作为下一级残差模块的输入，其中第一个所述残差模块的输入特征图为所述最大池化层的输出特征图，第二个所述残差模块的输入特征图为第一个所述残差模块的输出特征图与所述最大池化层的输出特征图相加得到的特征图。

一实施例中，所述第一特征融合子模块对所述第一背景特征图和第一前景特征图进行特征融合，以得到第一融合特征图，包括：

分别对所述第一背景特征图和第一前景特征图执行空间注意力增强操作，以分别获得第一增强背景特征图和第一增强前景特征图；

对所述第一增强背景特征图和第一增强前景特征图在通道维度上进行拼接而得到第一增强背景与前景特征图；

通过一个第二卷积层对所述第一增强背景与前景特征图进行特征提取，以得到所述第一融合特征图；

其中，

所述第二特征融合子模块对所述第二背景特征图和第二前景特征图进行特征融合，以得到第二融合特征图，包括：

分别对所述第二背景特征图和第二前景特征图执行空间注意力增强操作，以分别获得第二增强背景特征图和第二增强前景特征图；

对所述第二增强背景特征图和第二增强前景特征图在通道维度上进行拼接而得到第二增强背景与前景特征图；

通过一个第三卷积层对所述第二增强背景与前景特征图进行特征提取，以得到所述第二融合特征图。

一实施例中，所述分别对所述第一背景特征图和第一前景特征图执行空间注意力增强操作，以分别获得第一增强背景特征图和第一增强前景特征图，包括：

分别将所述第一背景特征图和所述第一前景特征图作为待增强特征图执行以下步骤：分别对输入的所述待增强特征图在通道维度上执行最大池化操作和平均池化操作，以获得与所述待增强特征图对应的第一最大池化特征图和第一平均池化特征图；对所述第一最大池化特征图和第一平均池化特征图在通道维度上进行拼接，以获得第一拼接特征图；通过一个第四卷积层对所述第一拼接特征图进行特征提取，以获得第一卷积特征图；对所述第一卷积特征图执行Sigmoid操作，以获得第一Sigmoid特征图；将所述第一Sigmoid特征图与输入的所述待增强特征图执行逐元素相乘操作，以获得增强特征图；所述第一增强背景特征图为当所述待增强特征图为所述第一背景特征图时获得的增强特征图，所述第一增强前景特征图为当所述待增强特征图为所述第一前景特征图时获得的增强特征图。

一实施例中，所述特征扩散模块包括一个第五卷积层，所述解码模块包括多个解码子模块，其中，前一级的所述解码子模块的输出作为后一级的所述解码子模块的输入；其中，每个所述解码子模块执行以下步骤：对所述扩散特征图执行反卷积操作或上采样操作而得到反卷积特征图；对所述反卷积特征图进行第一卷积操作后进行第一ReLU激活操作而得到第一结果；对所述第一结果进行第二卷积操作后进行第二ReLU激活操作而得到第二结果；其中，所述解码模块基于最后一级的所述解码子模块所输出的所述第二结果输出所述仿真工业缺陷图像。

一实施例中，所述方法还包括：

在将所述缺陷前景图像和良品图像输入至已经训练好的工业缺陷图像生成模型之前，对所述缺陷前景图像执行以下操作的一种或多种：翻转、旋转、弹性形变、调整尺寸和调整位置。

一实施例中，所述已经训练好的工业缺陷图像生成模型通过以下步骤训练得到：

获取训练样本图像和相应的标注数据；其中，所述训练样本图像为所述包含真实缺陷的工业产品图像；

对所述训练样本图像中预先被标注为真实缺陷的位置对应的像素执行置0或置成随机数操作或者置成所述工业产品图像中像素的均值的操作得到训练良品图像，对所述训练样本图像中除被标注为真实缺陷的位置以外的像素执行置0或置成随机数操作或者置成所述工业产品图像中像素的均值的操作得到训练缺陷前景图像；

将所述训练缺陷前景图像和训练良品图像输入所述工业缺陷图像生成模型，分别对所述训练良品图像和用于训练的缺陷前景图像进行特征提取，以分别得到第一背景特征图和第一前景特征图；对所述第一背景特征图和第一前景特征图进行特征融合，以得到第一融合特征图；对所述第一融合特征图进行特征提取，以得到第二背景特征图；对所述第一前景特征图进行特征提取，以得到第二前景特征图；对所述第二背景特征图和第二前景特征图进行特征融合，以得到第二融合特征图；其中，所述工业缺陷图像生成模型中的缺陷记忆库能够自动保存所述用于训练的缺陷前景图像，并将所述用于训练的缺陷前景图像作为所述真实缺陷的图像；

在所述第二融合特征图中添加随机强度的标注噪声图后输入所述特征扩散模块得到预测噪声图；基于所述预测噪声图，经过所述特征扩散模块的相应处理而获得所述扩散特征图；基于所述扩散特征图，经过所述解码模块的处理而输出所述仿真工业缺陷图像；

根据总损失函数对所述工业缺陷图像生成模型进行训练，以获得所述已经训练好的工业缺陷图像生成模型，其中，所述总损失函数由第一损失函数和第二损失函数确定，所述第一损失函数根据所述预测噪声图和所述标注数据确定，所述第二损失函数根据所述仿真工业缺陷图像和所述训练样本图像确定。

一实施例中，所述在所述第二融合特征图中添加随机强度的标注噪声图后输入所述特征扩散模块得到预测噪声图；基于所述预测噪声图，经过所述特征扩散模块的相应处理而获得所述扩散特征图，包括：

在所述第二融合特征图中添加随机强度的标注噪声图，以获得第二融合噪声特征图；其中，所述相应的标注数据包括所述标注噪声图；

所述特征扩散模块对所述第二融合噪声特征图中的所述标注噪声图进行预测以得到所述预测噪声图；所述特征扩散模块输出所述扩散特征图；其中，所述扩散特征图是由所述第二融合噪声特征图减去所述预测噪声图而得到的。

一实施例中，所述总体损失函数的表达式为：

，

其中，所述第一损失函数的表达式为：

，

其中，所述m表示所述标注噪声图t ⁿ或者预测噪声图p ⁿ的像素点的总数，所述i表示所述标注噪声图t ⁿ或预测噪声图p ⁿ的像素点的索引。

一实施例中，所述第二损失函数的表达式为：

，

其中，所述L _MSE表示第二内容损失函数，所述第二内容损失函数为均方差损失函数；所述L _t表示第二纹理结构损失函数；所述δ ₁和δ ₂分别为所述第二内容损失函数的预设权重系数和第二纹理结构损失函数的预设权重系数。

一实施例中，所述第二内容损失函数的表达式为：

，

其中，所述n表示所述仿真工业缺陷图像y或者所述训练样本图像x的像素点的总数，所述j表示所述仿真工业缺陷图像y或者所述训练样本图像x的像素点的索引。

一实施例中，所述第二纹理结构损失函数的表达式为：

，

其中，所述T（y，x）的表达式为：

，

其中，所述T（y，x）为结构相似性损失函数，所述结构相似性损失函数用于衡量所述仿真工业缺陷图像y和训练样本图像x之间的相似性，所述μ _y和μ _x分别为所述仿真工业缺陷图像y和训练样本图像x中像素的均值，所述和分别为所述仿真工业缺陷图像y和训练样本图像x中像素的方差，σ_yx为所述仿真工业缺陷图像y和训练样本图像x中像素的协方差，所述c ₁和c ₂为预设值。

根据第二方面，一种实施例中提供一种计算机可读存储介质。该存储介质包括程序，所述程序能够被处理器执行以实现如本文中任一项实施例所述的方法。

本申请的有益效果是：

本申请的工业缺陷图像生成方法包括：获取缺陷前景图像和良品图像；将所述缺陷前景图像和良品图像输入至已经训练好的工业缺陷图像生成模型，所述工业缺陷图像生成模型生成仿真工业缺陷图像；也就是说，本申请的工业缺陷图像生成方法仅需要数张真实的缺陷样本的图像，就可以在短时间内生成大量的仿真工业缺陷图像，且所生成的仿真工业缺陷图像与真实缺陷的图像保持高度一致性和相似性，从而能够实现深度视觉缺陷检测模型的快速构建，最终提升深度视觉缺陷检测模型的检测性能，实现生产企业的降本增效。

附图说明

图1为一种实施例的工业缺陷图像生成方法中的工业缺陷图像生成模型的模块示意图；

图2为一种实施例的工业缺陷图像生成方法的流程示意图；

图3为一种实施例的第二背景特征提取子模块或第二前景特征提取子模块均的模块示意图；

图4为一种实施例的得到第一融合特征图的流程示意图；

图5为一种实施例的对工业缺陷图像生成模型进行训练的流程示意图；

图6为一种实施例的真实缺陷图像和仿真工业缺陷图像的示意图，其中，图6中左侧的图像为真实缺陷图像（即包含真实缺陷的工业产品图像中真实缺陷的图像或工业缺陷图像生成模型中缺陷记忆库所预先存储的真实缺陷的图像），图6中右侧的图像为工业缺陷图像生成模型所生成的仿真工业缺陷图像。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接（联接）。

本申请所提供的工业缺陷图像生成方法预达到的技术目的是在只有少量真实缺陷样本数据（即下文中包含真实缺陷的工业产品图像）参与的情况下，利用上述工业缺陷图像生成方法直接生成高保真的仿真缺陷样本（即下文中的仿真工业缺陷图像），而仿真缺陷样本可以直接作为训练样本，进而可以增强训练样本的多样性，构建高质量的训练样本集（训练样本集由上述训练样本组成），最终实现缺陷检测模型的快速训练和性能提升。

本申请所提供的工业缺陷图像生成方法的技术构思是：上述工业缺陷图像生成方法是基于深度学习技术来搭建网络结构的，而工业缺陷图像生成方法中所涉及的工业缺陷图像生成模型在整体上采用了类似于U-Net的“编码-解码”架构。其中，请参考图1，上述工业缺陷图像生成模型主要包括：编码模块E（Encoder）、特征融合模块R、特征扩散模块S以及解码模块D（Decoder）。其中，编码模块E主要用于对输入的背景图像（如下文中提及的良品图像和训练良品图像）和前景图像（如下文中提及的缺陷前景图像和训练缺陷前景图像）提取多层特征，并由特征融合模块R对上述多层特征进行精准融合，特征扩散模块S负责对从特征融合模块R所获得的融合特征添加人工噪声并执行扩散操作和相应的训练，最后，特征扩散模块S所输出的特征（即下文中的扩散特征图c）由解码模块D进行解码，解码模块D的本质是实现图像重建功能，恢复图像质量。其中，上述“多层特征”是泛指多个尺度或者分辨率的特征图的集合。上述“多层特征”由神经网络实现提取，是对原始图像的抽象表示。

下面将结合实施例对本申请的技术方案进行详细说明。

请参考图2，本申请提出的一种工业缺陷图像生成方法，包括：

步骤S100：获取缺陷前景图像和良品图像；

步骤S200：将缺陷前景图像和良品图像输入至已经训练好的工业缺陷图像生成模型，工业缺陷图像生成模型生成仿真工业缺陷图像；其中，仿真工业缺陷图像为包含仿真缺陷的工业产品图像。

其中，上述步骤S200中的工业缺陷图像生成模型包括：编码模块、特征融合模块、特征扩散模块和解码模块。编码模块用于提取缺陷前景图像的特征图和良品图像的特征图；特征融合模块用于对编码模块所提取的缺陷前景图像的特征图和良品图像的特征图进行融合，以得到融合特征；特征扩散模块用于实现融合特征的深度融合，并生成扩散特征；解码模块用于对扩散特征进行解码，以输出仿真工业缺陷图像。

步骤S100中的缺陷前景图像是指包含真实缺陷的工业产品图像中真实缺陷的图像和/或工业缺陷图像生成模型中缺陷记忆库所预先存储的真实缺陷的图像。良品图像是基于与缺陷前景图像对应的无真实缺陷的工业产品图像而得到的。一些实施例中，包含真实缺陷的工业产品图像中真实缺陷的图像和/或缺陷记忆库所预先存储的真实缺陷的图像是将包含真实缺陷的工业产品图像中除预先被标注为真实缺陷的位置之外的像素执行置0操作而得到的，良品图像是将上述无真实缺陷的工业产品图像中与缺陷前景图像对应的被标注为真实缺陷的位置的像素执行置0操作而得到的。也就是说，缺陷前景图像是指仅保留上述真实缺陷位置处的像素值，其余像素均置零的工业产品图像，缺陷前景图像作为前景图像；将上述无真实缺陷的工业产品图像中对应缺陷前景图像的位置的像素被置零，其余像素值均被保留而所得结果作为良品图像（即背景图像）。缺陷前景图像和良品图像被一同输入至已经训练好的工业缺陷图像生成模型中，以生成仿真工业缺陷图像。

例如，请参考图1，为仅在训练阶段中才需要输入工业缺陷图像生成模型的真实缺陷的图像。在工业缺陷图像生成模型进行推理时，不需要输入上述真实缺陷的图像来获得缺陷前景图像和良品图像。在工业缺陷图像生成模型进行推理时，获取上述缺陷前景图像的方式有两种：一是在训练阶段中工业缺陷图像生成模型自动保存下来的具有上述真实缺陷的训练图像，然后将上述训练图像中除缺陷标注位置以外的像素通过置0等方式而获得缺陷前景图像（如下文的训练缺陷前景图像）；二是将用户输入的包含真实缺陷的工业产品图像中除预先被标注为真实缺陷的位置之外的像素执行置0操作等方式而得到的。在工业缺陷图像生成模型进行推理时，获取上述良品图像的方式只有一种：对用户输入的无真实缺陷的工业产品图像对应于上述缺陷前景图像中标注为真实缺陷的位置的像素执行置0操作或具有与置0操作类似效果的其他操作，进而获得良品图像。

一些实施例中，包含真实缺陷的工业产品图像中真实缺陷的图像和/或缺陷记忆库所预先存储的真实缺陷的图像也可以是将包含真实缺陷的工业产品图像中除预先被标注为真实缺陷的位置之外的像素执行置成随机数或者上述工业产品图像中像素的均值的操作而得到的。同理，良品图像也可以是将无真实缺陷的工业产品图像中与缺陷前景图像对应的被标注为真实缺陷的位置的像素执行置成随机数或者上述工业产品图像中像素的均值的操作而得到的。

需要说明的是，进行上述置0操作，或者置成随机数的操作，又或者置成像素的均值的操作的目的是破坏上述与该操作对应的图像中像素原有的规律性，使其失去原有物理意义，进而有利于网络学习。

需要说明的是，进行上述“对无缺陷的真实图像的对应输入的前景图像的对应缺陷位置的像素执行置0操作”操作的原因是：1）无缺陷的真实图像（如工业产品图像）大量存在，且易于获取，而真实缺陷的图像数量有限，本申请是希望利用少量真实缺陷的图像，来制备大量的仿真工业缺陷图像，仿真工业缺陷图像为包含仿真缺陷的工业产品图像，而无缺陷的真实图像在此处充当背景图像；2）若直接对真实缺陷的图像中对应输入的缺陷前景图像的对应缺陷位置的像素执行置0操作，会导致所获取的背景图像（即良品图像）的数量有限，进而无法满足大量生成仿真工业缺陷图像的要求。

工业缺陷图像生成模型在进行推理时，将目标类型的缺陷前景图像作为推理输入的前景图像；将无缺陷的真实图像中对应输入的缺陷前景图像的对应缺陷位置的像素执行置0操作或者上述其他对应操作，获得推理输入的背景图像。已经训练好的工业缺陷图像生成模型获取两种图像（即缺陷前景图像和良品图像）输入，并以端到端的方式直接生成高质量的仿真工业缺陷图像。

一些实施例中，步骤S200中，即，在工业缺陷图像生成模型进行推理时，用户也可选择真实缺陷的图像的前景图像作为上述缺陷前景图像，并对上述缺陷前景图像的前景采取相应的操作控制上述真实缺陷，上述相应的操作包括翻转、旋转、弹性形变、调整尺寸（resize）、调整位置等中的一个或多个。在工业缺陷图像生成模型进行推理时，若用户没有采取任何操作控制上述真实缺陷的图像（即包含真实缺陷的工业产品图像中真实缺陷的图像和/或工业缺陷图像生成模型中缺陷记忆库所预先存储的真实缺陷的图像），则仅需要输入真实的无缺陷的工业产品图像，工业缺陷图像生成模型会自动地对上述真实的无缺陷的工业产品图像执行所有所需的操作，以方便用户的使用；若用户有选择性地控制上述真实缺陷的形状、位置和大小等中的一个或多个，工业缺陷图像生成模型则可以根据用户的具体输入执行推理。

需要说明的是，本领域技术人员可以根据实际需求对上述所有所需的操作进行设置，例如，上述所需的操作可以包括预设的、随机性的操作（如，旋转、翻转和移位等操作）。对于每一个真实缺陷，工业缺陷图像生成模型可以随机挑选上述一种或多种操作进行处理。

因此，在工业缺陷图像生成模型被训练好之后，工业缺陷图像生成模型能以端到端的方式，直接生成高质量的仿真工业缺陷图像，以达到有效、快速扩充目标类型样本的目的。

请参考图1，上述工业缺陷图像生成模型的编码模块包括第一背景特征提取子模块P ₁、第二背景特征提取子模块P ₂、第一前景特征提取子模块Q ₁和第二前景特征提取子模块Q ₂，特征融合模块包括第一特征融合子模块R ₁和第二特征融合子模块R ₂。

其中，第一背景特征提取子模块P ₁用于对良品图像x ₁进行特征提取，以得到第一背景特征图b ₁；

第一前景特征提取子模块Q ₁用于对缺陷前景图像x ₂进行特征提取，以得到第一前景特征图f ₁；

第一特征融合子模块R ₁用于对第一背景特征图b ₁和第一前景特征图f ₁进行特征融合，以得到第一融合特征图b ₁₁；

第二背景特征提取子模块P ₂用于对第一融合特征图b ₁₁进行特征提取，以得到第二背景特征图b ₂；

第二前景特征提取子模块Q ₂用于对第一前景特征图f ₁进行特征提取，以得到第二前景特征图f ₂；

第二特征融合子模块R ₂对第二背景特征图b ₂和第二前景特征图f ₂进行特征融合，以得到第二融合特征图b ₂₂。

第一背景特征图b ₁和第一前景特征图f ₁用于对良品图像x ₁和缺陷前景图像x ₂中的低级特征进行抽象表示。

第一融合特征图b ₁₁用于对良品图像x ₁和缺陷前景图像x ₂的低级特征融合后得到的特征进行抽象表示。

工业缺陷图像生成模型的第一背景特征提取子模块P ₁和第一前景特征提取子模块Q ₁的网络结构一致，但两者之间不共享参数。第二背景特征提取子模块P ₂和第二前景特征提取子模块Q ₂的网络结构一致，但两者之间不共享参数。其中，P ₁或者Q ₁的网络结构如下表1所示：

其中，上述表1中的Conv+BN+ReLU表示的是Conv（卷积层）、BN（批归一化层）、ReLU（ReLU激活函数层）的组合。Conv（卷积层）的卷积核可以为，进而上述表1的Conv+BN+ReLU可以视为3x3标准卷积层，因此，第一背景特征提取子模块P ₁或第一前景特征提取子模块Q ₁的网络结构主要包括三层3x3标准卷积层。

一些实施例中，上述第一层标准卷积层和第三层标准卷积层的步长可以为2，第二层标准卷积层的步长可以为1。由于针对图像生成是像素密集型任务，因此没有使用池化操作来降低特征图分辨率，而是使用步长为2的卷积层来实现，进而有利于维持特征的位置特征。

需要说明的是，第一背景特征提取子模块P ₁或第一前景特征提取子模块Q ₁的第二层标准卷积层的步长设置为1的作用是特征的过渡。使用卷积降低特征图的分辨率，比使用池化操作来降低特征图的分辨率，可以更好地维持相应的位置信息。此外，上述三层3x3标准卷积层的步长仅为示例性的，可以为其他数值的步长。

一些实施例中，相较于良品图像x ₁和缺陷前景图像x ₂的输入分辨率，第一背景特征图b ₁和第一前景特征图f ₁的分辨率可以分别为良品图像x ₁和缺陷前景图像x ₂的输入分辨率的1/4。

需要说明的是，本领域技术人员可以根据实际需求设定第一背景特征图b ₁和第一前景特征图f ₁的分辨率，即，第一背景特征图b ₁和第一前景特征图f ₁的分辨率不一定分别为良品图像x ₁和缺陷前景图像x ₂的输入分辨率的1/4。

工业缺陷图像生成模型的第一背景特征提取子模块P ₁和第一前景特征提取子模块Q ₁均包括三层标准卷积层；其中，标准卷积层包括依次连接的一个第一卷积层、一个批标准化层和一个激活层。

一些实施例中，请参考图3，第二背景特征提取子模块和第二前景特征提取子模块均包括一个卷积层101、一个最大池化层102和两个串联的残差模块103，每个残差模块103包括两个卷积子层；最大池化层的输入特征图为卷积层的输出特征图，每个残差模块103的输出与上一级残差模块103的输出相加作为下一级残差模块103的输入，其中第一个残差模块103的输入特征图为最大池化层的输出特征图，第二个残差模块103的输入特征图为第一个残差模块103的输出特征图与最大池化层的输出特征图相加得到的特征图。

需要说明的是，上述第二背景特征提取子模块P ₂和第二前景特征提取子模块Q ₂的结构是本申请所采用的示例结构，上述第二背景特征提取子模块P ₂和第二前景特征提取子模块Q ₂也可以采用其他符合原理要求的特征提取器，例如，常见的Res2Net和HRNet等的特征提取器。

一些实施例中，本领域技术人员也可以根据实际应用场景自行选定第二背景特征提取子模块P ₂和第二前景特征提取子模块Q ₂中的卷积层和最大池化层的具体结构参数（如卷积核的步长、输出通道数等）。例如，第二背景特征提取子模块P ₂或第二前景特征提取子模块Q ₂的卷积层的卷积核的大小可以为7×7，步长可以为2，输出通道数可以为64。第二背景特征提取子模块P ₂或第二前景特征提取子模块Q ₂的最大池化层的池化窗口大小可以为3×3，步长为2。其中，第一个残差模块103的输入特征图为最大池化层的输出特征图，第二个残差模块103的输入特征图为第一个残差模块103的输出特征图与最大池化层的输出特征图相加得到的特征图。第一个残差模块103之后的残差模块103的输出与上一级残差模块103的输出相加作为下一级残差模块103的输入。第二个残差模块103的输出特征图与第一个残差模块103的输出特征图相加作为第二背景特征提取子模块P ₂或第二前景特征提取子模块Q ₂的输出。每个残差模块103包括两个卷积子层，其中，两个卷积子层可以均为3×3卷积层（即两个卷积子层中卷积核的大小均为3×3），残差模块103中两个卷积子层的输出通道数相同。也就是说，输入残差模块103的特征图，先经过该残差模块103内的前一个卷积子层的卷积处理；前一个卷积子层卷积处理得到的特征结果输入至该残差模块103内的后一个卷积子层再继续进行卷积处理；该残差模块103内的后一个卷积子层的输出结果作为该残差模块103的输出。

需要说明的是，特征融合模块的作用是实现良品图像和缺陷前景图像中的低级特征和高级特征的精准融合。其中，低级特征具有比较好的位置信息，高级特征具有比较好的语义信息。而第一特征融合子模块R ₁和第二特征融合子模块R ₂的网络结构是一致的，其区别仅在于输入和输出的通道数不一致，且第一特征融合子模块R ₁和第二特征融合子模块R ₂的参数不共享。第一特征融合子模块R ₁输出的特征（即第一融合特征图b ₁₁）为低级特征，第二特征融合子模块R ₂输出的特征（即第二融合特征图b ₂₂）为高级特征。在神经网络中，一般低级特征的分辨率较高，与低级特征对应的输入和输出的通道数较小；高级特征的分辨率较低，与高级特征对应的输入和输出的通道数较大。

需要说明的是，第一特征融合子模块R ₁和第二特征融合子模块R ₂的作用均是提取良品图像x ₁和缺陷前景图像x ₂中的关键特征信息（例如可以代表良品图像x ₁和缺陷前景图像x ₂的抽象特征），同时抑制其他无关信息，因此，第一特征融合子模块R ₁和第二特征融合子模块R ₂均采用了空间注意力增强操作来增强相关特征以及滤除无关信息，然后两者组合并使用1x1卷积层提取综合信息（即，对所提取的良品图像x ₁和缺陷前景图像x ₂的某种高维/关键信息进行融合后的所有特征信息），最终实现特征的精准融合。

请参考图4，第一特征融合子模块R ₁对第一背景特征图b ₁和第一前景特征图f ₁进行特征融合，以得到第一融合特征图b ₁₁，包括：

步骤S11：分别对第一背景特征图b ₁和第一前景特征图f ₁执行空间注意力增强操作，以分别获得第一增强背景特征图和第一增强前景特征图；

步骤S12：对第一增强背景特征图和第一增强前景特征图在通道维度上进行拼接而得到第一增强背景与前景特征图；

步骤S13：通过一个第二卷积层对第一增强背景与前景特征图进行特征提取，以得到第一融合特征图b ₁₁。

其中，上述第二卷积层的卷积核大小为1x1。需要说明的是，空间注意力增强操作（SA，即Spatial Attention）可以采用本领域的现有技术。

第二特征融合子模块R ₂对第二背景特征图b ₂和第二前景特征图f ₂进行特征融合，以得到第二融合特征图b ₂₂，包括：

分别对第二背景特征图b ₂和第二前景特征图f ₂执行空间注意力增强操作，以分别获得第二增强背景特征图和第二增强前景特征图；

对第二增强背景特征图和第二增强前景特征图在通道维度上进行拼接而得到第二增强背景与前景特征图；

通过一个第三卷积层对第二增强背景与前景特征图进行特征提取，以得到第二融合特征图b ₂₂。

其中，上述第三卷积层的卷积核大小为1x1。

本申请一种实施例中提供另一种空间注意力增强操作的方法，本实施例中，上述分别对第一背景特征图b ₁和第一前景特征图f ₁执行空间注意力增强操作（SA，即SpatialAttention），以分别获得第一增强背景特征图和第一增强前景特征图，包括：

分别将第一背景特征图b ₁和第一前景特征图f ₁作为待增强特征图执行以下步骤：分别对输入的待增强特征图在通道维度上执行最大池化操作Max和平均池化操作Mean，以获得与待增强特征图对应的第一最大池化特征图和第一平均池化特征图；对第一最大池化特征图和第一平均池化特征图在通道维度上进行拼接，以获得第一拼接特征图；通过一个第四卷积层对第一拼接特征图进行特征提取，以获得第一卷积特征图；对第一卷积特征图执行Sigmoid操作，以获得第一Sigmoid特征图；将第一Sigmoid特征图与输入的待增强特征图执行逐元素相乘操作，以获得增强特征图；第一增强背景特征图为当待增强特征图为第一背景特征图b ₁时获得的增强特征图，第一增强前景特征图为当待增强特征图为第一前景特征图f ₁时获得的增强特征图。

需要说明的是，在通道维度上对输入执行最大池化操作之后，通道数降为1。在通道维度上对输入执行平均池化操作之后，通道数也降为1。然后，将通道数降为1的第一最大池化特征图和第一平均池化特征图在通道维度进行拼接，输出为通道数为2的第一拼接特征图。

其中，上述第四卷积层的卷积核大小为1x1。通过一个第四卷积层对第一拼接特征图进行特征提取之后，通道数降为1。

需要说明的是，由于第一特征融合子模块R ₁和第二特征融合子模块R ₂的结构以及处理流程是一致的，因此，为了避免重复，本申请仅以第一特征融合子模块R ₁的结构和处理流程举例描述，第二特征融合子模块R ₂的结构和处理流程不再赘述。即，不再重复叙述对第二背景特征图b ₂和第二前景特征图f ₂的空间注意力增强操作，对第二背景特征图b ₂和第二前景特征图f ₂的空间注意力增强操作可参考对第一背景特征图b ₁和第一前景特征图f ₁所执行的空间注意力增强操作。

需要说明的是，特征扩散模块S的主要作用是实现特征（即第二融合特征图b ₂₂）内部的进一步融合，使得第二融合特征图b ₂₂中的背景特征与前景特征可以在纹理、细节方面融合得更加自然、保真。

工业缺陷图像生成模型的特征扩散模块包括一个第五卷积层。解码模块包括多个解码子模块，其中，前一级的解码子模块的输出作为后一级的解码子模块的输入；其中，每个解码子模块执行以下步骤：对扩散特征图执行反卷积操作或上采样操作而得到反卷积特征图；对反卷积特征图进行第一卷积操作后进行第一ReLU激活操作而得到第一结果；对第一结果进行第二卷积操作后进行第二ReLU激活操作而得到第二结果。上述第五卷积层的卷积核大小为1x1。上述最后一级的解码子模块所输出的第二结果就是所需的仿真工业缺陷图像，而无需对最后一级解码子模块所输出的第二结果做其他的后处理措施。需要说明的是，前述的“基于扩散特征图，经过解码模块的处理而输出所述仿真工业缺陷图像”的具体方式可以参考此处解码模块的结构和执行步骤（如前述解码子模块所执行的步骤等），即，上述最后一级的解码子模块所输出的第二结果就是仿真工业缺陷图像。

需要说明的是，上述解码模块D采用的是经典的U-Net网络结构的解码模块，解码模块D在结构上与U-Net网络的解码模块保持一致，但输入仅为扩散特征图c，且去除了原版U-Net网络中解码模块的中间层特征短接输入，解码模块D的输出结果为y。在工业缺陷图像生成模型处于训练阶段时，上述y与x在相应损失函数L _D的控制下完成训练；在工业缺陷图像生成模型处于推理阶段时，解码模块D直接生成仿真工业缺陷图像。

需要说明的是，上述解码模块的结构仅为示例性的，上述解码模块也可以采用常见的DeepLab的解码模块或其他符合原理要求的解码模块。

扩散特征图c用于对良品图像x ₁和缺陷前景图像x ₂的融合特征（即第二融合特征图b ₂₂）进行抽象表示。

一些实施例中，本申请的工业缺陷图像生成方法还包括：在将缺陷前景图像和良品图像输入至已经训练好的工业缺陷图像生成模型之前，对缺陷前景图像执行以下操作的一种或多种：翻转、旋转、弹性形变、调整尺寸和调整位置。调整尺寸是指调整缺陷前景图像中缺陷前景的尺寸。调整位置是指调整缺陷前景图像中缺陷前景的位置。

需要说明的是，用户可根据实际需求自由地决定是否执行上述对缺陷前景图像执行以下操作的一种或多种。

请参考图5，上述步骤S200中已经训练好的工业缺陷图像生成模型通过以下步骤训练得到：

步骤S21：获取训练样本图像和相应的标注数据；其中，训练样本图像为包含真实缺陷的工业产品图像；

步骤S22：对训练样本图像中预先被标注为真实缺陷的位置对应的像素执行置0操作或置成随机数操作或者置成所述工业产品图像中像素的均值的操作得到用于训练的良品图像，对训练样本图像中除被标注为真实缺陷的位置以外的像素执行置0操作或置成随机数操作或者置成工业产品图像中像素的均值的操作得到用于训练的缺陷前景图像；

步骤S23：将用于训练的缺陷前景图像和用于训练的良品图像输入工业缺陷图像生成模型，分别对用于训练的良品图像x ₁和用于训练的缺陷前景图像x ₂进行特征提取，以分别得到第一背景特征图b ₁和第一前景特征图f ₁；对第一背景特征图b ₁和第一前景特征图f ₁进行特征融合，以得到第一融合特征图b ₁₁；对第一融合特征图b ₁₁进行特征提取，以得到第二背景特征图b ₂；对第一前景特征图f ₁进行特征提取，以得到第二前景特征图f ₂；对第二背景特征图b ₂和第二前景特征图f ₂进行特征融合，以得到第二融合特征图b ₂₂；其中，工业缺陷图像生成模型中的缺陷记忆库能够自动保存用于训练的缺陷前景图像x ₂，并将用于训练的缺陷前景图像x ₂作为真实缺陷的图像；

步骤S24：在第二融合特征图b ₂₂中添加随机强度的标注噪声图t ⁿ后输入特征扩散模块得到预测噪声图；基于所述预测噪声图，经过特征扩散模块的相应处理而获得扩散特征图c；基于扩散特征图c，经过解码模块D的处理而输出仿真工业缺陷图像；

步骤S25：根据总损失函数对工业缺陷图像生成模型进行训练，以获得已经训练好的工业缺陷图像生成模型；其中，总损失函数由第一损失函数L _S和第二损失函数L _D确定，第一损失函数L _S根据预测噪声图和标注数据确定，第二损失函数L _D根据仿真工业缺陷图像和训练样本图像确定。

需要说明的是，特征扩散模块的网络结构中的上述第五卷积层为一层卷积核为1x1的卷积层。在第二融合特征图b ₂₂中添加随机强度的标注噪声图t ⁿ后得到上述第二融合噪声特征图。特征扩散模块的上述第五卷积层对上述第二融合噪声特征图进行预测，进而得到上述预测噪声图。

例如，请参考图1，x为仅在训练阶段中才需要输入工业缺陷图像生成模型的真实缺陷的图像。在工业缺陷图像生成模型进行训练时，可以对具有分割标注的真实缺陷的图像x执行前背景分离操作。也就是说，将图像x中标注为真实缺陷的位置的像素执行置0操作或或置成随机数操作或者置成所述工业产品图像中像素的均值的操作，进而获得用于训练的良品图像x ₁；同时，将图像x中除标注为真实缺陷的位置以外的像素执行置0操作或置成随机数操作或者置成所述工业产品图像中像素的均值的操作，获得用于训练的缺陷前景图像x ₂。

在工业缺陷图像生成模型进行训练时，上述用于训练的良品图像x ₁和用于训练的缺陷前景图像x ₂作为工业缺陷图像生成模型的共同输入，工业缺陷图像生成模型的编码模块E对用于训练的良品图像x ₁和用于训练的缺陷前景图像x ₂提取多层特征并由特征融合模块执行相应的融合操作获得融合特征，特征扩散模块S负责对最后的融合特征添加人工噪声并执行扩散操作并在相应的损失函数的控制下完成训练，最后得到的特征再由解码模块D实现重建，恢复图像质量，解码模块D生成仿真工业缺陷图像y对应的目标是x。

本质上，对工业缺陷图像生成模型进行训练的目的是希望工业缺陷图像生成模型学会对上述背景图像和前景图像的特征进行融合，以实现仿真工业缺陷图像的高质量仿真生成。

一些实施例中，在对工业缺陷图像生成模型进行训练的过程中，工业缺陷图像生成模型中的缺陷记忆库会保存训练样本图像的用于训练的缺陷前景图像，进而在工业缺陷图像生成模型训练完毕并进行推理时，用户可以无需导入真实缺陷的图像作为推理的缺陷前景图像，工业缺陷图像生成模型可以自动地从上述缺陷记忆库中随机选择用于训练的缺陷前景图像作为推理的缺陷前景图像。

需要说明的是，对工业缺陷图像生成模型进行训练时，工业缺陷图像生成模型的学习目标是输入的真实样本缺陷图像（即上述用于训练的缺陷前景图像）。也就是说，本质上是希望工业缺陷图像生成模型学习对上述用于训练的良品图像和上述用于训练的缺陷前景图像在高维特征上的融合，进而使得工业缺陷图像生成模型学会缺陷前景图像与良品图像的充分融合，以使得工业缺陷图像生成模型能够最终生成非常逼近上述输入的真实样本缺陷图像的仿真工业缺陷图像，且生成的仿真工业缺陷图像更加保真、自然，进而完成缺陷图像的仿真生成任务。

上述在第二融合特征图b ₂₂中添加随机强度的标注噪声图t ⁿ后输入特征扩散模块S得到预测噪声图；基于预测噪声图获得扩散特征图c，包括：

在第二融合特征图b ₂₂中添加随机强度的标注噪声图t ⁿ，以获得第二融合噪声特征图；其中，相应的标注数据包括标注噪声图t ⁿ；

特征扩散模块S对第二融合噪声特征图中的标注噪声图t ⁿ进行预测以得到预测噪声图p ⁿ；特征扩散模块输出扩散特征图c；其中，扩散特征图c是由第二融合噪声特征图减去预测噪声图p ⁿ而得到的。

一些实施例中，标注噪声图t ⁿ的噪声类型为高斯噪声。此处不对标注噪声图t ⁿ的噪声类型进行限定，本领域技术人员可以根据实际需求选定标注噪声图t ⁿ的噪声类型。

需要说明的是，此处引入特征扩散模块来预测噪声是特征扩散模块S的通常做法。特征扩散模块的作用机理为：通过添加噪声的扰动，使得工业缺陷图像生成模型的预测结果出现较大变化，工业缺陷图像生成模型预测噪声，然后去除噪声，通过重复这个训练过程，工业缺陷图像生成模型需要学会忽略噪声，对数据中不重要和不关键的信息不再敏感，学会对关键信息的综合归纳，使得工业缺陷图像生成模型更加鲁棒，泛化能力更强。具体地，引入特征扩散模块的目的是为了得到的扩散特征图c，进而可以更好地将扩散特征图c作为良品图像x ₁和缺陷前景图像x ₂的融合特征（即第二融合特征图b ₂₂）的抽象表示，以利于最终仿真工业缺陷图像的图像生成质量。而添加随机强度的噪声的目的是为了训练工业缺陷图像生成模型可以在各种噪声条件下，学会对关键信息进行总结归纳和表示，而不受噪声影响，使得扩散特征c的表示能力更好，从而最终得到鲁棒性、泛化能力更强的工业缺陷图像生成模型。

本申请针对工业缺陷图像生成模型设计相应的组合式损失函数，以完成生成工业缺陷图像生成模型的训练。具体地，上述总体损失函数的表达式为：

，

其中，第一损失函数L _S采用均方误差的形式。第一损失函数L _S的表达式为：

，

其中，m表示标注噪声图t ⁿ或者预测噪声图p ⁿ的像素点的总数，i表示标注噪声图t ⁿ或预测噪声图p ⁿ的像素点的索引。

需要说明的是，第一损失函数L _S用于计算标注噪声图t ⁿ与预测噪声图p ⁿ的对应像素差的平方的总体平均。第一损失函数L _S可以使特征扩散模块S能够有效地预测噪声，使工业缺陷图像生成模型更加关注特征的关键部分以实现特征的充分融合，有利于提高最终生成的仿真工业缺陷图像的质量，使得生成的仿真工业缺陷图像更加自然、保真。

上述第二损失函数L _D的表达式为：

，

其中，L _MSE表示第二内容损失函数，第二内容损失函数为均方差损失函数。L _t表示第二纹理结构损失函数；δ₁和δ₂分别为第二内容损失函数的预设权重系数和第二纹理结构损失函数的预设权重系数。

一些实施例中，δ₁=0.7而δ₂=0.3。

需要说明的是，上述δ₁和δ₂的具体参数仅为示例参数。本领域技术人员可自行调整上述δ₁和δ₂的具体参数。

上述第二内容损失函数的表达式为：

，

其中，n表示仿真工业缺陷图像y或者训练样本图像x的像素点的总数，j表示仿真工业缺陷图像y或者训练样本图像x的像素点的索引。

需要说明的是，第二内容损失函数L _MSE的主要作用是使生成仿真工业缺陷图像y的像素值与目标图像（如训练样本图像x）的像素值尽可能接近。也就是说，第二内容损失函数L _MSE用于计算生成的仿真工业缺陷图像y与对应标签的图像x的像素差的平方的总体平均，进而可以有效控制所生成的仿真工业缺陷图像的质量。

上述第二纹理结构损失函数的表达式为：

，

其中，T（y，x）的表达式为：

，

其中，T（y，x）为结构相似性损失函数，结构相似性损失函数用于衡量仿真工业缺陷图像y和训练样本图像x之间的相似性，μ _y和μ _x分别为仿真工业缺陷图像y和训练样本图像x中像素的均值，和分别为仿真工业缺陷图像y和训练样本图像x中像素的方差，σ_yx为仿真工业缺陷图像y和训练样本图像x中像素的协方差，c ₁和c ₂为预设值。

需要说明的是，上述c ₁和c ₂为两个较小的常数，设置上述c ₁和c ₂的目的是避免上述T（y，x）的表达式中分母发生除零操作。第二纹理结构损失函数能够从亮度、对比度和结构三方面共同衡量重建图像（即仿真工业缺陷图像）和目标图像（即与仿真工业缺陷图像对应的标签图像）的相似性，进而能够有效地提升图像重建的质量。

请参考图6，图6中左侧的图像为真实缺陷图像（即包含真实缺陷的工业产品图像中真实缺陷的图像或工业缺陷图像生成模型中缺陷记忆库所预先存储的真实缺陷的图像），图6中右侧的图像为工业缺陷图像生成模型所生成的仿真工业缺陷图像。

本申请所提供的工业缺陷图像生成方法针对工业缺陷图像生成模型设计了相应的组合式损失函数（即上述总体损失函数），其中，针对工业缺陷图像生成模型的特征扩散模块以及解码模块分别设计了相应的损失函数（即第一损失函数和第二损失函数）以对工业缺陷图像生成模型进行训练。本申请所提供的工业缺陷图像生成方法基于数据融合的设计思想，能够实现目标类型的缺陷图像（即仿真工业缺陷图像）的高质量生成，其中，编码模块、特征扩散模块，以及特征融合模块的组合设计是整个模型结构的关键。此外，本工业缺陷图像生成方法中的工业缺陷图像生成模型可以在大规模工业图像上完成训练，用户在使用该工业缺陷图像生成模型时，可以加载对应的预训练权重（其中，预训练权重仅包含该工业缺陷图像生成模型的权重参数，预训练权重不包括预训练阶段的缺陷记忆库；用户在对该工业缺陷图像生成模型进行具体训练（微调）时，该工业缺陷图像生成模型会自动保存相关的缺陷记忆库），进而仅需使用少量真实的缺陷样本（如包含真实缺陷的工业产品图像）对工业缺陷图像生成模型进行微调，工业缺陷图像生成模型即可用于推理，进而生成目标类型的高质量样本数据（即仿真工业缺陷图像）。

可以看出，本申请针对用于深度视觉模型的训练的包含各类缺陷的高质量训练样本的数量不足或者类别失衡问题，提出一种新的工业缺陷图像生成方法。该工业缺陷图像生成方法仅需要数张真实的缺陷样本的图像，就可以在短时间内生成大量的符合用户需求（例如不同位置和形状等特定设置的缺陷）的仿真工业缺陷图像，且所生成的仿真工业缺陷图像与真实缺陷的图像保持高度一致性和相似性。也就是说，所生成的仿真工业缺陷图像可以直接作为训练样本，实现目标训练数据的快速扩充，增强训练样本的多样性，以实现深度视觉缺陷检测模型的快速构建，最终提升深度视觉缺陷检测模型的拟合能力、泛化性能和检测性能，实现生产企业的降本增效。

可以看出，相比较于基于生成对抗网络的生成方法，本申请所提供的工业缺陷图像生成方法的目的是能快速生成用户所需的目标类型的高质量缺陷样本。而本申请所提供的工业缺陷图像生成方法的优势主要有以下方面：

（1）本申请所提供的工业缺陷图像生成方法所需的真实的缺陷样本的数量较低，进而非常适用于目标类型的缺陷样本不易收集的场景，且节省人力成本；

（2）使用方便，易于控制：使用者可以灵活控制缺陷的类型、位置、大小，并且支持缺陷类型的相关组合，方便用户生成缺陷较为复杂的复合型缺陷样本；

（3）生成的仿真工业缺陷图像，自带标注，生成效率高：生成的缺陷样本与标注一一对应，标注自动化生成，使用人员无需执行繁琐的像素级标注操作，极大地提升了工作效率。本申请所提供的工业缺陷图像生成方法针对训练数据不充足不均衡的行业痛点问题，采用新颖的解决方法，生成的仿真缺陷样本真实性高，可快速定向地扩充目标类型数据，并能直接用作训练样本，以提升缺陷检测模型的检测性能。

需要说明的是，第一，特征扩散模块的“标注噪声图”与此处优势（3）中的描述“生成的缺陷样本与标注一一对应，标注自动化生成”无关。也就是说，特征扩散模块的“标注噪声图”仅在特征扩散模块中起作用；第二，此处优势（3）的描述“生成的缺陷样本与标注一一对应，标注自动化生成”指的是，上述工业缺陷图像生成模型在推理时，缺陷前景图像中缺陷的位置、大小、类型等在输入已经训练好的工业缺陷图像生成模型之前都是确定的，这也意味着，所生成的缺陷样本（即仿真工业缺陷图像）的缺陷位置、大小以及类型与之相对应，因此，“生成的缺陷样本与标注一一对应，标注自动化生成”。

可以看出，与现有技术相比，本申请所提供的工业缺陷图像生成方法具有以下优点：

（1）少量真实缺陷样本，实现缺陷样本的生成，也就是说，仅需要数张的真实缺陷样本，即不仅可以在短时间内生成大量的所需缺陷样本（即仿真工业缺陷图像），而且还可以增强训练数据的多样性，与深度视觉检测模型高度协同，提高相关的缺陷检测模型的检测能力；

（2）仿真缺陷样本（即仿真工业缺陷图像）的高度保真。本申请通过对编码模块、特征扩散模块以及特征融合模块的组合设计，使得工业缺陷图像生成模型所生成的仿真缺陷（即仿真工业缺陷图像），与真实缺陷图像的缺陷质量能够保持高度一致性和相似性，所生成的缺陷样本可直接用作深度视觉检测模型的训练样本；

（3）适用性强，技术的应用场景广泛，也就是说，本申请所提供的工业缺陷图像生成方法可用于不同产品和不同的类型缺陷，适用场景宽泛，使用者可以根据自身需求，灵活方便地生成不同产品的目标类型的缺陷样本。

以上就是关于工业缺陷图像生成方法的一些说明。本申请一些实施例中还公开了一种计算机可读存储介质。该存储介质包括程序，程序能够被处理器执行以实现如本文中任一实施例的方法。

本文参照了各种示范实施例进行说明。然而，本领域的技术人员将认识到，在不脱离本文范围的情况下，可以对示范性实施例做出改变和修正。例如，各种操作步骤以及用于执行操作步骤的组件，可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现（例如一个或多个步骤可以被删除、修改或结合到其他步骤中）。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。另外，如本领域技术人员所理解的，本文的原理可以反映在计算机可读存储介质上的计算机程序产品中，该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用，包括磁存储设备（硬盘、软盘等）、光学存储设备（CD至ROM、DVD、Blu Ray盘等）、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器，使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中，该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行，这样存储在计算机可读存储器中的指令就可以形成一件制造品，包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上，从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程，使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。

虽然在各种实施例中已经示出了本文的原理，但是许多特别适用于特定环境和操作要求的结构、布置、比例、元件、材料和部件的修改可以在不脱离本披露的原则和范围内使用。以上修改和其他改变或修正将被包含在本文的范围之内。

前述具体说明已参照各种实施例进行了描述。然而，本领域技术人员将认识到，可以在不脱离本披露的范围的情况下进行各种修正和改变。因此，对于本披露的考虑将是说明性的而非限制性的意义上的，并且所有这些修改都将被包含在其范围内。同样，有关于各种实施例的优点、其他优点和问题的解决方案已如上所述。然而，益处、优点、问题的解决方案以及任何能产生这些的要素，或使其变得更明确的解决方案都不应被解释为关键的、必需的或必要的。本文中所用的术语“包括”和其任何其他变体，皆属于非排他性包含，这样包括要素列表的过程、方法、文章或设备不仅包括这些要素，还包括未明确列出的或不属于该过程、方法、系统、文章或设备的其他要素。此外，本文中所使用的术语“耦合”和其任何其他变体都是指物理连接、电连接、磁连接、光连接、通信连接、功能连接和/或任何其他连接。

具有本领域技术的人将认识到，在不脱离本发明的基本原理的情况下，可以对上述实施例的细节进行许多改变。因此，本发明的范围应仅由权利要求确定。

Claims

1.一种工业缺陷图像生成方法，其特征在于，包括：

获取缺陷前景图像和良品图像；

2.如权利要求1所述的工业缺陷图像生成方法，其特征在于，所述编码模块包括第一背景特征提取子模块、第二背景特征提取子模块、第一前景特征提取子模块和第二前景特征提取子模块，所述特征融合模块包括第一特征融合子模块和第二特征融合子模块；

其中，

3.如权利要求2所述的工业缺陷图像生成方法，其特征在于，所述第一背景特征提取子模块和第一前景特征提取子模块均包括三层标准卷积层；其中，所述标准卷积层包括依次连接的一个第一卷积层、一个批标准化层和一个激活层；

4.如权利要求2所述的工业缺陷图像生成方法，其特征在于，所述第一特征融合子模块对所述第一背景特征图和第一前景特征图进行特征融合，以得到第一融合特征图，包括：

其中，

5.如权利要求4所述的工业缺陷图像生成方法，其特征在于，所述分别对所述第一背景特征图和第一前景特征图执行空间注意力增强操作，以分别获得第一增强背景特征图和第一增强前景特征图，包括：

6.如权利要求1所述的工业缺陷图像生成方法，其特征在于，所述特征扩散模块包括一个第五卷积层，所述解码模块包括多个解码子模块，其中，前一级的所述解码子模块的输出作为后一级的所述解码子模块的输入；其中，每个所述解码子模块执行以下步骤：对所述扩散特征图执行反卷积操作或上采样操作而得到反卷积特征图；对所述反卷积特征图进行第一卷积操作后进行第一ReLU激活操作而得到第一结果；对所述第一结果进行第二卷积操作后进行第二ReLU激活操作而得到第二结果；其中，所述解码模块基于最后一级的所述解码子模块所输出的所述第二结果输出所述仿真工业缺陷图像。

7.如权利要求1所述的工业缺陷图像生成方法，其特征在于，所述方法还包括：

8.如权利要求2所述的工业缺陷图像生成方法，其特征在于，所述已经训练好的工业缺陷图像生成模型通过以下步骤训练得到：

9.如权利要求8所述的工业缺陷图像生成方法，其特征在于，所述在所述第二融合特征图中添加随机强度的标注噪声图后输入所述特征扩散模块得到预测噪声图；基于所述预测噪声图，经过所述特征扩散模块的相应处理而获得所述扩散特征图，包括：

10.如权利要求8所述的工业缺陷图像生成方法，其特征在于，所述总体损失函数的表达式为：

，

其中，所述第一损失函数的表达式为：

，

11.如权利要求8所述的工业缺陷图像生成方法，其特征在于，所述第二损失函数的表达式为：

，

12.如权利要求11所述的工业缺陷图像生成方法，其特征在于，所述第二内容损失函数的表达式为：

，

13.如权利要求11所述的工业缺陷图像生成方法，其特征在于，所述第二纹理结构损失函数的表达式为：

，

其中，所述T（y，x）的表达式为：

，

14.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1至13中任一项所述的方法。