CN117953321A

CN117953321A - 缺陷图像生成方法、装置、计算机设备及存储介质

Info

Publication number: CN117953321A
Application number: CN202410028194.XA
Authority: CN
Inventors: 巫文良; 陈鹏光; 倪铭昊; 王朝云; 姚恒志; 刘枢; 吕江波; 沈小勇
Original assignee: Shenzhen Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-04-30

Abstract

本申请涉及一种缺陷图像生成方法、装置、计算机设备及计算机可读存储介质。方法包括：获取原始图像和其对应的待生成缺陷信息，待生成缺陷信息包括缺陷区域信息和缺陷类别信息；基于原始图像、待生成缺陷信息和已训练的缺陷图像生成模型，确定原始图像对应的生成缺陷图像；基于原始图像和生成缺陷图像，确定目标缺陷图像；目标缺陷图像在缺陷区域信息所对应的缺陷区域中携带有缺陷类别信息所对应的缺陷。采用本申请，能够实现高效地、准确地生成在指定区域中携带有指定类别的缺陷的缺陷图像。

Description

缺陷图像生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种缺陷图像生成方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着人工智能技术的发展，采用视觉非接触式的自动化工业检测，以替代繁琐的人工检测，而针对自动化工业检测所对应的深度神经网络算法，通常需要大量的缺陷图像进行训练。

为解决训练所需的缺陷图像难以收集的问题，一方面，采用现有的对抗生成网络生成缺陷图像，然而该方法易于出现模式坍塌、生成质量低等问题；另一方面，采用现有的扩散模型生成缺陷图像，然而扩散模型的生成过程过于简化，缺乏对应的引导条件，无法有效地捕捉缺陷的复杂性和多样性，从而难以精准地控制所需生成缺陷的缺陷类型和缺陷区域，再者，扩散模型通常是针对一个特定的缺陷进行训练的，从而无法同时生成多类缺陷。

发明内容

基于此，有必要针对上述技术问题，提供一种缺陷图像生成方法、装置、计算机设备、计算机可读存储介质及计算机程序产品，能够实现高效地、准确地生成在指定区域携带有指定类别的缺陷的缺陷图像。

第一方面，本申请提供了一种缺陷图像生成方法，包括：

获取原始图像和其对应的待生成缺陷信息，待生成缺陷信息包括缺陷区域信息和缺陷类别信息；

基于原始图像、待生成缺陷信息和已训练的缺陷图像生成模型，确定原始图像对应的生成缺陷图像；

基于原始图像和生成缺陷图像，确定目标缺陷图像；目标缺陷图像在缺陷区域信息所对应的缺陷区域中携带有缺陷类别信息所对应的缺陷。

第二方面，本申请提供了一种缺陷图像生成装置，包括：

获取模块，用于获取原始图像和其对应的待生成缺陷信息，待生成缺陷信息包括缺陷区域信息和缺陷类别信息；

第一确定模块，用于基于原始图像、待生成缺陷信息和已训练的缺陷图像生成模型，确定原始图像对应的生成缺陷图像；

第二确定模块，用于基于原始图像和生成缺陷图像，确定目标缺陷图像；目标缺陷图像在缺陷区域信息所对应的缺陷区域中携带有缺陷类别信息所对应的缺陷。

第三方面，本申请提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行该计算机程序时实现上述的方法中的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的方法中的步骤。

第五方面，本申请提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述的方法中的步骤。

上述缺陷图像生成方法、装置、计算机设备、计算机可读存储介质及计算机程序产品，获取原始图像和其对应的待生成缺陷信息，其中待生成缺陷信息包括缺陷区域信息和缺陷类别信息，其中缺陷区域信息指示待生成缺陷所对应的缺陷区域，缺陷类别信息指示待生成缺陷所对应的缺陷类别；基于原始图像和待生成缺陷信息，由已训练的缺陷图像生成模型进行对应的图像处理并输出原始图像对应的生成缺陷图像；基于原始图像和生成缺陷图像之间的对应关系，在原始图像的基础上确定包含有生成缺陷图像信息的目标缺陷图像；基于此，高效地、准确地生成在缺陷区域信息所对应的缺陷区域中携带有缺陷类别信息所对应的缺陷的目标缺陷图像。

附图说明

图1为本申请实施例提供的一种缺陷图像生成方法的应用环境图；

图2为本申请实施例提供的一种缺陷图像生成方法的流程示意图；

图3为本申请实施例提供的一种图像处理方法的示意图；

图4为本申请实施例提供的另一种图像处理方法的示意图；

图5为本申请实施例提供的一种缺陷图像生成装置的结构框图；

图6为本申请实施例提供的一种计算机设备的内部结构图；

图7为本申请实施例提供的另一种计算机设备的内部结构图；

图8为本申请实施例提供的一种计算机可读存储介质的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的缺陷图像生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过通信网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备及便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，本申请实施例提供了一种缺陷图像生成方法，以该方法应用于图1中的终端102或服务器104为例进行说明。可以理解的是，计算机设备可以包括终端和服务器中的至少一种。该方法包括以下步骤：

S202、获取原始图像和其对应的待生成缺陷信息，待生成缺陷信息包括缺陷区域信息和缺陷类别信息。

其中，原始图像可表示为本身并不携带有缺陷的图像；基于原始图像生成对应的缺陷图像可表示为，生成有以该原始图像作为背景内容、以缺陷作为前景内容的图像。

其中，待生成缺陷信息是用于指定所需生成的缺陷的信息。

缺陷区域信息用于指定所需生成的缺陷在图像中的位置，例如像素坐标、像素范围等；缺陷区域信息也可表示为用于指定所需生成的缺陷在图像中的分布状况，例如，缺陷形状、缺陷大小、缺陷方向等。

缺陷类别信息用于指定所需生成的缺陷对应的类别，例如裂纹、污渍、缺失等；缺陷类别信息也可用于指定所需生成的缺陷对应的具体形式，例如呈线状或分支状的裂纹、呈斑点状或长条状的污渍、呈矩形或圆形的缺失等。

示例性地，计算机设备获取原始图像，并将该原始图像关联对应的待生成缺陷信息，例如，在该原始图像上标识所需生成的缺陷对应的缺陷区域和缺陷类别。

S204、基于原始图像、待生成缺陷信息和已训练的缺陷图像生成模型，确定原始图像对应的生成缺陷图像。

其中，缺陷图像生成模型是指一种用于生成具有特定缺陷特征的图像的深度学习模型。

示例性地，计算机设备基于待生成缺陷信息，针对原始图像进行图像处理，以使得图像处理后的原始图像能够反映出待生成缺陷信息的特征；将图像处理后的原始图像输入至已训练的缺陷图像生成模型进行图像处理，以得到原始图像对应的生成缺陷图像。

S206、基于原始图像和生成缺陷图像，确定目标缺陷图像；目标缺陷图像在缺陷区域信息所对应的缺陷区域中携带有缺陷类别信息所对应的缺陷。

示例性地，计算机设备将生成缺陷图像融合至原始图像对应的位置，以生成包含有对应缺陷的目标缺陷图像；或将生成缺陷图像直接作为包含有对应缺陷的目标缺陷图像。

可见，在本申请实施例中，获取原始图像和其对应的待生成缺陷信息，其中待生成缺陷信息包括缺陷区域信息和缺陷类别信息，其中缺陷区域信息指示待生成缺陷所对应的缺陷区域，缺陷类别信息指示待生成缺陷所对应的缺陷类别；基于原始图像和待生成缺陷信息，由已训练的缺陷图像生成模型进行对应的图像处理并输出原始图像对应的生成缺陷图像；基于原始图像和生成缺陷图像之间的对应关系，在原始图像的基础上确定包含有生成缺陷图像信息的目标缺陷图像；基于此，高效地、准确地生成在缺陷区域信息所对应的缺陷区域中携带有缺陷类别信息所对应的缺陷的目标缺陷图像。

在一些实施例中，基于原始图像、待生成缺陷信息和已训练的缺陷图像生成模型，确定原始图像对应的生成缺陷图像，包括：

S302、基于缺陷区域信息，确定原始图像对应的缺陷区域图、背景区域图和二值掩膜图；将缺陷区域图、背景区域图和二值掩膜图进行融合处理，得到目标特征图。

其中，缺陷区域图用于表征图像的前景内容，背景区域图用于表征图像的背景内容，二值掩膜图用于表征图像的前景内容与背景内容之间的差异，目标特征图用于表征包含前景内容与背景内容的图像特征。

示例性地，计算机设备将缺陷区域信息所对应的缺陷区域中的内容作为前景内容，将所对应的缺陷区域之外的内容作为背景内容；根据由缺陷区域信息所得到的前景内容与背景内容，得到对应的缺陷区域图、背景区域图和二值掩膜图；通过将缺陷区域图、背景区域图和二值掩膜图在每一通道上进行叠加处理后，得到目标特征图。

在一些实施例中，如图3所示，在原始图像上标识所需生成的缺陷对应的缺陷区域和缺陷类别，例如缺陷区域为八角形、缺陷类别为“1”的第一个缺陷，以及缺陷区域为圆形和多个三角形的结合、缺陷类别为“2”的第二个缺陷；针对第一个缺陷，将前景的特征信息和背景的特征信息进行保留，得到对应的缺陷区域图；将前景的特征信息进行保留、背景的特征信息置为0，得到对应的语义掩膜图，其中语义掩膜图用于表征图像语义信息；将前景的特征信息置为0、背景的特征信息进行保留，得到对应的背景区域图；将前景的特征信息置为255、背景的特征信息置为0，得到对应的二值掩膜图。其中前景的特征信息可表示为所需生成的缺陷所处区域对应的图像特征，背景的特征信息可表示为所需生成的缺陷所处区域之外的区域对应的图像特征。

S304、针对缺陷类别信息，生成对应的文本描述信息；对文本描述信息进行编码处理，得到目标文本条件编码。

其中，文本描述信息是指用于描述缺陷类别的文本，目标文本条件编码是指将文本描述信息的自然语言文本形式的表达转换为线性代数形式的表达。

示例性地，计算机设备根据缺陷类别信息生成对应的文字描述信息，将所生成的文字描述信息进行编码处理，以将文字描述信息由文本形式转换为向量形式或矩阵形式，即将文字描述信息映射到向量或矩阵中进行表示，得到目标文本条件编码。

S306、基于待生成缺陷信息，确定原始图像对应的语义掩膜图；将语义掩膜图所对应的语义信息进行编码处理，得到目标语义条件编码。

其中，语义掩膜图用于表征图像语义信息，图像语义信息可表示为在图像中所包含的针对物体、场景、结构等语义概念的信息；目标语义条件编码是指将表征图像语义信息的图像形式的表达转换为线性代数形式的表达。

示例性地，计算机设备根据缺陷区域信息和缺陷类别信息，得到对应的语义掩膜图，将所生成的语义掩膜图进行编码处理，以将图像语义信息由图像形式转换为向量形式或矩阵形式，即将图像语义信息映射到向量或矩阵中进行表示，得到目标语义条件编码。

在一些实施例中，在所需生成的缺陷对应的缺陷类别为裂纹时，文本描述信息可表示为以文本形式描述的“裂纹”，图像语义信息可表示为裂纹在图像中的纹理状况、分布方向、缺陷强度等以线性代数形式描述的属性信息。

在一些实施例中，基于Hugging Face-transformers库的CLIPTextModel模型，将文本描述信息进行编码处理，得到目标文本条件编码，其中CLIPTextModel模型是指将多模态信息中的文本信息进行编码处理并获得文本表示特征的模型；基于Hugging Face-transformers库的CLIPVisionModel模型，将语义掩膜图所对应的语义信息进行编码处理，得到目标语义条件编码，其中CLIPVisionModel模型是指将多模态信息中的图像信息进行编码处理并获得图像表示特征的模型。其中Hugging Face-transformers库是指为自然语言处理任务所构建的transformer库，是包含有用户所共享的学习模型和数据集的平台。

S308、将目标文本条件编码、目标语义条件编码、目标特征图输入至已训练的缺陷图像生成模型，已训练的缺陷图像生成模型包括多头注意力网络。

其中，多头注意力网络是指一种注意力机制的变体，用于深度学习中的自然语言处理和图像处理，并提高模型针对输入序列的信息获取和表达能力。

示例性地，由该缺陷图像生成模型中的已训练的多头注意力网络针对目标文本条件编码、目标语义条件编码、目标特征图进行图像处理。

S310、基于目标文本条件编码、目标语义条件编码、多头注意力网络计算目标特征图对应的注意力权重；基于注意力权重针对目标特征图进行加权处理，得到加权处理后的特征图。

其中，注意力权重是指多头注意力网络用于指导模型针对特征图不同部分进行关注的权重。

示例性地，基于目标文本条件编码和目标语义条件编码，多头注意力网络计算特征图中每一元素对应的注意力权重，基于计算后的注意力权重，针对目标特征图的每一元素进行加权处理，得到加权处理后的特征图。

在一些实施例中，基于目标文本条件编码和目标语义条件编码，多头注意力网络计算特征图中每一元素对应的注意力权重，可表示为针对目标特征图的不同部分赋予不同的重要性，以更好地保留与文本描述信息和图像语义信息相对应的特征信息，从而实现针对模型的数据处理过程的文本引导功能和语义引导功能。

S312、通过多头注意力网络将加权处理后的特征图、目标文本条件编码和目标语义条件编码进行图像处理，得到目标输出图像。

S314、基于目标输出图像，确定原始图像对应的生成缺陷图像。

示例性地，多头注意力网络将加权处理后的特征图、目标文本条件编码和目标语义条件编码进行融合，例如逐个元素相乘，得到目标输出图像；基于预设的解码网络，针对目标输出图像进行解码处理，得到生成缺陷图像。

在一些实施例中，基于Hugging Face-transformers库已有的图像解码网络，针对加权处理后的特征图、目标文本条件编码和目标语义条件编码进行融合所得的目标输出图像进行解码处理，得到对应的生成缺陷图像。

可见，本实施例中，基于所得的目标文本条件编码和目标语义条件编码，由多头注意力网络计算出目标特征图对应的注意力权重，以针对目标特征图进行加权处理，从而凸显目标特征图中与文本描述信息和图像语义信息相对应的特征信息，为模型的数据处理过程提供文本引导功能和语义引导功能，进而高效地、准确地生成在指定区域中携带有指定类别的缺陷的缺陷图像。

在一些实施例中，将目标文本条件编码、目标语义条件编码、目标特征图输入至已训练的缺陷图像生成模型之前，该方法还包括：

S402、将获取的样本特征图输入至包括多头注意力网络的待训练的缺陷图像生成模型进行处理，输出对应的样本输出图像。

示例性地，获取样本缺陷图像，其中样本缺陷图像可表示为在工业产线中实际所收集的缺陷图像；针对样本缺陷图像上的缺陷标注对应的缺陷区域信息和缺陷类别信息，基于缺陷区域信息得到与样本缺陷图像对应的样本缺陷区域图、样本背景区域图和样本二值掩膜图，进而得到对应的样本特征图。

S404、基于最小化样本特征图和样本输出图像之间的差异，确定多头注意力网络的参数的更新方向；基于更新方向针对多头注意力网络的参数进行更新。

示例性地，基于最小化样本特征图和样本输出图像之间的差异，即最小化多头注意力网络的输入和输出之间的差异。

在一些实施例中，样本特征图和样本输出图像之间的差异可表示为，样本特征图和样本输出图像之间的对应元素的均方误差。

在一些实施例中，多头注意力网络的参数包括注意力头的数量、注意力头的维度；其中，多头注意力网络通过并行处理多个注意力头，其中每一注意力头针对关注输入序列的不同方面进行学习，从而提高模型的表达能力；注意力头的维度表示为每个注意力头的查询向量、键向量和值向量的维度。

在一些实施例中，多头注意力网络的参数还包括每一注意力头所对应的查询矩阵、键矩阵和值矩阵；查询矩阵对应于查询向量，用于计算输入序列中每个元素与一个特定查询之间的关联性；键矩阵对应于键向量，用于计算输入序列中每个元素与一个特定键之间的关联性；值矩阵对应于值向量，用于将输入序列映射到输出；通过线性变换将输入序列的特征映射到查询矩阵、键矩阵和值矩阵中，并通过计算各个矩阵之间的关联性，以得到对应的注意力权重。

在一些实施例中，基于方向传播算法，以确定多头注意力网络的参数的更新方向，即从输出层向输入层反向计算参数梯度，根据梯度下降算法，确定多头注意力网络的参数的更新方向。

S406、基于预设的目标更新次数，重复针对多头注意力网络的参数进行更新，得到已训练的缺陷图像生成模型。

示例性地，针对多头注意力网络的参数进行更新后，重新将样本特征图输入至更新后的多头注意力网络，得到对应的样本输出图像，重新基于该样本特征图和该样本输出图像之间的差异，针对样本输出图像的参数再次进行更新；基于预设的目标更新次数，得到已训练的缺陷图像生成模型。

示例性地，本实施例所对应的方法步骤应用于多头注意力网络的训练过程，只需在产线上收集5张或以上的样本缺陷图像，即可实现针对多头注意力网络的训练，有效缓解了工业外观缺陷检测中数据的长尾分布问题。

可见，在本实施例中，基于最小化样本特征图和样本输出图像之间的差异，即仅需基于最小化多头注意力网络的输入和输出之间的差异，实现针对多头注意力网络的参数进行更新，从而高效地获得已训练的缺陷图像生成模型。

在一些实施例中，基于缺陷区域信息，确定原始图像对应的缺陷区域图、背景区域图和二值掩膜图，包括：

S502、基于缺陷区域信息所对应的缺陷区域，在原始图像上确定与缺陷区域相适配的裁剪区域。

其中，裁剪区域可表示为包含有缺陷区域的区域，即在裁剪区域中，在缺陷区域内所对应的信息可用于表征所需生成缺陷的前景内容，在缺陷区域之外且在裁剪区域内所对应的信息可用于表征图像所需生成缺陷的背景内容。

在一些实施例中，裁剪区域可表示为完全覆盖缺陷区域、且面积大于缺陷区域的区域；裁剪区域也可表示为其所对应的尺寸大于缺陷区域所对应的尺寸的矩形区域。

S504、确定与裁剪区域对应的缺陷区域图、背景区域图和二值掩膜图。

示例性地，基于裁剪区域中的缺陷区域所对应的缺陷区域信息，确定与裁剪区域的尺寸相对应的缺陷区域图、背景区域图和二值掩膜图。

基于原始图像和生成缺陷图像，确定目标缺陷图像，包括：

S506、将生成缺陷图像融合至原始图像中对应的裁剪区域，得到目标缺陷图像。

示例性地，所得到的生成缺陷图像的尺寸与裁剪区域的尺寸相对应，将生成缺陷图像融合至原始图像中对应的裁剪区域，以得到目标缺陷图像；在所需生成的缺陷数量为多个时，对应地生成多个生成缺陷图像，每一生成缺陷图像分别融合至原始图像中对应的裁剪区域，以得到包含有多个缺陷的目标缺陷图像，且该多个缺陷并不限于同一缺陷类别。

在一些实施例中，本实施例所对应的方法步骤，可适用于针对多头注意力网络的训练过程，也可适用于针对已训练的多头注意力网络的应用过程。

可见，在本实施例中，通过设置多个裁剪区域，以针对与裁剪区域的尺寸相对应的图像进行处理，得到对应尺寸的生成缺陷图像，将多个生成缺陷图像分别融合至原始图像中对应的裁剪区域，从而实现生成有同时包含多个缺陷的目标缺陷图像，以提高生成缺陷的效率以及所生成目标缺陷图像的多样性。

在一些实施例中，基于原始图像和生成缺陷图像，确定目标缺陷图像，包括：

S602、针对生成缺陷图像的第一目标像素，确定在原始图像上对应的第二目标像素，以及与第二目标像素对应的像素范围。

示例性地，针对生成缺陷图像的第一目标像素，确定在原始图像中对应的第二目标像素，即第一目标像素和第二目标像素的位置相对应；基于第二目标像素对应的像素范围可表示为以第二目标像素为圆心、以预设像素数量为半径的圆形像素区域范围。

S604、基于第二目标像素与像素范围内的像素之间的距离，确定像素范围内的像素对应的权重；将像素范围内的像素基于对应的权重进行加权平均处理，得到对应的平均像素值。

示例性地，基于第二目标像素与像素范围内的每一像素之间的距离，确定像素范围内的像素对应的权重，即第二目标像素与像素范围内的像素之间的距离越小，该像素所对应的权重越大，例如，第二目标像素与圆形像素区域范围中处于圆周的像素距离最大，则该像素所对应的权重最小；第二目标像素与圆形像素区域范围中处于圆心的像素（即第二目标像素本身）距离最小，则该像素所对应的权重最大。将像素范围内的每一像素按照对应的权重进行加权平均处理，得到第二目标像素对应的平均像素值。

S606、基于平均像素值，确定第一目标像素在原始图像对应位置的像素值。

S608，基于生成缺陷图像的每一第一目标像素分别在原始图像对应位置的像素值，确定原始图像对应的目标缺陷图像。

示例性地，将第二目标像素对应的平均像素值和第一目标像素对应的像素值相融合，得到第一目标像素在原始图像对应位置的像素值；基于生成缺陷图像的每一第一目标像素分别在原始图像对应位置的第二目标像素的像素值，确定原始图像对应的目标缺陷图像。

在一些实施例中，也可直接在原始图像中裁剪掉与生成缺陷图像对应的区域，由生成缺陷图像直接替换至裁剪出的空白区域中。

可见，在本实施例中，确定相匹配的分别在生成缺陷图像的第一目标像素和在原始图像的第二目标像素，基于第二目标像素与像素范围内的像素之间的距离，确定像素范围内的像素对应的权重以得到对应的平均像素值，基于平均像素值，得到第一目标像素在原始图像对应位置的像素值，从而基于像素级别将输出图像准确地、适应地融合至原始图像中。

在一些实施例中，将缺陷区域图、背景区域图和二值掩膜图进行融合处理，得到目标特征图，包括：

S702、基于预设的图像编码网络，分别对缺陷区域图和背景区域图进行编码处理，得到对应的特征编码图。

示例性地，将缺陷区域图和背景区域图分别输入至图像编码网络进行图像特征提取，分别得到用于表示图像特征的特征编码图。

S704、基于目标处理次数，对缺陷区域图所对应的特征编码图进行噪声叠加处理，得到噪声叠加编码图。

示例性地，基于目标处理次数，将缺陷区域图所对应的特征编码图进行噪声叠加处理，即多次随机生成噪声图像，并依次将所生成的噪声图像与缺陷区域图的特征编码图进行叠加，得到噪声叠加编码图。

S706、基于目标下采样参数，针对二值掩膜图进行下采样处理，得到下采样二值掩膜图。

示例性地，基于目标下采样参数，针对二值掩膜图进行下采样处理，即减小二值掩膜图对应的分辨率，得到下采样二值掩膜图。

S708、将背景区域图所对应的特征编码图、噪声叠加编码图、下采样二值掩膜图在对应的通道上进行融合处理，得到目标特征图。

示例性地，针对背景区域图进行编码处理所得到的特征编码图，可显现背景区域图对应的图像特征；针对缺陷区域图进行编码处理和噪声叠加处理所得到的噪声叠加编码图，可显现缺陷区域图对应的图像特征，且可辅助模型更好地适应于具有噪声的环境；针对二值掩膜图进行下采样处理所得到的下采样二值掩膜图，可降低图像的像素数量以减少计算复杂性。

示例性地，将背景区域图所对应的特征编码图、噪声叠加编码图、下采样二值掩膜图在每一通道上进行融合处理，得到目标特征图。

在一些实施例中，如图4所示，基于Hugging Face-transformers库中已有的图像编码网络E，针对背景区域图进行编码处理，得到第一特征编码图；基于图像编码网络E，针对缺陷区域图进行编码处理，得到第二特征编码图，将第二特征编码图基于稳定扩散模型的前向扩散操作，即随机进行50次的噪声叠加操作，得到噪声叠加编码图，其中稳定扩散模型是指一种用于图像处理和计算机视觉任务的模型；针对二值掩码图按照宽与高同时下采样8倍的参数进行下采样处理，得到下采样二值掩码图；将第一特征编码图、噪声叠加掩码图和下采样二值掩码图进行融合处理，得到目标特征图。

在一些实施例中，本实施例所对应的方法步骤，可适用于针对多头注意力网络的训练过程，也可适用于针对已训练的多头注意力网络的应用过程。在训练过程中，针对缺陷区域图对应的特征编码图，可按照预设次数或按照随机次数进行噪声叠加操作。

可见，在本实施例中，通过将背景区域图进行编码处理、缺陷区域图进行编码处理和噪声叠加处理、二值掩膜图进行下采样处理，并将处理后的图像进行融合处理，从而得到图像特征明显、噪声适应性高、数据量适中的目标特征图。

在一些实施例中，针对缺陷类别信息，生成对应的文本描述信息，包括：

S802、基于缺陷类别信息，分别生成对应于不同层级的子文本描述信息；将不同层级的子文本描述信息组成第一候选文本描述信息；其中，不同层级的子文本描述信息所对应的描述精度逐级递增。

示例性地，生成与缺陷类别信息对应的至少两个子文本描述信息，且不同的子文本描述信息对应于不同层级，不同层级的子文本描述信息所对应的描述精度逐级递增；将不同层级的子文本描述信息组成第一候选文本描述信息。

在一些实施例中，可将不同层级的子文本描述信息组成第一候选文本描述信息，也可将层级最高的子文本描述信息，即描述精度最高的子文本描述信息作为第一候选文本描述信息。

在一些实施例中，生成与缺陷类别信息对应的至少两个子文本描述信息，例如“裂纹”、“竖条状裂纹”，该两个子文本描述信息对应的层级不同，即“竖条状裂纹”所对应的层级大于“裂纹”所对应的层级，相当于“竖条状裂纹”的描述精度高于“裂纹”的描述精度，多头注意力网络仅需针对“竖条状裂纹”所对应的小类特征空间进行图像处理，而无需针对“裂纹”所对应的大类特征空间进行图像处理，以提高数据处理的效率。

在一些实施例中，“竖条状裂纹”可改用“直立条状裂纹”、“纵向纹理裂纹”等具有相同含义但不常见的描述用语，以进一步地限定多头注意力网络所需进行图像处理的特征空间。

S804、确定与第一候选文本描述信息对应的翻译文本信息，将翻译文本信息作为第二候选文本描述信息。

其中，翻译文本信息可表示为相对于第一候选文本描述信息的不同语言表达的文本信息。

在一些实施例中，可将第一候选文本描述信息转换为对应的英文翻译文本，或英文翻译文本对应的英文缩写文本。

S806、将第一候选文本描述信息和第二候选文本描述信息组成文本描述信息。

示例性地，将第一候选文本描述信息和第二候选文本描述信息拼接为文本描述信息。

可见，在本实施例中，一方面，将不同描述精度的子文本描述信息组成第一候选文本描述信息，以使得多头注意力网络更精准地识别文本描述信息，仅需针对较小的特征空间进行图像处理，从而提高数据的高效性和准确性；另一方面，将与第一候选文本描述信息对应的翻译文本信息作为第二候选文本描述信息，以使得多头注意力网络可快速地匹配原有的权重进行图像处理，从而提高数据的高效性，且在多头注意力网络训练过程中，可减少模型迭代时间。

应该理解的是，虽然如上述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种缺陷图像生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个缺陷图像生成装置实施例中的具体限定可以参见上文中对于缺陷图像生成方法的限定，在此不再赘述。

如图5所示，本申请实施例提供了一种缺陷图像生成装置500，包括：

获取模块502，用于获取原始图像和其对应的待生成缺陷信息，待生成缺陷信息包括缺陷区域信息和缺陷类别信息；

第一确定模块504，用于基于原始图像、待生成缺陷信息和已训练的缺陷图像生成模型，确定原始图像对应的生成缺陷图像；

第二确定模块506，用于基于原始图像和生成缺陷图像，确定目标缺陷图像；目标缺陷图像在缺陷区域信息所对应的缺陷区域中携带有缺陷类别信息所对应的缺陷。

在一些实施例中，在基于原始图像、待生成缺陷信息和已训练的缺陷图像生成模型，确定原始图像对应的生成缺陷图像方面，第一确定模块504具体用于：

基于缺陷区域信息，确定原始图像对应的缺陷区域图、背景区域图和二值掩膜图；将缺陷区域图、背景区域图和二值掩膜图进行融合处理，得到目标特征图；

针对缺陷类别信息，生成对应的文本描述信息；对文本描述信息进行编码处理，得到目标文本条件编码；

基于待生成缺陷信息，确定原始图像对应的语义掩膜图；将语义掩膜图所对应的语义信息进行编码处理，得到目标语义条件编码；

将目标文本条件编码、目标语义条件编码、目标特征图输入至已训练的缺陷图像生成模型，已训练的缺陷图像生成模型包括多头注意力网络；

基于目标文本条件编码、目标语义条件编码、多头注意力网络计算目标特征图对应的注意力权重；基于注意力权重针对目标特征图进行加权处理，得到加权处理后的特征图；

通过多头注意力网络将加权处理后的特征图、目标文本条件编码和目标语义条件编码进行图像处理，得到目标输出图像；

基于目标输出图像，确定原始图像对应的生成缺陷图像。

在一些实施例中，第一确定模块504还用于：将获取的样本特征图输入至包括多头注意力网络的待训练的缺陷图像生成模型进行处理，输出对应的样本输出图像；基于最小化样本特征图和样本输出图像之间的差异，确定多头注意力网络的参数的更新方向；基于更新方向针对多头注意力网络的参数进行更新；基于预设的目标更新次数，重复针对多头注意力网络的参数进行更新，得到已训练的缺陷图像生成模型。

在一些实施例中，在基于缺陷区域信息，确定原始图像对应的缺陷区域图、背景区域图和二值掩膜图方面，第一确定模块504具体用于：

基于缺陷区域信息所对应的缺陷区域，在原始图像上确定与缺陷区域相适配的裁剪区域；

确定与裁剪区域对应的缺陷区域图、背景区域图和二值掩膜图；

在基于原始图像和生成缺陷图像，确定目标缺陷图像方面，第二确定模块506具体用于：将生成缺陷图像融合至原始图像中对应的裁剪区域，得到目标缺陷图像。

在一些实施例中，在基于原始图像和生成缺陷图像，确定目标缺陷图像方面，第二确定模块506具体用于：

针对生成缺陷图像的第一目标像素，确定在原始图像上对应的第二目标像素，以及与第二目标像素对应的像素范围；

基于第二目标像素与像素范围内的像素之间的距离，确定像素范围内的像素对应的权重；将像素范围内的像素基于对应的权重进行加权平均处理，得到对应的平均像素值；

基于平均像素值，确定第一目标像素在原始图像对应位置的像素值；

基于生成缺陷图像的每一第一目标像素分别在原始图像对应位置的像素值，确定原始图像对应的目标缺陷图像。

在一些实施例中，在将缺陷区域图、背景区域图和二值掩膜图进行融合处理，得到目标特征图方面，第一确定模块504具体用于：

基于预设的图像编码网络，分别对缺陷区域图和背景区域图进行编码处理，得到对应的特征编码图；

基于目标处理次数，对缺陷区域图所对应的特征编码图进行噪声叠加处理，得到噪声叠加编码图；

基于目标下采样参数，针对二值掩膜图进行下采样处理，得到下采样二值掩膜图；

将背景区域图所对应的特征编码图、噪声叠加编码图、下采样二值掩膜图在对应的通道上进行融合处理，得到目标特征图。

在一些实施例中，在针对缺陷类别信息，生成对应的文本描述信息方面，第一确定模块504具体用于：

基于缺陷类别信息，分别生成对应于不同层级的子文本描述信息；将不同层级的子文本描述信息组成第一候选文本描述信息；其中，不同层级的子文本描述信息所对应的描述精度逐级递增；

确定与第一候选文本描述信息对应的翻译文本信息，将翻译文本信息作为第二候选文本描述信息；

将第一候选文本描述信息和第二候选文本描述信息组成文本描述信息。

上述缺陷图像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器，也可以以软件形式存储于计算机设备中的存储器，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）及通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储缺陷图像生成所需的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述的缺陷图像生成方法中的步骤。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元及输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现上述的缺陷图像生成方法中的步骤。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏；该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6或图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，如图8所示提供了一种计算机可读存储介质的内部结构图，计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（FerroelectricRandom Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（StaticRandom Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种缺陷图像生成方法，其特征在于，包括：

获取原始图像和其对应的待生成缺陷信息，所述待生成缺陷信息包括缺陷区域信息和缺陷类别信息；

基于所述原始图像、所述待生成缺陷信息和已训练的缺陷图像生成模型，确定所述原始图像对应的生成缺陷图像；

基于所述原始图像和所述生成缺陷图像，确定目标缺陷图像；所述目标缺陷图像在所述缺陷区域信息所对应的缺陷区域中携带有所述缺陷类别信息所对应的缺陷。

2.根据权利要求1所述的方法，其特征在于，所述基于所述原始图像、所述待生成缺陷信息和已训练的缺陷图像生成模型，确定所述原始图像对应的生成缺陷图像，包括：

基于所述缺陷区域信息，确定所述原始图像对应的缺陷区域图、背景区域图和二值掩膜图；将所述缺陷区域图、所述背景区域图和所述二值掩膜图进行融合处理，得到目标特征图；

针对所述缺陷类别信息，生成对应的文本描述信息；对所述文本描述信息进行编码处理，得到目标文本条件编码；

基于所述待生成缺陷信息，确定所述原始图像对应的语义掩膜图；将所述语义掩膜图所对应的语义信息进行编码处理，得到目标语义条件编码；

将所述目标文本条件编码、所述目标语义条件编码、所述目标特征图输入至已训练的缺陷图像生成模型，所述已训练的缺陷图像生成模型包括多头注意力网络；

基于所述目标文本条件编码、所述目标语义条件编码、所述多头注意力网络计算所述目标特征图对应的注意力权重；基于所述注意力权重针对所述目标特征图进行加权处理，得到加权处理后的特征图；

通过所述多头注意力网络将所述加权处理后的特征图、所述目标文本条件编码和所述目标语义条件编码进行图像处理，得到目标输出图像；

基于所述目标输出图像，确定所述原始图像对应的生成缺陷图像。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标文本条件编码、所述目标语义条件编码、所述目标特征图输入至已训练的缺陷图像生成模型之前，所述方法还包括：

将获取的样本特征图输入至包括多头注意力网络的待训练的缺陷图像生成模型进行处理，输出对应的样本输出图像；

基于最小化所述样本特征图和所述样本输出图像之间的差异，确定所述多头注意力网络的参数的更新方向；基于所述更新方向针对所述多头注意力网络的参数进行更新；

基于预设的目标更新次数，重复针对所述多头注意力网络的参数进行更新，得到所述已训练的缺陷图像生成模型。

4.根据权利要求2所述的方法，其特征在于，所述基于所述缺陷区域信息，确定所述原始图像对应的缺陷区域图、背景区域图和二值掩膜图，包括：

基于所述缺陷区域信息所对应的缺陷区域，在所述原始图像上确定与所述缺陷区域相适配的裁剪区域；

确定与所述裁剪区域对应的缺陷区域图、背景区域图和二值掩膜图；

所述基于所述原始图像和所述生成缺陷图像，确定目标缺陷图像，包括：

将所述生成缺陷图像融合至所述原始图像中对应的裁剪区域，得到目标缺陷图像。

5.根据权利要求1或2所述的方法，其特征在于，所述基于所述原始图像和所述生成缺陷图像，确定目标缺陷图像，包括：

针对所述生成缺陷图像的第一目标像素，确定在所述原始图像上对应的第二目标像素，以及与所述第二目标像素对应的像素范围；

基于所述第二目标像素与所述像素范围内的像素之间的距离，确定所述像素范围内的像素对应的权重；将所述像素范围内的像素基于对应的权重进行加权平均处理，得到对应的平均像素值；

基于所述平均像素值，确定所述第一目标像素在所述原始图像对应位置的像素值；

基于所述生成缺陷图像的每一第一目标像素分别在所述原始图像对应位置的像素值，确定所述原始图像对应的目标缺陷图像。

6.根据权利要求2所述的方法，其特征在于，所述将所述缺陷区域图、所述背景区域图和所述二值掩膜图进行融合处理，得到目标特征图，包括：

基于预设的图像编码网络，分别对所述缺陷区域图和所述背景区域图进行编码处理，得到对应的特征编码图；

基于目标处理次数，对所述缺陷区域图所对应的特征编码图进行噪声叠加处理，得到噪声叠加编码图；

基于目标下采样参数，针对所述二值掩膜图进行下采样处理，得到下采样二值掩膜图；

将所述背景区域图所对应的特征编码图、所述噪声叠加编码图、所述下采样二值掩膜图在对应的通道上进行融合处理，得到目标特征图。

7.根据权利要求2所述的方法，其特征在于，所述针对所述缺陷类别信息，生成对应的文本描述信息，包括：

基于所述缺陷类别信息，分别生成对应于不同层级的子文本描述信息；将不同层级的子文本描述信息组成第一候选文本描述信息；其中，不同层级的子文本描述信息所对应的描述精度逐级递增；

确定与所述第一候选文本描述信息对应的翻译文本信息，将所述翻译文本信息作为第二候选文本描述信息；

将所述第一候选文本描述信息和所述第二候选文本描述信息组成文本描述信息。

8.一种缺陷图像生成装置，其特征在于，包括：

获取模块，用于获取原始图像和其对应的待生成缺陷信息，所述待生成缺陷信息包括缺陷区域信息和缺陷类别信息；

第一确定模块，用于基于所述原始图像、所述待生成缺陷信息和已训练的缺陷图像生成模型，确定所述原始图像对应的生成缺陷图像；

第二确定模块，用于基于所述原始图像和所述生成缺陷图像，确定目标缺陷图像；所述目标缺陷图像在所述缺陷区域信息所对应的缺陷区域中携带有所述缺陷类别信息所对应的缺陷。

9.一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。