CN115953506A

CN115953506A - 基于图像生成模型的工业零件缺陷图像生成方法及系统

Info

Publication number: CN115953506A
Application number: CN202310026394.7A
Authority: CN
Inventors: 许江杰; 黄佳康; 杨义磊
Original assignee: Shanghai Hujue Technology Co ltd
Current assignee: Shanghai Hujue Technology Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-04-11

Abstract

本发明提供了一种基于图像生成模型的工业零件缺陷图像生成方法及系统，大体分为两步，首先训练一个文本先验模型，将特定文本和对应图像匹配起来，然后将文本特征和图像特征输入图像生成模型，训练生成带有特征性的工业零件缺陷图，综合利用原始工业零件缺陷图训练图像生成模型，提高模型的鲁棒性和实用性，生成实际工业中不易获取的零件缺陷图数据集。本发明采用级联扩散模型，通过图像生成模型和超分辨率扩散模型，解决了传统图像生成模型真实性低的问题，保证了生成工业生产线中零件缺陷图细节的高保真性。

Description

基于图像生成模型的工业零件缺陷图像生成方法及系统

技术领域

本发明涉及图像生成模型的技术领域，具体地，涉及基于图像生成模型的工业零件缺陷图像生成方法及系统。

背景技术

随着工业的发展，对工业零件的缺陷检测要求也随之变高，现有技术中工业零件缺陷图像生成的缺点有：训练不稳定，网络训练不平衡导致模型效果下降；生成的工业零件缺陷图的多样性和真实性较低；缺陷图生成过程是隐式的无法知道中间过程。

在公告号为CN111160373B的发明文献中公开了一种变速鼓零件缺陷图像特征提取以及检测分类方法，属于机器视觉领域，包括步骤：S1：获取特征点，计算出特征点区域的主方向，进行坐标变换，分为8个方向，计算出周围4×4区域的方向描述子，形成128维描述向量；S2：采用K-means聚类，设计词库数量为1000，生成词频向量；S3：将最初缺陷图片转为HSV格式，按通道在每块图像上提取一阶、二阶和三阶颜色矩特征，形成颜色矩特征向量；S4：将步骤S2的词频向量与步骤S3的颜色矩特征向量分别输入SVM进行训练，按照不同的兴趣区域以及计算出的可信度，得到对应的融合模型，实现准确分类。

针对上述中的相关技术，发明人认为需要提出一种新的技术方案以改善上述技术问题。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于图像生成模型的工业零件缺陷图像生成方法及系统。

根据本发明提供的一种基于图像生成模型的工业零件缺陷图像生成方法，所述方法包括如下步骤：

步骤S1：收集并整理工业零件缺陷图像A；

步骤S2：对工业零件缺陷图像A进行预处理，通过图像增强和去噪，获得更清晰的零件缺陷图；

步骤S3：训练文本先验模型，输入特定文本与图像，获得文本图像对，其中文本信息和图像信息分别经过文本编码器和图像编码器提取文本特征B和图像特征D；

步骤S4：将生成的文本图像对、文本特征B和图像特征D输入图像生成模型；

步骤S5：训练图像生成模型，图像特征D作为图像特征的正样本进行训练，训练时生成的图像特征D与对应文本的图像特征C进行比对训练，最后通过一个解码器根据图像特征D生成图像；

步骤S6：利用工业零件缺陷图像A微调图像生成模型，鼓励模型生成与文本标识符相同的类的不同实例，训练好工业零件缺陷图生成模型；

步骤S7：生成工业零件缺陷图数据集，用文本描述生成带缺陷的零件图，对生成的图片进行进一步的筛选，得到工业产线所需零件缺陷图数据集。

优选地，所述步骤S2包括如下步骤：

步骤S2.1：所述步骤S2具体包括对图像A进行图像增强和去噪，并将完好的图像处理成对应的大小；

步骤S2.2：将原始缺陷图片进行裁剪并去除背景信息。

优选地，所述步骤S3包括如下步骤：

步骤S3.1：输入一个图片经过图像编码器得到图像特征I_f，输入一个特定文本经过文本编码器得到文本特征T_f；

步骤S3.2：特征I_f和特征T_f分别经过不同的全连接层，将单模态的特征转化为多模态，将不同的文本特征与图片特征转换为相同的结构，然后再分别对不同的特征信息做归一化处理；

步骤S3.3：文本编码器的主干模型是Transformer，图像编码器的主干模型是ResNets。

优选地，所述步骤S5包括如下步骤：

步骤S5.1：图像生成模型包含两部分，第一部分为prior，根据来自文本先验模型的文本图像对生成类似的图像特征，第二部分为decoder，使用的是扩散模型，根据prior输出的图像特征生成特征性图像；

步骤S5.2：设计一种先验预测方式直接预测噪声，通过生成两个z_i样本并选择使用具有较高点积的样本z_t；

步骤S5.3：decoder使用的扩散模型是概率生成模型，通过对从高斯分布采样的变量进行逐步去噪来训练以学习数据分布。

优选地，所述步骤S7包括如下步骤：

步骤S7.1：微调后的缺陷图生成模型，通过对模型通过输入特征性的文本，得到工业产线上所产生不易获取的零件缺陷图；

步骤S7.2：通过输入文本，生成图片，然后对生成的图像进行调整，对整体生成图片进行挑选；

步骤S7.3：对调整后的缺陷图生成模型，输入特定性的电子缺陷图文本，获取电子产品缺陷图，扩充缺陷图的数据集样本。

本发明还提供一种基于图像生成模型的工业零件缺陷图像生成系统，所述系统包括如下模块：

模块M1：收集并整理工业零件缺陷图像A；

模块M2：对工业零件缺陷图像A进行预处理，通过图像增强和去噪，获得更清晰的零件缺陷图；

模块M3：训练文本先验模型，输入特定文本与图像，获得文本图像对，其中文本信息和图像信息分别经过文本编码器和图像编码器提取文本特征B和图像特征D；

模块M4：将生成的文本图像对、文本特征B和图像特征D输入图像生成模型；

模块M5：训练图像生成模型，图像特征D作为图像特征的正样本进行训练，训练时生成的图像特征D与对应文本的图像特征C进行比对训练，最后通过一个解码器根据图像特征D生成图像；

模块M6：利用工业零件缺陷图像A微调图像生成模型，鼓励模型生成与文本标识符相同的类的不同实例，训练好工业零件缺陷图生成模型；

模块M7：生成工业零件缺陷图数据集，用文本描述生成带缺陷的零件图，对生成的图片进行进一步的筛选，得到工业产线所需零件缺陷图数据集。

优选地，所述模块M2包括如下模块：

模块M2.1：所述模块M2具体包括对图像A进行图像增强和去噪，并将完好的图像处理成对应的大小；

模块M2.2：将原始缺陷图片进行裁剪并去除背景信息。

优选地，所述模块M3包括如下模块：

模块M3.1：输入一个图片经过图像编码器得到图像特征I_f，输入一个特定文本经过文本编码器得到文本特征T_f；

模块M3.2：特征I_f和特征T_f分别经过不同的全连接层，将单模态的特征转化为多模态，将不同的文本特征与图片特征转换为相同的结构，然后再分别对不同的特征信息做归一化处理；

模块M3.3：文本编码器的主干模型是Transformer，图像编码器的主干模型是ResNets。

优选地，所述模块M5包括如下模块：

模块M5.1：图像生成模型包含两部分，第一部分为prior，根据来自文本先验模型的文本图像对生成类似的图像特征，第二部分为decoder，使用的是扩散模型，根据prior输出的图像特征生成特征性图像；

模块M5.2：设计一种先验预测方式直接预测噪声，通过生成两个z_i样本并选择使用具有较高点积的样本z_t；

模块M5.3：decoder使用的扩散模型是概率生成模型，通过对从高斯分布采样的变量进行逐步去噪来训练以学习数据分布。

优选地，所述模块M7包括如下模块：

模块M7.1：微调后的缺陷图生成模型，通过对模型通过输入特征性的文本，得到工业产线上所产生不易获取的零件缺陷图；

模块M7.2：通过输入文本，生成图片，然后对生成的图像进行调整，对整体生成图片进行挑选；

模块M7.3：对调整后的缺陷图生成模型，输入特定性的电子缺陷图文本，获取电子产品缺陷图，扩充缺陷图的数据集样本。

与现有技术相比，本发明具有如下的有益效果：

1、电子产品缺陷检测需要海量数据对神经网络模型进行训练，然而，目前工业检测领域缺乏类似的数据集，本发明利用少量缺陷图片微调图像生成模型生成符合实际生成线的特征性电子缺陷图数据集，为电子产品缺陷检测提供了数据基础；

2、本发明采用级联扩散模型，通过图像生成模型和超分辨率扩散模型，解决了传统图像生成模型真实性低的问题，保证了生成工业生产线中零件缺陷图小细节的高保真性；

3、本发明两阶段的图像生成模型，通过文本先验模型生成的文本图像对，实现了显式的生成图像特征，再由图像特征生成图像的过程，解决了传统图像生成模型隐式生成过程的的局限性，提高了零件缺陷图生成模型的生成效果，实现了生产过程的可视化。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的流程原理图；

图2为本发明的效果图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

步骤S1：收集并整理工业零件缺陷图像A；

步骤S2.2：将原始缺陷图片进行裁剪并去除背景信息。

步骤S7：生成工业零件缺陷图数据集，用文本描述生成带缺陷的零件图，对生成的图片进行进一步的筛选，得到工业产线所需零件缺陷图数据集；

本发明还提供一种基于图像生成模型的工业零件缺陷图像生成系统，所述基于图像生成模型的工业零件缺陷图像生成系统可以通过执行所述基于图像生成模型的工业零件缺陷图像生成方法的流程步骤予以实现，即本领域技术人员可以将所述基于图像生成模型的工业零件缺陷图像生成方法理解为所述基于图像生成模型的工业零件缺陷图像生成系统的优选实施方式。

实施例2：

模块M1：收集并整理工业零件缺陷图像A；

模块M2.2：将原始缺陷图片进行裁剪并去除背景信息。

模块M7：生成工业零件缺陷图数据集，用文本描述生成带缺陷的零件图，对生成的图片进行进一步的筛选，得到工业产线所需零件缺陷图数据集；

实施例3：

本发明提出了一种基于图像生成模型的工业零件缺陷图生成方法，大体分为两步，首先训练一个文本先验模型，将特定文本和对应图像匹配起来，然后将文本特征和图像特征输入图像生成模型，训练生成带有特征性的工业零件缺陷图，综合利用原始工业零件缺陷图训练图像生成模型，提高模型的鲁棒性和实用性，生成实际工业中不易获取的零件缺陷图数据集。

本发明包括如下步骤：

步骤1、收集并整理工业零件缺陷图像A。

步骤2、对工业零件缺陷图像A进行预处理，通过图像增强和去噪，获得更清晰的零件缺陷图。

步骤3、训练文本先验模型，输入特定文本与图像，获得文本图像对，其中文本信息和图像信息分别经过文本编码器和图像编码器提取文本特征B和图像特征D；训练的文本先验模型使用的是CLIP模型，利用CLIP模型对特定文本和对应图像进行匹配训练，使文本信息和对应的图像特征匹配起来，例如“马达-马达图像，桌子-桌子图像，椅子-椅子图像”；训练好的文本先验模型会输出两种信息。将CLIP中训练好的text encoder拿出来，输入文本，得到文本编码zt。同样的，将CLIP中训练好的image encoder拿出来，输入图像得到图像编码zi。这样就得到了文本编码与图像编码，然后将获得的文本编码和图像编码输入到图像生成模型。

步骤4、将生成的文本图像对、文本特征B和图像特征D输入图像生成模型。

步骤5、训练图像生成模型，图像特征D作为图像特征的正样本进行训练，图像特征D作为图像特征的正样本进行训练。图像生成模型包含两部分，第一部分为prior，根据来自文本先验模型的文本图像对生成类似的图像特征，第二部分为decoder，使用的是扩散模型，根据prior输出的图像特征生成特征性图像。上一步生成的文本特征B作为输入，输入到prior中，利用prior模块生成图像特征D₁，图像特征D输入到decoder中，作为图像特征的正样本进行训练，将生成的图像特征D₁和图像特征D进行比对得到一个损失函数loss，来调控decoder生成模型的效果，最后用decoder生成图像。

步骤6、利用工业零件缺陷图像A微调图像生成模型，鼓励模型生成与文本标识符相同的类的不同实例，训练好工业零件缺陷图生成模型；

步骤7、生成工业零件缺陷图数据集，用文本描述生成带缺陷的零件图，例如“马达底座裂纹”，对生成的图片进行进一步的筛选，得到工业产线所需零件缺陷图数据集。

所述步骤2包括如下步骤：

2.1：所述步骤S2具体包括：对图像A进行图像增强和去噪，并将完好的图像处理成对应的大小。

2.2：如果将整个图片进行训练，会加大训练时间，降低生成图片的质量，故将原始缺陷图片进行裁剪同时去除背景信息，这样减少了背景冗余信息，提高特征性缺陷生成的图片质量。

所述步骤3包括如下步骤：

3.1：输入一个图片经过图像编码器得到特征I_f，输入一个特定文本经过文本编码器得到特征T_f。

3.2：两个特征分别经过不同的全连接层，将单模态的特征转化为多模态，目的是将不同的文本特征与图片特征转换为相同的结构，然后再分别对不同的特征信息做一归一化处理。

3.4：其中文本编码器的主干模型是Transformer，图像编码器的主干模型是ResNets。

所述步骤5包括如下步骤：

5.1：图像生成模型包含两部分，第一部分为prior，根据来自文本先验模型的文本图像对生成类似的图像特征，第二部分为decoder，使用的是扩散模型，根据prior输出的图像特征生成特征性图像。

5.2：设计了一种先验预测方式直接预测噪声，以便提高生成样本的真实性，通过生成两个z_i样本并选择使用具有较高点积的样本z_t来提高采样期间的质量，这样更好地训练模型来直接预测噪声z_i，并在该预测中使用均方误差损失：

5.3：decoder使用的扩散模型是概率生成模型，通过对从高斯分布采样的变量进行逐步去噪来训练以学习数据分布。简单来说，使用平方误差损失训练条件扩散模型，以对可变噪声图像z_t:＝α_tx+σ_t∈如下所示：

其中x是真实标签图像，c是条件向量,

是噪声项，α_t,σ_t,w_t是控制噪声计划和样品质量的项，

是扩散过程时间t的函数。在推断时，通过迭代去噪

对扩散模型进行采样，使用随机祖先采样器，生成中间点zt1，…,ztT，其中1＝t₁>…>t_T＝0，数值逐渐拟合，噪声水平降低，

这些生成的中间点是x预测的函数。

所述步骤7包括如下步骤：

7.1：微调后的缺陷图生成模型，通过对模型通过输入特征性的文本，来获取工业产线上所产生不易获取的零件缺陷图。

7.2：通过输入文本例如“马达底座裂纹”，生成包含马达底座裂纹图片，然后对生成的图像进行调整，对整体生成图片进行挑选。

7.3：对调整后的缺陷图生成模型，输入特定性的电子缺陷图文本，获取电子产品缺陷图，扩充缺陷图的数据集样本。

基于图像生成模型的工业零件缺陷图生成方法的优点为：扩散模型学习由于噪声引起的信息衰减，然后使用学习到的模式来生成图像，因此扩散模型生成的图片真实性更高。图像生成模型通过冻结训练，提高了模型训练的稳定性。两阶段的图像生成模型，实现了显式的生成图像特征，再由图像特征生成图像的过程，模型具有更好的可解释性。

本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于图像生成模型的工业零件缺陷图像生成方法，其特征在于，所述方法包括如下步骤：

步骤S1：收集并整理工业零件缺陷图像A；

2.根据权利要求1所述的基于图像生成模型的工业零件缺陷图像生成方法，其特征在于，所述步骤S2包括如下步骤：

步骤S2.2：将原始缺陷图片进行裁剪并去除背景信息。

3.根据权利要求1所述的基于图像生成模型的工业零件缺陷图像生成方法，其特征在于，所述步骤S3包括如下步骤：

4.根据权利要求1所述的基于图像生成模型的工业零件缺陷图像生成方法，其特征在于，所述步骤S5包括如下步骤：

5.根据权利要求1所述的基于图像生成模型的工业零件缺陷图像生成方法，其特征在于，所述步骤S7包括如下步骤：

6.一种基于图像生成模型的工业零件缺陷图像生成系统，其特征在于，所述系统包括如下模块：

模块M1：收集并整理工业零件缺陷图像A；

7.根据权利要求6所述的基于图像生成模型的工业零件缺陷图像生成系统，其特征在于，所述模块M2包括如下模块：

模块M2.2：将原始缺陷图片进行裁剪并去除背景信息。

8.根据权利要求6所述的基于图像生成模型的工业零件缺陷图像生成系统，其特征在于，所述模块M3包括如下模块：

9.根据权利要求6所述的基于图像生成模型的工业零件缺陷图像生成系统，其特征在于，所述模块M5包括如下模块：

10.根据权利要求6所述的基于图像生成模型的工业零件缺陷图像生成系统，其特征在于，所述模块M7包括如下模块：