CN111415316A

CN111415316A - 基于生成对抗网络的缺陷数据合成算法

Info

Publication number: CN111415316A
Application number: CN202010193827.4A
Authority: CN
Inventors: 李博; 袁雪; 史铭翰
Original assignee: Shanxi Anshu Intelligent Technology Co ltd
Current assignee: Shanxi Anshu Intelligent Technology Co ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-14
Anticipated expiration: 2040-03-18
Also published as: CN111415316B

Abstract

本发明属于缺陷数据合成算法技术领域，具体技术方案为：基于生成对抗网络的缺陷数据合成算法，具体步骤如下：一、基于现有样本，使用深度卷积生成对抗网络生成缺陷前景；二、对于不同的背景图片，使用基于颜色和纹理的gPb‑UCM分割算法确定缺陷前景放置的区域位置S集合；三、对步骤二得到的S集合中随机选择一个区域R，并通过深度预测算法得到对应的透视变化矩阵M；四、从步骤一生成的缺陷前景数据库中随机选取，并利用边缘提取算法得到Mask图像；五、利用透视变化矩阵M对Mask图像进行透视变换，并对变换后的缺陷前景添加颜色信息；六、使用泊松图像融合技术将缺陷前景与背景图片融合，合成新的图片；成本低，真实度高。

Description

基于生成对抗网络的缺陷数据合成算法

技术领域

本发明属于缺陷数据合成算法技术领域，具体涉及一种基于生成对抗网络的缺陷数据合成算法。

背景技术

随着近些年来深度学习的发展，深度神经网络在各种任务上(分类、目标检测、实例分割)取得了革命性的突破，深度神经网络在有充足标签样本为训练数据的前提下可以达到很高的准确度。但是往往在一些场景下，有标签的数据难以收集或者获取这些数据成本高昂，费时费力。当数据不足时，神经网络很难稳定训练并且泛化能力较弱。

如何在小规模数据集上有效的训练神经网络成为当下的一个研究热点，目前常见的方法为数据增强。传统的数据增强算法是以仿射变换为基础的——例如旋转、缩放、平移等，以及一些简单的图像处理手段——例如光照色彩变换、对比度变换、添加随机噪声(高斯噪声、椒盐噪声)等。这些变化的前提是不改变图像的类别属性，并且只能局限在图像域。这种基于几何变换和图像操作的数据增强方法可以在一定程度上缓解神经网络过拟合的问题，提高泛化能力。但是相比和原始数据而言，增加的数据并没有从根本上解决数据不足的难题；同时，这种数据增强方式需要人为设定转换函数和对应的参数，一般都是凭借经验知识，最优数据增强难以实现，所以模型的泛化性能提升有限。

而图像合成技术可以使生成的图像更加真实、多样和满足输入条件，从真正意义上扩充了数据域，增加模型的鲁棒性。最近兴起的生成对抗网络(Generative AdversarialNetwork，GAN)，由于其出色的性能引起了人们的广泛关注，这种方法相比于传统的数据增强技术虽然过程更加复杂，但是生成的样本更加具有真实性与多样性。

但是，目前对于基于生成对抗式网络的图像合成算法还存在着很多挑战，尤其是针对于大分辨图片来说，网络训练不易收敛且合成图片噪声大。

发明内容

为解决现有技术存在的技术问题，本发明方法将生成对抗网络与传统图片处理技术相融合，既利用了深度神经网络的自学习能力，增加缺陷前景的多样性，又通过传统图像处理方法的稳定性，克服了传送带角度和光照的变化问题，使得合成图片更加真实稳定。

为实现上述目的，本发明所采用的技术方案为：基于生成对抗网络的缺陷数据合成算法，具体步骤如下：

一、基于现有样本，使用深度卷积生成对抗网络生成缺陷前景；

二、对于不同的背景图片，使用基于颜色和纹理的gPb-UCM分割算法确定缺陷前景放置的区域位置S集合；

三、对步骤二得到的S集合中随机选择一个区域R，并通过基于全卷积神经网络的深度预测算法得到该区域对应的透视变化矩阵M；

四、从步骤一生成的缺陷前景数据库中随机选取，并利用边缘提取算法得到缺陷前景的Mask图像：首先使用泛洪填充算法去除背景，再利用Canny边缘检测保留边缘内的像素值，提取缺陷Mask；

五、利用透视变化矩阵M对Mask图像进行透视变换，并对变换后的缺陷前景添加颜色信息；

六、使用泊松图像融合技术将缺陷前景与背景图片融合，合成新的图片，同时生成新的标注信息；至此，一张新的缺陷样本合成完成。

在步骤一中，深度卷积生成对抗网络根据现有的缺陷样本对缺陷前景进行裁剪，调整大小至100*100像素，并对裁剪后的样本进行数据增强并送入DCGAN中进行训练。

生成对抗网络由生成网络和判别网络组成，其中：

生成网络输入为取自于正态分布的100维度的均匀随机噪声，使用大小为5*5的卷积核，步长为2的反卷积实现上采样过程，整个过程中使用批归一化方法且不使用池化，在生成网络的最后一层使用Tanh激活函数，其余全部使用ReLU激活函数，最终可以得到分辨率为100*100的三通道合成图像。

判别网络的输入为大小100*100的三通道的合成图像或者真实图像，使用大小为5*5的卷积核，步长为2的卷积过程实现下采样过程，且在整个过程也使用了批归一化方法，在判别网络的所有层使用LeakyReLU的激活函数，最终使用全连接层映射到1维，以便Sigmoid函数对其分类，输出为0判别网络将输入判定为合成的假数据，输出为1则为真实数据。

生成网络构成一个映射函数G，判别网络构成一个映射函数D，损失函数由分类而来，生成网络的损失为映射函数D对合成数据的输出结果与1的交叉熵损失，判别结果的损失由两部分组成：一部分为映射函数D对真实数据的输出结果与1的交叉熵损失；一部分为映射函数D对合成数据的输出结果与0的交叉熵损失，G和D迭代更新参数，共同优化；通过不断的对抗学习使得映射函数G生成的数据十分逼真，映射函数D无法精确判断输入是生成数据还是真实数据。

其中，整个生成对抗网络的优化函数为：

生成网络的映射函数G：

判别网络的映射函数D：

在步骤二中，基于颜色和纹理的gPb-UCM的分割方法为：

该算法是依靠图像边缘信息进行区域分割的算法，首先计算图片中每个像素点作为边缘的概率gPb，接着利用改进的分水岭变换OWT将上面的结果转换为多个闭合区域，最后使用UCM方法设置不同阈值将闭合区域转换为区域树。

gPb是多尺度边界概率mPb和光谱边界概率sPb的加权线性组合，mPb是在图片的CIE颜色空间的三个通道外加纹理通道上计算像素点的边缘概率的基础上引入了多尺度的概念，针对每一个尺度，计算四个通道的Pb值得加权和，公式如下：

其中，s代表不同尺度，i代表四个通道之一，α代表不同尺度和通道下的权值，G是像素点的梯度方向函数，在像素点(x,y)处选取一个σ大小的圆区域，并按β角度分为两部分，计算两部分直方图的卡方距离，最终采用不同β角度下最大的响应来衡量每个点的边缘强度：

另外，针对光谱变化聚类得到图像的显著性分割曲线，首先，根据两个像素点i和j之间的mPb值构建一个稀疏对称的相似矩阵：

其中，ij表示两个像素点i和j之间的线段，ρ为常量系数，设定为0.1；该矩阵表示像素之间的相似度，为了引入全局信息，令：

由上式计算得到n+1维特征向量，并用高斯方向导数滤波器在每个特征向量的θ方向上进行卷积，从而得到sPb的值：

其中，参数

是特征值问题的物理定义，mPb表示图像的边缘信息，sPb则是图像的显著边界线，将mPb和sPb加权求和得到gPb值:

其中，ζ_i,s和γ都为常数，对gPb值进行sigmoid变换，使其分布在[0，1]之间，表示该像素点作为边缘的概率，将该像素点(x,y)所取到的β对应的gPb最大值作为边缘概率。

取区域的最小值的边缘概率作为种子点位置，进行修正的OWT算法，得到合适的区域和分水岭信息，使用基于图合并的UCM算法，将分割后的图合并，得到较完整的区域，通过设定不同的阈值进行比较，确定阈值为0.2时最能表达背景图像区域分割的细节。

在步骤三中，基于全卷机圣经网络的图像深度预测算法为：为了能预测深度信息，需要将提取到的特征再上采样，最终得到深度图。

FCRN提出了新颖的上采样结构，被称为上卷积模块。首先利用一个2*2的上池化层对特征图进行放大操作，实际就是用0进行插值，接着，经过一个5*5的卷积层，使得填补0的位置不再全部为0，这样操作可以有效的减少反卷积的棋盘效应。此外，FCRN还引入了残差块的概念，将卷积前的特征图与卷积后的特征图进行叠加，这样就得到了的上投影结构，这样的结构一方面拓展了网络深度，引入了更多的参数，另一方面也在上采样过程中更好的保留了深层网络的特征信息，经过实验，发现这种结构对提取图像的深度信息更有效。

利用上述方法得到的深度信息depth，可以将图像上的像素点的二维坐标(u,v)转换为三维相机坐标(X,Y,Z)，公式如下：

之后，根据三维坐标使用RANSAC算法拟合区域平面，该方法是通过对数据进行随机采样来估计最佳平面的学习技术。首先，先从样本点中随机选择能够确定模型参数的最小数量样本组成一个样本子集，其次是根据阈值确定与拟合模型的关系，在阈值内的称为内点，反之则为外点(异常点)，重复多次以上操作，通过计算内点数量占总数据点的比例，比例最大所确定的平面即为拟合的最佳平面，最终根据该拟合平面可以得到平面法向量。

本发明与现有技术相比，具体有益效果体现在：

一、本发明可扩展到任何数据不足的场景中，不受图像采集设备(监控)角度的限制；且该方法可直接得到真实的数据标注信息，无需花费人力物力标注，成本低，真实度高。

二、本发明将缺陷前景与传送带背景分开来处理，不仅利用生成对抗网络生成更加多元化、真实的缺陷前景，还可以利用移动端内储存的缺陷形态合成新的数据。

三、本发明的合成数据速度快，在CPU上大约0.15秒/张，可以在短时间内合成大量数据用于监督学习。

附图说明

图1为GAN的结构示意图。

图2为合成算法的流程图。

图3为生成器(G)的网络结构示意图。

图4为判别器(D)的网络结构示意图。

图5为上卷积模块的结构示意图。

图6为图5的上投影结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

基于生成对抗网络的缺陷数据合成算法，如图1所示，GAN多用于无监督的生成图像数据，它已经在许多数据生成任务中被证明十分有效，其主要由生成网络(Generator)和判别网络(Discriminator)两部分组成。假设在低维空间Z存在一个简单容易采样的分布p(z)，例如正态分布N(0,I)，生成网络构成一个映射函数G：Z→X，判别网络需要判别输入是来自真实数据X_real还是生成网络生成的数据X_fake。

事实上，整个学习优化的过程是一个极大极小博弈(Minimax game)问题，即寻找生成网络的映射函数G和判别网络的映射函数D之间的平衡点，G的目标是使X分布尽可能接近真实数据的分布p(data)，而D是一个二分类器，目标在于分清是输出为0的生成数据还是输出为1的真实数据，当达到平衡点时，D便无法判断数据来自G还是真实样本，此时的G就为最优状态，综上所述，G试图欺骗D从而以假乱真，而D则不断提高甄别能力防止G合成的数据以假乱真，理论上最终生成的数据分布p(g)和真实的数据分布p(data)可以相等.可以用下式概括整个GAN网络的优化函数:

如图2所示，合成算法具体步骤如下：

一、基于现有样本，使用深度卷积生成对抗网络(Deep ConvolutionalGenerative Adversarial Networks,DCGAN)生成大量的缺陷前景；

三、对步骤二得到的S集合中随机选择一个区域R，并通过基于全卷积神经网络(Fully Convolutional Residual Networks，FCRN)的深度预测算法得到该区域对应的透视变化矩阵M；

四、从步骤一生成的缺陷前景数据库中随机选取，并利用边缘提取算法得到缺陷前景的Mask图像：首先使用泛洪填充算法去除背景，再利用Canny边缘检测保留边缘内的像素值，这就能很好的提取缺陷Mask；

五、利用透视变化矩阵M对Mask图像进行透视变换，并对变换后的缺陷前景添加颜色信息等；

在步骤一中，深度卷积生成对抗网络根据现有的缺陷样本对缺陷前景进行裁剪，调整大小至100*100像素，并对裁剪后的样本进行常见的数据增强(旋转、平移、添加噪声等)，并送入DCGAN中进行训练，具体训练参数如下表所示：

生成对抗网络由生成网络和判别网络组成，其中：

生成网络输入为取自于正态分布的100维度的均匀随机噪声，使用大小为5*5的卷积核，步长为2的反卷积实现上采样过程，整个过程中使用批归一化方法(BatchNormalization)且不使用池化(包括最大池化、平均池化)，在生成网络的最后一层使用Tanh激活函数，其余全部使用ReLU激活函数，最终可以得到分辨率为100*100的三通道合成图像，生成网络结构如图3所示。

判别网络的输入为大小100*100的三通道的合成图像或者真实图像，使用大小为5*5的卷积核，步长为2的卷积过程实现下采样过程，且在整个过程也使用了批归一化方法，在判别网络的所有层使用LeakyReLU的激活函数，最终使用全连接层映射到1维，以便Sigmoid函数对其分类，输出为0判别网络将输入判定为合成的假数据，输出为1则为真实数据，生成网络结构如图4所示。

生成网络构成一个映射函数G，判别网络构成一个映射函数D，损失函数由分类而来，生成网络的损失为映射函数D对合成数据的输出结果与1的交叉熵损失，判别结果的损失由两部分组成：一部分为映射函数D对真实数据的输出结果与1的交叉熵损失；一部分为映射函数D对合成数据的输出结果与0的交叉熵损失，G和D迭代更新参数，共同优化；通过不断的对抗学习使得映射函数G生成的数据十分逼真，映射函数D无法精确判断输入是生成数据还是真实数据，这时，G就达到了欺骗D的目的，这时，G就达到了欺骗D的目的。

生成网络的映射函数G：

判别网络的映射函数D：

在步骤二中，基于颜色和纹理的gPb-UCM的分割方法为：

该算法是依靠图像边缘信息进行区域分割的算法，首先计算图中每个像素点作为边缘的概率gPb(globalized probability of boundary)，接着利用改进的分水岭变换OWT(Oriented Watershed Transform)将上面的结果转换为多个闭合区域，最后使用UCM(Ultra-metric Contour Map)方法，设置不同阈值将闭合区域转换为区域树。

gPb是多尺度边界概率mPb(multiscale probability of boundary)和光谱边界概率sPb(spectral probability of boundary)的加权线性组合，mPb是在图片的CIE颜色空间的三个通道外加纹理通道上计算像素点的边缘概率的基础上引入了多尺度的概念，针对每一个尺度，计算四个通道的Pb值得加权和，公式如下：

其中，参数

其中，ζ_i,s和γ都为常数，之后对gPb值进行sigmoid变换，使其分布在[0,1]之间，表示该像素点作为边缘的概率，也将其称为像素的权重。然而，该值还受方向β的影响，本文将该像素点(x,y)所取到的β对应的gPb最大值作为边缘概率。

在步骤三中，基于全卷机圣经网络的图像深度预测算法为：输入576*768大小的背景图片，首先利用ResNet-50进行特征提取，之后为了能预测深度信息，需要将提取到的特征再上采样，最终得到深度图。

FCRN提出了新颖的上采样结构，被称为上卷积模块(Up-Convolutional Blocks)，如图5所示。由图5可知，首先利用一个2*2的上池化层对特征图进行放大操作，实际就是用0进行插值，接着，经过一个5*5的卷积层，使得填补0的位置不再全部为0，这样操作可以有效的减少反卷积的棋盘效应。此外，在图5的基础上，FCRN还引入了残差块的概念，将卷积前的特征图与卷积后的特征图进行叠加，这样就得到了图6的上投影结构(Up ProjectionBlocks)，这样的结构一方面拓展了网络深度，引入了更多的参数，另一方面也在上采样过程中更好的保留了深层网络的特征信息，经过实验，发现这种结构对提取图像的深度信息更有效。

本发明方法将生成对抗网络与传统图片处理技术相融合，既利用了深度神经网络的自学习能力，增加缺陷前景的多样性，又通过传统图像处理方法的稳定性，克服了传送带角度和光照的变化问题，使得合成图片更加真实稳定。而且，该方法在合成过程中还保存了与背景图片轴对齐的目标框，无需手动标注，有利于缺陷检测网络的监督学习。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包在本发明范围内。

Claims

1.基于生成对抗网络的缺陷数据合成算法，其特征在于，具体步骤如下：

2.根据权利要求1所述的基于生成对抗网络的缺陷数据合成算法，其特征在于，在步骤一中，深度卷积生成对抗网络根据现有的缺陷样本对缺陷前景进行裁剪，调整大小至100*100像素，并对裁剪后的样本进行数据增强并送入DCGAN中进行训练。

3.根据权利要求2所述的基于生成对抗网络的缺陷数据合成算法，其特征在于，生成对抗网络由生成网络和判别网络组成，其中：

生成网络输入为取自于正态分布的100维度的均匀随机噪声，使用大小为5*5的卷积核，步长为2的反卷积实现上采样过程，整个过程中使用批归一化方法且不使用池化，在生成网络的最后一层使用Tanh激活函数，其余全部使用ReLU激活函数，最终可以得到分辨率为100*100的三通道合成图像；

4.根据权利要求3所述的基于生成对抗网络的缺陷数据合成算法，其特征在于，生成网络构成一个映射函数G，判别网络构成一个映射函数D，损失函数由分类而来，生成网络的损失为映射函数D对合成数据的输出结果与1的交叉熵损失，判别结果的损失由两部分组成：一部分为映射函数D对真实数据的输出结果与1的交叉熵损失；一部分为映射函数D对合成数据的输出结果与0的交叉熵损失，G和D迭代更新参数，共同优化；通过不断的对抗学习使得映射函数G生成的数据十分逼真，映射函数D无法精确判断输入是生成数据还是真实数据；

其中，整个生成对抗网络的优化函数为：

生成网络的映射函数G：

判别网络的映射函数D：