CN116310348A

CN116310348A - 一种基于cgan的语义分割数据集增广的方法

Info

Publication number: CN116310348A
Application number: CN202310562310.1A
Authority: CN
Inventors: 叶勇; 杨强力; 汪子文; 辜丽川; 王瑶
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-06-23
Anticipated expiration: 2043-05-18
Also published as: CN116310348B

Abstract

本发明公开了一种基于CGAN的语义分割数据集增广的方法，应用于计算机视觉语义分割技术领域，具体涉及基于有监督学习的条件生成对抗网络，在原有的生成器和判别器的网络结构基础上再加入一个生成器，两个生成器分别负责图像和标注的生成，两个生成器共用一个判别器，两个生成器和判别器之间相互对抗学习，生成新的图像和标注。本发明能对语义分割数据集中的图像增广的同时对图像对应的标注进行增广，实现生成图像的自动标注，为语义分割的训练提供丰富的训练样本数据，来扩充训练集，从而提高模型的泛化能力和鲁棒性，进而提高语义分割的准确性和效果。

Description

一种基于CGAN的语义分割数据集增广的方法

技术领域

本发明涉及计算机视觉语义分割技术领域，更具体的说是涉及一种基于CGAN的语义分割数据集增广的方法。

背景技术

语义分割是计算机视觉中的一个重要任务，它的目标是将图像中的每个像素标记为属于哪个物体或者背景。然而，在实际应用中，由于数据集的限制和算法的不足，语义分割模型经常会遇到过拟合、模型泛化能力不足等问题。因此，数据增广技术成为了提高模型性能的重要手段,而传统的图像增广方式包括翻转、剪裁、缩放、噪声和模糊等操作，传统数据增广方法经过变换后可以得到大量的新样本，但扩充后的数据集的多样性不足。条件生成对抗网络（CGAN）的思想是将一个生成器网络和一个判别器网络相互竞争，不断学习，通过输入指定的标注生成新的数据,用生成的高仿真的新样本来增广数据集。但是语义分割属于像素级别的识别，图像的标注也是二维的，现有的CGAN需要指定标注来生成对应的图像，并不能对生成图像进行自动的标注，而指定标注则需要耗费大量的工作和精力。

因此提出一种基于CGAN的语义分割数据集增广的方法，来解决现有技术存在的困难，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于CGAN的语义分割数据集增广的方法，能对语义分割数据集中的图像增广的同时对图像对应的标注进行增广，实现生成图像的自动标注，为语义分割的训练提供丰富的训练样本数据。

为了实现上述目的，本发明提供如下技术方案：

一种基于CGAN的语义分割数据集增广的方法，包括以下步骤：

S1、获取语义分割数据集，语义分割数据集分为图像和标注；搭建两个生成器G1和G2和一个判别器D，生成器G1对输入的标注和噪音生成对应的图像，生成器G2对输入的图像和噪音生成对应的标注，判别器D网络对输入的图像和对应标注进行判别；

S2、训练判别器D，使用生成器G1对x加上噪音z生成y_fake，公式为：y_fake=

x和y分别为原标注和对应的原图像，z为噪音；

使用生成器G2对y加上噪音z生成x_fake，公式为：x_fake=

；使用生成器G1对x_fake加上噪音z生成y_fake_fake，公式为y_fake_fake=/>

；使用生成器G2对y_fake加上噪音z生成x_fake_fake，公式为x_fake_fake=/>

；将输入的x与y、x与y_fake、y与x_fake、x_fake与y_fake_fake、y_fake与x_fake_fake五组数据用来训练判别器D对图像和对应标注的判别能力；

S3、训练判别器生成器G1、G2，生成器G1生成的图像为y_fake=

、y_fake_fake=/>

，生成器G2生成的图像为x_fake=/>

、x_fake_fake=

；判别器D对生成器G1和生成器G2生成的图像和标注进行判别进而对生成器的生成能力进行优化；

S4、通过一个筛选器来筛选符合要求的增广的图像和对应的标注形成增广数据集。

上述的方法，可选的，步骤S1中生成器G1具体搭建如下：

S101生成器G1网络的搭建，对生成器G1网络的编码器和解码器进行构建，BatchNorm不应用于编码器中的第一个卷积层；在解码器的最后一层之后，应用一个卷积来映射到输出通道的数量，然后是一个Tanh激活器，图像的标注和噪音经过生成器G1后生成了设定尺寸的RGB图片。

上述的方法，可选的，S101生成器G1的搭建具体如下：

编码器中所有ReLU都设置了leaky=True,并设置slope为0.2，而解码器中的ReLU=False。

上述的方法，可选的，S101生成器G1的搭建具体如下：

U-Net架构在编码器的第i层和解码器的第n-i层之间有跳过连接，其中n为总层数；跳过连接将激活从第i层连接到第n-i层。

上述的方法，可选的，步骤S1中生成器G2具体搭建如下：

S102生成器G2网络的搭建，对生成器G2网络的编码器和解码器进行构建，生成器G2生成的方式是由图像和噪音生成标注；在生成器G2网络中前面的网络结构和生成器G1一致，在下采样提取特征之后采用上采样放大特征图，不同的是对上采样后的图像的每个点做softmax获得最终的分割图，生成了图像对应的标注。

上述的方法,可选的，步骤S1中判别器D具体搭建如下：

S103判别器D网络的搭建，判别器D中的网络主体结构依旧是由编码器和解码器组成的Unet；不同于生成器G1、G2，判别器需要对输入的标注和图像进行第四个维度的拼接也就是通道的维度，然后输入到Unet网络主体中，并在最后一层使用卷积来映射到一维输出，判别器输出的结果为真假之间的域值。

上述的方法，可选的，步骤S2中判别器网络匹配学习过程是通过优化公式x为原始标注，y为原始图像，z为随机噪声，使判别器D达到最大值，具体公式如下：

。

上述的方法，可选的，在公式

中

为原始图像和对应的原始标记的计算公式，/>

为原始标记和生成对应图像的之间的计算公式，/>

为原始图像和生成对应标注的之间的计算公式，/>

为生成器G2网络生成的标注和G1对G2生成标注的生成图像之间的计算公式，/>

为生成器G1生成的图像和G1对G2生成图像的生成标注之间的计算公式。

上述的方法，可选的，步骤S3中生成器G1,G2学习过程是优化生成器G1,G2使其到达最小值，具体公式如下：

。

上述的方法，可选的，步骤S4中筛选器具体筛选过程为：

搭建一个生成图像和生成标记筛选器，筛选器能获取生成器生成的图像于对应标注和判别器对该图像的判定结果，在每一轮会生成两组标注和对应的图像，既x1,y1=

和x2,y2=/>

，判别器对他们的判别结果分别为D1=D(x1,y1),D2=D(x2,y2),通过比较D1,D2与设置的阈值，选择出符合条件的图像和对应的标注进行输出并保存。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于CGAN的语义分割数据集增广的方法，具有以下有益效果：

（1）本发明通过搭建两个生成器网络一个判别器网络，两个生成器网络分别负责图像和标注的生成，两个生成器共用一个判别器，两个生成器和判别器之间相互对抗学习，生成新的图像和标注；

（2）本发明能对语义分割数据集中的图像增广的同时对图像对应的标注进行增广，实现生成图像的自动标注，大大降低了语义分割数据增广的难度，为语义分割的训练提供丰富的训练样本数据，扩充了训练集，提高模型的泛化能力和鲁棒性，进而提高语义分割的准确性和效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于CGAN的语义分割数据集增广的方法的整体流程图；

图2为本发明提供的一种基于CGAN的语义分割数据集增广的方法的网络结构图一；

图3为本发明提供一种基于CGAN的语义分割数据集增广的方法的网络结构图二；

图4为本发明提供一种基于CGAN的语义分割数据集增广的方法的Unet式网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1所示，本发明公开了一种基于CGAN的语义分割数据集增广的方法，包括以下步骤：

S1、获取语义分割数据集，语义分割数据集分为图像和标注；搭建两个生成器G1和G2和一个判别器D，生成器G1对输入的标注和噪音生成对应的图像，生成器G2对输入的图像和噪音生成对应的标注，判别器D对输入的图像和对应标注进行判别；

x和y分别为原标注和对应的原图像，z为噪音；

使用生成器G2对y加上噪音z生成x_fake，公式为：x_fake=

S3、训练判别器生成器G1、G2，生成器G1生成的图像为y_fake=

、y_fake_fake=/>

，生成器G2生成的图像为x_fake=/>

、x_fake_fake=

具体的，在S3中，判别器D对生成器G1和生成器G2生成的图像和标注进行判别进而对生成器进行优化学习，不断地提升生成器G1和G2的图像和标注的生成能力。

具体的，在S4中，通过一个筛选器来筛选符合要求的增广的图像和对应的标注，来实现同时对语义分割数据集中的图像和标注进行增广的目标。

进一步的，步骤S1中生成器G1的具体搭建如下：

S101生成器G1网络的搭建，对生成器G1网络的编码器和解码器进行构建，BatchNorm不应用于编码器中的第一个卷积层；在解码器的最后一层之后，应用一个卷积来映射到输出通道的数量(通常是3个)，然后是一个Tanh激活器，图像的标注和噪音经过生成器G1后生成了设定尺寸的RGB图片；

进一步的，S101生成器G1的搭建具体如下：

更进一步的，S101生成器G1的搭建具体如下：

进一步的，步骤S1中生成器G2的具体搭建如下：

S102生成器G2网络的搭建，对生成器G2网络的编码器和解码器进行构建，由于生成器G2不同于生成器G1的由标注和噪音生成图像的方式，生成器G2刚好与生成器G1相反，生成器G2生成的方式是由图像和噪音生成标注，而标注是由图像的每个像素的颜色代表一类。在生成器G2中前面的网络结构和生成器G1一致，在下采样提取特征之后采用上采样放大特征图，不同的是需要对上采样后的图像的每个点做softmax获得最终的分割图，使得生成器G2生成的每个像素点代表着每一个类别，生成的标注的所有颜色就是原本图像的所有分类数量，这样就生成了图像对应的标注；

具体的，步骤S1中G1、G2和判别器D在整个网络架构的作用不同，搭建也有不同的地方。

更进一步的，步骤S1中判别器D的具体搭建如下：

S103判别器D网络的搭建，判别器D不同于常见的判别器，不仅可以对G1生成器中生成的图像进行判别，而且还可以对G2生成器中生成的标注进行判别。判别器D中的网络主体结构依旧是由编码器和解码器组成的Unet，通过改变深度来修改接收域的大小。不同于生成器G1、G2，判别器需要对输入的标注和图像进行第四个维度的拼接也就是通道的维度，然后输入到Unet网络主体中，并在在最后一层使用卷积来映射到一维输出，判别器输出的结果为真假之间的域值。

更进一步的，步骤S2中判别器匹配学习过程是通过优化公式x为原始标注，y为原始图像，z为随机噪声，使判别器D达到最大值，具体步骤的公式如下：

。

具体的，步骤S2中判别器匹配学习过程是通过优化公式x为原始标注，y为原始图像，z为随机噪声，使判别器D达到最大值，判别器D能更好的判断生成的图像和标注是真是假。

进一步的，步骤S3中生成器G1,G2学习过程通过优化生成器G1,G2使到达最小值，具体步骤的公式如下：

。

具体的，步骤S3中生成器G1,G2学习过程通过优化G1,G2使到达最小值，使得G1,G2生成更逼真的图像能更好的欺骗判别器D。

更进一步的，步骤S4中筛选器具体筛选过程为：

和x2,y2=/>

，判别器对他们的判别结果分别为D1=D(x1,y1),D2=D(x2,y2),通过比较D1,D2与设置的阈值，选择出符合条件的图像和对应的标注进行输出并保存。整个过程中保存的图像和对应的标注就是语义分割数据集的增广。

具体的，生成器G1、G2和判别器D都使用卷积层-BatchNorm归一化处理层-relu层格式的模块搭建，生成器采用Unet结构，Unet网络结构是由编码器和解码器组成的，使用卷积层来提取特征，上采样使用反卷积（Deconvolution）也就是转置卷积（TransposedConvolution）来操作，公式为m=s(n-1)+k-2p，公式中的n为输入的特征图的尺寸，m为输出的尺寸，k为卷积核的大小，p是填充0的个数，s为步长，在通常情况下卷积中步长为卷积每次移动的大小，而在反卷积中，卷积每次移动的大小为1，这里的步长s并不是卷积每次移动的大小，而为输入特征图中填充0的个数加上1。只使用反卷积对网络结构的最后一层的特征图上采样反卷积得到设定尺寸大小的图像，会因为网络中的最后一层的特征图太小，从而损失很多细节。网络层之间采用跳层连接的方式，能使丰富全局信息和浅层的局部信息相融合起来，这种网络能够让图像和标记的像素值一一对应，能更好的使网络模型达到更高的精度，能够更好的生成图像的细节。

更进一步的，在公式

中/>

为原始图像和对应的原始标记的计算公式，/>

为原始标记和生成对应图像的之间的计算公式，/>

为原始图像和生成对应标注的之间的计算公式，/>

参照图2所示，为一种基于CGAN的语义分割数据集增广的方法的网络结构图一。

参照图3所示，为一种基于CGAN的语义分割数据集增广的方法的网络结构图二。

参照图4所示，生成器G1、G2和判别器D都使用卷积层-BatchNorm归一化处理层-relu层格式的模块搭建，生成器采用Unet结构，Unet网络结构是由编码器和解码器组成的，使用卷积层来提取特征，上采样使用反卷积（Deconvolution）也就是转置卷积（TransposedConvolution）来操作，公式为m=s(n-1)+k-2p，公式中的n为输入的特征图的尺寸，m为输出的尺寸，k为卷积核的大小，p是填充0的个数，s为步长，在通常情况下卷积中步长为卷积每次移动的大小，而在反卷积中，卷积每次移动的大小为1，这里的步长s并不是卷积每次移动的大小，而为输入特征图中填充0的个数加上1。只使用反卷积对网络结构的最后一层的特征图上采样反卷积得到设定尺寸大小的图像，会因为网络中的最后一层的特征图太小，从而损失很多细节。网络层之间采用跳层连接的方式，能使丰富全局信息和浅层的局部信息相融合起来，这种网络能够让图像和标记的像素值一一对应，能更好的使网络模型达到更高的精度，能够更好的生成图像的细节。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。