CN116310348A - 一种基于cgan的语义分割数据集增广的方法 - Google Patents

一种基于cgan的语义分割数据集增广的方法 Download PDF

Info

Publication number
CN116310348A
CN116310348A CN202310562310.1A CN202310562310A CN116310348A CN 116310348 A CN116310348 A CN 116310348A CN 202310562310 A CN202310562310 A CN 202310562310A CN 116310348 A CN116310348 A CN 116310348A
Authority
CN
China
Prior art keywords
generator
fake
image
semantic segmentation
generated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310562310.1A
Other languages
English (en)
Other versions
CN116310348B (zh
Inventor
叶勇
杨强力
汪子文
辜丽川
王瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Agricultural University AHAU
Original Assignee
Anhui Agricultural University AHAU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Agricultural University AHAU filed Critical Anhui Agricultural University AHAU
Priority to CN202310562310.1A priority Critical patent/CN116310348B/zh
Publication of CN116310348A publication Critical patent/CN116310348A/zh
Application granted granted Critical
Publication of CN116310348B publication Critical patent/CN116310348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于CGAN的语义分割数据集增广的方法,应用于计算机视觉语义分割技术领域,具体涉及基于有监督学习的条件生成对抗网络,在原有的生成器和判别器的网络结构基础上再加入一个生成器,两个生成器分别负责图像和标注的生成,两个生成器共用一个判别器,两个生成器和判别器之间相互对抗学习,生成新的图像和标注。本发明能对语义分割数据集中的图像增广的同时对图像对应的标注进行增广,实现生成图像的自动标注,为语义分割的训练提供丰富的训练样本数据,来扩充训练集,从而提高模型的泛化能力和鲁棒性,进而提高语义分割的准确性和效果。

Description

一种基于CGAN的语义分割数据集增广的方法
技术领域
本发明涉及计算机视觉语义分割技术领域,更具体的说是涉及一种基于CGAN的语义分割数据集增广的方法。
背景技术
语义分割是计算机视觉中的一个重要任务,它的目标是将图像中的每个像素标记为属于哪个物体或者背景。然而,在实际应用中,由于数据集的限制和算法的不足,语义分割模型经常会遇到过拟合、模型泛化能力不足等问题。因此,数据增广技术成为了提高模型性能的重要手段,而传统的图像增广方式包括翻转、剪裁、缩放、噪声和模糊等操作,传统数据增广方法经过变换后可以得到大量的新样本,但扩充后的数据集的多样性不足。条件生成对抗网络(CGAN)的思想是将一个生成器网络和一个判别器网络相互竞争,不断学习,通过输入指定的标注生成新的数据,用生成的高仿真的新样本来增广数据集。但是语义分割属于像素级别的识别,图像的标注也是二维的,现有的CGAN需要指定标注来生成对应的图像,并不能对生成图像进行自动的标注,而指定标注则需要耗费大量的工作和精力。
因此提出一种基于CGAN的语义分割数据集增广的方法,来解决现有技术存在的困难,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于CGAN的语义分割数据集增广的方法,能对语义分割数据集中的图像增广的同时对图像对应的标注进行增广,实现生成图像的自动标注,为语义分割的训练提供丰富的训练样本数据。
为了实现上述目的,本发明提供如下技术方案:
一种基于CGAN的语义分割数据集增广的方法,包括以下步骤:
S1、获取语义分割数据集,语义分割数据集分为图像和标注;搭建两个生成器G1和G2和一个判别器D,生成器G1对输入的标注和噪音生成对应的图像,生成器G2对输入的图像和噪音生成对应的标注,判别器D网络对输入的图像和对应标注进行判别;
S2、训练判别器D,使用生成器G1对x加上噪音z生成y_fake,公式为:y_fake=
Figure SMS_1
x和y分别为原标注和对应的原图像,z为噪音;
使用生成器G2对y加上噪音z生成x_fake,公式为:x_fake=
Figure SMS_2
;使用生成器G1对x_fake加上噪音z生成y_fake_fake,公式为y_fake_fake=/>
Figure SMS_3
;使用生成器G2对y_fake加上噪音z生成x_fake_fake,公式为x_fake_fake=/>
Figure SMS_4
;将输入的x与y、x与y_fake、y与x_fake、x_fake与y_fake_fake、y_fake与x_fake_fake五组数据用来训练判别器D对图像和对应标注的判别能力;
S3、训练判别器生成器G1、G2,生成器G1生成的图像为y_fake=
Figure SMS_5
、y_fake_fake=/>
Figure SMS_6
,生成器G2生成的图像为x_fake=/>
Figure SMS_7
、x_fake_fake=
Figure SMS_8
;判别器D对生成器G1和生成器G2生成的图像和标注进行判别进而对生成器的生成能力进行优化;
S4、通过一个筛选器来筛选符合要求的增广的图像和对应的标注形成增广数据集。
上述的方法,可选的,步骤S1中生成器G1具体搭建如下:
S101生成器G1网络的搭建,对生成器G1网络的编码器和解码器进行构建,BatchNorm不应用于编码器中的第一个卷积层;在解码器的最后一层之后,应用一个卷积来映射到输出通道的数量,然后是一个Tanh激活器,图像的标注和噪音经过生成器G1后生成了设定尺寸的RGB图片。
上述的方法,可选的,S101生成器G1的搭建具体如下:
编码器中所有ReLU都设置了leaky=True,并设置slope为0.2,而解码器中的ReLU=False。
上述的方法,可选的,S101生成器G1的搭建具体如下:
U-Net架构在编码器的第i层和解码器的第n-i层之间有跳过连接,其中n为总层数;跳过连接将激活从第i层连接到第n-i层。
上述的方法,可选的,步骤S1中生成器G2具体搭建如下:
S102生成器G2网络的搭建,对生成器G2网络的编码器和解码器进行构建,生成器G2生成的方式是由图像和噪音生成标注;在生成器G2网络中前面的网络结构和生成器G1一致,在下采样提取特征之后采用上采样放大特征图,不同的是对上采样后的图像的每个点做softmax获得最终的分割图,生成了图像对应的标注。
上述的方法,可选的,步骤S1中判别器D具体搭建如下:
S103判别器D网络的搭建,判别器D中的网络主体结构依旧是由编码器和解码器组成的Unet;不同于生成器G1、G2,判别器需要对输入的标注和图像进行第四个维度的拼接也就是通道的维度,然后输入到Unet网络主体中,并在最后一层使用卷积来映射到一维输出,判别器输出的结果为真假之间的域值。
上述的方法,可选的,步骤S2中判别器网络匹配学习过程是通过优化公式x为原始标注,y为原始图像,z为随机噪声,使判别器D达到最大值,具体公式如下:
Figure SMS_9
上述的方法,可选的,在公式
Figure SMS_10
Figure SMS_11
为原始图像和对应的原始标记的计算公式,/>
Figure SMS_12
为原始标记和生成对应图像的之间的计算公式,/>
Figure SMS_13
为原始图像和生成对应标注的之间的计算公式,/>
Figure SMS_14
为生成器G2网络生成的标注和G1对G2生成标注的生成图像之间的计算公式,/>
Figure SMS_15
为生成器G1生成的图像和G1对G2生成图像的生成标注之间的计算公式。
上述的方法,可选的,步骤S3中生成器G1,G2学习过程是优化生成器G1,G2使其到达最小值,具体公式如下:
Figure SMS_16
上述的方法,可选的,步骤S4中筛选器具体筛选过程为:
搭建一个生成图像和生成标记筛选器,筛选器能获取生成器生成的图像于对应标注和判别器对该图像的判定结果,在每一轮会生成两组标注和对应的图像,既x1,y1=
Figure SMS_17
和x2,y2=/>
Figure SMS_18
,判别器对他们的判别结果分别为D1=D(x1,y1),D2=D(x2,y2),通过比较D1,D2与设置的阈值,选择出符合条件的图像和对应的标注进行输出并保存。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于CGAN的语义分割数据集增广的方法,具有以下有益效果:
(1)本发明通过搭建两个生成器网络一个判别器网络,两个生成器网络分别负责图像和标注的生成,两个生成器共用一个判别器,两个生成器和判别器之间相互对抗学习,生成新的图像和标注;
(2)本发明能对语义分割数据集中的图像增广的同时对图像对应的标注进行增广,实现生成图像的自动标注,大大降低了语义分割数据增广的难度,为语义分割的训练提供丰富的训练样本数据,扩充了训练集,提高模型的泛化能力和鲁棒性,进而提高语义分割的准确性和效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种基于CGAN的语义分割数据集增广的方法的整体流程图;
图2为本发明提供的一种基于CGAN的语义分割数据集增广的方法的网络结构图一;
图3为本发明提供一种基于CGAN的语义分割数据集增广的方法的网络结构图二;
图4为本发明提供一种基于CGAN的语义分割数据集增广的方法的Unet式网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,本发明公开了一种基于CGAN的语义分割数据集增广的方法,包括以下步骤:
S1、获取语义分割数据集,语义分割数据集分为图像和标注;搭建两个生成器G1和G2和一个判别器D,生成器G1对输入的标注和噪音生成对应的图像,生成器G2对输入的图像和噪音生成对应的标注,判别器D对输入的图像和对应标注进行判别;
S2、训练判别器D,使用生成器G1对x加上噪音z生成y_fake,公式为:y_fake=
Figure SMS_19
x和y分别为原标注和对应的原图像,z为噪音;
使用生成器G2对y加上噪音z生成x_fake,公式为:x_fake=
Figure SMS_20
;使用生成器G1对x_fake加上噪音z生成y_fake_fake,公式为y_fake_fake=/>
Figure SMS_21
;使用生成器G2对y_fake加上噪音z生成x_fake_fake,公式为x_fake_fake=/>
Figure SMS_22
;将输入的x与y、x与y_fake、y与x_fake、x_fake与y_fake_fake、y_fake与x_fake_fake五组数据用来训练判别器D对图像和对应标注的判别能力;
S3、训练判别器生成器G1、G2,生成器G1生成的图像为y_fake=
Figure SMS_23
、y_fake_fake=/>
Figure SMS_24
,生成器G2生成的图像为x_fake=/>
Figure SMS_25
、x_fake_fake=
Figure SMS_26
;判别器D对生成器G1和生成器G2生成的图像和标注进行判别进而对生成器的生成能力进行优化;
S4、通过一个筛选器来筛选符合要求的增广的图像和对应的标注形成增广数据集。
具体的,在S3中,判别器D对生成器G1和生成器G2生成的图像和标注进行判别进而对生成器进行优化学习,不断地提升生成器G1和G2的图像和标注的生成能力。
具体的,在S4中,通过一个筛选器来筛选符合要求的增广的图像和对应的标注,来实现同时对语义分割数据集中的图像和标注进行增广的目标。
进一步的,步骤S1中生成器G1的具体搭建如下:
S101生成器G1网络的搭建,对生成器G1网络的编码器和解码器进行构建,BatchNorm不应用于编码器中的第一个卷积层;在解码器的最后一层之后,应用一个卷积来映射到输出通道的数量(通常是3个),然后是一个Tanh激活器,图像的标注和噪音经过生成器G1后生成了设定尺寸的RGB图片;
进一步的,S101生成器G1的搭建具体如下:
编码器中所有ReLU都设置了leaky=True,并设置slope为0.2,而解码器中的ReLU=False。
更进一步的,S101生成器G1的搭建具体如下:
U-Net架构在编码器的第i层和解码器的第n-i层之间有跳过连接,其中n为总层数;跳过连接将激活从第i层连接到第n-i层。
进一步的,步骤S1中生成器G2的具体搭建如下:
S102生成器G2网络的搭建,对生成器G2网络的编码器和解码器进行构建,由于生成器G2不同于生成器G1的由标注和噪音生成图像的方式,生成器G2刚好与生成器G1相反,生成器G2生成的方式是由图像和噪音生成标注,而标注是由图像的每个像素的颜色代表一类。在生成器G2中前面的网络结构和生成器G1一致,在下采样提取特征之后采用上采样放大特征图,不同的是需要对上采样后的图像的每个点做softmax获得最终的分割图,使得生成器G2生成的每个像素点代表着每一个类别,生成的标注的所有颜色就是原本图像的所有分类数量,这样就生成了图像对应的标注;
具体的,步骤S1中G1、G2和判别器D在整个网络架构的作用不同,搭建也有不同的地方。
更进一步的,步骤S1中判别器D的具体搭建如下:
S103判别器D网络的搭建,判别器D不同于常见的判别器,不仅可以对G1生成器中生成的图像进行判别,而且还可以对G2生成器中生成的标注进行判别。判别器D中的网络主体结构依旧是由编码器和解码器组成的Unet,通过改变深度来修改接收域的大小。不同于生成器G1、G2,判别器需要对输入的标注和图像进行第四个维度的拼接也就是通道的维度,然后输入到Unet网络主体中,并在在最后一层使用卷积来映射到一维输出,判别器输出的结果为真假之间的域值。
更进一步的,步骤S2中判别器匹配学习过程是通过优化公式x为原始标注,y为原始图像,z为随机噪声,使判别器D达到最大值,具体步骤的公式如下:
Figure SMS_27
具体的,步骤S2中判别器匹配学习过程是通过优化公式x为原始标注,y为原始图像,z为随机噪声,使判别器D达到最大值,判别器D能更好的判断生成的图像和标注是真是假。
进一步的,步骤S3中生成器G1,G2学习过程通过优化生成器G1,G2使到达最小值,具体步骤的公式如下:
Figure SMS_28
具体的,步骤S3中生成器G1,G2学习过程通过优化G1,G2使到达最小值,使得G1,G2生成更逼真的图像能更好的欺骗判别器D。
更进一步的,步骤S4中筛选器具体筛选过程为:
搭建一个生成图像和生成标记筛选器,筛选器能获取生成器生成的图像于对应标注和判别器对该图像的判定结果,在每一轮会生成两组标注和对应的图像,既x1,y1=
Figure SMS_29
和x2,y2=/>
Figure SMS_30
,判别器对他们的判别结果分别为D1=D(x1,y1),D2=D(x2,y2),通过比较D1,D2与设置的阈值,选择出符合条件的图像和对应的标注进行输出并保存。整个过程中保存的图像和对应的标注就是语义分割数据集的增广。
具体的,生成器G1、G2和判别器D都使用卷积层-BatchNorm归一化处理层-relu层格式的模块搭建,生成器采用Unet结构,Unet网络结构是由编码器和解码器组成的,使用卷积层来提取特征,上采样使用反卷积(Deconvolution)也就是转置卷积(TransposedConvolution)来操作,公式为m=s(n-1)+k-2p,公式中的n为输入的特征图的尺寸,m为输出的尺寸,k为卷积核的大小,p是填充0的个数,s为步长,在通常情况下卷积中步长为卷积每次移动的大小,而在反卷积中,卷积每次移动的大小为1,这里的步长s并不是卷积每次移动的大小,而为输入特征图中填充0的个数加上1。只使用反卷积对网络结构的最后一层的特征图上采样反卷积得到设定尺寸大小的图像,会因为网络中的最后一层的特征图太小,从而损失很多细节。网络层之间采用跳层连接的方式,能使丰富全局信息和浅层的局部信息相融合起来,这种网络能够让图像和标记的像素值一一对应,能更好的使网络模型达到更高的精度,能够更好的生成图像的细节。
更进一步的,在公式
Figure SMS_31
中/>
Figure SMS_32
为原始图像和对应的原始标记的计算公式,/>
Figure SMS_33
为原始标记和生成对应图像的之间的计算公式,/>
Figure SMS_34
为原始图像和生成对应标注的之间的计算公式,/>
Figure SMS_35
为生成器G2网络生成的标注和G1对G2生成标注的生成图像之间的计算公式,/>
Figure SMS_36
为生成器G1生成的图像和G1对G2生成图像的生成标注之间的计算公式。
参照图2所示,为一种基于CGAN的语义分割数据集增广的方法的网络结构图一。
参照图3所示,为一种基于CGAN的语义分割数据集增广的方法的网络结构图二。
参照图4所示,生成器G1、G2和判别器D都使用卷积层-BatchNorm归一化处理层-relu层格式的模块搭建,生成器采用Unet结构,Unet网络结构是由编码器和解码器组成的,使用卷积层来提取特征,上采样使用反卷积(Deconvolution)也就是转置卷积(TransposedConvolution)来操作,公式为m=s(n-1)+k-2p,公式中的n为输入的特征图的尺寸,m为输出的尺寸,k为卷积核的大小,p是填充0的个数,s为步长,在通常情况下卷积中步长为卷积每次移动的大小,而在反卷积中,卷积每次移动的大小为1,这里的步长s并不是卷积每次移动的大小,而为输入特征图中填充0的个数加上1。只使用反卷积对网络结构的最后一层的特征图上采样反卷积得到设定尺寸大小的图像,会因为网络中的最后一层的特征图太小,从而损失很多细节。网络层之间采用跳层连接的方式,能使丰富全局信息和浅层的局部信息相融合起来,这种网络能够让图像和标记的像素值一一对应,能更好的使网络模型达到更高的精度,能够更好的生成图像的细节。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于CGAN的语义分割数据集增广的方法,其特征在于,包括以下步骤:
S1、获取语义分割数据集,语义分割数据集分为图像和标注;搭建两个生成器网络分别为生成器G1和生成器G2和一个判别器D,生成器G1对输入的标注和噪音生成对应的图像,生成器G2对输入的图像和噪音生成对应的标注,判别器D对输入的图像和对应标注进行判别;
S2、训练判别器D,使用生成器G1对x加上噪音z生成y_fake,公式为:y_fake=
Figure QLYQS_1
x和y分别为原标记和对应的原图像,z为噪音;
使用生成器G2对y加上噪音z生成x_fake,公式为:x_fake=
Figure QLYQS_2
;使用生成器G1对x_fake加上噪音z生成y_fake_fake,公式为y_fake_fake=/>
Figure QLYQS_3
;使用生成器G2对y_fake加上噪音z生成x_fake_fake,公式为x_fake_fake=/>
Figure QLYQS_4
;将输入的x与y、x与y_fake、y与x_fake、x_fake与y_fake_fake、y_fake与x_fake_fake五组数据用来训练判别器D对图像和对应标注的判别能力;
S3、训练生成器G1、生成器G2,生成器G1生成的图像为y_fake=
Figure QLYQS_5
、y_fake_fake=
Figure QLYQS_6
,生成器G2生成的图像为x_fake=/>
Figure QLYQS_7
、x_fake_fake=/>
Figure QLYQS_8
;判别器D对生成器G1和生成器G2生成的图像和标注进行判别进而对生成器的生成能力进行优化;
S4、通过一个筛选器来筛选符合要求的增广的图像和对应的标注形成增广数据集。
2.根据权利要求1所述的一种基于CGAN的语义分割数据集增广的方法,其特征在于,
步骤S1中生成器G1具体搭建如下:
S101生成器G1网络的搭建,对生成器G1的编码器和解码器进行构建,BatchNorm不应用于编码器中的第一个卷积层;在解码器的最后一层之后,应用一个卷积来映射到输出通道的数量,然后是一个Tanh激活器,图像的标注和噪音经过生成器G1后生成了设定尺寸的RGB图片。
3.根据权利要求2所述的一种基于CGAN的语义分割数据集增广的方法,其特征在于,
S101生成器G1的搭建具体如下:
编码器中所有ReLU都设置了leaky=True,而且设置slope为0.2,而解码器中的ReLU=False。
4.根据权利要求2所述的一种基于CGAN的语义分割数据集增广的方法,其特征在于,
S101生成器G1的搭建具体如下:
U-Net架构在编码器的第i层和解码器的第n-i层之间有跳过连接,其中n为总层数;跳过连接将激活从第i层连接到第n-i层。
5.根据权利要求1所述的一种基于CGAN的语义分割数据集增广的方法,其特征在于,
步骤S1中生成器G2具体搭建如下:
S102生成器G2网络的搭建,对生成器G2网络的编码器和解码器进行构建,生成器G2生成的方式是由图像和噪音生成标注;在生成器G2中前面的网络结构和生成器G1一致,在下采样提取特征之后采用上采样放大特征图,不同的是对上采样后的图像的每个点做softmax获得最终的分割图,生成了图像对应的标注。
6.根据权利要求1所述的一种基于CGAN的语义分割数据集增广的方法,其特征在于,
步骤S2中判别器网络匹配学习过程是通过优化公式x为原始标注,y为原始图像,z为随机噪声,使判别器D达到最大值,具体公式如下:
Figure QLYQS_9
7.根据权利要求6所述的一种基于CGAN的语义分割数据集增广的方法,其特征在于,
在公式
Figure QLYQS_10
Figure QLYQS_11
为原始图像和对应的原始标记的计算公式,/>
Figure QLYQS_12
为原始标记和生成对应图像的之间的计算公式,/>
Figure QLYQS_13
为原始图像和生成对应标注的之间的计算公式,/>
Figure QLYQS_14
为生成器G2网络生成的标注和G1对G2生成标注的生成图像之间的计算公式,/>
Figure QLYQS_15
为生成器G1生成的图像和G1对G2生成图像的生成标注之间的计算公式。
8.根据权利要求1所述的一种基于CGAN的语义分割数据集增广的方法,其特征在于,
步骤S1中判别器D具体搭建如下:
S103判别器D的搭建,判别器D中的网络主体结构依旧是由编码器和解码器组成的Unet;不同于生成器G1、生成器G2,判别器D需要对输入的标注和图像进行第四个维度的拼接,然后输入到Unet网络主体中,并在最后一层使用卷积来映射到一维输出,判别器D输出的结果为真假之间的域值。
9.根据权利要求1所述的一种基于CGAN的语义分割数据集增广的方法,其特征在于,
步骤S3中生成器G1、生成器G2学习过程是优化生成器G1、生成器G2使其到达最小值,具体公式如下:
Figure QLYQS_16
10.根据权利要求1所述的一种基于CGAN的语义分割数据集增广的方法,其特征在于,
步骤S4中筛选器具体筛选过程为:
搭建一个生成图像和生成标记筛选器,筛选器能获取生成器生成的图像于对应标注和判别器对该图像的判定结果,在每一轮会生成两组标注和对应的图像,既x1,y1=
Figure QLYQS_17
和x2,y2=/>
Figure QLYQS_18
,判别器对他们的判别结果分别为D1=D(x1,y1),D2=D(x2,y2),通过比较D1,D2与设置的阈值,选择出符合条件的图像和对应的标注进行输出并保存。
CN202310562310.1A 2023-05-18 2023-05-18 一种基于cgan的语义分割数据集增广的方法 Active CN116310348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310562310.1A CN116310348B (zh) 2023-05-18 2023-05-18 一种基于cgan的语义分割数据集增广的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310562310.1A CN116310348B (zh) 2023-05-18 2023-05-18 一种基于cgan的语义分割数据集增广的方法

Publications (2)

Publication Number Publication Date
CN116310348A true CN116310348A (zh) 2023-06-23
CN116310348B CN116310348B (zh) 2023-08-22

Family

ID=86801756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310562310.1A Active CN116310348B (zh) 2023-05-18 2023-05-18 一种基于cgan的语义分割数据集增广的方法

Country Status (1)

Country Link
CN (1) CN116310348B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446429A (zh) * 2020-11-27 2021-03-05 广东电网有限责任公司肇庆供电局 一种基于cgan的巡检图像数据小样本扩充方法
CN112950617A (zh) * 2021-03-24 2021-06-11 上海海事大学 基于连续旋转图像增强和条件生成对抗网络的潮流机叶片附着物识别方法
CN113222114A (zh) * 2021-04-22 2021-08-06 北京科技大学 一种图像数据增广方法及装置
US20210256353A1 (en) * 2018-05-17 2021-08-19 Tobii Ab Autoencoding generative adversarial network for augmenting training data usable to train predictive models
US20210383241A1 (en) * 2020-06-05 2021-12-09 Nvidia Corporation Training neural networks with limited data using invertible augmentation operators
CN113888547A (zh) * 2021-09-27 2022-01-04 太原理工大学 基于gan网络的无监督域自适应遥感道路语义分割方法
CN114049538A (zh) * 2021-11-25 2022-02-15 江苏科技大学 基于udwgan++网络的机场裂缝图像对抗生成方法
WO2022105308A1 (zh) * 2020-11-20 2022-05-27 南京大学 一种基于生成对抗级联网络增广图像的方法
CN115187777A (zh) * 2022-06-09 2022-10-14 电子科技大学 一种数据集制作困难下的图像语义分割方法
US20230146468A1 (en) * 2021-11-05 2023-05-11 Ceremorphic, Inc. Systems and methods for a lightweight pattern-aware generative adversarial network

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210256353A1 (en) * 2018-05-17 2021-08-19 Tobii Ab Autoencoding generative adversarial network for augmenting training data usable to train predictive models
US20210383241A1 (en) * 2020-06-05 2021-12-09 Nvidia Corporation Training neural networks with limited data using invertible augmentation operators
WO2022105308A1 (zh) * 2020-11-20 2022-05-27 南京大学 一种基于生成对抗级联网络增广图像的方法
CN112446429A (zh) * 2020-11-27 2021-03-05 广东电网有限责任公司肇庆供电局 一种基于cgan的巡检图像数据小样本扩充方法
CN112950617A (zh) * 2021-03-24 2021-06-11 上海海事大学 基于连续旋转图像增强和条件生成对抗网络的潮流机叶片附着物识别方法
CN113222114A (zh) * 2021-04-22 2021-08-06 北京科技大学 一种图像数据增广方法及装置
CN113888547A (zh) * 2021-09-27 2022-01-04 太原理工大学 基于gan网络的无监督域自适应遥感道路语义分割方法
US20230146468A1 (en) * 2021-11-05 2023-05-11 Ceremorphic, Inc. Systems and methods for a lightweight pattern-aware generative adversarial network
CN114049538A (zh) * 2021-11-25 2022-02-15 江苏科技大学 基于udwgan++网络的机场裂缝图像对抗生成方法
CN115187777A (zh) * 2022-06-09 2022-10-14 电子科技大学 一种数据集制作困难下的图像语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PINGPING DAI等: "Soft-CP: A Credible and Effective Data Augmentation for Semantic Segmentation of Medical Lesions", 《HTTPS://ARXIV.ORG/ABS/2203.10507》, pages 1 - 9 *
程校昭等: "基于改进深度卷积生成对抗网络的路面指示标志识别方法", 《交通信息与安全》, vol. 53, no. 2 *

Also Published As

Publication number Publication date
CN116310348B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN109886121A (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN110276354B (zh) 一种高分辨率街景图片语义分割训练与实时分割方法
CN110610509B (zh) 可指定类别的优化抠图方法及系统
CN115601549A (zh) 基于可变形卷积和自注意力模型的河湖遥感图像分割方法
Li et al. GAN-based spatial image steganography with cross feedback mechanism
Zhang et al. Viscode: Embedding information in visualization images using encoder-decoder network
CN110853039B (zh) 一种多数据融合的草图图像分割方法、系统、装置及存储介质
CN110517270B (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN115439857A (zh) 一种基于复杂背景图像的倾斜字符识别方法
Oyama et al. Influence of image classification accuracy on saliency map estimation
CN115019143A (zh) 一种基于CNN和Transformer混合模型的文本检测方法
CN116310693A (zh) 基于边缘特征融合和高阶空间交互的伪装目标检测方法
CN112884758A (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN112396554B (zh) 一种基于生成对抗网络的图像超分辨率方法
Mu et al. A climate downscaling deep learning model considering the multiscale spatial correlations and chaos of meteorological events
CN116645598A (zh) 一种基于通道注意力特征融合的遥感图像语义分割方法
Chen et al. Image steganalysis with multi-scale residual network
CN112784831B (zh) 融合多层特征增强注意力机制的文字识别方法
CN116310348B (zh) 一种基于cgan的语义分割数据集增广的方法
CN113052759A (zh) 基于mask和自动编码器的场景复杂文本图像编辑方法
Wang Illustration Art Based on Visual Communication in Digital Context
CN116704506A (zh) 一种基于交叉环境注意力的指代图像分割方法
CN115688234A (zh) 一种基于条件卷积的建筑布局生成方法、装置及介质
CN116112685A (zh) 一种基于扩散概率模型的图像隐写方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant