CN110533044B - 一种基于gan的域适应图像语义分割方法 - Google Patents

一种基于gan的域适应图像语义分割方法 Download PDF

Info

Publication number
CN110533044B
CN110533044B CN201910459336.7A CN201910459336A CN110533044B CN 110533044 B CN110533044 B CN 110533044B CN 201910459336 A CN201910459336 A CN 201910459336A CN 110533044 B CN110533044 B CN 110533044B
Authority
CN
China
Prior art keywords
semantic segmentation
domain
image
target domain
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910459336.7A
Other languages
English (en)
Other versions
CN110533044A (zh
Inventor
朱周平
何昭水
林钦壮
谈季
谢胜利
何俊延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910459336.7A priority Critical patent/CN110533044B/zh
Publication of CN110533044A publication Critical patent/CN110533044A/zh
Application granted granted Critical
Publication of CN110533044B publication Critical patent/CN110533044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像语义分割技术领域,具体涉及一种基于GAN的域适应图像语义分割方法;本发明包括如下部分:语义分割网络,生成对抗模块,空间感受野模块,对抗模块组。目标域是无标签数据集,源域是有标签数据集,任务是得到目标域的语义分割标签图。经典的图像语义分割网络内部可以看成编码器和解码器,输入图像经过编码和解码方式得到相同大小的输出图像。本发明提出在编码器和解码器上面分别加入相应的对抗训练辅助模块来减小域适应带来的域漂移问题。本发明解决了现有技术中的无监督图像语义分割准确率较低的问题。

Description

一种基于GAN的域适应图像语义分割方法
技术领域
本发明涉及图像语义分割技术领域,具体涉及一种基于GAN的域适应图像语义分割方法。
背景技术
目前,深度神经网络在大数据的前提下非常有能力学习到一个非常好的视觉模型。但是收集标签数据甚至是像素级的标签数据是非常困难的,据报道人工标注一张图片的像素级标签至少需要90分钟。对于图像数据集无标签的语义分割也就是无监督语义分割,在近年比较流行的一个选择方案就是利用虚拟数据(比如说游戏场景里的图像,我们可以很容易的获取图片以及标注好的像素级标签,相对于人工标注在速度上快好几个量级)来产生现实场景的图像标签。但是,简单的将在虚拟数据上训练得到的模型应用到实际图片上得到的图片效果很差,主要原因就是域漂移。传统的域适应方法主要应用于图像分类任务,可以概括为(1)最小化源域和目标域分布的距离,(2)确保这两种分布能通过对抗训练来互相接近。但是,图像语义分割是像素级的,相对于图像分类更加富有密集和结构化的信息,所以分类任务中的域适应技术不能很好的转化为图像语义分割域适应。而且对图像语义分割的域适应领域,在学术界是比较少的研究与关注。
近年来,生成对抗模型(GAN)的兴起和发展,越来越多的问题能通过引入GAN得到解决。GAN的目的在于拟合两个分布,通过生成对抗训练,让其中一个分布能趋近或者对齐于另外一个分布。为了解决域漂移问题,我们提出了基于GAN的域适应图像语义分割的方法。
发明内容
针对现有技术的不足,本发明公开了一种基于GAN的域适应图像语义分割方法,为解决现有技术中的无监督图像语义分割准确率较低的问题。
本发明通过以下技术方案予以实现:
一种基于GAN的域适应图像语义分割方法,其特征在于,包括如下步骤:
S1选择源域和目标域数据集;
S2构建基于GAN的域适应图像语义分割模型;
S3对源域和目标域的图片做特征域的对齐处理;
S4在编码器中输入源域图片,得到语义分割网络中解码器的热启动;
S5源域和目标域的图片都输入完整的语义分割网络,分割图接着输入到空间感受野模块得到不同的特征图,输入到对应的对抗模块组;
S6输入目标域图片在语义分割网络中进行前向传播,端到端的输出预测的语义分割结果,完成无标签目标域的图像语义分割。
优选的,所述S2中,语义分割模型包括语义分割网络、生成对抗模块、空间感受野模块和对抗模块组。
优选的,所述空间感受野模块包括最大池化、1x1的卷积和3x3 的卷积,设置padding=dilation分别是12,24,36,其中1x1的卷积和3x3的卷积并行的排在池化层的后面。
优选的,所述S3具体为:源域和目标域的图片都输入语义分割网络中的编码器得到特征表征层,然后输入生成对抗模块,达到域对齐目的。
优选的,所述S3包括以下子步骤:
S31将采用预训练好的编码器,提取图像的特征;
S2采用上述S31步骤的损失来更新编码器和生成对抗模块,更新完之后,使编码器学习到了源域和目标域的共同特征,并且使源域的特征迁移向目标域。
优选的,所述S4中,固定语义分割网络中的编码器,只输入源域图片,经完整的语义分割网络得到语义分割图,用交叉熵损失进行训练,使得训练得到语义分割网络中解码器的热启动。
优选的,所述S5中,源域和目标域的图片都输入完整的语义分割网络,得到相对应的语义分割图,对于源域图片具有交叉熵损失度量,目标域则没有;分割图接着输入到空间感受野模块得到不同的特征图,输入到对应的对抗模块组。
优选的,所述S5包括以下子步骤:
S51分别输入源域和目标域的图片,经过已经固定的编码器,热启动好的解码器分别得到语义分割图,对于源域的语义分割图添加一个交叉熵损失,目标域则没有;
S52两个域的得到的语义分割图分别输入空间空洞模块,输出4 个特征图接着输入对抗模块组中,进行对抗训练;
S53针对上两步的交叉熵损失和对抗损失加入平衡参数,用于平衡对抗训练和全监督语义分割。
本发明的有益效果为:
(1)本发明所述基于GAN的域适应图像语义分割方法采用了两次生成对抗训练,分别辅助训练语义分割网络中的编码器和解码器,能有效提高语义分割的准确率,最终得到较好的语义分割结果。
(2)对于第一阶段的对抗训练,本发明能有效的得到编码器,重构和生成对抗使得不管来自源域还是目标域都有相似的特征表示,该特征迁移向目标域表示。这个过程有效的提取到了目标域的特征表征。
(3)对于源域和目标域的图片,在结构上都有类似,比如都是街道场景,街道结构都是有相同的信息。因此对于第三阶段的对抗训练,本发明得到的解码器能学习到源域的结构信息用于目标域的分割,详细的,本发明使用了空间感受野模块,从不同的感受野得到精细的丰富的结构信息;同时在对抗和分割中加入的平衡参数平衡了对抗和分割,使得目标域的分割图能保持自己的信息。这样,这个过程训练之后得到的解码器能产生域不变的结构表征。能提高整个语义分割网络对目标域的分割精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的总体模型图;
图2是本发明的空间感受野模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例公开了一种基于GAN的域适应图像语义分割方法,包括如下步骤:
步骤1:本实例采用的源域和目标域数据集分别是GTAV和 CityScapes,前者有标签,后者无标签,训练集全部处理成512x512 大小,通过翻转、旋转来扩增;
步骤2:构建基于GAN的域适应图像语义分割模型。如附图的图1 所示,包括语义分割网络,生成对抗模块,空间感受野模块,对抗模块组;
步骤3:第一阶段训练过程为:
步骤3.1:将预处理的源域或者目标域图片输入预训练好的编码器,输出得到编码特征,其大小为输入大小的1/16;然后将编码特征输入生成对抗模块,生成对抗模块包含生成器和判别器,生成器全部采用3x3的反卷积,逐级扩大,使得来自源域的图片输出得到一张重构图。采用L1距离作为重构损失。
步骤3.2:生成对抗模块里面的判别器全部由3x3的卷积,接着拉成一维向量,然后判断:如果是目标域重构图则是真,否则为假。采用经典的对抗训练损失。
步骤3.3:该过程总损失=重构损失+对抗训练损失,指导训练编码器和生成对抗模块。训练设置3k迭代数,目的得到微调的编码器,使用“poly”调整学习率方法将其power设置为0.9,初始学习率base_lr 为0.0025,采用的优化器为Adam,动量为0.9,权重衰减为0.0005。其中poly的学习率衰减机制为:
Figure RE-GDA0002231336200000051
步骤4:第二阶段训练过程:只使用源域图片进行训练,经过完整的语义分割网络即编码器和解码器,得到语义分割图。采用常用交叉熵损失指导训练解码器。训练设置4k迭代数,剩下的参数设置和步骤 3.4一样。
步骤5:第三阶段训练过程:
步骤5.1:源域和目标域数据都经过完整的语义分割网络分别得到语义分割图,对于源域的语义分割图有交叉熵损失和步骤4的一样;但是对于目标域的语义分割图则没有定义交叉熵损失。
步骤5.2:将语义分割图输入空间感受野模块里面。如图2所示,该模块由一个3x3的最大池化层,后接并行的4个卷积组成,输出4 个同大小的特征图。将这4个特征图输入对抗模块组中,该模块组只包含4个并行的判别器(不包含生成器)都采用经典的DCGAN中判别器的设计,分别对应4个特征图的输入。判断标准是:如果特征图来自目标域的语义图则判断为真,否则为假。采用经典的对抗训练方式,将对抗模块组的损失全部求和平均作为对抗训练损失。
步骤5.3:该过程总损失=对抗训练损失+λ*交叉熵损失,将平衡参数λ设置为5,初始化学习率为0.0001,训练3k迭代数,其余参数和步骤3.4一样。
步骤6:输入目标域图像,在已经训练好的编码器E和分割网络S 中进行一次前向传播,端到端的输出预测的语义分割结果。
本发明的工作原理和过程为:图像语义分割的主体模型就是语义分割网络,其余网络全部都是辅助网络。(1)第一个训练过程增加的辅助网络,其目的就是能得到有效的特征表征编码器,从而能使源域能对齐目标域,即中间特征层的表征对齐。(2)第二个训练过程,目的是是解码器热启动,能具有基本的语义分割能力输出一张基本的语义图。(3)第三个训练过程增加的辅助网络,其目的是为了让目标域的语义图学习到更加丰富的结构特征,帮助解码器的微调,得到更加准确的目标域的分割图。本发明巧妙的使用了两组对抗训练,分别得到不同的目的,从而在域适应的分割上面,对无标签的目标域 (CityScapes数据集)解决了图像语义分割准确率较低的问题。
凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (1)

1.一种基于GAN的域适应图像语义分割方法,其特征在于,包括如下步骤:
S1选择源域和目标域数据集;
S2构建基于GAN的域适应图像语义分割模型;
S3对源域和目标域的图像做特征域的对齐处理;
S4在编码器中输入源域图像,得到语义分割网络中解码器的热启动;
S5源域和目标域的图像都输入完整的语义分割网络,分割图接着输入到空间感受野模块得到不同的特征图,输入到对应的对抗模块组;
S6输入目标域图像在语义分割网络中进行前向传播,端到端的输出预测的语义分割结果,完成无标签目标域的图像语义分割;
所述S2中,语义分割模型包括语义分割网络、生成对抗模块、空间感受野模块和对抗模块组;
所述空间感受野模块包括最大池化、1x1的卷积和3x3的卷积,设置padding=dilation分别是12,24,36,其中1x1的卷积和3x3的卷积并行的排在最大池化的后面;
所述S3具体为:源域和目标域的图像都输入语义分割网络中的编码器得到编码特征,然后将编码特征输入生成对抗模块,达到域对齐目的;
所述S3包括以下子步骤:
S31将采用预训练好的编码器,提取图像的特征;
S32采用上述S31步骤的损失来更新编码器和生成对抗模块,更新完之后,使编码器学习到了源域和目标域的共同特征,并且使源域的特征迁移向目标域;
所述S4中,固定语义分割网络中的编码器,只输入源域图像,经完整的语义分割网络得到语义分割图,用交叉熵损失进行训练,使得训练得到语义分割网络中解码器的热启动;
所述S5中,源域和目标域的图像都输入完整的语义分割网络,得到相对应的语义分割图,对于源域图像具有交叉熵损失度量,目标域则没有;分割图接着输入到空间感受野模块得到不同的特征图,输入到对应的对抗模块组;
所述S5包括以下子步骤:
S51分别输入源域和目标域的图像,经过已经固定的编码器,热启动好的解码器分别得到语义分割图,对于源域的语义分割图添加一个交叉熵损失,目标域则没有;
S52两个域的得到的语义分割图分别输入空间感受野模块,输出4个特征图接着输入对抗模块组中,进行对抗训练;
S53针对上两步的交叉熵损失和对抗损失加入平衡参数,用于平衡对抗训练和全监督语义分割。
CN201910459336.7A 2019-05-29 2019-05-29 一种基于gan的域适应图像语义分割方法 Active CN110533044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910459336.7A CN110533044B (zh) 2019-05-29 2019-05-29 一种基于gan的域适应图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910459336.7A CN110533044B (zh) 2019-05-29 2019-05-29 一种基于gan的域适应图像语义分割方法

Publications (2)

Publication Number Publication Date
CN110533044A CN110533044A (zh) 2019-12-03
CN110533044B true CN110533044B (zh) 2023-01-20

Family

ID=68659547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910459336.7A Active CN110533044B (zh) 2019-05-29 2019-05-29 一种基于gan的域适应图像语义分割方法

Country Status (1)

Country Link
CN (1) CN110533044B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179277B (zh) * 2019-12-11 2023-05-02 中国科学院深圳先进技术研究院 一种无监督自适应乳腺病变分割方法
CN111242133B (zh) * 2020-01-14 2022-06-28 山东浪潮科学研究院有限公司 一种gan隐藏层单元与生成图像中物体相关性的方法及系统
CN113554719B (zh) * 2020-04-24 2023-05-09 武汉Tcl集团工业研究院有限公司 一种图像编码方法、解码方法、存储介质及终端设备
CN111539439B (zh) * 2020-04-30 2021-01-05 宜宾电子科技大学研究院 一种图像语义分割方法
CN111476805B (zh) * 2020-05-22 2023-06-23 南京大学 一种基于多重约束的跨源无监督域适应分割模型
CN111951220A (zh) * 2020-07-10 2020-11-17 北京工业大学 一种基于多层面领域自适应技术的无监督脑出血分割方法
CN112150469B (zh) * 2020-09-18 2022-05-27 上海交通大学 一种基于无监督领域自适应的激光散斑衬比图像分割方法
CN112115916B (zh) * 2020-09-29 2023-05-02 西安电子科技大学 域适应Faster R-CNN半监督SAR检测方法
CN113113119A (zh) * 2021-03-23 2021-07-13 中国科学院深圳先进技术研究院 语义分割网络的训练方法、图像处理方法及其设备
CN113221902B (zh) * 2021-05-11 2021-10-15 中国科学院自动化研究所 基于数据分布扩充的跨域自适应语义分割方法及系统
CN113436197B (zh) * 2021-06-07 2022-10-04 华东师范大学 基于生成对抗和类特征分布的域适应无监督图像分割方法
CN113326848B (zh) * 2021-06-17 2023-04-18 中山大学 半监督领域自适应方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062753A (zh) * 2017-12-29 2018-05-22 重庆理工大学 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法
GB201809604D0 (en) * 2018-06-12 2018-07-25 Tom Tom Global Content B V Generative adversarial networks for image segmentation
CN109635812A (zh) * 2018-11-29 2019-04-16 中国科学院空间应用工程与技术中心 图像的实例分割方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147296A1 (en) * 2017-11-15 2019-05-16 Nvidia Corporation Creating an image utilizing a map representing different classes of pixels

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062753A (zh) * 2017-12-29 2018-05-22 重庆理工大学 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法
GB201809604D0 (en) * 2018-06-12 2018-07-25 Tom Tom Global Content B V Generative adversarial networks for image segmentation
CN109635812A (zh) * 2018-11-29 2019-04-16 中国科学院空间应用工程与技术中心 图像的实例分割方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
有条件生成对抗网络的IVUS图像内膜与中-外膜边界检测;袁绍锋等;《中国生物医学工程学报》;20190420(第02期);第146-155页 *

Also Published As

Publication number Publication date
CN110533044A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110533044B (zh) 一种基于gan的域适应图像语义分割方法
Golts et al. Unsupervised single image dehazing using dark channel prior loss
CN108986050B (zh) 一种基于多分支卷积神经网络的图像和视频增强方法
CN109711413B (zh) 基于深度学习的图像语义分割方法
CN111950453B (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111292264B (zh) 一种基于深度学习的图像高动态范围重建方法
WO2020037965A1 (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
CN111833277B (zh) 一种具有非配对多尺度混合编解码结构的海上图像去雾方法
CN111832453B (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN111968123A (zh) 一种半监督视频目标分割方法
CN112070114A (zh) 基于高斯约束注意力机制网络的场景文字识别方法及系统
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN116958534A (zh) 一种图像处理方法、图像处理模型的训练方法和相关装置
CN113888399B (zh) 一种基于风格融合与域选结构的人脸年龄合成方法
CN108009549A (zh) 一种迭代协同显著性检测方法
CN114119694A (zh) 一种基于改进U-Net的自监督单目深度估计算法
CN114140469A (zh) 一种基于多层注意力的深度分层图像语义分割方法
CN117291232A (zh) 一种基于扩散模型的图像生成方法与装置
CN112785502A (zh) 一种基于纹理迁移的混合相机的光场图像超分辨率方法
Zhang et al. Inter-frame video image generation based on spatial continuity generative adversarial networks
CN116152263A (zh) 一种基于cm-mlp网络的医学图像分割方法
Lee et al. Design of CycleGAN model for SAR image colorization
Zhu et al. Application research on improved CGAN in image raindrop removal
CN112329799A (zh) 一种点云彩色化算法
Lei et al. A monocular image depth estimation method based on weighted fusion and point‐wise convolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant