CN110634101A - 一种基于随机重构的无监督图像到图像的转换方法 - Google Patents

一种基于随机重构的无监督图像到图像的转换方法 Download PDF

Info

Publication number
CN110634101A
CN110634101A CN201910839912.0A CN201910839912A CN110634101A CN 110634101 A CN110634101 A CN 110634101A CN 201910839912 A CN201910839912 A CN 201910839912A CN 110634101 A CN110634101 A CN 110634101A
Authority
CN
China
Prior art keywords
image
network
result
source domain
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910839912.0A
Other languages
English (en)
Other versions
CN110634101B (zh
Inventor
张笑钦
肖智恒
王涛
蒋润华
赵丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN201910839912.0A priority Critical patent/CN110634101B/zh
Publication of CN110634101A publication Critical patent/CN110634101A/zh
Application granted granted Critical
Publication of CN110634101B publication Critical patent/CN110634101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于随机重构的无监督图像到图像的转换方法,包括以下步骤:通过残差注意力网络生成粗糙结果,对粗糙结果进行加工,通过对抗损失更新生成器及判别器,通过随机重构更新生成器。此技术方案,有效的随机特征重构损失来保留源域的内容信息,能够很好的将源域的内容和目标域的风格相融合;生成的图像细节更加丰富,图像纹理清晰;提高了生成对抗网络的稳定性。可以广泛的应用于多种图像转换任务当中,具有广泛的应用前景。

Description

一种基于随机重构的无监督图像到图像的转换方法
技术领域
本发明涉及计算机图形学、计算机视觉与深度学习技术领域,具体涉及一种基于随机重构的无监督图像到图像的转换方法。
背景技术
图像到图像的转换是一类视觉和图形学的问题,在计算机图像学及计算机视觉领域很多问题都可以认为是将一张输入图片转换为相应的输出图片,包括语义风格,风格迁移,图像去模糊,图像增强等。有监督的图像到图像转换需要大量的一一对应的数据集来进行训练,但很多时候,我们无法获取成对的数据集用于训练图像到图像的转换模型,比如我们永远也无法拍到梵高当初看到的星空,在这种场景下无监督的图像到图像的转换就具有特殊的意义。
基于学习的图像到图像的转换大致可以分为两类:成对的模型和不成对的模型。Pix2Pix是第一个图像到图像转换的统一框架,并且广泛的运用于超像素分辨中。最近的有一些关于不成对的图像到图像的转换模型,其主要想法就是在源域和目标域之间建立一个映射。CoGAN通过一个权重共享策略来学习一个共享的跨域表示,SimGAN通过自正则的方式来保持输入和输出有相同的内容,并通过对抗损失来学习目标域的分布。CycleGAN通过循环一致损失将整个模型约束成两个自编码,可以实现两个域的图像的互相转换。UNIT通过共享两个域的隐空间来实现图像的跨域转换。MUNIT在隐空间中加入了随机的编码,可以实现多个领域的图像转化。
随着研究的深入,无监督的图像到图像的转换技术已经取得了一定发展,然而,目前仍存在一些关键问题尚待解决。目前的图像到图像的转换模型生成的图像内容与风格的融合不够真实,缺乏细节,而图像到图像的转换必须有丰富的细节。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于随机重构的无监督图像到图像的转换方法,该转换方法实现图像到图像的转换,并通过随机重构输入图像的深层特征来消除图像风格与内容的融合不真实,通过增强模块来丰富生成图像的细节。
为实现上述目的,本发明提供了如下技术方案:一种基于随机重构的无监督图像到图像的转换方法,包括以下步骤:
(1)将源域图片x输入到一个残差注意力网络G中,用于生成粗糙的图像G(x),将生成的粗糙图像再输入到一个增强模块中用于对粗糙结果的精加工得到
Figure BDA0002193361410000021
并通过生成对抗损失来学习目标图像的分布,再通过随机重构损失来保持原图像的内容特征;
(2)将生成的粗糙结果G(x)及精细结果
Figure BDA0002193361410000022
分别输入到两个判别器中来指导残差注意力网络及增强模块的更新;
(3)通过预训练的VGG16网络来分别提取输出图片和源域图像x的高层特征,然后随机挑选一部分特征进行重构来保持源域的信息。
作为优选的,步骤(1),包括以下子步骤:
(1.1)将源域图像分别输入到一个主分支网络中和掩码分支网络中去,主分支网络和掩码分支网络都由一个卷积前端和一个转置卷积后端构成,主分支网络用来学习一个源域到目标域的映射,掩码网络用学习一个掩码权重对主分支网络进行加权修正,以此来提高主分支网络的特征表达能力;
(1.2)将粗糙结果G(x)输入到增强模块,对生成结果进行加工;
(1.3)增强模块由两个DenseASPP模块构成,极大的丰富生成图像的细节。
作为优选的,步骤(2),包括以下子步骤:
(2.1)将粗糙结果G(x)和目标域图像y分别送入判别器D1,跟新判别器D1和残差注意力网络G,其目标函数为:
Figure BDA0002193361410000031
(2.2)将精细结果
Figure BDA0002193361410000032
和目标域图像y分别送入判别器D2,用来跟新判别器、残差注意力网络以及增强模块,其目标函数为:
Figure BDA0002193361410000033
其中,
Figure BDA0002193361410000034
代表由残差注意力网络和增强模块构成的整个生成网络。
作为优选的,步骤(3),包括以下子步骤:
(3.1)将粗糙结果G(x)和源域图像x分别送入预训练的VGG16网络用来提取深层特征,再随机挑选一部分特征,定义为Ri(x),通过最小化粗糙结果G(x)和源域图像x的随机特征更新残差注意力网络,损失函数为:
Figure BDA0002193361410000035
(3.2)对精细结果
Figure BDA0002193361410000036
和源域图像x分别送入预训练的VGG16网络用来提取深层特征,再随机挑选一部分特征,定义为Ri(x),通过最小化精细结果
Figure BDA0002193361410000037
和源域图像x的随机特征更新残差注意力网络,损失函数为:
Figure BDA0002193361410000038
其中,C,H,W分别表示随机提取的特征的深度,长度以及宽度。
作为优选的,步骤(2),判别器D1的输入是粗糙结果G(x)及目标域的图像y,判别器D2的输入是精细结果
Figure BDA0002193361410000041
及目标域的图像y。
作为优选的,步骤(3),输出图片为粗糙结果G(x)及精细结果)。
本发明的优点是:与现有技术相比,本发明基于随机重构的无监督图像到图像的转换方法更加合理:
1、本发明基于随机重构的转换方法可以很好的实现图像到图像的转换;
2、本发明随机重构损失可以用来保留源域的内容信息,使得图像的内容和风格更好的融合;
3、本发明所提到的增强模块可以很好的丰富生成图像的细节;
4、本发明所所提到的训练策略可以很好的用来更新增强模块及提高生成对抗网络的稳定性。
下面结合说明书附图和具体实施例对本发明作进一步说明。
附图说明
图1为本发明实施例基于随机重构的无监督图像到图像转换的模型框架示意图;
图2为本发明实施例增强模块示意图;
图3为本发明实施例随机重构损失的原理图。
具体实施方式
参见图1、图2和图3,本发明公开的一种基于随机重构的无监督图像到图像的转换方法,包括以下步骤:
(1)将源域图片x输入到一个残差注意力网络G中,用于生成粗糙的图像G(x),将生成的粗糙图像再输入到一个增强模块中用于对粗糙结果的精加工得到
Figure BDA0002193361410000042
并通过生成对抗损失来学习目标图像的分布,再通过随机重构损失来保持原图像的内容特征;
(2)将生成的粗糙结果G(x)及精细结果
Figure BDA0002193361410000051
分别输入到两个判别器中来指导残差注意力网络及增强模块的更新;
(3)通过预训练的VGG16网络来分别提取输出图片和源域图像x的高层特征,然后随机挑选一部分特征进行重构来保持源域的信息。
VGG16网络:VGG是牛津Visual Geometry Group的简写,16表示网络的层数。
作为优选的,步骤(1),包括以下子步骤:
(1.1)将源域图像分别输入到一个主分支网络中和掩码分支网络中去,主分支网络和掩码分支网络都由一个卷积前端和一个转置卷积后端构成,主分支网络用来学习一个源域到目标域的映射,掩码网络用学习一个掩码权重对主分支网络进行加权修正,以此来提高主分支网络的特征表达能力;
(1.2)将粗糙结果G(x)输入到增强模块,对生成结果进行加工;
(1.3)增强模块由两个DenseASPP模块构成,极大的丰富生成图像的细节。
作为优选的,所述DenseASPP模块全称是密集空洞卷积金字塔Densely connectedatrous spatial pyramid pooling模块。具体来说,生成的图像先经过7×7的卷积,然后输出的特征再通过空洞率为3,6,12,18,24的空洞卷积,将这些特征密集连接在一起。
作为优选的,步骤(2),包括以下子步骤:
(2.1)将粗糙结果G(x)和目标域图像y分别送入判别器D1,跟新判别器D1和残差注意力网络G,其目标函数为:
Figure BDA0002193361410000052
(2.2)将精细结果
Figure BDA0002193361410000053
和目标域图像y分别送入判别器D2,用来跟新判别器、残差注意力网络以及增强模块,其目标函数为:
其中,代表由残差注意力网络和增强模块构成的整个生成网络。
作为优选的,步骤(3),包括以下子步骤:
(3.1)将粗糙结果G(x)和源域图像x分别送入预训练的VGG16网络用来提取深层特征,再随机挑选一部分特征,定义为Ri(x),通过最小化粗糙结果G(x)和源域图像x的随机特征更新残差注意力网络,损失函数为:
Figure BDA0002193361410000063
(3.2)对精细结果
Figure BDA0002193361410000064
和源域图像x分别送入预训练的VGG16网络用来提取深层特征,再随机挑选一部分特征,定义为Ri(x),通过最小化精细结果
Figure BDA0002193361410000065
和源域图像x的随机特征更新残差注意力网络,损失函数为:
Figure BDA0002193361410000066
其中,C,H,W分别表示随机提取的特征的深度,长度以及宽度。
作为优选的,步骤(2),判别器D1的输入是粗糙结果G(x)及目标域的图像y,判别器D2的输入是精细结果
Figure BDA0002193361410000067
及目标域的图像y。
作为优选的,步骤(3),输出图片为粗糙结果G(x)及精细结果
Figure BDA0002193361410000068
)。
本发明具体运行的硬件和编程语言并不限制,用任何语言编写都可以完成,为此,其它工作模式不再赘述。
本实施例是采用一台具有Inter Xeno Silver 4114中央处理器,8G字节内存和单个NVIDIA GTX1080ti GPU现存为8G字节的计算机,并用Python语言编制了基于随机重构的无监督图像到图像的转换模型的工作程序,实现了本次发明的模型算法。
本发明主要包括以下四个步骤:通过残差注意力网络生成粗糙结果,对粗糙结果进行加工,通过对抗损失更新生成器及判别器,通过随机重构更新生成器。
本发明提出了一种有效的随机特征重构损失来保留源域的内容信息,能够很好的将源域的内容和目标域的风格相融合;生成的图像细节更加丰富,图像纹理清晰,并且本发明提出的训练策略提高了生成对抗网络的稳定性,可以广泛的应用于多种图像转换任务当中,具有广泛的应用前景。
上述实施例对本发明的具体描述,只用于对本发明进行进一步说明,不能理解为对本发明保护范围的限定,本领域的技术工程师根据上述发明的内容对本发明作出一些非本质的改进和调整均落入本发明的保护范围之内。

Claims (6)

1.一种基于随机重构的无监督图像到图像的转换方法,其特征在于:包括以下步骤:
(1)将源域图片x输入到一个残差注意力网络G中,用于生成粗糙的图像G(x),将生成的粗糙图像再输入到一个增强模块中用于对粗糙结果的精加工得到并通过生成对抗损失来学习目标图像的分布,再通过随机重构损失来保持原图像的内容特征;
(2)将生成的粗糙结果G(x)及精细结果分别输入到两个判别器中来指导残差注意力网络及增强模块的更新;
(3)通过预训练的VGG16网络来分别提取输出图片和源域图像x的高层特征,然后随机挑选一部分特征进行重构来保持源域的信息。
2.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法,其特征在于:步骤(1),包括以下子步骤:
(1.1)将源域图像分别输入到一个主分支网络中和掩码分支网络中去,主分支网络和掩码分支网络都由一个卷积前端和一个转置卷积后端构成,主分支网络用来学习一个源域到目标域的映射,掩码网络用学习一个掩码权重对主分支网络进行加权修正,以此来提高主分支网络的特征表达能力;
(1.2)将粗糙结果G(x)输入到增强模块,对生成结果进行加工;
(1.3)增强模块由两个DenseASPP模块构成,极大的丰富生成图像的细节。
3.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法,其特征在于:步骤(2),包括以下子步骤:
(2.1)将粗糙结果G(x)和目标域图像y分别送入判别器D1,跟新判别器D1和残差注意力网络G,其目标函数为:
Figure RE-FDA0002286311000000011
(2.2)将精细结果和目标域图像y分别送入判别器D2,用来跟新判别器、残差注意力网络以及增强模块,其目标函数为:
其中,代表由残差注意力网络和增强模块构成的整个生成网络。
4.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法,其特征在于:步骤(3),包括以下子步骤:
(3.1)将粗糙结果G(x)和源域图像x分别送入预训练的VGG16网络用来提取深层特征,再随机挑选一部分特征,定义为Ri(x),通过最小化粗糙结果G(x)和源域图像x的随机特征更新残差注意力网络,损失函数为:
(3.2)对精细结果
Figure RE-FDA0002286311000000025
和源域图像x分别送入预训练的VGG16网络用来提取深层特征,再随机挑选一部分特征,定义为Ri(x),通过最小化精细结果
Figure RE-FDA0002286311000000026
和源域图像x的随机特征更新残差注意力网络,损失函数为:
Figure RE-FDA0002286311000000027
其中,C,H,W分别表示随机提取的特征的深度,长度以及宽度。
5.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法,其特征在于:步骤(2),判别器D1的输入是粗糙结果G(x)及目标域的图像y,判别器D2的输入是精细结果
Figure RE-FDA0002286311000000028
及目标域的图像y。
6.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法,其特征在于:步骤(3),输出图片为粗糙结果G(x)及精细结果
Figure RE-FDA0002286311000000029
CN201910839912.0A 2019-09-06 2019-09-06 一种基于随机重构的无监督图像到图像的转换方法 Active CN110634101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910839912.0A CN110634101B (zh) 2019-09-06 2019-09-06 一种基于随机重构的无监督图像到图像的转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910839912.0A CN110634101B (zh) 2019-09-06 2019-09-06 一种基于随机重构的无监督图像到图像的转换方法

Publications (2)

Publication Number Publication Date
CN110634101A true CN110634101A (zh) 2019-12-31
CN110634101B CN110634101B (zh) 2023-01-31

Family

ID=68971074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910839912.0A Active CN110634101B (zh) 2019-09-06 2019-09-06 一种基于随机重构的无监督图像到图像的转换方法

Country Status (1)

Country Link
CN (1) CN110634101B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696168A (zh) * 2020-06-13 2020-09-22 中北大学 基于残差自注意力图像增强的高倍速采mri重建方法
CN111915526A (zh) * 2020-08-05 2020-11-10 湖北工业大学 一种基于亮度注意力机制低照度图像增强算法的摄影方法
CN112001398A (zh) * 2020-08-26 2020-11-27 科大讯飞股份有限公司 域适应方法、装置、设备、图像处理方法及存储介质
CN112149619A (zh) * 2020-10-14 2020-12-29 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460717A (zh) * 2018-03-14 2018-08-28 儒安科技有限公司 一种基于双判别器的生成对抗网络的图像生成方法
CN108537743A (zh) * 2018-03-13 2018-09-14 杭州电子科技大学 一种基于生成对抗网络的面部图像增强方法
CN109033095A (zh) * 2018-08-01 2018-12-18 苏州科技大学 基于注意力机制的目标变换方法
CN109671018A (zh) * 2018-12-12 2019-04-23 华东交通大学 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537743A (zh) * 2018-03-13 2018-09-14 杭州电子科技大学 一种基于生成对抗网络的面部图像增强方法
CN108460717A (zh) * 2018-03-14 2018-08-28 儒安科技有限公司 一种基于双判别器的生成对抗网络的图像生成方法
CN109033095A (zh) * 2018-08-01 2018-12-18 苏州科技大学 基于注意力机制的目标变换方法
CN109671018A (zh) * 2018-12-12 2019-04-23 华东交通大学 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XUEXIN QU等: "Perceptual-DualGAN: Perceptual Losses for Image", 《IEEE XPLORE》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696168A (zh) * 2020-06-13 2020-09-22 中北大学 基于残差自注意力图像增强的高倍速采mri重建方法
CN111696168B (zh) * 2020-06-13 2022-08-23 中北大学 基于残差自注意力图像增强的高倍速采mri重建方法
CN111915526A (zh) * 2020-08-05 2020-11-10 湖北工业大学 一种基于亮度注意力机制低照度图像增强算法的摄影方法
CN111915526B (zh) * 2020-08-05 2024-05-31 湖北工业大学 一种基于亮度注意力机制低照度图像增强算法的摄影方法
CN112001398A (zh) * 2020-08-26 2020-11-27 科大讯飞股份有限公司 域适应方法、装置、设备、图像处理方法及存储介质
CN112001398B (zh) * 2020-08-26 2024-04-12 科大讯飞股份有限公司 域适应方法、装置、设备、图像处理方法及存储介质
CN112149619A (zh) * 2020-10-14 2020-12-29 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法
CN112149619B (zh) * 2020-10-14 2024-03-15 南昌慧亦臣科技有限公司 一种基于Transformer模型自然场景文字识别方法

Also Published As

Publication number Publication date
CN110634101B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN110634101B (zh) 一种基于随机重构的无监督图像到图像的转换方法
Ci et al. User-guided deep anime line art colorization with conditional adversarial networks
Nguyen-Phuoc et al. Hologan: Unsupervised learning of 3d representations from natural images
CN112465955B (zh) 一种动态人体三维重建和视角合成方法
CN109087243B (zh) 一种基于深度卷积生成对抗网络的视频超分辨率生成方法
CN111709470B (zh) 图像生成方法、装置、设备及介质
CN111862294B (zh) 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法
Wang et al. TMS-GAN: A twofold multi-scale generative adversarial network for single image dehazing
CN113096239B (zh) 一种基于深度学习的三维点云重建方法
CN114140309A (zh) 一种基于nice模型的新型图像隐写方法及系统
Li et al. Symmnerf: Learning to explore symmetry prior for single-view view synthesis
CN111861886A (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
CN114723950A (zh) 一种基于对称自适应网络的跨模态医学图像分割方法
CN115100044A (zh) 基于三生成器生成对抗网络的内窥镜超分辨方法、系统
Sun et al. ESinGAN: Enhanced single-image GAN using pixel attention mechanism for image super-resolution
Zhai et al. SKFlow: optical flow estimation using selective kernel networks
Wang et al. High-resolution point cloud reconstruction from a single image by redescription
CN116091319A (zh) 基于长距离上下文依赖的图像超分辨率重建方法及系统
CN116978057A (zh) 图像中人体姿态迁移方法、装置、计算机设备和存储介质
JP2022191122A (ja) 差分比較学習に基づく深度マップ合成方法
Li et al. Synthetic-to-Real Generalization for Semantic Segmentation
Costain et al. Towards generalising neural implicit representations
CN117896526B (zh) 基于双向编码结构的视频帧插值方法及系统
You et al. Learning a unified 3d point cloud for view synthesis
Jamgochian et al. 3D Neural Style Transfer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant