CN110634101A - 一种基于随机重构的无监督图像到图像的转换方法 - Google Patents
一种基于随机重构的无监督图像到图像的转换方法 Download PDFInfo
- Publication number
- CN110634101A CN110634101A CN201910839912.0A CN201910839912A CN110634101A CN 110634101 A CN110634101 A CN 110634101A CN 201910839912 A CN201910839912 A CN 201910839912A CN 110634101 A CN110634101 A CN 110634101A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- result
- source domain
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- GMBQZIIUCVWOCD-WWASVFFGSA-N Sarsapogenine Chemical compound O([C@@H]1[C@@H]([C@]2(CC[C@@H]3[C@@]4(C)CC[C@H](O)C[C@H]4CC[C@H]3[C@@H]2C1)C)[C@@H]1C)[C@]11CC[C@H](C)CO1 GMBQZIIUCVWOCD-WWASVFFGSA-N 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- LLUHQJSCQAYKBW-UHFFFAOYSA-N silver xenon Chemical compound [Ag].[Xe] LLUHQJSCQAYKBW-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于随机重构的无监督图像到图像的转换方法,包括以下步骤:通过残差注意力网络生成粗糙结果,对粗糙结果进行加工,通过对抗损失更新生成器及判别器,通过随机重构更新生成器。此技术方案,有效的随机特征重构损失来保留源域的内容信息,能够很好的将源域的内容和目标域的风格相融合;生成的图像细节更加丰富,图像纹理清晰;提高了生成对抗网络的稳定性。可以广泛的应用于多种图像转换任务当中,具有广泛的应用前景。
Description
技术领域
本发明涉及计算机图形学、计算机视觉与深度学习技术领域,具体涉及一种基于随机重构的无监督图像到图像的转换方法。
背景技术
图像到图像的转换是一类视觉和图形学的问题,在计算机图像学及计算机视觉领域很多问题都可以认为是将一张输入图片转换为相应的输出图片,包括语义风格,风格迁移,图像去模糊,图像增强等。有监督的图像到图像转换需要大量的一一对应的数据集来进行训练,但很多时候,我们无法获取成对的数据集用于训练图像到图像的转换模型,比如我们永远也无法拍到梵高当初看到的星空,在这种场景下无监督的图像到图像的转换就具有特殊的意义。
基于学习的图像到图像的转换大致可以分为两类:成对的模型和不成对的模型。Pix2Pix是第一个图像到图像转换的统一框架,并且广泛的运用于超像素分辨中。最近的有一些关于不成对的图像到图像的转换模型,其主要想法就是在源域和目标域之间建立一个映射。CoGAN通过一个权重共享策略来学习一个共享的跨域表示,SimGAN通过自正则的方式来保持输入和输出有相同的内容,并通过对抗损失来学习目标域的分布。CycleGAN通过循环一致损失将整个模型约束成两个自编码,可以实现两个域的图像的互相转换。UNIT通过共享两个域的隐空间来实现图像的跨域转换。MUNIT在隐空间中加入了随机的编码,可以实现多个领域的图像转化。
随着研究的深入,无监督的图像到图像的转换技术已经取得了一定发展,然而,目前仍存在一些关键问题尚待解决。目前的图像到图像的转换模型生成的图像内容与风格的融合不够真实,缺乏细节,而图像到图像的转换必须有丰富的细节。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于随机重构的无监督图像到图像的转换方法,该转换方法实现图像到图像的转换,并通过随机重构输入图像的深层特征来消除图像风格与内容的融合不真实,通过增强模块来丰富生成图像的细节。
为实现上述目的,本发明提供了如下技术方案:一种基于随机重构的无监督图像到图像的转换方法,包括以下步骤:
(1)将源域图片x输入到一个残差注意力网络G中,用于生成粗糙的图像G(x),将生成的粗糙图像再输入到一个增强模块中用于对粗糙结果的精加工得到并通过生成对抗损失来学习目标图像的分布,再通过随机重构损失来保持原图像的内容特征;
(3)通过预训练的VGG16网络来分别提取输出图片和源域图像x的高层特征,然后随机挑选一部分特征进行重构来保持源域的信息。
作为优选的,步骤(1),包括以下子步骤:
(1.1)将源域图像分别输入到一个主分支网络中和掩码分支网络中去,主分支网络和掩码分支网络都由一个卷积前端和一个转置卷积后端构成,主分支网络用来学习一个源域到目标域的映射,掩码网络用学习一个掩码权重对主分支网络进行加权修正,以此来提高主分支网络的特征表达能力;
(1.2)将粗糙结果G(x)输入到增强模块,对生成结果进行加工;
(1.3)增强模块由两个DenseASPP模块构成,极大的丰富生成图像的细节。
作为优选的,步骤(2),包括以下子步骤:
(2.1)将粗糙结果G(x)和目标域图像y分别送入判别器D1,跟新判别器D1和残差注意力网络G,其目标函数为:
作为优选的,步骤(3),包括以下子步骤:
(3.1)将粗糙结果G(x)和源域图像x分别送入预训练的VGG16网络用来提取深层特征,再随机挑选一部分特征,定义为Ri(x),通过最小化粗糙结果G(x)和源域图像x的随机特征更新残差注意力网络,损失函数为:
其中,C,H,W分别表示随机提取的特征的深度,长度以及宽度。
作为优选的,步骤(3),输出图片为粗糙结果G(x)及精细结果)。
本发明的优点是:与现有技术相比,本发明基于随机重构的无监督图像到图像的转换方法更加合理:
1、本发明基于随机重构的转换方法可以很好的实现图像到图像的转换;
2、本发明随机重构损失可以用来保留源域的内容信息,使得图像的内容和风格更好的融合;
3、本发明所提到的增强模块可以很好的丰富生成图像的细节;
4、本发明所所提到的训练策略可以很好的用来更新增强模块及提高生成对抗网络的稳定性。
下面结合说明书附图和具体实施例对本发明作进一步说明。
附图说明
图1为本发明实施例基于随机重构的无监督图像到图像转换的模型框架示意图;
图2为本发明实施例增强模块示意图;
图3为本发明实施例随机重构损失的原理图。
具体实施方式
参见图1、图2和图3,本发明公开的一种基于随机重构的无监督图像到图像的转换方法,包括以下步骤:
(1)将源域图片x输入到一个残差注意力网络G中,用于生成粗糙的图像G(x),将生成的粗糙图像再输入到一个增强模块中用于对粗糙结果的精加工得到并通过生成对抗损失来学习目标图像的分布,再通过随机重构损失来保持原图像的内容特征;
(3)通过预训练的VGG16网络来分别提取输出图片和源域图像x的高层特征,然后随机挑选一部分特征进行重构来保持源域的信息。
VGG16网络:VGG是牛津Visual Geometry Group的简写,16表示网络的层数。
作为优选的,步骤(1),包括以下子步骤:
(1.1)将源域图像分别输入到一个主分支网络中和掩码分支网络中去,主分支网络和掩码分支网络都由一个卷积前端和一个转置卷积后端构成,主分支网络用来学习一个源域到目标域的映射,掩码网络用学习一个掩码权重对主分支网络进行加权修正,以此来提高主分支网络的特征表达能力;
(1.2)将粗糙结果G(x)输入到增强模块,对生成结果进行加工;
(1.3)增强模块由两个DenseASPP模块构成,极大的丰富生成图像的细节。
作为优选的,所述DenseASPP模块全称是密集空洞卷积金字塔Densely connectedatrous spatial pyramid pooling模块。具体来说,生成的图像先经过7×7的卷积,然后输出的特征再通过空洞率为3,6,12,18,24的空洞卷积,将这些特征密集连接在一起。
作为优选的,步骤(2),包括以下子步骤:
(2.1)将粗糙结果G(x)和目标域图像y分别送入判别器D1,跟新判别器D1和残差注意力网络G,其目标函数为:
其中,代表由残差注意力网络和增强模块构成的整个生成网络。
作为优选的,步骤(3),包括以下子步骤:
(3.1)将粗糙结果G(x)和源域图像x分别送入预训练的VGG16网络用来提取深层特征,再随机挑选一部分特征,定义为Ri(x),通过最小化粗糙结果G(x)和源域图像x的随机特征更新残差注意力网络,损失函数为:
其中,C,H,W分别表示随机提取的特征的深度,长度以及宽度。
本发明具体运行的硬件和编程语言并不限制,用任何语言编写都可以完成,为此,其它工作模式不再赘述。
本实施例是采用一台具有Inter Xeno Silver 4114中央处理器,8G字节内存和单个NVIDIA GTX1080ti GPU现存为8G字节的计算机,并用Python语言编制了基于随机重构的无监督图像到图像的转换模型的工作程序,实现了本次发明的模型算法。
本发明主要包括以下四个步骤:通过残差注意力网络生成粗糙结果,对粗糙结果进行加工,通过对抗损失更新生成器及判别器,通过随机重构更新生成器。
本发明提出了一种有效的随机特征重构损失来保留源域的内容信息,能够很好的将源域的内容和目标域的风格相融合;生成的图像细节更加丰富,图像纹理清晰,并且本发明提出的训练策略提高了生成对抗网络的稳定性,可以广泛的应用于多种图像转换任务当中,具有广泛的应用前景。
上述实施例对本发明的具体描述,只用于对本发明进行进一步说明,不能理解为对本发明保护范围的限定,本领域的技术工程师根据上述发明的内容对本发明作出一些非本质的改进和调整均落入本发明的保护范围之内。
Claims (6)
1.一种基于随机重构的无监督图像到图像的转换方法,其特征在于:包括以下步骤:
(1)将源域图片x输入到一个残差注意力网络G中,用于生成粗糙的图像G(x),将生成的粗糙图像再输入到一个增强模块中用于对粗糙结果的精加工得到并通过生成对抗损失来学习目标图像的分布,再通过随机重构损失来保持原图像的内容特征;
(2)将生成的粗糙结果G(x)及精细结果分别输入到两个判别器中来指导残差注意力网络及增强模块的更新;
(3)通过预训练的VGG16网络来分别提取输出图片和源域图像x的高层特征,然后随机挑选一部分特征进行重构来保持源域的信息。
2.根据权利要求1所述的一种基于随机重构的无监督图像到图像的转换方法,其特征在于:步骤(1),包括以下子步骤:
(1.1)将源域图像分别输入到一个主分支网络中和掩码分支网络中去,主分支网络和掩码分支网络都由一个卷积前端和一个转置卷积后端构成,主分支网络用来学习一个源域到目标域的映射,掩码网络用学习一个掩码权重对主分支网络进行加权修正,以此来提高主分支网络的特征表达能力;
(1.2)将粗糙结果G(x)输入到增强模块,对生成结果进行加工;
(1.3)增强模块由两个DenseASPP模块构成,极大的丰富生成图像的细节。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839912.0A CN110634101B (zh) | 2019-09-06 | 2019-09-06 | 一种基于随机重构的无监督图像到图像的转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910839912.0A CN110634101B (zh) | 2019-09-06 | 2019-09-06 | 一种基于随机重构的无监督图像到图像的转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110634101A true CN110634101A (zh) | 2019-12-31 |
CN110634101B CN110634101B (zh) | 2023-01-31 |
Family
ID=68971074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910839912.0A Active CN110634101B (zh) | 2019-09-06 | 2019-09-06 | 一种基于随机重构的无监督图像到图像的转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110634101B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696168A (zh) * | 2020-06-13 | 2020-09-22 | 中北大学 | 基于残差自注意力图像增强的高倍速采mri重建方法 |
CN111915526A (zh) * | 2020-08-05 | 2020-11-10 | 湖北工业大学 | 一种基于亮度注意力机制低照度图像增强算法的摄影方法 |
CN112001398A (zh) * | 2020-08-26 | 2020-11-27 | 科大讯飞股份有限公司 | 域适应方法、装置、设备、图像处理方法及存储介质 |
CN112149619A (zh) * | 2020-10-14 | 2020-12-29 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460717A (zh) * | 2018-03-14 | 2018-08-28 | 儒安科技有限公司 | 一种基于双判别器的生成对抗网络的图像生成方法 |
CN108537743A (zh) * | 2018-03-13 | 2018-09-14 | 杭州电子科技大学 | 一种基于生成对抗网络的面部图像增强方法 |
CN109033095A (zh) * | 2018-08-01 | 2018-12-18 | 苏州科技大学 | 基于注意力机制的目标变换方法 |
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统 |
-
2019
- 2019-09-06 CN CN201910839912.0A patent/CN110634101B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537743A (zh) * | 2018-03-13 | 2018-09-14 | 杭州电子科技大学 | 一种基于生成对抗网络的面部图像增强方法 |
CN108460717A (zh) * | 2018-03-14 | 2018-08-28 | 儒安科技有限公司 | 一种基于双判别器的生成对抗网络的图像生成方法 |
CN109033095A (zh) * | 2018-08-01 | 2018-12-18 | 苏州科技大学 | 基于注意力机制的目标变换方法 |
CN109671018A (zh) * | 2018-12-12 | 2019-04-23 | 华东交通大学 | 一种基于生成式对抗网络和ResNets技术的图像转换方法及系统 |
Non-Patent Citations (1)
Title |
---|
XUEXIN QU等: "Perceptual-DualGAN: Perceptual Losses for Image", 《IEEE XPLORE》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111696168A (zh) * | 2020-06-13 | 2020-09-22 | 中北大学 | 基于残差自注意力图像增强的高倍速采mri重建方法 |
CN111696168B (zh) * | 2020-06-13 | 2022-08-23 | 中北大学 | 基于残差自注意力图像增强的高倍速采mri重建方法 |
CN111915526A (zh) * | 2020-08-05 | 2020-11-10 | 湖北工业大学 | 一种基于亮度注意力机制低照度图像增强算法的摄影方法 |
CN111915526B (zh) * | 2020-08-05 | 2024-05-31 | 湖北工业大学 | 一种基于亮度注意力机制低照度图像增强算法的摄影方法 |
CN112001398A (zh) * | 2020-08-26 | 2020-11-27 | 科大讯飞股份有限公司 | 域适应方法、装置、设备、图像处理方法及存储介质 |
CN112001398B (zh) * | 2020-08-26 | 2024-04-12 | 科大讯飞股份有限公司 | 域适应方法、装置、设备、图像处理方法及存储介质 |
CN112149619A (zh) * | 2020-10-14 | 2020-12-29 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
CN112149619B (zh) * | 2020-10-14 | 2024-03-15 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110634101B (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110634101B (zh) | 一种基于随机重构的无监督图像到图像的转换方法 | |
Ci et al. | User-guided deep anime line art colorization with conditional adversarial networks | |
Nguyen-Phuoc et al. | Hologan: Unsupervised learning of 3d representations from natural images | |
CN112465955B (zh) | 一种动态人体三维重建和视角合成方法 | |
CN109087243B (zh) | 一种基于深度卷积生成对抗网络的视频超分辨率生成方法 | |
CN111709470B (zh) | 图像生成方法、装置、设备及介质 | |
CN111862294B (zh) | 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法 | |
Wang et al. | TMS-GAN: A twofold multi-scale generative adversarial network for single image dehazing | |
CN113096239B (zh) | 一种基于深度学习的三维点云重建方法 | |
CN114140309A (zh) | 一种基于nice模型的新型图像隐写方法及系统 | |
Li et al. | Symmnerf: Learning to explore symmetry prior for single-view view synthesis | |
CN111861886A (zh) | 一种基于多尺度反馈网络的图像超分辨率重建方法 | |
CN114723950A (zh) | 一种基于对称自适应网络的跨模态医学图像分割方法 | |
CN115100044A (zh) | 基于三生成器生成对抗网络的内窥镜超分辨方法、系统 | |
Sun et al. | ESinGAN: Enhanced single-image GAN using pixel attention mechanism for image super-resolution | |
Zhai et al. | SKFlow: optical flow estimation using selective kernel networks | |
Wang et al. | High-resolution point cloud reconstruction from a single image by redescription | |
CN116091319A (zh) | 基于长距离上下文依赖的图像超分辨率重建方法及系统 | |
CN116978057A (zh) | 图像中人体姿态迁移方法、装置、计算机设备和存储介质 | |
JP2022191122A (ja) | 差分比較学習に基づく深度マップ合成方法 | |
Li et al. | Synthetic-to-Real Generalization for Semantic Segmentation | |
Costain et al. | Towards generalising neural implicit representations | |
CN117896526B (zh) | 基于双向编码结构的视频帧插值方法及系统 | |
You et al. | Learning a unified 3d point cloud for view synthesis | |
Jamgochian et al. | 3D Neural Style Transfer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |