CN111223057A - 基于生成对抗网络的增量式聚焦的图像到图像转换方法 - Google Patents

基于生成对抗网络的增量式聚焦的图像到图像转换方法 Download PDF

Info

Publication number
CN111223057A
CN111223057A CN201911296148.3A CN201911296148A CN111223057A CN 111223057 A CN111223057 A CN 111223057A CN 201911296148 A CN201911296148 A CN 201911296148A CN 111223057 A CN111223057 A CN 111223057A
Authority
CN
China
Prior art keywords
image
module
training
network
incremental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911296148.3A
Other languages
English (en)
Other versions
CN111223057B (zh
Inventor
俞俊
高飞
朱静洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911296148.3A priority Critical patent/CN111223057B/zh
Publication of CN111223057A publication Critical patent/CN111223057A/zh
Application granted granted Critical
Publication of CN111223057B publication Critical patent/CN111223057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于生成对抗网络的增量式聚焦的图像到图像转换方法。本发明包括以下步骤:1、对源图像、目标图像进行数据预处理构成数据二元组;2、网络结构设计,在生成对抗网络模型中加入增强的自我注意力机制模块,并针对网络的两个输出,相应地采用一个鉴别器,进一步增强表征能力以生成更多的细节;3、损失函数设计,提出了增量式聚焦损失以稳定、加速网络训练;4、模型训练,利用反向传播算法训练对抗神经网络模型参数。本发明将增量式聚焦损失和增强的自我注意力机制模块应用于各种无监督和有条件的GANs中来证明它们的有效性,并且达到了训练速度快且稳定的效果。

Description

基于生成对抗网络的增量式聚焦的图像到图像转换方法
技术领域
本发明涉及一种计算机领域,尤其涉及针对图像到图像的转换 (Image-to-ImageTranslation)任务,例如人脸画像转换、图像生成等任务,利用增量式聚焦损失函数和增强型自我注意力机制以生成更精细的转换图像。
背景技术
随着社交媒体网络和移动设备的迅猛发展,画像、素描等多风格图像在人类生活中得到了广泛的应用。然而,大多数人缺乏专业知识或技术能力,以生产高质量的图像。为了提高用户体验,开发计算机自动生成逼真图像的算法是很有必要的。为此,图像生成和跨模态图像转换(即图像到图像的转换)是很有前途的解决方案。前者用于在目标域中生成图像,后者用于将图像从源域转换为目标域。例如在现实中,警方可以从目击者描述出的嫌疑人画像生成照片再从数据库中进行身份比对从而加速抓捕过程;自动驾驶时从卫星抓取的街道图片转成分区域式地图从而便于加快识别速度。近年来,生成式对抗网络(Generative Adersarial Networks,GANs)在图像生成和图像对图像转换方面的成功而受到广泛关注。GANs通常包括生成器(Generator) 和鉴别器(Discriminator),其中生成器旨在从输入随机噪声(即无监督GANs)或基于源图像x(即条件GANs)生成样本;而鉴别器旨在从目标域的y中区分合成样品
Figure RE-GDA0002433150460000011
训练GANs涉及到在生成器和鉴别器的参数上解决一个极小极大问题,这在实践中是出了名的难解。为了应对这一挑战,人们做了大量的工作,包括新的损失函数、正则化和规范化、架构修改,以及模型的大规模可伸缩训练。在现有的工作中,基于自注意力机制的生成式对抗网络(Self-Attention GAN, SAGAN)表现出了鼓舞人心的表现,并通过可扩展的培训产生了极好的结果。然而,用目前可承受的计算成本去加强GANs的训练仍然是一个挑战针对这样的问题,并且提升生成稳定的高质量图像也是一个重要的方面。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于生成对抗网络的增量式聚焦的图像到图像转换方法。
我们在CUFS、MAP、CelebA、LSUN、Cifar-10数据集上均进行了实验,并且分别在条件GANs(用CUHK和MAP进行实验)和无监督GANs (用CelebA、LSUN和Cifar-10进行实验)验证本发明的有效性。接下来主要以条件GANs中使用的CUFS数据集为例展开详细介绍。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤(1)数据预处理
数据预处理分为两部分,第一部分对原始数据集进行划分数据集,第二部分对数据集做对齐、随机裁剪操作达到数据增广。
预处理好的源图像PI和相对应的目标图像PG构成二元组,以 {PI,PG}作为训练集。
步骤(2)设计基于生成对抗网络生成的网络模型
本发明提出了一种高效的基于生成对抗网络的人脸画像生成的方法:增量式聚焦损失生成对抗网络(Incremental Focal Loss GAN, AFL-GAN)。在生成器中引入增强型自我注意力机制模块,将输入的人脸图像在保证身份信息和场景信息不变的同时做到图像转换生成操作。
步骤(3)设计基于生成对抗网络生成的损失函数
本发明的目标是从不同人脸图像PI生成其对应的画像PG,为了训练网络构建{PI,PG}这样的数据对,两者具有相同的数据维度。但在学习面部照片到画像的变化过程,发现面部的头发纹理、轮廓、嘴巴等部位相比其他部位更难学习到表征,及其容易失真,所以本发明引入了增量式聚焦损失函数,逐渐降低了容易样本的权重,而增量地将生成器和鉴别器分别集中于难生成的或难识别的示例,最终得到视觉更真实、身份信息良好的画像。
步骤(4)模型训练
使用预处理后的数据集构成的{PI,PG}二元组作为最终训练集。利用预训练模型对网络初始化,结合步骤(3)中所述的损失函数,计算生成图像与原图的身份信息和真实度等差异,进而利用反向传播算法(Back-Propagation,BP)对步骤(2)中设计的神经网络模型的参数进行训练,直至整个网络模型收敛。
步骤(1)所述的数据预处理,具体如下:
数据集划分:CUFS的三个子数据集:CUHK、AR、XM2VTS,分别有188张、123张、295张人脸图像以及每张图片所对应的画像。此二元组已进行面部关键点对齐操作,即计算数据集中的面部关键点坐标,得出人脸及图像相对应的五个关键点(左右眼、左右嘴角及鼻尖),将面部图像以双眼连线为基准水平对齐,经过缩放裁剪等操作得出尺寸为200*250的二元组。从三个子数据集中分别随机抽取88对、80 对、100对,共268对作为训练集,剩余为测试集,训练集随机抽取 100对作为验证集。并将二元组的路径名称一一写入txt文本中,通过读取txt文本,按路径名称检索图片,使图片的二进制格式数据转换成网络识别的数据格式。
数据增广:图像输入深度网络模型训练前,将图像统一边缘填充至286*286,图像上下边和左右边的填充数相等,每次随机裁剪成 256*256大小的图像,并将图像归一化到[-1,1]的数值范围以提高模型的鲁棒性及泛化能力。最终将预处理好的人脸图像PI∈RC ×H×W以及对应的画像PG∈RC×H×W作为训练集{PI,PG}二元组,其中C、H、W分别代表图像的通道数、高度和宽度。测试时用同样的边缘填充法将图像填充至256*256的尺寸。
步骤(2)所述的设计基于生成对抗网络生成的网络模型,具体如下:
该步骤分为两大部分:生成器和鉴别器。其中生成器分为编码器、解码器、增强的自我注意力机制模块三部分。
对于编码器(Encoder),共分为8个模块(Block),第1个模块为一层卷积层(Convolutional Neural Networks,CNN),第2-7个模块均由3种运算组成,依次分别为:Leaky修正线性单元(Leaky Rectified Linear Units,LeakyReLU),卷积层和批规范化(Batch Normalization,BN),最后一个模块由Leaky修正线性单元和卷积层组成。同时,将每一个模块的输出结果作为特征进行保留,在解码器中相对应的第Layer-i+1模块中与其前一模块输出进行拼接 (Concatenate)作为这一模块的输入使用,其中Layer为编码器总模块数,i为第i个模块。
对于解码器(Decoder),分为8个模块,第1-7个模块均由3种运算组成,依次分别为:修正线性单元(Rectified Linear Units, ReLU)、反卷积层(TransposeConvolutionalNeural Networks,TCNN) 和批规范化(Batch Normalization,BN),最后一个模块包括修正线性单元、反卷积层和双曲正切(Tanh)。在解码器中,编码器最后一个模块的特征图(Feature Maps)作为解码器第一个模块的输入。
对于增强的自我注意力机制模块(Enhanced Self-Attention),分为两个模块。第一个模块是自我注意力机制,通过三个卷积层分别输出三个特征空间:
f=Wfx;g=Wgx;h=Whx; 公式(1)
其中
Figure RE-GDA0002433150460000041
Wh∈RC×C为卷积层中的参数。x为输入特征,C为通道数。如图2所示,转置后的f与g的经过叉乘计算一个位置的响应权重,作为所有特征的加权和,再与h做叉乘得到输出的特征:
Figure RE-GDA0002433150460000042
其中i,j,k代表像素位置,βj,i为相应元素的响应权重。
最终的自我注意力机制为:
z=λ1o+x 公式(3)
其中λ1为可训练参数,初始化为0。
第二个模块由修正线性单元、反卷积层和双曲正切(Tanh)组成,将输入转换成具有颜色空间的生成图像,生成图像具有与解码器最终输出的生成图像相同的尺寸,并将它投入鉴别器中利用损失函数计算损失值以优化网络模型参数。解码器第七个模块的输出特征作为增强的自注意力机制中两个模块的输入,而第一个模块的输出作为解码器中第八个模块的输入。
对于鉴别器,分为5个模块,第1个模块由卷积层(Convolutional NeuralNetworks,CNN)和Leaky修正线性单元(Leaky Rectified Linear Units,LeakyReLU)组成,2-4个模块由卷积层、批规范化 (Batch Normalization,BN)和Leaky修正线性单元三种运算组成,最后一个模块由CNN组成。
最终,源图像(人脸照片)输入到生成对抗网络模型,一个含有增强的自注意力机制(Enhanced Self-Attention)的多尺度输出的 Encoder-Decoder结构网络的生成器中,通过先验知识结合鉴别器相互博弈,从而得到最终视觉效果很好的图像(如生成图像的纹理笔触与画像及其相似)。
步骤(3)所述的设计基于生成对抗网络生成的损失函数,具体如下:
本发明的损失函数(Loss Function)设计主要分为两部分:增量聚焦损失(Incremental Focal Loss)函数以及像素级重建损失 (Pixel-wise ReconstructionLoss)函数,分别用Lrec和LIFL表示。
对于像素级重建损失,具体公式如下:
Figure RE-GDA0002433150460000051
其中,
Figure RE-GDA0002433150460000052
为生成器中的特征经过一层反卷积层转为具有颜色空间的生成图像,y为对应的目标图像,通过计算二者的曼哈顿距离 (L1 Distance)以优化网络。
对于增量聚焦损失,具体公式如下:
Figure RE-GDA0002433150460000053
Figure RE-GDA0002433150460000054
其中
Figure RE-GDA0002433150460000061
分别为鉴别器和生成器的增量聚焦损失,增量系数γ(t)在训练过程中逐步增加,具体公式为:
γ(t)=λt+γ0 公式(7)
其中t表示训练过程中的迭代数,初始聚焦因子γ0≥0,增量速率λ≥0。因为γ(t)不能过大,如果一个指数函数中指数的底(指
Figure RE-GDA0002433150460000062
或者
Figure RE-GDA0002433150460000063
)若为小数,作为指数的幂的γ(t)过大会导致损失变极小反而混淆模型。因此,本发明采用上界受限的分阶段式变种:
Figure RE-GDA0002433150460000064
其中Tf表示增量周期,t为总迭代时间,即每周期增长一次增量系数,训练中达到γmax时则保持增量系数不变。目的在于增量地将生成器和鉴别器分别集中于难生成的或难识别的示例,达到快速收敛并稳定的模型效果。
最终本发明的总损失函数为:
Figure RE-GDA0002433150460000065
Figure RE-GDA0002433150460000066
其中,α为像素级重建损失的加权系数。Di为生成器的第i个输出图像的鉴别器损失。
步骤(4)所述的模型训练,具体如下:
针对步骤(2)所给出的最终生成对抗网络模型,在实际训练中,经过大量的实验,得到步骤(3)目标函数的合适参数选择,γ=1。使用Pytorch深度学习框架训练,最终生成图像。可以看出本发明具有很好的鲁棒性。
本发明有益效果如下:
本发明提出了一个可能的解决方案,基于生成对抗网络的图像到图像转换方法,提出了一种新的替代损失函数,称为增量焦损 (Incremental Focal Loss,IFL),它可以明显地加速和促进GANs的训练。并且加入了一种增强的自我注意机制(Enhanced Self-Attention,ESA)来提高生成器中深层特征的表示能力;IFL和 ESA的结合可以应用于各种无监督或有条件的GANs,并提高生成图像到图像的转换质量。
附图说明
图1是基于生成对抗网络的人脸画像生成的网络模型示意图;
图2是自注意力机制框架示意图。
具体实施细节
下面对本发明的详细参数做进一步具体说明。
如图1所示,基于生成对抗网络的增量式聚焦的图像到图像的转换方法,包括如下步骤:
步骤(1)数据预处理
对原始数据集进行划分,并进行数据增广。
步骤(2)基于生成对抗网络生成的网络模型设计
增量式聚焦损失生成对抗网络(Incremental Focal Loss GANs, AFL-GAN)分为生成器和鉴别器,生成器生成的图像逼近目标图像的分布,鉴别器判别来判别图像为生成图像还是目标图像以计算损失函数并优化。
步骤(3)基于生成对抗网络生成的损失函数设计
损失函数分为增量式聚焦损失函数以及像素级重建损失函数,增量式聚焦损失函数逐渐降低了容易样本的权重,而增量地将生成器和鉴别器分别集中于难生成的或难识别的示例,像素级重建损失函数起到将生成图像靠近目标图像的分布的作用,最终得到视觉更真实、身份信息良好的画像。
步骤(4)模型训练
使用预处理后的数据集构成的{PI,PG}二元组作为最终训练集。利用预训练模型对网络初始化,结合步骤(3)中所述的损失函数,计算生成图像与原图的身份信息和真实度等差异,进而利用反向传播算法(Back-Propagation,BP)对步骤(2)中设计的生成对抗网络模型的参数进行训练,直至整个网络模型收敛。
对于步骤(1)所述的数据预处理,具体如下:
1-1对图像进行人脸对齐时,眼间距为50,眼睛距离图像上界 150且对齐后得到的图像的尺寸大小和通道数均与原来的相等;二元组{PI,PG}图像特征的通道数C均为3。
1-2对二元组图像采用边缘填充时,将图像的边缘像素作为填充信息,填充为EdgePadding,且二元组随机裁剪256*256时,裁剪位置需对应一致。
对于步骤(2)所述的基于生成对抗网络生成的网络模型设计中,具体如下:
编码器中Leaky修正线性单元的参数负斜率(Negative Slope) 为0.2;自注意力机制模块中设置
Figure RE-GDA0002433150460000081
对于步骤(3)所述的基于生成对抗网络生成的损失函数中,Tf表示固定迭代参数,这里设置Tf=100,总迭代时间t为600;α为像素级重建损失的加权系数,这里设置α=10。

Claims (5)

1.基于生成对抗网络的增量式聚焦的图像到图像转换方法,其特征在于包括如下步骤:
步骤(1)数据预处理
数据预处理分为两部分,第一部分对原始数据集进行划分数据集,第二部分对数据集做对齐、随机裁剪操作达到数据增广;
预处理好的源图像PI和相对应的目标图像PG构成二元组,以{PI,PG}作为训练集;
步骤(2)设计基于生成对抗网络生成的网络结构
增量式聚焦损失生成对抗网络,在生成器中引入增强型自我注意力机制模块,将输入的人脸图像在保证身份信息和场景信息不变的同时做到图像转换生成操作;
步骤(3)设计基于生成对抗网络生成的损失函数
从不同人脸图像PI生成其对应的画像PG,为了训练网络构建{PI,PG}这样的数据对,两者具有相同的数据维度;引入了增量式聚焦损失函数,逐渐降低样本的权重,而增量地将生成器和鉴别器分别集中于难生成的或难识别的示例,最终得到视觉更真实、身份信息良好的画像;
步骤(4)模型训练
使用预处理后的数据集构成的{PI,PG}二元组作为最终训练集;利用预训练模型对网络初始化,结合步骤(3)中所述的损失函数,计算生成图像与原图的身份信息和真实度等差异,进而利用反向传播算法对步骤(2)中设计的神经网络模型的参数进行训练,直至整个网络模型收敛。
2.根据权利要求1所述的基于生成对抗网络的增量式聚焦的图像到图像转换方法,其特征在于步骤(1)所述的数据预处理,具体如下:
1-1.数据集划分:CUFS的三个子数据集:CUHK、AR、XM2VTS,分别有188张、123张、295张人脸图像以及每张图片所对应的画像;此二元组已进行面部关键点对齐操作,即计算数据集中的面部关键点坐标,得出人脸及图像相对应的五个关键点,将面部图像以双眼连线为基准水平对齐,经过缩放裁剪等操作得出尺寸为200*250的二元组{PI,PG};从三个子数据集中分别随机抽取88对、80对、100对,共268对作为训练集,剩余为测试集,训练集随机抽取100对作为验证集;并将二元组的路径名称一一写入txt文本中,通过读取txt文本,按路径名称检索图片,使图片的二进制格式数据转换成网络识别的数据格式;
1-2.图像输入深度网络模型训练前,对二元组图像采用边缘填充时,将图像的边缘像素作为填充信息,填充为Edge Padding,且二元组随机裁剪256*256时,需对应一致裁剪,并将图像归一化到[-1,1];最终将预处理好的人脸图像PI∈RC×H×W以及对应的画像PG∈RC×H×W作为训练集{PI,PG}二元组,其中C、H、W分别代表图像的通道数、高度和宽度。
3.根据权利要求2所述的基于生成对抗网络的增量式聚焦的图像到图像转换方法,其特征在于步骤(2)所述的设计基于生成对抗网络生成的网络结构,具体分为两大部分:生成器和鉴别器;
其中生成器分为编码器、解码器、增强的自我注意力机制模块三部分;
对于编码器:共分为8个模块,第1个模块为一层卷积层,第2-7个模块均由3种运算组成,依次分别为:Leaky修正线性单元,卷积层和批规范化,最后一个模块由Leaky修正线性单元和卷积层组成;同时,将每一个模块的输出结果作为特征进行保留,在解码器中相对应的第Layer-i+1模块中与其前一模块输出进行拼接,作为这一模块的输入使用,其中Layer为编码器总模块数,i为第i个模块;
对于解码器:分为8个模块,第1-7个模块均由3种运算组成,依次分别为:修正线性单元、反卷积层和批规范化,最后一个模块包括修正线性单元、反卷积层和双曲正切;在解码器中,编码器最后一个模块的特征图作为解码器第一个模块的输入;
对于增强的自我注意力机制模块:分为两个模块;第一个模块是自我注意力机制,通过三个卷积层分别输出三个特征空间:
f=Wfx;g=Wgx;h=Whx; 公式(1)
其中
Figure FDA0002320610050000031
Wh∈RC×C为卷积层中的参数;x为输入特征,C为通道数;将转置后的f与g的经过叉乘计算一个位置的响应权重,作为所有特征的加权和,再与h做叉乘得到输出的特征:
Figure FDA0002320610050000032
其中i,j,k代表像素位置,βj,i为相应元素的响应权重;
最终的自我注意力机制为:
z=λ1o+x 公式(3)
其中λ1为可训练参数,初始化为0;
第二个模块由修正线性单元、反卷积层和双曲正切组成,将输入转换成具有颜色空间的生成图像,生成图像具有与解码器最终输出的生成图像相同的尺寸,并将它投入鉴别器中利用损失函数计算损失值以优化网络模型参数;解码器第七个模块的输出特征作为增强的自注意力机制中两个模块的输入,而第一个模块的输出作为解码器中第八个模块的输入;
所述的鉴别器:分为5个模块,第1个模块由卷积层和Leaky修正线性单元组成,第2-4个模块由卷积层、批规范化和Leaky修正线性单元三种运算组成,最后一个模块由卷积层组成;
最终,人脸照片输入到设计好的生成对抗网络模型,一个含有增强的自注意力机制的多尺度输出的Encoder-Decoder结构网络的生成器中,通过先验知识结合鉴别器相互博弈,从而得到最终视觉效果很好的图像。
4.根据权利要求3所述的基于生成对抗网络的增量式聚焦的图像到图像转换方法,其特征在于步骤(3)所述的设计基于生成对抗网络生成的损失函数,具体如下:
该损失函数的设计分为两部分:增量聚焦损失函数以及像素级重建损失函数,分别用LIFL和Lrec表示;
对于像素级重建损失函数,具体公式如下:
Figure FDA0002320610050000041
其中,
Figure FDA0002320610050000042
为生成器中的特征经过一层反卷积层转为具有颜色空间的生成图像,y为对应的目标图像,通过计算二者的曼哈顿距离以优化网络;
对于增量聚焦损失函数,具体公式如下:
Figure FDA0002320610050000043
Figure FDA0002320610050000044
其中
Figure FDA0002320610050000045
分别为鉴别器和生成器的增量聚焦损失,增量系数γ(t)在训练过程中逐步增加,具体公式为:
γ(t)=λt+γ0 公式(4)
其中t表示训练过程中的迭代数,初始聚焦因子γ0≥0,增量速率λ≥0;因为γ(t)不能过大,如果一个指数函数中指数的底若为小数,作为指数的幂的γ(t)过大会导致损失变极小反而混淆模型;因此采用上界受限的分阶段式变种:
Figure FDA0002320610050000046
其中Tf表示固定迭代参数,即每阶段增长一次增量系数,训练中达到γmax时则保持增量系数不变;
最终总损失函数为:
Figure FDA0002320610050000047
Figure FDA0002320610050000048
其中,α为像素级重建损失的加权系数;Di为生成器的第i个输出图像的鉴别器损失。
5.根据权利要求4所述的基于生成对抗网络的增量式聚焦的图像到图像转换方法,其特征在于步骤(4)所述的模型训练,具体如下:
针对步骤(2)所给出的最终生成对抗网络模型,在实际训练中,经过大量的实验,得到步骤(3)目标函数的合适参数选择,γ=1;使用Pytorch深度学习框架训练,最终生成图像。
CN201911296148.3A 2019-12-16 2019-12-16 基于生成对抗网络的增量式聚焦的图像到图像转换方法 Active CN111223057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911296148.3A CN111223057B (zh) 2019-12-16 2019-12-16 基于生成对抗网络的增量式聚焦的图像到图像转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911296148.3A CN111223057B (zh) 2019-12-16 2019-12-16 基于生成对抗网络的增量式聚焦的图像到图像转换方法

Publications (2)

Publication Number Publication Date
CN111223057A true CN111223057A (zh) 2020-06-02
CN111223057B CN111223057B (zh) 2023-09-22

Family

ID=70832167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911296148.3A Active CN111223057B (zh) 2019-12-16 2019-12-16 基于生成对抗网络的增量式聚焦的图像到图像转换方法

Country Status (1)

Country Link
CN (1) CN111223057B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862727A (zh) * 2021-03-16 2021-05-28 上海壁仞智能科技有限公司 一种跨模态图像转换方法及装置
CN112907692A (zh) * 2021-04-09 2021-06-04 吉林大学 一种基于sfrc-gan的从素描到人脸重建方法
CN112949553A (zh) * 2021-03-22 2021-06-11 陈懋宁 基于自注意力级联生成对抗网络的人脸图像修复方法
CN113506233A (zh) * 2021-07-08 2021-10-15 西安电子科技大学 基于深度学习的sar自聚焦方法
CN113610732A (zh) * 2021-08-10 2021-11-05 大连理工大学 基于交互对抗学习的全聚焦图像生成方法
CN113640795A (zh) * 2021-07-27 2021-11-12 北京理工大学 一种基于生成对抗网络的sar智能参数化自聚焦方法
CN115457136A (zh) * 2022-11-09 2022-12-09 杭州远鉴信息科技有限公司 基于边缘计算的gis仪表六氟化硫数据监测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596024A (zh) * 2018-03-13 2018-09-28 杭州电子科技大学 一种基于人脸结构信息的肖像生成方法
CN109447918A (zh) * 2018-11-02 2019-03-08 北京交通大学 基于注意力机制的单幅图像去雨方法
US20190333198A1 (en) * 2018-04-25 2019-10-31 Adobe Inc. Training and utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596024A (zh) * 2018-03-13 2018-09-28 杭州电子科技大学 一种基于人脸结构信息的肖像生成方法
US20190333198A1 (en) * 2018-04-25 2019-10-31 Adobe Inc. Training and utilizing an image exposure transformation neural network to generate a long-exposure image from a single short-exposure image
CN109447918A (zh) * 2018-11-02 2019-03-08 北京交通大学 基于注意力机制的单幅图像去雨方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李炬;黄文培;: "基于生成对抗网络的图像修复技术研究" *
黄菲;高飞;朱静洁;戴玲娜;俞俊;: "基于生成对抗网络的异质人脸图像合成:进展与挑战" *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112862727A (zh) * 2021-03-16 2021-05-28 上海壁仞智能科技有限公司 一种跨模态图像转换方法及装置
CN112949553A (zh) * 2021-03-22 2021-06-11 陈懋宁 基于自注意力级联生成对抗网络的人脸图像修复方法
CN112907692A (zh) * 2021-04-09 2021-06-04 吉林大学 一种基于sfrc-gan的从素描到人脸重建方法
CN112907692B (zh) * 2021-04-09 2023-04-14 吉林大学 一种基于sfrc-gan的从素描到人脸重建方法
CN113506233A (zh) * 2021-07-08 2021-10-15 西安电子科技大学 基于深度学习的sar自聚焦方法
CN113506233B (zh) * 2021-07-08 2024-04-19 西安电子科技大学 基于深度学习的sar自聚焦方法
CN113640795A (zh) * 2021-07-27 2021-11-12 北京理工大学 一种基于生成对抗网络的sar智能参数化自聚焦方法
CN113640795B (zh) * 2021-07-27 2024-02-13 北京理工大学 一种基于生成对抗网络的sar智能参数化自聚焦方法
CN113610732B (zh) * 2021-08-10 2024-02-09 大连理工大学 基于交互对抗学习的全聚焦图像生成方法
CN113610732A (zh) * 2021-08-10 2021-11-05 大连理工大学 基于交互对抗学习的全聚焦图像生成方法
CN115457136A (zh) * 2022-11-09 2022-12-09 杭州远鉴信息科技有限公司 基于边缘计算的gis仪表六氟化硫数据监测方法及系统
US11790516B1 (en) 2022-11-09 2023-10-17 Hangzhou Yuanjian Information Technology Co., Ltd Method and system for monitoring GIS instrument sulfur hexafluoride data based on edge computing
CN115457136B (zh) * 2022-11-09 2023-03-03 杭州远鉴信息科技有限公司 基于边缘计算的gis仪表六氟化硫数据监测方法及系统

Also Published As

Publication number Publication date
CN111223057B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN111223057A (zh) 基于生成对抗网络的增量式聚焦的图像到图像转换方法
CN108596024B (zh) 一种基于人脸结构信息的肖像生成方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN108460812B (zh) 一种基于深度学习的表情包生成系统及方法
CN110543846B (zh) 一种基于生成对抗网络的多姿态人脸图像正面化方法
US20230186056A1 (en) Grabbing detection method based on rp-resnet
CN110728219B (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN110288697A (zh) 基于多尺度图卷积神经网络的3d人脸表示与重建方法
CN110599411A (zh) 一种基于条件生成对抗网络的图像修复方法及系统
CN114445292A (zh) 一种多阶段渐进式水下图像增强方法
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN114066871B (zh) 一种新冠肺炎病灶区域分割模型训练的方法
CN111652864A (zh) 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
CN114627006A (zh) 一种基于深度解耦网络的渐进式图像修复方法
CN114780768A (zh) 一种视觉问答任务处理方法、系统、电子设备及存储介质
CN116993975A (zh) 基于深度学习无监督领域适应的全景相机语义分割方法
CN116383639A (zh) 一种生成对抗网络的知识蒸馏方法、装置、设备及存储介质
CN114092354A (zh) 一种基于生成对抗网络的人脸图像修复方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN112634168A (zh) 一种结合边缘信息的图像修复方法
Pu et al. Adaptive feature abstraction for translating video to language
CN112396674A (zh) 一种基于轻量生成对抗网络的快速事件图像填补方法及系统
CN117094910A (zh) 基于非线性无激活网络的生成对抗网络图像去模糊方法
CN113487512B (zh) 一种基于边缘信息指导的数字图像修复方法及装置
CN109272441B (zh) 关联图像的生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant