CN110599435B - 一种图像合成的方法、装置、设备和存储介质 - Google Patents

一种图像合成的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110599435B
CN110599435B CN201910833216.9A CN201910833216A CN110599435B CN 110599435 B CN110599435 B CN 110599435B CN 201910833216 A CN201910833216 A CN 201910833216A CN 110599435 B CN110599435 B CN 110599435B
Authority
CN
China
Prior art keywords
network
layer
sketch
pseudo
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910833216.9A
Other languages
English (en)
Other versions
CN110599435A (zh
Inventor
赵珊珊
朱晓宁
吴喆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingying Digital Technology Co Ltd
Original Assignee
Jingying Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingying Digital Technology Co Ltd filed Critical Jingying Digital Technology Co Ltd
Priority to CN201910833216.9A priority Critical patent/CN110599435B/zh
Publication of CN110599435A publication Critical patent/CN110599435A/zh
Application granted granted Critical
Publication of CN110599435B publication Critical patent/CN110599435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/94Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施涉及图像处理领域,具体涉及一种图像合成的方法、装置、设备和存储介质;本申请提出了一种图像合成方法,包括:获取草图;将所述草图输入预先训练得到的生成对抗网络中的生成网络中;该生成网络对所述草图进行处理后得到伪图;以及将该伪图分别输入到预先训练得到的生成对抗网络中的第一判别网络和第二判别网络中;第一判别网络和第二判别网络分别判断该伪图是否是伪图,并输出判别结果;所述生成网络根据所述第一判别网络或所述第二判别网络的判别结果对所述伪图进行对应地进行调整以生成新的伪图。本申请采用了两个判别网络同时对生成网络进行调整,并且对于生成器采用了特征融合策略,最终提高合成图像的逼真度。

Description

一种图像合成的方法、装置、设备和存储介质
技术领域
本发明涉及图像处理领域,具体涉及一种图像合成的方法、装置、设备和存储介质。
背景技术
在采矿或者安防等需要监控领域中,往往需要采集被监测对象的图像,对图像进行分析,而如果采集的图像由于各种原因,发生了部分残缺不全,则不能够对图像帧进行正常的分析,影响了监控管理的效果。
发明内容
本发明实施例的目的在于提供一种图像合成的方法、装置、设备和存储介质,用以提高图像合成逼真度。
为实现上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种图像合成方法,包括:
获取草图;
将所述草图输入预先训练得到的生成对抗网络中的生成网络中;
所述生成网络对所述草图进行处理后得到伪图;以及将所述伪图分别输入到预先训练得到的生成对抗网络中的第一判别网络和第二判别网络中;
所述第一判别网络和所述第二判别网络分别判断所述伪图是否是伪图,并输出判别结果;
所述生成网络根据所述第一判别网络或所述第二判别网络的判别结果对所述伪图进行对应地进行调整以生成新的伪图。
在一种实施方式中,所述生成网络对所述草图进行处理,包括:
获取所述草图的全局特征向量;
获取所述草图中的每一个像素点处的局部特征向量;
根据所述全局特征向量和所述每一个像素点的局部特征向量确定所述每一个像素点处的融合特征向量。
在一种实施方式中,所述生成网络包括:改进的全卷积网络(IFCN,Improvedfully convolutional network)网络和Resnet-50网络;
获取所述草图的全局特征向量,包括:
利用所述Resnet-50网络提取所述草图的全局特征向量yglobal
获取所述草图中的每一个像素点的局部特征向量,包括:
利用所述IFCN网络提取所述草图的坐标为(u,v)的像素点的局部特征向量ylocal
将所述局部特征和全局特征进行融合得到坐标为(u,v)的融合之后的特征向量
Figure BDA0002191397960000021
Figure BDA0002191397960000022
其中,
u表示像素点的横坐标;
v表示像素点的纵坐标;
W表示权重矩阵;
b表示偏置项;
yglobal表示全局特征向量;
Figure BDA0002191397960000031
表示坐标(u,v)处的局部特征向量;
Figure BDA0002191397960000032
表示坐标为(u,v)处的经过全局特征向量和局部特征向量融合之后的特征向量。
在一种实施方式中,预先训练生成对抗网络,包括:
采集n组训练样本,每组训练样本包括草图和标准图,n为正整数;
对于第i组训练样本,将所述训练样本中的草图输入所述生成网络中,将所述标准图和所述生成网络输出的伪图分别输入所述第一判别网络和第二判别网络中;
计算所述第一判别网络的损失函数,利用所述第一判别网络的损失函数更新生成网络的参数;
计算所述第二判别网络的损失函数,利用所述第二判别网络的损失函数更新生成网络的参数;
将i更新为i+1,继续执行所述对于第i+1组训练样本,将所述训练样本中的草图输入所述生成对抗网络中的生成网络,直至所述生成网络和所述第一判别网络和第二判别网络均收敛时停止。
在一种实施方式中,所述生成网络包括依次相连的第一层至第十九层;
其中,第一层,类型是下采样层,滤波器的数量为32,卷积核大小为5×5,步长为2,比例为1/2;
第二层,类型是卷积层,滤波器的数量为128,卷积核大小为5×5,步长为1,比例为1/2;
第三层,类型是下采样层,滤波器的数量为256,卷积核大小为3×3,步长为2,比例为1/4;
第四层,类型是卷积层,滤波器的数量为256,卷积核大小为3×3,步长为1,比例为1/4;
第五层,类型是下采样层,滤波器的数量为256,卷积核大小为3×3,步长为2,比例为1/8;
第六层,类型是卷积层,滤波器的数量为512,卷积核大小为3×3,步长为1,比例为1/8;
第七层,类型是下采样层,滤波器的数量为1024,卷积核大小为3×3,步长为1,比例为1/8;
第八层,类型是卷积层,滤波器的数量为512,卷积核大小为3×3,步长为1,比例为1/8;
第九层,类型是卷积层,滤波器的数量为256,卷积核大小为3×3,步长为1,比例为1/8;
第十层,类型是上采样层,滤波器的数量为256,卷积核大小为3×3,比例为1/4;
第十一层,类型是卷积层,滤波器的数量为256,卷积核大小为3×3,步长为1,比例为1/4;
第十二层,类型是卷积层,滤波器的数量为128,卷积核大小为3×3,步长为1,比例为1/4;
第十三层,类型是上采样层,滤波器的数量为128,卷积核大小为3×3,比例为1/2;
第十四层,类型是卷积层,滤波器的数量为64,卷积核大小为3×3,步长为1,比例为1/2;
第十五层,类型是卷积层,滤波器的数量为64,卷积核大小为3×3,步长为1,比例为1/2;
第十六层,类型是上采样层,滤波器的数量为64,卷积核大小为3×3,比例为1;
第十七层,类型是卷积层,滤波器的数量为32,卷积核大小为3×3,步长为1,比例为1;
第十八层,类型是卷积层,滤波器的数量为16,卷积核大小为3×3,步长为1,比例为1;
第十九层,类型是卷积层,滤波器的数量为1,卷积核大小为3×3,步长为1,比例为1。
在一种实施方式中,所述第一判别网络和第二判别网络分别包括依次相连的第一层至第九层;其中,
第一层,卷积核为4×4×32;步长为2;填充为1;激活函数为RReLU;
第二层,卷积核为4×4×64;步长为2;填充为1;激活函数为RReLU;
第三层,卷积核为4×4×128;步长为2;填充为1;激活函数为RReLU;
第四层,卷积核为4×4×256;步长为2;填充为1;激活函数为RReLU;
第五层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU;
第六层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU;
第七层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU;
第八层,卷积核为4×4×1024;步长为2;填充为1;激活函数为RReLU;
第九层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU。
在一种实施方式中,所述生成网络根据所述第一判别网络,和/或者,所述第二判别网络的判别结果对所述伪图进行对应地调整以生成新的伪图,包括:
根据第一判别网络的判别结果对伪图的边缘进行调整以生成新的伪图;或
根据第二判别网络的判别结果对伪图的中间局部区域进行调整以生成新的伪图。
第二方面,本发明实施例还提供一种图像合成装置,该装置包括:
获取模块,用于获取草图;
输入模块,用于将所述草图输入预先训练得到的生成对抗网络中的生成网络中;
所述生成网络,用于对所述草图进行处理后得到伪图;以及将所述伪图分别输入到预先训练得到的生成对抗网络中的第一判别网络和第二判别网络中;
根据所述第一判别网络或所述第二判别网络的判别结果对所述伪图进行对应地进行调整以生成新的伪图;
所述第一判别网络和所述第二判别网络分别用于,判断所述伪图是否是伪图,并输出判别结果。
在一种实施方式中,所述生成网络还用于,
获取所述草图的全局特征向量;
获取所述草图中的每一个像素点处的局部特征向量;
根据所述全局特征向量和所述每一个像素点的局部特征向量确定所述每一个像素点处的融合特征向量。
在一种实施方式中,还包括训练模块;所述训练模块用于:
采集n组训练样本,每组训练样本包括草图和标准图,n为正整数;
对于第i组训练样本,将所述训练样本中的草图输入所述生成网络中,将所述标准图和所述生成网络输出的伪图分别输入所述第一判别网络和第二判别网络中;
计算所述第一判别网络的损失函数,利用所述第一判别网络的损失函数更新生成网络的参数;
计算所述第二判别网络的损失函数,利用所述第二判别网络的损失函数更新生成网络的参数;
将i更新为i+1,继续执行所述对于第i+1组训练样本,将所述训练样本中的草图输入所述生成对抗网络中的生成网络,直至所述生成网络和所述第一判别网络和第二判别网络均收敛时停止。
在一种实施方式中,所述生成网络还用于:根据所述第一判别网络,和/或者,所述第二判别网络的判别结果对所述伪图进行对应地调整以生成新的伪图,包括:
根据第一判别网络的判别结果对伪图的边缘进行调整以生成新的伪图;或
根据第二判别网络的判别结果对伪图的中间局部区域进行调整以生成新的伪图。
在一种实施方式中,还包括确认模块,用于当所述第一判别网络和所述第二判别网络确认所述伪图不是伪图时,确定所述伪图为最终输出的图像。
第三方面,本发明实施例还提供一种电子设备,所述电子设备包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如上述任一项所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被执行如上述任一项所述的方法。
本发明实施例提供的种图像合成方法,根据所述第一判别网络的判别结果和第二判别网络的判别结果对所述生成网络进行调整。本申请采用了两个判别网络同时对生成网络进行调整,提高了合成图像的分辨率和真实性。
附图说明
图1为本发明实施例提供的一种图像合成方法流程图;
图2为本发明实施例提供的IFCN网络的结构示意图;
图3为本发明实施例提供的第一判别网络结构示意图;
图4为本发明实施例提供的一种图像合成装置结构示意图;
图5为本发明实施例提供的一种电子设备结构示意图;
图6为本发明实施例提供的本申请的方法和其他的方法的结果对比图;
图7为本发明实施例提供的不同方法在PSNR、SSIM、R上的对比图;
图8为本发明实施例提供的不同方法在CUHK数据集上生成的图像;
图9为本发明实施例提供的不同模型的Inception得分结果对比图;
图10为本发明实施例提供的不同模型的伪图的视觉效果对比图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本申请提出了一种图像合成方法,参见附图1所示的图像合成方法流程图,该方法包括:
步骤S101,获取草图;
其中,草图是指去掉颜色的只有黑色线条轮廓的图像;可以使用预存的样本图像进行处理,得到草图;比如,对于一个人脸图像,如果有一张图像残缺不全,则使用其他的图像作为样本进行合成;首先需要对样本进行处理得到草图;再草图的基础上生成最终合成的图像。
步骤S102,将所述草图输入预先训练得到的生成对抗网络中的生成网络中;
步骤S103,所述生成网络对所述草图进行处理后得到伪图;以及将所述伪图分别输入到预先训练得到的生成对抗网络中的第一判别网络和第二判别网络中;
步骤S104,所述第一判别网络和所述第二判别网络分别判断所述伪图是否是伪图,并输出判别结果;
步骤S105,所述生成网络根据所述第一判别网络或所述第二判别网络的判别结果对所述伪图进行对应地调整以生成新的伪图。
其中,第一判别网络和第二判别网络会对所述伪图有不同的判决结果,判决结果为该伪图与标准的自然图像的逼真度;假如判别网络输出0.5,则表明判别网络没有分辨出该伪图和标准图;假如判别网络输出0.3,则表明判别网络判断出该伪图是伪造的。合成器训练目的是将草图或素描图生成自然图像。然而,合成器并不能保证生成的图片有足够高的分辨率。因此,需要使用判别网络进行生成器的微调。根据第一判别网络的判别结果对伪图的边缘进行调整以生成新的伪图;或根据第二判别网络的判别结果对伪图的中间局部区域进行调整以生成新的伪图。如果所述第一判别网络和所述第二判别网络分别确认所述伪图不是伪图;则确定所述生成网络输出的伪图是最终的图像。
用第一判别网络对所述生成网络进行调整以实现对所述伪图在细尺度上判别;用第二判别网络对所述生成网络进行调整以实现对所述伪图进行粗尺度调整。其中,粗尺度调整是指对图像的轮廓进行调整;细尺度调整是指对图像的局部的色彩、条纹等进行调整。运行时,合成器生成中间图像,模型中同时运行两个判别网络,这两个判别网络都会调整生成器超参数,促使生成器生成轮廓和细节皆高质量的图像。第一判别网络在精细尺度上,比如局部区域的颜色和纹理上,对合成器进行微调,从而促进合成器在图像细节上能够得到很好的效果。第二判别网络则是促使合成器在粗略尺度上对全局图像信息进行合成。因此,第一判别网络和第二判别网络有着不同的输入,第一判别网络的输入是合成器合成的图像,第二判别网络的输入是第一判别网络的二倍下采样后的图像。判别网络中只有卷积层,基本的卷积层可以表示为:
F(x)=Wk*X+Bk;
其中,x是输入,Wk表示滤波的权重,Bk是偏置项,*是卷积操作。其中,批归一化(BN,Batch Normalization)可以消除内部协变位移的影响。协变位移会随着网络层数的加深而被放大。如果这种情况发生,梯度将会变得非常小,最终会导致网络梯度消失。因此,在所有的输入层中加入了BN。
本申请通过第一判别网络和第二判别网络分别在粗略尺度和精细尺度上共同辅助合成器进行训练,实现高质量的图像合成。
在一种实施方式中,所述生成网络对所述草图进行处理时,采用以下步骤:
获取所述草图的全局特征向量;
获取所述草图中的每一个像素点处的局部特征向量;
根据所述全局特征向量和所述每一个像素点的局部特征向量确定所述每一个像素点处的融合特征向量;
最后根据每一个像素点的融合特征向量来生成伪图。
其中,所述生成网络包括:改进的全卷积网络IFCN网络和Resnet-50网络;
获取所述草图的全局特征向量时,
利用所述Resnet-50网络提取所述草图的全局特征向量yglobal
获取所述草图中的每一个像素点的局部特征向量时:
利用所述IFCN网络提取所述草图的坐标为(u,v)的像素点的局部特征向量ylocal
将所述局部特征和全局特征进行融合得到坐标为(u,v)的融合之后的特征向量
Figure BDA0002191397960000101
Figure BDA0002191397960000102
其中,
u表示像素点的横坐标;
v表示像素点的纵坐标;
W表示权重矩阵;
b表示偏置项;
yglobal表示全局特征向量;
Figure BDA0002191397960000103
表示坐标(u,v)处的局部特征向量;
Figure BDA0002191397960000104
表示坐标为(u,v)处的经过全局特征向量和局部特征向量融合之后的特征向量;
其次,上采样过程中学习的特征向量表示是多尺度特征向量,公式如下:
Figure BDA0002191397960000105
δ表示激活函数,为sigmod函数。
M表示侧输出层的总数;
m表示第m个侧输出层;
hm表示多尺度特征向量的融合权重;
Figure BDA0002191397960000111
表示融合多尺度特征向量;
Figure BDA0002191397960000112
表示融合后的多尺度特征向量。
根据上述融合后的多尺度特征向量生成伪图。
在一种实施方式中,参见附图2所示的IFCN网络结构图,生成网络包括依次相连的第一层至第十九层;
其中,第一层,类型是下采样层,滤波器的数量为32,卷积核大小为5×5,步长为2,比例为1/2;
第二层,类型是卷积层,滤波器的数量为128,卷积核大小为5×5,步长为1,比例为1/2;
第三层,类型是下采样层,滤波器的数量为256,卷积核大小为3×3,步长为2,比例为1/4;
第四层,类型是卷积层,滤波器的数量为256,卷积核大小为3×3,步长为1,比例为1/4;
第五层,类型是下采样层,滤波器的数量为256,卷积核大小为3×3,步长为2,比例为1/8;
第六层,类型是卷积层,滤波器的数量为512,卷积核大小为3×3,步长为1,比例为1/8;
第七层,类型是下采样层,滤波器的数量为1024,卷积核大小为3×3,步长为1,比例为1/8;
第八层,类型是卷积层,滤波器的数量为512,卷积核大小为3×3,步长为1,比例为1/8;
第九层,类型是卷积层,滤波器的数量为256,卷积核大小为3×3,步长为1,比例为1/8;
第十层,类型是上采样层,滤波器的数量为256,卷积核大小为3×3,比例为1/4;
第十一层,类型是卷积层,滤波器的数量为256,卷积核大小为3×3,步长为1,比例为1/4;
第十二层,类型是卷积层,滤波器的数量为128,卷积核大小为3×3,步长为1,比例为1/4;
第十三层,类型是上采样层,滤波器的数量为128,卷积核大小为3×3,比例为1/2;
第十四层,类型是卷积层,滤波器的数量为64,卷积核大小为3×3,步长为1,比例为1/2;
第十五层,类型是卷积层,滤波器的数量为64,卷积核大小为3×3,步长为1,比例为1/2;
第十六层,类型是上采样层,滤波器的数量为64,卷积核大小为3×3,比例为1;
第十七层,类型是卷积层,滤波器的数量为32,卷积核大小为3×3,步长为1,比例为1;
第十八层,类型是卷积层,滤波器的数量为16,卷积核大小为3×3,步长为1,比例为1;
第十九层,类型是卷积层,滤波器的数量为1,卷积核大小为3×3,步长为1,比例为1。
在一种实施方式中,参见附图3所示的第一判别网络的结构示意图,所述第一判别网络包括依次相连的第一层至第九层;第二判别网络的结构和第一判别网络的结构相同;
在一种实施方式中,所述第二判别网络的下采样率大于所述第一判别网络的下采样率;优选地,所述第二判别网络的下采样率是所述第一判别网络的下采样率的两倍。
其中,第一层,卷积核为4×4×32;stride为2;填充为1;激活函数为RReLU;
第二层,卷积核为4×4×64;步长为2;填充为1;激活函数为RReLU;
第三层,卷积核为4×4×128;步长为2;填充为1;激活函数为RReLU;
第四层,卷积核为4×4×256;步长为2;填充为1;激活函数为RReLU;
第五层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU;
第六层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU;
第七层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU;
第八层,卷积核为4×4×1024;步长为2;填充为1;激活函数为RReLU;
第九层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU。
预先训练生成对抗网络时,采集n组训练样本,每组训练样本包括草图和标准图,n为正整数;
对于第i组训练样本,将所述训练样本中的草图输入所述生成网络中,将所述标准图和所述生成网络输出的伪图分别输入所述第一判别网络和第二判别网络中,根据所述第一和第二判别网络的输出结果计算判别网络的损失函数,然后对生成网络的参数进行更新。
将i更新为i+1,继续执行所述对于第i+1组训练样本,将所述训练样本中的草图输入所述生成对抗网络中的生成网络中,直至所述生成网络和所述第一判别网络和第二判别网络均收敛时停止。
其中,训练样本是成对的图像,每对图像包含一张草图和一张自然图像。使用损失函数去定义生成图像和真实图像之间的差距,并且该模型通过最小化损失函数进行训练。
首先,利用最简单通用是L2损失,表示为Lp。
ΓLp(SX)=Ex,y~pdata(x,y)||y-S(x1,x2)||2
其中y是标准自然图像,pdata表示输入数据的分布,x1表示输入的草图,x2表示输入的自然图像,且S(x1,x2)是合成网络的生成结果。
然后,特征空间的损失定义为欧式距离,该空间的特征是从一个预训练好的卷积神经网络中提取的,代表图像高层次的信息。
Figure BDA0002191397960000141
其中n是特征数量,
Figure BDA0002191397960000142
是利用Resnet-50从自然图像中提取的特征图,
Figure BDA0002191397960000143
是合成网络提取的预测特征。
像素损失和特征损失被广泛用于计算合成输出与标准自然图像,单独使用任何一种损失不足以生成多样和真实的图像。同时,除了像素和特征损失,在目标函数中还有对抗损失:
LGAN(Sx,D)=Ey~pdata[Log(D(y))]+Ey~pdata[Log(1-S(x1,x2))]]
生成对抗网络的最终损失函数表示为:
G*=argminmaxLGAN(Sx,D)+λpLLP
使用生成对抗网络实现基于素描图像的图像合成,该网络模型用于生成高质量、精细的图像,且具有较强的学习能力。通过在大量风格的草图上生成真实图片来验证有效性。实验结果表明,该方法在视觉质量、色彩生动性、对生成图片的直观感受和体验等方面均优于现有方法。把上述方法应用在采矿、安防等等的监控领域中,可以对采集的破损的图像帧进行还原,采用本申请的方法,可以提高还原的逼真度,从而实现正常监控。
第二方面,本申请还提出了一种图像合成装置,参见附图4所示的一种图像合成装置结构示意图,该装置包括:
获取模块41,用于获取草图;
输入模块42,用于将所述草图输入预先训练得到的生成对抗网络中的生成网络中;
所述生成网络43,用于对所述草图进行处理后得到伪图;以及将所述伪图分别输入到预先训练得到的生成对抗网络中的第一判别网络44和第二判别网络45中;
根据所述第一判别网络44或所述第二判别网络45的判别结果对所述伪图进行对应地进行调整以生成新的伪图;
所述第一判别网络44和所述第二判别网络45分别用于,判断所述伪图是否是伪图,并输出判别结果。
在一种实施方式中,所述生成网络43还用于,
获取所述草图的全局特征向量;
获取所述草图中的每一个像素点处的局部特征向量;
根据所述全局特征向量和所述每一个像素点的局部特征向量确定所述每一个像素点处的融合特征向量。
在一种实施方式中,还包括训练模块;所述训练模块用于:
采集n组训练样本,每组训练样本包括草图和标准图,n为正整数;
对于第i组训练样本,将所述训练样本中的草图输入所述生成网络中,将所述标准图和所述生成网络输出的伪图分别输入所述第一判别网络和第二判别网络中;
计算所述第一判别网络的损失函数,利用所述第一判别网络的损失函数更新生成网络的参数;
计算所述第二判别网络的损失函数,利用所述第二判别网络的损失函数更新生成网络的参数;
将i更新为i+1,继续执行所述对于第i+1组训练样本,将所述训练样本中的草图输入所述生成对抗网络中的生成网络,直至所述生成网络和所述第一判别网络和第二判别网络均收敛时停止。
在一种实施方式中,所述生成网络还用于:根据所述第一判别网络,和/或者,所述第二判别网络的判别结果对所述伪图进行对应地调整以生成新的伪图,包括:
根据第一判别网络的判别结果对伪图的边缘进行调整以生成新的伪图;或
根据第二判别网络的判别结果对伪图的中间局部区域进行调整以生成新的伪图。
在一种实施方式中,还包括确认模块,用于当所述第一判别网络和所述第二判别网络确认所述伪图不是伪图时,确定所述伪图为最终输出的图像。
第三方面,本申请还提出了一种电子设备,参见附图5所示的一种电子设备结构示意图;所述电子设备包括:至少一个处理器52和至少一个存储器51;
所述存储器51用于存储一个或多个程序指令;
所述处理器52,用于运行一个或多个程序指令,用以执行如上述任一项所述的方法。
第四方面,本申请还提出了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被执行如上述任一项所述的方法。
本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
下面详细说明一下本申请取得的技术效果:
在Sketchy和CUHK数据集进行实验。在Titan Xp GPU上训练生成对抗网络SIGAN。使用Adam优化超参数,学习率为0.0001。BN层衰减系数设置为0.9。为了证明SIGAN的有效性,在合成数据集和真实世界数据集上验证。并将实验结果与三个最好的方法IMGAN,pix2pix和sketchGAN进行比较。
参见附图6所示的本申请的方法和其他的方法的结果对比示意图;采用同一个输入样本,从图可以看出,在SIGAN一列中,本申请的SIGAN合成的图像与Ground truth图像更接近。如果没有融合策略,合成结果在第三列和第四列看起来更暗,这表明了融合策略的有效性。
参见附图7所示的不同方法在PSNR、SSIM、R上的对比示意图;从图7可以看出本申请的生成对抗网络SIGAN在PSNR、SSIM、R上的提高分别2.2dB,0.2586、0.2269。与原始的生成网络GAN相比,GAN+MR1+MR2优于GAN+MR1和GAN+MR2,因为两个融合块效果比一个要更加准确。
参见附图8所示的不同方法在CUHK数据集上生成的图像示意图,从图8可以观察到合成结果中存在一些颜色模糊。IMGAN受色彩失真影响,其结果通常比ground truth图像更暗。Pix2Pix和SketchyGAN也会出现颜色失真,并在细节合成上是失败的。如图8最后一列所示,本申请SIGAN合成的图像更接近真实图像。此外,在细节恢复方面,本申请的SIGAN比上述所有方法都有明显的优势,并且所提出的方法在定性和定量上都提高了结果。将模型在Sketchy数据集上进行结果验证,所有模型都进行了200K次迭代参见附图9所示的不同模型的Inception得分结果对比图,本申请的分数明显高于其他方法;视觉效果参见附图10所示的不同模型的最终输出伪图的视觉效果对比图;最后一列是采用本申请的方法所获得的图像,本申请的生成对抗网络SIGAN最终得到的伪图无论是在Inception得分上还是视觉效果上均优于其他方法得到的伪图。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (8)

1.一种图像合成的方法,其特征在于,包括:
获取草图;
将所述草图输入预先训练得到的生成对抗网络中的生成网络中;
所述生成网络对所述草图进行处理后得到伪图;以及将所述伪图分别输入到预先训练得到的生成对抗网络中的第一判别网络和第二判别网络中;
所述第一判别网络和所述第二判别网络分别判断所述伪图是否是伪图,并输出判别结果;
所述生成网络根据所述第一判别网络和所述第二判别网络的判别结果对所述伪图进行对应地调整以生成新的伪图;
所述生成网络对所述草图进行处理,包括:
获取所述草图的全局特征向量;
获取所述草图中的每一个像素点处的局部特征向量;
根据所述全局特征向量和所述每一个像素点的局部特征向量确定所述每一个像素点处的融合特征向量;
所述生成网络包括:改进的全卷积网络IFCN和Resnet-50网络;
获取所述草图的全局特征向量,包括:
利用所述Resnet-50网络提取所述草图的全局特征向量yglobal
获取所述草图中的每一个像素点的局部特征向量,包括:
利用IFCN网络提取所述草图的坐标为(u,v)的像素点的局部特征向量ylocal
将所述局部特征和全局特征进行融合得到坐标为(u,v)的像素点的融合之后的特征向量
Figure FDA0002782573080000011
Figure FDA0002782573080000021
其中,
u表示像素点的横坐标;
v表示像素点的纵坐标;
W表示权重矩阵;
b表示偏置项;
yglobal表示全局特征向量;
Figure FDA0002782573080000022
表示坐标(u,v)处的局部特征向量;
Figure FDA0002782573080000023
表示坐标为(u,v)处的经过全局特征向量和局部特征向量融合之后的特征向量。
2.如权利要求1所述的方法,预先训练生成对抗网络,包括:
采集n组训练样本,每组训练样本包括草图和标准图,n为正整数;
对于第i组训练样本,将所述训练样本中的草图输入所述生成网络中,将所述标准图和所述生成网络输出的伪图分别输入所述第一判别网络和第二判别网络中;
计算所述第一判别网络的损失函数,利用所述第一判别网络的损失函数更新生成网络的参数;
计算所述第二判别网络的损失函数,利用所述第二判别网络的损失函数更新生成网络的参数;
将i更新为i+1,继续执行对于第i+1组训练样本,将所述训练样本中的草图输入所述生成对抗网络中的生成网络,直至所述生成网络和所述第一判别网络和第二判别网络均收敛时停止。
3.如权利要求1所述的方法,其特征在于,所述IFCN网络包括依次相连的第一层至第十九层,其中,
第一层,类型是下采样层,滤波器的数量为32,卷积核大小为5×5,步长为2,比例为1/2;
第二层,类型是卷积层,滤波器的数量为128,卷积核大小为5×5,步长为1,比例为1/2;
第三层,类型是下采样层,滤波器的数量为256,卷积核大小为3×3,步长为2,比例为1/4;
第四层,类型是卷积层,滤波器的数量为256,卷积核大小为3×3,步长为1,比例为1/4;
第五层,类型是下采样层,滤波器的数量为256,卷积核大小为3×3,步长为2,比例为1/8;
第六层,类型是卷积层,滤波器的数量为512,卷积核大小为3×3,步长为1,比例为1/8;
第七层,类型是下采样层,滤波器的数量为1024,卷积核大小为3×3,步长为1,比例为1/8;
第八层,类型是卷积层,滤波器的数量为512,卷积核大小为3×3,步长为1,比例为1/8;
第九层,类型是卷积层,滤波器的数量为256,卷积核大小为3×3,步长为1,比例为1/8;
第十层,类型是上采样层,滤波器的数量为256,卷积核大小为3×3,比例为1/4;
第十一层,类型是卷积层,滤波器的数量为256,卷积核大小为3×3,步长为1,比例为1/4;
第十二层,类型是卷积层,滤波器的数量为128,卷积核大小为3×3,步长为1,比例为1/4;
第十三层,类型是上采样层,滤波器的数量为128,卷积核大小为3×3,比例为1/2;
第十四层,类型是卷积层,滤波器的数量为64,卷积核大小为3×3,步长为1,比例为1/2;
第十五层,类型是卷积层,滤波器的数量为64,卷积核大小为3×3,步长为1,比例为1/2;
第十六层,类型是上采样层,滤波器的数量为64,卷积核大小为3×3,比例为1;
第十七层,类型是卷积层,滤波器的数量为32,卷积核大小为3×3,步长为1,比例为1;
第十八层,类型是卷积层,滤波器的数量为16,卷积核大小为3×3,步长为1,比例为1;
第十九层,类型是卷积层,滤波器的数量为1,卷积核大小为3×3,步长为1,比例为1。
4.如权利要求1所述的方法,其特征在于,所述第一判别网络和第二判别网络分别包括依次相连的第一层至第九层;其中,
第一层,卷积核为4×4×32;步长为2;填充为1;激活函数为RReLU;
第二层,卷积核为4×4×64;步长为2;填充为1;激活函数为RReLU;
第三层,卷积核为4×4×128;步长为2;填充为1;激活函数为RReLU;
第四层,卷积核为4×4×256;步长为2;填充为1;激活函数为RReLU;
第五层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU;
第六层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU;
第七层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU;
第八层,卷积核为4×4×1024;步长为2;填充为1;激活函数为RReLU;
第九层,卷积核为4×4×512;步长为2;填充为1;激活函数为RReLU。
5.如权利要求1所述的方法,其特征在于,所述生成网络根据所述第一判别网络和所述第二判别网络的判别结果对所述伪图进行对应地调整以生成新的伪图,包括:
根据第一判别网络的判别结果对伪图的边缘进行调整以生成新的伪图;以及根据第二判别网络的判别结果对伪图的中间局部区域进行调整以生成新的伪图。
6.一种图像合成的装置,其特征在于,包括:
获取模块,用于获取草图;
输入模块,用于将所述草图输入预先训练得到的生成对抗网络中的生成网络中;
所述生成网络,用于对所述草图进行处理后得到伪图;以及将所述伪图分别输入到预先训练得到的生成对抗网络中的第一判别网络和第二判别网络中;
根据所述第一判别网络和所述第二判别网络的判别结果对所述伪图进行对应地调整以生成新的伪图;
所述第一判别网络和所述第二判别网络分别用于,判断所述伪图是否是伪图,并输出判别结果;
所述生成网络还用于:获取所述草图的全局特征向量;获取所述草图中的每一个像素点处的局部特征向量;根据所述全局特征向量和所述每一个像素点的局部特征向量确定所述每一个像素点处的融合特征向量;
所述生成网络包括:改进的全卷积网络IFCN和Resnet-50网络;
获取所述草图的全局特征向量,包括:
利用所述Resnet-50网络提取所述草图的全局特征向量yglobal
获取所述草图中的每一个像素点的局部特征向量,包括:
利用IFCN网络提取所述草图的坐标为(u,v)的像素点的局部特征向量ylocal
将所述局部特征和全局特征进行融合得到坐标为(u,v)的像素点的融合之后的特征向量
Figure FDA0002782573080000051
Figure FDA0002782573080000052
其中,
u表示像素点的横坐标;
v表示像素点的纵坐标;
W表示权重矩阵;
b表示偏置项;
yglobal表示全局特征向量;
Figure FDA0002782573080000061
表示坐标(u,v)处的局部特征向量;
Figure FDA0002782573080000062
表示坐标为(u,v)处的经过全局特征向量和局部特征向量融合之后的特征向量。
7.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;
所述存储器,用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-5任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被执行如权利要求1-5任一项所述的方法。
CN201910833216.9A 2019-09-04 2019-09-04 一种图像合成的方法、装置、设备和存储介质 Active CN110599435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910833216.9A CN110599435B (zh) 2019-09-04 2019-09-04 一种图像合成的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910833216.9A CN110599435B (zh) 2019-09-04 2019-09-04 一种图像合成的方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110599435A CN110599435A (zh) 2019-12-20
CN110599435B true CN110599435B (zh) 2021-01-12

Family

ID=68857546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910833216.9A Active CN110599435B (zh) 2019-09-04 2019-09-04 一种图像合成的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110599435B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766612A (zh) * 2019-12-26 2020-02-07 杭州知衣科技有限公司 一种基于深度学习的图像超分辨率方法
CN111739046A (zh) * 2020-06-19 2020-10-02 百度在线网络技术(北京)有限公司 用于模型更新和检测图像的方法、装置、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147797A (zh) * 2019-04-12 2019-08-20 中国科学院软件研究所 一种基于生成式对抗网络的草图补全与识别方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102095097B1 (ko) * 2018-01-29 2020-03-30 한국과학기술원 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법
CN108346125B (zh) * 2018-03-15 2021-10-08 中山大学 一种基于生成对抗网络的空域图像隐写方法及系统
CN108596026B (zh) * 2018-03-16 2020-06-30 中国科学院自动化研究所 基于双流生成对抗网络的跨视角步态识别装置及训练方法
CN108564119B (zh) * 2018-04-04 2020-06-05 华中科技大学 一种任意姿态行人图片生成方法
CN108460830A (zh) * 2018-05-09 2018-08-28 厦门美图之家科技有限公司 图像修复方法、装置及图像处理设备
CN108711141B (zh) * 2018-05-17 2022-02-15 重庆大学 利用改进的生成式对抗网络的运动模糊图像盲复原方法
CN109147010B (zh) * 2018-08-22 2023-07-25 广东工业大学 带属性人脸图像生成方法、装置、系统及可读存储介质
CN109815928B (zh) * 2019-01-31 2021-05-11 中国电子进出口有限公司 一种基于对抗学习的人脸图像合成方法和装置
CN110033416B (zh) * 2019-04-08 2020-11-10 重庆邮电大学 一种结合多粒度的车联网图像复原方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147797A (zh) * 2019-04-12 2019-08-20 中国科学院软件研究所 一种基于生成式对抗网络的草图补全与识别方法和装置

Also Published As

Publication number Publication date
CN110599435A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN111080629B (zh) 一种图像拼接篡改的检测方法
Wu et al. Anti-forensics of median filtering
CN110599435B (zh) 一种图像合成的方法、装置、设备和存储介质
CN111275638B (zh) 基于多通道注意力选择生成对抗网络的人脸修复方法
Yang et al. Dual-stream convolutional neural network with residual information enhancement for pansharpening
CN113298718A (zh) 一种单幅图像超分辨率重建方法及系统
CN112801914A (zh) 一种基于纹理结构感知的二段式图像修复方法
CN116645569A (zh) 一种基于生成对抗网络的红外图像彩色化方法和系统
CN111798359A (zh) 一种基于深度学习的图像去水印方法
CN114511449A (zh) 图像增强方法、装置及计算机可读存储介质
CN113469191A (zh) 基于多层特征融合注意力机制的sar图像叠掩区提取方法
KR20210041155A (ko) Gan 기반의 불량 이미지를 포함하는 학습 데이터 생성 장치 및 그 방법
CN115909172A (zh) 深度伪造视频检测分割识别系统、终端及存储介质
CN115731597A (zh) 一种人脸口罩掩膜图像自动分割与修复管理平台及方法
CN116739899A (zh) 基于saugan网络的图像超分辨率重建方法
CN116309062A (zh) 一种遥感图像超分辨率重建方法
CN112785480A (zh) 基于频域变换和残差反馈模块的图像拼接篡改检测方法
Cao et al. Resampling detection of recompressed images via dual-stream convolutional neural network
CN111046755A (zh) 字符识别方法、装置、计算机设备和计算机可读存储介质
CN114463214A (zh) 区域注意力机制引导的双路虹膜补全方法及系统
CN115631428B (zh) 一种基于结构纹理分解的无监督图像融合方法和系统
JPWO2018143277A1 (ja) 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム
CN117217997A (zh) 一种基于上下文感知边缘增强的遥感图像超分辨率方法
CN115909088A (zh) 基于超分辨特征聚合的光学遥感图像目标检测方法
CN112734676A (zh) 一种空间尺度泛化的去雨方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant