CN108765512B - 一种基于多层级特征的对抗图像生成方法 - Google Patents

一种基于多层级特征的对抗图像生成方法 Download PDF

Info

Publication number
CN108765512B
CN108765512B CN201810541722.6A CN201810541722A CN108765512B CN 108765512 B CN108765512 B CN 108765512B CN 201810541722 A CN201810541722 A CN 201810541722A CN 108765512 B CN108765512 B CN 108765512B
Authority
CN
China
Prior art keywords
model
dsgan
feature
image
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810541722.6A
Other languages
English (en)
Other versions
CN108765512A (zh
Inventor
袁春
贲有成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Tsinghua University
Original Assignee
Shenzhen Graduate School Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Tsinghua University filed Critical Shenzhen Graduate School Tsinghua University
Priority to CN201810541722.6A priority Critical patent/CN108765512B/zh
Publication of CN108765512A publication Critical patent/CN108765512A/zh
Application granted granted Critical
Publication of CN108765512B publication Critical patent/CN108765512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多层级特征的对抗图像生成方法,包括以下步骤:S1:在层级框架的不同生成器之间引入稠密连接以构建密集堆叠的生成式对抗网络DSGAN模型;S2:对DSGAN模型进行训练;S3:将图像的标签信息输入到DSGAN模型,采样得到最终图像。本发明提出的基于多层级特征的对抗图像生成方法,得到的图像更加真实。

Description

一种基于多层级特征的对抗图像生成方法
技术领域
本发明涉及生成式对抗网络对自然图像数据集建模的技术,尤其涉及一种基于多层级特征的对抗图像生成方法。
背景技术
理解自然图像的分布一直是一个热门的研究课题。在各类机器学习方法中,深度生成模型显得尤为重要,因为在理论上它们能够以相对较少的模型参数来生成各种逼真的图像,这意味着它们有能力抓住自然图像的本质。生成式对抗网络(GAN)作为一类生成模型已经引起了广泛的关注,它们有能力捕获自然图像的内在结构,并被广泛应用于各种图像生成任务,如图像修补、超分辨率、图像到图像的转换和未来的帧预测。
作为生成模型中很有前景的一个分支,GAN将训练过程视为生成器G和判别器D这两位竞争者之间的零和博弈。具体而言,G旨在生成逼真的图像,而D则尝试区分真实图像与G生成的假图像。训练GAN等价于优化如下目标:
Figure GDA0003535221300000011
其中
Figure GDA0003535221300000012
表示求期望值,h表示真实图像,其服从分布pData(h),z表示噪声,服从分布pNoise(z),噪声z是生成器G的输入。
训练GAN是为了取得G和D之间的纳什平衡。由于高维图像空间包含的变化太多,G总是可以产生既能混淆D同时又不接近真实分布的样本。因此,模型的训练常常会遇到不稳定和模式崩塌的问题。解决复杂问题的一个实用规则是将其分解成更容易解决的子问题,这在图像生成任务上也很实用。尽管完整的生成过程是困难的,可以将其划分为多个易处理的子步骤。事实上,最近的一些生成模型(S2-GAN,SGAN)已经基于这一想法并利用一堆GAN来生成不同层级的特征表达,其中每个GAN基于较高层级的特征表达来生成较低层级的特征表示。对于这些层级模型的一个自然的疑问是,随着堆叠GAN数量的增加,模型是否能够得到很好的训练。当下评估真实的与生成的中间层特征表达之间的差异性方法存在一定的局限性,对于GAN模型来说,特征表达的层级越低,越难对其实际分布进行建模,因为低层的特征表达位于更高维度的表达空间流形上。因此在自上而下的生成序列中,真实的与生成的特征表达之间的偏差越来越大,从而导致通过现有的一些生成模型(例如S2-GAN,SGAN)最终得到的图像不够真实。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
为解决上述技术问题,本发明提出一种基于多层级特征的对抗图像生成方法,得到的图像更加真实。
为了实现上述目的,本发明采用以下技术方案:
本发明公开了一种基于多层级特征的对抗图像生成方法,包括以下步骤:
S1:在层级框架的不同生成器之间引入稠密连接以构建密集堆叠的生成式对抗网络DSGAN模型;
S2:对DSGAN模型进行训练;
S3:将图像的标签信息输入到DSGAN模型,采样得到最终图像。
优选地,步骤S2具体为采用对抗性损失、熵损失和条件特征损失三种损失函数来对DSGAN模型进行训练。
优选地,对抗性损失函数为:
Figure GDA0003535221300000021
Figure GDA0003535221300000022
其中,
Figure GDA0003535221300000023
表示训练DSGAN模型中的判别器Di的对抗性损失函数,
Figure GDA0003535221300000024
表示训练DSGAN模型中的生成器Gi的对抗性损失函数,
Figure GDA0003535221300000025
表示求期望值,下标hi表示真实特征表达或图像,其服从分布Pdata,E,下标包含E表示该信息通过编码器E获取;zi表示噪声,其服从分布
Figure GDA0003535221300000031
生成器Gi以更高一级的特征表达hi+1和噪声zi作为输入。
优选地,熵损失函数为:
Figure GDA0003535221300000032
其中,
Figure GDA0003535221300000033
表示训练DSGAN模型中的生成器Gi的熵损失函数,
Figure GDA0003535221300000034
表示求期望值,zi表示噪声,其服从分布
Figure GDA0003535221300000035
Figure GDA0003535221300000036
表示当前生成器Gi的输出结果,其服从分布
Figure GDA0003535221300000037
Qi表示基于生成输出结果
Figure GDA0003535221300000038
重建噪声zi的后验概率分布。
优选地,条件特征损失函数为:
Figure GDA0003535221300000039
其中,
Figure GDA00035352213000000310
表示训练DSGAN模型中的生成器Gi的条件特征损失函数,
Figure GDA00035352213000000311
表示求期望值,λj表示各层特征的权重系数,下标hi+j表示真实特征表达或图像,其服从分布Pdata,E;zi表示噪声,其服从分布
Figure GDA00035352213000000312
生成器Gi以多层级的特征表达hc和噪声zi作为输入;f表示距离度量,Ei→i+j表示重建第i+j层特征表达,hc为k层特征hi+1,hi+2,…,hi+k融合后的多层级特征。
优选地,步骤S2具体包括:先对DSGAN模型中的各个生成器以G0至Gn-1的顺序依次单独进行训练,再对G0~Gn-1进行联合训练,其中n为DSGAN模型的层数。
优选地,步骤S2中对DSGAN模型中的各个生成器以G0至Gn-1的顺序依次单独进行训练之前还通过预训练的编码器E中提取各层特征h1~hn-1
优选地,其中G0是以h1+…+hn-2+hn-1特征为条件生成最终图像x,G1是以h2+…+hn-2+hn-1特征为条件生成h1特征,以此类推,Gn-2是以hn-1特征为条件生成hn-2特征,Gn-1是以标签信息y为条件生成hn-1特征;将G0~Gn-1进行联合为一个整体记为生成器G,G是以标签信息y为条件生成最终图像x。
优选地,在对DSGAN模型中的各个生成器从G0至Gn-1依次单独进行训练时,不同层级的特征h1、…、hn-2、hn-1分别对应于不同大小的特征图,使用转置卷积将待融合的所有特征图缩放到相同的尺寸然后堆叠起来,或者将待融合的所有特征图向量化以连接成一个整体然后变形成期望尺寸大小的稠密特征。
优选地,步骤S3具体包括:将标签信息y输入到Gn-1生成hn-1特征,将hn-1特征输入到Gn-2生成hn-2特征,将hn-2+hn-1特征输入到Gn-3生成hn-3特征,以此类推,直至将h1+…+hn-2+hn-1特征输入G0到生成最终图像x。
与现有技术相比,本发明的有益效果在于:本发明公开的基于多层级特征的对抗图像生成方法,在生成式对抗网络模型中引入了稠密连接,使得每个GAN与其他所有的GAN连接在一起,从而最大化不同GAN之间的信息沟通,进一步约束GAN生成更接近真实分布的特征表达或最终图像,真实的与生成的特征表达之间的偏差得到减小,使得得到的图像更加真实。
进一步地,在对DSGAN模型进行训练,每个GAN以多个更高级的特征为条件去生成较低层级的特征表达,其中由于每个GAN能够直接获取前面所有GAN生成的特征表达,在一定程度上避免了重新生成冗余的表达细节。更进一步,在对DSGAN模型进行训练时,引入了加权条件特征损失,线性组合了各个层级上真实的与生成的特征表达之间的差异性,明确地为每个生成器提供多层级的监督信息,从而约束生成结果尽可能地驻留在自然特征空间的流形上,进一步缩小得到的图像与原始图像的差别。
附图说明
图1是采用本发明优选实施例的4层的DSGAN模型生成图像的示意图;
图2是本发明优选实施例的特征融合的示意图;
图3是对比3层的DSGAN模型与SGAN模型生成的中间层表达的偏差示意图;
图4a是本发明优选实施例的3层的DSGAN模型在CIFAR-10数据集上基于标签信息y生成图片的效果;
图4b是现有的3层的SGAN模型在CIFAR-10数据集上基于标签信息y生成图片的效果;
图5a是本发明优选实施例的3层的DSGAN模型在MNIST数据集上基于多层级特征h2+h3的生成结果;
图5b是现有的3层的SGAN模型在MNIST数据集上基于单层特征h3的生成结果;
图5c是MNIST数据集上的真实图像;
图5d是本发明优选实施例的3层的DSGAN模型在MNIST数据集上基于不同的标签采样的结果;
图6a是本发明优选实施例的3层的DSGAN模型在SVHN数据集上基于多层级特征h2+h3的生成结果;
图6b是现有的3层的SGAN模型在SVHN数据集上基于单层特征h3的生成结果;
图6c是SVHN数据集上的真实图像;
图6d是本发明优选实施例的3层的DSGAN模型在SVHN数据集上基于不同的标签采样的结果。
具体实施方式
下面对照附图并结合优选的实施方式对本发明作进一步说明。
本发明优选实施例公开了一种基于多层级特征的对抗图像生成方法,包括以下步骤:
S1:构建模型:在模型框架上基于当前的层级框架在不同生成器之间引入稠密连接以构建密集堆叠的生成式对抗网络,也即DSGAN模型;
如图1所示,也即在自顶向下的图像生成过程中引入了稠密连接,通过稠密连接将每个GAN与其他所有的GAN连接在一起,从而可以最大化不同GAN之间的信息流通;对于每个生成器Gi,它的输入是前面所有生成器(Gi+1~Gn-1)的输出,它的输出将会作为后面所有生成器(G0~Gi-1)的输入,n为DSGAN模型的层数。
S2:对DSGAN模型进行训练;
在训练目标时,综合对抗性损失、熵损失和条件特征损失三种损失函数来训练DSGAN模型,其中对抗性损失采用下述公式(2)和(3):
Figure GDA0003535221300000061
Figure GDA0003535221300000062
其中,
Figure GDA0003535221300000063
表示训练DSGAN模型中的判别器Di的对抗性损失函数,
Figure GDA0003535221300000064
表示训练DSGAN模型中的生成器Gi的对抗性损失函数,
Figure GDA0003535221300000065
表示求期望值,下标hi表示真实特征表达或图像,其服从分布Pdata,E,下标包含E表示该信息通过编码器E获取;zi表示噪声,其服从分布Pzi,hc为k层特征hi+1,hi+2,…,hi+k融合后的多层级特征,hc={hi+1,hi+2,…,hi+k},生成器Gi以更高一级的特征表达hi+1和噪声zi作为输入。
熵损失采用公式(4):
Figure GDA0003535221300000066
其中,
Figure GDA0003535221300000067
表示训练DSGAN模型中的生成器Gi的熵损失函数,
Figure GDA0003535221300000068
表示当前生成器Gi的输出结果,其服从分布
Figure GDA0003535221300000069
Qi表示基于生成输出结果
Figure GDA00035352213000000610
重建噪声zi的后验概率分布。
条件特征损失采用公式(5)和(6):
Figure GDA00035352213000000611
hc={hi+1,hi+2,…,hi+k} (6)
其中,
Figure GDA0003535221300000071
表示训练DSGAN模型中的生成器Gi的条件特征损失函数,
Figure GDA0003535221300000072
表示求期望值,λj表示各层特征的权重系数,下标hi+j表示真实特征表达或图像,其服从分布Pdata,E;zi表示噪声,其服从分布
Figure GDA0003535221300000073
生成器Gi以多层级的特征表达hc和噪声zi作为输入;f表示距离度量,Ei→i+j表示重建第i+j层特征表达。
其中,在条件特征损失中,假设生成器Gi以k层特征表达hi+1,hi+2,…,hi+k作为条件输入,将生成的特征表达
Figure GDA0003535221300000074
作为编码器E的输入,可以重新提取到对应的k层重建特征表达;其中hc表示k层特征表达融合后的多层级特征(公式(6)),并且在这一过程中,k层原始特征与重建特征之间的差异性损失即为要衡量的条件特征损失。由于涉及k个层级,加权后即为公式(5)。在优选实施例中,k=n-1-i,n为DSGAN模型的层数。
通过对抗性损失使得模型可以生成更加锐利真实的图像,熵损失可以解决条件模式崩溃问题。
条件特征损失,可以看成是一种显式地对于生成表达可辨识性的惩罚项。GAN的训练过程可以看成是一种特殊的从编码器E到生成器G的知识迁移过程,基于这一认知可以定量地评估生成的特征表达的可辨识性。通过将生成的特征表达重新输入到编码器E中作分类任务以获取预测标签,可以将其与真实标签之间的交叉熵损失作为特征表达可辨识性的一种评价指标。
通过采用
Figure GDA0003535221300000075
训练DSGAN模型中的判别器Di,采用
Figure GDA0003535221300000076
训练DSGAN模型中的生成器Gi,其中
Figure GDA0003535221300000077
Figure GDA0003535221300000078
三者可以加权和后来训练DSGAN模型中的生成器Gi
其中对DSGAN模型进行训练具体包括:通过预训练从编码器E中提取各层特征h1~hn,具体地,编码器E可以是一个普通的特征提取网络,结构上包含2个卷积+池化层、1个全连接层和1个分类层;再对DSGAN模型中的各个生成器以G0至Gn-1的顺序自底向上依次单独进行训练:G0是以h1+…+hn-2+hn-1特征为条件生成最终图像x,G1是以h2+…+hn-2+hn-1特征为条件生成h1特征,以此类推,Gn-2是以hn-1特征为条件生成hn-2特征,Gn-1是以标签信息y为条件生成hn-1特征;然后将G0~Gn-1进行联合训练,也即将G0~Gn-1进行联合为一个整体记为生成器G,G是以标签信息y为条件生成最终图像x,n为DSGAN模型的层数,n一般为3、4、5。
以DSGAN-4模型(4层)的训练过程为例:首先从G0至G3的顺序自底向上依次单独训练:G0是以h1+h2+h3特征为条件生成最终图像x,G1是以h2+h3特征为条件生成h1特征,以此类推,G2是以h3特征为条件生成h2特征,G3是以标签信息y为条件生成h3特征;然后联合训练,进一步调参:联合G0、G1、G2、G3为一个整体,记为生成器G,G是以标签信息y为条件生成最终图像x。也即在该DSGAN-4模型中,生成器G1和G0引入了稠密连接。
其中,在上述训练过程中,不同层级的特征表达对应于不同大小的特征图,为了获得不同层级特征相融后的稠密特征表达,先将所有层级的特征图缩放到统一尺寸大小,然后将它们级联并融合为一个整体。如图2所示,可以采用以下两种比较直观的方法中的任意一种来获取多层级特征:其中一种方式是全卷积300,使用转置卷积将所有特征图缩放到相同的尺寸,然后将它们堆叠在一起,例如在具体实施例中,将层级2的特征图进行反卷积,层级3的特征图进行变形和反卷积,使得层级2和层级3的特征图均与层级1的特征图的尺寸相同,再进行堆叠联结在一起;或者采用另一种方式是全连接400,将所有特征图向量化以便连接成一个整体,然后将其变形成期望尺寸大小的稠密特征;例如在具体实施例中,将层级1和层级2的特征图分别进行向量化,再将层级1和层级2的特征图与层级3的特征图连接成一个整体,再进行变形。
S3:将图像的标签信息输入到DSGAN模型,采样得到最终图像。
具体为以自顶向下顺序采样:将标签信息y输入到Gn-1生成hn-1特征,将hn-1特征输入到Gn-2生成hn-2特征,将hn-2+hn-1特征输入到Gn-3生成hn-3特征,以此类推,直至将h1+…+hn-2+hn-1特征输入G0到生成最终图像x。
结合图1,以DSGAN-4模型(4层)为例:将标签信息100(y)输入到G3生成h3特征,将h3特征输入到G2生成h2特征,将h2+h3特征输入到G1生成h1特征,以此类推,直至将h1+h2+h3特征输入G0到生成最终图像200(x)。
在本实施例中,DSGAN模型将条件特征损失从现有技术中的单一层级的监督扩展为多层级的监督。特别地,对于每个以多层级特征表达为条件的GAN,提出了一种加权条件特征损失,它线性组合了各个层级上真实的与生成的特征表达之间的差异性。
最后,对上述本发明优选实施例提出的图像生成模型DSGAN的有效性进行验证,在3个公开数据集上(MNIST、SVHN、CIFAR-10)与现有的图像生成模型进行对比。其中,在MNIST和SVHN数据集上,对比了模型基于不同层级特征条件所生成的图像效果;在CIFAR-10数据集上,通过与先前最好的层级模型SGAN对比来验证生成偏差的存在以及本发明优选实施例的方法在减小这一偏差上的有效性。
具体而言,通过计算真实标签信息y与编码器E输出的分类预测标签
Figure GDA0003535221300000092
之间的交叉熵损失作为生成的特征表达的偏差,交叉熵损失的计算公式为:
Figure GDA0003535221300000091
如图3所示,对比了3层的DSGAN模型与SGAN模型(即DSGAN-3、SGAN-3)生成的中间层表达的偏差;对于不同层级的中间层表达h0、h1、h2,分别在两个模型上基于标签y随机采样了1000次,最终实验结果也是基于这1000组数据取的平均值,其中曲线10、30、50分别是采用本发明优选实施例的DSGAN模型的h0、h1、h2特征的交叉熵损失,曲线20、40、60分别是现有的SGAN模型的h0、h1、h2特征的交叉熵损失。从图3可以看出,两个模型在h1和h2特征的交叉熵损失上相差不大,而在h0特征的交叉熵损失上本实施例的DSGAN模型相对于SGAN模型有着明显的下降趋势。由于两个模型在生成h1和h2特征时条件一致,而在生成h0特征时,本实施例的DSGAN模型基于的是h1+h2特征而SGAN基于的是h1特征,这说明稠密连接和多层级特征确实能减小生成特征表达的偏差。
图4a是3层的DSGAN模型在CIFAR-10数据集上基于标签信息y生成图片的效果,图4b是3层的SGAN模型在CIFAR-10数据集上基于标签信息y生成图片的效果;可以发现,基于SGAN-3模型生成的图像有时候会与条件标签不一致,例如第一行有飞机被误生成鸟,第五行有鹿被误生成马;与此相对应的,DSGAN-3模型很少出现这种误生成现象。
图5a和图6a分别是3层的DSGAN模型在MNIST和SVHN数据集上基于多层级特征h2+h3的生成结果,图5b和图6b分别是3层的SGAN模型在MNIST和SVHN数据集上基于单层特征h3的生成结果,图5c和图6c分别是MNIST和SVHN数据集上的真实图像,图5d和图6d分别是3层的DSGAN模型在MNIST和SVHN数据集上基于不同的标签采样的结果,其中每行的标签相同。其中在这两个数据集上,尽管两个模型生成的图像之间差别较小,但是DSGAN模型生成的图像在视觉效果上更接近于真实图像效果。
如表1所示,是采用各种对抗图像生成方法基于感知分数(Inception Score)的衡量结果,其中第一部分列出了现有的最好的有监督生成方法(例如DCGAN、Improved GAN、AC-GAN、SGAN),第二部分列出了本发明优选实施例的DSGAN模型与现有技术中最好的层级模型SGAN的详细对比,其中“-3”、“-4”分别表示模型为三层和四层,括号内的“L1”、“L2”表示公式(5)中的距离度量f,“C1”、“C2”分别对应于图2中的全卷积融合方法和全连接融合方法。
表1各种对抗图像生成方法基于感知分数(Inception Score)的衡量结果
Figure GDA0003535221300000111
从上述表1中,可以看出本发明优选实施例的DSGAN模型比现有技术的各种模型的生成结果都要好,而且在三层和四层模型的对比上,DSGAN模型生成的结果均比SGAN模型更好。
在本发明优选实施例中,提出了一种新型的对抗图像生成方法,并称其为密集堆叠的生成式对抗网络(DSGAN),该模型遵循了现有层级模型的生成思路,即基于一堆GAN来生成不同层级的特征表达;不同的是,该方法专注于通过增强内部每个生成器的条件信息来约束和减小生成表达与真实表达之间的偏差;由于特征表达是基于由低维度到高维度的生成顺序,同时较高维度的特征表达倾向于包含更大的生成偏差,因此将已生成的不同层级的特征表达融合在一起作为下一个生成器的条件信息是很有意义的,它比单一的最邻近的特征表达包含更准确的信息,从而可以约束GAN生成更接近真实分布的特征表达或最终图像。
在本发明优选实施例中,首先提出了在自顶向下的图像生成过程中引入了稠密连接,相对于当前串行生成的简单方式,将每个GAN与其他所有的GAN连接在一起,可以最大化不同GAN之间的信息流通;然后在训练每个GAN时,提出了一种加权条件特征损失,它有效地鼓励了当前GAN重复利用先前GAN生成的特征表达,同时为当前生成器提供了多层级的监督信息,从而更明确地约束了生成内容的分布。通过实验表明,本发明优选实施例的方法显著地增强了生成的中间层特征表达的可辨识性。与现有的最好方法相比,本发明优选实施例的方法在感知分数(Inception Score)等定量衡量图像生成质量的指标有了明显的提升,而且得到的图像更加真实。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于多层级特征的对抗图像生成方法,其特征在于,包括以下步骤:
S1:在层级框架的不同生成器之间引入稠密连接以构建密集堆叠的生成式对抗网络DSGAN模型;
S2:对DSGAN模型进行训练;
S3:将图像的标签信息输入到DSGAN模型,采样得到最终图像。
2.根据权利要求1所述的基于多层级特征的对抗图像生成方法,其特征在于,步骤S2具体为采用对抗性损失、熵损失和条件特征损失三种损失函数来对DSGAN模型进行训练。
3.根据权利要求2所述的基于多层级特征的对抗图像生成方法,其特征在于,对抗性损失函数为:
Figure FDA0003535221290000011
Figure FDA0003535221290000012
其中,
Figure FDA0003535221290000013
表示训练DSGAN模型中的判别器Di的对抗性损失函数,
Figure FDA0003535221290000014
表示训练DSGAN模型中的生成器Gi的对抗性损失函数,
Figure FDA0003535221290000015
表示求期望值,下标hi表示真实特征表达或图像,其服从分布Pdata,E,下标包含E表示该信息通过编码器E获取;zi表示噪声,其服从分布
Figure FDA0003535221290000016
生成器Gi以更高一级的特征表达hi+1和噪声zi作为输入。
4.根据权利要求2所述的基于多层级特征的对抗图像生成方法,其特征在于,熵损失函数为:
Figure FDA0003535221290000017
其中,
Figure FDA0003535221290000018
表示训练DSGAN模型中的生成器Gi的熵损失函数,
Figure FDA0003535221290000019
表示求期望值,zi表示噪声,其服从分布
Figure FDA00035352212900000110
Figure FDA00035352212900000111
表示当前生成器Gi的输出结果,其服从分布
Figure FDA00035352212900000112
Qi表示基于生成输出结果
Figure FDA00035352212900000113
重建噪声zi的后验概率分布。
5.根据权利要求2所述的基于多层级特征的对抗图像生成方法,其特征在于,条件特征损失函数为:
Figure FDA0003535221290000021
其中,
Figure FDA0003535221290000022
表示训练DSGAN模型中的生成器Gi的条件特征损失函数,
Figure FDA0003535221290000023
表示求期望值,λj表示各层特征的权重系数,下标hi+j表示真实特征表达或图像,其服从分布Pdata,E,下标包含E表示该信息通过编码器E获取;zi表示噪声,其服从分布
Figure FDA0003535221290000024
生成器Gi以多层级的特征表达hc和噪声zi作为输入;f表示距离度量,Ei→i+j表示重建第i+j层特征表达,hc为k层特征hi+1,hi+2,…,hi+k融合后的多层级特征。
6.根据权利要求1至5任一项所述的基于多层级特征的对抗图像生成方法,其特征在于,步骤S2具体包括:先对DSGAN模型中的各个生成器以G0至Gn-1的顺序依次单独进行训练,再对G0~Gn-1进行联合训练,其中n为DSGAN模型的层数。
7.根据权利要求6所述的基于多层级特征的对抗图像生成方法,其特征在于,步骤S2中对DSGAN模型中的各个生成器以G0至Gn-1的顺序依次单独进行训练之前还通过预训练的编码器E中提取各层特征h1~hn-1
8.根据权利要求7所述的基于多层级特征的对抗图像生成方法,其特征在于,其中G0是以h1+…+hn-2+hn-1特征为条件生成最终图像x,G1是以h2+…+hn-2+hn-1特征为条件生成h1特征,以此类推,Gn-2是以hn-1特征为条件生成hn-2特征,Gn-1是以标签信息y为条件生成hn-1特征;将G0~Gn-1进行联合为一个整体记为生成器G,G是以标签信息y为条件生成最终图像x。
9.根据权利要求8所述的基于多层级特征的对抗图像生成方法,其特征在于,在对DSGAN模型中的各个生成器从G0至Gn-1依次单独进行训练时,不同层级的特征h1、…、hn-2、hn-1分别对应于不同大小的特征图,使用转置卷积将待融合的所有特征图缩放到相同的尺寸然后堆叠起来,或者将待融合的所有特征图向量化以连接成一个整体然后变形成期望尺寸大小的稠密特征。
10.根据权利要求8所述的基于多层级特征的对抗图像生成方法,其特征在于,步骤S3具体包括:将标签信息y输入到Gn-1生成hn-1特征,将hn-1特征输入到Gn-2生成hn-2特征,将hn-2+hn-1特征输入到Gn-3生成hn-3特征,以此类推,直至将h1+…+hn-2+hn-1特征输入G0到生成最终图像x。
CN201810541722.6A 2018-05-30 2018-05-30 一种基于多层级特征的对抗图像生成方法 Active CN108765512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810541722.6A CN108765512B (zh) 2018-05-30 2018-05-30 一种基于多层级特征的对抗图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810541722.6A CN108765512B (zh) 2018-05-30 2018-05-30 一种基于多层级特征的对抗图像生成方法

Publications (2)

Publication Number Publication Date
CN108765512A CN108765512A (zh) 2018-11-06
CN108765512B true CN108765512B (zh) 2022-04-12

Family

ID=64004644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810541722.6A Active CN108765512B (zh) 2018-05-30 2018-05-30 一种基于多层级特征的对抗图像生成方法

Country Status (1)

Country Link
CN (1) CN108765512B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903223B (zh) * 2019-01-14 2023-08-25 北京工商大学 一种基于稠密连接网络与生成式对抗网络的图像超分辨率方法
CN109902723A (zh) * 2019-01-31 2019-06-18 北京市商汤科技开发有限公司 图像处理方法及装置
CN110070587B (zh) * 2019-03-05 2023-02-10 浙江工商大学 一种基于条件级联对抗生成网络的行人图像生成方法
CN110390650B (zh) * 2019-07-23 2022-02-11 中南大学 基于密集连接和生成对抗网络的oct图像去噪方法
CN111915545B (zh) * 2020-08-06 2022-07-05 中北大学 一种多波段图像的自监督学习融合方法
CN112967379B (zh) * 2021-03-03 2022-04-22 西北工业大学深圳研究院 一种基于感知一致生成对抗网络的三维医学图像重建方法
CN113592031B (zh) * 2021-08-17 2023-11-28 全球能源互联网研究院有限公司 一种图像分类系统、违章工具识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358626A (zh) * 2017-07-17 2017-11-17 清华大学深圳研究生院 一种利用条件生成对抗网络计算视差的方法
CN107909621A (zh) * 2017-11-16 2018-04-13 深圳市唯特视科技有限公司 一种基于双生成对抗网络的医学图像合成方法
CN107944483A (zh) * 2017-11-17 2018-04-20 西安电子科技大学 基于双通道dcgan和特征融合的多光谱图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358626A (zh) * 2017-07-17 2017-11-17 清华大学深圳研究生院 一种利用条件生成对抗网络计算视差的方法
CN107909621A (zh) * 2017-11-16 2018-04-13 深圳市唯特视科技有限公司 一种基于双生成对抗网络的医学图像合成方法
CN107944483A (zh) * 2017-11-17 2018-04-20 西安电子科技大学 基于双通道dcgan和特征融合的多光谱图像分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Densely Connected Convolutional Networks;Gao Huang等;《arXiv:1608.06993v5 [cs.CV]》;20180128;全文 *
Stacked Generative Adversarial Networks;Xun Huang等;《arXiv:1612.04357v4 [cs.CV]》;20170412;全文 *
Super-Resolution for Overhead Imagery Using DenseNets and Adversarial Learning;Marc Bosch等;《arXiv:1711.10312v1 [cs.CV]》;20171128;全文 *

Also Published As

Publication number Publication date
CN108765512A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108765512B (zh) 一种基于多层级特征的对抗图像生成方法
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
US11928957B2 (en) Audiovisual secondary haptic signal reconstruction method based on cloud-edge collaboration
CN108388900A (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
CN110659727A (zh) 一种基于草图的图像生成方法
CN108959396A (zh) 机器阅读模型训练方法及装置、问答方法及装置
CN113343705B (zh) 一种基于文本语义的细节保持图像生成方法及系统
CN111753207B (zh) 一种基于评论的神经图协同过滤方法
CN109977250A (zh) 融合语义信息和多级相似性的深度哈希图像检索方法
CN113505855B (zh) 一种对抗攻击模型的训练方法
CN117633707B (zh) 一种细粒度多模态中文大语言模型构建方法及计算机存储介质
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN109978074A (zh) 基于深度多任务学习的图像美感和情感联合分类方法及系统
CN112527993A (zh) 一种跨媒体层次化深度视频问答推理框架
CN108304376A (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN114021628A (zh) 基于Transformer模型的制造业多源异构数据融合方法
Yang et al. CLIP-KD: An Empirical Study of Distilling CLIP Models
CN114332565A (zh) 一种基于分布估计的条件生成对抗网络文本生成图像方法
CN118014086A (zh) 数据处理方法、装置、设备、存储介质及产品
CN112052795B (zh) 一种基于多尺度时空特征聚合的视频行为识别方法
CN109697694A (zh) 基于多头注意力机制的高分辨率的图片的生成方法
CN113420179A (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
Zhao et al. Fusion with GCN and SE-ResNeXt network for aspect based multimodal sentiment analysis
CN112802048A (zh) 具有不对称结构的图层生成对抗网络生成方法及装置
CN116541593A (zh) 一种基于超图神经网络的课程推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant