CN114743080A - 图像处理方法及装置、终端、存储介质 - Google Patents
图像处理方法及装置、终端、存储介质 Download PDFInfo
- Publication number
- CN114743080A CN114743080A CN202210430944.7A CN202210430944A CN114743080A CN 114743080 A CN114743080 A CN 114743080A CN 202210430944 A CN202210430944 A CN 202210430944A CN 114743080 A CN114743080 A CN 114743080A
- Authority
- CN
- China
- Prior art keywords
- style
- image
- code
- external
- codes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 96
- 238000012549 training Methods 0.000 claims description 80
- 238000013507 mapping Methods 0.000 claims description 45
- 230000004927 fusion Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 26
- 238000013508 migration Methods 0.000 description 22
- 230000005012 migration Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000013526 transfer learning Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 10
- 230000000750 progressive effect Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000009977 dual effect Effects 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 239000012467 final product Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computer Graphics (AREA)
- Image Processing (AREA)
Abstract
提供了一种图像处理方法及装置、终端、存储介质,其中,该方法包括:获取待融合的风格图像和内容图像;对所述内容图像进行提取,得到所述内容图像的内部中间风格编码;对所述风格图像进行提取,得到所述风格图像的外部中间风格编码;基于所述内容图像的内部中间风格编码和所述风格图像的外部中间风格编码,生成融合图像。
Description
技术领域
本公开涉及图像处理技术领域,涉及但不限定于一种图像处理方法及装置、终端、存储介质。
背景技术
基于样例的图像风格化旨在渲染出的图像的风格与指定的艺术图像样例的风格一致。在日常生产生活中具有诸如头像设计、动漫海报广告制作等广泛的应用。相关技术中,采用图像生成模型渲染风格图像时,该图像生成模型只能学习数据集的总体风格,难以精确模拟数据集中指定样例的艺术人像风格。
发明内容
本公开实施例提供一种图像处理方法及装置、终端、存储介质。
第一方面,本公开实施例提供一种图像生成模型的训练方法,所述图像生成模型包括已训练的第一生成器、待训练的外部风格控制模块;所述第一生成器为在真实样本集合上预训练的且能够基于内部风格编码生成真实图像;
所述方法包括:获取风格样本集合和所述真实样本集合;基于所述真实样本集合对所述外部风格控制模块进行训练,使得所述图像生成模型生成的第一融合图像能够重建所述第一生成器生成的第二融合图像;在对所述外部风格控制模块进行训练完成后,基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行训练,直至满足第一收敛条件。
第二方面,本公开实施例提供一种图像处理方法,所述方法包括:获取待融合的风格图像和内容图像;对所述内容图像进行提取,得到所述内容图像的内部中间风格编码;对所述风格图像进行提取,得到所述风格图像的外部中间风格编码;基于所述内容图像的内部中间风格编码和所述风格图像的外部中间风格编码,生成融合图像。
第三方面,本公开实施例提供一种图像生成模型的训练装置,所述图像生成模型包括已训练的第一生成器、待训练的外部风格控制模块;所述第一生成器为在真实样本集合上预训练的且能够基于内部风格编码生成真实图像;所述装置包括:第一获取模块,用于获取风格样本集合和所述真实样本集合;第一训练模块,用于基于所述真实样本集合对所述外部风格控制模块进行训练,使得所述图像生成模型生成的第一融合图像能够重建所述第一生成器生成的第二融合图像;第二训练模块,用于在对所述外部风格控制模块进行训练完成后,基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行训练,直至满足第一收敛条件。
第四方面,本公开实施例提供一种图像处理装置,所述装置包括:第一获取模块,用于获取待融合的风格图像和内容图像;第一提取模块,用于对所述内容图像进行提取,得到所述内容图像的内部中间风格编码;第二提取模块,用于对所述风格图像进行提取,得到所述风格图像的外部中间风格编码;生成模块,用于基于所述内容图像的内部中间风格编码和所述风格图像的外部中间风格编码,生成融合图像。
第五方面,本公开实施例提供一种计算机设备,包括:存储器和处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述方法中的步骤。
第六方面,本公开实施例提供一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述方法中的步骤。
在本公开实施例提供的图像生成模型的训练方法中,一方面,采用渐进的迁移学习方法来训练图像生成模型,该渐进的迁移学习方法包括两个阶段:首先在第一阶段中,在真实样本数据集合上训练外部风格控制模块,而第一生成器是在真实样本集合上预训练的,这样可以实现在真实样本集合内部的风格迁移;以StyleGAN作为第一生成器为例,采用真实人脸样本集合对外部风格控制模块进行训练,实现在真实人脸数据内部的风格迁移。其次在第二阶段中,采用风格样本集合对图像生成模型特别是外部风格控制模块进行训练,实现外部风格控制模块在人脸数据与风格数据之间的风格迁移。另一方面,该图像生成模型中的第一生成器是预训练的,这样图像生成模型能够在小数据集上迁移学习,生成高清的图像,这样可以有效减少由于学习真实图像和风格图像之间的映射关系,而需要大量的训练数据的问题。
相关技术中,第一生成器例如StyleGAN只能渲染单一领域的整体风格,难以实现渲染指定的样例风格。而通过上述训练方法得到的图像生成模型,通过构建外部风格控制模块引入对外部风格的控制,从而使图像生成模型能够同时控制内部风格和外部风格,更适合处理基于样例的风格化任务。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1A为StyleGAN模型的组成结构示意图;
图1B为本公开实施例提供的一种图像处理方法的流程示意图;
图2A为本公开实施例中步骤S200的实现流程示意图;
图2B为本公开实施例中步骤S210的实现流程示意图;
图2C为本公开实施例中步骤S213的实现流程示意图;
图2D为本公开实施例中步骤S230的实现流程示意图;
图3为本公开实施例中步骤S310的实现流程示意图;
图4为本公开实施例提供的一种图像生成模型的组成结构示意图;
图5为本公开实施例提供的一种图像处理方法的实现流程示意图;
图6A为本公开实施例提供的一种图像处理方法的实现流程示意图;
图6B为本公开实施例提供的一种图像处理方法的实现流程示意图;
图7为本公开实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。以下实施例用于说明本公开,但不用来限制本公开的范围。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
需要指出,本公开实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本公开实施例所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
在对本公开实施例进行说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释。
自适应实例归一化(Adaptive Instance Normalization,AdaIN)层,是一种网络模块。该模块用于将图像特征按通道维度进行归一化,使得每个通道中的图像特征的均值和方差归一化到0和1之间;将归一化后的均值和方差调整为目标风格的均值和方差,从而实现风格的迁移。
隐空间(Latent Code),是隐变量的样本空间。
感知损失(Perceptual Loss)用于评价原图与重建图像的特征图之间的差异。
生成对抗网络的基于样式的生成器结构(A Style-Based GeneratorArchitecture for Generative Adversarial Networks,StyleGAN),是一种基于风格的生成网络,能将随机风格编码映射为人脸图像。StyleGAN可以通过数百张艺术人像图像和数小时的训练时间,将生成网络的生成空间从人脸领域转换到艺术人像领域。
内部风格可以理解为图像的内容风格,例如预训练的StyleGAN的真实人脸风格。
外部风格可以理解为图像的样式和颜色风格,例如由小规模艺术人像数据集构成的艺术人像风格。
人像风格化,是将样本艺术人像风格转化到目标人脸上的过程。在与漫画、动画、海报和广告相关的行业中应用广泛。
内容图像,即在风格化图像过程中提供内容的图像,一般是用户输入的图像,例如真实人脸图像。在后面描述的过程中,采用大写字母I表示内容图像,在不同的上下文下,I可以指代真实人脸图像,对于训练过程而言可以I可以指真实样本。
风格图像可以是以任何对象进行样例风格化的图像,例如人脸、动物、风景等,其中由于人脸风格图像最为广泛,为了便于理解,本公开以下实施例将以人脸风格化进行举例说明,这时风格图像可以理解为艺术人像。后面描述的过程中,采用大写字母S表示风格图像;在不同的上下文下,S可以指代艺术人像,对于训练过程而言可以S可以指风格样本。
基于样例的人脸风格化旨在渲染人脸照片,使其风格与指定的艺术人像样例的风格一致。在日常生产生活中具有诸如头像设计、动漫海报广告制作等广泛的应用。目前行业主流的技术采用图像转换的方法,训练网络学习真实人脸图像I和艺术人像S之间的映射关系,这类方法依赖大量的训练数据且只适用于小尺寸图像,难以满足实际需求。
目前也有技术使用StyleGAN,在小规模艺术人像数据集上迁移学习,达到高清人脸风格化,然而该技术只能学习数据集的一个总体风格,难以精确模拟数据集中指定的艺术人像样例的风格。如何在小规模数据上实现基于样例的高清人脸风格化技术是一个难题。
在介绍本公开实施例之前,先介绍一下StyleGAN模型,如图1A所示,该模型10包括映射网络(Mapping Network)11和生成网络12,其中:
映射网络11可以将输入的内容图像的风格编码或随机采样的风格编码z映射为内部中间风格编码(可以理解为中间向量),并且内部中间风格编码后续会传给生成网络12,作为生成网络12的18个控制向量,使得该控制向量的不同元素能够控制不同的视觉特征。其中,内容图像的风格编码可以是内容图像I经过编码器111编码后得到的。
映射网络11包括8个全连接(FC,Full Connection)层,映射网络11输出的内部中间风格编码与StyleGAN模型的输入的大小相同。一般输入的大小可以是(512×1)或(512×18)大小的,即一个512维度的向量,或者18个512维度的向量。如果输入是一个512维度的向量时,输入层会复制成为18个相同的向量。
生成网络12包括9个从4*4变换到1024*1024的生成模块,即,每个模块对应4*4、8*8、16*16、32*32、64*64、128*128、256*256、512*512和1024*1024变换。而除第一个生成模块和最后一个生成模块外的每个模块都会受两个控制向量(图中仿射变换A的输入)对其施加影响,其中一个控制向量在上采样(Upsample)之后对其影响一次,另外一个控制向量在卷积(Convolution)之后对其影响一次,影响的方式都采用风格调整模块(AdaIN自适应实例归一化层),第一个模块没有上采样操作只有卷积操作,因此,第一个模块只用了一个控制向量;最后一个模块除了上采样操作和卷积操作对应的控制向量外,还包括将特征转换为3通道的图像对应的一个控制向量。因此,内部中间风格编码总共被变换成18个控制向量传给生成网络12。
换个角度来说,第一生成模块包括仿射变换模块、卷积层和风格调整模块,而第一个生成模块没有上采样模块;其他的生成模块包括上采样模块、仿射变换模块、卷积层和风格调整模块。
其中,第一生成模块进行依次风格调整的实现过程如图1A所示:将内部中间风格编码通过一个可学习的仿射变换模块A(可以是一个全连接层)后,经过风格调整模块扩变为缩放因子y_(s,i)与偏差因子y_(b,i),缩放因子与标准化之后的卷积层输出的特征相乘后,再与偏差因子求和,就完成了一次内部中间风格编码影响风格图像的过程。
StyleGAN中层的分辨率越低,所影响的特征就越粗糙,可以将这些特征分为两种类型:1)粗糙的特征—分辨率不高于32*32,对应的分辨率层为1~7层,影响姿势、发型、面部形状等,以及影响面部特征、发型、眼睛的睁开或是闭合等;2)精细的特征—分辨率为64*64到1024*1024,对应的分辨率层为8~18层,影响颜色(眼睛、头发和皮肤)和微观特征。
StyleGAN能够通过有限数据的迁移学习,在生成艺术人像方面表现出较好的性能。然而,该方法只能学习数据集的一个总体风格,难以精确模拟数据集中指定的艺术人像样例的风格。为了便于理解,相比于StyleGAN可以理解为单路风格生成网络,
针对上述问题,本公开实施例先提供一种图像生成模型,相比于StyleGAN,该图像生成模型可以理解为双路风格生成网络(DualStyleGAN),即:在StyleGAN的基础上添加外部风格控制模块,构建该DualStyleGAN,通过渐进的迁移学习方法在小规模数据上学习外部风格,实现基于指定艺术人像样例的人脸风格化。该方法能够灵活的控制原始人脸域和扩展艺术人像域的双重风格。
本公开提供一种图像生成模型的训练方法,该图像生成模型包括已训练的第一生成器、待训练的外部风格控制模块;所述第一生成器为在真实样本集合上预训练的且能够基于内部风格编码生成真实图像。参见图1B,该方法至少包括以下步骤S100、步骤S200和步骤S300,其中:
步骤S100,获取风格样本集合和所述真实样本集合;
其中,所述真实样本集合可以为真实图像数据集合,例如真实人脸数据集合、真实动物数据集合、真实风景数据集合等通过拍摄得到的图像数据集合。采用真实样本集合预训练第一生成器,例如采用真实人脸数据集合可以预训练StyleGAN。
所述风格样本集合可以为艺术图像数据集合,艺术图像数据集合中的艺术图像可以为艺术人像、艺术风景、卡通图像、漫画图像等,例如艺术图像数据集合中的图像可以是经过渲染和/或变形等修饰方式得到的不同形式的图像。
步骤S200,基于所述真实样本集合对所述外部风格控制模块进行训练,使得所述图像生成模型生成的第一融合图像能够重建所述第一生成器生成的第二融合图像;
这里,第一生成器是在真实样本集合上预训练的,步骤S200,在真实样本数据集合上训练外部风格控制模块,实现在真实样本集合内部的风格迁移,以StyleGAN作为第一生成器为例,采用真实人脸样本集合对外部风格控制模块进行训练,实现在人脸数据内部的风格迁移。
基于所述真实样本集合对所述外部风格控制模块进行训练,在训练过程中,对第一生成器和图像生成模型采用相关联的两个输入(两个图像编码z1和z2),那么图像生成模型生成的第一融合图像与第一生成器生成的第二融合图像能够特别相似,足以利用第一融合图像来重建第二融合图像,即可以认为在真实样本集合上对外部风格控制模块训练完成。相关联的两个输入可以是其中有一个输入是相同的,而另一个输入是相关联的。两个图像编码z1和z2是从真实图像编码集合中的随机采样得到的,在真实图像编码集合中的图像编码数量足够大的情况下,两个图像编码z1和z2也可以理解为随机噪声。
步骤S300,在对所述外部风格控制模块进行训练完成后,基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行训练,直至满足第一收敛条件。
在一些实施例中,步骤S300包括步骤S310至步骤S330,其中:
步骤S310,基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行迭代训练,得到所述图像生成模型生成的各风格图像;
步骤S320,基于生成的各风格图像,以及,每一所述风格图像对应的风格样本和内部风格编码,分别确定并对对抗损失、第二重建损失、外部风格损失和内部风格损失进行累加,得到累加和;
其中:所述对抗损失为第一生成器的对抗损失Ladv、所述第二重建损失Ldist为生成的风格图像相对于对应风格样本的损失、所述外部风格损失Lsty为生成的风格图像相对于对应风格样本的损失和所述内部风格损失Lcon为生成的风格图像相对于对应内部风格编码的损失;
这里,步骤S310中,图像生成模型的损失函数(第一损失函数)参见公式(1),包括:StyleGAN的对抗损失Ladv,第二重建损失Ldist,外部风格损失Lsty和内部风格损失(内容损失)Lcon:
Ladv+Ldist(G(zi,ze,1),S)+Lsty(G(z,ze,1),S)+Lcon(G(z,ze,1),g(z)) (1);
其中,z为随机采样的内部风格编码,风格损失Lsty衡量风格转换结果与风格图像S在风格上的一致性,可以采用风格迁移技术中常见的损失函数,例如上下文损失(Contextual Loss)或者特征匹配损失。内容损失Lcon衡量风格转换结果与内容图像g(z)在内容上的一致性,可以采用常见的内容损失函数,例如身份损失或者感知损失。此外,本方法中内容损失可用残差模块的参数的L2正则化实现。
步骤S330,在所述累加和满足所述第一收敛条件的情况下,完成对所述图像生成模型的训练。
在步骤S200训练完成后,外部风格控制模块实现了在人脸数据内部的风格迁移;步骤S300采用风格样本集合对图像生成模型特别是外部风格控制模块进行训练,实现外部风格控制模块在人脸数据与风格数据之间的风格迁移。
相关技术中,第一生成器例如StyleGAN只能渲染单一领域的整体风格,难以渲染指定的样例风格。本公开实施例中,外部风格控制模块要在风格样本集合训练,而第一生成器是在真实样本集合上预训练的,由于图像生成模型中添加的外部风格控制模块会改变第一生成器的生成空间,难以应用迁移学习的微调策略,所以,本公开实施例采用渐进的迁移学习方法来训练图像生成模型。训练完成的图像生成模型,通过构建外部风格控制模块引入对外部风格的控制,从而使图像生成模型能够同时控制内部风格和外部风格,更适合处理基于样例的风格化任务。
上述步骤S200,所述基于所述真实样本集合对所述外部风格控制模块进行训练,使得所述图像生成模型生成的第一融合图像能够重建所述第一生成器的第二融合图像,如图2A所示,包括步骤S210、步骤S230、步骤S250和步骤S270,其中:
步骤S210,利用所述第一生成器,基于所述真实样本集合生成各第二融合图像;
在实现的过程中,如图2B所示,步骤S210包括步骤S211至步骤S213,其中:步骤S211,分别确定所述真实样本集合中各真实样本的图像编码,得到真实图像编码集合;在实现的过程中,可以将真实样本的图像编码可以为图像特征向量、图像特征矩阵,该图像编码可以为至少一个M维向量例如512维度或1024维度的向量。步骤S212,从所述真实图像编码集合中获取各对真实图像编码;实现时,可以对所述真实图像编码集合中各真实图像编码进行组合,得到至少一对真实图像编码,其中每一对真实图像编码可以记为第一真实图像编码z1和第二真实图像编码z2。步骤S213,利用所述第一生成器,基于各对所述真实图像编码生成对应的各第二融合图像。在实现时,基于第一真实图像编码z1和第二真实图像编码z2生成利用第一生成器生成第二融合图像,记为
步骤S230,利用所述图像生成模型,基于所述真实样本集合生成各第一融合图像;
其中,所述第一融合图像与所述第二融合图像基于所述真实样本集合中相同的一对真实图像编码,即第一真实图像编码z1和第二真实图像编码z2。在步骤S210包括步骤S211至步骤S213的情况下,步骤S230包括:利用所述图像生成模型,基于各对所述真实图像编码生成对应的各第一融合图像,记为G(z1,E(g(z2)),1)。
在步骤执行上,步骤S210与步骤S230之间没有严格的先后顺序,实施时步骤S210与步骤S230执行在步骤S250之前即可。
步骤S270,基于所述第一重建损失对所述外部风格控制模块进行迭代训练,直至满足第二收敛条件。
以StyleGAN为例进行说明,对所述外部风格控制模块进行迭代训练的损失函数(第二损失函数)参见公式(2),该第二损失函数包括StyleGAN的对抗损失Ladv和第一重建损失Ldist:
其中,外部风格编码E(g(z2))是将z2输入StyleGAN得到g(z2),然后采用编码器E对g(z2)进行编码后得到的。
在一些实施例中,所述第一生成器包括第一映射网络和生成网络;步骤S213,利用所述第一生成器,基于各对所述真实图像编码生成对应的各第二融合图像,如图2C所示,包括步骤S2131a至步骤S2133a,其中:
步骤S2131a,基于所述第一映射网络分别获取每一对所述真实图像编码中各真实图像编码的中间风格编码;
其中,每一所述中间风格编码包括N个元素特征序列;N个元素特征序列可以为N个具有M维的向量,其中,所述N为大于等于2的整数,M的取值为2的i次方,i为大于等于1的自然数;例如18个512维度的向量(第一生成器为StyleGAN时),或者18个1024维度的向量。
步骤S2132a,针对每一对所述真实图像编码,分别从两中间风格编码中提取出前k个元素特征和后(N-k)个元素特征进行融合,得到融合后的中间风格编码;
其中,k为大于等于1且小于N的整数;假设每一对所述真实图像编码包括第一真实图像编码z1和第二真实图像编码z2,对z1提取前k个元素特征,对z2提取后(N-k)个元素特征。
步骤S2133a,利用所述生成网络,基于每一所述融合后的中间风格编码生成对应的第二融合图像。
以StyleGAN为例进行说明,首先,利用StyleGAN的风格交换技术生成数据集,随机选取一对图像编码,例如采样两个图像编码z1和z2,经过第一映射网络后分别得到18个中间风格编码和提取的前k个中间风格编码和提取的后(18-k)个中间风格编码,组成风格编码经过生成网络得到风格融合的图像即为第二融合图像。
在另一些实施例中,步骤S213,利用所述第一生成器,基于各对所述真实图像编码生成对应的各第二融合图像,包括步骤S1231b至步骤S2133b,其中:
步骤S2131b,针对每一对所述真实图像编码,分别重复k次和(N-k)次。例如,对每一对所述真实图像编码中的z1和z2,分别重复k次和(18-k)次。
步骤S2133b,利用所述第一生成器,基于每一所述融合后的真实图像编码生成对应的第二融合图像。
以StyleGAN为例进行说明,首先利用StyleGAN的风格交换技术生成数据集,在人脸数据内部训练双路风格生成网络实现风格迁移。随机采样两个风格编码z1和z2,分别重复k次和(18-k)次串联成包含18个风格编码的融合风格编码经过StyleGAN得到风格融合的图像即为第二融合图像。
在步骤S213包括步骤S2131a至步骤S2133a的情况下,或者,包括步骤S2131b至步骤S2133b的情况下,如图2D所示,步骤S230,所述利用所述图像生成模型,基于各对所述真实图像编码生成对应的各第一融合图像,包括步骤S231和步骤S233,其中:
步骤S231,利用所述第一生成器基于每一对所述真实图像编码对中第二真实图像编码,生成对应的真实图像;
其中,每一对所述真实图像编码包括第一真实图像编码和第二真实图像编码,其中,所述第一真实图像编码为提取出前k个元素特征对应的真实图像编码;所述第二真实图像编码为提取出后(N-k)个元素特征对应的真实图像编码。
步骤S232,针对每一对所述真实图像编码,采用编码器对每一生成的真实图像进行编码,得到对应的外部风格编码;
步骤S233,利用待训练的图像生成模型,基于每一对所述真实图像编码对中第一真实图像编码和对应的外部风格编码,生成对应的第一融合图像。
在一些实施例中,所述方法还包括:在所述第一生成器为StyleGAN的情况下,设置k的取值依次为7、6、5;针对所述k的每一取值,基于所述第一映射网络获得所述中间风格编码,获得融合后的中间风格编码,以及基于所述生成网络获得第二融合图像。随着训练双路风格生成网络的进行将k从7逐渐降到5,使外部风格控制模块逐渐学到结构风格特征。实现时,每个batch里的k都是一样的,训练一段时间后统一修改k的值。
在一些实施例中,如图3所示,步骤S310,所述基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行迭代训练,得到所述图像生成模型生成的各风格图像,包括步骤S311至步骤S313,其中:
步骤S311,确定各风格样本的外部风格编码和内部风格编码;
在一些实施例中,步骤S311包括步骤S3111和步骤S3112,其中:步骤S3111,采用编码器分别对各所述风格样本进行编码,得到对应风格样本的外部风格编码;步骤S3112,分别对各所述风格样本进行去风格化后,得到各风格样本的内部风格编码。
在实现时,步骤S3112,包括步骤a至步骤c:步骤a,确定各所述风格样本在优化后的风格编码,所述优化后的风格编码通过已训练的第二生成器能够重建对应的风格样本;步骤b,采用已训练的第一生成器分别对各所述优化后的风格编码进行重建,得到重建后的风格样本;其中,所述第一生成器和所述第二生成器分别是在真实图像数据集和风格图像数据集上训练得到的;步骤c,采用所述编码器对各所述重建后的风格样本进行编码,得到对应风格样本的内部风格编码。
在一些实施例中,该方法还包括:获取在真实样本集合上预训练的第一生成器g;在风格样本集合上,训练所述第一生成器,得到第二生成器g’;在实施的过程中,通过微调(Fine Tune)第一生成器,得到第二生成器g’。本公开实施例中的g可以为整个StyleGAN(包括映射网络和生成网络),而非单指生成网络。
举例来说,假设风格样本采用S表示,则风格样本S的外部风格编码可以采用ze表示,风格样本S的内部风格编码可以采用zi表示,对每张风格样本S,那么采用编码器E对风格样本进行编码,可以得到外部风格编码ze=E(S);然后,采用基于优化的方法参见公式(3)更新该风格编码ze,使之通过g’后能重建S:
z′=argminzLdist(g′(z),S) (3);
其中Ldist(x,y)衡量两张图像x和y之间的相似程度,可以采用常见的损失函数,如L1距离,感知损失等;最后,将重建后的图像g(z’)再次使用编码器E编码,得到S去风格化后的风格编码zi=E(g(z’))。这样,zi和ze构成了艺术图像S的内部风格编码和外部风格编码。
步骤S312,以每一所述风格样本的内部风格编码和外部风格编码分别作为所述第一生成器和所述外部风格控制模块的输入,获取所述图像生成模型生成的第一目标风格图像;
步骤S313,以所述随机采样的内部风格编码和所述每一所述风格样本的外部风格编码分别作为所述第一生成器和所述外部风格控制模块的输入,获取所述图像生成模型生成的第二目标风格图像。
在一些实施例中,步骤S320,所述基于生成的各风格图像,以及,每一所述风格图像对应的风格样本和内部风格编码,分别确定第二重建损失、外部风格损失和内部风格损失,包括步骤S321至步骤S323,其中:
步骤S321,基于各所述第一目标风格图像和对应的风格样本,确定所述第二重建损失;步骤S322,基于各所述第二目标风格图像和对应的风格样本,确定所述外部风格损失;步骤S323,基于各所述第二目标风格图像和对应的随机真实图像,确定所述内部风格损失;其中,所述随机真实图像为所述第一生成器基于所述随机采样的内部风格编码生成的。
本公开实施例提供一种图像生成模型,相比于StyleGAN,该图像生成模型可以理解为双路风格生成网络(DualStyleGAN),即:在StyleGAN的基础上添加外部风格控制模块,构建该DualStyleGAN,通过渐进的迁移学习方法在小规模数据上学习外部风格,实现基于指定艺术人像样例的人脸风格化。该方法能够灵活的控制原始人脸域和扩展艺术人像域的双重风格。
该图像生成模型的组成结构,参见图4,图像生成模型包括内部风格控制模块110、生成网络120和外部风格控制模块130,其中:
所述内部风格控制模块110包括第一输入编码器111和第一映射网络112,其中:所述第一输入编码器111,用于对真实人脸图像I进行编码,得到内部风格编码;所述第一映射网络112,用于对内部风格编码进行映射,得到内部中间风格编码;
所述生成网络120,用于基于内部中间风格编码,生成高分辨率图像;
所述外部风格控制模块130包括第二输入编码器131和第二映射网络132,其中:所述第二输入编码器131,用于对风格图像S进行编码,得到外部风格编码;所述第二映射网络132,用于对外部风格编码进行映射,得到外部中间风格编码。
在一种可以实现的方式中,所述内部风格控制模块110和生成网络120组成StyleGAN,并在迁移学习期间保持固定。
继续参见图4,所述外部风格控制模块包括与所述第一映射网络112结构相同的第二映射网络132、外部结构风格控制模块(Ts)133、残差模块(ModRes)134和外部颜色风格控制模块(Tc)135;在对图像生成模型进行最后的训练过程中,各模块的作用如下:
所述第一映射网络112,分别基于各所述风格样本的内部风格编码z,对应获取各所述风格样本的内部中间风格编码,以及基于所述随机采样的内部风格编码z对应获取随机采样的内部中间风格编码;
所述第二映射网络132,分别获取各所述外部风格编码的外部中间风格编码;每一所述外部中间风格编码包括N个元素特征序列;
所述外部结构风格控制模块133,基于所述各风格样本的外部中间风格编码中的一部分,确定所述各风格样本的结构风格编码;
所述外部颜色风格控制模块135,基于所述各风格样本的外部中间风格编码的另一部分提取所述各风格样本的颜色风格编码;
所述残差模块134,基于所述各风格样本的结构风格编码对所述生成网络生成的目标图像进行结构风格调整;
所述生成网络120,基于所述各风格样本的结构风格编码和所述颜色风格编码,以及所述各风格样本的内部中间风格编码,生成第一目标风格图像;以及基于所述各风格样本的结构风格编码和所述颜色风格编码,以及所述随机采样的内部中间风格编码,生成第二目标风格图像。
在图4中,外部结构风格控制模块(Ts)133、残差模块134和外部颜色风格控制模块(Tc)135可以是图像生成模型的训练部分;每一生成模块中的卷积层和仿射变换模块,第一映射网络112和第二映射网络132中的全连接层、以及第一输入编码器111、和第二输入编码器131可以是图像生成模型的固定部分,每一生成模块中的风格调整模块和上采样模块可以是图像生成模型的运算操作模块。
本公开实施例,将StyleGAN作为第一生成器为例进行说明。针对现有的人脸风格化方法难以在小规模数据上,实现基于样例的高清人脸风格化的问题,本公开实施例提出了基于双路风格的人像风格化方法,在StyleGAN的基础上添加外部风格控制模块,构建全新的双路风格生成网络DualStyleGAN,通过渐进的迁移学习方法在小规模数据上学习外部风格,实现基于样例的高清人脸风格化。训练双路风格生成网络是由于添加外部风格控制模块会改变StyleGAN预训练的生成空间,难以应用迁移学习的微调策略,所以,需要采用渐进的迁移学习方法训练网络。
本公开实施例提供的图像处理方法,一方面,提出一种DualStyleGAN网络模型,包括内部风格通路和外部风格通路;通过内部风格通路表征人像的内容;通过外部风格通路表征人像的艺术风格;其中,DualStyleGAN的外部风格通路使该网络模型能够分层调整艺术人像的内容和风格,以精确地模仿样本的风格。另一方面,提出一种渐进式迁移学习方法,通过该迁移学习方法能够平滑地将所述网络模型的生成空间转换到目标域。
本公开实施例提供的图像处理方法包括两个阶段:
第一阶段,对风格数据集去风格化,获得人脸-风格的成组训练数据。
第二阶段,搭建和训练双路风格生成网络,采用渐进的迁移学习方法,依次通过初始化、人脸数据内部的风格迁移、以及人脸与风格数据之间的风格迁移三个步骤,学习小规模风格数据集的风格特征,实现自然准确的人脸风格化。
下面介绍第一阶段,对风格数据集去风格化;该第一阶段包括步骤1.1和步骤1.2,其中:
步骤1.1,StyleGAN迁移学习和StyleGAN编码器训练:
首先,获取在真实人脸数据集上预训练的StyleGAN(可以理解为第一生成器)g;在艺术人像数据集上,微调StyleGAN g,得到微调后的模型(可以理解为第二生成器)g’;即,在艺术人像数据集上,微调在真实人脸数据集上预训练的StyleGAN g,得到微调后的模型g’。然后,训练一个StyleGAN编码器E将人脸图像映射为StyleGAN的风格编码,该风格编码经过StyleGAN g能重建输入的人脸图像。
步骤1.2,艺术人像去风格化:人脸去风格化旨在从艺术人像中恢复逼真的面孔,以形成人脸-风格的成组数据,并用该数据进行监督。
首先,对每张艺术人像S,获得S外部风格编码ze=E(S);
然后,采用基于优化的方法参见公式(3)更新该风格编码z,使之通过g’后能重建S:
z′=argminzLdist(g′(z),S) (3);
其中,z的初始值是ze,优化损失函数将变量z从ze更新为z’,Ldist(x,y)衡量两张图像x和y之间的相似程度,可以采用常见的损失函数如L1距离,感知损失等。
其中,z’=arg min_z(f(z))是数学的描述方式,表示优化变量z(随机采样的风格编码z也可以理解为一个变量),最终优化的结果是z’,f(z’)是使f(z)最小的那个z。基于优化的方法是通过损失函数更新网络的输入z而不是更新网络本身。这一步骤是的目的是:获得能够重建S的风格编码z′;重建的S可以定义为S’,而S’=g’(z’)。
最后,将重建后的图像g(z’)再次使用编码器E编码,得到S去风格化后的风格编码zi=E(g(z’))。这里,zi和ze构成了艺术图像S的内部风格编码和外部风格编码。
第二部分,搭建和训练双路风格生成网络:该第二部分包括步骤2.1和步骤2.2,其中:
步骤2.1,搭建双路风格生成网络:对于18层的StyleGAN,如图4所示,搭建右侧的外部风格控制模块130,组成双路风格生成网络DualStyleGAN G。
首先,艺术人像S经过编码器E得到外部风格编码ze,再经过映射网络得到18个外部中间风格编码。其中,映射网络是一个多层感知机,输入18个512维度的向量,输出18个512维度的向量,即18个长度为512的风格编码。
步骤2.1.1,外部结构风格控制;
18个中的前7个外部中间风格编码经过线性层Ts 133,编码为外部结构风格编码。其中,外部结构风格编码调整人脸的结构以匹配艺术人像,例如大眼睛,大嘴巴。StyleGAN的前7个卷积层的特征经过调整残差模块134,得到残差特征,将残差特征乘以权重wi(i<8)之后加到特征之上,完成人脸结构的调整。
其中,残差模块包括两个卷积层和两个自适应层实例归一化层(AdaIN,图上的风格调整模块),外部结构风格编码在AdaIN内部经过线性层得到结构风格的调整参数用于特征的结构风格控制。残差模块的输入是两部分:卷积层输出的特征和外部结构风格编码,前7个外部中间风格编码与前7个卷积层是一一对应的关系,其中,第一个4*4生成模块包括一个卷积层,最后一个1024*1024生成模块包括3个卷积层,中间的7个生成模块各自包括2个卷积层。
步骤2.1.2,外部颜色风格控制:
首先,18个中的后11个外部中间风格编码经过线性层Tc 135,编码为外部颜色风格编码,然后与StyleGAN的内部风格控制模块110得到的内部中间风格编码以wi(i>7)加权相加后,输入到StyleGAN的风格调整模块,实现特征的颜色风格控制。
因此,DualStyleGAN根据描述人脸特征的内部风格编码zi和描述艺术风格的外部风格编码ze生成艺术人像,并通过调整不同层的权重wi控制不同尺度的风格,形式化表示为G(zi,ze,w)。其中,G(zi,ze,w)表示DualStyleGAN输出的图像,例如设置权重wi=0(i>7)可以保留内部颜色风格;设置wi<1可以降低外部风格的程度,保留人脸的外貌特征。小写w表示权重,例如wi,而大写W并且上方带尖括号的表示中间风格编码(可以理解为中间向量)。
步骤2.2,训练双路风格生成网络:添加外部风格控制模块会改变StyleGAN预训练的生成空间,难以应用迁移学习的微调策略。为此,采用渐进的迁移学习方法,包含三个步骤:
步骤2.2.1,外部风格控制模块的初始化;
初始化残差模块中卷积层的卷积核为接近0的随机值,初始化线性层Tc的参数矩阵为单位矩阵。上述初始化使得残差特征数值接近0,且外部中间风格编码经过Tc后保持不变,从而保持结构几乎不变,使添加了外部风格控制模块的StyleGAN仍然保持了原本的生成空间。
步骤2.2.2,人脸数据内部的风格迁移:利用StyleGAN的风格交换技术生成数据集,在人脸数据内部训练双路风格生成网络实现风格迁移。
首先,利用StyleGAN的风格交换技术生成数据集,随机采样两个风格编码z1和z2,经过映射网络后分别得到18个中间风格编码和取的前k个中间风格编码和的后(18-k)个中间风格编码组成风格编码经过生成网络得到风格融合的图像
这里的损失函数参见,包括StyleGAN的对抗损失Ladv和重建损失Ldist;
其中,只训练双路风格生成网络的外部风格控制模块,其他模块保持不变,权重w设置为全1。其中,外部风格编码E(g(z2))是将z2输入StyleGAN得到g(z2),然后采用编码器E对g(z2)进行编码后得到的。
在另一些实施例中,步骤2.2.2还可以采用下面的方式来实现:首先利用StyleGAN的风格交换技术生成数据集,在人脸数据内部训练双路风格生成网络实现风格迁移。随机采样两个风格编码z1和z2,分别重复k次和(18-k)次串联成包含18个风格编码的融合风格编码经过StyleGAN得到风格融合的图像然后,训练双路风格生成网络根据内部风格编码z1和外部风格编码E(g(z2))重建随着训练的进行将k从7逐渐降到5,使外部风格控制模块逐渐学到结构风格特征。
这里的损失函数,参见公式(4)包括StyleGAN的对抗损失Ladv和第三重建损失Ldist:
其中,只训练双路风格生成网络的外部风格控制模块,其他模块保持不变,权重w设置为全1。
步骤2.2.3,人脸与风格数据之间的风格迁移:
根据步骤1.2中得到的成对的训练数据(zi,ze,S)作为监督,训练双路风格生成网络实现人脸风格化,其中,参见公式(1),损失函数包括StyleGAN的对抗损失Ladv,重建损失Ldist,风格损失Lsty和内容损失Lcon:
Ladv+Ldist(G(zi,ze,1),S)+Lsty(G(z,ze,1),S)+Lcon(G(z,ze,1),g(z)) (1)
其中,z为随机采样的内部风格编码,风格损失Lsty衡量风格转换结果与风格图像S在风格上的一致性,可以采用风格迁移技术中常见的损失函数,例如contextual损失或者特征匹配损失。内容损失Lcon衡量风格转换结果与内容图像g(z)在内容上的一致性,可以采用常见的内容损失函数,例如身份损失或者感知损失。此外,本方法中内容损失可用残差模块的参数的L2正则化实现。
图4所示的图像生成模型中,z表示随机噪声,即随机采样的图像编码,在实现时如前所述,图像编码可以是18个512维度的向量,由于是随机采样的,数学上可以看成是随机噪声z。图像生成模型中,左侧的内部风格编码可以是内容图像经过第一输入编码器编码后得到的,也可以是随机噪声。类似地,右侧的外部风格编码可以是风格图像S经过第二输入编码器编码后得到的,还可以是随机噪声z经过采样网络Nc后得到的。
在另一些实施例中,如图4所示,该图像生成模型还可以包括采样网络Nc,那么图像生成模型的训练部分还包括采样网络Nc。在实施时,图像生成模型的训练方法还包括:训练采样网络Nc,学习建模外部风格编码的分布,将随机噪声z映射为外部风格编码,这样训练后的采样网络Nc,用于将随机噪声z映射为外部风格编码,此时,经过采样网络Nc输出的外部风格编码可以记为Nc(z)。双路风格生成网络的输入为z1和z2,其中,z2经过采样网络Nc后得到Nc(z2),那么双路风格生成网络生成的随机艺术人像,可以记为G(z1,Nc(z2),w)。
本公开实施例中,一方面,网络框架能够在小数据集上迁移学习,生成高清的图像,因而可以有效减少训练网络时由于学习真实人脸图像I和艺术人像S之间的映射关系,二需要大量的训练数据且只适用于小尺寸的图像的问题。另一方面,通过构建外部风格控制模块引入对外部风格的控制,从而使双路风格生成网络能够同时控制内部风格和外部风格,更适合处理基于样例的人脸风格化任务,这样避免了StyleGAN只能渲染单一领域的整体风格,难以渲染指定的样例风格的问题。再一方面,渐进迁移学习方法通过有针对性的网络初始化、领域内训练和领域间训练,鲁棒地引导双路风格生成网络学习艺术人像的图像分布,可以避免了迁移学习技术在目标数据集上微调StyleGAN,不适用于改变了网络架构的双路风格生成网络的问题。
本公开实施例再提供一种图像处理方法,如图5所示,该方法包括:
步骤S501,获取待融合的风格图像和内容图像;
该方法在实现时可以是计算机可执行程序,在用户端体现为一客户端,当用户选择两张图像作为待融合的风格图像和内容图像,例如用户从相册中选择两张图像,客户端接收用户的选择图像的操作,即客户端将选择的两张图像确定待融合的风格图像和内容图像。或者,用户选择一张内容图像,而用户不需要选择风格图像,例如用户可以选择风格样式,例如印象派风格,那么设备可以从本地或服务器上获取一张梵高风格的图像。
步骤S502,对所述内容图像进行提取,得到所述内容图像的内部中间风格编码;
在实施时,所述对所述内容图像进行提取,得到所述内容图像的外部中间风格编码,包括:可以采用编码器提取所述内容图像的外部风格编码;采用映射网络对所述内容图像的外部风格编码进行提取,得到所述内容图像的外部中间风格编码。
步骤S503,对所述风格图像进行提取,得到所述风格图像的外部中间风格编码;
在实施时,所述对所述风格图像进行提取,得到所述风格图像的外部中间风格编码,包括:可以采用编码器提取所述风格图像的外部风格编码;可以采用映射网络对所述风格图像的外部风格编码进行提取,得到所述风格图像的外部中间风格编码。
在图4中,映射网络的输入是图像的风格编码;在实施的过程中,用户输入内容图像I和风格图像S后,编码器分别对内容图像I和风格图像S进行编码,得到内容图像I的风格编码和风格图像S的风格编码,然后映射网络再分别将二者转换为内容图像I的内部中间风格编码和风格图像S的外部中间风格编码。
步骤S504,基于所述内容图像的内部中间风格编码和所述风格图像的外部中间风格编码,生成融合图像。
在一些实施例中,所述基于所述内容图像的内部中间风格编码和所述风格图像的外部中间风格编码,生成融合图像,包括:基于所述风格图像的外部中间风格编码中的一部分,确定所述风格图像的结构风格编码;基于所述风格图像的外部中间风格编码的另一部分,提取所述风格图像的颜色风格编码;基于所述风格图像的结构风格编码和所述颜色风格编码,以及所述内容图像的内部中间风格编码,生成所述融合图像。
在一些实施例中,每一所述外部中间风格编码包括N个元素特征序列;
所述基于所述风格图像的外部中间风格编码中的一部分,确定所述风格图像的结构风格编码,包括:基于所述风格图像的外部中间风格编码中的前k个元素特征,确定所述风格图像的结构风格编码;
所述基于所述风格图像的外部中间风格编码的另一部分,提取所述风格图像的颜色风格编码,包括:基于所述风格图像的外部中间风格编码的后(N-k)个元素特征,提取所述风格图像的颜色风格编码。
本公开实施例提供的方法包括多种用户使用场景:1)为用户定制艺术头像:通过该技术建立人像与卡通/漫画/讽刺画等艺术人像之间的映射关系,支持用户以自己的照片为基础生成各种风格的创意头像,支持在线会议的艺术化人脸渲染。2)艺术人像数据生成:该技术可以用于生成随机的艺术人像,生成的图像数据可用于头像设计、动漫海报广告等平面产品制作,也可用于后继的深度学习和分析。
基于前述的实施例,本公开实施例提供一种图像生成模型的训练装置,该装置包括所包括的各模块,各模块包括各单元,以及各单元所包括的各子单元,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
其中,所述图像生成模型包括已训练的第一生成器、待训练的外部风格控制模块;所述第一生成器为在真实样本集合上预训练的且能够基于内部风格编码生成真实图像;如图6A所示,所述装置610包括:
第一获取模块611,用于获取风格样本集合和所述真实样本集合;
第一训练模块612,用于基于所述真实样本集合对所述外部风格控制模块进行训练,使得所述图像生成模型生成的第一融合图像能够重建所述第一生成器生成的第二融合图像;
第二训练模块613,用于在对所述外部风格控制模块进行训练完成后,基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行训练,直至满足第一收敛条件。
在一些实施例中,所述第一训练模块,包括:第一生成单元,用于利用所述第一生成器,基于所述真实样本集合生成各第二融合图像;第二生成单元,用于利用所述图像生成模型,基于所述真实样本集合生成各第一融合图像;其中,所述第一融合图像与所述第二融合图像基于所述真实样本集合中相同的一对真实图像编码;第一确定单元,用于确定各所述第一融合图像与对应的所述第二融合图像之间的第一重建损失;第一训练单元,用于基于所述第一重建损失对所述外部风格控制模块进行迭代训练,直至满足第二收敛条件。
在一些实施例中,所述利第一生成单元,包括:第一确定子单元,用于分别确定所述真实样本集合中各真实样本的图像编码,得到真实图像编码集合;第一获取子单元,用于从所述真实图像编码集合中获取各对真实图像编码;第一生成子单元,用于利用所述第一生成器,基于各对所述真实图像编码生成对应的各第二融合图像;对应地,所述第二生成单元,用于利用所述图像生成模型,基于各对所述真实图像编码生成对应的各第一融合图像。
在一些实施例中,所述第一生成器包括第一映射网络和生成网络;所述第一生成子单元,用于:基于所述第一映射网络分别获取每一对所述真实图像编码中各真实图像编码的中间风格编码;每一所述中间风格编码包括N个元素特征序列;其中,所述N为大于等于2的整数;针对每一对所述真实图像编码,分别从两中间风格编码中提取出前k个元素特征和后(N-k)个元素特征进行融合,得到融合后的中间风格编码;k为大于等于1且小于N的整数;利用所述生成网络,基于每一所述融合后的中间风格编码生成对应的第二融合图像。
在一些实施例中,所述装置还包括:设置模块,用于在所述第一生成器为StyleGAN的情况下,设置k的取值依次为7、6、5;针对所述k的每一取值,利用第一生成子单元实现:基于所述第一映射网络获得所述中间风格编码,获得融合后的中间风格编码,以及基于所述生成网络获得第二融合图像。
在一些实施例中,所述第二生成单元,包括:第二生成子单元,用于利用所述第一生成器基于每一对所述真实图像编码对中第二真实图像编码,生成对应的真实图像;其中,所述第二真实图像编码为提取出后(N-k)个元素特征对应的真实图像编码;编码子单元,用于针对每一对所述真实图像编码,采用编码器对每一生成的真实图像进行编码,得到对应的外部风格编码;第三生成子单元,用于利用待训练的图像生成模型,基于每一对所述真实图像编码对中第一真实图像编码和对应的外部风格编码,生成对应的第一融合图像;其中,所述第一真实图像编码为提取出前k个元素特征对应的真实图像编码。
在一些实施例中,所述第二训练模块,包括:第一训练单元,用于基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行迭代训练,得到所述图像生成模型生成的各风格图像;第二确定单元,用于基于生成的各风格图像,以及,每一所述风格图像对应的风格样本和内部风格编码,分别确定并对对抗损失、第二重建损失、外部风格损失和内部风格损失进行累加,得到累加和;其中:所述对抗损失为第一生成器的对抗损失、所述第二重建损失为生成的风格图像相对于对应风格样本的损失、所述外部风格损失为生成的风格图像相对于对应风格样本的损失和所述内部风格损失为生成的风格图像相对于对应内部风格编码的损失;第三确定单元,用于在所述累加和满足所述第一收敛条件的情况下,确定完成对所述图像生成模型的训练。
在一些实施例中,所述第一训练单元,包括:第二确定子单元,用于确定各风格样本的外部风格编码和内部风格编码;第二获取子单元,用于以每一所述风格样本的内部风格编码和外部风格编码分别作为所述第一生成器和所述外部风格控制模块的输入,获取所述图像生成模型生成的第一目标风格图像;以所述随机采样的内部风格编码和所述每一所述风格样本的外部风格编码分别作为所述第一生成器和所述外部风格控制模块的输入,获取所述图像生成模型生成的第二目标风格图像;
所述第二确定单元,包括:第三确定子单元,用于基于各所述第一目标风格图像和对应的风格样本,确定所述第二重建损失;第四确定子单元,用于基于各所述第二目标风格图像和对应的风格样本,确定所述外部风格损失;第五确定子单元,用于基于各所述第二目标风格图像和对应的随机真实图像,确定所述内部风格损失;其中,所述随机真实图像为所述第一生成器基于所述随机采样的内部风格编码生成的。
在一些实施例中,所述第二确定子单元,用于:采用编码器分别对各所述风格样本进行编码,得到对应风格样本的外部风格编码;分别对各所述风格样本进行去风格化后,得到各风格样本的内部风格编码。
在一些实施例中,所述外部风格控制模块包括与所述第一映射网络结构相同的第二映射网络、外部结构风格控制模块、外部颜色风格控制模块和残差模块;所述获取子单元,用于利用所述第一映射网络,分别基于各所述风格样本的内部风格编码,对应获取各所述风格样本的内部中间风格编码,以及基于所述随机采样的内部风格编码对应获取随机采样的内部中间风格编码;利用所述第二映射网络,分别获取各所述外部风格编码的外部中间风格编码;每一所述外部中间风格编码包括N个元素特征序列;利用所述外部结构风格控制模块,基于所述各风格样本的外部中间风格编码中的一部分,确定所述各风格样本的结构风格编码;利用所述外部颜色风格控制模块,基于所述各风格样本的外部中间风格编码的另一部分提取所述各风格样本的颜色风格编码;利用所述残差模块,基于所述各风格样本的结构风格编码对所述生成网络生成的目标图像进行结构风格调整;利用所述生成网络,基于所述各风格样本的结构风格编码和所述颜色风格编码,以及所述各风格样本的内部中间风格编码,生成第一目标风格图像;以及基于所述各风格样本的结构风格编码和所述颜色风格编码,以及所述随机采样的内部中间风格编码,生成第二目标风格图像。
基于前述的实施例,本公开实施例提供一种图像处理装置,该装置包括所包括的各模块,各模块包括各单元,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。
图6B为本公开实施例提供的一种图像处理装置的组成结构示意图,如图6B所示,所述装置620包括:
第一获取模块621,用于获取待融合的风格图像和内容图像;
第一提取模块622,用于对所述内容图像进行提取,得到所述内容图像的内部中间风格编码;
第二提取模块623,用于对所述风格图像进行提取,得到所述风格图像的外部中间风格编码;
生成模块624,用于基于所述内容图像的内部中间风格编码和所述风格图像的外部中间风格编码,生成融合图像。
在一些实施例中,所述生成模块,包括:第四确定单元,用于基于所述风格图像的外部中间风格编码中的一部分,确定所述风格图像的结构风格编码;第五确定单元,用于基于所述风格图像的外部中间风格编码的另一部分,提取所述风格图像的颜色风格编码;第三生成单元,用于基于所述风格图像的结构风格编码和所述颜色风格编码,以及所述内容图像的内部中间风格编码,生成所述融合图像。
在一些实施例中,每一所述外部中间风格编码包括N个元素特征序列;所述第四确定单元,用于基于所述风格图像的外部中间风格编码中的前k个元素特征,确定所述风格图像的结构风格编码;所述第五确定单元,用于基于所述风格图像的外部中间风格编码的后(N-k)个元素特征,提取所述风格图像的颜色风格编码。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开装置实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
需要说明的是,本公开实施例中,如果以软件功能模块的形式实现上述的方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备执行本公开各个实施例方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本公开实施例不限制于任何目标的硬件和软件结合。
图7为本公开实施例提供的一种计算机设备的硬件实体示意图,如图7所示,该检测游戏桌上游戏币的设备700的硬件实体包括:处理器701和存储器702,其中,存储器702存储有可在处理器701上运行的计算机程序,处理器701执行程序时实现上述任一实施例的方法中的步骤。在一些实施方式中,游戏桌上收赔游戏币的设备700可以是上述任一实施例中所说明的检测设备。
存储器702存储有可在处理器上运行的计算机程序,存储器702配置为存储由处理器701可执行的指令和应用,还可以缓存待处理器701以及检测游戏桌上游戏币的设备700中各模块待处理或已经处理的数据(例如,图像数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
处理器701执行程序时实现上述任一项的方法的步骤。处理器701通常控制检测游戏桌上游戏币的设备700的总体操作。
本公开实施例提供一种计算机存储介质,计算机存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一实施例的方法的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开存储介质和设备实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
上述处理器可以为目标用途集成电路(Application Specific IntegratedCircuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal Processing Device,DSPD)、可编程逻辑装置(Programmable LogicDevice,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本公开实施例不作具体限定。
上述计算机存储介质/存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”或“本公开实施例”或“前述实施例”或“一些实施例”意味着与实施例有关的目标特征、结构或特性包括在本公开的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“本公开实施例”或“前述实施例”或“一些实施例”未必一定指相同的实施例。此外,这些目标的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本公开的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
在未做特殊说明的情况下,检测设备执行本公开实施例中的任一步骤,可以是检测设备的处理器执行该步骤。除非特殊说明,本公开实施例并不限定检测设备执行下述步骤的先后顺序。另外,不同实施例中对数据进行处理所采用的方式可以是相同的方法或不同的方法。还需说明的是,本公开实施例中的任一步骤是检测设备可以独立执行的,即检测设备执行上述实施例中的任一步骤时,可以不依赖于其它步骤的执行。
在本公开所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。另外,在本公开各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本公开所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。本公开所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。本公开所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器集群、服务器、平板电脑)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
在本公开实施例中,不同实施例中相同步骤和相同内容的说明,可以互相参照。在本公开实施例中,术语“并”不对步骤的先后顺序造成影响。
以上所述,仅为本公开的实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (19)
1.一种图像生成模型的训练方法,其特征在于,所述图像生成模型包括已训练的第一生成器、待训练的外部风格控制模块;所述第一生成器为在真实样本集合上预训练的且能够基于内部风格编码生成真实图像;
所述方法包括:
获取风格样本集合和所述真实样本集合;
基于所述真实样本集合对所述外部风格控制模块进行训练,使得所述图像生成模型生成的第一融合图像能够重建所述第一生成器生成的第二融合图像;
在对所述外部风格控制模块进行训练完成后,基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行训练,直至满足第一收敛条件。
2.如权利要求1所述的方法,其特征在于,所述基于所述真实样本集合对所述外部风格控制模块进行训练,使得所述图像生成模型生成的第一融合图像能够重建所述第一生成器的第二融合图像,包括:
利用所述第一生成器,基于所述真实样本集合生成各第二融合图像;
利用所述图像生成模型,基于所述真实样本集合生成各第一融合图像;其中,所述第一融合图像与所述第二融合图像基于所述真实样本集合中相同的一对真实图像编码;
确定各所述第一融合图像与对应的所述第二融合图像之间的第一重建损失;
基于所述第一重建损失对所述外部风格控制模块进行迭代训练,直至满足第二收敛条件。
3.如权利要求2所述的方法,其特征在于,所述利用所述第一生成器,基于所述真实样本集合生成各第二融合图像,包括:
分别确定所述真实样本集合中各真实样本的图像编码,得到真实图像编码集合;
从所述真实图像编码集合中获取各对真实图像编码;
利用所述第一生成器,基于各对所述真实图像编码生成对应的各第二融合图像;
对应地,所述利用所述图像生成模型,基于所述真实样本集合生成各第一融合图像,包括:
利用所述图像生成模型,基于各对所述真实图像编码生成对应的各第一融合图像。
4.如权利要求3所述的方法,其特征在于,所述第一生成器包括第一映射网络和生成网络;所述利用所述第一生成器,基于各对所述真实图像编码生成对应的各第二融合图像,包括:
基于所述第一映射网络分别获取每一对所述真实图像编码中各真实图像编码的中间风格编码;每一所述中间风格编码包括N个元素特征序列;其中,所述N为大于等于2的整数;
针对每一对所述真实图像编码,分别从两中间风格编码中提取出前k个元素特征和后(N-k)个元素特征进行融合,得到融合后的中间风格编码;k为大于等于1且小于N的整数;
利用所述生成网络,基于每一所述融合后的中间风格编码生成对应的第二融合图像。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
在所述第一生成器为StyleGAN的情况下,设置k的取值依次为7、6、5;
针对所述k的每一取值,基于所述第一映射网络获得所述中间风格编码,获得融合后的中间风格编码,以及基于所述生成网络获得第二融合图像。
6.如权利要求3至5任一项所述的方法,其特征在于,所述利用所述图像生成模型,基于各对所述真实图像编码生成对应的各第一融合图像,包括:
利用所述第一生成器基于每一对所述真实图像编码对中第二真实图像编码,生成对应的真实图像;其中,所述第二真实图像编码为提取出后(N-k)个元素特征对应的真实图像编码;
针对每一对所述真实图像编码,采用编码器对每一生成的真实图像进行编码,得到对应的外部风格编码;
利用待训练的图像生成模型,基于每一对所述真实图像编码对中第一真实图像编码和对应的外部风格编码,生成对应的第一融合图像;其中,所述第一真实图像编码为提取出前k个元素特征对应的真实图像编码。
7.如权利要求1至6任一项所述的方法,其特征在于,所述基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行训练,直至满足所述第一收敛条件,包括:
基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行迭代训练,得到所述图像生成模型生成的各风格图像;
基于生成的各风格图像,以及,每一所述风格图像对应的风格样本和内部风格编码,分别确定并对对抗损失、第二重建损失、外部风格损失和内部风格损失进行累加,得到累加和;其中:所述对抗损失为第一生成器的对抗损失、所述第二重建损失为生成的风格图像相对于对应风格样本的损失、所述外部风格损失为生成的风格图像相对于对应风格样本的损失和所述内部风格损失为生成的风格图像相对于对应内部风格编码的损失;
在所述累加和满足所述第一收敛条件的情况下,完成对所述图像生成模型的训练。
8.如权利要求7所述的方法,其特征在于,所述基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行迭代训练,得到所述图像生成模型生成的各风格图像,包括:
确定各风格样本的外部风格编码和内部风格编码;
以每一所述风格样本的内部风格编码和外部风格编码分别作为所述第一生成器和所述外部风格控制模块的输入,获取所述图像生成模型生成的第一目标风格图像;
以所述随机采样的内部风格编码和所述每一所述风格样本的外部风格编码分别作为所述第一生成器和所述外部风格控制模块的输入,获取所述图像生成模型生成的第二目标风格图像;
所述基于生成的各风格图像,以及,每一所述风格图像对应的风格样本和内部风格编码,分别确定第二重建损失、外部风格损失和内部风格损失,包括:
基于各所述第一目标风格图像和对应的风格样本,确定所述第二重建损失;
基于各所述第二目标风格图像和对应的风格样本,确定所述外部风格损失;
基于各所述第二目标风格图像和对应的随机真实图像,确定所述内部风格损失;
其中,所述随机真实图像为所述第一生成器基于所述随机采样的内部风格编码生成的。
9.如权利要求8所述的方法,其特征在于,所述确定各风格样本的外部风格编码和内部风格编码,包括:
采用编码器分别对各所述风格样本进行编码,得到对应风格样本的外部风格编码;
分别对各所述风格样本进行去风格化后,得到各风格样本的内部风格编码。
10.如权利要求9所述的方法,其特征在于,所述分别对各所述风格样本进行去风格化后,得到各风格样本的内部风格编码,包括:
确定各所述风格样本在优化后的风格编码,所述优化后的风格编码通过已训练的第二生成器能够重建对应的风格样本;
采用已训练的第一生成器分别对各所述优化后的风格编码进行重建,得到重建后的风格样本;其中,所述第一生成器和所述第二生成器分别是在真实图像数据集和风格图像数据集上训练得到的;
采用所述编码器对各所述重建后的风格样本进行编码,得到对应风格样本的内部风格编码。
11.如权利要求10所述的方法,其特征在于,所述方法包括:
获取在真实样本集合上预训练的第一生成器;
在风格样本集合上,训练所述第一生成器,得到第二生成器。
12.如权利要求8至11任一项所述的方法,其特征在于,所述外部风格控制模块包括与所述第一映射网络结构相同的第二映射网络、外部结构风格控制模块、外部颜色风格控制模块和残差模块;
所述以每一所述风格样本的内部风格编码和外部风格编码分别作为所述第一生成器和所述外部风格控制模块的输入,获取所述图像生成模型生成的第一目标风格图像;
以所述随机采样的内部风格编码和所述每一所述风格样本的外部风格编码分别作为所述第一生成器和所述外部风格控制模块的输入,获取所述图像生成模型生成的第二目标风格图像,包括:
利用所述第一映射网络,分别基于各所述风格样本的内部风格编码,对应获取各所述风格样本的内部中间风格编码,以及基于所述随机采样的内部风格编码对应获取随机采样的内部中间风格编码;
利用所述第二映射网络,分别获取各所述外部风格编码的外部中间风格编码;每一所述外部中间风格编码包括N个元素特征序列;
利用所述外部结构风格控制模块,基于所述各风格样本的外部中间风格编码中的一部分,确定所述各风格样本的结构风格编码;
利用所述外部颜色风格控制模块,基于所述各风格样本的外部中间风格编码的另一部分提取所述各风格样本的颜色风格编码;
利用所述残差模块,基于所述各风格样本的结构风格编码对所述生成网络生成的目标图像进行结构风格调整;
利用所述生成网络,基于所述各风格样本的结构风格编码和所述颜色风格编码,以及所述各风格样本的内部中间风格编码,生成第一目标风格图像;以及基于所述各风格样本的结构风格编码和所述颜色风格编码,以及所述随机采样的内部中间风格编码,生成第二目标风格图像。
13.一种图像处理方法,其特征在于,所述方法包括:
获取待融合的风格图像和内容图像;
对所述内容图像进行提取,得到所述内容图像的内部中间风格编码;
对所述风格图像进行提取,得到所述风格图像的外部中间风格编码;
基于所述内容图像的内部中间风格编码和所述风格图像的外部中间风格编码,生成融合图像。
14.如权利要求13所述的方法,其特征在于,所述基于所述内容图像的内部中间风格编码和所述风格图像的外部中间风格编码,生成融合图像,包括:
基于所述风格图像的外部中间风格编码中的一部分,确定所述风格图像的结构风格编码;
基于所述风格图像的外部中间风格编码的另一部分,提取所述风格图像的颜色风格编码;
基于所述风格图像的结构风格编码和所述颜色风格编码,以及所述内容图像的内部中间风格编码,生成所述融合图像。
15.如权利要求14所述的方法,其特征在于,每一所述外部中间风格编码包括N个元素特征序列;
所述基于所述风格图像的外部中间风格编码中的一部分,确定所述风格图像的结构风格编码,包括:基于所述风格图像的外部中间风格编码中的前k个元素特征,确定所述风格图像的结构风格编码;
所述基于所述风格图像的外部中间风格编码的另一部分,提取所述风格图像的颜色风格编码,包括:基于所述风格图像的外部中间风格编码的后(N-k)个元素特征,提取所述风格图像的颜色风格编码。
16.一种图像生成模型的训练装置,其特征在于,所述图像生成模型包括已训练的第一生成器、待训练的外部风格控制模块;所述第一生成器为在真实样本集合上预训练的且能够基于内部风格编码生成真实图像;
所述装置包括:
第一获取模块,用于获取风格样本集合和所述真实样本集合;
第一训练模块,用于基于所述真实样本集合对所述外部风格控制模块进行训练,使得所述图像生成模型生成的第一融合图像能够重建所述第一生成器生成的第二融合图像;
第二训练模块,用于在对所述外部风格控制模块进行训练完成后,基于所述风格样本集合和随机采样的内部风格编码,对所述图像生成模型进行训练,直至满足第一收敛条件。
17.一种图像处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待融合的风格图像和内容图像;
第一提取模块,用于对所述内容图像进行提取,得到所述内容图像的内部中间风格编码;
第二提取模块,用于对所述风格图像进行提取,得到所述风格图像的外部中间风格编码;
生成模块,用于基于所述内容图像的内部中间风格编码和所述风格图像的外部中间风格编码,生成融合图像。
18.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有可在所述处理器上运行的计算机程序,
所述处理器执行所述计算机程序时,实现权利要求1至12任一项所述方法中的步骤,或者,实现权利要求13至15任一项所述方法中的步骤。
19.一种非易失性计算机可读存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至12任一项所述方法中的步骤,或者,实现权利要求13至15任一项所述方法中的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SG10202202209R | 2022-03-04 | ||
SG10202202209R | 2022-03-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114743080A true CN114743080A (zh) | 2022-07-12 |
Family
ID=82283682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210430944.7A Pending CN114743080A (zh) | 2022-03-04 | 2022-04-22 | 图像处理方法及装置、终端、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114743080A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115018996A (zh) * | 2022-08-08 | 2022-09-06 | 海马云(天津)信息技术有限公司 | 根据真人人脸照片生成3d人脸模型的方法与装置 |
CN115880762A (zh) * | 2023-02-21 | 2023-03-31 | 中国传媒大学 | 面向人机混合视觉的可伸缩人脸图像编码方法、系统 |
CN115908518A (zh) * | 2023-01-09 | 2023-04-04 | 四川赛狄信息技术股份公司 | 一种多传感图像融合方法及系统 |
CN116862759A (zh) * | 2023-06-19 | 2023-10-10 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于生成对抗网络的个性化肖像生成系统及方法 |
CN118014820A (zh) * | 2023-12-27 | 2024-05-10 | 拓元(广州)智慧科技有限公司 | 一种风格化图像生成方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190236814A1 (en) * | 2016-10-21 | 2019-08-01 | Google Llc | Stylizing input images |
CN110222722A (zh) * | 2019-05-14 | 2019-09-10 | 华南理工大学 | 交互式图像风格化处理方法、系统、计算设备及存储介质 |
CN111696028A (zh) * | 2020-05-22 | 2020-09-22 | 华南理工大学 | 真实场景图像卡通化的处理方法、装置、计算机设备和存储介质 |
CN112115452A (zh) * | 2019-06-20 | 2020-12-22 | 北京京东尚科信息技术有限公司 | 用于生成验证码图像的方法和装置 |
CN112712460A (zh) * | 2020-12-09 | 2021-04-27 | 杭州妙绘科技有限公司 | 肖像画生成的方法、装置、电子设备及介质 |
CN113763535A (zh) * | 2021-09-02 | 2021-12-07 | 深圳数联天下智能科技有限公司 | 一种特征潜码提取方法、计算机设备及存储介质 |
CN113837934A (zh) * | 2021-11-26 | 2021-12-24 | 北京市商汤科技开发有限公司 | 图像生成方法及装置、电子设备和存储介质 |
-
2022
- 2022-04-22 CN CN202210430944.7A patent/CN114743080A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190236814A1 (en) * | 2016-10-21 | 2019-08-01 | Google Llc | Stylizing input images |
CN110222722A (zh) * | 2019-05-14 | 2019-09-10 | 华南理工大学 | 交互式图像风格化处理方法、系统、计算设备及存储介质 |
CN112115452A (zh) * | 2019-06-20 | 2020-12-22 | 北京京东尚科信息技术有限公司 | 用于生成验证码图像的方法和装置 |
CN111696028A (zh) * | 2020-05-22 | 2020-09-22 | 华南理工大学 | 真实场景图像卡通化的处理方法、装置、计算机设备和存储介质 |
CN112712460A (zh) * | 2020-12-09 | 2021-04-27 | 杭州妙绘科技有限公司 | 肖像画生成的方法、装置、电子设备及介质 |
CN113763535A (zh) * | 2021-09-02 | 2021-12-07 | 深圳数联天下智能科技有限公司 | 一种特征潜码提取方法、计算机设备及存储介质 |
CN113837934A (zh) * | 2021-11-26 | 2021-12-24 | 北京市商汤科技开发有限公司 | 图像生成方法及装置、电子设备和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115018996A (zh) * | 2022-08-08 | 2022-09-06 | 海马云(天津)信息技术有限公司 | 根据真人人脸照片生成3d人脸模型的方法与装置 |
CN115908518A (zh) * | 2023-01-09 | 2023-04-04 | 四川赛狄信息技术股份公司 | 一种多传感图像融合方法及系统 |
CN115908518B (zh) * | 2023-01-09 | 2023-05-09 | 四川赛狄信息技术股份公司 | 一种多传感图像融合方法及系统 |
CN115880762A (zh) * | 2023-02-21 | 2023-03-31 | 中国传媒大学 | 面向人机混合视觉的可伸缩人脸图像编码方法、系统 |
CN116862759A (zh) * | 2023-06-19 | 2023-10-10 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于生成对抗网络的个性化肖像生成系统及方法 |
CN118014820A (zh) * | 2023-12-27 | 2024-05-10 | 拓元(广州)智慧科技有限公司 | 一种风格化图像生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114743080A (zh) | 图像处理方法及装置、终端、存储介质 | |
JP7505986B2 (ja) | Qrコード生成方法、装置、記憶媒体及び電子デバイス | |
CN111798369B (zh) | 一种基于循环条件生成对抗网络的人脸衰老图像合成方法 | |
Fabius et al. | Variational recurrent auto-encoders | |
CN111632374B (zh) | 游戏中虚拟角色的脸部处理方法、装置及可读存储介质 | |
WO2021027759A1 (en) | Facial image processing | |
CN111767979A (zh) | 神经网络的训练方法、图像处理方法、图像处理装置 | |
CN107578014B (zh) | 信息处理装置及方法 | |
US20190220746A1 (en) | Image processing method, image processing device, and training method of neural network | |
KR102602112B1 (ko) | 얼굴 이미지 생성을 위한 데이터 프로세싱 방법 및 디바이스, 및 매체 | |
CN109522945B (zh) | 一种群体情感识别方法、装置、智能设备及存储介质 | |
CN109308725B (zh) | 一种移动端表情趣图生成的系统 | |
JP7144699B2 (ja) | 信号変更装置、方法、及びプログラム | |
CN110188776A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
US20210397945A1 (en) | Deep hierarchical variational autoencoder | |
CN107977629A (zh) | 一种基于特征分离对抗网络的人脸图像衰老合成方法 | |
CN112541864A (zh) | 一种基于多尺度生成式对抗网络模型的图像修复方法 | |
CN110322416A (zh) | 图像数据处理方法、装置以及计算机可读存储介质 | |
US20220101121A1 (en) | Latent-variable generative model with a noise contrastive prior | |
CN110674774A (zh) | 一种改进的深度学习人脸面部表情识别方法及系统 | |
CN113822790B (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
CN112116589B (zh) | 虚拟形象的评测方法、装置、设备及计算机可读存储介质 | |
CN110782408B (zh) | 一种基于卷积神经网络的智能美型方法及系统 | |
EP4238073A1 (en) | Human characteristic normalization with an autoencoder | |
CN109508640A (zh) | 一种人群情感分析方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |