CN116152631A - 模型训练及图像处理方法、装置、设备及存储介质 - Google Patents

模型训练及图像处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116152631A
CN116152631A CN202310189704.7A CN202310189704A CN116152631A CN 116152631 A CN116152631 A CN 116152631A CN 202310189704 A CN202310189704 A CN 202310189704A CN 116152631 A CN116152631 A CN 116152631A
Authority
CN
China
Prior art keywords
image
style
content
resolution
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310189704.7A
Other languages
English (en)
Inventor
杨帅
蒋李鸣
刘子纬
吕健勤
张俊哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanyang Technological University
Sensetime International Pte Ltd
Original Assignee
Nanyang Technological University
Sensetime International Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanyang Technological University, Sensetime International Pte Ltd filed Critical Nanyang Technological University
Priority to CN202310189704.7A priority Critical patent/CN116152631A/zh
Publication of CN116152631A publication Critical patent/CN116152631A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例公开了一种模型训练及图像处理方法、装置、设备及存储介质,模型包括编码器和第一解码器,编码器包括全卷积网络,所述模型训练方法包括:获取内容样本集合、风格样本集合和真实样本集合,其中,内容样本集合中的内容样本为具有第一分辨率的图像,且第一分辨率与预设的第二分辨率之间存在倍数关系;通过编码器获取每一内容样本的内容特征和与每一内容样本对应风格样本的第一风格编码;基于每一内容样本的内容特征和与内容特征对应的第一风格编码,通过第一解码器,生成可调的具有第二分辨率的风格图像,并得到风格图像集合;基于风格图像集合中的各风格图像和与每一风格图像对应的真实样本,对模型进行迭代训练,直至满足收敛条件。

Description

模型训练及图像处理方法、装置、设备及存储介质
技术领域
本申请涉及但不限于计算机视觉技术领域,尤其涉及一种模型训练及图像处理方法、装置、设备及存储介质。
背景技术
人像编辑,即对输入的人脸图像进行生成和编辑,例如包含人脸风格化、人脸超分辨率重建、人脸属性编辑、根据线稿生成人脸图像等。目前行业主流的技术采用图像转换的方法,训练网络学习输入的与人脸相关的图像和目标人脸之间的映射关系。为了获得更好地效果,通常会引入基于样式的生成对抗网络生成器结构(A Style-Based GeneratorArchitecture for Generative Adversarial Networks,StyleGAN)的解码器实现高清人像的编辑处理。但受限于StyleGAN解码器本身只能处理固定尺寸的图像且要求人脸对齐,相关技术只能对输入照片中视野有限的人脸区域进行编辑,而在人脸区域的外侧无法做相应的编辑,从而在人脸区域的边界处存在明显不一致的问题。如何设计一个普适的图像转换框架,以支持常规视野的高清人像编辑成为一个难题。
发明内容
有鉴于此,本申请实施例至少提供一种模型训练及图像处理方法、装置、设备及存储介质。
第一方面,本申请实施例提供一种模型训练方法,所述模型包括编码器和第一解码器,所述编码器包括全卷积网络,所述方法包括:获取内容样本集合、风格样本集合和真实样本集合,其中,所述内容样本集合中的内容样本为具有第一分辨率的图像,且所述第一分辨率与预设的第二分辨率之间存在倍数关系;通过所述编码器获取每一内容样本的内容特征,以及所述风格样本集合中与每一内容样本对应风格样本的第一风格编码;基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像,并得到包括所述风格图像的风格图像集合;基于所述风格图像集合中的各风格图像和所述真实样本集合中与每一所述风格图像对应的真实样本,对所述模型进行迭代训练,直至满足收敛条件。
在一些实施例中,所述第一解码器为基于StyleGAN解码器重构的,采用与所述StyleGAN解码器处理固定分辨率下的内容特征的等效方式来处理第一非固定分辨率下的内容特征,以生成第二非固定分辨率的风格图像的解码器。
这样,将固定分辨率下内容特征的操作方法用在第一非固定分辨率下的内容特征上,实现第一非固定分辨率下内容特征的操作与原来固定分辨率下内容特征的操作等价,从而巧妙的重构了StyleGAN解码器,使得重构后的StyleGAN解码器没有改变原版StyleGAN解码器的功能和操作方法,能够处理第一非固定分辨率下的对齐或不对齐的图像对应的内容特征,从而生成第二非固定分辨率下的对齐或不对齐的图像。
在一些实施例中,所述编码器包括第一特征层模块和转化模块,所述通过所述编码器获取每一内容样本的内容特征,包括:针对所述每一内容样本,基于所述预设的第二分辨率和所述内容样本的第一分辨率,在所述第一特征层模块中确定至少一个中间特征层;基于所述每一内容样本,通过所述至少一个中间特征层获取与所述内容样本对应风格图像的第一中间特征;基于所述第一中间特征,通过所述转化模块将所述第一中间特征转化为与所述第一解码器的第一特征层通道数相同的特征,以获取所述每一内容样本的内容特征。
这样,首先在第一特征层模块中确定出用于获取第一中间特征的至少一个中间特征层;然后利用至少一个中间特征层输出的特征得到第一中间特征;最后通过转化模块将第一中间特征转化为与第一解码器的第一特征层通道数相同的特征,从而得到方便第一解码器处理的内容样本的内容特征。
在一些实施例中,所述第一解码器包括第二特征层模块,所述基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像,包括:在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合;在所述目标特征层集合中,确定每一分辨率下的至少一个目标特征层;将所述至少一个目标特征层中的目标特征层输出的第二中间特征输入所述第二特征层模块中分辨率相同的至少一个特征层;基于每一所述内容样本的内容特征、与所述内容特征对应的风格编码、以及输入所述第二特征层模块中的第二中间特征,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像。
这样,通过将第一特征层模块中的目标特征层输出的第二中间特征输入第二特征层模块中分辨率相同的至少一个特征层中,实现为第一解码器生成的风格图像提供更多的结构信息,从而使得生成的风格图像包括更多的细节信息。
在一些实施例中,所述在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合,包括:基于生成所述风格图像的任务内容,确定m的取值;在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。
这样,根据生成风格图像的任务内容,来分别确定前m个特征层中m的数值,实现针对不同任务内容,设置输入第二特征层模块中的特征层的数量,以便更好的训练模型完成任务。
在一些实施例中,所述基于生成的风格图像集合中的各风格图像和与每一所述风格图像对应的真实样本,对所述模型进行迭代训练,直至满足收敛条件,包括:基于生成所述风格图像的任务内容,确定用于训练所述模型的损失函数;基于生成的风格图像集合中的各风格图像和与每一所述风格图像对应的真实样本,确定所述损失函数对应的损失值;在所述损失值满足收敛条件的情况下,完成对所述模型的训练。
这样,针对不同的任务内容,确定不同的损失函数;然后通过确定损失函数对应的损失值,来实现对模型的训练,使得模型能够满足收敛条件。
在一些实施例中,在生成所述风格图像的任务内容包括图像编解码或根据线稿生成人脸图像的情况下,所述损失函数包括重建损失,其中,所述重建损失用于表征生成的风格图像与对应真实样本之间的相似程度;和/或,在生成所述风格图像的任务内容包括人脸超分辨率重建的情况下,所述损失函数包括所述重建损失和对抗损失,其中,所述对抗损失为所述第一解码器的对抗损失;和/或,在生成所述风格图像的任务内容为视频人脸属性编辑或视频人脸风格化的情况下,所述损失函数包括所述重建损失、所述对抗损失和时域连续性损失,其中,所述时域连续性损失用于表征所述视频中不同图像帧生成的风格图像中语义相同部分像素的一致性。
这样,通过对生成风格图像的任务内容进行分类,并针对不同的任务内容设置不同的损失函数,以便更好的训练模型,提高模型的鲁棒性。
第二方面,本申请实施例提供一种图像处理方法,所述方法应用于包括编码器和第一解码器的模型,所述编码器包括全卷积网络,所述方法包括:获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例、以及预设的第二分辨率,其中,所述第一分辨率与所述第二分辨率之间存在倍数关系;通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码;基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
在一些实施例中,所述编码器包括第一特征层模块和转化模块,所述通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码,包括:基于所述预设的第二分辨率和所述内容样本的第一分辨率,在所述第一特征层模块中确定至少一个中间特征层;基于所述内容图像,通过所述至少一个中间特征层获取所述风格图像的第一中间特征;基于所述第一中间特征,通过所述转化模块将所述第一中间特征转化为与所述第一解码器的第一特征层通道数相同的特征,以获取所述风格图像的内容特征。
在一些实施例中,所述第一解码器包括第二特征层模块,所述基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像,包括:在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合;在所述目标特征层集合中,确定每一分辨率下的至少一个目标特征层;将所述至少一个目标特征层中的目标特征层输出的第二中间特征输入所述第二特征层模块中分辨率相同的至少一个特征层;基于所述内容特征、所述第一风格编码、以及输入所述第二特征层模块中的第二中间特征,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
在一些实施例中,所述在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合,包括:基于生成所述风格图像的任务内容,确定m的取值;在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。
在一些实施例中,在生成所述风格图像的任务内容包括图像编解码或人脸超分辨率重建的情况下,所述获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例,包括:获取待处理的具有第一分辨率的第一图像;基于所述第一图像,裁剪获取具有预设尺寸的对齐的第二图像;将所述第一图像作为所述内容图像,将所述第二图像作为所述风格样例。
在一些实施例中,在生成所述风格图像的任务内容包括图像编解码的情况下,在通过所述编码器获取所述风格样例的第一风格编码之后,还包括:对所述第一风格编码进行编辑,得到编辑后的第二风格编码;所述基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像,包括:基于所述内容特征和所述第二风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
在一些实施例中,在生成所述风格图像的任务内容包括为根据线稿生成人脸图像的情况下,所述获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例,包括:获取待处理的线稿图像和具有待生成风格的第三图像;分别基于所述线稿图像和所述第三图像,裁剪获取具有预设尺寸的对齐的第四图像和第五图像;将所述线稿图像作为所述内容图像,将所述第四图像和所述第五图像均作为所述风格样例;对应地,所述通过所述编码器获取所述风格样例的第一风格编码,包括:将所述第四图像输入所述编码器,获取用于影响所述风格图像结构的第三风格编码;将所述第五图像输入所述编码器,获取用于影响所述风格图像颜色的第四风格编码;将所述第三风格编码和所述第四风格编码串联后,得到所述风格样例的第一风格编码。
在一些实施例中,在生成所述风格图像的任务内容包括视频人脸属性编辑或视频人脸风格化的情况下,所述获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例,包括:获取待处理的视频;针对所述视频中的每一帧图像,裁剪获取具有预设尺寸的对齐的第六图像;将所述视频中的每一帧图像作为所述内容图像,将与所述每一帧图像对应的第六图像作为所述风格样例。
在一些实施例中,在生成所述风格图像的任务内容包括视频人脸属性编辑的情况下,所述方法还包括:获取对所述视频中人脸属性进行编辑的编辑向量;对应地,在通过所述编码器获取所述风格样例的第一风格编码之后,还包括:将所述第一风格编码和所述编辑向量相加后,得到第五风格编码;所述基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像,包括:基于所述内容特征和所述第五风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
在一些实施例中,在生成所述风格图像的任务内容包括视频人脸风格化的情况下,所述基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像,包括:基于所述内容特征和所述第一风格编码,通过第二解码器生成可调的具有所述第二分辨率的风格图像,其中,所述第二解码器为采用风格样本集合对所述第一解码器进行微调后得到的解码器。
第三方面,本申请实施例提供一种模型训练装置,所述模型训练模型包括编码器和第一解码器,所述编码器包括全卷积网络,所述模型训练装置包括:第一获取模块,用于获取内容样本集合、风格样本集合和真实样本集合,其中,所述内容样本集合中的内容样本为具有第一分辨率的图像,且所述第一分辨率与预设的第二分辨率之间存在倍数关系;第二获取模块,用于通过所述编码器获取每一内容样本的内容特征,以及所述风格样本集合中与每一内容样本对应风格样本的第一风格编码;第一生成模块,用于基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像,并得到包括所述风格图像的风格图像集合;训练模块,用于基于所述风格图像集合中的各风格图像和所述真实样本集合中与每一所述风格图像对应的真实样本,对所述模型进行迭代训练,直至满足收敛条件。
第四方面,本申请实施例提供一种图像处理装置,所述图像处理装置应用于包括编码器和第一解码器的模型,所述编码器包括全卷积网络,所述图像处理装置包括:第三获取模块,用于获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例、以及预设的第二分辨率,其中,所述第一分辨率与所述第二分辨率之间存在倍数关系;第四获取模块,用于通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码;第二生成模块,用于基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
第五方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
第六方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
相关技术中,解码器例如StyleGAN只能处理固定尺寸的图像,且处理的图像需要进行人脸对齐。本申请实施例提供的模型包括编码器和第一解码器,编码器包括全卷积网络。首先,根据全卷积网络的平移不变性和全卷积网络中卷积核的可复用性,使得编码器在输出风格编码的同时,可以输出可变分辨率下的内容特征。其次,第一解码器可以为基于StyleGAN解码器重构得到的可输入第一非固定分辨率下的内容特征,生成第二非固定分辨率图像的解码器,如此一来,可以实现生成和编辑非固定分辨率下对齐或不对齐的图像,从而解决了相关技术中只能处理固定尺寸的图像,且需要进行人脸对齐的问题。最后,本申请实施例提供的编码器可以同时编码内容特征和风格编码,进行端到端一起训练,因此能更好地完成学习任务。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1A为StyleGAN模型的组成结构示意图;
图1B为本申请实施例提供的一种模型训练方法的流程示意图;
图2为本申请实施例提供的原版StyleGAN解码器和重构后的StyleGANEX解码器的结构示意图;
图3A为本申请实施例提供的一种步骤S102的实现流程示意图;
图3B为本申请实施例提供的一种步骤S103的实现流程示意图;
图4为本申请实施例提供的一种编码器-解码器的结构示意图;
图5为本申请实施例提供的一种图像处理方法的实现流程示意图;
图6为本申请实施例提供的一种模型训练装置的组成结构示意图;
图7为本申请实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本申请的技术方案进一步详细阐述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的,不是旨在限制本申请。
在对本申请实施例进行进一步详细说明之前,先对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
自适应实例归一化(Adaptive Instance Normalization,AdaIN)层,是一种网络模块。该模块用于将图像特征按通道维度进行归一化,使得每个通道中的图像特征的均值和方差归一化到0和1之间,然后将它们的均值和方差调整为目标风格的均值和方差,从而实现风格的迁移。
StyleGAN,是一种基于风格的生成网络,能将随机风格编码映射为人脸图像。
常规视野的人脸图像:常规视野的人脸图像例如证件照和自拍照包含更多的背景信息、完整的发型和部分上衣,在日常生活中应用更广泛。而StyleGAN只能处理对齐的有限视野的人脸图像,导致处理的图像中头发部分不完整,且只有衣领部分,而无法很好的应用在常规视野的人脸图像处理上。
在介绍本公开实施例之前,先介绍一下StyleGAN模型,如图1A所示,该模型10包括映射网络(Mapping Network)11和生成网络12,其中:
映射网络11可以将输入的内容图像I的风格编码(内容图像I经编码器111可以得到对应的风格编码)或随机采样的风格编码z映射为中间风格编码(可以理解为中间向量),并且中间风格编码后续会传给生成网络12,作为生成网络12的18个控制向量,使得该控制向量的不同元素能够控制不同的视觉特征。
映射网络11包括8个全连接(Full Connection,FC)层,映射网络11输出的中间风格编码
Figure BDA0004105090870000071
与StyleGAN模型的输入的大小相同。一般输入的大小可以是(512×1)或(512×18)大小的,即一个512维度的向量,或者18个512维度的向量。如果输入是一个512维度的向量时,输入层会复制成为18个相同的向量。
生成网络12包括从4*4变换到1024*1024的9个生成模块,即,每个模块对应4*4、8*8、16*16、32*32、64*64、128*128、256*256、512*512和1024*1024变换。而除第一个生成模块和最后一个生成模块外的每个模块都会受两个控制向量(图1A中仿射变换A的输入)对其施加影响,其中一个控制向量在上采样(Upsample)之后对其影响一次,另外一个控制向量在卷积(Convolution)之后对其影响一次,影响的方式都采用风格调整模块(AdaIN自适应实例归一化层),第一个模块没有上采样操作只有卷积操作,因此,第一个模块只用了一个控制向量;最后一个模块除了上采样操作和卷积操作对应的控制向量外,还包括将特征转换为3通道的图像对应的一个控制向量。因此,中间风格编码
Figure BDA0004105090870000072
总共被变换成18个控制向量传给生成网络12。
换个角度来说,第一生成模块包括仿射变换模块、卷积层和风格调整模块,而第一个生成模块没有上采样模块;其他的生成模块包括上采样模块、仿射变换模块、卷积层和风格调整模块。
其中,第一生成模块进行风格调整的实现过程如图1A所示:将中间风格编码
Figure BDA0004105090870000073
通过一个可学习的仿射变换模块A(可以是一个全连接层)后,经过风格调整模块扩变为缩放因子y_(s,i)与偏差因子y_(b,i),缩放因子与标准化之后的卷积层输出的特征相乘后,再与偏差因子求和,就完成了一次中间风格编码/>
Figure BDA0004105090870000074
影响风格图像的过程。
StyleGAN中层的分辨率越低,所影响的特征就越粗糙,可以将这些特征分为两种类型:1)粗糙的特征—分辨率不高于32*32,对应的分辨率层为1~7层,影响姿势、发型、面部形状、面部特征、眼睛的睁开或是闭合等;2)精细的特征—分辨率为64*64到1024*1024,对应的分辨率层为8~18层,影响颜色(眼睛、头发和皮肤)和微观特征。
StyleGAN只能处理固定尺寸的图像且要求人脸对齐,也不适合运用到视频领域。针对上述问题,本申请实施例提供一种模型,包括编码器和第一解码器,其中编码器包括全卷积网络。根据全卷积网络的平移不变性和全卷积网络中卷积核的可复用性,使得编码器在输出风格编码的同时,可以输出可变分辨率下的内容特征。此外,第一解码器可以为基于StyleGAN解码器重构得到的可输入第一非固定分辨率下的内容特征,生成第二非固定分辨率图像的解码器。如此一来,可以实现生成和编辑非固定分辨率下对齐或不对齐的图像。
本申请实施例提供一种模型训练方法,该方法可以由计算机设备的处理器执行。其中,计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。图1B为本申请实施例提供的一种模型训练方法的实现流程示意图,如图1B所示,该方法包括如下步骤S101至步骤S104:
步骤S101:获取内容样本集合、风格样本集合和真实样本集合,其中,所述内容样本集合中的内容样本为具有第一分辨率的图像,且所述第一分辨率与预设的第二分辨率之间存在倍数关系。
这里,内容样本集合可以为在图像生成和编辑过程中提供内容的图像。风格样本集合可以为真实图像数据集合或艺术图像数据集合,艺术图像数据集合中的艺术图像可以为艺术人像、艺术风景图像、卡通图像、漫画图像等。例如艺术图像数据集合中的图像可以是经过渲染和/或变形等修饰方式得到的不同形式的图像。真实样本集合可以为真实图像数据集合,例如真实人脸数据集合、真实动物数据集合、真实风景数据集合等通过拍摄得到的图像数据集合。
在一些实施例中,内容样本集合中的内容样本、风格样本集合中的风格样本和真实样本集合中的真实样本是存在对应关系的。例如:内容样本D和与该内容样本D匹配的风格样本B,通过上述模型生成风格图像,该风格图像的真实图像为真实样本C,则内容样本D、风格样本B和真实样本C是同一个风格图像的三个样本,内容样本D、风格样本B和真实样本C之间存在对应关系,可组成一个样本组。
预设的第二分辨率可以指通过上述模型生成的风格图像的分辨率,即生成的风格图像的分辨率可以是预设的,设置时可以根据用户的需求进行设定。例如用户需要生成256*256的图像,则预设的第二分辨率为256*256;用户需要生成1024*1024的图像,则预设的第二分辨率为1024*1024。第一分辨率与预设的第二分辨率之间存在倍数关系,即内容样本的分辨率与模型生成风格图像的分辨率之间存在一定的倍数关系。若获取的原始内容样本的分辨率与预设的第二分辨率之间的倍数关系不正确,则可以通过对原始内容样本进行上采或下采得到内容样本,使内容样本具有与预设的第二分辨率之间存在倍数关系的第一分辨率。在一些实施例中,内容样本可以为对齐或不对齐的图像,本申请实施例对此不做限定。
步骤S102:通过所述编码器获取每一内容样本的内容特征,以及所述风格样本集合中与每一内容样本对应风格样本的第一风格编码。
这里,由于编码器包括全卷积网络,因此,编码器可以处理任意分辨率下的对齐或不对齐的内容样本,同时输出可变分辨率下的内容特征。
在一些实施例中,步骤S102的实施可以先将内容样本输入编码器,得到内容样本的内容特征;再将风格样本输入编码器,得到第一风格编码;或者先将风格样本输入编码器,得到第一风格编码;再将内容样本输入编码器,得到内容样本的内容特征。在一些实施例中,若内容样本和风格样本为同一个样本,则步骤S102的实施可以通过向编码器输入该同一个样本,同时得到内容特征和第一风格编码。本申请实施例对获取内容特征和第一风格编码的方法不做限定。
在一些实施例中,编码器可以包括多分辨率下的多层特征层,因此,可以通过在编码器中选择输出内容特征的中间特征层,从而得到需要分辨率下的内容特征。在一些实施例中,通过编码器获取第一风格编码的方法可参见相关技术。
步骤S103:基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像,并得到包括所述风格图像的风格图像集合。
这里,由于第二分辨率是可调的,因此,生成的风格图像的分辨率可以为非固定分辨率的。而第一分辨率与第二分辨率之间存在倍数关系,所以,在第二分辨率调整的情况下,内容样本的第一分辨率也需要跟着调整。例如,第一分辨率与第二分辨率之间的倍数关系为:第二分辨率是第一分辨率的4倍,则在第二分辨率为4H*4W的情况下,第一分辨率为H*W。本申请实施例对第一解码器生成具有第二分辨率的风格图像的方法不做限定。
在一些实施例中,第一解码器可以为基于StyleGAN解码器重构得到的解码器,可以采用与StyleGAN解码器处理固定分辨率下的内容特征的等效方式来处理第一非固定分辨率下的内容特征,以生成第二非固定分辨率的风格图像。其中,非固定分辨率即可以为任意分辨率。在一些实施例中,第一非固定分辨率和第二非固定分辨率可以存在倍数关系。
通常情况下,StyleGAN解码器输入的内容特征为固定分辨率4*4*512,生成的风格图像为固定分辨率1024*1024。由上述可知,StyleGAN解码器共包括18层,第1层的分辨率为4*4,第2至3层的分辨率为8*8,第4至5层的分辨率16*16,第6至7层的分辨率32*32,第8至9层的分辨率64*64,第10至11层的分辨率128*128,第12至13层的分辨率为256*256,第14至15层的分辨率为512*512,第16至18层的分辨率为1024*1024。其中,前7层用于影响生成风格图像的粗糙特征,也就是结构特征;后11层用于影响生成风格图像的精细特征,也就是颜色特征。
为了使得重构后的StyleGANEX解码器能够采用原版StyleGAN解码器处理固定分辨率下的内容特征的等效方式来处理第一非固定分辨率下的内容特征,在一些实施例中,可以对如图1A所示的原版StyleGAN解码器的前7层去除上采操作(Upsample),并将每层的卷积调整为相应的空洞卷积以匹配感受野。实施时,可以通过改变每层卷积核的扩张率,来得到空洞卷积。其中,扩张率定义了卷积核处理数据时各值的间距,即卷积核中各点之间的间隔数量。正常卷积核的扩展率为1。通过增加扩张率可以扩大卷积神经网络的感受野,例如3*3的卷积核,在扩张率为2的情况下,可以得到与5*5的卷积核相同的感受野。第1层的扩张率为8,第2至3层的扩张率为4,第4至5层的扩张率为2,第6至7层的扩张率为1,从第8至9层开始之后的结构不做改动,从而实现在不改变原来StyleGAN解码器功能的情况下,通过改变卷积核的大小,使得在第一非固定分辨率下内容特征的操作与原来固定分辨率下内容特征的操作等价。换句话说,就是将固定分辨率下内容特征的操作方法用在第一非固定分辨率下的内容特征上,实现第一非固定分辨率下内容特征的操作与原来固定分辨率下内容特征的操作等价,从而巧妙的重构了StyleGAN解码器。
下面结合StyleGAN解码器和StyleGANEX解码器的结构,对StyleGANEX解码器的方法做进一步说明。图2示出了StyleGAN解码器和StyleGANEX解码器的结构,可以看出,StyleGANEX解码器输入的内容特征的分辨率为H*W*512,前7层没有经过上采分辨率均为H*W,第8至9层通过上采样模块上采后分辨率为2H*2W,从第8至9层之后,其他层均进行上采,分辨率依次翻倍;而StyleGAN解码器从第2至3层开始上采。也就是说,从第8至9层开始,StyleGAN解码器和StyleGANEX解码器的结构是相同的,区别在于前7层。
下面以第4至5层为例说明前7层的修改方法,第6至7层StyleGAN解码器和StyleGANEX解码器的分辨率均为H*W,第4至5层StyleGAN解码器经过了上采,而StyleGANEX解码器没有经过上采,为了使得二者的感受野相同,StyleGANEX解码器的第4至5层的扩张率可以设置为2;以此类推,StyleGANEX解码器的第2至3层的扩张率为4,StyleGANEX解码器的第1层的扩张率为8,StyleGANEX解码器的第6至7层的扩张率为1,从而使得StyleGANEX解码器并没有改变StyleGAN解码器的功能和操作方法。
需要说明的是,由于前7层主要影响生成风格图像的结构特征,而为了使重构后的StyleGAN解码器能够处理任意分辨率下的内容特征,更多的是关注图像的结构特征,因此,这里对前7层的扩张率进行了修改;又由于StyleGAN解码器本身是一个全卷积的网络,因此,可以处理不对齐的图像,所以,重构后的StyleGAN解码器能够处理非固定分辨率下的对齐或不对齐的图像对应的内容特征,从而生成非固定分辨率下的对齐或不对齐的图像。
在第一解码器为上述重构后的StyleGAN解码器的情况下,输入第一解码器的内容特征的分辨率为H*W,生成风格图像的分辨率为32H*32W,所以,第二非固定分辨率是第一非固定分辨率的32倍,且步骤S102中通过编码器获取的内容特征的分辨率可以为H*W,以方便输入第一解码器。
步骤S104:基于所述风格图像集合中的各风格图像和所述真实样本集合中与每一所述风格图像对应的真实样本,对所述模型进行迭代训练,直至满足收敛条件。
在一些实施例中,步骤S104的实施可以包括如下步骤S1041至步骤S1043:
步骤S1041:基于生成所述风格图像的任务内容,确定用于训练所述模型的损失函数。
这里,生成风格图像的任务内容可以包括:图像编解码、人脸超分辨率重建、根据线稿生成人脸图像、视频人脸属性编辑或视频人脸风格化等,本申请实施例对生成风格图像的任务内容不做限定。
通常情况下,训练模型的损失函数为如下公式(1):
L=Lrec(x′,x)+Lother(x′) (1);
其中,Lrec是重建损失,用于表征生成的风格图像x′与对应真实样本x之间的相似程度,常用的度量准则包含L1距离、L2距离、感知距离、身份相似度等。Lother是与生成风格图像的任务内容相关的损失函数,根据任务内容的不同可以有不同的定义。
下面根据任务内容,分情况说明损失函数包括的内容。
在生成所述风格图像的任务内容包括图像编解码或根据线稿生成人脸图像的情况下,损失函数包括重建损失,其中,重建损失用于表征生成的风格图像与对应真实样本之间的相似程度;即在任务内容包括图像编解码或根据线稿生成人脸图像的情况下,公式(1)中的损失函数中没有Lother,只有Lrec
和/或,在生成风格图像的任务内容包括人脸超分辨率重建的情况下,损失函数包括重建损失和对抗损失,其中,对抗损失为第一解码器的对抗损失;即在任务内容包括人脸超分辨率重建的情况下,公式(1)中的损失函数中Lother为对抗损失。
和/或,在生成风格图像的任务内容为视频人脸属性编辑或视频人脸风格化的情况下,损失函数包括重建损失、对抗损失和时域连续性损失,其中,时域连续性损失用于表征视频中不同图像帧生成的风格图像中语义相同部分像素的一致性,例如风格图像中语义为眼睛的部分像素的一致性。即在任务内容包括视频人脸属性编辑或视频人脸风格化的情况下,公式(1)中的损失函数中Lother为对抗损失和时域连续性损失。
本申请实施例中,通过对生成风格图像的任务内容进行分类,并针对不同的任务内容设置不同的损失函数,以便更好的训练模型,提高模型的鲁棒性。
步骤S1042:基于生成的风格图像集合中的各风格图像和与每一所述风格图像对应的真实样本,确定所述损失函数对应的损失值;
步骤S1043:在所述损失值满足收敛条件的情况下,完成对所述模型的训练。
这里,模型训练完成后,模型生成的风格图像与真实样本非常接近。
本申请实施例中,针对不同的任务内容,确定不同的损失函数;然后通过确定损失函数对应的损失值,来实现对模型的训练,使得模型能够满足收敛条件。
相关技术中,解码器例如StyleGAN只能处理固定尺寸的图像,且处理的图像需要进行人脸对齐。本申请实施例提供的模型包括编码器和第一解码器,编码器包括全卷积网络。首先,根据全卷积网络的平移不变性和全卷积网络中卷积核的可复用性,使得编码器在输出风格编码的同时,可以输出可变分辨率下的内容特征。其次,第一解码器可以为基于StyleGAN解码器重构得到的可输入第一非固定分辨率下的内容特征,生成第二非固定分辨率图像的解码器,如此一来,可以实现生成和编辑非固定分辨率下对齐或不对齐的图像,从而解决了相关技术中只能处理固定尺寸的图像,且需要进行人脸对齐的问题。最后,本申请实施例提供的编码器可以同时编码内容特征和风格编码,进行端到端一起训练,因此能更好地完成学习任务。
在一些实施例中,编码器包括第一特征层模块和转化模块,如图3A所示,则步骤S102中“通过所述编码器获取每一内容样本的内容特征”的实施可以包括如下步骤S1021至步骤S1023:
步骤S1021:针对所述每一内容样本,基于所述预设的第二分辨率和所述内容样本的第一分辨率,在所述第一特征层模块中确定至少一个中间特征层。
这里,至少一个中间特征层用于获取生成内容特征的第一中间特征。由于第一解码器生成的风格图像的第二分辨率是预设的,而第一解码器输入的内容特征的分辨率与生成的风格图像的第二分辨率之间的倍数关系是固定的,因此,在获取预设的第二分辨率的情况下,可以得知通过编码器获取得到的内容特征的分辨率。由于第一中间特征的获取是为了得到内容特征,因此,在一些实施例中,第一中间特征的分辨率可以与内容特征的分辨率相同。也就是说,在获取预设的第二分辨率的情况下,可以得到第一中间特征的分辨率。又由于编码器包括第一特征层模块,而第一特征层模块包括多分辨率下的特征层。因此,可以在获取内容样本的第一分辨率的情况下,在第一特征层模块中确定出用于获取第一中间特征的中间特征层。
例如:预设的第二分辨率为4H*4W,第一解码器输入的内容特征的分辨率与生成的风格图像的第二分辨率之间的倍数关系为:生成的风格图像的第二分辨率是输入的内容特征的分辨率的32倍,则通过编码器获取得到的内容特征的分辨率为H/8*W/8,也就是说第一中间特征的分辨率为H/8*W/8。而第一分辨率为H*W,则中间特征层为下采8倍对应的特征层。
在一些实施例中,中间特征层的数量可以为一个,也可以为至少两个,即存在多个特征层对应同一个分辨率。
步骤S1022:基于所述每一内容样本,通过所述至少一个中间特征层获取与所述内容样本对应风格图像的第一中间特征。
这里,在中间特征层为一个的情况下,中间特征层输出的特征即为对应风格图像的第一中间特征。在中间特征层为至少两个的情况下,可以将每一中间特征层输出的特征串联后得到的特征作为对应风格图像的第一中间特征。
步骤S1023:基于所述第一中间特征,通过所述转化模块将所述第一中间特征转化为与所述第一解码器的第一特征层通道数相同的特征,以获取所述每一内容样本的内容特征。
这里,由于通过步骤S1023得到的第一中间特征为编码器处理得到的特征,该特征的通道数可能与第一解码器的第一特征层通道数不同,导致第一解码器并不能处理,因此,可以通过转化模块,将第一中间特征转化为与第一解码器的第一特征层通道数相同的特征,从而得到第一解码器能够处理的每一内容样本的内容特征。在一些实施例中,转化模块可以包括一个卷积层。
本申请实施例中,首先,在第一特征层模块中确定出用于获取第一中间特征的至少一个中间特征层;然后,利用至少一个中间特征层输出的特征得到第一中间特征;最后,通过转化模块将第一中间特征转化为与第一解码器的第一特征层通道数相同的特征,从而得到第一解码器能够处理的内容样本的内容特征。
在一些实施例中,第一解码器包括第二特征层模块,如图3B所示,步骤S103“所述基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像”的实施可以包括如下步骤S1031至步骤S1034:
步骤S1031:在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。
这里,m可以为小于或等于编码器中特征层数量的任意数,例如,编码器中共有13个特征层,则m可以为0、1、7等任意小于或等于13的整数。
在一些实施例中,步骤S1031的实施可以包括如下步骤S201和步骤S202:
步骤S201:基于生成所述风格图像的任务内容,确定m的取值。
这里,由于第二特征层模块中不同特征层输出的特征对生成风格图像的影响不同,而生成风格图像的任务内容不同,需要影响风格图像的部分也不同,因此,需要从第一特征层模块中输入第二特征层模块的层数也不同。
例如,在生成风格图像的任务内容为图像编解码的情况下,需要只通过内容特征和风格编码就能重建出真实图像,以简化处理过程,所以不需要将第一特征层模块中的第二中间特征输入第二特征层模块中;同时,由于在得到风格编码之后,通常会对风格编码进行编辑,以改变人脸属性,若将第一特征层模块中的第二中间特征输入第二特征层模块中,只编辑风格编码,而不编辑输入的第二中间特征,会导致输出出现问题。所以,在生成风格图像的任务内容为图像编解码的情况下,m的数值可以为0。
又例如,在生成风格图像的任务内容为人脸超分辨率重建的情况下,需要获取更多的结构特征,考虑到前7层影响生成风格图像的结构特征,因此,m的数值可以为7。
又例如,在生成风格图像的任务内容为根据线稿生成人脸图像的情况下,m的数值可根据线稿的精细程度进行调整,若线稿越精细,则m的数值可以越大,以保留更多线稿的结构,反之,若线稿越粗糙,则m的数值可以越小,以尽可能优化线稿的结构。
又例如,在生成风格图像的任务内容为视频人脸属性编辑或视频人脸风格化的情况下,由于视频包含的信息较多,而需要修改的地方较少,因此,可以尽可能多的把视频的内容传过去,从而更好的实现对视频中内容的编辑,进而提高准确率。所以,m的数值可以大一些,例如编码器共包括13个特征层,则m的数值可以为13。
步骤S202:在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。
本申请实施例中,根据生成风格图像的任务内容,来分别确定前m个特征层中m的数值,实现针对不同任务内容,设置输入第二特征层模块中的特征层的数量,以便更好的训练模型完成任务。
步骤S1032:在所述目标特征层集合中,确定每一分辨率下的至少一个目标特征层。
这里,由于每一分辨率下的特征层的数量可能为至少一个,即存在大于等于2的情况,则步骤S1032确定出来的目标特征层可以是每一分辨率下的所有特征层,也可以是每一分辨率下的部分特征层,例如选择网路深度最深的特征层作为目标特征层,本申请实施例对目标特征层的选择方法不做限定。
步骤S1033:将所述至少一个目标特征层中的目标特征层输出的第二中间特征输入所述第二特征层模块中分辨率相同的至少一个特征层。
这里,同样第二特征层模块中每一分辨率下的特征层的数量也可能为至少一个,即存在大于等于2的情况,则步骤S1033的实施可以包括以下几种情况:
第一种情况:将多个分辨率相同的目标特征层输出的第二中间层输入多个第二特征层模块中分辨率相同的特征层中(一一对应的关系);
第二种情况:将一个目标特征层输出的第二中间层输入多个第二特征层模块中分辨率相同的特征层中;
第三种情况:将一个目标特征层输出的第二中间层输入一个第二特征层模块中分辨率相同的特征层中。
本申请实施例对将目标特征层输出的第二中间特征输入第二特征层模块中分辨率相同的特征层的方法不做限定。
步骤S1034:基于每一所述内容样本的内容特征、与所述内容特征对应的风格编码、以及输入所述第二特征层模块中的第二中间特征,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像。
这里,步骤S1034的实施可以包括以下两种情况:
第一种情况:对于第二特征层模块中输入第二中间特征的特征层:先根据第一特征层的内容特征和第一特征层的风格编码生成第三中间特征,再将第三中间特征与输入第一特征层的第二中间特征融合后得到第一特征层的输出特征;从第二特征层开始根据前一特征层的输出特征和当前特征层的风格编码生成第三中间特征,再将第三中间特征与输入当前特征层的第二中间特征融合后得到当前特征层的输出特征。
第二种情况:对于第二特征层模块中没有输入第二中间特征的特征层:根据前一特征层的输出特征和当前特征层的风格编码生成当前特征层的输出特征,最后一个特征层可输出得到可调的具有第二分辨率的风格图像。实施方式可参见相关技术。
本申请实施例中,通过将第一特征层模块中的目标特征层输出的第二中间特征输入第二特征层模块中分辨率相同的至少一个特征层中,实现为第一解码器生成的风格图像提供更多的结构信息,从而使得生成的风格图像包括更多的细节信息。
本申请实施例针对现有的基于StyleGAN的人像图像编辑方法受限于固定尺寸的图像且要求人脸对齐,只能处理输入的视野有限的人脸部分的区域,无法很好地完整地处理输入的常规视野的人脸图像视频的问题,提出了基于StyleGAN的人像编辑方法,该方法应用于包括解码器和编码器的模型。在解码器方面,对StyleGAN进行重构,扩大其前7层的感受野,将其输入由固定4*4大小的低分辨率特征变为可变大小的高分辨率特征,从而在不影响其本身的生成空间和编辑功能的前提下,使其支持非对齐完整人脸图像的生成和编辑。在编码器方面,提出了对应的人脸编码器,将常规视野的人脸图像编码为风格特征和内容特征作为重构的StyleGAN的输入,实现一个端到端全卷积的图像转换框架。根据输入和输出数据的不同,提供多种人脸图像编辑任务的训练和模型实例,实现人脸风格化、人脸超分辨率重建、人脸属性编辑以及根据线稿生成人脸图像等应用。
第一部分:重构StyleGAN的解码器:
如图2所示,将StyleGAN重构为StyleGANEX解码器。相较于StyleGAN,首先将第一层固定的4*4分辨率的特征替换为一个可变的分辨率为H*W的高分辨率特征,对应的输出图像的分辨率则由固定的1024*1024变为不固定的32H*32W。其次,对网络的前7层,去除上采操作(Upsample),并将每层的卷积调整为相应的空洞卷积以匹配感受野。其中,第1层的扩张率为8,第2至3层的扩张率为4,第4至5层的扩张率为2,第6至7层的扩张率为1。通过该重构,重构后的StyleGANEX解码器的输入变为了风格特征W+(即上述风格编码)和第一层的内容特征f(即上述内容特征),其中,风格特征W+与StyleGAN一致控制人脸的风格,而第一层的内容特征f编码了人脸在图像中的空间信息。
第二部分:针对重构的StyleGAN的解码器:
2.1网络模型:
如图4所示,在StyleGAN原本的解码器基础上,设计了StyleGANEX的解码器。训练模型时,将H×W的内容样本输入编码器中的第一特征层模块,相较于原本的编码器,风格特征W+(包括W1至W18)的编码保持不变。第一特征模块中的中间特征层输出编码器的中间特征(即上述第一中间特征),然后将编码器的中间特征串联并经过一个卷积层(即上述转化模块),得到编码器的第一层内容特征f,分辨率为H/8×W/8。在与解码器组成编码器-解码器的图像转换框架时,可选的,将编码器的中间特征通过跨层连接输出到解码器的中间层(即上述前m个特征层),从而更好地保持输入图像的细节信息。第一层内容特征f和风格特征W+输入StyleGANEX的解码器后,通过解码器输出风格图像,分辨率为4H×4W。
在一些实施例中,令编码器将图像(即上述内容样本)编码为风格编码的操作记为EW,将图像(即上述风格样本)编码为第一层内容特征(即上述内容特征)的操作记为EF。令l表示将编码器的l个特征层通过跨层连接输出到解码器的前l层(即上述m)。令StyleGANEX记为G,则根据内容输入x1(即上述内容样本)和风格输入x2(即上述风格样本)生成图像x′(即上述风格图像)的过程参见下公式(2):
x′=G(EF(x1,l),EW(x2)) (2);
2.2训练方案:
根据x1,x2,训练x′逼近真实图像x(即上述真实样本),一般化的训练目标参见如下公式(3):
L=Lrec(x′,x)+Lother(x′) x′=G(EF(x1,l),EW(x2)) (3);
其中,Lrec是重建损失,衡量x′与x的相似程度,常用的度量准则包含L1距离、L2距离、感知距离、身份相似度等。Lother是与生成风格图像的任务内容相关的损失函数,根据任务内容的不同可以有不同的定义。测试时,根据x1,x2,获得相应的人脸编辑结果x′。
下面根据不同的编辑任务提供相应的训练方案实例:
2.2.1.图像编解码:该任务将真实人脸图像编码为f和W+,然后解码为原始的人脸图像。对于真实人脸图像x(即上述真实样本,同时也为上述内容样本),其训练目标方程参见如下公式(4):
L=Lrec(x′,x),x′=G(EF(x,0),EW(xc)) (4);
应用时,通过对W+进行风格编辑,可以解码为对应风格编辑后的人脸图像。xc是从x中裁剪出来的对齐的人脸区域。
2.2.2.人脸超分辨率重建:该任务将低分辨率人脸图像编码为f和W+,然后解码为高分辨率的人脸图像。对于高分辨的人脸图像x(即上述真实样本)及其对应的低分辨率图像y,其训练目标方程参见如下公式(5):
L=Lrec(x′,x)+Ladv(x′,x),x′=G(EF(y,7),EW(yc)) (5);
其中,Ladv是生成对抗网络中的对抗损失,用来提升输出图像的真实性,yc(即上述风格样本)是从y(即上述内容样本)中裁剪出来的对齐的人脸区域。应用时,输入任意的低分辨率图像y,能获得其高分辨结果x′。
2.2.3.根据线稿生成人脸图像:该任务根据描述人脸结构的线稿生成对应的人脸彩色图像。对于真实人脸图像x(即上述真实样本)及其对应的线稿图像y,其训练目标方程参见如下公式(6):
Figure BDA0004105090870000161
其中,yc和xc分别是从y和x中裁剪出来的对齐的人脸区域。
Figure BDA0004105090870000162
是将yc提取的风格特征的前7个元素和xc提取的风格特征的后11个元素串联起来,组成新的风格特征。l是可调整的参数,若线稿越精细,则l越大以保留更多线稿的结构,反之则越小以尽可能优化线稿的结构。应用时,根据y和任意的风格编码,生成人脸图像。
2.4.视频人脸属性编辑:该任务将输入的视频中的人脸编辑为满足指定人脸属性的视频。对于真实人脸图像y,满足指定人脸属性(修改头发的颜色,改变表情等)的人脸图像x,及人脸属性编辑向量v,其训练目标方程参见如下公式(7):
L=Lrec(x′,x)+Ladv(x′,x)+Ltmp(x′);x′=G(EF(y,13),EW(yc)+v) (7);
其中,Ltmp是用于衡量时域连续性的损失函数(即上述时域连续性损失函数)。应用时,输入视频帧y和编辑向量v,就能得到对应的编辑后的视频帧x′。
2.2.5.视频人脸风格化:该任务风格化输入视频中的人脸。对于真实人脸图像y,风格化的人脸图像x,其训练目标方程参见如下公式(8):
L=Lrec(x′,x)+Ladv(x′,x)+Ltmp(x′),x′=G′(EF(y,13),EW(yc)) (8);
其中,G′是加载了在风格数据集上微调之后的StyleGAN模型的StyleGANEX。应用时,输入视频帧y,就能得到对应的风格化后的视频帧x′。
现有的基于StyleGAN的技术未改变StyleGAN本身的结构,需要对输入的人脸对齐,并且只能处理1024*1024的图像。本申请实施例提供的方案将基于的StyleGAN的人脸图像视频生成与编辑技术扩展到了常规视野的人脸图像,能处理未对齐的且视野范围更大的人脸图像,提升了技术的适用范围和实用性,本申请实施例提供的方案具有以下效果:
第一方面:本申请实施例通过重构StyleGAN的前7层,将其输入扩展为风格特征和可变分辨率的第一层内容特征,从而能够处理非对齐的分辨率不固定的输入;
第二方面:本申请实施例重构StyleGAN的前7层,并不改变其风格编辑功能,因此,能实现修改表情、视角等涉及结构风格的编辑任务。
第三方面:现有的StyleGAN编码器只将图像编码为风格特征,无法作用于重构的StyleGAN;本申请实施例提供的编码器额外提供了可变分辨率的第一层内容特征,从而能够处理非对齐的分辨率不固定的输入。
第四方面:本申请实施例提供的编码器同时编码内容和风格,端到端一起训练,因此能更好地完成学习任务。
本申请实施例提供的方案可应用的场景:
1、人脸图像修复:该技术可以将低分辨率的人脸图像转换为高分辨率的人脸图像,适合老旧照片修复,对老旧照片的分辨率进行重建,生成高分辨率的照片,低清图像在高清显示设备上的使用等。
2、人脸图像编辑:该技术可以修改人脸的属性,例如修改头发的颜色,改变表情等,还支持根据用户手绘的线稿生成对应的人脸结构,适用于用户订制照片内容(例如基于提供的照片,订制修改人脸的属性),数字人的设计与生成(例如根据手绘的线稿设计与生成数字人)等。
3、为用户定制艺术头像:通过该技术建立人像与卡通/漫画/讽刺画等艺术人像之间的映射关系,支持用户以自己的照片为基础生成各种风格的创意头像,支持在线会议的艺术化人脸渲染(通过对在线会议得到的视频风格化,实现在线会议的艺术化人脸渲染)。
4、艺术人像数据生成:该技术可以直接用于生成随机的艺术人像,生成的图像数据可用于头像设计、动漫海报广告等平面产品制作,也可用于后继的深度学习和分析,作为深度学习和分析的风格样例。
本申请实施例提供的方案可应用到图像修复重建、艺术图像设计、视频直播、视频编辑、显示用户头像的社交平台等相关产品中。
本申请实施例提供一种图像处理方法,该方法应用于包括编码器和第一解码器的模型,所述编码器包括全卷积网络,如图5所示,所述方法包括如下步骤S301至步骤S303:
步骤S301:获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例、以及预设的第二分辨率,其中,所述第一分辨率与所述第二分辨率之间存在倍数关系。
这里,内容图像为在生成步骤S303中的风格图像的过程中提供内容的图像。风格样例为在生成步骤S303中的风格图像的过程中提供风格的图像。风格图像为根据不同的图像生成任务生成得到的图像。图像生成任务包括但不限于人脸风格化、人脸超分辨率重建、人脸属性编辑、根据线稿生成人脸图像等。
预设的第二分辨率为步骤S303中生成的风格图像的分辨率,可以为非固定分辨率,即任意分辨率。由于第一分辨率与第二分辨率之间存在倍数关系,因此,在生成的风格图像的分辨率确定的情况下,内容图像的第一分辨率也是确定的。又由于第二分辨率是非固定分辨率的,则第一分辨率也是非固定分辨率的,即内容图像为非固定分辨率下的图像。
步骤S302:通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码。
步骤S303:基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
本申请实施例提供的方法应用于包括编码器和第一解码器的模型,其中,编码器包括全卷积网络。首先,根据全卷积网络的平移不变性和全卷积网络中卷积核的可复用性,使得编码器在输出风格编码的同时,可以输出可变分辨率下的内容特征。其次,第一解码器可以为基于StyleGAN解码器重构得到的可输入非固定分辨率下的内容特征,生成任意分辨率图像的解码器。如此一来,可以实现生成和编辑非固定分辨率下对齐或不对齐的图像,即输入的内容图像和生成的风格图像可以为非固定分辨率下对齐或不对齐的图像,从而解决了相关技术中只能处理固定尺寸的图像,且需要进行人脸对齐的问题。
在一些实施例中,所述编码器包括第一特征层模块和转化模块,步骤S302“通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码”的实施包括如下步骤S3021至步骤S3023:
步骤S3021:基于所述预设的第二分辨率和所述内容样本的第一分辨率,在所述第一特征层模块中确定至少一个中间特征层。
步骤S3022:基于所述内容图像,通过所述至少一个中间特征层获取所述风格图像的第一中间特征。
步骤S3023:基于所述第一中间特征,通过所述转化模块将所述第一中间特征转化为与所述第一解码器的第一特征层通道数相同的特征,以获取所述风格图像的内容特征。
本申请实施例中,首先,在第一特征层模块中确定出用于获取第一中间特征的至少一个中间特征层;然后,利用至少一个中间特征层输出的特征得到第一中间特征;最后,通过转化模块将第一中间特征转化为与第一解码器的第一特征层通道数相同的特征,从而得到第一解码器能够处理的风格图像的内容特征。
在一些实施例中,所述第一解码器包括第二特征层模块,步骤S303“基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像”的实施包括如下步骤S3031至步骤S3034:
步骤S3031:在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。
步骤S3032:在所述目标特征层集合中,确定每一分辨率下的至少一个目标特征层。
步骤S3033:将所述至少一个目标特征层中的目标特征层输出的第二中间特征输入所述第二特征层模块中分辨率相同的至少一个特征层。
步骤S3034:基于所述内容特征、所述第一风格编码、以及输入所述第二特征层模块中的第二中间特征,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
本申请实施例中,通过将第一特征层模块中的目标特征层输出的第二中间特征输入第二特征层模块中分辨率相同的至少一个特征层中,实现为第一解码器生成的风格图像提供更多的结构信息,从而使得生成的风格图像包括更多的细节信息。
在一些实施例中,步骤S3031“在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合”的实施包括如下步骤S401和步骤S402:
步骤S401:基于生成所述风格图像的任务内容,确定m的取值。
步骤S402:在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。
本申请实施例中,根据生成风格图像的任务内容,来分别确定前m个特征层中m的数值,实现针对不同任务内容,设置输入第二特征层模块中的特征层的数量,以使得生成的风格图像可以更好的显示内容图像所包含的结构信息。
在一些实施例中,在生成所述风格图像的任务内容包括图像编解码或人脸超分辨率重建的情况下,步骤S301中“获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例”的实施可以包括如下步骤S501至步骤S503:
步骤S501:获取待处理的具有第一分辨率的第一图像。
这里,在生成风格图像的任务内容包括图像编解码的情况下,第一图像可以为需要进行编解码的原始图像;在生成所述风格图像的任务内容包括人脸超分辨率重建的情况下,第一图像可以为低分辨率的人脸图像,例如需要进行修复的老旧照片。
步骤S502:基于所述第一图像,裁剪获取具有预设尺寸的对齐的第二图像。
这里,步骤S502的实施可以包括:对第一图像进行人脸检测,得到第一图像中的人脸检测框;以人脸检测框的中心为中心,裁剪出预设尺寸的区域,即为第二图像。
步骤S503:将所述第一图像作为所述内容图像,将所述第二图像作为所述风格样例。
需要说明的是,在一些实施例中,也可以不使用对齐的图像作为风格样例,即直接将第一图像作为风格样例,本申请实施例对风格样例是否对齐不做限定。
本申请实施例提供了在生成风格图像的任务内容包括图像编解码或人脸超分辨率重建的情况下,获取内容图像和风格样例的方法。在此情况下,风格样例可以通过裁剪内容图像得到。
在一些实施例中,在生成所述风格图像的任务内容包括图像编解码的情况下,在步骤S302“通过所述编码器获取所述风格样例的第一风格编码”之后,所述方法还包括如下步骤S601:
步骤S601:对所述第一风格编码进行编辑,得到编辑后的第二风格编码。
这里,第二风格编码为任务内容中定义的需要进行的人脸属性编辑对应的风格编码。例如,需要将原始图像中的人眼放大,则第二风格编码为将人眼放大对应的风格编码。步骤S601的实施指在进行图像编解码时,可以对第一图像(即原始图像)的风格编码进行编辑,从而得到编辑人脸属性的图像。
对应地,步骤S303“基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像”的实施可以包括:
基于所述内容特征和所述第二风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
本申请实施例提供了在生成风格图像的任务内容包括图像编解码的情况下,生成编辑人脸属性后的风格图像的方法。即将第一风格编码先编辑为需要进行的人脸属性编辑对应的第二风格编码,然后利用内容特征和第二风格编码,生成编辑人脸属性后的风格图像。
在一些实施例中,在生成所述风格图像的任务内容包括为根据线稿生成人脸图像的情况下,步骤S301中“获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例”的实施可以包括如下步骤S701至步骤S703:
步骤S701:获取待处理的线稿图像和具有待生成风格的第三图像。
这里,线稿图像指由线条组成没有上色的图像。第三图像为包含待生成风格的图像。实施时,第三图像可以为具有任意风格的图像。
步骤S702:分别基于所述线稿图像和所述第三图像,裁剪获取具有预设尺寸的对齐的第四图像和第五图像。
步骤S703:将所述线稿图像作为所述内容图像,将所述第四图像和所述第五图像均作为所述风格样例。
这里,由于第四图像来自线稿图像,可以提供更多的结构信息;而第五图像来自具有待生成风格的第三图像,可以提供更多的颜色信息,因此,可以将第四图像和第五图像均作为风格样例,通过结合第四图像和第五图像各自的优势,从而得到风格编码。例如,可以利用通过第四图像得到的风格编码的前七层和通过第五图像得到的风格编码的后11层串联后得到风格编码,从而使得得到的风格编码包含更多的结构信息和颜色信息。
对应地,步骤S302中“通过所述编码器获取所述风格样例的第一风格编码”的实施可以包括如下步骤S801至步骤S803:
步骤S801:将所述第四图像输入所述编码器,获取用于影响所述风格图像结构的第三风格编码。
这里,第三风格编码可以为第四图像输入编码器后前七层输出的风格编码。
步骤S802:将所述第五图像输入所述编码器,获取用于影响所述风格图像颜色的第四风格编码。
这里,第四风格编码可以为第五图像输入编码器后后十一层输出的风格编码。
步骤S803:将所述第三风格编码和所述第四风格编码串联后,得到所述风格样例的第一风格编码。
本申请实施例中,通过将第四图像得到的风格编码的前七层与第五图像得到的风格编码的后11层串联后得到风格编码,从而使得得到的风格编码包含更多的结构信息和颜色信息,进而使得最终生成的风格图像能够更加准确的体现线稿图像的结构特征和风格样例的风格特征。
在一些实施例中,在生成所述风格图像的任务内容包括视频人脸属性编辑或视频人脸风格化的情况下,步骤S301中“获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例”的实施可以包括如下步骤S901至步骤S903:
步骤S901:获取待处理的视频。
这里,待处理的视频指需要进行人脸属性编辑或人脸风格化的视频,例如可以为短视频直播、虚拟主播、在线会议等产品中的视频。
步骤S902:针对所述视频中的每一帧图像,裁剪获取具有预设尺寸的对齐的第六图像。
步骤S903:将所述视频中的每一帧图像作为所述内容图像,将与所述每一帧图像对应的第六图像作为所述风格样例。
本申请实施例中,通过将视频中的每一帧图像作为内容图像,将裁剪后每一帧图像作为风格样例,输入到本申请实施例提供的模型中,实现了对视频进行人脸属性编辑或人脸风格化。
在一些实施例中,在生成所述风格图像的任务内容包括视频人脸属性编辑的情况下,所述方法还包括如下步骤:获取对所述视频中人脸属性进行编辑的编辑向量。
这里,编辑向量指对人脸属性进行编辑的向量。对人脸属性的编辑可以包括放大眼睛、消除痣等编辑。
对应地,在步骤S302“通过所述编码器获取所述风格样例的第一风格编码”之后,还包括如下步骤:
将所述第一风格编码和所述编辑向量相加后,得到第五风格编码。
对应地,步骤S303“基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像”的实施可以包括如下步骤:基于所述内容特征和所述第五风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
本申请实施例提供了在生成风格图像的任务内容包括视频人脸属性编辑的情况下,生成风格图像的方法。由于生成风格图像的任务内容为视频人脸属性编辑,因此需要将第一风格编码和编辑向量相加得到第五风格编码后,再利用内容特征和第五风格编码,生成的风格图像。
在一些实施例中,在生成所述风格图像的任务内容包括视频人脸风格化的情况下,步骤S303“基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像”的实施可以包括:基于所述内容特征和所述第一风格编码,通过第二解码器生成可调的具有所述第二分辨率的风格图像,其中,所述第二解码器为采用风格样本集合对所述第一解码器进行微调后得到的解码器。
本申请实施例提供了在生成风格图像的任务内容包括人脸风格化的情况下,生成风格图像的方法。由于生成风格图像的任务内容为视频人脸风格化,因此,需要先对第一解码器进行微调,得到能够生成风格图像的第二解码器,然后利用第二解码器生成的风格图像。
基于前述的实施例,本申请实施例提供一种模型训练装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(Central ProcessingUnit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(Digital SignalProcessor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等。
图6为本申请实施例提供的一种模型训练装置的组成结构示意图,所述模型包括编码器和第一解码器,所述编码器包括全卷积网络,如图6所示,模型训练装置600包括:第一获取模块610、第二获取模块620、第一生成模块630和训练模块640,其中:
第一获取模块610,用于获取内容样本集合、风格样本集合和真实样本集合,其中,所述内容样本集合中的内容样本为具有第一分辨率的图像,且所述第一分辨率与预设的第二分辨率之间存在倍数关系;
第二获取模块620,用于通过所述编码器获取每一内容样本的内容特征,以及所述风格样本集合中与每一内容样本对应风格样本的第一风格编码;
第一生成模块630,用于基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像,并得到包括所述风格图像的风格图像集合;
训练模块640,用于基于所述风格图像集合中的各风格图像和所述真实样本集合中与每一所述风格图像对应的真实样本,对所述模型进行迭代训练,直至满足收敛条件。
在一些实施例中,所述第一解码器为基于StyleGAN解码器重构的,采用与所述StyleGAN解码器处理固定分辨率下的内容特征的等效方式来处理第一非固定分辨率下的内容特征,以生成第二非固定分辨率的风格图像的解码器。
在一些实施例中,所述编码器包括第一特征层模块和转化模块,所述第二获取模块,包括:第一确定子模块,用于针对所述每一内容样本,基于所述预设的第二分辨率和所述内容样本的第一分辨率,在所述第一特征层模块中确定至少一个中间特征层;第一获取子模块,用于基于所述每一内容样本,通过所述至少一个中间特征层获取与所述内容样本对应风格图像的第一中间特征;第一转化子模块,用于基于所述第一中间特征,通过所述转化模块将所述第一中间特征转化为与所述第一解码器的第一特征层通道数相同的特征,以获取所述每一内容样本的内容特征。
在一些实施例中,所述第一解码器包括第二特征层模块,所述第一生成模块,包括:第二确定子模块,用于在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合;第三确定子模块,用于在所述目标特征层集合中,确定每一分辨率下的至少一个目标特征层;第一输入子模块,用于将所述至少一个目标特征层中的目标特征层输出的第二中间特征输入所述第二特征层模块中分辨率相同的至少一个特征层;第一生成子模块,用于基于每一所述内容样本的内容特征、与所述内容特征对应的风格编码、以及输入所述第二特征层模块中的第二中间特征,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像。
在一些实施例中,所述第二确定子模块,包括:第一确定单元,用于基于生成所述风格图像的任务内容,确定m的取值;第二确定单元,用于在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。
在一些实施例中,所述训练模块,包括:第四确定子模块,用于基于生成所述风格图像的任务内容,确定用于训练所述模型的损失函数;第五确定子模块,用于基于生成的风格图像集合中的各风格图像和与每一所述风格图像对应的真实样本,确定所述损失函数对应的损失值;完成子模块,用于在所述损失值满足收敛条件的情况下,完成对所述模型的训练。
在一些实施例中,在生成所述风格图像的任务内容包括图像编解码或根据线稿生成人脸图像的情况下,所述损失函数包括重建损失,其中,所述重建损失用于表征生成的风格图像与对应真实样本之间的相似程度;和/或,在生成所述风格图像的任务内容包括人脸超分辨率重建的情况下,所述损失函数包括所述重建损失和对抗损失,其中,所述对抗损失为所述第一解码器的对抗损失;和/或,在生成所述风格图像的任务内容为视频人脸属性编辑或视频人脸风格化的情况下,所述损失函数包括所述重建损失、所述对抗损失和时域连续性损失,其中,所述时域连续性损失用于表征所述视频中不同图像帧生成的风格图像中语义相同部分像素的一致性。
本申请实施例还提供的一种图像处理装置,所述图像处理装置应用于包括编码器和第一解码器的模型,所述编码器包括全卷积网络,所述图像处理装置包括:第三获取模块、第四获取模块和第二生成模块,其中:
第三获取模块,用于获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例、以及预设的第二分辨率,其中,所述第一分辨率与所述第二分辨率之间存在倍数关系;
第四获取模块,用于通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码;
第二生成模块,用于基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
在一些实施例中,所述编码器包括第一特征层模块和转化模块,所述第四获取模块,包括:第六确定子模块,用于基于所述预设的第二分辨率和所述内容样本的第一分辨率,在所述第一特征层模块中确定至少一个中间特征层;第二获取子模块,用于基于所述内容图像,通过所述至少一个中间特征层获取所述风格图像的第一中间特征;第二转化子模块,用于基于所述第一中间特征,通过所述转化模块将所述第一中间特征转化为与所述第一解码器的第一特征层通道数相同的特征,以获取所述风格图像的内容特征。
在一些实施例中,所述第一解码器包括第二特征层模块,所述第二生成模块,包括:第七确定子模块,用于在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合;第八确定子模块,用于在所述目标特征层集合中,确定每一分辨率下的至少一个目标特征层;第二输入子模块,用于将所述至少一个目标特征层中的目标特征层输出的第二中间特征输入所述第二特征层模块中分辨率相同的至少一个特征层;第二生成子模块,用于基于所述内容特征、所述第一风格编码、以及输入所述第二特征层模块中的第二中间特征,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
在一些实施例中,所述第七确定子模块,包括:第三确定单元,用于基于生成所述风格图像的任务内容,确定m的取值;第四确定单元,用于在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。
在一些实施例中,在生成所述风格图像的任务内容包括图像编解码或人脸超分辨率重建的情况下,所述第三获取模块,包括:第三获取子模块,用于获取待处理的具有第一分辨率的第一图像;第一裁剪子模块,用于基于所述第一图像,裁剪获取具有预设尺寸的对齐的第二图像;第八确定子模块,用于将所述第一图像作为所述内容图像,将所述第二图像作为所述风格样例。
在一些实施例中,在生成所述风格图像的任务内容包括图像编解码的情况下,在通过所述编码器获取所述风格样例的第一风格编码之后,所述装置还包括:编辑模块,用于对所述第一风格编码进行编辑,得到编辑后的第二风格编码;所述第二生成模块,还用于:基于所述内容特征和所述第二风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
在一些实施例中,在生成所述风格图像的任务内容包括为根据线稿生成人脸图像的情况下,所述第三获取模块,包括:第四获取子模块,用于获取待处理的线稿图像和具有待生成风格的第三图像;第二裁剪子模块,用于分别基于所述线稿图像和所述第三图像,裁剪获取具有预设尺寸的对齐的第四图像和第五图像;第九确定子模块,用于将所述线稿图像作为所述内容图像,将所述第四图像和所述第五图像均作为所述风格样例;对应地,所述第四获取模块,包括:第五获取子模块,用于将所述第四图像输入所述编码器,获取用于影响所述风格图像结构的第三风格编码;第六获取子模块,用于将所述第五图像输入所述编码器,获取用于影响所述风格图像颜色的第四风格编码;串联子模块,用于将所述第三风格编码和所述第四风格编码串联后,得到所述风格样例的第一风格编码。
在一些实施例中,在生成所述风格图像的任务内容包括视频人脸属性编辑或视频人脸风格化的情况下,所述第三获取模块,包括:第七获取子模块,用于获取待处理的视频;第三裁剪子模块,用于针对所述视频中的每一帧图像,裁剪获取具有预设尺寸的对齐的第六图像;第十确定子模块,用于将所述视频中的每一帧图像作为所述内容图像,将与所述每一帧图像对应的第六图像作为所述风格样例。
在一些实施例中,在生成所述风格图像的任务内容包括视频人脸属性编辑的情况下,所述装置还包括:第五获取模块,用于获取对所述视频中人脸属性进行编辑的编辑向量;对应地,在通过所述编码器获取所述风格样例的第一风格编码之后,所述装置还包括:相加模块,用于将所述第一风格编码和所述编辑向量相加后,得到第五风格编码;所述第二生成模块,还用于基于所述内容特征和所述第五风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
在一些实施例中,在生成所述风格图像的任务内容包括视频人脸风格化的情况下,所述第二生成模块,还用于基于所述内容特征和所述第一风格编码,通过第二解码器生成可调的具有所述第二分辨率的风格图像,其中,所述第二解码器为采用风格样本集合对所述第一解码器进行微调后得到的解码器。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
若本申请技术方案涉及个人信息,应用本申请技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本申请技术方案涉及敏感个人信息,应用本申请技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式、处理的个人信息种类等信息。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的模型训练及图像处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
本申请实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在计算机设备中运行的情况下,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,图7为本申请实施例中计算机设备的一种硬件实体示意图,如图7所示,该计算机设备700的硬件实体包括:处理器701、通信接口702和存储器703,其中:
处理器701通常控制计算机设备700的总体操作。
通信接口702可以使计算机设备通过网络与其他终端或服务器通信。
存储器703配置为存储由处理器701可执行的指令和应用,还可以缓存待处理器701以及计算机设备700中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。处理器701、通信接口702和存储器703之间可以通过总线704进行数据传输。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (15)

1.一种模型训练方法,其特征在于,所述模型包括编码器和第一解码器,所述编码器包括全卷积网络,所述方法包括:
获取内容样本集合、风格样本集合和真实样本集合,其中,所述内容样本集合中的内容样本为具有第一分辨率的图像,且所述第一分辨率与预设的第二分辨率之间存在倍数关系;
通过所述编码器获取每一内容样本的内容特征,以及所述风格样本集合中与每一内容样本对应风格样本的第一风格编码;
基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像,并得到包括所述风格图像的风格图像集合;
基于所述风格图像集合中的各风格图像和所述真实样本集合中与每一所述风格图像对应的真实样本,对所述模型进行迭代训练,直至满足收敛条件。
2.根据权利要求1所述的训练方法,其特征在于,所述第一解码器为基于StyleGAN解码器重构的,采用与所述StyleGAN解码器处理固定分辨率下的内容特征的等效方式来处理第一非固定分辨率下的内容特征,以生成第二非固定分辨率的风格图像的解码器。
3.根据权利要求1或2所述的训练方法,其特征在于,所述编码器包括第一特征层模块和转化模块,所述通过所述编码器获取每一内容样本的内容特征,包括:
针对所述每一内容样本,基于所述预设的第二分辨率和所述内容样本的第一分辨率,在所述第一特征层模块中确定至少一个中间特征层;
基于所述每一内容样本,通过所述至少一个中间特征层获取与所述内容样本对应风格图像的第一中间特征;
基于所述第一中间特征,通过所述转化模块将所述第一中间特征转化为与所述第一解码器的第一特征层通道数相同的特征,以获取所述每一内容样本的内容特征。
4.根据权利要求3所述的训练方法,其特征在于,所述第一解码器包括第二特征层模块,所述基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像,包括:
在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合;
在所述目标特征层集合中,确定每一分辨率下的至少一个目标特征层;
将所述至少一个目标特征层中的目标特征层输出的第二中间特征输入所述第二特征层模块中分辨率相同的至少一个特征层;
基于每一所述内容样本的内容特征、与所述内容特征对应的风格编码、以及输入所述第二特征层模块中的第二中间特征,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像。
5.根据权利要求4所述的训练方法,其特征在于,所述在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合,包括:
基于生成所述风格图像的任务内容,确定m的取值;
在所述第一特征层模块中确定与所述第二特征层模块中的前m个特征层的分辨率相同的目标特征层集合。
6.根据权利要求1或2所述的训练方法,其特征在于,所述基于生成的风格图像集合中的各风格图像和与每一所述风格图像对应的真实样本,对所述模型进行迭代训练,直至满足收敛条件,包括:
基于生成所述风格图像的任务内容,确定用于训练所述模型的损失函数;
基于生成的风格图像集合中的各风格图像和与每一所述风格图像对应的真实样本,确定所述损失函数对应的损失值;
在所述损失值满足收敛条件的情况下,完成对所述模型的训练。
7.根据权利要求6所述的训练方法,其特征在于,
在生成所述风格图像的任务内容包括图像编解码或根据线稿生成人脸图像的情况下,所述损失函数包括重建损失,其中,所述重建损失用于表征生成的风格图像与对应真实样本之间的相似程度;
和/或,在生成所述风格图像的任务内容包括人脸超分辨率重建的情况下,所述损失函数包括所述重建损失和对抗损失,其中,所述对抗损失为所述第一解码器的对抗损失;
和/或,在生成所述风格图像的任务内容为视频人脸属性编辑或视频人脸风格化的情况下,所述损失函数包括所述重建损失、所述对抗损失和时域连续性损失,其中,所述时域连续性损失用于表征所述视频中不同图像帧生成的风格图像中语义相同部分像素的一致性。
8.一种图像处理方法,其特征在于,所述方法应用于包括编码器和第一解码器的模型,所述编码器包括全卷积网络,所述方法包括:
获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例、以及预设的第二分辨率,其中,所述第一分辨率与所述第二分辨率之间存在倍数关系;
通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码;
基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
9.根据权利要求8所述的方法,其特征在于,在生成所述风格图像的任务内容包括图像编解码或人脸超分辨率重建的情况下,所述获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例,包括:
获取待处理的具有第一分辨率的第一图像;
基于所述第一图像,裁剪获取具有预设尺寸的对齐的第二图像;
将所述第一图像作为所述内容图像,将所述第二图像作为所述风格样例。
10.根据权利要求8所述的方法,其特征在于,在生成所述风格图像的任务内容包括为根据线稿生成人脸图像的情况下,所述获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例,包括:
获取待处理的线稿图像和具有待生成风格的第三图像;
分别基于所述线稿图像和所述第三图像,裁剪获取具有预设尺寸的对齐的第四图像和第五图像;
将所述线稿图像作为所述内容图像,将所述第四图像和所述第五图像均作为所述风格样例;
对应地,所述通过所述编码器获取所述风格样例的第一风格编码,包括:
将所述第四图像输入所述编码器,获取用于影响所述风格图像结构的第三风格编码;
将所述第五图像输入所述编码器,获取用于影响所述风格图像颜色的第四风格编码;
将所述第三风格编码和所述第四风格编码串联后,得到所述风格样例的第一风格编码。
11.根据权利要求8所述的方法,其特征在于,在生成所述风格图像的任务内容包括视频人脸属性编辑的情况下,所述方法还包括:
获取对所述视频中人脸属性进行编辑的编辑向量;
对应地,在通过所述编码器获取所述风格样例的第一风格编码之后,还包括:
将所述第一风格编码和所述编辑向量相加后,得到第五风格编码;
所述基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像,包括:
基于所述内容特征和所述第五风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
12.一种模型训练装置,其特征在于,所述模型包括编码器和第一解码器,所述编码器包括全卷积网络,所述模型训练装置包括:
第一获取模块,用于获取内容样本集合、风格样本集合和真实样本集合,其中,所述内容样本集合中的内容样本为具有第一分辨率的图像,且所述第一分辨率与预设的第二分辨率之间存在倍数关系;
第二获取模块,用于通过所述编码器获取每一内容样本的内容特征,以及所述风格样本集合中与每一内容样本对应风格样本的第一风格编码;
第一生成模块,用于基于每一所述内容样本的内容特征和与所述内容特征对应的第一风格编码,通过所述第一解码器,生成可调的具有所述第二分辨率的风格图像,并得到包括所述风格图像的风格图像集合;
训练模块,用于基于所述风格图像集合中的各风格图像和所述真实样本集合中与每一所述风格图像对应的真实样本,对所述模型进行迭代训练,直至满足收敛条件。
13.一种图像处理装置,其特征在于,所述图像处理装置应用于包括编码器和第一解码器的模型,所述编码器包括全卷积网络,所述图像处理装置包括:
第三获取模块,用于获取待处理的具有第一分辨率的内容图像、与所述内容图像匹配的风格样例、以及预设的第二分辨率,其中,所述第一分辨率与所述第二分辨率之间存在倍数关系;
第四获取模块,用于通过所述编码器获取所述内容图像的内容特征和所述风格样例的第一风格编码;
第二生成模块,用于基于所述内容特征和所述第一风格编码,通过所述第一解码器生成可调的具有所述第二分辨率的风格图像。
14.一种计算机设备,其特征在于,包括:存储器和处理器,
所述存储器存储有可在所述处理器上运行的计算机程序,
所述处理器执行所述计算机程序时,实现权利要求1至7任一项所述方法中的步骤,或者,实现权利要求8至11任一项所述方法中的步骤。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7任一项所述方法中的步骤,或者,实现权利要求8至11任一项所述方法中的步骤。
CN202310189704.7A 2023-02-28 2023-02-28 模型训练及图像处理方法、装置、设备及存储介质 Pending CN116152631A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310189704.7A CN116152631A (zh) 2023-02-28 2023-02-28 模型训练及图像处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310189704.7A CN116152631A (zh) 2023-02-28 2023-02-28 模型训练及图像处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116152631A true CN116152631A (zh) 2023-05-23

Family

ID=86373522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310189704.7A Pending CN116152631A (zh) 2023-02-28 2023-02-28 模型训练及图像处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116152631A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912345A (zh) * 2023-07-12 2023-10-20 天翼爱音乐文化科技有限公司 一种人像动漫化处理方法、装置、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912345A (zh) * 2023-07-12 2023-10-20 天翼爱音乐文化科技有限公司 一种人像动漫化处理方法、装置、设备和存储介质
CN116912345B (zh) * 2023-07-12 2024-04-26 天翼爱音乐文化科技有限公司 一种人像动漫化处理方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
US11074733B2 (en) Face-swapping apparatus and method
Chen et al. Deep generation of face images from sketches
US11593615B2 (en) Image stylization based on learning network
Lample et al. Fader networks: Manipulating images by sliding attributes
Lukac Computational photography: methods and applications
Liu et al. Robust single image super-resolution via deep networks with sparse prior
Qian et al. Make a face: Towards arbitrary high fidelity face manipulation
WO2021017113A1 (zh) 图像处理方法及装置、处理器、电子设备及存储介质
CN111127304B (zh) 跨域图像转换
Deng et al. Deep coupled ISTA network for multi-modal image super-resolution
CN111402143A (zh) 图像处理方法、装置、设备及计算机可读存储介质
Jiang et al. Depth super-resolution from RGB-D pairs with transform and spatial domain regularization
JP7246811B2 (ja) 顔画像生成用のデータ処理方法、データ処理機器、コンピュータプログラム、及びコンピュータ機器
US11893717B2 (en) Initializing a learned latent vector for neural-network projections of diverse images
CN112868224A (zh) 捕获和编辑动态深度图像的技术
WO2023179074A1 (zh) 图像融合方法及装置、电子设备、存储介质、计算机程序、计算机程序产品
CN110163795A (zh) 一种图像处理方法、电子设备及计算机可读存储介质
CN116152631A (zh) 模型训练及图像处理方法、装置、设备及存储介质
DE102021109050A1 (de) Durch ein neuronales generative adversarial netzwerk unterstützte videokompression und -übertragung
CN113392791A (zh) 一种皮肤预测处理方法、装置、设备及存储介质
Ho et al. Deep preset: Blending and retouching photos with color style transfer
Chai et al. Neural hair rendering
CN115170388A (zh) 人物线稿生成方法、装置、设备及介质
Li et al. Guided depth map super-resolution using recumbent y network
Lin et al. Catch Missing Details: Image reconstruction with frequency augmented variational autoencoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination