CN115393181A - 美漫风格的头像生成模型的训练、生成方法及电子设备 - Google Patents
美漫风格的头像生成模型的训练、生成方法及电子设备 Download PDFInfo
- Publication number
- CN115393181A CN115393181A CN202211055003.6A CN202211055003A CN115393181A CN 115393181 A CN115393181 A CN 115393181A CN 202211055003 A CN202211055003 A CN 202211055003A CN 115393181 A CN115393181 A CN 115393181A
- Authority
- CN
- China
- Prior art keywords
- head portrait
- avatar
- loss
- cartoon
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000006243 chemical reaction Methods 0.000 claims abstract description 40
- 230000000694 effects Effects 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000015654 memory Effects 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 10
- 230000008447 perception Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims 1
- 238000011835 investigation Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及图像处理技术领域,具体涉及美漫风格的头像生成模型的训练、生成方法及电子设备,训练方法包括获取样本图像对,样本图像对包括真实头像以及对应的卡通头像;将真实头像输入头像生成模型的特征编码模块中,确定特征编码;将特征编码输入头像生成模型的头像风格生成模块中,确定预测卡通头像,头像风格生成模块是预训练得到的;检测卡通头像与预测卡通头像的人脸关键点,并确定人脸关键点损失;基于卡通头像与预设卡通头像的差异,确定图像转换损失;根据人脸关键点损失与图像转换损失的融合结果,对特征编码模块的参数进行更新,以确定目标头像生成模型。该方法增加了目标一致性的考察维度,在图像转换中,更快的收敛到目标效果。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及美漫风格的头像生成模型的训练、生成方法及电子设备。
背景技术
现有的头像生成模型可以随机生成图片,例如,人脸,动漫等,通过人工神经网络可以得到一个从离散的隐空间到人脸图像的生成器。其中,隐空间指原始数据经过压缩或编码后的数据(即特征向量)所在的空间。但是,对真实人脸图像进行编辑时,首先需要把图像投射到潜空间生成隐码,然后再基于进行人脸重建,但重建的过程不但耗时且效果不理想。
发明内容
有鉴于此,本发明实施例提供了一种美漫风格的头像生成模型的训练、生成方法及电子设备,以解决生成头像的效率较低且效果不理想的问题。
根据第一方面,本发明实施例提供了一种美漫风格的头像生成模型的训练方法,包括:
获取样本图像对,所述样本图像对包括真实头像以及对应的卡通头像;
将所述真实头像输入头像生成模型的特征编码模块中,确定特征编码;
将所述特征编码输入所述头像生成模型的头像风格生成模块中,确定预测卡通头像,所述头像风格生成模块是预训练得到的;
检测所述卡通头像与所述预测卡通头像的人脸关键点,并确定人脸关键点损失;
基于所述卡通头像与所述预设卡通头像的差异,确定图像转换损失;
根据所述人脸关键点损失与所述图像转换损失的融合结果,对所述特征编码模块的参数进行更新,以确定目标头像生成模型。
本发明实施例提供的美漫风格的头像生成模型的训练方法,在损失函数的设计中,增加了人脸关键点损失,相应地,增加了目标一致性的考察维度,在图像转换中,更快的收敛到目标效果,提高了训练效率及所得到的目标头像生成模型的准确性;同时,由于在训练过程中采用的是预训练得到的头像风格生成模块,减少了模型训练所用的时长。
在一些实施方式中,所述根据所述人脸关键点损失与所述图像转换损失的融合结果,对所述特征编码模块的参数进行更新,以确定目标头像生成模型,包括:
获取多组权重组合,所述权重组合中包括与所述人脸关键点损失与所述图像转换损失一一对应的权重;
对于各个所述权重组合,对所述人脸关键点损失与所述图像转换损失进行融合,得到对应的综合损失;
利用所述综合损失对所述特征编码模块的参数进行更新,得到可选头像生成模型;
基于所述可选头像生成模型的训练效果,从所述可选头像生成模型中确定所述目标头像生成模型,所述训练效果包括训练时长以及所述可选头像生成模型的精准度中的至少一种。
本发明实施例提供的美漫风格的头像生成模型的训练方法,在训练过程中对人脸关键点损失以及图像转换损失进行融合时,采用的是多组权重组合的方式进行融合,即,采用多组不同的权重进行融合,最终利用各组权重组合所得到的可选头像生成模型的训练效果确定出目标头像生成模型,提高了目标头像生成模型的准确性。
在一些实施方式中,所述获取多组权重组合,包括:
获取各个所述权重的取值范围;
基于所述取值范围生成所述权重的取值,以得到所述多组权重组合。
本发明实施例提供的美漫风格的头像生成模型的训练方法,利用各个权重的取值范围确定权重的取值,保证所得到的各组权重组合能够满足实际应用的需求。
在一些实施方式中,所述基于所述卡通头像与所述预设卡通头像的差异,确定图像转换损失,包括:
分别对所述卡通头像以及所述预设卡通头像进行人脸特征提取,得到第一人脸特征与第二人脸特征;
基于所述第一人脸特征以及所述第二人脸特征进行损失计算,确定特征损失;
基于所述卡通头像与所述预设卡通头像,分别计算像素损失以及感知损失,所述图像转换损失包括所述特征损失、所述像素损失以及所述感知损失。
本发明实施例提供的美漫风格的头像生成模型的训练方法,在图像转换损失中包括特征损失、像素损失以及感知损失,即,在训练过程中结合多种损失,进一步保证了训练所得到的目标头像生成模型的准确性。
在一些实施方式中,所述特征编码模块是基于特征金字塔网络构建的,所述将所述真实头像输入头像生成模型的特征编码模块中,确定特征编码,包括:
将所述真实头像输入所述特征编码模块中,提取多个金字塔尺度的特征向量,以确定所述特征编码。
在一些实施方式中,所述将所述特征编码输入所述头像生成模型的头像风格生成模块中,确定预测卡通头像,包括:
基于所述特征编码中各特征向量的金字塔尺度,将所述特征向量输入所述头像风格生成模块的对应网络层中进行图像重建,确定所述预测卡通头像。
本发明实施例提供的美漫风格的头像生成模型的训练方法,基于特征金字塔网络结构,从不同的金字塔尺度中提取风格向量并根据其空间尺度直接插入到固定的预训练的头像风格生成模块中,可以直接完成图像重建,生成转化后的图像,避免耗时的优化过程。
根据第二方面,本发明实施例提供了一种美漫风格的头像生成方法,包括:
获取待处理人脸图像;
将所述待处理人脸图像输入目标头像生成模型中,得到目标卡通头像,所述目标头像生成模型是根据本发明第一方面或第一方面任一项实施方式中所述的美漫风格的头像生成模型的训练方法训练得到的。
本发明实施例提供的美漫风格的头像生成方法,由于所训练得到的目标头像生成模型的准确性,基于此,对待处理人脸图像进行处理后得到的目标卡通头像更加贴合人脸,且整个处理过程的延时较短,能够快速得到待处理人脸图像对应的目标卡通头像。
在一些实施方式中,所述获取待处理人脸图像,包括:
获取包含人脸的待处理图像;
对所述待处理图像进行人脸检测得到人脸图像;
基于所述人脸图像进行人脸对齐及归一化处理,确定所述待处理人脸图像。
本发明实施例提供的美漫风格的头像生成方法,对待处理图像检测得到人脸图像后,进行人脸对齐及归一化处理,能够保证输入目标头像生成模型的待处理图像符合模型的尺寸需求,以及人脸对齐后能够更加准确地进行人脸特征等的识别,进一步提高了所生成的目标卡通头像的效率及可靠性。
根据第三方面,本发明实施例提供了一种美漫风格的头像生成模型的训练装置,包括:
第一获取模块,用于获取样本图像对,所述样本图像对包括真实头像以及对应的卡通头像;
第一输入模块,用于将所述真实头像输入头像生成模型的特征编码模块中,确定特征编码;
第二输入模块,用于将所述特征编码输入所述头像生成模型的头像风格生成模块中,确定预测卡通头像,所述头像风格生成模块是预训练得到的;
检测模块,用于检测所述卡通头像与所述预测卡通头像的人脸关键点,并确定人脸关键点损失;
确定模块,用于基于所述卡通头像与所述预设卡通头像的差异,确定图像转换损失;
更新模块,用于根据所述人脸关键点损失与所述图像转换损失的融合结果,对所述特征编码模块的参数进行更新,以确定目标头像生成模型。
根据第四方面,本发明实施例提供了一种美漫风格的头像生成装置,包括:
第二获取模块,用于获取待处理人脸图像;
第三输入模块,用于将所述待处理人脸图像输入目标头像生成模型中,得到目标卡通头像,所述目标头像生成模型是根据本发明第一方面,或第一方面任一项实施方式中所述的美漫风格的头像生成模型的训练方法训练得到的。
根据第五方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的美漫风格的头像生成模型的训练方法,或执行第二方面或者第二方面的任意一种实施方式中所述的美漫风格的头像生成方法。
根据第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的美漫风格的头像生成模型的训练方法,或执行第二方面或者第二方面的任意一种实施方式中所述的美漫风格的头像生成方法。
本发明实施例提供的美漫风格的头像生成模型的训练装置、美漫风格的头像生成装置、电子设备及计算机可读存储介质的相应有益效果,请参见上文美漫风格的头像生成模型的训练方法以及美漫风格的头像生成方法的对应有益效果的描述,在此不再赘述。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的美漫风格的头像生成模型的训练方法的流程图;
图2是根据本发明实施例的美漫风格的头像生成模型的训练方法的流程图;
图3是根据本发明实施例的目标头像生成模型的结构示意图;
图4是根据本发明实施例的美漫风格的头像生成方法的流程图;
图5是根据本发明实施例的美漫风格的头像生成模型的训练装置的结构框图;
图6是根据本发明实施例的美漫风格的头像生成装置的结构框图;
图7是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例,提供了一种美漫风格的头像生成模型的训练方法,以及美漫风格的头像生成方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种美漫风格的头像生成模型的训练方法,可用于电子设备,如电脑、服务器、移动终端等,图1是根据本发明实施例的美漫风格的头像生成模型的训练方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取样本图像对。
其中,所述样本图像对包括真实头像以及对应的卡通头像。
真实头像及其对应的卡通头像,可以是不限年龄,不限性别,不限肤色的头像,为了保证后续训练得到的目标头像生成模型能够适用于不同的应用场景,在对样本图像对进行选择时可以不限制人脸的年龄、性别肤色等等。样本图像对可以是存储在电子设备中的;也可以是存储在云存储中,电子设备在训练目标头像生成模型时,从云存储中进行样本图像对的获取,等等。具体根据实际需求进行设置,在此对样本图像对的来源并不做任何限制。
S12,将真实头像输入头像生成模型的特征编码模块中,确定特征编码。
头像生成模型包括特征编码模块以及头像风格生成模块,特征编码模块对输入的真实头像进行特征编码,生成扩展的隐空间隐码。其中,隐空间是指原始数据经过压缩(编码)后的数据(即特征向量)所在的空间,隐码是隐空间的特征向量。
S13,将特征编码输入头像生成模型的头像风格生成模块中,确定预测卡通头像。
其中,所述头像风格生成模块是预训练得到的。
头像风格生成模型的输入为特征编码,输出为预测卡通头像。头像风格生成模型对输入的特征编码进行重建,其网络结构可以是基于StyleGan生成器得到的,也可以是基于其他网络模型得到的,在此对其并不做任何限定。
S14,检测卡通头像与预测卡通头像的人脸关键点,并确定人脸关键点损失。
对于检测卡通头像的人脸关键点可以是在构建样本图像对时,确定出卡通头像的人脸关键点与卡通头像一并存储,对人脸关键点的检测可以是利用人脸关键点检测模型实现的,例如,基于轻量级的PFLD网络进行关键点提取。
在得到卡通头像以及预测卡通头像的人脸关键点之后,利用相应的损失函数进行人脸关键点损失的计算。例如,可以采用wing loss进行损失函数的计算。
S15,基于卡通头像与预设卡通头像的差异,确定图像转换损失。
卡通头像与预设卡通头像的差异,可以是利用两者相同位置像素点的差异,或者也可以是利用两者人脸特征,基于人脸特征进行特征损失的计算;或者,将多个损失进行融合得到图像转换损失。
在一些实施方式中,图像转换损失还可以包括人脸形状和表情损失。例如,本实施例中的头像生成模型是基于人脸3D形变统计模型,该模型是将2D图像中人脸进行3D重建。通过求解人脸三维重建的过程中可以精确的对人脸形状,纹理和表情等属性参数进行量化,得到相关人脸属性的参数序列。在本实施例的卡通化人脸图像的生成过程中,可以同时对预测的卡通人脸和目标卡通人脸分别进行三维人脸属性参数,进一步基于均方误差的准则计算人脸形状和表情损失,可以有效促使本实施例中的头像生成模型生成的卡通人脸在人脸表情等属性方面逼近真实目标。
关于该步骤具体将在下文中进行详细描述。
S16,根据人脸关键点损失与图像转换损失的融合结果,对特征编码模块的参数进行更新,以确定目标头像生成模型。
电子设备将人脸关键点损失与图像转换损失进行融合,得到综合损失;再基于该综合损失对特征编码模块的参数进行更新,最终确定出目标头像生成模型。
关于该步骤具体将在下文中进行详细描述。
本实施例提供的美漫风格的头像生成模型的训练方法,在损失函数的设计中,增加了人脸关键点损失,相应地,增加了目标一致性的考察维度,在图像转换中,更快的收敛到目标效果,提高了训练效率及所得到的目标头像生成模型的准确性;同时,由于在训练过程中采用的是预训练得到的头像风格生成模块,减少了模型训练所用的时长。
在本实施例中提供了一种美漫风格的头像生成模型的训练方法,可用于电子设备,如电脑、服务器、移动终端等,图2是根据本发明实施例的美漫风格的头像生成模型的训练方法的流程图,如图2所示,该流程包括如下步骤:
S21,获取样本图像对。
其中,所述样本图像对包括真实头像以及对应的卡通头像。
详细请参见图1所示实施例的S11,在此不再赘述。
S22,将真实头像输入头像生成模型的特征编码模块中,确定特征编码。
在一些实施方式中,如图3所示,特征编码模块是基于特征金字塔网络构建的。基于此,上述S22包括:将真实头像输入特征编码模块中,提取多个金字塔尺度的特征向量,以确定特征编码。
S23,将特征编码输入头像生成模型的头像风格生成模块中,确定预测卡通头像。
其中,所述头像风格生成模块是预训练得到的。
在一些实施方式中,上述S23包括:基于特征编码中各特征向量的金字塔尺度,将特征向量输入头像风格生成模块的对应网络层中进行图像重建,确定预测卡通头像。例如,特征编码模块将真实图像映射到扩展的潜空间w+(18*512*1,18个不同的512维w向量),基于特征金字塔网络结构,从不同的金字塔尺度中提取风格向量并根据其空间尺度直接插入到固定的预训练的头像风格生成模块中,可以直接完成图像重建,生成转化后的图像。
基于特征金字塔网络结构,从不同的金字塔尺度中提取风格向量并根据其空间尺度直接插入到固定的预训练的头像风格生成模块中,可以直接完成图像重建,生成转化后的图像,避免耗时的优化过程。
S24,检测卡通头像与预测卡通头像的人脸关键点,并确定人脸关键点损失。
详细请参见图1所示实施例的S14,在此不再赘述。
S25,基于卡通头像与预设卡通头像的差异,确定图像转换损失。
具体地,上述S25包括:
S251,分别对卡通头像以及预设卡通头像进行人脸特征提取,得到第一人脸特征与第二人脸特征。
电子设备在进行人脸特征提取时,利用人脸特征提取模型或对相应的图像进行图像特征分析,得到第一人脸特征以及第二人脸特征。其中,第一人脸特征与卡通头像对应,第二人脸特征与预设卡通头像对应。
S252,基于第一人脸特征以及第二人脸特征进行损失计算,确定特征损失。
电子设备可以利用对应的损失函数进行特征损失的计算,其中,损失函数包括但不限于L1损失,L2损失等等。
S253,基于卡通头像与预设卡通头像,分别计算像素损失以及感知损失。
其中,所述图像转换损失包括特征损失、像素损失以及感知损失。
像素损失可以采用最小均方损失函数,即,计算卡通头像与预设卡通头像对应位置的像素之间差异,得到像素损失;感知损失用于表示由于从一副图像转换成另一幅图像输出的损失。
S26,根据人脸关键点损失与图像转换损失的融合结果,对特征编码模块的参数进行更新,以确定目标头像生成模型。
具体地,上述S26包括:
S261,获取多组权重组合。
其中,所述权重组合中包括与人脸关键点损失与图像转换损失一一对应的权重。
每个损失对应于一个权重,例如,若采用的是损失包括3个损失,那么每组权重组合中包括3个权重。
在一些实施方式中,上述S261包括:
(1)获取各个权重的取值范围。
(2)基于取值范围生成权重的取值,以得到多组权重组合。
各个权重的取值范围可以是连续的变化范围,也可以是离散的变化范围,等等。在确定各个权重的取值时,从连续或离散的变化范围中进行取值,从而得到多组权重组合。
利用各个权重的取值范围确定权重的取值,保证所得到的各组权重组合能够满足实际应用的需求。
S262,对于各个权重组合,对人脸关键点损失与图像转换损失进行融合,得到对应的综合损失。
在计算综合损失时,利用各个权重组合中的各个权重与对应的损失的加权和,实现对人脸关键点损失与图像转换损失的融合,得到综合损失。
S263,利用综合损失对特征编码模块的参数进行更新,得到可选头像生成模型。
在对头像生成模型进行训练时,分别利用各组权重组合进行综合权重的计算,经过训练得到与各组权重组合一一对应的可选头像生成模型。且在确定可选头像生成模型时,还记录有训练得到可选头像生成模型的训练时长,或者,利用测试数据集对可选头像生成模型的精准性进行测试,得到各个可选头像生成模型的精准度。
S264,基于可选头像生成模型的训练效果,从可选头像生成模型中确定目标头像生成模型。
其中,所述训练效果包括训练时长以及所述可选头像生成模型的精准度中的至少一种。
在进行目标头像生成模型确定时,可以对训练效果的各个值进行综合得到每个可选头像生成模型。例如,对训练时长以及精准度进行归一化处理,得到各个可选头像生成模型的训练效果值,将训练效果最高的可选头像生成模型确定为目标头像生成模型。
或者,也可以采用其他方式确定目标头像生成模型,在此对其并不做任何限定。
本实施例提供的美漫风格的头像生成模型的训练方法,在图像转换损失中包括特征损失、像素损失以及感知损失,即,在训练过程中结合多种损失,进一步保证了训练所得到的目标头像生成模型的准确性。在训练过程中对人脸关键点损失以及图像转换损失进行融合时,采用的是多组权重组合的方式进行融合,即,采用多组不同的权重进行融合,最终利用各组权重组合所得到的可选头像生成模型的训练效果确定出目标头像生成模型,提高了目标头像生成模型的准确性。
在本实施例中提供了一种美漫风格的头像生成方法,可用于电子设备,如移动终端等,图4是根据本发明实施例的美漫风格的头像生成模型的训练方法的流程图,如图4所示,该流程包括如下步骤:
S31,获取待处理人脸图像。
待处理人脸图像可以是用户通过与电子设备的交互上传的,也可以是存储在电子设备中的,或者,利用电子设备的图像采集设备实时采集到的,等等。
在一些实施方式中,上述S31包括:
(1)获取包含人脸的待处理图像。
(2)对待处理图像进行人脸检测得到人脸图像。
(3)基于人脸图像进行人脸对齐及归一化处理,确定待处理人脸图像。
电子设备将任何一副包含人脸的待处理图像,进行人脸检测、人脸对齐并归一化到预设尺寸,确定待处理人脸图像。对待处理图像检测得到人脸图像后,进行人脸对齐及归一化处理,能够保证输入目标头像生成模型的待处理图像符合模型的尺寸需求,以及人脸对齐后能够更加准确地进行人脸特征等的识别,进一步提高了所生成的目标卡通头像的效率及可靠性。
S32,将待处理人脸图像输入目标头像生成模型中,得到目标卡通头像。
其中,所述目标头像生成模型是根据上述任一实施方式中所述的美漫风格的头像生成模型的训练方法训练得到的,关于目标头像生成模型的具体结构细节请参见上文所述,在此不再赘述。
电子设备将待处理人脸图像输入到目标头像生成模型中,利用目标头像生成模型对待处理人脸图像进行处理得到目标卡通头像,即,生成对应人脸的卡通风格图像。
本实施例提供的美漫风格的头像生成方法,由于所训练得到的目标头像生成模型的准确性,基于此,对待处理人脸图像进行处理后得到的目标卡通头像更加贴合人脸,且整个处理过程的延时较短,能够快速得到待处理人脸图像对应的目标卡通头像。
在本实施例中还提供了一种美漫风格的头像生成模型的训练装置以及美漫风格的头像生成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种美漫风格的头像生成模型的训练装置,如图5所示,包括:
第一获取模块41,用于获取样本图像对,所述样本图像对包括真实头像以及对应的卡通头像;
第一输入模块42,用于将所述真实头像输入头像生成模型的特征编码模块中,确定特征编码;
第二输入模块43,用于将所述特征编码输入所述头像生成模型的头像风格生成模块中,确定预测卡通头像,所述头像风格生成模块是预训练得到的;
检测模块44,用于检测所述卡通头像与所述预测卡通头像的人脸关键点,并确定人脸关键点损失;
确定模块45,用于基于所述卡通头像与所述预设卡通头像的差异,确定图像转换损失;
更新模块46,用于根据所述人脸关键点损失与所述图像转换损失的融合结果,对所述特征编码模块的参数进行更新,以确定目标头像生成模型。
在一些实施方式中,更新模块46包括:
第一获取单元,用于获取多组权重组合,所述权重组合中包括与所述人脸关键点损失与所述图像转换损失一一对应的权重;
融合单元,用于对于各个所述权重组合,对所述人脸关键点损失与所述图像转换损失进行融合,得到对应的综合损失;
更新单元,用于利用所述综合损失对所述特征编码模块的参数进行更新,得到可选头像生成模型;
第一确定单元,用于基于所述可选头像生成模型的训练效果,从所述可选头像生成模型中确定所述目标头像生成模型,所述训练效果包括训练时长以及所述可选头像生成模型的精准度中的至少一种。
在一些实施方式中,第一获取单元包括:
获取子单元,用于获取各个所述权重的取值范围;
生成子单元,用于基于所述取值范围生成所述权重的取值,以得到所述多组权重组合。
在一些实施方式中,确定模块45包括:
提取单元,用于分别对所述卡通头像以及所述预设卡通头像进行人脸特征提取,得到第一人脸特征与第二人脸特征;
第一计算单元,用于基于所述第一人脸特征以及所述第二人脸特征进行损失计算,确定特征损失;
第二计算单元,用于基于所述卡通头像与所述预设卡通头像,分别计算像素损失以及感知损失,所述图像转换损失包括所述特征损失、所述像素损失以及所述感知损失。
在一些实施方式中,所述特征编码模块是基于特征金字塔网络构建的,第一输入模块42包括:
第一输入单元,用于将所述真实头像输入所述特征编码模块中,提取多个金字塔尺度的特征向量,以确定所述特征编码。
在一些实施方式中,第一输入模块43包括:
第二输入单元,用于基于所述特征编码中各特征向量的金字塔尺度,将所述特征向量输入所述头像风格生成模块的对应网络层中进行图像重建,确定所述预测卡通头像。
本实施例还提供了一种美漫风格的头像生成装置,如图6所示,包括:
第二获取模块51,用于获取待处理人脸图像;
第三输入模块52,用于将所述待处理人脸图像输入目标头像生成模型中,得到目标卡通头像,所述目标头像生成模型是根据上述任一所述的美漫风格的头像生成模型的训练方法训练得到的。
在一些实施方式中,第二获取模块51包括:
第二获取单元,用于获取包含人脸的待处理图像;
检测单元,用于对所述待处理图像进行人脸检测得到人脸图像;
第二确定单元,用于基于所述人脸图像进行人脸对齐及归一化处理,确定所述待处理人脸图像。
本实施例中的美漫风格的头像生成模型的训练装置以及美漫风格的头像生成装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种电子设备,具有上述图5所示的美漫风格的头像生成模型的训练装置,或图6所示的美漫风格的头像生成装置。
请参阅图7,图7是本发明可选实施例提供的一种电子设备的结构示意图,如图7所示,该电子设备可以包括:至少一个处理器61,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口63,存储器64,至少一个通信总线62。其中,通信总线62用于实现这些组件之间的连接通信。其中,通信接口63可以包括显示屏(Display)、键盘(Keyboard),可选通信接口63还可以包括标准的有线接口、无线接口。存储器64可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器64可选的还可以是至少一个位于远离前述处理器61的存储装置。其中处理器61可以结合图5或图6所描述的装置,存储器64中存储应用程序,且处理器61调用存储器64中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线62可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线62可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器64可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器64还可以包括上述种类的存储器的组合。
其中,处理器61可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器61还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器64还用于存储程序指令。处理器61可以调用程序指令,实现如本申请任一实施例中所示的美漫风格的头像生成模型的训练方法,或,美漫风格的头像生成方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的美漫风格的头像生成模型的训练方法,或,美漫风格的头像生成方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种美漫风格的头像生成模型的训练方法,其特征在于,包括:
获取样本图像对,所述样本图像对包括真实头像以及对应的卡通头像;
将所述真实头像输入头像生成模型的特征编码模块中,确定特征编码;
将所述特征编码输入所述头像生成模型的头像风格生成模块中,确定预测卡通头像,所述头像风格生成模块是预训练得到的;
检测所述卡通头像与所述预测卡通头像的人脸关键点,并确定人脸关键点损失;
基于所述卡通头像与所述预设卡通头像的差异,确定图像转换损失;
根据所述人脸关键点损失与所述图像转换损失的融合结果,对所述特征编码模块的参数进行更新,以确定目标头像生成模型。
2.根据权利要求1所述的训练方法,其特征在于,所述根据所述人脸关键点损失与所述图像转换损失的融合结果,对所述特征编码模块的参数进行更新,以确定目标头像生成模型,包括:
获取多组权重组合,所述权重组合中包括与所述人脸关键点损失与所述图像转换损失一一对应的权重;
对于各个所述权重组合,对所述人脸关键点损失与所述图像转换损失进行融合,得到对应的综合损失;
利用所述综合损失对所述特征编码模块的参数进行更新,得到可选头像生成模型;
基于所述可选头像生成模型的训练效果,从所述可选头像生成模型中确定所述目标头像生成模型,所述训练效果包括训练时长以及所述可选头像生成模型的精准度中的至少一种。
3.根据权利要求2所述的训练方法,其特征在于,所述获取多组权重组合,包括:
获取各个所述权重的取值范围;
基于所述取值范围生成所述权重的取值,以得到所述多组权重组合。
4.根据权利要求1所述的训练方法,其特征在于,所述基于所述卡通头像与所述预设卡通头像的差异,确定图像转换损失,包括:
分别对所述卡通头像以及所述预设卡通头像进行人脸特征提取,得到第一人脸特征与第二人脸特征;
基于所述第一人脸特征以及所述第二人脸特征进行损失计算,确定特征损失;
基于所述卡通头像与所述预设卡通头像,分别计算像素损失以及感知损失,所述图像转换损失包括所述特征损失、所述像素损失以及所述感知损失。
5.根据权利要求1所述的训练方法,其特征在于,所述特征编码模块是基于特征金字塔网络构建的,所述将所述真实头像输入头像生成模型的特征编码模块中,确定特征编码,包括:
将所述真实头像输入所述特征编码模块中,提取多个金字塔尺度的特征向量,以确定所述特征编码。
6.根据权利要求5所述的训练方法,其特征在于,所述将所述特征编码输入所述头像生成模型的头像风格生成模块中,确定预测卡通头像,包括:
基于所述特征编码中各特征向量的金字塔尺度,将所述特征向量输入所述头像风格生成模块的对应网络层中进行图像重建,确定所述预测卡通头像。
7.一种美漫风格的头像生成方法,其特征在于,包括:
获取待处理人脸图像;
将所述待处理人脸图像输入目标头像生成模型中,得到目标卡通头像,所述目标头像生成模型是根据权利要求1-6中任一项所述的美漫风格的头像生成模型的训练方法训练得到的。
8.根据权利要求7所述的方法,其特征在于,所述获取待处理人脸图像,包括:
获取包含人脸的待处理图像;
对所述待处理图像进行人脸检测得到人脸图像;
基于所述人脸图像进行人脸对齐及归一化处理,确定所述待处理人脸图像。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-6中任一项所述的美漫风格的头像生成模型的训练方法,或,执行权利要求7或8所述的美漫风格的头像生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-6中任一项所述的美漫风格的头像生成模型的训练方法,或,执行权利要求7或8所述的美漫风格的头像生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211055003.6A CN115393181A (zh) | 2022-08-31 | 2022-08-31 | 美漫风格的头像生成模型的训练、生成方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211055003.6A CN115393181A (zh) | 2022-08-31 | 2022-08-31 | 美漫风格的头像生成模型的训练、生成方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393181A true CN115393181A (zh) | 2022-11-25 |
Family
ID=84124261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211055003.6A Pending CN115393181A (zh) | 2022-08-31 | 2022-08-31 | 美漫风格的头像生成模型的训练、生成方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393181A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116110099A (zh) * | 2023-01-19 | 2023-05-12 | 北京百度网讯科技有限公司 | 头像生成的方法和头像更换的方法 |
CN117557688A (zh) * | 2024-01-10 | 2024-02-13 | 广州趣丸网络科技有限公司 | 肖像生成模型训练方法、装置、计算机设备和存储介质 |
CN116110099B (zh) * | 2023-01-19 | 2024-10-22 | 北京百度网讯科技有限公司 | 头像生成的方法和头像更换的方法 |
-
2022
- 2022-08-31 CN CN202211055003.6A patent/CN115393181A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116110099A (zh) * | 2023-01-19 | 2023-05-12 | 北京百度网讯科技有限公司 | 头像生成的方法和头像更换的方法 |
CN116110099B (zh) * | 2023-01-19 | 2024-10-22 | 北京百度网讯科技有限公司 | 头像生成的方法和头像更换的方法 |
CN117557688A (zh) * | 2024-01-10 | 2024-02-13 | 广州趣丸网络科技有限公司 | 肖像生成模型训练方法、装置、计算机设备和存储介质 |
CN117557688B (zh) * | 2024-01-10 | 2024-03-12 | 广州趣丸网络科技有限公司 | 肖像生成模型训练方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111369681B (zh) | 三维模型的重构方法、装置、设备及存储介质 | |
WO2024051445A9 (zh) | 图像生成方法以及相关设备 | |
CN110929569A (zh) | 人脸识别方法、装置、设备及存储介质 | |
CN112562069B (zh) | 三维模型的构造方法、装置、设备和存储介质 | |
CN114339409B (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
US20220156987A1 (en) | Adaptive convolutions in neural networks | |
CN115359170B (zh) | 场景数据的生成方法、装置、电子设备和存储介质 | |
CN115131849A (zh) | 图像生成方法以及相关设备 | |
US20220335685A1 (en) | Method and apparatus for point cloud completion, network training method and apparatus, device, and storage medium | |
CN111080746A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN111488810A (zh) | 人脸识别方法、装置、终端设备及计算机可读介质 | |
CN114298997A (zh) | 一种伪造图片检测方法、装置及存储介质 | |
CN115965840A (zh) | 图像风格迁移和模型训练方法、装置、设备和介质 | |
CN114429208A (zh) | 基于残差结构剪枝的模型压缩方法、装置、设备及介质 | |
CN113781164A (zh) | 虚拟试衣模型训练方法、虚拟试衣方法和相关装置 | |
CN115393181A (zh) | 美漫风格的头像生成模型的训练、生成方法及电子设备 | |
CN116342782A (zh) | 生成虚拟形象渲染模型的方法和装置 | |
CN117456128A (zh) | 三维重建方法、装置、设备及存储介质 | |
CN117333637A (zh) | 三维场景的建模及渲染方法、装置及设备 | |
CN111382791A (zh) | 深度学习任务处理方法、图像识别任务处理方法和装置 | |
CN114266693A (zh) | 图像处理方法、模型生成方法及设备 | |
WO2022096944A1 (en) | Method and apparatus for point cloud completion, network training method and apparatus, device, and storage medium | |
CN117218300A (zh) | 三维模型的构建方法、三维构建模型的训练方法及装置 | |
CN116843807A (zh) | 虚拟形象生成、模型的训练方法、装置及电子设备 | |
CN117422797A (zh) | 表情特征的提取方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |