CN114677739A - 一种面部表情捕捉方法、装置、计算机设备及存储介质 - Google Patents

一种面部表情捕捉方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114677739A
CN114677739A CN202210326965.4A CN202210326965A CN114677739A CN 114677739 A CN114677739 A CN 114677739A CN 202210326965 A CN202210326965 A CN 202210326965A CN 114677739 A CN114677739 A CN 114677739A
Authority
CN
China
Prior art keywords
face
image
virtual
expression
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210326965.4A
Other languages
English (en)
Inventor
徐国智
温翔
李嘉豪
周佳庆
胡天磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202210326965.4A priority Critical patent/CN114677739A/zh
Publication of CN114677739A publication Critical patent/CN114677739A/zh
Priority to PCT/CN2023/080015 priority patent/WO2023185395A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开提供了一种面部表情捕捉方法、装置、计算机设备及存储介质,其中,该方法包括:获取人脸驱动图像数据;对所述人脸驱动图像数据进行第一特征提取,得到所述人脸驱动图像数据的第一表情特征;基于所述第一表情特征生成虚拟人脸图像,并对所述虚拟人脸图像进行第二特征提取,得到所述虚拟人脸图像的第二表情特征;基于所述第二表情特征,生成形状融合BS系数;所述BS系数用于输入三维游戏引擎,生成三维虚拟人脸模型。本公开实施例可以基于人脸驱动图像数据自动获取到BS系数,从而基于自动获取的BS系数可以快速驱动3D虚拟角色模型。

Description

一种面部表情捕捉方法、装置、计算机设备及存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种面部表情捕捉方法、装置、计算机设备及存储介质。
背景技术
在某些活动中,演员希望通过自己的面部表情,控制3D虚拟角色模型。演员可以驱动相关设备获取自己的面部表情,使得3D虚拟角色模型呈现出与自己相同的面部表情。在想要得到能够呈现出与演员相同的面部表情的3D虚拟角色模型的时候,通常需要手动标注演员的面部表情对应的形状融合(Blend Shape,BS)系数,然后利用BS系数驱动3D虚拟角色模型。这种手动标注的方式效率较低,影响3D虚拟角色模型的驱动效率。
发明内容
本公开实施例至少提供一种面部表情捕捉方法、装置、计算机设备及存储介质。
第一方面,本公开实施例提供了一种面部表情捕捉方法,包括:
获取人脸驱动图像数据;
对所述人脸驱动图像数据进行第一特征提取,得到所述人脸驱动图像数据的第一表情特征;
基于所述第一表情特征生成虚拟人脸图像,并对所述虚拟人脸图像进行第二特征提取,得到所述虚拟人脸图像的第二表情特征;
基于所述第二表情特征,生成形状融合BS系数;所述BS系数用于输入三维游戏引擎,生成三维虚拟人脸模型。
一种可选的实施方式中,所述BS系数的生成过程为将所述人脸驱动图像数据输入预先训练的脸部处理模型后执行的;
所述脸部处理模型包括第一子脸部处理模型和第二子脸部处理模型;所述第一子脸部处理模型用于基于所述人脸驱动图像数据输出所述第二表情特征,所述第二子脸部处理模型用于基于所述第二表情特征得到所述BS系数;
所述第一子脸部处理模型包括编码器、第一解码器和第二解码器,所述编码器用于对图像进行特征提取得到表情特征,所述第一解码器用于对表情特征进行解码得到虚拟人脸生成图像,所述第二解码器用于对表情特征进行解码得到人脸驱动数据生成图像。
一种可选的实施方式中,所述第一子脸部处理模型通过以下步骤训练得到:
获取人脸驱动图像数据样本、以及虚拟人脸图像样本;
将所述人脸驱动图像数据样本经所述第一子脸部处理模型的编码器编码得到第一控制人员表情特征,将所述第一控制人员表情特征输入所述第一子脸部处理模型的第一解码器,得到第一虚拟人脸生成图像;以及,将所述虚拟人脸图像样本经所述第一子脸部处理模型的编码器编码得到第一虚拟表情特征,将所述第一虚拟表情特征输入所述第一子脸部处理模型的第二解码器,得到第一人脸驱动数据生成图像;
将所述第一虚拟人脸生成图像经所述编码器编码得到第二虚拟表情特征;以及,将所述第一人脸驱动数据生成图像经所述编码器编码得到第二控制人员表情特征;
基于所述第一控制人员表情特征和所述第二虚拟表情特征之间的第一损失信息,以及所述第一虚拟表情特征和所述第二控制人员表情特征之间的第二损失信息,调整所述第一子脸部处理模型的模型参数信息。
一种可选的实施方式中,在将所述人脸驱动图像数据样本经所述第一子脸部处理模型的编码器编码得到第一控制人员表情特征之后,所述方法还包括:
将所述第一控制人员表情特征输入所述第一子脸部处理模型的所述第二解码器,得到第二人脸驱动数据生成图像;
基于所述人脸驱动图像数据样本的第一图像信息和所述第二人脸驱动数据生成图像的第二图像信息,确定第三损失信息;
在将所述虚拟人脸图像样本经所述第一子脸部处理模型的编码器编码得到第一虚拟表情特征之后,所述方法还包括:
将所述第一虚拟表情特征输入所述第一子脸部处理模型的所述第一解码器,得到第二虚拟人脸生成图像;
基于所述虚拟人脸图像样本的第三图像信息和所述第二虚拟人脸生成图像的第四图像信息,确定第四损失信息;
所述基于所述第一控制人员表情特征和所述第二虚拟表情特征之间的第一损失信息,以及所述第一虚拟表情特征和所述第二控制人员表情特征之间的第二损失信息,调整所述第一子脸部处理模型的模型参数信息,包括:
基于所述第一控制人员表情特征和所述第二虚拟表情特征之间的第一损失信息、所述第一虚拟表情特征和所述第二控制人员表情特征之间的第二损失信息、所述第三损失信息、所述第四损失信息,调整所述第一子脸部处理模型的模型参数信息。
一种可选的实施方式中,所述基于所述人脸驱动图像数据样本的第一图像信息和所述第二人脸驱动数据生成图像的第二图像信息,确定第三损失信息,包括:
基于所述人脸驱动图像数据样本中各个像素点的第一像素值信息和所述第二人脸驱动数据生成图像的中各个像素点的第二像素值信息,确定第一图像质量损失信息;
基于所述人脸驱动图像数据样本的第一亮度信息和所述第二人脸驱动数据生成图像的第二亮度信息,确定图像亮度损失信息;
基于所述人脸驱动图像数据样本的第一对比度信息和所述第二人脸驱动数据生成图像的第二对比度信息,确定图像对比度损失信息;
基于所述人脸驱动图像数据样本的第一结构信息和所述第二人脸驱动数据生成图像的第二结构信息,确定图像结构损失信息;
基于所述图像亮度损失信息、所述图像对比度损失信息和所述图像结构损失信息,确定所述第二图像质量损失信息;
基于所述第一图像质量损失信息和所述第二图像质量损失信息,确定第三损失信息。
一种可选的实施方式中,得到所述第一虚拟人脸生成图像和所述第一人脸驱动数据生成图像之后,所述方法还包括:
将所述人脸驱动图像数据样本和所述第一虚拟人脸生成图像输入预先训练好的判别器中,得到所述人脸驱动图像数据样本的第一真伪判别结果和所述第一虚拟人脸生成图像的第二真伪判别结果;基于所述第一真伪判别结果和所述第二真伪判别结果,调整所述第一子脸部处理模型的模型参数信息,直至所述第一虚拟人脸生成图像的第二真伪判别结果与所述人脸驱动图像数据样本的第一真伪判别结果相匹配;和/或
将所述虚拟人脸图像样本和所述第一人脸驱动数据生成图像输入预先训练好的判别器中,得到所述虚拟人脸图像样本的第三真伪判别结果和所述第一人脸驱动数据生成图像的第四真伪判别结果;基于所述第三真伪判别结果和所述第四真伪判别结果,调整所述第一子脸部处理模型的模型参数信息,直至所述第一人脸驱动数据生成图像的第四真伪判别结果与所述虚拟人脸图像样本的第三真伪判别结果相匹配。
一种可选的实施方式中,所述第二子脸部处理模型通过以下步骤训练得到:
将所述虚拟人脸图像样本输入至所述训练完成的第一子脸部处理模型的所述编码器中,得到所述第三虚拟表情特征;
将所述第三虚拟表情特征输入至所述第二子脸部处理模型中,得到所述虚拟人脸图像样本对应的预测BS系数;
基于所述预测BS系数以及所述虚拟人脸图像样本对应的已知的BS系数,确定第五损失信息;
基于所述第五损失信息,调整所述第二子脸部处理模型的模型参数信息。
一种可选的实施方式中,所述获取人脸驱动图像数据样本、以及虚拟人脸图像样本,包括:
获取原始人脸驱动图像数据、以及原始虚拟人脸图像;
分别对所述原始人脸驱动图像数据和所述原始虚拟人脸图像进行增广处理,得到增广后人脸驱动图像数据样本和增广后虚拟人脸图像样本。
分别对所述增广后人脸驱动图像数据和所述增广后虚拟人脸图像进行分割处理,得到包含第一脸部区域的人脸驱动图像数据样本和第二脸部区域的虚拟人脸图像样本。
一种可选的实施方式中,所述分别对所述增广后人脸驱动图像数据和所述增广后虚拟人脸图像进行分割处理,得到包含第一脸部区域的人脸驱动图像数据样本和第二脸部区域的虚拟人脸图像样本,包括:
分别对所述增广后人脸驱动图像数据和所述增广后虚拟人脸图像依次进行人脸检测、人脸关键点检测处理和人脸配准处理,确定增广后人脸驱动图像数据的第一脸部区域和所述增广后虚拟人脸图像的第二脸部区域;
基于所述第一脸部区域,对所述增广后人脸驱动图像数据进行分割处理,得到包含所述第一脸部区域的人脸驱动图像数据样本,以及基于所述第二脸部区域,对所述增广后虚拟人脸图像进行分割处理,得到包含所述第二脸部区域的虚拟人脸图像样本。
第二方面,本公开实施例还提供一种面部表情捕捉装置,包括:
第一获取模块,用于获取人脸驱动图像数据;
第一提取模块,用于对所述人脸驱动图像数据进行第一特征提取,得到所述人脸驱动图像数据的第一表情特征;
第二提取模块,用于基于所述第一表情特征生成虚拟人脸图像,并对所述虚拟人脸图像进行第二特征提取,得到所述虚拟人脸图像的第二表情特征;
生成模块,用于基于所述第二表情特征,生成形状融合BS系数;所述BS系数用于输入三维游戏引擎,生成三维虚拟人脸模型。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
本公开实施例提供的面部表情捕捉方法,对获取到的人脸驱动图像数据进行第一特征提取,得到人脸驱动图像数据的第一表情特征;然后基于第一表情特征生成虚拟人脸图像,并对虚拟人脸图像进行第二特征提取,得到虚拟人脸图像的第二表情特征;最后基于第二表情特征,生成BS系数。通过上述过程,可以基于人脸驱动图像数据自动获取到BS系数,从而可以基于自动获取的BS系数可以快速驱动3D虚拟角色模型。
进一步的,本公开实施例在对脸部处理模型进行训练的过程中,通过不同域下的表情特征损失信息,即:人脸驱动图像数据样本的第一控制人员表情特征与第一虚拟人脸生成图像的第二虚拟表情特征之间的第一损失信息,以及虚拟人脸图像样本的第一虚拟表情特征与第一人脸驱动数据生成图像的第二控制人员表情特征之间的第二损失信息,调整第一子脸部处理模型的模型参数信息,可以使得训练完成的第一子脸部处理模型中的编码器具有更好地跨域编码得到表情特征的能力;通过不同域下的图像损失信息,即:人脸驱动图像数据样本的第一图像信息和第二人脸驱动数据生成图像的第二图像信息之间的第三损失信息,以及虚拟人脸图像样本的第三图像信息和第二虚拟人脸生成图像的第四图像信息之间的第四损失信息,调整第一子脸部处理模型的模型参数信息,可以使得训练完成的第一子脸部处理模型中的解码器器输出的图像与输入的图像更相似。通过上述过程,可以在不对人脸驱动图像数据进行BS系数标注的情况下,实现对脸部处理模型的训练过程,使得训练完成的第一子脸部处理模型输出表情特征,进而使得训练完成的第二子脸部处理模型能够基于表情特征自动得到相对准确的BS系数。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种面部表情捕捉方法的流程图;
图2示出了本公开实施例所提供的另一种面部表情捕捉方法的流程图;
图3示出了本公开实施例所提供的第一子脸部处理模型的训练流程图;
图4示出了本公开实施例所提供的获取训练样本的流程示意图;
图5示出了本公开实施例所提供的另一种第一子脸部处理模型的训练流程图;
图6示出了本公开实施例所提供的利用判别器对第一子脸部处理模型进行训练的流程示意图;
图7示出了本公开实施例所提供的第二子脸部处理模型的训练流程图;
图8示出了本公开实施例所提供的另一种第二子脸部处理模型的训练流程图;
图9示出了本公开实施例所提供的一种面部表情捕捉装置的结构示意图;
图10示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
在实际中,想要得到能够呈现出与演员相同的面部表情的3D虚拟角色模型的时候,在演员驱动相关设备获取到自己的面部图像之后,需要通过手动标注的方式将演员的面部图像对应的BS系数标注出来,然后根据演员的面部图像以及对应的BS系数驱动3D虚拟角色模型。这种手动标注的方式效率较低,影响3D虚拟角色模型的驱动效率。
基于此,本公开提供了一种面部表情捕捉方法,对获取到的人脸驱动图像数据进行第一特征提取,得到人脸驱动图像数据的第一表情特征;然后基于第一表情特征生成虚拟人脸图像,并对虚拟人脸图像进行第二特征提取,得到虚拟人脸图像的第二表情特征;最后基于第二表情特征,生成BS系数。通过上述过程,可以基于人脸驱动图像数据自动获取到BS系数,从而可以基于自动获取的BS系数可以快速驱动3D虚拟角色模型。
针对以上方案所存在的缺陷以及所提出的解决方案,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种面部表情捕捉方法进行详细介绍,本公开实施例所提供的面部表情捕捉方法的执行主体一般为具有一定计算能力的计算机设备。
下面以执行主体为服务器为例对本公开实施例提供的面部表情捕捉方法加以说明。
参见图1所示,为本公开实施例提供的一种面部表情捕捉方法的流程图,所述方法包括S101~S104,其中:
S101:获取人脸驱动图像数据。
S102:对所述人脸驱动图像数据进行第一特征提取,得到所述人脸驱动图像数据的第一表情特征。
S103:基于所述第一表情特征生成虚拟人脸图像,并对所述虚拟人脸图像进行第二特征提取,得到所述虚拟人脸图像的第二表情特征。
S104:基于所述第二表情特征,生成形状融合BS系数;所述BS系数用于输入三维游戏引擎,生成三维虚拟人脸模型。
在本公开实施例中,人脸驱动图像数据可以指包含控制人员的脸部图像,人脸驱动图像数据可以是各种面部表情下的图像,例如微笑、愤怒、恐惧等各种表情下的图像等。这里,可以通过对控制人员进行图像采集的方式,得到包含控制人员脸部的图像,例如可以通过拍照或者录像等方式采集包含控制人员脸部的图像。这里需要说明的是,获取人脸驱动图像数据的过程可以是控制人员自己触发图像采集操作后执行的,或者是经过控制人员授权后执行的。
采集到的包含控制人员脸部的图像可能是包含除脸部以外的其他部位(例如颈部、头发等)的原始图像。原始图像中的其他部位可能会对捕捉控制人员面部表情的过程产生一定的影响,例如,可能影响表情特征的提取,因此,在采集到原始图像后,可以对原始图像进行预处理,得到仅包含控制人员脸部的人脸驱动图像数据。
在对采集到的原始图像进行预处理的过程中,在一种实施方式中,首先可以对采集到的原始图像依次进行人脸检测、人脸关键点检测、人脸配准等处理,确定原始图像中的脸部区域;然后基于脸部区域,对原始图像进行分割处理,得到仅包含控制人员脸部的人脸驱动图像数据。上述对原始图像进行预处理的过程,可以在一定程度上消除原始图像中的其他部分对捕捉控制人员面部表情的过程产生的影响。
对人脸驱动图像数据进行第一特征提取后,得到的第一表情特征可以是在红绿蓝(Red Green Blue,RGB)颜色域下的表情特征。在得到人脸驱动图像数据的第一表情特征之后,可以将第一表情特征加载在虚拟人脸上,生成与人脸驱动图像数据具有相同面部表情的虚拟人脸图像。
对虚拟人脸图像进行第二特征提取后,得到的第二表情特征可以是在计算机图形学(Computer Graphics,CG)域下的表情特征。
形状融合BS系数即形状融合Blend Shape系数。BS系数可以用于输入三维游戏引擎,生成三维虚拟人脸模型,也就是将BS系数输入至三维游戏引擎中,可以生成三维虚拟人脸模型。基于BS系数生成的三维虚拟人脸模型与虚拟人脸图像的面部表情是一致的,继而与人脸驱动图像数据的面部表情是一致的,从而实现了从人脸驱动图像数据捕捉面部表情的过程,继而可以应用到三维虚拟人脸模型。
在一种实施方式中,上述面部表情捕捉的过程可以是基于预先训练的脸部处理模型实现的,即BS系数的生成过程为将人脸驱动图像数据输入预先训练的脸部处理模型后执行的。也就是,将获取到的人脸驱动图像数据输入至预先训练的脸部处理模型中,可以得到BS系数。
其中,脸部处理模型可以包括第一子脸部处理模型和第二子脸部处理模型。其中,第一子脸部处理模型用于基于人脸驱动图像数据输出第二表情特征;第二子脸部处理模型用于基于第二表情特征得到BS系数。示例性地,第一子脸部处理模型可以为自编码器Autoencoder结构,第二子脸部处理模型可以为深度神经网络(Deep Neural Networks,DNN)。
进一步地,第一子脸部处理模型中可以包括编码器、第一解码器和第二解码器;其中,编码器用于对图像进行特征提取得到表情特征;第一解码器用于对表情特征进行解码得到虚拟人脸生成图像;第二解码器用于对表情特征进行解码得到人脸驱动数据生成图像。
在具体实施中,参见图2所示的另一种面部表情捕捉方法的流程图中,在获取到的包含控制人员脸部的原始图像后,将对原始图像进行人脸关键点检测处理、以及人脸配准处理后,得到人脸驱动图像数据,然后人脸驱动图像数据输入至第一子脸部处理模型中的编码器Encoder中,对人脸驱动图像数据进行第一特征提取,得到人脸驱动图像数据的第一表情特征;然后,第一解码器Decoder对第一表情特征进行解码得到虚拟人脸图像;接下来,编码器Encoder对虚拟人脸图像进行第二特征提取,得到虚拟人脸图像的第二表情特征;最后,第二子脸部处理模型DNN基于第二表情特征得到BS系数。
上述脸部处理模型中的第一子脸部处理模型与第二子脸部处理模型的训练过程不是同时进行的,在具体实施中,第二子脸部处理模型的训练过程可以是在第一子脸部处理模型训练完成之后进行的。
下面将按照第一子脸部处理模型与第二子脸部处理模型的训练先后顺序,分别对第一子脸部处理模型与第二子脸部处理模型的训练过程进行介绍。
下面先介绍第一子脸部处理模型的训练过程。参见图3所示的第一子脸部处理模型的训练流程图,第一子脸部处理模型通过以下步骤训练得到:
S301:获取人脸驱动图像数据样本、以及虚拟人脸图像样本。
在本公开实施例中,人脸驱动图像数据样本指包含控制人员脸部的图像样本。人脸驱动图像数据样本可以是各种面部表情下的图像样本,例如微笑、愤怒、恐惧等各种表情下的图像样本等。
这里,可以通过对控制人员进行图像采集的方式,得到包含控制人员脸部的图像样本,例如可以通过拍照或者录像等方式采集图像,得到包含控制人员脸部的图像样本。这里需要说明的是,获取人脸驱动图像数据的过程可以是控制人员自己触发图像采集操作后执行的,或者是经过控制人员授权后执行的。
虚拟人脸图像样本指包含虚拟人脸的图像样本,虚拟人脸图像样本可以是各种面部表情下的图像样本,例如微笑、愤怒、恐惧等各种表情下的图像样本。这里,可以预先生成多个不同的BS系数,然后BS系数生成包含虚拟对象脸部的图像样本。
采集到的包含控制人员脸部的图像样本、以及生成的包含虚拟对象脸部的图像样本可能是包含除脸部以外的其他部位(例如颈部、头发等)的原始人脸图像,即原始人脸驱动图像数据和原始虚拟人脸图像。原始人脸驱动图像数据和原始虚拟人脸图像中的其他部位可能会对第一子脸部处理模型的训练过程产生一定的影响,例如可能影响表情特征的提取,因此,在获取到原始人脸驱动图像数据以及原始虚拟人脸图像之后,可以分别对原始人脸驱动图像数据以及原始虚拟人脸图像进行预处理,得到仅包含控制人员脸部的人脸驱动图像数据样本,以及仅包含虚拟对象脸部的图像样本。
在对获取到原始人脸驱动图像数据以及原始虚拟人脸图像进行预处理的过程中,在一种实施方式中,首先,可以分别对原始人脸驱动图像数据和原始虚拟人脸图像进行增广处理,得到增广后人脸驱动图像数据样本和增广后虚拟人脸图像样本。其中通过增广处理可以对原始图像附加一些信息或变换图像特征,有选择地突出或抑制原始图像中的某些特征,可以实现对图像样本的数量扩充,通过增加图像样本的数量,可以提高对第一子脸部处理模型的训练精确,使得训练完成的第一子脸部处理模型得到的第二表情特征更加准确。
接下来,可以分别对增广后人脸驱动图像数据和增广后虚拟人脸图像进行分割处理,得到包含第一脸部区域的人脸驱动图像数据样本和第二脸部区域的虚拟人脸图像样本。其中,第一脸部区域即控制人员脸部区域,第二脸部区域即虚拟对象脸部区域。
在进一步的实施方式中,在对增广后人脸驱动图像数据和增广后虚拟人脸图像进行分割处理的过程中,如图4所示的获取训练样本的流程示意图中,可以分别对增广后人脸驱动图像数据和增广后虚拟人脸图像依次进行人脸检测、人脸关键点检测处理和人脸配准处理,确定增广后人脸驱动图像数据的第一脸部区域和增广后虚拟人脸图像的第二脸部区域;然后,基于第一脸部区域,对增广后人脸驱动图像数据进行分割处理,得到包含第一脸部区域的人脸驱动图像数据样本,以及基于第二脸部区域,对增广后虚拟人脸图像进行分割处理,得到包含第二脸部区域的虚拟人脸图像样本。这里,还可以分别对包含第一脸部区域的人脸驱动图像数据样本和包含第二脸部区域的虚拟人脸图像样本进行掩膜处理,得到第一掩膜图像和第二掩膜图像。上述对原始人脸驱动图像数据以及原始虚拟人脸图像进行预处理的过程,可以在一定程度上消除原始人脸驱动图像数据以及原始虚拟人脸图像中的其他部分对第一子脸部处理模型的训练过程产生的影响。
S302:将所述人脸驱动图像数据样本经所述第一子脸部处理模型的编码器编码得到第一控制人员表情特征,将所述第一控制人员表情特征输入所述第一子脸部处理模型的第一解码器,得到第一虚拟人脸生成图像;以及,将所述虚拟人脸图像样本经所述第一子脸部处理模型的编码器编码得到第一虚拟表情特征,将所述第一虚拟表情特征输入所述第一子脸部处理模型的第二解码器,得到第一人脸驱动数据生成图像。
第一控制人员表情特征可以是在RGB域下的表情特征。将第一控制人员表情特征输入第一子脸部处理模型的第一解码器后,第一解码器可以基于第一控制人员表情特征得到第一虚拟人脸生成图像,生成的第一虚拟人脸生成图像与人脸驱动图像数据样本具有相同的面部表情。
第一虚拟表情特征也是RGB域下的表情特征。将第一虚拟表情特征输入第一子脸部处理模型的第二解码器后,第二解码器可以基于第一虚拟表情特征得到第一人脸驱动数据生成图像,生成的第一人脸驱动数据生成图像与虚拟人脸图像样本具有相同的面部表情。
S303:将所述第一虚拟人脸生成图像经所述编码器编码得到第二虚拟表情特征;以及,将所述第一人脸驱动数据生成图像经所述编码器编码得到第二控制人员表情特征。
第二虚拟表情特征与第二控制人员表情特征可以是CG域下的表情特征。
基于RGB域下的表情特征与CG域下的表情特征,可以得到不同域下的表情特征损失信息,基于表情特征损失信息,对第一子脸部处理模型的模型参数信息进行调整。通过不同域下的表情特征损失信息可以使得训练完成的第一子脸部处理模型中的编码器具有更好地跨域编码得到表情特征的能力。
S304:基于所述第一控制人员表情特征和所述第二虚拟表情特征之间的第一损失信息,以及所述第一虚拟表情特征和所述第二控制人员表情特征之间的第二损失信息,调整所述第一子脸部处理模型的模型参数信息。
由前所述,生成的第一虚拟人脸生成图像与人脸驱动图像数据样本具有相同的面部表情,也就是第一控制人员表情特征和第二虚拟表情特征是对应相同面部表情的表情特征,只是第一控制人员表情特征和第二虚拟表情特征分别是RGB域下与CG域下的表情特征,因此,这里可以基于第一控制人员表情特征和第二虚拟表情特征,确定第一损失信息。同理,基于第一虚拟表情特征和第二控制人员表情特征,确定第二损失信息。
基于第一损失信息和第二损失信息,调整第一子脸部处理模型的模型参数信息,对第一子脸部处理模型进行训练,得到训练完成的第一子脸部处理模型。
其中,第一损失信息和第二损失信息可以分别采用循环一致性(CycleConsistency Loss,CCL)损失函数公式计算得到:
Figure BDA0003573890090000131
其中,在计算第一损失信息时,xi表示人脸驱动图像数据样本,Enc(xi)为人脸驱动图像数据样本的第一控制人员表情特征,Decj(Enc(xi))为基于第一控制人员表情特征生成的第一虚拟人脸生成图像,Enc(Decj(Enc(xi)))为第一虚拟人脸生成图像的第二虚拟表情特征。在计算第二损失信息时,xi表示虚拟人脸图像样本,Enc(xi)为虚拟人脸图像样本的第一虚拟表情特征,Decj(Enc(xi))为基于第一虚拟表情特征生成的第一人脸驱动数据生成图像,Enc(Decj(Enc(xi)))为第一人脸驱动数据生成图像的第二控制人员表情特征。
为了提高生成图像的图像质量,在一种实施方式中,还可以基于生成的CG域下的人脸图像的图像信息与RGB域下的人脸图像的图像信息的图像质量损失信息,对第一子脸部处理模型的模型参数信息进行调整。
具体地,在将人脸驱动图像数据样本经第一子脸部处理模型的编码器编码得到第一控制人员表情特征之后,还可以将第一控制人员表情特征输入第一子脸部处理模型的第二解码器,得到第二人脸驱动数据生成图像。这里,第二人脸驱动数据生成图像是CG域下的人脸图像。第二人脸驱动数据生成图像与人脸驱动图像数据样本具有相同的面部表情。
然后,基于人脸驱动图像数据样本的第一图像信息和第二人脸驱动数据生成图像的第二图像信息,确定第三损失信息。第三损失信息,即CG域下的第二人脸驱动数据生成图像的图像信息与RGB域下的人脸驱动图像数据的图像信息之间图像质量损失信息。
在将第一虚拟表情特征输入第一子脸部处理模型的所述第一解码器,得到第二虚拟人脸生成图像。这里,第二虚拟人脸生成图像是CG域下的人脸图像。第二虚拟人脸生成图像与虚拟人脸图像样本具有相同的面部表情。
然后,基于虚拟人脸图像样本的第三图像信息和第二虚拟人脸生成图像的第四图像信息,确定第四损失信息。第四损失信息,即CG域下的第二虚拟人脸生成图像的图像信息与RGB域下的虚拟人脸图像的图像信息之间图像质量损失信息。
最终,基于前述第一控制人员表情特征和所述第二虚拟表情特征之间的第一损失信息、前述第一虚拟表情特征和所述第二控制人员表情特征之间的第二损失信息、上述第三损失信息、上述第四损失信息,调整第一子脸部处理模型的模型参数信息。
在上述实施方式中,图像信息可以包括图像中各个像素点的像素值信息、图像的亮度信息、图像的对比度信息、图像的结构信息等。
在具体实施中,在确定第三损失信息或第四损失信息的过程中,可以基于图像中各个像素点的像素值信息,确定第一图像质量损失信息,并基于第一图像质量损失信息,确定第三损失信息或第四损失信息;或者可以基于图像的亮度信息、对比度信息、结构信息,确定第二图像质量损失信息,并基于第二图像质量损失信息,确定第三损失信息或第四损失信息;或者是基于第一图像质量损失信息以及第二图像质量损失信息,确定第三损失信息或第四损失信息。
这里需要说明的是,在其他实施方式中,还可以基于其他图像信息确定图像质量损失信息,这里不再详述。
在具体实施中,参见图5所示的另一种第一子脸部处理模型的训练流程图,将人脸驱动图像数据样本输入至第一子脸部处理模型的编码器Encoder中,编码得到第一控制人员表情特征,将第一控制人员表情特征输入第一子脸部处理模型的第一解码器Decoder,得到第一虚拟人脸生成图像,并且将第一控制人员表情特征输入第一子脸部处理模型的第二解码器Decoder,得到第二人脸驱动数据生成图像。
将虚拟人脸图像样本输入至第一子脸部处理模型的编码器Encoder,编码得到第一虚拟表情特征,将第一虚拟表情特征输入第一子脸部处理模型的第二解码器Decoder,得到第一人脸驱动数据生成图像,并且将第一虚拟表情特征输入第一子脸部处理模型的第一解码器Decoder,得到第二虚拟人脸生成图像。
然后,将第一虚拟人脸生成图像输入至编码器Encoder,编码得到第二虚拟表情特征;以及,将第一人脸驱动数据生成图像输入至编码器Encoder,编码得到第二控制人员表情特征。
最后,基于第一控制人员表情特征和第二虚拟表情特征,确定第一损失信息;基于第一虚拟表情特征和第二控制人员表情特征,确定第二损失信息;基于人脸驱动图像数据样本的第一图像信息和第二人脸驱动数据生成图像的第二图像信息,确定第三损失信息;基于虚拟人脸图像样本的第三图像信息和第二虚拟人脸生成图像的第四图像信息,确定第四损失信息。
之后就可以根据第一损失信息、第二损失信息、第三损失信息、第四损失信息,调整第一子脸部处理模型的模型参数信息。
下面将以确定第三损失信息为例,对基于第一图像质量损失信息以及第二图像质量损失信息,确定第三损失信息的过程进行介绍。
这里,可以基于人脸驱动图像数据样本中各个像素点的第一像素值信息和第二人脸驱动数据生成图像的中各个像素点的第二像素值信息,确定第一图像质量损失信息。
在具体实施中,可以预先分别对人脸驱动图像数据样本和第二人脸驱动数据生成图像进行掩膜处理,得到人脸驱动图像数据样本对应的掩膜图像,以及第二人脸驱动数据生成图像对应的掩膜图像,然后基于人脸驱动图像数据样本对应的掩膜图像中各个像素点的第一像素值信息与第二人脸驱动数据生成图像对应的掩膜图像中各个像素点的第二像素值信息,确定第一图像质量损失。
并且,基于人脸驱动图像数据样本的第一亮度信息和第二人脸驱动数据生成图像的第二亮度信息,确定图像亮度损失信息;基于人脸驱动图像数据样本的第一对比度信息和第二人脸驱动数据生成图像的第二对比度信息,确定图像对比度损失信息;基于人脸驱动图像数据样本的第一结构信息和第二人脸驱动数据生成图像的第二结构信息,确定图像结构损失信息。
这里,也可以先得到人脸驱动图像数据样本对应的掩膜图像以及第二人脸驱动数据生成图像对应的掩膜图像之后,再分别确定图像亮度损失信息、图像对比度损失信息以及图像结构损失信息。
然后,基于图像亮度损失信息、图像对比度损失信息以及图像结构损失信息,确定第二图像质量损失信息。
最后,基于第一图像质量损失信息和所述第二图像质量损失信息,确定第三损失信息。这里,可以对第一图像质量损失信息和第二图像质量损失信息进行加权求和,得到第三损失信息。
这里,第三损失信息可以为
Figure BDA0003573890090000161
其中,xi表示人脸驱动图像数据样本时,f(xi)表示人脸驱动图像数据样本中各个像素点的第一像素值信息,yi表示第二人脸驱动数据生成图像的中各个像素点的第二像素值信息;xi表示虚拟人脸图像样本是,f(xi)表示虚拟人脸图像样本中各个像素点的第一像素值信息,yi表示第二虚拟人脸生成图像的中各个像素点的第二像素值信息。
第四损失信息的确定过程与上述第三损失信息的确定过程类似,这里不再赘述。
这里,可以利用结构相似性指标衡量损失函数(Structural Similarity IndexMeasure,SSIM)计算第四损失信息,具体地,第四损失信息为LSSIM(x,y)=[l(x,y)α·c(x,y)β·s(x,y)γ],α、β、γ大于0,用来调整三个模块间的重要性。
其中
Figure BDA0003573890090000162
表示图像亮度损失信息,C1为常数,是为了避免分母的平方和部分接近0时造成系统的不稳定,C1=(K1L)2,L为图像灰度级数,一般为L=255,K1<<1。当x为人脸驱动图像数据样本、y为第二人脸驱动数据生成图像时,μx为人脸驱动图像数据样本的亮度信息,μy为第二人脸驱动数据生成图像的亮度信息。当x为虚拟人脸图像样本、y为第二虚拟人脸生成图像时,μx为虚拟人脸图像样本的亮度信息,μy为第二虚拟人脸生成图像的亮度信息。
Figure BDA0003573890090000163
表示图像对比度损失信息,常数C2=(K2L)2,且K2<<1。当x为人脸驱动图像数据样本、y为第二人脸驱动数据生成图像时,σx为人脸驱动图像数据样本的对比度信息,σy为第二人脸驱动数据生成图像的对比度信息。当x为虚拟人脸图像样本、y为第二虚拟人脸生成图像时,σx为虚拟人脸图像样本的对比度信息,σy为第二虚拟人脸生成图像的对比度信息。
Figure BDA0003573890090000171
表示图像结构损失信息,且
Figure BDA0003573890090000172
为了提高生成图像的质量,还可以利用判别器对第一子脸部处理模型同时进行训练。判别器可以是预先训练好的。判别器与第一子脸部处理模型构成对抗网络,通过判别器对生成图像的判别结果,对第一子脸部处理模型进行优化,从而使得第一子脸部处理模型生成的第一虚拟人脸生成图像与人脸驱动图像数据样本更相似,以及第一人脸驱动数据生成图像与虚拟图像样本更相似。
在一种实施方式中,参见图6所示的利用判别器对第一子脸部处理模型进行训练的流程示意图中,可以将人脸驱动图像数据样本和第一虚拟人脸生成图像输入预先训练好的判别器中,得到人脸驱动图像数据样本的第一真伪判别结果和第一虚拟人脸生成图像的第二真伪判别结果;基于第一真伪判别结果和第二真伪判别结果,调整第一子脸部处理模型的模型参数信息,直至第一虚拟人脸生成图像的第二真伪判别结果与人脸驱动图像数据样本的第一真伪判别结果相匹配。
经过预先训练好的判别器可以得到人脸驱动图像数据样本为真的真伪判别结果,即第一真伪判别结果。在第一子脸部处理模型的训练开始阶段,由于第一子脸部处理模型生成的第一虚拟人脸生成图像与人脸驱动图像数据样本的相似性较小,经过判别器可能得到第一虚拟人脸生成图像不为真的真伪判别结果,即第二真伪判别结果。此时,可以基于第一真伪判别结果和第二真伪判别结果,调整第一子脸部处理模型的模型参数信息。
然后,再将利用调整模型参数信息后第一子脸部处理模型生成的第一虚拟人脸生成图像输入至判别器中,再次得到第一虚拟人脸生成图像的第二真伪判别结果,如果第二真伪判别结果仍然指示第一虚拟人脸生成图像不为真,则继续调整第一子脸部处理模型的模型参数信息,直至第一虚拟人脸生成图像的第二真伪判别结果与人脸驱动图像数据样本的第一真伪判别结果相匹配。
在一种实施方式中,第一真伪判别结果和第二真伪判别结果可以用概率值表示,比如,为真时,真伪判别结果可以用1表示;为伪时,真伪判别结果可以用0表示。当第一虚拟人脸生成图像的第二真伪判别结果与人脸驱动图像数据样本的第一真伪判别结果的差值小于设定阈值的情况下,可以认为第一虚拟人脸生成图像的第二真伪判别结果与人脸驱动图像数据样本的第一真伪判别结果相匹配,此时可以结束训练。
和/或,将虚拟人脸图像样本和第一人脸驱动数据生成图像输入预先训练好的判别器中,得到虚拟人脸图像样本的第三真伪判别结果和第一人脸驱动数据生成图像的第四真伪判别结果;基于第三真伪判别结果和第四真伪判别结果,调整第一子脸部处理模型的模型参数信息,直至第一人脸驱动数据生成图像的第四真伪判别结果与虚拟人脸图像样本的第三真伪判别结果相匹配。
这里,基于虚拟人脸图像样本的第三真伪判别结果和第一人脸驱动数据生成图像的第四真伪判别结果,调整第一子脸部处理模型的模型参数信息可以参照前述过程,这里不再详述。
上面介绍了第一子脸部处理模型的训练过程,下面介绍第二子脸部处理模型的训练过程。参见图7所示的第二子脸部处理模型的训练流程图,第二子脸部处理模型通过以下步骤训练得到:
S701:将所述虚拟人脸图像样本输入至所述训练完成的第一子脸部处理模型的所述编码器中,得到第三虚拟表情特征;
S702:将所述第三虚拟表情特征输入至所述第二子脸部处理模型中,得到所述虚拟人脸图像样本对应的预测BS系数;
S703:基于所述预测BS系数以及所述虚拟人脸图像样本对应的已知的BS系数,确定第五损失信息;
S704:基于所述第五损失信息,调整所述第二子脸部处理模型的模型参数信息。
这里,第一子脸部处理模型是训练完成的,经过训练完成的第一子脸部处理模型的编码器对虚拟人脸图像样本的编码,得到的第三虚拟表情特征更加准确。
这里,第二子脸部处理模型可以是DNN,DNN可以基于第三虚拟表情特征预测得到虚拟人脸图像样本对应的预测BS系数。
虚拟人脸图像样本对应的已知的BS系数指前述生成虚拟人脸图像样本所使用的BS系数。这里,可以基于预测BS系数以及虚拟人脸图像样本对应的已知的BS系数,计算均方误差(Mean Square Error,MSE)损失,即第五损失信息。
基于第五损失信息,调整第二子脸部处理模型的模型参数信息,得到训练完成的第二子脸部处理模型。
具体实施中,参见图8所示的另一种第二子脸部处理模型的训练流程图,将虚拟人脸图像样本输入至训练完成的第一子脸部处理模型的编码器Encoder中,得到第三虚拟表情特征,将第三虚拟表情特征输入至DNN中,得到虚拟人脸图像样本对应的预测BS系数;然后,基于预测BS系数以及所述虚拟人脸图像样本对应的已知的BS系数,确定第五损失信息。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与面部表情捕捉方法对应的面部表情捕捉装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述面部表情捕捉方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图9所示,为本公开实施例提供的一种面部表情捕捉装置的结构示意图,所述装置包括:第一获取模块901、第一提取模块902、第二提取模块903、生成模块904;其中,
第一获取模块901,用于获取人脸驱动图像数据;
第一提取模块902,用于对所述人脸驱动图像数据进行第一特征提取,得到所述人脸驱动图像数据的第一表情特征;
第二提取模块903,用于基于所述第一表情特征生成虚拟人脸图像,并对所述虚拟人脸图像进行第二特征提取,得到所述虚拟人脸图像的第二表情特征;
生成模块904,用于基于所述第二表情特征,生成形状融合BS系数;所述BS系数用于输入三维游戏引擎,生成三维虚拟人脸模型。
一种可选的实施方式中,所述BS系数的生成过程为将所述人脸驱动图像数据输入预先训练的脸部处理模型后执行的;
所述脸部处理模型包括第一子脸部处理模型和第二子脸部处理模型;所述第一子脸部处理模型用于基于所述人脸驱动图像数据输出所述第二表情特征,所述第二子脸部处理模型用于基于所述第二表情特征得到所述BS系数;
所述第一子脸部处理模型包括编码器、第一解码器和第二解码器,所述编码器用于对图像进行特征提取得到表情特征,所述第一解码器用于对表情特征进行解码得到虚拟人脸生成图像,所述第二解码器用于对表情特征进行解码得到人脸驱动数据生成图像。
一种可选的实施方式中,所述装置还包括:
第二获取模块,用于获取人脸驱动图像数据样本、以及虚拟人脸图像样本;
第一输入模块,用于将所述人脸驱动图像数据样本经所述第一子脸部处理模型的编码器编码得到第一控制人员表情特征,将所述第一控制人员表情特征输入所述第一子脸部处理模型的第一解码器,得到第一虚拟人脸生成图像;以及,将所述虚拟人脸图像样本经所述第一子脸部处理模型的编码器编码得到第一虚拟表情特征,将所述第一虚拟表情特征输入所述第一子脸部处理模型的第二解码器,得到第一人脸驱动数据生成图像;
编码模块,用于将所述第一虚拟人脸生成图像经所述编码器编码得到第二虚拟表情特征;以及,将所述第一人脸驱动数据生成图像经所述编码器编码得到第二控制人员表情特征;
第一调整模块,用于基于所述第一控制人员表情特征和所述第二虚拟表情特征之间的第一损失信息,以及所述第一虚拟表情特征和所述第二控制人员表情特征之间的第二损失信息,调整所述第一子脸部处理模型的模型参数信息。
一种可选的实施方式中,在将所述人脸驱动图像数据样本经所述第一子脸部处理模型的编码器编码得到第一控制人员表情特征之后,所述装置还包括:
第二输入模块,用于将所述第一控制人员表情特征输入所述第一子脸部处理模型的所述第二解码器,得到第二人脸驱动数据生成图像;
第一确定模块,用于基于所述人脸驱动图像数据样本的第一图像信息和所述第二人脸驱动数据生成图像的第二图像信息,确定第三损失信息;
在将所述虚拟人脸图像样本经所述第一子脸部处理模型的编码器编码得到第一虚拟表情特征之后,所述装置还包括:
第三输入模块,用于将所述第一虚拟表情特征输入所述第一子脸部处理模型的所述第一解码器,得到第二虚拟人脸生成图像;
第二确定模块,用于基于所述虚拟人脸图像样本的第三图像信息和所述第二虚拟人脸生成图像的第四图像信息,确定第四损失信息;
调整模块904,具体用于:
基于所述第一控制人员表情特征和所述第二虚拟表情特征之间的第一损失信息、所述第一虚拟表情特征和所述第二控制人员表情特征之间的第二损失信息、所述第三损失信息、所述第四损失信息,调整所述第一子脸部处理模型的模型参数信息。
一种可选的实施方式中,第一确定模块,具体用于:
基于所述人脸驱动图像数据样本中各个像素点的第一像素值信息和所述第二人脸驱动数据生成图像的中各个像素点的第二像素值信息,确定第一图像质量损失信息;
基于所述人脸驱动图像数据样本的第一亮度信息和所述第二人脸驱动数据生成图像的第二亮度信息,确定图像亮度损失信息;
基于所述人脸驱动图像数据样本的第一对比度信息和所述第二人脸驱动数据生成图像的第二对比度信息,确定图像对比度损失信息;
基于所述人脸驱动图像数据样本的第一结构信息和所述第二人脸驱动数据生成图像的第二结构信息,确定图像结构损失信息;
基于所述图像亮度损失信息、所述图像对比度损失信息和所述图像结构损失信息,确定所述第二图像质量损失信息;
基于所述第一图像质量损失信息和所述第二图像质量损失信息,确定第三损失信息。
一种可选的实施方式中,得到所述第一虚拟人脸生成图像和所述第一人脸驱动数据生成图像之后,所述装置还包括:
第四输入模块,用于将所述人脸驱动图像数据样本和所述第一虚拟人脸生成图像输入预先训练好的判别器中,得到所述人脸驱动图像数据样本的第一真伪判别结果和所述第一虚拟人脸生成图像的第二真伪判别结果;基于所述第一真伪判别结果和所述第二真伪判别结果,调整所述第一子脸部处理模型的模型参数信息,直至所述第一虚拟人脸生成图像的第二真伪判别结果与所述人脸驱动图像数据样本的第一真伪判别结果相匹配;和/或
将所述虚拟人脸图像样本和所述第一人脸驱动数据生成图像输入预先训练好的判别器中,得到所述虚拟人脸图像样本的第三真伪判别结果和所述第一人脸驱动数据生成图像的第四真伪判别结果;基于所述第三真伪判别结果和所述第四真伪判别结果,调整所述第一子脸部处理模型的模型参数信息,直至所述第一人脸驱动数据生成图像的第四真伪判别结果与所述虚拟人脸图像样本的第三真伪判别结果相匹配。
一种可选的实施方式中,所述装置还包括:
第五输入模块,用于将所述虚拟人脸图像样本输入至所述训练完成的第一子脸部处理模型的所述编码器中,得到所述第三虚拟表情特征;
第六输入模块,用于将所述第三虚拟表情特征输入至所述第二子脸部处理模型中,得到所述虚拟人脸图像样本对应的预测BS系数;
第三确定模块,用于基于所述预测BS系数以及所述虚拟人脸图像样本对应的已知的BS系数,确定第五损失信息;
第二调整模块,用于基于所述第五损失信息,调整所述第二子脸部处理模型的模型参数信息。
一种可选的实施方式中,第二获取模块,具体用于:
获取原始人脸驱动图像数据、以及原始虚拟人脸图像;
分别对所述原始人脸驱动图像数据和所述原始虚拟人脸图像进行增广处理,得到增广后人脸驱动图像数据样本和增广后虚拟人脸图像样本。
分别对所述增广后人脸驱动图像数据和所述增广后虚拟人脸图像进行分割处理,得到包含第一脸部区域的人脸驱动图像数据样本和第二脸部区域的虚拟人脸图像样本。
一种可选的实施方式中,第二获取模块,具体用于:
分别对所述增广后人脸驱动图像数据和所述增广后虚拟人脸图像依次进行人脸检测、人脸关键点检测处理和人脸配准处理,确定增广后人脸驱动图像数据的第一脸部区域和所述增广后虚拟人脸图像的第二脸部区域;
基于所述第一脸部区域,对所述增广后人脸驱动图像数据进行分割处理,得到包含所述第一脸部区域的人脸驱动图像数据样本,以及基于所述第二脸部区域,对所述增广后虚拟人脸图像进行分割处理,得到包含所述第二脸部区域的虚拟人脸图像样本。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
基于同一技术构思,本公开实施例还提供了一种计算机设备。参照图10所示,为本公开实施例提供的计算机设备1000的结构示意图,包括处理器1001、存储器1002、和总线1003。其中,存储器1002用于存储执行指令,包括内存10021和外部存储器10022;这里的内存10021也称内存储器,用于暂时存放处理器1001中的运算数据,以及与硬盘等外部存储器10022交换的数据,处理器1001通过内存10021与外部存储器10022进行数据交换,当计算机设备1000运行时,处理器1001与存储器1002之间通过总线1003通信,使得处理器1001在执行以下指令:
获取人脸驱动图像数据;
对所述人脸驱动图像数据进行第一特征提取,得到所述人脸驱动图像数据的第一表情特征;
基于所述第一表情特征生成虚拟人脸图像,并对所述虚拟人脸图像进行第二特征提取,得到所述虚拟人脸图像的第二表情特征;
基于所述第二表情特征,生成形状融合BS系数;所述BS系数用于输入三维游戏引擎,生成三维虚拟人脸模型。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的面部表情捕捉方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的面部表情捕捉方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种面部表情捕捉方法,其特征在于,包括:
获取人脸驱动图像数据;
对所述人脸驱动图像数据进行第一特征提取,得到所述人脸驱动图像数据的第一表情特征;
基于所述第一表情特征生成虚拟人脸图像,并对所述虚拟人脸图像进行第二特征提取,得到所述虚拟人脸图像的第二表情特征;
基于所述第二表情特征,生成形状融合BS系数;所述BS系数用于输入三维游戏引擎,生成三维虚拟人脸模型。
2.根据权利要求1所述的方法,其特征在于,所述BS系数的生成过程为将所述人脸驱动图像数据输入预先训练的脸部处理模型后执行的;
所述脸部处理模型包括第一子脸部处理模型和第二子脸部处理模型;所述第一子脸部处理模型用于基于所述人脸驱动图像数据输出所述第二表情特征,所述第二子脸部处理模型用于基于所述第二表情特征得到所述BS系数;
所述第一子脸部处理模型包括编码器、第一解码器和第二解码器,所述编码器用于对图像进行特征提取得到表情特征,所述第一解码器用于对表情特征进行解码得到虚拟人脸生成图像,所述第二解码器用于对表情特征进行解码得到人脸驱动数据生成图像。
3.根据权利要求2所述的方法,其特征在于,所述第一子脸部处理模型通过以下步骤训练得到:
获取人脸驱动图像数据样本、以及虚拟人脸图像样本;
将所述人脸驱动图像数据样本经所述第一子脸部处理模型的编码器编码得到第一控制人员表情特征,将所述第一控制人员表情特征输入所述第一子脸部处理模型的第一解码器,得到第一虚拟人脸生成图像;以及,将所述虚拟人脸图像样本经所述第一子脸部处理模型的编码器编码得到第一虚拟表情特征,将所述第一虚拟表情特征输入所述第一子脸部处理模型的第二解码器,得到第一人脸驱动数据生成图像;
将所述第一虚拟人脸生成图像经所述编码器编码得到第二虚拟表情特征;以及,将所述第一人脸驱动数据生成图像经所述编码器编码得到第二控制人员表情特征;
基于所述第一控制人员表情特征和所述第二虚拟表情特征之间的第一损失信息,以及所述第一虚拟表情特征和所述第二控制人员表情特征之间的第二损失信息,调整所述第一子脸部处理模型的模型参数信息。
4.根据权利要求3所述的方法,其特征在于,在将所述人脸驱动图像数据样本经所述第一子脸部处理模型的编码器编码得到第一控制人员表情特征之后,所述方法还包括:
将所述第一控制人员表情特征输入所述第一子脸部处理模型的所述第二解码器,得到第二人脸驱动数据生成图像;
基于所述人脸驱动图像数据样本的第一图像信息和所述第二人脸驱动数据生成图像的第二图像信息,确定第三损失信息;
在将所述虚拟人脸图像样本经所述第一子脸部处理模型的编码器编码得到第一虚拟表情特征之后,所述方法还包括:
将所述第一虚拟表情特征输入所述第一子脸部处理模型的所述第一解码器,得到第二虚拟人脸生成图像;
基于所述虚拟人脸图像样本的第三图像信息和所述第二虚拟人脸生成图像的第四图像信息,确定第四损失信息;
所述基于所述第一控制人员表情特征和所述第二虚拟表情特征之间的第一损失信息,以及所述第一虚拟表情特征和所述第二控制人员表情特征之间的第二损失信息,调整所述第一子脸部处理模型的模型参数信息,包括:
基于所述第一控制人员表情特征和所述第二虚拟表情特征之间的第一损失信息、所述第一虚拟表情特征和所述第二控制人员表情特征之间的第二损失信息、所述第三损失信息、所述第四损失信息,调整所述第一子脸部处理模型的模型参数信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述人脸驱动图像数据样本的第一图像信息和所述第二人脸驱动数据生成图像的第二图像信息,确定第三损失信息,包括:
基于所述人脸驱动图像数据样本中各个像素点的第一像素值信息和所述第二人脸驱动数据生成图像的中各个像素点的第二像素值信息,确定第一图像质量损失信息;
基于所述人脸驱动图像数据样本的第一亮度信息和所述第二人脸驱动数据生成图像的第二亮度信息,确定图像亮度损失信息;
基于所述人脸驱动图像数据样本的第一对比度信息和所述第二人脸驱动数据生成图像的第二对比度信息,确定图像对比度损失信息;
基于所述人脸驱动图像数据样本的第一结构信息和所述第二人脸驱动数据生成图像的第二结构信息,确定图像结构损失信息;
基于所述图像亮度损失信息、所述图像对比度损失信息和所述图像结构损失信息,确定所述第二图像质量损失信息;
基于所述第一图像质量损失信息和所述第二图像质量损失信息,确定第三损失信息。
6.根据权利要求3所述的方法,其特征在于,得到所述第一虚拟人脸生成图像和所述第一人脸驱动数据生成图像之后,所述方法还包括:
将所述人脸驱动图像数据样本和所述第一虚拟人脸生成图像输入预先训练好的判别器中,得到所述人脸驱动图像数据样本的第一真伪判别结果和所述第一虚拟人脸生成图像的第二真伪判别结果;基于所述第一真伪判别结果和所述第二真伪判别结果,调整所述第一子脸部处理模型的模型参数信息,直至所述第一虚拟人脸生成图像的第二真伪判别结果与所述人脸驱动图像数据样本的第一真伪判别结果相匹配;和/或
将所述虚拟人脸图像样本和所述第一人脸驱动数据生成图像输入预先训练好的判别器中,得到所述虚拟人脸图像样本的第三真伪判别结果和所述第一人脸驱动数据生成图像的第四真伪判别结果;基于所述第三真伪判别结果和所述第四真伪判别结果,调整所述第一子脸部处理模型的模型参数信息,直至所述第一人脸驱动数据生成图像的第四真伪判别结果与所述虚拟人脸图像样本的第三真伪判别结果相匹配。
7.根据权利要求2所述的方法,其特征在于,所述第二子脸部处理模型通过以下步骤训练得到:
将所述虚拟人脸图像样本输入至所述训练完成的第一子脸部处理模型的所述编码器中,得到所述第三虚拟表情特征;
将所述第三虚拟表情特征输入至所述第二子脸部处理模型中,得到所述虚拟人脸图像样本对应的预测BS系数;
基于所述预测BS系数以及所述虚拟人脸图像样本对应的已知的BS系数,确定第五损失信息;
基于所述第五损失信息,调整所述第二子脸部处理模型的模型参数信息。
8.根据权利要求2所述的方法,其特征在于,所述获取人脸驱动图像数据样本、以及虚拟人脸图像样本,包括:
获取原始人脸驱动图像数据、以及原始虚拟人脸图像;
分别对所述原始人脸驱动图像数据和所述原始虚拟人脸图像进行增广处理,得到增广后人脸驱动图像数据样本和增广后虚拟人脸图像样本。
分别对所述增广后人脸驱动图像数据和所述增广后虚拟人脸图像进行分割处理,得到包含第一脸部区域的人脸驱动图像数据样本和第二脸部区域的虚拟人脸图像样本。
9.根据权利要求8所述的方法,其特征在于,所述分别对所述增广后人脸驱动图像数据和所述增广后虚拟人脸图像进行分割处理,得到包含第一脸部区域的人脸驱动图像数据样本和第二脸部区域的虚拟人脸图像样本,包括:
分别对所述增广后人脸驱动图像数据和所述增广后虚拟人脸图像依次进行人脸检测、人脸关键点检测处理和人脸配准处理,确定增广后人脸驱动图像数据的第一脸部区域和所述增广后虚拟人脸图像的第二脸部区域;
基于所述第一脸部区域,对所述增广后人脸驱动图像数据进行分割处理,得到包含所述第一脸部区域的人脸驱动图像数据样本,以及基于所述第二脸部区域,对所述增广后虚拟人脸图像进行分割处理,得到包含所述第二脸部区域的虚拟人脸图像样本。
10.一种面部表情捕捉装置,其特征在于,包括:
第一获取模块,用于获取人脸驱动图像数据;
第一提取模块,用于对所述人脸驱动图像数据进行第一特征提取,得到所述人脸驱动图像数据的第一表情特征;
第二提取模块,用于基于所述第一表情特征生成虚拟人脸图像,并对所述虚拟人脸图像进行第二特征提取,得到所述虚拟人脸图像的第二表情特征;
生成模块,用于基于所述第二表情特征,生成形状融合BS系数;所述BS系数用于输入三维游戏引擎,生成三维虚拟人脸模型。
11.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至9任一项所述的面部表情捕捉方法的步骤。
12.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一项所述的面部表情捕捉方法的步骤。
CN202210326965.4A 2022-03-30 2022-03-30 一种面部表情捕捉方法、装置、计算机设备及存储介质 Pending CN114677739A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210326965.4A CN114677739A (zh) 2022-03-30 2022-03-30 一种面部表情捕捉方法、装置、计算机设备及存储介质
PCT/CN2023/080015 WO2023185395A1 (zh) 2022-03-30 2023-03-07 一种面部表情捕捉方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210326965.4A CN114677739A (zh) 2022-03-30 2022-03-30 一种面部表情捕捉方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114677739A true CN114677739A (zh) 2022-06-28

Family

ID=82076845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210326965.4A Pending CN114677739A (zh) 2022-03-30 2022-03-30 一种面部表情捕捉方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN114677739A (zh)
WO (1) WO2023185395A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188640A (zh) * 2022-12-09 2023-05-30 北京百度网讯科技有限公司 三维虚拟形象的生成方法、装置、设备和介质
WO2023185395A1 (zh) * 2022-03-30 2023-10-05 北京字跳网络技术有限公司 一种面部表情捕捉方法、装置、计算机设备及存储介质
CN117540789A (zh) * 2024-01-09 2024-02-09 腾讯科技(深圳)有限公司 模型训练方法、面部表情迁移方法、装置、设备及介质
WO2024174836A1 (zh) * 2023-02-23 2024-08-29 百果园技术(新加坡)有限公司 一种人脸模型构造方法、装置、设备、存储介质及产品

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363973B (zh) * 2018-02-07 2022-03-25 电子科技大学 一种无约束的3d表情迁移方法
CN108564641B (zh) * 2018-03-16 2020-09-25 中国科学院自动化研究所 基于ue引擎的表情捕捉方法及装置
US10970907B1 (en) * 2019-07-02 2021-04-06 Facebook Technologies, Llc System and method for applying an expression to an avatar
CN113205449B (zh) * 2021-05-21 2024-07-05 珠海金山数字网络科技有限公司 表情迁移模型的训练方法及装置、表情迁移方法及装置
CN114677739A (zh) * 2022-03-30 2022-06-28 北京字跳网络技术有限公司 一种面部表情捕捉方法、装置、计算机设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023185395A1 (zh) * 2022-03-30 2023-10-05 北京字跳网络技术有限公司 一种面部表情捕捉方法、装置、计算机设备及存储介质
CN116188640A (zh) * 2022-12-09 2023-05-30 北京百度网讯科技有限公司 三维虚拟形象的生成方法、装置、设备和介质
CN116188640B (zh) * 2022-12-09 2023-09-08 北京百度网讯科技有限公司 三维虚拟形象的生成方法、装置、设备和介质
WO2024174836A1 (zh) * 2023-02-23 2024-08-29 百果园技术(新加坡)有限公司 一种人脸模型构造方法、装置、设备、存储介质及产品
CN117540789A (zh) * 2024-01-09 2024-02-09 腾讯科技(深圳)有限公司 模型训练方法、面部表情迁移方法、装置、设备及介质
CN117540789B (zh) * 2024-01-09 2024-04-26 腾讯科技(深圳)有限公司 模型训练方法、面部表情迁移方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2023185395A1 (zh) 2023-10-05

Similar Documents

Publication Publication Date Title
Chen et al. Fsrnet: End-to-end learning face super-resolution with facial priors
Li et al. PDR-Net: Perception-inspired single image dehazing network with refinement
CN114677739A (zh) 一种面部表情捕捉方法、装置、计算机设备及存储介质
US11908233B2 (en) Normalization of facial images using deep neural networks
WO2023040679A1 (zh) 人脸图片的融合方法、装置、设备及存储介质
CN110929569A (zh) 人脸识别方法、装置、设备及存储介质
US11475608B2 (en) Face image generation with pose and expression control
CN110599395A (zh) 目标图像生成方法、装置、服务器及存储介质
US20230245351A1 (en) Image style conversion method and apparatus, electronic device, and storage medium
CN112633221B (zh) 一种人脸方向的检测方法及相关装置
Vieira et al. Learning good views through intelligent galleries
WO2023080921A1 (en) Neural radiance field generative modeling of object classes from single two-dimensional views
Shen et al. Approximate least trimmed sum of squares fitting and applications in image analysis
CN111951154A (zh) 包含背景和介质的图片的生成方法及装置
CN105684046A (zh) 生成图像组成
Zhang et al. A light dual-task neural network for haze removal
CN110348025A (zh) 一种基于字形的翻译方法、装置、存储介质及电子设备
CN113298753A (zh) 敏感肌的检测方法、图像处理方法、装置及设备
CN114724218A (zh) 视频检测方法、装置、设备及介质
CN109636867B (zh) 图像处理方法、装置及电子设备
Dong et al. Self-supervised colorization towards monochrome-color camera systems using cycle CNN
CN114783017A (zh) 基于逆映射的生成对抗网络优化方法及装置
CN116740261A (zh) 图像重建方法和装置、图像重建模型的训练方法和装置
CN116863069A (zh) 三维光场人脸内容生成方法、电子设备及存储介质
Boss et al. Deep Dual Loss BRDF Parameter Estimation.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination