CN117132701A

CN117132701A - 人脸模型的面部驱动方法、装置、电子设备及存储介质

Info

Publication number: CN117132701A
Application number: CN202311097405.7A
Authority: CN
Inventors: 赵娅琳; 郑志彤; 刘海锋
Original assignee: Shenzhen Huantai Technology Co Ltd
Current assignee: Shenzhen Huantai Technology Co Ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-28

Abstract

本发明公开了一种人脸模型的面部驱动方法、装置、电子设备及存储介质，该方法包括获取目标视频，目标视频为人脸视频，将目标视频输入至训练后的编码器模型中，得到目标视频对应的控制器信息，将控制器信息输入至渲染软件中，以对渲染软件中数字人的人脸模型进行面部驱动。采用本发明实施例，能够在保证人脸模型的高精度表情表征能力的情况下，有效的提高对人脸模型的驱动效率。

Description

人脸模型的面部驱动方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人脸模型的面部驱动方法、装置、电子设备及存储介质。

背景技术

随着元宇宙技术快速发展，线上生活逐渐演变为一种生活常态，对更多高精度的头模驱动有了更多的需求。通过对人脸模型的面部驱动，能够带来较高的互娱价值。现有的人脸模型的面部驱动方法包括有如下两种：

1)基于面部混合形状系数以及控制器系数，在渲染软件中驱动虚拟人物的面部运动；

2)利用头盔式3D面部表情捕捉系统，对人脸表面的密布特征点集进行实时运动跟踪和重建，得到面部肌肉高度精细的三维空间运动轨迹，从而直接用于人脸模型的面部驱动。

然而，上述两种方法存在有一定的缺陷，对于第一种方法来说，需要获取成对数据的需求，而获取成对数据的成本较高，无法快速进行通用化投产；对于第二种方法来说，其专业性需求较高，且运行成本也高，无法适用于普通用户的日常使用。

发明内容

本发明实施例的目的是提供一种人脸模型的面部驱动方法、装置、电子设备及存储介质，以解决上述背景技术中存在的至少一个技术问题。

第一方面，本发明实施例提供了一种人脸模型的面部驱动方法，包括：

获取目标视频，所述目标视频为人脸视频；

将所述目标视频输入至训练后的编码器模型中，得到所述目标视频对应的控制器信息；

将所述控制器信息输入至渲染软件中，以对所述渲染软件中数字人的人脸模型进行面部驱动。

第二方面，本发明实施例提供了一种人脸模型的面部驱动装置，包括：

第一获取模块，用于获取目标视频，所述目标视频为人脸视频；

编码模块，用于将所述目标视频输入至训练后的编码器模型中，得到所述目标视频对应的控制器信息；

渲染模块，用于将所述控制器信息输入至渲染软件中，以对所述渲染软件中数字人的人脸模型进行面部驱动。

第三方面，本发明实施例提供了一种电子设备，电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的人脸模型的面部驱动方法中的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的人脸模型的面部驱动方法中的步骤。

本发明实施例提供了一种人脸模型的面部驱动方法、装置、电子设备及存储介质，该方法通过将目标视频输入至训练后的编码器模型中，能够得到用于精准控制人脸模型的控制器信息，从而在将控制器信息输入至任意的渲染软件后，能够对渲染软件中任意数字人的人脸模型进行面部驱动，实现了在保证人脸模型的高精度表情表征能力的情况下，提高了对人脸模型的驱动效率。

附图说明

图1是本发明实施例提供的人脸模型的面部驱动方法的一种流程示意图；

图2是本发明实施例提供的编码器模型的训练方法的一种流程示意图；

图3是现有的patch分块方法的一种示意图；

图4是本发明实施例提供的patch分块方法的一种示意图；

图5是本发明实施例提供的预设的人脸参数化模型的构建方法的一种流程示意图；

图6是本发明实施例提供的人脸模型的面部驱动方法的整个流程示意图；

图7是本发明实施例提供的人脸模型的面部驱动装置的一种结构示意图；

图8是本发明实施例提供的人脸模型的面部驱动装置的另一种结构示意图；

图9是本发明实施例提供的电子设备的一种结构示意图；

图10是本发明实施例提供的电子设备的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解的是，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

在相关技术中，人脸模型的面部驱动方法包括有如下两种：

为了解决相关技术中存在的技术问题，本发明实施例提供了一种人脸模型的面部驱动方法，请参见图1，图1是本发明实施例提供的人脸模型的面部驱动方法的一种流程示意图，该方法包括步骤101至步骤103；

步骤101，获取目标视频，目标视频为人脸视频。

在本实施例中，本实施例提供的人脸视频中的每帧图像均为人脸图像。

步骤102，将目标视频输入至训练后的编码器模型中，得到目标视频对应的控制器信息。

现有的人脸模型的面部驱动方式，多是基于单帧图片对人脸面部混合形变系数或是控制器系数进行建模，没有利用视频图像序列间的时序信息。面部混合形变系数或控制系数随时间变化的变化，在视频帧与帧之间是强关联的。因此，现有的人脸模型的面部驱动方式，无法保证人脸模型的高精度表情表征能力。

在本实施例中，本实施例提供的编码器模型主要用于提取出目标视频中图像序列的时间与空间特征，并将其编码为可以驱动人脸模型的控制器信息。具体的，本实施例提供的编码器模型可以为transformer模型。

步骤103，将控制器信息输入至渲染软件中，以对渲染软件中数字人的人脸模型进行面部驱动。

在本实施例中，本实施例提供的编码器模型能够将目标视频中图像序列编码为可以驱动人脸模型的控制器信息，该控制器信息包括有表情序列信息，从而直接将该控制器信息输入至渲染软件中，即可对渲染软件中预选数字人的人脸模型进行面部驱动。

其中，本实施例提供的渲染软件为任意一款含有数字人的渲染软件，渲染软件中的数字人为该渲染软件中的任意一个数字人。因此，采用本发明实施例，不仅能够保证人脸模型的高精度表情表征能力，还能够有效提高人脸模型面部驱动的驱动效率。

在一些实施例中，请参见图2，图2是本发明实施例提供的编码器模型的训练方法的一种流程示意图，如图2所示，在本实施例提供的将目标视频输入至训练后的编码器模型中，得到目标人脸视频对应的控制器信息的步骤之前，本实施例提供的人脸模型的面部驱动方法还可以包括，步骤201至步骤206；

步骤201，获取训练视频，训练视频包括多种不同的人脸视频。

在本实施例中，本实施例提供的训练视频的每帧视频图像也同样为含有人脸的图像。具体的，本实施例提供的训练视频是经过预处理得到的，因此，在获取训练视频的步骤之前，本实施例提供的人脸模型的面部驱动方法还可以包括：获取初始人脸视频；对初始人脸视频进行数据增强处理，得到多个增强处理后的增强人脸视频；将多个增强人脸视频作为训练视频。

其中，为了保证编码器模型的鲁棒性，对初始人脸视频中的每帧人脸视频图像进行数据增强处理，数据增强处理包括但不限于旋转、翻转、裁剪、加噪声、改变亮度、色度、对比度、饱和度、模拟光照、扭曲变形等，如此，将数据增强处理后的人脸视频作为训练视频对待训练的编码器模型进行训练，能够提高编码器模型的鲁棒性。

步骤202，将训练视频输入至待训练的编码器模型中进行编码处理，得到含有时序特征的编码向量。

其中，编码向量包括训练视频中各帧训练图像的相机参数向量、纹理参数向量、光线参数向量、形状参数向量、头姿参数向量以及控制器参数向量。

在一些实施例中，本实施例提供的将训练视频输入至待训练的编码器模型中进行编码处理，得到含有时序特征的编码向量的步骤，可以包括：将训练视频分别以预设维度的张量的训练数据输入至待训练的编码器模型中，以供编码器模型在时序上将各训练数据分组编码为含有时序特征和空间特征的编码向量，预设维度的张量包括批次、分组数量、宽以及高。

具体的，视频数据每次以B(batch，批次)、N(通量)、W(宽)、H(高)四个维度的张量大小输入至待训练的编码器模型即transformer模型，transformer模型例如VIT会将输入的张量进行patch(区块)分块。在相关技术中，请参见图3，图3是现有的patch分块方法的一种示意图，如图3所示，现有的patch分块方法是对每张图像，以单个patch的宽为w、高为h为间隔在单张图像如pic1、pic2以及pic3的宽W和高H的维度下进行分块，将T张图片按时间顺序堆叠。该方式虽然操作简单，但冗余信息较多，计算开销较大，并且没有对Multi-headattention结果进行时序特征提取设计，从而导致这种编码向量的构建方法并没有利用原始数据的时序上的特征，无法编码出能够精准控制人脸模型的高精度表情表征能力的控制器信息。

为了解决该技术问题，请参见图4，图4是本发明实施例提供的patch分块方法的一种示意图，如图4所示，本实施例提供了一种3D的图像特征分块方法，结合了空洞卷积的思想。具体操作如下：假设B＝1，则数据张量为(1,T,W,H)，一个数据分块(如图4中的x1、x2、xj以及xj+1)的张量大小为t*h*w，即其中，本实施例提供的T为视频图像pic的数量即6，t如图4中所示可以为3，这样每个数据分块的编码特征均包含有来自时序与空间的W、H维度的特征，从而有效的利用了视频图像序列间的时序信息与空间信息，使得编码后的编码向量能够具有时序特征和空间特征，有效提高了编码后的控制器信息对人脸模型的高精度表情表征能力。

步骤203，根据纹理参数向量，构建各帧训练图像对应的纹理贴图。

在本实施例中，可以通过将本实施例提供的纹理参数向量输入至解码器中进行解码，以得到对应的纹理参数，然后将该纹理参数输入至任意的参数化人脸模型中，得到高精度纹理的人脸模型，然后再从高精度纹理的人脸模型中获取对应的纹理贴图。如此，采用发明实施例提供的方法，即可构建各帧训练图像对应的纹理贴图。

步骤204，将形状参数向量、头姿参数向量以及控制器参数向量，输入至预设的人脸参数化模型中，得到各帧训练图像对应的人脸模型。

在本实施例中，本实施例提供的预设的人脸参数化模型可以为任意的人脸参数化模型，例如Metahuman参数化模型和Facewarehouse参数化模型等高精度人脸模型，也可以是预选构建好的高精度的人脸参数化模型，在此不作具体的限定。

在一些实施例中，本实施例可以通过将形状参数向量、头姿参数向量以及控制器参数向量输入至解码器中进行解码，从而得到对应的形状参数、头姿参数以及控制器参数，然后将这些参数输入至预设的人脸参数化模型中，即可得到对应表情的人脸模型。如此，采用本发明实施例提供的方法，即可得到各帧训练图像对应的人脸模型。

作为可选的实施例，请参见图5，图5是本发明实施例提供的预设的人脸参数化模型的构建方法的一种流程示意图，如图5所示，本实施例提供的预设的人脸参数化模型的构建方法，包括步骤501至步骤506；

步骤501，获取预设的第一参数化模型的第一规范下的第一混合表情模型，第一混合表情模型包括第一规范下的第一预设数量的表情基模型。

在本实施例中，本实施例提供的第一参数化模型可以为高精度的人脸参数化模型。例如，本实施例提供的第一参数化模型可以为Metahuman lod1的参数化模型，采用Metahuman参数化模型的表情模型规范，也即第一规范，能够缩短后续应用开发时间。并且，lod1相对于精度最高的lod0的人脸模型的大量顶点，能够在人脸重建的过程中节省大量的计算成本，同时也具有较高的精度。

其中，本实施例随机选择一个Metahuman的数字人作为第一参数化模型，并从第一参数化模型中导出多种不同表情对应的表情基模型，得到第一混合表情模型。具体的，本实施例可以采用bridge软件导出maya支持的数据，并从maya支持的数据中导出对应的第一混合表情模型。

作为可选的实施例，本实施例提供的第一预设数量可以为第一参数化模型中包含的任意数量的不同表情的表情基模型，例如，本实施例提供的第一预设数量可以为218。

步骤502，将第一混合表情模型中的第一目标表情模型重拓扑至第二规范下的混合表情模型上，得到第二混合表情模型，第二规范为预设的第二参数化模型的表情模型规范，第二混合表情模型包括第一身份类型对应的表情基模型。

在本实施例中，本实施例提供的第一目标表情模型为第一混合表情模型中的中性表情对应的表情模型，即不含有任何表情的中性表情对应的表情模型。

其中，对于第一混合表情模型来说，第一混合表情模型可以以A＝[A0,A1,…Ai,…An]来表示，A0是第一混合表情模型中的中性表情，也即第一目标表情模型，Ai表示的是相对于中性表情的偏移量，对于任何一种带有表情的表情基模型来说，都可以通过在中性表情对应的第一目标表情模型的基础上加上偏移量得到。

在本实施例中，第二参数化模型可以为含有多种不同身份类型对应的表情基模型的参数化模型，例如，第二参数化模型可以为Facewarehouse参数化模型。其中，Facewarehouse参数化模型是采集了150个不同样本(即第一身份类型)的7-80岁个体数据，具体的通过使用Kinect的RGBD相机，采集这些个体包括中性表情和其他19个表情，从而构建含有多个不同的第一身份类型的个体对应的表情基模型的Facewarehouse参数化模型。

具体的，本实施例提供的将第一混合表情模型中的第一目标表情模型重拓扑至第二规范下的混合表情模型上，得到第二混合表情模型的步骤，可以包括：确定第一参数化模型中的第一目标表情模型上的第一表情关键点，和预设的第二参数化模型中的第二目标表情模型上的第二表情关键点；计算第一表情关键点和第二表情关键点之间的映射关系；根据该映射关系，将第一目标表情模型形变至第二规范下的第二混合表情模型。

其中，本实施例提供的第二目标表情模型为第二参数化模型，也即Facewarehouse参数化模型中的中性表情对应的表情基模型。本实施例提供的表情关键点可以为表情基模型上用于表征人脸表情的人脸关键点，例如眼角、鼻角、嘴角等人脸关键点。本实施例计算第一表情关键点和第二表情关键点之间的映射关系，可以通过计算两个表征同一表情关键点的第一表情关键点和第二表情关键点之间的偏移量确定。如此，即可通过确定的映射关系，将第一目标表情模型中的第一表情关键点形变至第二表情关键点的位置，从而完成将第一目标表情模型重拓扑至第二规范下的混合表情模型上，得到第二混合表情模型的过程。

在一些实施例中，本实施提供的将第一目标表情模型重拓扑至第二规范下的混合表情模型上，得到第二混合表情模型的具体方式可以为：首先在Facewarehouse参数化模型的中性表情的表情基模型上选择表情关键点，计算Facewarehouse参数化模型上的这些表情关键点，与Metahuman参数化模型的中性表情的表情基模型上对应的表情关键点之间的映射关系；其次利用形变算法将Metahuman的中性表情的表情基模型形变成为Facewarehouse参数化模型，即可得到中性表情的表情基模型；然后再采用相同的方式获取其他表情对应的表情基模型，从而得到150名个体(即第一身份类型)的多个Metahumanlod1的表情基模型，也即本实施例提供的第二混合表情模型。

其中，本实施例提供的形变算法可以为mesh deformation transfer算法，也可以其它能够将表情基模型上的表情关键点形变的算法，在此不一一例举。

步骤503，将第二混合表情模型拆分为第一规范下的第一预设数量的表情基模型，得到第三混合表情模型。

在本实施例中，在得到第二混合表情模型后，为了便于在同一软件，例如maya软件上编辑或调整表情模型，本实施例还需要将第二混合表情模型转换为第一规范下的预设数量表情的表情基模型。具体的，本实施例可以利用拆分算法将该第二混合表情模型中的多个表情基模型拆分为218个Metahuman定义的表情，从而能够得到含有第一预设数量即218个表情基模型的第三混合表情模型。

其中，本实施例提供的拆分算法可以为example based facial rigging算法，也可以其它能够将表情基模型进行表情拆分的算法，在此不一一例举。

步骤504，获取第二身份类型对应的第四混合表情模型，第四混合表情模型为第一规范下的表情基模型，且第四混合表情模型包括第一预设数量的表情基模型。

在本实施例中，为了解决现有的人脸参数化模型的人脸数据的身份类型较为单一的技术问题，本实施例提供了第二身份类型对应的第四混合表情模型，本实施例提供的第二身份类型可以为用户需要的身份类型。具体的，本实施例提供的获取第二身份类型对应的第四混合表情模型的步骤，可以包括：采集多张第二身份类型的表情图片；根据表情图片进行三维重建，得到第二身份类型对应的混合表情模型；将第一目标表情模型重拓扑至第二身份类型对应的混合表情模型上，得到第四混合表情模型。

具体的，本实施例可以使用9台高速工业摄像机搭建的4d数据采集设备，采集200名个体包括中性表情以及其他预设数量个表情，例如20个。利用reality capture软件将各个体的每个表情的9张表情图片进行三维重建，然后使用wrap4d软件将Metahuman的中性表情分别重拓扑至这200名个体的21个表情上，至此得到200名个体的21个Metahuman lod1的表情基模型。之后，同样是为了便于在同一软件，例如maya软件上编辑或调整表情模型，本实施例还需要将得到的200名个体的21个Metahuman lod1的表情基模型转换为第一规范下的218个表情的表情基模型，从而得到第四混合表情模型。具体的，同样可以利用examplebased facial rigging算法将21个表情基模型拆分为218个Metahuman定义的表情，从而得到第四混合表情模型。

作为可选的实施例，为了提高第四混合表情模型中表情基模型的精度，本实施例提供的根据表情图片进行三维重建，得到第二身份类型对应的混合表情模型的步骤，可以包括：根据表情图片进行三维重建，得到初始混合表情模型；去除初始混合表情模型中不属于表情图片对应的表情基模型，得到第二身份类型对应的混合表情模型。

通过去除三维重建得到的初始混合表情模型中不属于表情图片对应的表情基模型，也即去除不是规定的表情的表情基模型，能够有效提高第四混合表情模型中表情基模型的精度，从而提高后续构建最终的人脸参数化模型的精度。

步骤505，对第三混合表情模型和第四混合表情模型进行特征分解处理，得到第三混合表情模型和第四混合表情模型中各个表情基模型对应的目标特征信息。

在本实施例中，本实施例是先混合第三混合表情模型和第四混合表情模型中的所有表情基模型，也即将表征第一身份类型的150个个体，和表征第二身份类型的200个个体对应的表情基模型进行混合，然后再对混合后的表情基模型进行特征分解处理，从而得到混合后的表情基模型对应的目标特征信息。

其中，本实施例提供的目标特征信息包括有第一身份类型和第二身份类型对应的身份特征信息，同时还包括有所有个体对应的表情的表情特征信息。本实施例提供的特征分解处理，可以采用矩阵的奇异值分解(singular value decomposition，SVD)进行。具体的，可以先将第三混合表情模型和第四混合表情模型的350名个体的218个Metahuman表情基模型组装成一个秩为3的数据张量(7556个顶点*350个身份类型*218个表情)，然后使用SVD分解出身份特征信息和表情特征信息，以便后续构建人脸参数化模型。

步骤506，根据目标特征信息，构建人脸参数化模型，人脸参数化模型包括含有第一身份类型和第二身份类型的特征信息对应的表情基模型。

在本实施例中，在得到含有第一身份类型和第二身份类型对应的身份特征信息，和表情特征信息的目标特征信息之后，即可构建人脸数据的身份类型多样化的人脸参数化模型，从而解决现有的人脸参数化模型的人脸数据的身份类型较为单一的技术问题。

在一些实施例中，为了增加本实施例提供的人脸参数化模型的使用广泛性，在根据目标特征信息，构建人脸参数化模型的步骤之后，本实施例还可以包括：在人脸参数化模型上设置多个表情控制器；建立表情控制器与人脸参数化模型中各个表情基模型之间的映射关系，以根据表情控制器驱动人脸参数化模型。具体的，本实施例可以在人脸参数化模型上构建116个控制器，并建立控制器与218个表情之间的第二映射关系，以在任何虚幻引擎中通过拖动控制器，可由第二映射关系得到218个表情系数，从而为表情数据标注的提供了便利性。

至此，即可得到高精度的、且人脸数据的身份类型多样化的人脸参数化模型，有效提高了构建各帧训练图像对应的人脸模型的精度。

步骤205，对相机参数向量、纹理贴图、光线参数向量以及人脸模型进行渲染处理，得到各帧训练图像对应的渲染图像。

在本实施例中，本实施例通过可以将各帧训练图像的相机参数向量、光线参数向量输入到解码器中进行解码，从而得到对应的相机参数、光线参数，然后将各帧训练图像对应的相机参数、光线参数、纹理贴图以及人脸模型输入至渲染器中进行渲染处理，以得到各帧训练图像对应的渲染图像。

步骤206，根据预设的目标损失函数和渲染图像与对应训练图像之间的损失值，对待训练的编码器模型进行训练直至收敛，得到训练后的编码器模型。

在本实施例中，本实施例主要是对待训练的编码器模型进行训练，以使该编码器模型能够具有输出精准控制人脸模型的高精度表情表征能力的控制器参数向量，从而在对该控制器参数向量解码后，即可得到精准控制人脸模型的高精度表情表征能力的控制器信息。

在一些实施例中，为了提高编码器模型输出的控制器参数向量具有更高的控制精准度，本实施例提供的目标损失函数可以包括第一损失函数、第二损失函数、第三损失函数、第四损失函数以及第五损失函数。具体的，本实施例提供的根据预设的目标损失函数和渲染图像与对应训练图像之间的损失值，对待训练的编码器模型进行训练直至收敛，得到训练后的编码器模型的步骤，可以包括：根据第一损失函数，计算训练图像上的人脸关键点，和训练图像的人脸模型的顶点之间的第一损失值；根据第二损失函数，计算训练图像上的眼睛关键点，和训练图像的人脸模型的眼睛顶点之间的第二损失值；根据第三损失函数，计算训练图像上的嘴巴关键点，和训练图像的人脸模型的嘴巴顶点之间的第三损失值；根据第四损失函数，计算训练图像和对应的渲染图像之间像素值的第四损失值；根据第一损失函数、第二损失函数、第三损失函数、第四损失函数、第五损失函数、第一损失值、第二损失值、第三损失值、第四损失值，对待训练的编码器模型进行训练直至收敛，得到训练后的编码器模型。

其中，第五损失函数为形状参数向量、控制器参数向量、纹理参数向量以及光线参数向量的正则化之和。

作为可选的实施例，本实施例提供的第一损失函数可以为：

其中，Llmk为第一损失函数，n为第n个人脸关键点，ki为训练图像中第i个人脸关键点，s为映射运算，主要将人脸模型上的顶点映射到2D图像中，Mi为训练图像对应的人脸模型上的第i个顶点，该顶点与训练图像的人脸关键点相对应，t为正则化的惩罚项。

本实施例提供的第二损失函数可以为：

其中，Leye为第二损失函数，ki和kj分别上眼皮和下眼皮的人脸关键点，Mi和Mj分别为训练图像对应的人脸模型上的上眼皮和下眼皮的顶点。

本实施例提供的第三损失函数可以为：

其中，Lmouth为第三损失函数，ki和kj分别上嘴唇和下嘴唇的人脸关键点，Mi和Mj分别为训练图像对应的人脸模型上的上嘴唇和下嘴唇的顶点。

本实施例提供的第四损失函数可以为：

其中，Lpho为第四损失函数，VI为训练图像中人脸区域的掩码图像mask，I为训练图像的像素值，Ir为训练图像对应的渲染图像的像素值。

本实施例提供的第五损失函数可以为：

L_reg＝E_α+E_β+E_φ+E₁

其中，L_reg为第五损失函数，具体的，E_α为纹理参数的正则化，E_β为形状参数的正则化，E_φ为控制器参数的正则化，E₁为光线参数的正则化。

通过将上述实施例提供的第一损失函数、第二损失函数、第三损失函数、第四损失函数以及第五损失函数进行相加，即可得到本实施例提供的目标损失函数Lcoarse：

L_coarse＝L_lmk+L_eye+L_mouth+L_pho+L_reg

如此，根据本实施例提供的目标损失函数以及计算得到的损失值，即可对待训练的编码器模型进行训练直至收敛，从而得到训练后的编码器模型。该编码器模型能够对目标视频进行编码处理，从而输出能够精准控制人脸模型的高精度表情表征能力的控制器参数向量，进而便于将该控制器参数向量对应的控制器信息，对任意渲染软件中数字人的人脸模型进行面部驱动，实现在保证人脸模型的高精度表情表征能力的情况下，有效提高对人脸模型的驱动效率的目的。

为了更好的说明本发明实施例提供的人脸模型的面部驱动方法，请参见图6，图6是本发明实施例提供的人脸模型的面部驱动方法的整个流程示意图，包括对编码器模型的训练过程(图6中虚线上方的A部分)，以及人脸模型的面部驱动过程(图6中虚线下方的B部分)。其中，A部分对编码器模型的训练过程为：将训练视频中各帧训练图像I输入至编码器模型中，以通过编码器模型输出各帧训练图像的参数向量(相机参数向量、纹理参数向量、光线参数向量、形状参数向量、头姿参数向量以及控制器参数向量)，然后通过解码得到相机参数、纹理参数、光线参数、形状参数、头姿参数以及控制器参数，之后将纹理参数输入到任意的人脸参数化模型中得到高精度的含有纹理的第一人脸模型，并从该第一人脸模型中提取出纹理贴图；然后，将形状参数、头姿参数以及控制器参数输入至预设的人脸参数化模型中的，得到高精度的第二人脸模型；最后在渲染器中，对第二人脸模型、相机参数、纹理贴图以及光线参数进行渲染处理，得到训练图像对应的渲染图像Ir，然后根据目标损失函数Lcoarse对编码器模型进行训练，得到训练后的编码器模型。B部分对人脸模型的面部驱动过程为：直接将目标视频输入至训练后的编码器模型，从而得到训练后的编码器模型输出的控制器参数向量，然后对该控制器参数向量进行解码处理，得到控制器参数也即控制器信息，最后直接将该控制器信息输入至任意的渲染软件中，从而能够驱动该渲染软件中任意数字人的人脸模型，实现对人脸模型进行面部驱动的目的。

综上，本发明实施例提供了一种人脸模型的面部驱动方法，该方法包括获取目标视频，目标视频为人脸视频，将目标视频输入至训练后的编码器模型中，得到目标视频对应的控制器信息，将控制器信息输入至渲染软件中，以对渲染软件中数字人的人脸模型进行面部驱动。采用本发明实施例，能够在保证人脸模型的高精度表情表征能力的情况下，有效的提高对人脸模型的驱动效率。

根据上述实施例所描述的方法，本实施例将从人脸模型的面部驱动装置的角度进一步进行描述，该人脸模型的面部驱动装置具体可以作为独立的实体来实现，也可以集成在电子设备，比如终端中来实现，该终端可以包括手机、平板电脑等。

请参见图7，图7是本发明实施例提供的人脸模型的面部驱动装置的一种结构示意图，如图7所示，本发明实施例提供的人脸模型的面部驱动装置700，包括：第一获取模块701、编码模块702以及渲染模块703；

其中，第一获取模块701，用于获取目标视频，目标视频为人脸视频。

编码模块702，用于将目标视频输入至训练后的编码器模型中，得到目标视频对应的控制器信息。

渲染模块703，用于将控制器信息输入至渲染软件中，以对渲染软件中数字人的人脸模型进行面部驱动。

在一些实施例中，请参见图8，图8是本发明实施例提供的人脸模型的面部驱动装置的另一种结构示意图，如图8所示，本发明实施例提供的人脸模型的面部驱动装置700，还包括：第一训练模块704、第二训练模块705以及预处理模块706；

其中，本实施例提供的第一训练模型704，用于获取训练视频，训练视频包括多种不同的人脸视频；将训练视频输入至待训练的编码器模型中进行编码处理，得到含有时序特征的编码向量，编码向量包括训练视频中各帧训练图像的相机参数向量、纹理参数向量、光线参数向量、形状参数向量、头姿参数向量以及控制器参数向量；根据纹理参数向量，构建各帧训练图像对应的纹理贴图；将形状参数向量、头姿参数向量以及控制器参数向量，输入至预设的人脸参数化模型中，得到各帧训练图像对应的人脸模型；对相机参数向量、纹理贴图、光线参数向量以及人脸模型进行渲染处理，得到各帧训练图像对应的渲染图像；根据预设的目标损失函数和渲染图像与对应训练图像之间的损失值，对待训练的编码器模型进行训练直至收敛，得到训练后的编码器模型。

在一些实施例中，本实施例提供的第一训练模块704，具体用于：将训练视频分别以预设维度的张量的训练数据输入至待训练的编码器模型中，以供编码器模型在时序上将各训练数据分组编码为含有时序特征和空间特征的编码向量，预设维度的张量包括批次、分组数量、宽以及高。

在一些实施例中，本实施例提供的目标损失函数包括第一损失函数、第二损失函数、第三损失函数、第四损失函数以及第五损失函数。具体的，本实施例提供的训练模块704，具体还用于：根据第一损失函数，计算训练图像上的人脸关键点，和训练图像的人脸模型的顶点之间的第一损失值；根据第二损失函数，计算训练图像上的眼睛关键点，和训练图像的人脸模型的眼睛顶点之间的第二损失值；根据第三损失函数，计算训练图像上的嘴巴关键点，和训练图像的人脸模型的嘴巴顶点之间的第三损失值；根据第四损失函数，计算训练图像和对应的渲染图像之间像素值的第四损失值；根据第一损失函数、第二损失函数、第三损失函数、第四损失函数、第五损失函数、第一损失值、第二损失值、第三损失值、第四损失值，对待训练的编码器模型进行训练直至收敛，得到训练后的编码器模型。

在一些实施例中，本实施例提供的第二训练模块705，具体用于：获取预设的第一参数化模型的第一规范下的第一混合表情模型，第一混合表情模型包括第一规范下的第一预设数量的表情基模型；将第一混合表情模型中的第一目标表情模型重拓扑至第二规范下的混合表情模型上，得到第二混合表情模型，第二规范为预设的第二参数化模型的表情模型规范，第二混合表情模型包括第一身份类型对应的表情基模型；将第二混合表情模型拆分为第一规范下的第一预设数量的表情基模型，得到第三混合表情模型；获取第二身份类型对应的第四混合表情模型，第四混合表情模型为第一规范下的表情基模型，且第四混合表情模型包括第一预设数量的表情基模型；对第三混合表情模型和第四混合表情模型进行特征分解处理，得到第三混合表情模型和第四混合表情模型中各个表情基模型对应的目标特征信息；根据目标特征信息，构建人脸参数化模型，人脸参数化模型包括含有第一身份类型和第二身份类型的特征信息对应的表情基模型。

作为可选的实施例，本实施例提供的第二训练模块705，具体还用于：在人脸参数化模型上设置多个表情控制器；建立表情控制器与人脸参数化模型中各个表情基模型之间的映射关系，以根据表情控制器驱动人脸参数化模型。

在一些实施例中，本实施例提供的预处理模块706，具体用于：获取初始人脸视频；对初始人脸视频进行数据增强处理，得到多个增强处理后的增强人脸视频；将多个增强人脸视频作为训练视频。

具体实施时，以上各个模块和/或单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块和/或单元的具体实施可参见前面的方法实施例，具体可以达到的有益效果也请参看前面的方法实施例中的有益效果，在此不再赘述。

另外，请参见图9，图9是本发明实施例提供的电子设备的一种结构示意图，该电子设备可以是移动终端如智能手机、平板电脑等设备。如图9所示，电子设备900包括处理器901、存储器902。其中，处理器901与存储器902电性连接。

处理器901是电子设备900的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器902内的应用程序，以及调用存储在存储器902内的数据，执行电子设备900的各种功能和处理数据，从而对电子设备900进行整体监测。

在本实施例中，电子设备900中的处理器901会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器902中，并由处理器901来运行存储在存储器902中的应用程序，从而实现上述实施例提供的人脸模型的面部驱动方法中的任一步骤。

该电子设备900可以实现本发明实施例所提供的人脸模型的面部驱动方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一人脸模型的面部驱动方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

请参见图10，图10是本发明实施例提供的电子设备的另一种结构示意图，如图10所示，图10示出了本发明实施例提供的电子设备的具体结构框图，该电子设备可以用于实施上述实施例中提供的人脸模型的面部驱动方法。该电子设备1000可以为移动终端如智能手机或笔记本电脑等设备。

RF电路1010用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。RF电路1010可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路1010可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(EnhancedData GSM Environment,EDGE)，宽带码分多址技术(Wideband Code Division MultipleAccess,WCDMA)，码分多址技术(Code Division Access,CDMA)、时分多址技术(TimeDivision Multiple Access,TDMA)，无线保真技术(Wireless Fidelity，Wi-Fi)(如美国电气和电子工程师协会标准IEEE 802.11a，IEEE 802.11b,IEEE802.11g和/或IEEE802.11n)、网络电话(Voice over Internet Protocol,VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access，Wi-Max)、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

存储器1020可用于存储软件程序以及模块，如上述实施例中人脸模型的面部驱动方法对应的程序指令/模块，处理器1080通过运行存储在存储器1020内的软件程序以及模块，从而执行各种功能应用以及对人脸模型的面部驱动。

存储器1020可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1020可进一步包括相对于处理器1080远程设置的存储器，这些远程存储器可以通过网络连接至电子设备1000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入单元1030可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1030可包括触敏表面1031以及其他输入设备1032。触敏表面1031，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1031上或在触敏表面1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1031。除了触敏表面1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及电子设备1000的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1040可包括显示面板1041，可选的，可以采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1041。进一步的，触敏表面1031可覆盖显示面板1041，当触敏表面1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图中，触敏表面1031与显示面板1041是作为两个独立的部件来实现输入和输出功能，但是在某些实施例中，可以将触敏表面1031与显示面板1041集成而实现输入和输出功能。

电子设备1000还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在翻盖合上或者关闭时产生中断。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备1000还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与电子设备1000之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一终端，或者将音频数据输出至存储器1020以便进一步处理。音频电路1060还可能包括耳塞插孔，以提供外设耳机与电子设备1000的通信。

电子设备1000通过传输模块1070(例如Wi-Fi模块)可以帮助用户接收请求、发送信息等，它为用户提供了无线的宽带互联网访问。虽然图中示出了传输模块1070，但是可以理解的是，其并不属于电子设备1000的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是电子设备1000的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行电子设备1000的各种功能和处理数据，从而对电子设备进行整体监测。可选的，处理器1080可包括一个或多个处理核心；在一些实施例中，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解地，上述调制解调处理器也可以不集成到处理器1080中。

电子设备1000还包括给各个部件供电的电源1090(比如电池)，在一些实施例中，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1090还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备1000还包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备的显示单元是触摸屏显示器，移动终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行一个或者一个以上程序实现上述实施例提供的人脸模型的面部驱动方法中的任一步骤。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器执行时实现上述实施例所提供的人脸模型的面部驱动方法中的任一步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的人脸模型的面部驱动方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一人脸模型的面部驱动方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种人脸模型的面部驱动方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。并且，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种人脸模型的面部驱动方法，其特征在于，包括：

获取目标视频，所述目标视频为人脸视频；

2.如权利要求1所述的方法，其特征在于，在所述将所述目标视频输入至训练后的编码器模型中，得到所述目标人脸视频对应的控制器信息的步骤之前，所述方法还包括：

获取训练视频，所述训练视频包括多种不同的人脸视频；

将所述训练视频输入至待训练的编码器模型中进行编码处理，得到含有时序特征的编码向量，所述编码向量包括所述训练视频中各帧训练图像的相机参数向量、纹理参数向量、光线参数向量、形状参数向量、头姿参数向量以及控制器参数向量；

根据所述纹理参数向量，构建各帧训练图像对应的纹理贴图；

将所述形状参数向量、所述头姿参数向量以及所述控制器参数向量，输入至预设的人脸参数化模型中，得到各帧训练图像对应的人脸模型；

对所述相机参数向量、所述纹理贴图、所述光线参数向量以及所述人脸模型进行渲染处理，得到各帧训练图像对应的渲染图像；

根据预设的目标损失函数和所述渲染图像与对应训练图像之间的损失值，对所述待训练的编码器模型进行训练直至收敛，得到训练后的编码器模型。

3.如权利要求2所述的方法，其特征在于，所述将所述训练视频输入至待训练的编码器模型中进行编码处理，得到含有时序特征的编码向量，包括：

将所述训练视频分别以预设维度的张量的训练数据输入至待训练的编码器模型中，以供编码器模型在时序上将各所述训练数据分组编码为含有时序特征和空间特征的编码向量，所述预设维度的张量包括批次、分组数量、宽以及高。

4.如权利要求2所述的方法，其特征在于，所述将所述形状参数向量、所述头姿参数向量以及所述控制器参数向量，输入至预设的人脸参数化模型中，得到各帧训练图像对应的人脸模型的步骤之前，所述方法还包括：

获取预设的第一参数化模型的第一规范下的第一混合表情模型，所述第一混合表情模型包括所述第一规范下的第一预设数量的表情基模型；

将所述第一混合表情模型中的第一目标表情模型重拓扑至第二规范下的混合表情模型上，得到第二混合表情模型，所述第二规范为预设的第二参数化模型的表情模型规范，所述第二混合表情模型包括第一身份类型对应的表情基模型；

将所述第二混合表情模型拆分为所述第一规范下的所述第一预设数量的表情基模型，得到第三混合表情模型；

获取第二身份类型对应的第四混合表情模型，所述第四混合表情模型为所述第一规范下的表情基模型，且所述第四混合表情模型包括所述第一预设数量的表情基模型；

对所述第三混合表情模型和所述第四混合表情模型进行特征分解处理，得到所述第三混合表情模型和所述第四混合表情模型中各个表情基模型对应的目标特征信息；

根据所述目标特征信息，构建人脸参数化模型，所述人脸参数化模型包括含有所述第一身份类型和所述第二身份类型的特征信息对应的表情基模型。

5.如权利要求4所述的方法，其特征在于，在所述根据所述目标特征信息，构建人脸参数化模型的步骤之后，所述方法还包括：

在所述人脸参数化模型上设置多个表情控制器；

建立所述表情控制器与所述人脸参数化模型中各个表情基模型之间的映射关系，以根据所述表情控制器驱动所述人脸参数化模型。

6.如权利要求2所述的方法，其特征在于，所述目标损失函数包括第一损失函数、第二损失函数、第三损失函数、第四损失函数以及第五损失函数；

所述根据预设的目标损失函数和所述渲染图像与对应训练图像之间的损失值，对所述待训练的编码器模型进行训练直至收敛，得到训练后的编码器模型，包括：

根据所述第一损失函数，计算所述训练图像上的人脸关键点，和所述训练图像的人脸模型的顶点之间的第一损失值；

根据所述第二损失函数，计算所述训练图像上的眼睛关键点，和所述训练图像的人脸模型的眼睛顶点之间的第二损失值；

根据所述第三损失函数，计算所述训练图像上的嘴巴关键点，和所述训练图像的人脸模型的嘴巴顶点之间的第三损失值；

根据所述第四损失函数，计算所述训练图像和对应的渲染图像之间像素值的第四损失值；

根据所述第一损失函数、所述第二损失函数、所述第三损失函数、所述第四损失函数、所述第五损失函数、所述第一损失值、所述第二损失值、所述第三损失值、所述第四损失值，对所述待训练的编码器模型进行训练直至收敛，得到训练后的编码器模型；

其中，所述第五损失函数为所述形状参数向量、所述控制器参数向量、所述纹理参数向量以及所述光线参数向量的正则化之和。

7.如权利要求2所述的方法，其特征在于，在所述获取训练视频的步骤之前，所述方法还包括：

获取初始人脸视频；

对所述初始人脸视频进行数据增强处理，得到多个增强处理后的增强人脸视频；

将多个所述增强人脸视频作为训练视频。

8.一种人脸模型的面部驱动装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法中的步骤。