CN114708636A

CN114708636A - 一种密集人脸网格表情驱动方法、装置及介质

Info

Publication number: CN114708636A
Application number: CN202210338927.0A
Authority: CN
Inventors: 唐浩
Original assignee: Chengdu Tishi Technology Co ltd
Current assignee: Chengdu Tishi Technology Co ltd
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-07-05

Abstract

本申请公开了一种密集人脸网格表情驱动方法、装置及介质，涉及人工智能领域。通过获取目标网格资产以及目标表情控制数据；将目标网格资产拓扑到标准人脸3D网格上得到拓扑后的目标网格资产；根据目标网格资产和标准人脸3D网格获取初始人脸特征偏移值，根据目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；叠加初始人脸特征偏移值和目标变化偏移量至拓扑后的目标网格资产，从而对拓扑后的目标网格资产中无表情网格数据中的顶点位置产生全局偏移得到目标表情。由此可见，上述方案中无需绑定网格资产，输入目标表情的控制数据至人脸表情变化模型，就能输出目标网格资产的表情变化，避免进行人脸绑定，提高了人脸表情制作效率。

Description

一种密集人脸网格表情驱动方法、装置及介质

技术领域

本申请涉及人工智能领域，特别是涉及一种密集人脸网格表情驱动方法、装置及介质。

背景技术

目前人工智能技术和增强现实(Augmented Reality，AR)技术正在飞速发展，互联网用户的内容摄取需求越来丰富，针对动画，虚拟数字形象，AR等内容的需求越加强烈。

在三维(3-Dimension，3D)动画或虚拟人计算机动画(Computer Graphics，CG)的制作过程中，首先需要动画师基于不同的动画形象进行人脸绑定和增加控制器，或者设计混合变形(Blend Shape)才能驱动3D密集网格呈现表情变化，步骤繁琐，需要消耗大量的时间，对动画师的个人经验和动画制作水平也有很高的要求。尽管如此，绑定后的人脸表情也因为不同动画师的个人风格和审美不同，呈现出不同的效果，更增加了后期的处理时间和最终效果的不可控性。

鉴于上述问题，设计一种密集人脸网格表情驱动方法，避免进行人脸绑定，提高人脸表情制作效率，是该领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种密集人脸网格表情驱动方法、装置及介质，避免进行人脸绑定，提高人脸表情制作效率。

为解决上述技术问题，本申请提供一种密集人脸网格表情驱动方法，包括：

获取目标网格资产，以及由视频或音频采集设备采集的用以驱动所述目标网格资产表情变化的目标表情控制数据；

将所述目标网格资产拓扑到标准人脸3D网格上，以得到拓扑后的目标网格资产；其中所述拓扑后的目标网格资产中的网格数据为无表情网格数据；

根据所述目标网格资产和所述标准人脸3D网格获取初始人脸特征偏移值；

根据所述目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；其中，所述人脸表情变化模型是通过不同表情和不同声音下所述标准人脸3D对应的变化偏移量训练所得到的模型；

叠加所述初始人脸特征偏移值和所述目标变化偏移量至所述拓扑后的目标网格资产，以用于对所述无表情网格数据中的顶点位置产生全局偏移得到目标表情。

优选地，所述人脸表情变化模型的训练过程包括如下步骤：

采集多个时序表情网格数据，以及对应的人脸图像和声音信息；

将所述时序表情网格数据、所述人脸图像和所述声音信息作为训练样本输入至神经网络进行训练以获取所述人脸表情变化模型。

优选地，在所述采集多个时序表情网格数据之前，还包括：

定义所述标准人脸3D网格的顶点数量，以用于将所述目标网格资产拓扑到所述标准人脸3D网格上。

优选地，所述采集多个时序表情网格数据包括：

采集多个角度的时序表情图像和时序音频数据；

根据所述时序表情图像和所述时序音频数据获取到网格对齐的所述时序表情网格数据。

优选地，所述将所述目标网格资产拓扑到标准人脸3D网格上包括：

通过Warp3D工具将所述目标网格资产拓扑到所述标准人脸3D网格上。

优选地，在得到所述目标表情之后，还包括：

返回所述目标表情生成成功的信息。

优选地，在所述返回所述目标表情生成成功的信息之后，还包括：

输出所述目标表情的画面。

为解决上述技术问题，本申请还提供一种密集人脸网格表情驱动装置，包括：

第一获取模块，用于获取目标网格资产，以及由视频或音频采集设备采集的用以驱动所述目标网格资产表情变化的目标表情控制数据；

拓扑模块，用于将所述目标网格资产拓扑到标准人脸3D网格上，以得到拓扑后的目标网格资产；其中所述拓扑后的目标网格资产中的网格数据为无表情网格数据；

第二获取模块，用于根据所述目标网格资产和所述标准人脸3D网格获取初始人脸特征偏移值；

第三获取模块，用于根据所述目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；其中，所述人脸表情变化模型是通过不同表情和不同声音下所述标准人脸3D网格对应的变化偏移量训练所得到的模型；

叠加模块，用于叠加所述初始人脸特征偏移值和所述目标变化偏移量至所述拓扑后的目标网格资产，以用于对所述无表情网格数据中的顶点位置产生全局偏移得到目标表情。

为解决上述技术问题，本申请还提供另一种密集人脸网格表情驱动装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述所述的密集人脸网格表情驱动方法的步骤。

为解决上述技术问题，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的密集人脸网格表情驱动方法的步骤。

本申请所提供的密集人脸网格表情驱动方法，通过获取目标网格资产、以及由视频或音频采集设备采集的用以驱动目标网格资产表情变化的目标表情控制数据；将目标网格资产拓扑到标准人脸3D网格上，以得到拓扑后的目标网格资产；其中拓扑后的目标网格资产中的网格数据为无表情网格数据；根据目标网格资产和标准人脸3D网格获取初始人脸特征偏移值，根据目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；其中，人脸表情变化模型是通过不同表情和不同声音下标准人脸3D网格对应的变化偏移量训练所得到的模型；叠加初始人脸特征偏移值和目标变化偏移量至拓扑后的目标网格资产，以用于对无表情网格数据中的顶点位置产生全局偏移得到目标表情。由此可见，上述方案中当有人脸密集网格资产需要表情驱动时，无需绑定该网格资产，无需骨骼定义和权重赋值，通过训练得到的人脸表情变化模型，输入目标表情或目标声音的控制信号，就能输出新的网格资产的表情变化，避免了进行人脸绑定，提高人脸表情制作效率。

此外，本申请实施例还提供了一种密集人脸网格表情驱动装置及计算机可读存储介质，效果同上。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种密集人脸网格表情驱动方法的流程图；

图2为本申请实施例提供的另一种密集人脸网格表情驱动方法的流程图；

图3为本申请实施例提供的一种密集人脸网格表情驱动装置的结构示意图；

图4为本申请实施例提供的另一种密集人脸网格表情驱动装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种密集人脸网格表情驱动方法、装置及介质，避免进行人脸绑定，骨骼定义和权重赋值，提高人脸表情制作效率和表情呈现精度。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

图1为本申请实施例提供的一种密集人脸网格表情驱动方法的流程图。可以理解的是，在3D动画或虚拟CG的制作过程中，人脸制作和驱动是其中重要的一部分。本实施例中密集人脸网格表情驱动方法主要应用于人脸动画制作的场景。如图1所示，密集人脸网格表情驱动方法包括：

S10：获取目标网格资产，以及由视频或音频采集设备采集的用以驱动目标网格资产表情变化的目标表情控制数据。

S11：将目标网格资产拓扑到标准人脸3D网格上以得到拓扑后的目标网格资产，其中拓扑后的目标网格资产中的网格数据为无表情网格数据。

S12：根据目标网格资产和标准人脸3D网格获取初始人脸特征偏移值。

S13：根据目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；其中，人脸表情变化模型通过不同表情和不同声音下标准人脸3D网格对应的变化偏移量训练所得到的模型。

S14：叠加初始人脸特征偏移值和目标变化偏移量至拓扑后的目标网格资产，以用于对无表情网格数据中的顶点位置产生全局偏移得到目标表情。

可以理解的是，标准人脸3D网格即密集人脸网格，是指在进行人脸形象的制作中，将人脸图片以三维人脸网格的形式展现。而目标网格资产是在人脸形象制作过程中，将要被驱动产生表情变化的人脸网格资产；若要对目标网格资产进行表情驱动，首先要获取目标表情控制数据；在动画制作过程中，通常会通过摄像机等视频采集设备提前拍摄真实演员的正面表情图像和获取声音信息。

在具体实施中，首先将目标网格资产拓扑到标准人脸3D网格上。因目标网格资产的密集人脸网格顶点数量和人脸表情变化模型所定义的密集人脸网格的顶点数量不一定相同，若要实现通过该模型对目标网格资产进行表情驱动，则必须要对该目标网格资产进行拓扑，使目标网格资产的密集人脸网格的顶点数量与人脸表情变化模型所定义的密集人脸网格的顶点数量相同，这样才能保证适应模型。为保证被拓扑后的目标网格资产保留初始人脸特征，需要根据目标网格资产和标准人脸3D网格获取初始人脸特征偏移值，在拓扑后的目标网格资产中的标准人脸3D网格数据为无表情网格数据，对该数据进行偏移便能够产生表情变化。本实施例中对于拓扑的具体方式在本实施例中不做限制，根据具体的实施情况而定。

需要注意的是，在具体实施中，根据获取的真实演员的目标表情信息和目标声音信息，将其作为控制数据输入至人脸表情变化模型后就能得到对应的目标变化偏移量。其中，人脸表情变化模型是通过不同表情和不同声音下标准人脸3D网格对应的变化偏移量训练所得到的模型。对于具体的训练过程在本实施例中不做限制，根据具体的实施情况而定。

在具体实施中，初始人脸特征偏移值是不同目标网格资产根据人脸特征差异计算出的。具体地，初始人脸特征偏移值计算方法如下列公式：

其中，M_C表示目标网格资产中无表情的网格数据的所有顶点初始坐标值(X，Y，Z)组成的数组[M_CX1，M_CY1，M_CZ1，M_CX2，M_CY2，M_CZ2，...，M_CXn，M_CYn，M_CZn]；n代表网格资产的顶点个数。其中，M_O表示标准人脸3D网格中无表情的网格数据的所有顶点初始坐标值(X，Y，Z)组成的数组，n代表网格资产的顶点个数，数组具体为：[M_OX1，M_OY1，M_OZ1，M_OX2，M_OY2，M_OZ2，..，M_OXn，M_OYn，M_OZn]；

运算代表对应元素逐个相减(Element-wise minus)的运算，即两个数组中相同位置的元素相减，然后赋值给新的列表S，S即为初始人脸特征偏移值。

根据人脸表情变化模型生成的目标变化偏移量是指对标准无表情3D网格数据每个顶点的偏移量，其中每个顶点的偏移量不一定相同。具体地，在对标准无表情3D的目标网格资产产生偏移时，偏移量叠加方法如下列公式所示：

其中，T_N表示目标网格资产中标准无表情3D的网格数据的所有顶点初始坐标值(X，Y，Z)组成的数组[T_X1，T_Y1，T_Z1，T_X2，T_Y2，T_Z2，...，T_Xn，T_Yn，T_Zn]；n代表网格资产的顶点个数。O表示经过人脸表情变化模型得到的变化偏移量，每一个偏移量组成了与无表情的网格数据的所有顶点初始坐标值组成的数组长度相等的数组[O_X1，O_Y1，O_Z1，O_X2，O_Y2，O_Z2，...，O_Xn，O_Yn，O_Zn]。

运算代表对应元素逐个相加(Element-wise addition)的运算，即两个数组中相同位置的元素相加，然后赋值给新的列表T_E。T_E即为带表情的标准人脸3D网格所有顶点的坐标值序列。

最后，对带表情的标准人脸3D网格应用初始人脸特征偏移值，计算方法如下公式所示。

其中T_E表示上述计算的带表情的标准3D网格所有顶点的坐标值序列，S表示上述计算的初始人脸特征偏移值，T_S即为最终生成的带表情的目标人脸网格。

本实施例中，通过获取目标网格资产、以及由视频或音频采集设备采集的用以驱动目标网格资产表情变化的目标表情控制数据；将目标网格资产拓扑到标准人脸3D网格上，以得到拓扑后的目标网格资产；其中拓扑后的目标网格资产中的网格数据为无表情网格数据；根据目标网格资产和标准人脸3D网格获取初始人脸特征偏移值，根据目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；其中，人脸表情变化模型是通过不同表情和不同声音下标准人脸3D网格对应的变化偏移量训练所得到的模型；叠加初始人脸特征偏移值和目标变化偏移量至拓扑后的目标网格资产，以用于对无表情网格数据中的顶点位置产生全局偏移得到目标表情。由此可见，上述方案中当有人脸密集网格资产需要表情驱动时，无需绑定该网格资产，无需骨骼定义和权重赋值，通过训练得到的人脸表情变化模型，输入目标表情或目标声音的控制信号，就能输出新的网格资产的表情变化，避免了进行人脸绑定，提高人脸表情制作效率。

在上述实施例的基础上：

作为一种优选的实施例，人脸表情变化模型的训练过程包括如下步骤：

将时序表情网格数据、人脸图像和声音信息作为训练样本输入至神经网络进行训练以获取人脸表情变化模型。

在上述实施例中，对于人脸表情变化模型具体的训练过程不做限制，根据具体的实施情况而定。作为一种优选的实施例，在本实施例中，首先采集多个时序表情网格数据，以及对应的人脸图像和声音信息；将时序表情网格数据、人脸图像和声音信息作为训练样本输入至神经网络进行训练以获取人脸表情变化模型。

可以理解的是，若要训练人脸表情变化模型，首先要获取大量的训练样本。即采集多个时序表情网格数据，以及对应的人脸图像和声音信息；时序表情数据即正向时间下的人脸表情变化数据，同时获取对应的人脸图像和声音信息，能够在训练过程中将表情变化数据同人脸图像和声音信息对应，从而实现输入目标人脸图像和目标声音信息便能得到所需表情的变化偏移量。同时为了使模型更加准确，本实施例中对数据进行的采集，不仅仅是采集一个人的多个时序表情数据以及对应的人脸图像和声音信息，还要获取多人的多个时序表情数据以及对应的人脸图像和声音信息，以保证训练样本的数量。

在得到了训练样本，将训练样本输入至神经网络进行训练以获取人脸表情变化模型。本实施例中采用了自编码器(Auto Encoder，AE)神经网络和多层感知机(MultilayerPerceptron，MLP)神经网络来实现。自编码器是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks，ANNs)，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习。而多层感知器是一种前馈人工神经网络模型，能够将输入的多个数据集映射到单一的输出的数据集上。具体地，训练自编码器神经网络，通过压缩密集人脸网格数据对应的时序上对齐的正面图像和音频数据，提取出特征；训练多层感知机神经网络，使其能够通过输入自编码器神经网络中压缩提取的特征，输出对应的人脸网格的变化偏移量。需要注意的是，本实施例中的训练方式仅仅是一种优选的实施例，也可以通过其他训练方式实现，只需要保证输入人脸图像和声音信息的训练样本后能够得到密集人脸网格对应的偏移量即可。

本实施例中，通过采集多个时序表情网格数据，以及对应的人脸图像和声音信息，将时序表情网格数据、人脸图像和声音信息作为训练样本输入至神经网络进行训练以获取人脸表情变化模型，实现了只需要输入真实演员的正面表情图像和声音，就能输出目标资产的表情变化。

在上述实施例的基础上：

作为一种优选的实施例，在采集多个时序表情网格数据之前，还包括：

定义标准人脸3D网格的顶点数量，以用于将目标网格资产拓扑到标准人脸3D网格上。

可以理解的是，目标网格资产在表情驱动前需要被拓扑到标准人脸3D网格上，使目标网格资产的密集人脸网格的顶点数量与标准人脸3D网格所定义的密集人脸网格的顶点数量相同。因此在对人脸表情变化模型进行训练之前，还需要定义模型的标准人脸3D网格的顶点数量，使其作为顶点标准，以便于训练过程以及在后续对目标网格资产进行拓扑的过程。例如，可以将模型的标准人脸3D网格顶点数量定义为5023个，目标网格资产需要表情驱动时，将其拓扑到定义好的标准人脸3D网格上面；设置自编码器神经网络层数为5层，最终将图像或者声音压缩为128维的特征；设置多层感知机网络层数为3层，最终输出5023个顶点的偏移量。

本实施例中，在训练人脸表情变化模型之前，首先定义模型的标准人脸3D网格的顶点数量，以便将目标网格资产拓扑到标准人脸3D网格上，从而得到对应顶点的偏移量。

在上述实施例的基础上：

作为一种优选的实施例，采集多个时序表情网格数据包括：

采集多个角度的时序表情图像和时序音频数据；

根据时序表情图像和时序音频数据获取到网格对齐的时序表情网格数据。

为了获取人脸表情变化模型的训练样本，需要采集多个时序表情网格数据。具体地，采集多个角度的时序表情图像和时序音频数据；可以理解的是，从多个角度获取一个人的一个表情信息，得到的表情数据是不同的。因此根据采集到的多个角度时序表情图像和时序音频数据，通过三维网格重建和在时序上进行标记注册，获取到网格对齐的时序表情网格数据，使得采集到的时序表情网格数据是匹配顶点的、具有时序性的表情数据。

本实施例中，通过采集多个角度的时序表情图像和时序音频数据，根据时序表情图像和时序音频数据获取到网格对齐的时序表情网格数据，保证了训练样本的丰富性，便于后续的模型训练。

在上述实施例的基础上：

作为一种优选的实施例，将目标网格资产拓扑到标准人脸3D网格上包括：

通过Warp3D工具将目标网格资产拓扑到标准人脸3D网格上。

在上述实施例中，对于拓扑的具体方式在本实施例中不做限制，根据具体的实施情况而定。作为一种优选的实施例，在本实施例中，通过Warp3D工具将目标网格资产拓扑到标准人脸3D网格上。Warp3D工具是一种高效的扫描模型重拓扑处理工具，可以依照屏幕投射的画面自动匹扫描模型和拓扑模型的结构，并且自动完成模型的重拓扑工作。

本实施例中，通过Warp3D工具将目标网格资产拓扑到标准人脸3D网格上，工作效率高。

图2为本申请实施例提供的另一种密集人脸网格表情驱动方法的流程图。如图2所示，在得到目标表情之后，方法还包括：

S15：返回目标表情生成成功的信息。

S16：输出目标表情的画面。

在表情动画制作的过程中，可能会批量生成表情的动画。例如输入一段演员的面部视频，将每一帧的面部表情信息和声音信息输入进人脸表情变化模型，从而得到对应的变化偏移量，将变化偏移量叠加至拓扑后的目标网格资产以进行表情驱动，其表情渲染过程可能会持续一段时间。为了提醒工作人员目标表情生成成功，在生成了目标表情之后，返回目标表情生成成功的信息，例如进行弹窗提醒或产生声音提醒，在本实施例中不做限制，根据具体的实施情况而定；同时在进行提醒之后输出目标表情的画面，以供工作人员进行后续操作。

本实施例中，在得到目标表情之后，返回目标表情生成成功的信息，输出目标表情的画面，能够提醒工作人员目标表情生成，并输出表情画面以供工作人员进行后续操作。

在上述实施例中，对于密集人脸网格表情驱动方法进行了详细描述，本申请还提供密集人脸网格表情驱动装置对应的实施例。需要说明的是，本申请从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件结构的角度。

图3为本申请实施例提供的一种密集人脸网格表情驱动装置的结构示意图。如图3所示，密集人脸网格表情驱动装置包括：

第一获取模块10，用于获取目标网格资产，以及由视频或音频采集设备采集的用以驱动目标网格资产表情变化的目标表情控制数据。

拓扑模块11，用于将目标网格资产拓扑到标准人脸3D网格上以得到拓扑后的目标网格资产，其中拓扑后的目标网格资产中的网格数据为无表情网格数据。

第二获取模块12，用于根据目标网格资产和标准人脸3D网格获取初始人脸特征偏移值。

第三获取模块13，用于根据目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；其中，人脸表情变化模型是通过不同表情和不同声音下标准人脸3D网格对应的变化偏移量训练所得到的模型。

叠加模块14，用于叠加初始人脸特征偏移值和目标变化偏移量至拓扑后的目标网格资产，以用于对无表情网格数据中的顶点位置产生全局偏移得到目标表情。

本实施例提供的一种密集人脸网格表情驱动装置，通过获取目标网格资产、以及由视频或音频采集设备采集的用以驱动目标网格资产表情变化的目标表情控制数据；将目标网格资产拓扑到标准人脸3D网格上，以得到拓扑后的目标网格资产；其中拓扑后的目标网格资产中的网格数据为无表情网格数据；根据目标网格资产和标准人脸3D网格获取初始人脸特征偏移值，根据目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；其中，人脸表情变化模型是通过不同表情和不同声音下标准人脸3D网格对应的变化偏移量训练所得到的模型；叠加初始人脸特征偏移值和目标变化偏移量至拓扑后的目标网格资产，以用于对无表情网格数据中的顶点位置产生全局偏移得到目标表情。由此可见，上述方案中当有人脸密集网格资产需要表情驱动时，无需绑定该网格资产，无需骨骼定义和权重赋值，通过训练得到的人脸表情变化模型，输入目标表情或目标声音的控制信号，就能输出新的网格资产的表情变化，避免了进行人脸绑定，提高人脸表情制作效率。

图4为本申请实施例提供的另一种密集人脸网格表情驱动装置的结构示意图。如图4所示，密集人脸网格表情驱动装置包括：

存储器20，用于存储计算机程序。

处理器21，用于执行计算机程序时实现如上述实施例中所提到的密集人脸网格表情驱动的方法的步骤。

本实施例提供的密集人脸网格表情驱动装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processor，数字信号处理器)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的密集人脸网格表情驱动方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于密集人脸网格表情驱动方法涉及到的数据。在一些实施例中，密集人脸网格表情驱动装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图4中示出的结构并不构成对密集人脸网格表情驱动装置的限定，可以包括比图示更多或更少的组件。

本实施例提供的密集人脸网格表情驱动装置，包括存储器，用于存储计算机程序；处理器，用于执行计算机程序时实现如上述实施例中所提到的密集人脸网格表情驱动的方法的步骤。通过获取目标网格资产、以及由视频或音频采集设备采集的用以驱动目标网格资产表情变化的目标表情控制数据；将目标网格资产拓扑到标准人脸3D网格上，以得到拓扑后的目标网格资产；其中拓扑后的目标网格资产中的网格数据为无表情网格数据；根据目标网格资产和标准人脸3D网格获取初始人脸特征偏移值，根据目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；其中，人脸表情变化模型是通过不同表情和不同声音下标准人脸3D网格对应的变化偏移量训练所得到的模型；叠加初始人脸特征偏移值和目标变化偏移量至拓扑后的目标网格资产，以用于对无表情网格数据中的顶点位置产生全局偏移得到目标表情。由此可见，上述方案中当有人脸密集网格资产需要表情驱动时，无需绑定该网格资产，无需骨骼定义和权重赋值，通过训练得到的人脸表情变化模型，输入目标表情或目标声音的控制信号，就能输出新的网格资产的表情变化，避免了进行人脸绑定，提高人脸表情制作效率。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供的一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。通过获取目标网格资产、以及由视频或音频采集设备采集的用以驱动目标网格资产表情变化的目标表情控制数据；将目标网格资产拓扑到标准人脸3D网格上，以得到拓扑后的目标网格资产；其中拓扑后的目标网格资产中的网格数据为无表情网格数据；根据目标网格资产和标准人脸3D网格获取初始人脸特征偏移值，根据目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；其中，人脸表情变化模型是通过不同表情和不同声音下标准人脸3D网格对应的变化偏移量训练所得到的模型；叠加初始人脸特征偏移值和目标变化偏移量至拓扑后的目标网格资产，以用于对无表情网格数据中的顶点位置产生全局偏移得到目标表情。由此可见，上述方案中当有人脸密集网格资产需要表情驱动时，无需绑定该网格资产，无需骨骼定义和权重赋值，通过训练得到的人脸表情变化模型，输入目标表情或目标声音的控制信号，就能输出新的网格资产的表情变化，避免了进行人脸绑定，提高人脸表情制作效率。

以上对本申请所提供的一种密集人脸网格表情驱动方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种密集人脸网格表情驱动方法，其特征在于，包括：

根据所述目标表情控制数据和人脸表情变化模型获取对应的目标变化偏移量；其中，所述人脸表情变化模型是通过不同表情和不同声音下所述标准人脸3D网格对应的变化偏移量训练所得到的模型；

2.根据权利要求1所述的密集人脸网格表情驱动方法，其特征在于，所述人脸表情变化模型的训练过程包括如下步骤：

3.根据权利要求2所述的密集人脸网格表情驱动方法，其特征在于，在所述采集多个时序表情网格数据之前，还包括：

4.根据权利要求3所述的密集人脸网格表情驱动方法，其特征在于，所述采集多个时序表情网格数据包括：

采集多个角度的时序表情图像和时序音频数据；

5.根据权利要求4所述的密集人脸网格表情驱动方法，其特征在于，所述将所述目标网格资产拓扑到标准人脸3D网格上包括：

6.根据权利要求1至5任意一项所述的密集人脸网格表情驱动方法，其特征在于，在得到所述目标表情之后，还包括：

返回所述目标表情生成成功的信息。

7.根据权利要求6所述的密集人脸网格表情驱动方法，其特征在于，在所述返回所述目标表情生成成功的信息之后，还包括：

输出所述目标表情的画面。

8.一种密集人脸网格表情驱动装置，其特征在于，包括：

9.一种密集人脸网格表情驱动装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的密集人脸网格表情驱动方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的密集人脸网格表情驱动方法的步骤。