CN113674385B

CN113674385B - 一种虚拟表情生成方法、装置、电子设备及存储介质

Info

Publication number: CN113674385B
Application number: CN202110897102.8A
Authority: CN
Inventors: 余海铭
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2023-07-18
Anticipated expiration: 2041-08-05
Also published as: CN113674385A

Abstract

本发明涉及一种虚拟表情生成方法、装置、电子设备及存储介质，虚拟表情生成方法包括：获取目标对象的第一表情网格mesh中各第一顶点的三维坐标及多条边的第一特征向量；将多条边的第一特征向量输入神经网络模型中，获取神经网络模型输出的待生成的虚拟表情与中立表情的关键点数据偏移量；基于关键点数据偏移量及第一表情mesh中各第一顶点的三维坐标，确定多个第二顶点的三维坐标，第二顶点为虚拟表情中的关键点；基于多个第二顶点的三维坐标生成目标对象的第一虚拟表情mesh。本申请实施例能够自动根据中立表情重建的表情mesh，利用神经网络模型，生成多个虚拟表情mesh，实现批量化的生产Blendshapes，无需专业设计人员耗时耗力地逐个设计，提高Blendshapes的生产效率。

Description

一种虚拟表情生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种虚拟表情生成方法、装置、电子设备及存储介质。

背景技术

在定制化三维人脸重建的过程中，通常为了表情的真实度，需要专业设计者逐个设计特定人物不同表情的混合形状(Blendshapes)，如闭上左或右眼、张嘴、嘟嘴等等的Blendshapes。将Blendshapes作为基础表情，外加该人物的中立表情，即可通过叠加的方式合成该人物的任意某个表情。

不同人物的基础表情一般不能通用，因为不同人做相同的基础表情的效果是不同的。这就需要设计者反复设计Blendshapes，耗时耗力，效率低，为个性化的人脸重建造成了阻碍。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种虚拟表情生成方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种虚拟表情生成方法，包括：

获取目标对象的第一表情网格mesh中各第一顶点的三维坐标及多条边的第一特征向量，所述第一表情mesh是对所述目标对象面部的中立表情进行mesh重建得到的，所述第一顶点为所述中立表情中的关键点，所述边为任意两个相邻第一顶点的连线；

将多条边的所述第一特征向量输入神经网络模型中，获取所述神经网络模型输出的待生成的虚拟表情与中立表情的关键点数据偏移量；

基于所述关键点数据偏移量及所述第一表情mesh中各第一顶点的三维坐标，确定多个第二顶点的三维坐标，所述第二顶点为所述虚拟表情中的关键点；

基于多个所述第二顶点的三维坐标生成所述目标对象的第一虚拟表情mesh。

可选地，所述第一表情mesh中多条边形成多个三角形，获取目标对象的第一表情网格mesh中多条边的第一特征向量，包括：

针对第一表情mesh中的每条边，获取所述边的长度、公共底为所述边的两个三角形的顶角的大小、两个所述三角形的高、两个所述三角形所在的平面之间的夹角；

基于所述边的长度、两个所述三角形的顶角的大小、两个所述三角形的高、两个所述三角形所在的平面之间的夹角生成所述第一特征向量。

可选地，所述神经网络模型基于多条边的所述第一特征向量输出待生成的虚拟表情与中立表情的关键点数据偏移量，包括：

对每条边的第一特征向量进行预处理，得到各条边对应的多维矩阵；

针对每条边的所述多维矩阵，提取特征图并对所述特征图进行尺寸放大，得到各条边对应的目标特征图；

在各条边对应的所述目标特征图中，分别抽取所述关键点数据偏移量。

可选地，所述对每条边的第一特征向量进行预处理，得到各条边对应的多维矩阵，包括：

将多条边的所述第一特征向量进行mesh卷积处理，得到多条边的第二特征向量；

将每条边的第二特征向量分别转化为多维矩阵。

可选地，将多条边的所述第一特征向量进行mesh卷积处理，得到多条边的第二特征向量，包括：

针对每条边，获取所述边的第一特征向量，及以所述边作为公共底的两个三角形中除所述公共底之外的四条边的第一特征向量；

将所述边的第一特征向量及所述四条边的第一特征向量进行加权叠加计算，得到所述边的第二特征向量。

可选地，所述针对每条边的所述多维矩阵，提取特征图并对所述特征图进行尺寸放大，得到各条边对应的目标特征图，包括：

针对每条边的所述多维矩阵，将所述多维矩阵进行卷积处理，得到第一特征图；

将第一特征图的尺寸放大，得到第二特征图；

将所述第二特征图进行卷积处理，得到第三特征图；

将所述第三特征图转化为目标格式的多维矩阵，得到目标特征图。

可选地，所述在各条边对应的所述目标特征图中，分别抽取所述关键点数据偏移量，包括：

获取多个所述第一顶点对应的UV坐标；

针对每条边对应的所述目标特征图，在所述目标特征图中，查找与每个所述第一顶点对应的UV坐标对应的三维坐标的偏移量，得到所述关键点数据偏移量。

第二方面，本申请提供了一种模型训练方法，所述方法包括：

获取训练对象的第三表情网格mesh中各第三顶点的三维坐标、多条边的第五特征向量和所述训练对象的参考表情mesh，所述第三表情mesh是对所述训练对象面部的中立表情进行mesh重建得到的，所述第三顶点为所述中立表情中的关键点，所述边为任意两个相邻第三顶点的连线；

将多条边的所述第五特征向量输入神经网络模型中，获取所述神经网络模型输出的待生成的虚拟表情与中立表情的关键点数据偏移量；

基于所述关键点数据偏移量及所述第三表情mesh中各第三顶点的三维坐标，确定多个第四顶点的三维坐标，所述第四顶点为所述虚拟表情中的关键点；

基于多个所述第四顶点的三维坐标生成所述训练对象的对应的第二虚拟表情mesh；

训练所述神经网络模型，直至所述第二虚拟表情mesh与所述参考表情mesh之间的相似度超过预设阈值，获得所述神经网络模型。

可选地，所述方法还包括：

在所述第二虚拟表情mesh中，获取多对待限位的顶点及每对所述待限位的顶点之间的距离阈值；

计算每对所述待限位的顶点之间的实际距离；

基于损失函数、所述实际距离和所述距离阈值计算所述神经网络模型的限位损失值；

利用所述限位损失值训练所述神经网络模型，直至所述神经网络模型收敛，获得所述神经网络模型。

第三方面，本申请提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的虚拟表情生成方法或者第二方面任一所述的模型训练方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有虚拟表情生成方法或者模型训练方法的程序，所述虚拟表情生成方法或者模型训练方法的程序被处理器执行时实现第一方面任一所述的虚拟表情生成方法或者第二方面任一所述的模型训练方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，通过获取目标对象的第一表情网格mesh中各第一顶点的三维坐标及多条边的第一特征向量，然后将多条边的所述第一特征向量输入神经网络模型中，获取所述神经网络模型输出的待生成的虚拟表情与中立表情的关键点数据偏移量，再基于所述关键点数据偏移量及所述第一表情mesh中各第一顶点的三维坐标，确定多个第二顶点的三维坐标；最后可以基于多个所述第二顶点的三维坐标生成所述目标对象的第一虚拟表情mesh。本申请实施例能够自动根据中立表情重建的表情mesh，利用神经网络模型，生成多个虚拟表情mesh，实现批量化的生产Blendshapes，无需专业设计人员耗时耗力地逐个设计，提高Blendshapes的生产效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种虚拟表情生成方法的流程图；

图2为本申请实施例提供的一种第一表情mesh的示意图；

图3为本申请实施例提供的另一种第一表情mesh的示意图；

图4为本申请实施例提供的另一种第一表情mesh的示意图；

图5为本申请实施例提供的一种中立表情的示意图；

图6为本申请实施例提供的一种第一表情mesh中以任一边作为公共底的两个三角形的示意图；

图7为本申请实施例提供的另一种第一表情mesh中以任一边作为公共底的两个三角形的示意图；

图8为本申请实施例提供的一种模型训练方法的流程图；

图9为本申请实施例提供的一种电子设备的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于不同人物的基础表情一般不能通用，需要设计者反复设计Blendshapes，耗时耗力，效率低，为个性化的人脸重建造成了阻碍。为此，本申请实施例提供一种虚拟表情生成方法、装置、电子设备及存储介质。

如图1所示，虚拟表情生成方法可以包括以下步骤：

步骤S101，获取目标对象的第一表情网格mesh中各第一顶点的三维坐标及多条边的第一特征向量。

本发明实施例中，目标对象可以指待生成虚拟表情的人物，所述第一表情mesh是对所述目标对象面部的中立表情进行mesh重建得到的，所述第一顶点为所述中立表情中的关键点，所述边为任意两个相邻第一顶点的连线，至少三条边首尾连接形成多个面片，多个面片组成目标对象面部的中立表情的三维形状；

图2、图3和图4为设置不同关键点密度时第一表情mesh的示例，图5为目标对象的中立表情的示意图。

第一顶点的三维坐标是指第一顶点在第一表情mesh中的三维坐标，边的第一特征向量是指包含该边自身的特征及与该边相邻的边的特征的向量。

步骤S102，将多条边的所述第一特征向量输入神经网络模型中，获取所述神经网络模型输出的待生成的虚拟表情与中立表情的关键点数据偏移量；

本发明实施例中，神经网络模型可以用于基于中立表情的表情mesh中多条边的第一特征向量，确定待生成的虚拟表情与中立表情的关键点数据偏移量。神经网络模型包括：级联的至少一个mesh卷积层、第一卷积层、多个残差网络层、第二卷积层和双线性差值层，示例性的，两个mesh卷积层，两个第一卷积层，多个残差网络层，一个第二卷积层和一个双线性差值层依次链接，得到神经网络模型的模型结构。

其中，残差网络层包括：第一支路、第二支路、叠加层和第一非线性单元，所述第一支路包括：第一转置卷积层，所述第二支路包括：级联的第三普通卷积层、第一批归一化层、第二非线性单元、第二转置卷积层和第二批归一化层。

第一支路中的所述第一转置卷积层将所述第一特征图的尺寸放大，得到第一中间特征图；第二支路中的所述第三普通卷积层对所述第一特征图进行普通卷积处理，得到第二中间特征图；第二支路中的所述第一批归一化层对所述第二中间特征图进行批归一化处理，得到第三中间特征图；第二支路中的第二非线性单元对所述第三中间特征图进行非线性处理，得到第四中间特征图；第二支路中的第二转置卷积层对所述第四中间特征图的尺寸放大，得到第五中间特征图；第二支路中的第二批归一化层对所述第五中间特征图进行批归一化处理，得到第六中间特征图；叠加层对所述第一中间特征图和所述第六中间特征图进行叠加处理，得到中间特征图；第一非线性单元层将所述中间特征图进行非线性处理，得到第二特征图。

步骤S103，基于所述关键点数据偏移量及所述第一表情mesh中各第一顶点的三维坐标，确定多个第二顶点的三维坐标。

本发明实施例中，所述第二顶点为所述虚拟表情中的关键点；

在该步骤中，可以针对每个第二顶点，将与该第二顶点对应的关键点数据偏移量及第一顶点的三维坐标进行相加，得到多个第二顶点的三维坐标。

步骤S104，基于多个所述第二顶点的三维坐标生成所述目标对象的第一虚拟表情mesh。

在该步骤中，可以获取预设的三角形连接信息，将多个第二顶点的三维坐标按照三角形连接信息进行连接，得到目标对象的第一虚拟表情mesh。

在本发明的又一实施例中，所述第一表情mesh中多条边形成多个三角形，步骤S101中，获取目标对象的第一表情mesh中多条边的第一特征向量，包括：

步骤201，针对第一表情mesh中的每条边，获取所述边的长度、公共底为所述边的两个三角形的顶角的大小、两个所述三角形的高、两个所述三角形所在的平面之间的夹角。

由于mesh是拓扑结构的数据，不同于图片这种网格状数据，所以无法直接输入神经网络。所以，在本发明实施例中，图6为以第一表情mesh中任一边作为公共底的两个三角形的示意图，图6中，公共底为AB，顶点ABC构成第一三角形，顶点ABD构成第二三角形。

在该步骤中，可以获取边AB的长度，获取公共底为所述边AB的两个三角形的顶角的大小，即∠ACB和∠ADB的大小，获取两个所述三角形的高，即DF的长度及CE的长度，获取两个所述三角形所在的平面之间的夹角，即以AB作为公共底的第一三角形和第二三角形所在平面之间的夹角(Dehedral Angle)。

步骤202，基于所述边的长度、两个所述三角形的顶角的大小、两个所述三角形的高、两个所述三角形所在的平面之间的夹角生成所述第一特征向量。

本发明实施例可以将第一表情mesh中的每条边作为一个单元，兼顾每条边的邻域和自身设计5个特征，同时为了考虑到mesh的尺寸大小，加入了边的长度这一特征，因此一共6个特征。这样，对于一个有N条边的mesh，该mesh的总特征数为6×N。通过生成包含以上6个特征的第一特征向量，可以使每条边的第一特征向量涵盖该条边相关的所有mesh特征，通过每条边的第一特征可以准确刻画第一表情mesh的所有特征，提高模型的准确度。

在本发明的又一实施例中，在步骤S102将多条边的所述第一特征向量输入神经网络模型中后，在步骤S102获取所述神经网络模型输出的待生成的虚拟表情与中立表情的关键点数据偏移量之前，所述神经网络模型基于多条边的所述第一特征向量输出待生成的虚拟表情与中立表情的关键点数据偏移量，包括：

步骤301，对每条边的第一特征向量进行预处理，得到各条边对应的多维矩阵；

在该步骤中，为了将拓扑结构的mesh数据，输入神经网络模型的卷积层，需要将第一特征向量进行预处理，以得到能够输入卷积层的多维矩阵。

步骤302，针对每条边的所述多维矩阵，提取特征图并对所述特征图进行尺寸放大，得到各条边对应的目标特征图；

在该步骤中，可以针对每条边，将该条边对应的多维矩阵输入神经网络模型的卷积层中，利用神经网络模型的卷积层提取特征图，利用残差结构对特征图的尺寸进行放大，得到该条边的目标特征图。

步骤303，在各条边对应的所述目标特征图中，分别抽取所述关键点数据偏移量。

在该步骤中，可以在目标特征图中，抽取每个第一顶点所对应的关键点数据偏移量。

本发明实施例的神经网络模型可以对每条边的第一特征向量进行预处理，进而可以将每条边的第一特征向量转化成卷积层直接处理的数据，并经过特征提取及尺寸放大生成目标特征图，并最终实现在目标特征图中抽取关键点数据偏移量，通过将拓扑结构的mesh数据的转化为卷积层可以直接处理的数据，提高神经网络模型的输出关键点数据偏移量的准确度。

在本发明的又一实施例中，所述对每条边的第一特征向量进行预处理，得到各条边对应的多维矩阵，包括：

步骤401，将多条边的所述第一特征向量进行mesh卷积处理，得到多条边的第二特征向量；

本发明实施例中，可以针对每条边，获取所述边的第一特征向量，及以所述边作为公共底的两个三角形中除所述公共底之外的四条边的第一特征向量；将所述边的第一特征向量及所述四条边的第一特征向量进行加权叠加计算，得到所述边的第二特征向量。

如图7所示，图7中边a、b、e和边c、d、e组成的两个三角形是一个mesh中多个三角形中的任意两个三角形：以围绕边e进行mesh卷积为例。

首先用a、b、c和d的特征，构造出四条边的特征：

(e¹，e²，e³，e⁴)＝(|a-c|，a+c，|b-d|，b+d)

这样做是为了消除四条边前后顺序的影响。

然后卷积，得到e这条边的第二特征向量：

其中，j可以取1-4，k0、k1、k2、k3和k4组成卷积核，也就是说，这条边e的新的第二特征相邻是通过e本身的特征加上其它四条构造出的边的特征的加权叠加而计算得到。

为了便于理解，以神经网络模型具有两个mesh卷积层为例，在实际应用中，可以利用bs代表批尺寸(Batch size)，每次训练，一般不是向模型输入一个训练样本，而是多个训练样本一起输入。所以下面的数据(张量)形状(即第一特征向量)开头均为bs。

N是mesh的边的数量。这里是78580(相同的人脸模型mesh都是拓扑一致的，所以针对不同的人物，边的数量都是一样的)

输入：[bs，6，N]；

第一个mesh卷积层(MeshConv)输出：[bs，16，N]；

第二个MeshConv输出：[bs，16，N]；[bs，16，N]即为任一条边的第二特征向量。

步骤402，将每条边的第二特征向量分别转化为多维矩阵。

在该步骤中，为了使卷积层能够处理第二特征向量的数据，需要将每条边的第二特征向量转化为多维矩阵，以便输入神经网络模型的卷积层中。

在实际应用中，将每条边的第二特征向量转化为多维矩阵相当于进行了一个张量变形(reshape)操作，把[bs，16，N]变形为[bs，N，4，4]。有了这样形状的张量(即多维矩阵)，就可以直接输入卷积层。

在本发明的又一实施例中，所述针对每条边的所述多维矩阵，提取特征图并对所述特征图进行尺寸放大，得到各条边对应的目标特征图，包括：

步骤501，针对每条边的所述多维矩阵，将所述多维矩阵进行卷积处理，得到第一特征图；

在该步骤中，可以通过卷积处理提取多维矩阵中的特征，得到第一特征图。

在实际应用中，以神经网络模型包含两个第一卷积层为例，可以利用两个第一卷积层，减少通道数，例如：从N降到64，再升到128。所以两个第一卷积层的输出分别是：[bs，64，4，4]和[bs，128，4，4]。

步骤502，将第一特征图的尺寸放大，得到第二特征图；

在实际应用中，以神经网络模型包含7个残差结构为例，每个残差结构使得尺寸扩大到原来的两倍。它们的输出分别是：

第一个残差结构的输出：[bs，128，8，8]；

第二个残差结构的输出：[bs，128，16，16]；

第三个残差结构的输出：[bs，128，32，32]；

第四个残差结构的输出：[bs，128，64，64]；

第五个残差结构的输出：[bs，128，128，128]；

第六个残差结构的输出：[bs，128，256，256]；

第七个残差结构的输出：[bs，128，512，512]；

步骤503，将所述第二特征图进行卷积处理，得到第三特征图；

在实际应用中，以神经网络模型中具有一个第二卷积层为例，第二卷积层可以将最终的形状转为[bs,153,512,512]；

步骤504，将所述第三特征图转化为目标格式的多维矩阵，得到目标特征图。

本发明实施例中，目标特征图的尺寸为153×H×W，其中，H代表高度，W代表宽度，H和W相当于是定义这153个特征图中每一个长方形的尺寸大小，目标特征图对应51个Blendshapes(每个Blendshapes需要3个通道去表示三维坐标)。

在实际应用中，可以首先通过双线性插值抽取每个第一顶点的三维坐标的偏移量，再将包含多个第一顶点的三维坐标的偏移量的第三特征图转化为目标格式的多维矩阵，得到目标特征图[bs，51，V，3]的数据，其中，V是顶点的数量，V等于26317。

由于UV坐标实际的数值不是整数，但纹理贴图图片上的像素位置是整数值(第几行第几列)。因此需要用双线性插值去计算每个第一顶点的三维坐标的偏移量。比如：某个第一顶点对应UV坐标是[3.4，2.1]，那么就需要使用[3，2]，[3，3]，[4，2]，[4，3]这四个坐标的值(就是包围这个非整数坐标的四个位置)去使用双线性插值算法计算出[3.4，2.1]这个第一顶点的UV坐标对应的三维坐标的偏移量。

本发明实施例能够基于每条边的多维矩阵，分别生成每条边对应的目标特征图，153个目标特征图可以相当于51个UV map，可以便于基于每个目标特征图，得到每个第一顶点对应的关键点数据偏移量，基于每个目标特征图，得到每个第一顶点对应的关键点数据偏移量可以参见下述实施例。

在本发明的又一实施例中，所述在各条边对应的所述目标特征图中，分别抽取所述关键点数据偏移量，包括：

步骤601，获取多个所述第一顶点对应的UV坐标；

本发明实施例中，可以预先设置每个第一顶点对应的UV坐标。

步骤602，针对每条边对应的所述目标特征图，在所述目标特征图中，查找与每个所述第一顶点对应的UV坐标对应的三维坐标的偏移量，得到所述关键点数据偏移量。

UV坐标是为了给Mesh上颜色的，每个顶点对应到纹理贴图图片上的一个像素位置。由于一个图片中某个像素点位置对应红绿蓝三种颜色的强度值实际上就是一个三维的数据，本发明实施例中，可以用位置坐标X，Y，Z取代三种颜色的值，相当于一张图片，它的每个像素位置存储了一个三维点位置，所以，每个顶点的UV坐标对应一个像素位置，每个像素位置中包含一个三维坐标。本发明实施例通过神经网络模型预测出这样的目标特征图，然后通过UV坐标给出的对应关系，查找某个顶点的三维坐标。

在本发明的又一实施例中，还提供一种模型训练方法，如图8所示，所述方法包括：

步骤S701，获取训练对象的第三表情网格mesh中各第三顶点的三维坐标、多条边的第五特征向量和所述训练对象的参考表情mesh。

本发明实施例中，所述第三表情mesh是对所述训练对象面部的中立表情进行mesh重建得到的，所述第三顶点为所述中立表情中的关键点，所述边为任意两个相邻第三顶点的连线；

步骤S702，将多条边的所述第五特征向量输入神经网络模型中，获取所述神经网络模型输出的待生成的虚拟表情与中立表情的关键点数据偏移量；

步骤S703，基于所述关键点数据偏移量及所述第三表情mesh中各第三顶点的三维坐标，确定多个第四顶点的三维坐标，所述第四顶点为所述虚拟表情中的关键点；

步骤S704，基于多个所述第四顶点的三维坐标生成所述训练对象的对应的第二虚拟表情mesh；

为了使神经网络模型能够基于中立表情的表情mesh中多条边的第一特征向量，确定待生成的虚拟表情与中立表情的关键点数据偏移量，所以，本发明实施例中，步骤S701-步骤S704的逻辑与步骤S101-S104的逻辑相似，相关内容请参见前述实施例。

步骤S705，训练所述神经网络模型，直至所述第二虚拟表情mesh与所述参考表情mesh之间的相似度超过预设阈值，获得所述神经网络模型。

本发明实施例通过训练神经网络模型，可以使神经网络模型能够基于中立表情的表情mesh中多条边的第一特征向量，确定待生成的虚拟表情与中立表情的关键点数据偏移量，并且在第二虚拟表情mesh与作为标签的参考表情mesh之间的相似度超过预设阈值时，获得所述神经网络模型，保证了神经网络模型的准确度。

在本发明的又一实施例中，所述方法还包括：

步骤801，在所述中，获取多对待限位的顶点及每对所述待限位的顶点之间的距离阈值；

本发明实施例中，待限位的顶点可以是第二虚拟表情mesh中可能存在不合理形变、不该形变的顶点，不合理形变、不该形变例如：上嘴唇不应该低于下嘴唇、闭眼的表情然而上下眼皮之间还留了一道缝隙。

步骤802，计算每对所述待限位的顶点之间的实际距离；

在该步骤中，可以获取预先设置的多对待限位顶点的信息，在第二虚拟表情mesh中根据多对待限位顶点的信息获取到多对待限位顶点的三维坐标，计算第二虚拟表情mesh中，每对待限位顶点之间的实际距离。

步骤803，基于损失函数、所述实际距离和所述距离阈值计算所述神经网络模型的限位损失值；

以上面闭眼为例，那就需要要求上下眼皮的几个相关顶点之间距离比较小，比如要小于0.000001等；那么计算损失函数时，就可以以某两个顶点间的距离减去0.000001，这个值就作为限位损失值。

步骤804，利用所述限位损失值训练所述神经网络模型，直至所述神经网络模型收敛，获得所述神经网络模型。

通过本发明实施例，比如某个Blendshape是一个针对嘴部动作的表情，那么根据神经网络设计损失函数的思路，可以很自由地对嘴部的顶点做出限制，以免出现不合理形变(如限制下嘴唇坐标不高于上嘴唇)；同时也可对无关的五官区域进行限制，使得不该形变的地方不发生变动(如限制非嘴部区域，使其不发生移动)。

在本发明的又一实施例中，还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述任一方法实施例所述的虚拟表情生成方法或者前述任一方法实施例所述的模型训练方法。

本发明实施例提供的电子设备，处理器通过执行存储器上所存放的程序实现了通过获取目标对象的第一表情网格mesh中各第一顶点的三维坐标及多条边的第一特征向量，然后将多条边的所述第一特征向量输入神经网络模型中，获取所述神经网络模型输出的待生成的虚拟表情与中立表情的关键点数据偏移量，再基于所述关键点数据偏移量及所述第一表情mesh中各第一顶点的三维坐标，确定多个第二顶点的三维坐标；最后可以基于多个所述第二顶点的三维坐标生成所述目标对象的第一虚拟表情mesh。本申请实施例能够自动根据中立表情重建的表情mesh，利用神经网络模型，生成多个虚拟表情mesh，实现批量化的生产Blendshapes，无需专业设计人员耗时耗力地逐个设计，提高Blendshapes的生产效率。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明的又一实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有虚拟表情生成方法或者模型训练方法的程序，所述虚拟表情生成方法或者模型训练方法的程序被处理器执行时实现前述任一方法实施例所述的虚拟表情生成方法或者前述任一方法实施例所述的模型训练方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种虚拟表情生成方法，其特征在于，包括：

获取目标对象的第一表情网格mesh中各第一顶点的三维坐标及多条边的第一特征向量，所述第一表情网格mesh是对所述目标对象面部的中立表情进行mesh重建得到的，所述第一顶点为所述中立表情中的关键点，所述边为任意两个相邻第一顶点的连线；

将多条边的所述第一特征向量输入神经网络模型中，获取所述神经网络模型输出的待生成的虚拟表情与中立表情的关键点数据偏移量，所述神经网络模型基于每条边的第一特征向量确定各条边对应的目标特征图，在各条边对应的所述目标特征图中，分别抽取所述关键点数据偏移量，所述在各条边对应的所述目标特征图中，分别抽取所述关键点数据偏移量，包括：获取多个所述第一顶点对应的UV坐标；针对每条边对应的所述目标特征图，在所述目标特征图中，查找与每个所述第一顶点对应的UV坐标对应的三维坐标的偏移量，得到所述关键点数据偏移量；

基于所述关键点数据偏移量及所述第一表情网格mesh中各第一顶点的三维坐标，确定多个第二顶点的三维坐标，所述第二顶点为所述虚拟表情中的关键点；

2.根据权利要求1所述的虚拟表情生成方法，其特征在于，所述第一表情网格mesh中多条边形成多个三角形，获取目标对象的第一表情网格mesh中多条边的第一特征向量，包括：

针对第一表情网格mesh中的每条边，获取所述边的长度、以所述边作为公共底的两个三角形的顶角的大小、两个所述三角形的高、两个所述三角形所在的平面之间的夹角；

3.根据权利要求1所述的虚拟表情生成方法，其特征在于，所述神经网络模型基于多条边的所述第一特征向量输出待生成的虚拟表情与中立表情的关键点数据偏移量，包括：

4.根据权利要求3所述的虚拟表情生成方法，其特征在于，所述对每条边的第一特征向量进行预处理，得到各条边对应的多维矩阵，包括：

将每条边的第二特征向量分别转化为多维矩阵。

5.根据权利要求4所述的虚拟表情生成方法，其特征在于，将多条边的所述第一特征向量进行mesh卷积处理，得到多条边的第二特征向量，包括：

6.根据权利要求3所述的虚拟表情生成方法，其特征在于，所述针对每条边的所述多维矩阵，提取特征图并对所述特征图进行尺寸放大，得到各条边对应的目标特征图，包括：

将第一特征图的尺寸放大，得到第二特征图；

将所述第二特征图进行卷积处理，得到第三特征图；

7.一种模型训练方法，其特征在于，所述方法包括：

训练所述神经网络模型，直至所述第二虚拟表情mesh与所述参考表情mesh之间的相似度超过预设阈值，获得如权利要求1至6任一所述神经网络模型。

8.根据权利要求7所述的模型训练方法，其特征在于，所述方法还包括：

计算每对所述待限位的顶点之间的实际距离；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1～6任一所述的虚拟表情生成方法或者权利要求7～8任一所述的模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有虚拟表情生成方法或者模型训练方法的程序，所述虚拟表情生成方法或者模型训练方法的程序被处理器执行时实现权利要求1-6任一所述的虚拟表情生成方法或者权利要求7～8任一所述的模型训练方法的步骤。