CN114360018B

CN114360018B - 三维人脸表情的渲染方法及装置、存储介质及电子装置

Info

Publication number: CN114360018B
Application number: CN202111663883.0A
Authority: CN
Inventors: 司马华鹏; 杨过; 廖铮
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-07-11
Anticipated expiration: 2041-12-31
Also published as: CN114360018A

Abstract

本申请实施例提供了一种三维人脸表情的渲染方法及装置、存储介质及电子装置，所述方法包括：提取目标人脸图像中的目标68关键点特征，将目标68关键点特征输入三维人脸表情迁移模型，通过三维人脸表情迁移模型输出目标68关键点特征对应的目标blendshapes，其中，三维人脸表情迁移模型为使用样本数据训练的回归网络模型，样本数据包括样本68关键点以及对应的样本blendshapes，三维人脸表情迁移模型中包括第一卷积网络模块，第一卷积网络模块包括6路并联的网络结构，6路并联的网络结构分别用于确定6种特征向量对应的权重；根据目标blendshapes渲染目标人脸图像对应的三维人脸表情。

Description

三维人脸表情的渲染方法及装置、存储介质及电子装置

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种三维人脸表情的渲染方法及装置、存储介质及电子装置。

背景技术

实时三维人脸表情迁移的是自然人机交互领域的重要内容。三维人脸表情动画合成是对真人视频表情关键点进行预处理，使之关键点的变化映射到三维人脸的顶点坐标上，达到三维虚拟人脸表情实时迁移的目的。同时，实时三维表情迁移项目也可以在三维动画、三维电影的制作方面发挥一定效力以节约成本。与此同时，用户作为每个独特的个体也可以仅在使用普通相机的情况下就能轻松获得自己的三维表情视频。

目前的三维人脸表情迁移的研究主要集中在将2D人脸表情实时精确地迁移到三维人脸上。实时2D人脸表情迁移模型需要驱动更多的参数，其参数量是由像素数决定，在高精度、实时上对硬件要求较高，目前较为流行的三维人脸表情迁移模型想要达到泛化、精确、生动的2D表情迁移则需要数百万级的人脸特征作为训练数据，需要耗费更多的人力、硬件资源。

与此同时，目前主流的三维人脸表情迁移模型，主要依附传统的非线性拟合算法，其效果不够泛化，迁移的表情受限较大，精度较低，视觉上仍然无法满足三维动画的要求，在表情细节上，仍需大量的人工作业。

针对相关技术中，人脸表情迁移实现的效果并不理想的问题，相关技术中尚未提供有效的解决方案。

发明内容

本申请实施例提供了一种三维人脸表情的渲染方法及装置、存储介质及电子装置，以至少解决相关技术中人脸表情迁移实现的效果并不理想的问题。

在本申请的一个实施例中，提出了一种三维人脸表情的渲染方法，包括：提取目标人脸图像中的目标68关键点特征，其中，所述目标人脸图像为从输入视频中提取的图像；将所述目标68关键点特征输入三维人脸表情迁移模型，通过所述三维人脸表情迁移模型输出所述目标68关键点特征对应的目标blendshapes，其中，所述三维人脸表情迁移模型为使用样本数据训练的回归网络模型，所述样本数据包括样本68关键点以及对应的样本blendshapes，所述三维人脸表情迁移模型中包括第一卷积网络模块，所述第一卷积网络模块包括6路并联的网络结构，所述6路并联的网络结构分别用于确定6种特征向量对应的权重；根据所述目标blendshapes渲染所述目标人脸图像对应的三维人脸表情。

在本申请的一个实施例中，还提出了一种三维人脸表情的渲染装置，包括：提取模块，配置为提取目标人脸图像中的目标68关键点特征，其中，所述目标人脸图像为从输入视频中提取的图像；输入输出模块，配置为将所述目标68关键点特征输入三维人脸表情迁移模型，通过所述三维人脸表情迁移模型输出所述目标68关键点特征对应的目标blendshapes，其中，所述三维人脸表情迁移模型为使用样本数据训练的回归网络模型，所述样本数据包括样本68关键点以及对应的样本blendshapes，所述三维人脸表情迁移模型中包括第一卷积网络模块，所述第一卷积网络模块包括6路并联的网络结构，所述6路并联的网络结构分别用于确定6种特征向量对应的权重；渲染模块，配置为根据所述目标blendshapes渲染所述目标人脸图像对应的三维人脸表情。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，提取目标人脸图像中的目标68关键点特征，将目标68关键点特征输入三维人脸表情迁移模型，通过三维人脸表情迁移模型输出目标68关键点特征对应的目标blendshapes，其中，三维人脸表情迁移模型为使用样本数据训练的回归网络模型，样本数据包括样本68关键点以及对应的样本blendshapes，三维人脸表情迁移模型中包括第一卷积网络模块，第一卷积网络模块包括6路并联的网络结构，6路并联的网络结构分别用于确定6种特征向量对应的权重；根据目标blendshapes渲染目标人脸图像对应的三维人脸表情。解决了相关技术中人脸表情迁移实现的效果并不理想的问题，模型选择的特征只有变化的68个关键点，在预训练上极大节约了算力与时间成本，通过6路并联的网络结构分别确定6种特征向量对应的权重，实现了人脸表情的精准迁移，对于多种微表情或细微动作的场景具有更好的迁移效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的三维人脸表情的渲染方法流程图；

图2是根据本申请实施例的一种可选的人脸68关键点示意图；

图3是根据本申请实施例的一种可选的回归网络模型的训练过程示意图；

图4是根据本申请实施例的一种可选的回归网络模型结构示意图；

图5是根据本申请实施例的一种可选的判别器训练过程示意图；

图6是根据本申请实施例的一种可选的生成器训练过程示意图；

图7是根据本申请实施例的一种可选的三维人脸表情的渲染装置结构示意图；

图8是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

如图1所示，本申请实施例提供了一种三维人脸表情的渲染方法，包括：

步骤S102，提取目标人脸图像中的目标68关键点特征，其中，目标人脸图像为从输入视频中提取的图像；

步骤S104，将目标68关键点特征输入三维人脸表情迁移模型，通过三维人脸表情迁移模型输出目标68关键点特征对应的目标blendshapes，其中，三维人脸表情迁移模型为使用样本数据训练的回归网络模型，样本数据包括样本68关键点以及对应的样本blendshapes，三维人脸表情迁移模型中包括第一卷积网络模块，第一卷积网络模块包括6路并联的网络结构，6路并联的网络结构分别用于确定6种特征向量对应的权重；

步骤S106，根据目标blendshapes渲染目标人脸图像对应的三维人脸表情。

需要说明的是，采用dlib库中人脸关键点检测模型，可以检测图像中人脸的68个关键点，具体的68个关键点的位置可以如图2所示。图2是根据本申请实施例的一种可选的人脸68关键点示意图。

上述blendshapes用于表示驱动3D人脸整体表情的基表情权重系数。

需要说明的是，输入视频可以是，以智能终端设备模仿用户说话时，用户通过手机终端程序进行视频录制，视频捕捉设备获得的视频，然后使用dlib库人脸关键点检测模型进行人脸关键点识别；也可以是，以大屏幕的播放广告为例，通过内置视频捕捉设备获得的视频，然后使用dlib库人脸关键点检测模型进行人脸关键点识别。

根据目标blendshapes渲染目标人脸图像对应的三维人脸表情，可以是将目标blendshape系数传输到ue4(虚幻引擎)中，ue4中已经内置好各种场景以及需要的blendshape，通过ue4渲染到多种终端设备上。

在一实施例中，通过三维人脸表情迁移模型输出目标68关键点特征对应的目标blendshapes，可以包括以下步骤：

通过三维人脸表情迁移模型内部的6路并联的网络结构，分别确定以下6种特征对应的权重：左边眼部特征，右边眼部特征，鼻子特征，嘴部特征，脸颊特征，子特征之间的关联特征；

将6种特征对应的权重进行拼接后输出目标68关键点特征对应的目标blendshapes。

需要说明的是，人脸68关键点大致可分为眼睛眉毛、鼻子、嘴巴、脸颊四个部分，而上述部分与部分之间又有一定的联系。因此，本申请实施例中将人脸68关键点分为6大特征：左边眼部特征，右边眼部特征，鼻子特征，嘴部特征，脸颊特征，子特征之间的关联特征，其中，左边眼部特征可以包括左边眼睛和左边眉毛，右边眼部特征可以包括右边眼睛和右边眉毛。

上述子特征之间的关联特征中，子特征即指左边眼部特征，右边眼部特征，鼻子特征，嘴部特征，脸颊特征，子特征之间的关联特征即指示上述任意部分之间的相关性。

在一实施例中，述6种特征对应的权重进行拼接后输出目标68关键点特征对应的目标blendshapes，包括：

将6种特征对应的权重进行拼接后输入第二卷积网络模块，其中，第二卷积网络模块与第一卷积网络模块串联，且第二卷积网络模块与第一卷积网络模块的内部结构一致；

将第二卷积网络模块输出的6种特征对应的权重进行拼接后输入全连接层；

通过全连接层输出目标blendshapes。

需要说明的是，三维人脸表情迁移模型中的第一卷积网络模块包括6路并联的网络结构，分别确定6种特征对应的权重，在整个三维人脸表情迁移模型中可以包括多个串联的卷积网络模块，分别是第一卷积网络模块，第二卷积网络模块，第三卷积网络模块等，每个卷积网络模块的内部结构一致。为了降低运算成本，同时达到较好的运算效果，本申请实施例中优选将网络深度控制在4层以内，也就是四层卷积网络模块串联。

在一实施例中，在将目标68关键点特征输入三维人脸表情迁移模型之前，所述方法还包括：

使用样本数据训练回归网络模型，得到三维人脸表情迁移模型。

在三维人脸表情迁移模型投入应用之前，需要先对初始的回归网络模型进行训练，训练完成后得到三维人脸表情迁移模型。图3是根据本申请实施例的一种可选的回归网络模型的训练过程示意图，如图3所示，主要训练过程如下：

S1，从样本视频中检测到人脸的68个关键点打印到对应的人脸上，过滤掉人脸关键点识别错误的图像帧，得到样本68关键点以及对应的样本blendshapes；

S2，将样本68关键点按照以下6种类别分为6类子特征：左边眼部特征，右边眼部特征，鼻子特征，嘴部特征，脸颊特征，子特征之间的关联特征；

S3，将样本68关键点输入回归网络模型进行训练，其中，回归网络模型包括一层卷积网络模块或至少两层串联的卷积网络模块，每一层卷积网络模块包括6路并联的网络结构，6路并联的网络结构分别用于训练6种子特征对应的权重；

S4，将回归网络模型输出的blendshapes作为预测值，使用样本blendshapes作为真实值进行损失函数的计算，进而调整回归网络模型的训练参数。

需要说明的是，训练视频的获取可以使用iphone作为数据获取设备，得益于iphone的结构光和内置的arkit技术，可以实现成本较低的实时面部捕捉，实际应用中也可采用其它硬件以进一步优化效果，本申请实施例对此不作限定。在实际数据采集时，可以针对50个特定表情，令1-2名演员或更多演员在相同环境下对着iphone进行带有特定表情地表演，演员越多获取的样本越丰富。利用iphone录制演员表情，以及每一帧arkit自带的52个blendshape系数的变化值，这52个blendshape系数可以驱动整个人脸特征点进行变化。之后进行第一轮数据筛选，可以由人工或机器筛出质量较好的数据，排除各种环境原因或者演员失误，筛选出的数据对应的视频即可作为训练视频。

需要说明的是，由于本申请实施例中提取的特征只是人脸关键点，所以不需要多样人脸，故只需对同一表情重复的表演即可(即同一模特的重复表演)。

关于样本视频中人脸关键点的获取，可以采用dlib库中人脸关键点检测模型，检测上述训练视频中人脸的68个关键点，并将每一帧的人脸关键点与arkit自带的blendshapes系数一一对应(blendshapes系数也可以理解为人脸关键点的标签)。之后将检测到的人脸关键点打印到对应的人脸上，过滤掉人脸关键点识别错误的帧。由此即可得到比较可靠的人脸关键点作为训练样本数据。

关于回归网络模型的训练，人脸68关键点大致可分为眼睛眉毛、鼻子、嘴巴、脸颊四个部分，而部分与部分之间又有一定的联系。对于68关键点，本申请实施例在处理过程中，通过以下细分内部特征进行处理：左边眼睛眉毛、右边眼睛眉毛、鼻子、嘴巴、脸颊、以及子特征之间的关联特征，共6个细分特征(子特征之间的关联特征算为1个特征)。

对于上述细分内部特征，本申请实施例中选择多路并联的核网络，同时根据硬件的能力，适当确定网络的深度，具体而言，选择并联网络可以有效控制内部特征之间的权重分配，网络深度在3到4层即可达到较好的泛化效果，而且可以保留更多的原始特征信息。具体而言，针对上述6个细分特征，本申请实施例选择6路分支并联的网络结构，每个分支控制一个细分特征的权重，其中，每路分支选择较为轻量级的1*1+3*1+1*1的串联卷积神经网络(Convolutional Neural Networks，简称为CNN)网络。为达到实时目的，本申请实施例将网络深度控制在4层以内，至此则可搭建好CNN部分。由于CNN部分最后分配了更多的通道数，为了使通道数缓慢降下来，在网络的最后输出采用1*1卷积+一层全连接层，以此则搭建完了整个回归网络模型，如图4所示。

通过第一训练样本对回归网络模型进行训练，将第一训练样本中的每一帧对应的68个关键点作为输入，对应的blendshapes系数作为真实值进行损失函数的计算。

在一实施例中，将回归网络模型输出的blendshapes作为预测值，使用样本blendshapes作为真实值进行损失函数的计算，包括：

S1，将回归网络模型输出的预测值输入判别器，通过判别器判断为假，其中，判别器包括三层全连接层；

S2，将样本blendshapes输入判别器，通过判别器判断为真；

重复步骤S1和步骤S2以完成判别器的训练；

通过训练后的判别器反向训练回归网络模型，以调整回归网络模型的训练参数。

在上述回归网络模型训练阶段，通过实验发现数据量较小时，预测结果会有轻微抖动，而当数据量过多时，回归网络模型有可能会崩塌。对此，本申请实施例中进一步引入了生成式对抗神经网络(Generative Adversarial Networks，简称为GAN)思想，具体而言，本方案将上述回归网络作为生成器，同时选择3层全连接层作为判别器，以此进行重新训练(即将回归网络模型作为生成器，将生成器与判别器视为一个新的网络重新进行训练)，过程如下：

首先，可以选择数量更多的样本数据，同样包括每一帧对应的68个关键点以及对应的blendshapes系数。将样本数据中每一帧对应的68个关键点输入生成器(即上述回归网络模型)，输出的blendshapes系数(预测值)给至判别器，并令判别器判断为假。进一步的，将样本数据中每一帧对应的blendshapes系数(真实值)给至判别器，并令判别器判断为真。以此往复，即可完成判别器的训练。判别器的训练过程如图5所示。然后通过上述训练完成后的判别器反向训练生成器，将样本数据中每一帧对应的68个关键点输入生成器，输出的blendshapes系数(预测值)给至判别器进行判断，生成器不断增强自身生成能力，以令判别器的输出为真。生成器的训练过程如图6所示。生成器和判别器训练时的损失函数可以是68关键点对应的整体的损失函数，采用L1_loss实现。

将第一损失函数、第二损失函数和第三损失函数进行加权叠加后，根据叠加后的损失函数调整回归网络模型的训练参数，其中，第一损失函数为68关键点对应的损失函数，第二损失函数为左边眼部特征和右边眼部特征对应的损失函数，第三损失函数为嘴部特征对应的损失函数。

需要说明的是，由于人脸表情迁移中主要目标是眼部与嘴部的表情迁移，故本申请实施例的损失函数还可进一步加上嘴部与眼部的对抗损失。具体而言，分别选取嘴部与眼部对应的关键点，并以该关键点分别执行上述生成器和判别器的训练过程，以此分别得到嘴部对应的第二生成器与眼部对应的第三生成器，其损失函数则分别对应为第二损失函数与第三损失函数。将第一损失函数、第二损失函数、第三损失函数加权叠加，即第一损失函数、第二损失函数、第三损失函数乘以不同的系数a、b、c后叠加，a+b+c＝1，以得到最终的损失函数，该损失函数对应的模型即为三维人脸表情迁移模型。

由于dlib库人脸关键点识别模型可能存在异常检测，在训练时可以选择L1损失函数，以提高模型的稳健性。为了复现捕捉到的blendshapes系数，计算真实blendshapes系数与预测blendshapes系数之间的L1误差。对于GAN网络的损失，本申请实施例中采用MSEloss，以确保模型的稳定性。

在训练完成后的三维人脸表情迁移模型的实际应用中，首先通过视频接收设备获得n帧人脸，n的具体值由硬件的计算能力而定。通过dlib库人脸关键点检测模型检测到人脸68关键点，将关键点输入预先训练好的实时三维人脸表情迁移模型中，输出对应帧的blendshapes系数，将blendshapes系数传输到ue4(虚幻引擎)中，ue4中已经内置好各种场景以及需要的blendshapes，通过ue4渲染到多种终端设备上。

示例性实施例1

本示例性实施例中，以手机终端的模仿用户说话为例进行说明，用户通过手机终端程序进行视频录制，视频捕捉设备获得视频，使用dlib库人脸关键点检测模型进行人脸关键点识别，将识别到的关键点输入预先训练好的实时3D人脸表情迁移模型中，输出对应帧的blendshapes系数，将blendshapes系数传输到ue4(虚幻引擎)中，ue4中已经内置好各种场景以及需要的blendshapes，通过ue4渲染到手机上。

示例性实施例2

本示例性实施例中，以大屏幕的播放广告为例进行说明，通过内置视频捕捉设备获得视频，使用dlib库人脸关键点检测模型进行人脸关键点识别，将识别到的关键点输入预先训练好的3D人脸表情迁移模型中，输出对应帧的bs值，将blendshapes系数传输到ue4(虚幻引擎)中，ue4中已经内置好各种场景以及需要的blendshapes，通过ue4渲染到大屏上。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图7所示，根据本申请的另一实施例，还提供了一种三维人脸表情的渲染装置，用于实现上述任一项方法实施例中所述的方法，已经描述的内容此处不再赘述，所述装置包括：

提取模块702，配置为提取目标人脸图像中的目标68关键点特征，其中，所述目标人脸图像为从输入视频中提取的图像；

输入输出模块704，配置为将所述目标68关键点特征输入三维人脸表情迁移模型，通过所述三维人脸表情迁移模型输出所述目标68关键点特征对应的目标blendshapes，其中，所述三维人脸表情迁移模型为使用样本数据训练的回归网络模型，所述样本数据包括样本68关键点以及对应的样本blendshapes，所述三维人脸表情迁移模型中包括第一卷积网络模块，所述第一卷积网络模块包括6路并联的网络结构，所述6路并联的网络结构分别用于确定6种特征向量对应的权重；

渲染模块706，配置为根据所述目标blendshapes渲染所述目标人脸图像对应的三维人脸表情。

关于三维人脸表情的渲染装置的具体限定可以参见上文中对于三维人脸表情的渲染方法的限定，在此不再赘述。上述三维人脸表情的渲染装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作，针对单一个体包括多种微表情/细微动作调节的多路并联CNN网络模型。

通过本申请实施例提供的三维人脸表情的渲染方法及装置，可作为独立的动画制作系统应用于加快动画制作中。一个人的表情可实现向多人三维人脸表情迁移，节约动画制作成本。同时也可以多人表情向同一人的三维人脸表情迁移，不依赖独特的个体表演，具有很高的灵活性。另一方面，为达到更细腻的效果，本申请实施例的方案可配备更复杂的数据。例如输入数据可以是独特的人脸，以及与之对应的更丰富的三维表情参数系数。这样，就能迁移更丰富的情感表达，本申请实施例的方案完全可以辅助三维动画的表情制作，极大缩减时间成本。

根据本申请实施例的又一个方面，还提供了一种用于实施上述三维人脸表情的渲染方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图8所示，该电子装置包括存储器802和处理器804，该存储器802中存储有计算机程序，该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S1，提取目标人脸图像中的目标68关键点特征，其中，目标人脸图像为从输入视频中提取的图像；

步骤S2，将目标68关键点特征输入三维人脸表情迁移模型，通过三维人脸表情迁移模型输出目标68关键点特征对应的目标blendshapes，其中，三维人脸表情迁移模型为使用样本数据训练的回归网络模型，样本数据包括样本68关键点以及对应的样本blendshapes，三维人脸表情迁移模型中包括第一卷积网络模块，第一卷积网络模块包括6路并联的网络结构，6路并联的网络结构分别用于确定6种特征向量对应的权重；

步骤S3，根据目标blendshapes渲染目标人脸图像对应的三维人脸表情。

可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图8中所示更多或者更少的组件(如网络接口等)，或者具有与图8所示不同的配置。

其中，存储器802可用于存储软件程序以及模块，如本申请实施例中的三维人脸表情的渲染方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的三维人脸表情的渲染方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器802具体可以但不限于用于三维人脸表情的渲染方法的程序步骤。

可选地，上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置806为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器808，用于显示三维人脸表情的渲染过程；和连接总线810，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种三维人脸表情的渲染方法，其特征在于，包括：

提取目标人脸图像中的目标68关键点特征，其中，所述目标人脸图像为从输入视频中提取的图像；

将所述目标68关键点特征输入三维人脸表情迁移模型，通过所述三维人脸表情迁移模型输出所述目标68关键点特征对应的目标blendshapes，其中，所述三维人脸表情迁移模型为使用样本数据训练的回归网络模型，所述样本数据包括样本68关键点以及对应的样本blendshapes，所述三维人脸表情迁移模型中包括第一卷积网络模块，所述第一卷积网络模块包括6路并联的网络结构，所述6路并联的网络结构分别用于确定6种特征向量对应的权重；

根据所述目标blendshapes渲染所述目标人脸图像对应的三维人脸表情；

其中，在将所述目标68关键点特征输入三维人脸表情迁移模型之前，所述方法还包括：

使用样本数据训练所述回归网络模型，得到所述三维人脸表情迁移模型；

所述使用样本数据训练所述回归网络模型，包括：

从样本视频中检测到人脸的68个关键点打印到对应的人脸上，过滤掉人脸关键点识别错误的图像帧，得到所述样本68关键点以及对应的样本blendshapes；

将所述样本68关键点按照以下6种类别分为6类子特征：左边眼部特征，右边眼部特征，鼻子特征，嘴部特征，脸颊特征，子特征之间的关联特征；

将所述样本68关键点输入所述回归网络模型进行训练，其中，所述回归网络模型包括一层卷积网络模块或至少两层串联的卷积网络模块，每一层所述卷积网络模块包括6路并联的网络结构，所述6路并联的网络结构分别用于训练所述6种子特征对应的权重；

将所述回归网络模型输出的blendshapes作为预测值，使用所述样本blendshapes作为真实值进行损失函数的计算，进而调整所述回归网络模型的训练参数；

所述将所述回归网络模型输出的blendshapes作为预测值，使用所述样本blendshapes作为真实值进行损失函数的计算，包括：

S1，将所述回归网络模型输出的所述预测值输入判别器，通过所述判别器判断为假，其中，所述判别器包括三层全连接层；

S2，将所述样本blendshapes输入所述判别器，通过所述判别器判断为真；

重复步骤S1和步骤S2以完成所述判别器的训练；

通过训练后的判别器反向训练所述回归网络模型，以调整所述回归网络模型的训练参数。

2.根据权利要求1所述的方法，其特征在于，所述通过所述三维人脸表情迁移模型输出所述目标68关键点特征对应的目标blendshapes，包括：

通过所述三维人脸表情迁移模型内部的6路并联的网络结构，分别确定以下6种特征对应的权重：左边眼部特征，右边眼部特征，鼻子特征，嘴部特征，脸颊特征，子特征之间的关联特征；

将所述6种特征对应的权重进行拼接后输出所述目标68关键点特征对应的目标blendshapes。

3.根据权利要求2所述的方法，其特征在于，所述将所述6种特征对应的权重进行拼接后输出所述目标68关键点特征对应的目标blendshapes，包括：

将所述6种特征对应的权重进行拼接后输入第二卷积网络模块，其中，所述第二卷积网络模块与所述第一卷积网络模块串联，且所述第二卷积网络模块与所述第一卷积网络模块的内部结构一致；

将所述第二卷积网络模块输出的6种特征对应的权重进行拼接后输入全连接层；

通过所述全连接层输出所述目标blendshapes。

4.根据权利要求1所述的方法，其特征在于，所述将所述回归网络模型输出的blendshapes作为预测值，使用所述样本blendshapes作为真实值进行损失函数的计算，包括：

将第一损失函数、第二损失函数和第三损失函数进行加权叠加后，根据叠加后的损失函数调整所述回归网络模型的训练参数，其中，所述第一损失函数为所述68关键点对应的损失函数，所述第二损失函数为所述左边眼部特征和所述右边眼部特征对应的损失函数，所述第三损失函数为所述嘴部特征对应的损失函数。

5.一种三维人脸表情的渲染装置，其特征在于，包括：

提取模块，配置为提取目标人脸图像中的目标68关键点特征，其中，所述目标人脸图像为从输入视频中提取的图像；

输入输出模块，配置为将所述目标68关键点特征输入三维人脸表情迁移模型，通过所述三维人脸表情迁移模型输出所述目标68关键点特征对应的目标blendshapes，其中，所述三维人脸表情迁移模型为使用样本数据训练的回归网络模型，所述样本数据包括样本68关键点以及对应的样本blendshapes，所述三维人脸表情迁移模型中包括第一卷积网络模块，所述第一卷积网络模块包括6路并联的网络结构，所述6路并联的网络结构分别用于确定6种特征向量对应的权重；

渲染模块，配置为根据所述目标blendshapes渲染所述目标人脸图像对应的三维人脸表情；

训练模块，配置为使用样本数据训练所述回归网络模型，得到所述三维人脸表情迁移模型，训练方法主要包括以下步骤：

重复步骤S1和步骤S2以完成所述判别器的训练；

6.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。