CN117315211B

CN117315211B - 数字人合成及其模型训练方法、装置、设备及存储介质

Info

Publication number: CN117315211B
Application number: CN202311610170.7A
Authority: CN
Inventors: 杨延东
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-02-23
Anticipated expiration: 2043-11-29
Also published as: CN117315211A

Abstract

本发明公开了一种数字人合成及其模型训练方法、装置、设备及存储介质，应用于人工智能领域。其中，方法包括将人脸样本数据输入至数字人合成模型，该模型将人脸样本数据对应的相机信息、表情信息和人脸形状参数输入至三维人脸数据生成模型，得到人脸三维点云数据。根据人脸三维点随着人脸面部表情和姿态动态变化过程下的偏移量确定面部形变点云数据，并构建表示面部几何纹理特征的三维高斯集。根据三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像；不断优化目标人脸图像与人脸样本数据的误差损失直至满足预设条件，完成一次训练。本发明可解决相关技术无法生成具备动态面部表情变化的高保真数字人的问题，可以有效提升数字人的合成质量。

Description

数字人合成及其模型训练方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，特别是涉及一种数字人合成及其模型训练方法、装置、电子设备及可读存储介质。

背景技术

数字人（也即Head Avatar）合成作为基础性计算机图形学技术，被广泛应用于虚拟主播、远程会议、电影制片，视频游戏，数字助手等诸多现实应用场景中。

相关技术无法实时同步嘴部动作和眼神交流，数字人的面部细节表情和几何纹理结构都在数字人上表现较差，无法生成具备动态面部表情变化的高保真数字人。

鉴于此，生成具备动态面部表情变化的高保真数字人，是所属领域技术人员需要解决的技术问题。

发明内容

本发明提供了一种数字人合成及其模型训练方法、装置、电子设备及可读存储介质，可以生成具备动态面部表情变化的高保真数字人。

为解决上述技术问题，本发明提供以下技术方案：

本发明一方面提供了一种数字人合成模型训练方法，包括：

预先构建数字人合成模型；所述数字人合成模型包括预先训练好的三维人脸数据生成模型；

获取人脸样本数据，并将所述人脸样本数据输入至所述数字人合成模型；

所述数字人合成模型将所述人脸样本数据对应的相机信息、表情信息和人脸形状参数，输入至所述三维人脸数据生成模型，得到人脸三维点云数据；

根据所述人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量，确定所述人脸三维点云数据对应的面部形变点云数据；

基于所述面部形变点云数据构建用于表示面部几何纹理特征的三维高斯集，根据所述三维高斯集中至少一个三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像；

对所述目标人脸图像与所述人脸样本数据的误差损失进行不断优化直至满足预设条件，以完成所述数字人合成模型的一次训练。

在第一种示例性的实施方式中，所述根据所述人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量，确定所述人脸三维点云数据对应的面部形变点云数据，包括：

基于人脸面部表情和姿态是随时间动态变化的特性，确定所述人脸三维点云数据的三维点随时间变化的偏移量；

基于各三维点的偏移量，利用预设三维重建算法，确定所述人脸三维点云数据的三维点映射至形变空间下的三维点，将所述形变空间的各三维点作为面部形变点云数据。

在第二种示例性的实施方式中，所述基于各三维点的偏移量，利用预设三维重建算法，确定所述人脸三维点云数据的三维点映射至形变空间下的三维点，包括：

预先基于线性混合蒙皮方法构建面部形变模型，所述面部形变模型为：

；

调用所述面部形变模型，计算所述人脸三维点云数据的各三维点映射至形变空间下的三维点；

式中，x_d为形变空间的三维点，d表示形变空间，x_c为所述人脸三维点云数据的三维点，c表示所述人脸三维点云数据对应的标准空间，为偏移量，LBS(•)为线性混合蒙皮函数，J为联合回归函数，B₁为加性姿态函数，B₂为表情函数，/>为姿态，ε为表情混合基，/>为线性混合蒙皮函数的权重，θ表示加性姿态函数中的参数，ψ表示表情函数中的参数。

在第三种示例性的实施方式中，所述根据所述人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量之前，还包括：

预先基于全连接神经网络构建偏移量预测模型，并利用人脸表情动态变化样本数据集训练所述偏移量预测模型；

将所述人脸三维点云数据输入至所述偏移量预测模型，得到所述人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量。

在第四种示例性的实施方式中，所述将所述人脸样本数据对应的相机信息、表情信息和人脸形状参数，输入至三维人脸数据生成模型，包括：

获取预先构建好的面部表情细节捕捉和动画制作模型、面部关键点拟合模型；

将所述人脸样本数据输入至所述面部表情细节捕捉和动画制作模型，得到相机参数、相机姿态参数和人脸面部表情参数；

将所述人脸样本数据输入至所述面部关键点拟合模型，得到面部关键点参数；

将所述相机参数和所述相机姿态参数作为相机信息，所述人脸面部表情参数和面部关键点参数作为表情信息输入至所述三维人脸数据生成模型。

在第五种示例性的实施方式中，所述将所述人脸样本数据对应的相机信息、表情信息和人脸形状参数，输入至三维人脸数据生成模型，包括：

获取预先构建好的面部表情细节捕捉和动画制作模型、面部关键点拟合模型及运动恢复结构模型；

将所述人脸样本数据输入至所述面部表情细节捕捉和动画制作模型，得到人脸面部表情参数；

将所述人脸样本数据输入至所述运动恢复结构模型，得到相机参数和相机姿态参数；

在第六种示例性的实施方式中，所述获取人脸样本数据包括：

按照预设帧采样频率，获取具备动态面部表情变化的人脸视频；

将所述人脸视频作为人脸样本数据。

在第七种示例性的实施方式中，所述输入至所述三维人脸数据生成模型，包括：

所述数字人合成模型包括预先训练好的面部统计模型，输入至所述面部统计模型。

在第八种示例性的实施方式中，所述基于所述面部形变点云数据构建用于表示面部几何纹理特征的三维高斯集，根据所述三维高斯集中至少一个三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像，包括：

将所述面部形变点云数据中的三维点作为三维高斯点，并利用协方差矩阵和均值表示所述三维高斯集的三维高斯，以构建三维高斯集；

根据所述面部形变点云数据中的三维点对应的三维位置信息、不透明度值、协方差矩阵和均值，计算至少一个三维高斯的三维空间影响值；

基于至少一个三维空间影响值，通过将三维高斯投影映射至二维图像平面的方式，确定相应三维高斯的二维空间影响值；

根据至少一个二维空间影响值计算所述二维图像平面内的像素点的颜色值，以根据各像素点的颜色值得到目标人脸图像。

在第九种示例性的实施方式中，所述利用协方差矩阵和均值表示所述三维高斯集的三维高斯之后，还包括：

获取目标稀疏点云数据；

利用所述目标稀疏点云数据对所述三维高斯集的各三维高斯的参数进行初始化。

在第十种示例性的实施方式中，所述根据所述面部形变点云数据中的三维点对应的三维位置信息、不透明度值、协方差矩阵和均值，计算至少一个三维高斯的三维空间影响值，包括：

调用三维空间影响值计算关系式计算至少一个三维高斯的三维空间影响值；所述三维空间影响值计算关系式为：

；

式中，f _i,t(p)为所述三维高斯集内的第i个三维高斯在t时刻的三维空间影响值，p表示三维高斯，o _i为第i个三维高斯的不透明度值，sigm(•)为sigmoid函数，x_d为形变空间的三维点，d表示形变空间，T表示转置，μ _i,t为第i个三维高斯在t时刻的均值，∑ _i,t为第i个三维高斯在t时刻的协方差矩阵。

在第十一种示例性的实施方式中，所述基于至少一个三维空间影响值，通过将三维高斯投影映射至二维图像平面的方式，确定相应三维高斯的二维空间影响值，包括：

根据相机信息得到相机外参数和相机内参数，根据所述相机外参数和所述相机内参数将至少一个三维高斯的均值映射至二维图像平面，得到至少一个二维均值；

根据所述相机外参数和点投影变换信息将相应三维高斯的协方差矩阵映射至二维图像平面，得到相应的二维协方差矩阵；

基于所述三维空间影响值计算关系式、至少一个二维均值和对应的二维协方差矩阵，计算相应三维高斯的二维空间影响值。

在第十二种示例性的实施方式中，所述根据所述相机外参数和所述相机内参数将至少一个三维高斯的均值映射至二维图像平面，包括：

调用均值映射关系式，计算至少一个三维高斯的二维均值；所述均值映射关系式为：

；

式中，为第i个三维高斯在t时刻的二维均值，μ _i,t为第i个三维高斯在t时刻的均值，K为相机内参映射矩阵，E为相机外参矩阵，z表示深度正则化。

在第十三种示例性的实施方式中，所述根据所述相机外参数和点投影变换信息将相应三维高斯的协方差矩阵映射至二维图像平面，包括：

调用协方差矩阵映射关系式，计算相应三维高斯的二维协方差矩阵；所述协方差矩阵映射关系式为：

；

式中，为第i个三维高斯在t时刻的二维协方差矩阵，∑ _i,t为第i个三维高斯在t时刻的协方差矩阵，/>表示点投影变换的雅克比矩阵，T表示转置。

在第十四种示例性的实施方式中，二维空间影响值为多个，所述根据至少一个二维空间影响值计算所述二维图像平面内的像素点的颜色值，包括：

将各三维高斯按照对应的二维空间影响值进行排序，确定每个三维高斯的高斯影响值组；所述高斯影响值组为由当前三维高斯之前的所有三维高斯组合而成；

对各三维高斯，根据通过对当前三维高斯的高斯影响值组内的各目标三维高斯进行加权计算，得到所述当前三维高斯对所述二维图像平面内的各像素点的颜色值。

在第十五种示例性的实施方式中，所述根据通过对当前三维高斯的高斯影响值组内的各目标三维高斯进行加权计算，得到所述当前三维高斯对所述二维图像平面内的各像素点的颜色值，包括：

调用颜色计算关系式计算所述二维图像平面内的像素点的颜色值，所述颜色计算关系式为：

；

式中，C _pix为所述二维图像平面内的像素点的颜色值，为所述三维高斯集表示的面部场景，c _i为第i个三维高斯的颜色，/>为第i个三维高斯对应的二维空间影响值，j表示第i个三维高斯的高斯影响值组中的第j个目标三维高斯。

在第十六种示例性的实施方式中，所述对所述目标人脸图像与所述人脸样本数据的误差损失进行不断优化直至满足预设条件，包括：

计算所述目标人脸图像和所述人脸样本数据的重构损失函数；

以所述重构损失函数为目标，基于误差最小化进行参数优化训练，并在参数优化过程中，通过自适应密度控制算法交替优化所述三维高斯集中各三维高斯的参数。

在第十七种示例性的实施方式中，所述计算所述目标人脸图像和所述人脸样本数据的重构损失函数，包括：

调用重构损失函数计算关系式，计算所述目标人脸图像和所述人脸样本数据的重构损失函数；所述重构损失函数计算关系式为：

；

式中，表示重构损失函数，I ^new为所述目标人脸图像，I ^orig为所述人脸样本数据，δ为加权因子。

本发明另一方面提供了一种数字人合成方法，包括：

预先利用如前任一项所述数字人合成方法，训练得到数字人合成模型；

获取待处理人脸数据；

将所述待处理人脸数据，输入至所述数字人合成模型；

根据所述数字人合成模型的输出，得到目标视角下的数字人。

本发明还提供了一种数字人合成模型训练装置，包括：

模型框架搭建模块，用于预先构建数字人合成模型；所述数字人合成模型包括预先训练好的三维人脸数据生成模型；

样本数据获取模块，用于获取人脸样本数据，并将所述人脸样本数据输入至所述数字人合成模型；

模型训练模块，用于将所述人脸样本数据对应的相机信息、表情信息和人脸形状参数，输入至所述三维人脸数据生成模型，得到人脸三维点云数据；根据所述人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量，确定所述人脸三维点云数据对应的面部形变点云数据；基于所述面部形变点云数据构建用于表示面部几何纹理特征的三维高斯集，根据所述三维高斯集中至少一个三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像；对所述目标人脸图像与所述人脸样本数据的误差损失进行不断优化直至满足预设条件，以完成所述数字人合成模型的一次训练。

本发明还提供了一种数字人合成装置，包括：

模型训练模块，用于预先利用如前任一项所述数字人合成模型训练方法，训练得到数字人合成模型；

待处理数据获取模块，用于获取待处理人脸数据；

数字人合成模块，用于将所述待处理人脸数据，输入至所述数字人合成模型；根据所述数字人合成模型的输出，得到目标视角下的数字人。

本发明还提供了一种电子设备，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述数字人合成模型训练方法和/或所述数字人合成方法的步骤。

本发明最后还提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前任一项所述数字人合成模型训练方法和/或所述数字人合成方法的步骤。

本发明提供的技术方案的优点在于，基于三维人脸数据生成模型输出的人脸三维点云数据作为先验信息，通过形变映射可以确定人脸三维点在人脸面部表情和姿态随着时间动态变化过程中的变化情况，并利用灵活且富有表现力的三维高斯集作为面部几何特征表示，通过对三维高斯的渲染图像与原始图像的不断优化可以学习合成具备动态面部表情变化的高保真数字人，进而能够生成逼真的面部细节表情和几何纹理结构，能够更匹配于真实场景的宣传播报任务，并且生成的三维视觉表示更具有真实性与一致性，有效提升数字人的合成质量和表现效果。

此外，本发明还针对数字人合成模型训练方法提供了相应的数字人合成方法、实现装置、电子设备及可读存储介质，进一步使得所述方法更具有实用性，所述数字人合成方法、装置、电子设备及可读存储介质具有相应的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

为了更清楚的说明本发明或相关技术的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种数字人合成模型训练方法的流程示意图；

图2为本发明提供的一种数字人合成方法的流程示意图；

图3为本发明提供的数字人合成方法在一示例性应用场景的硬件框架示意图；

图4为本发明提供的另一种数字人合成方法的流程示意图；

图5为本发明提供的数字人合成模型训练装置的一种具体实施方式结构图；

图6为本发明提供的数字人合成装置的一种具体实施方式结构图；

图7为本发明提供的电子设备的一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。其中，说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及二者的任何变形，意图在于覆盖不排他的包含。术语“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

众所周知，数字人合成的目标是得到具备真实感和富有表现力的数字人，不仅需要实时同步嘴部动作和眼神交流等几何动态变化细节，还需要避免三维监督信息的缺失等，这就导致数字人合成属于欠约束的优化问题。

目前数字人合成技术可分为基于图像的模型，隐式模型和显式模型这三类。其中，基于图像的模型无需依赖任何三维空间中的表达，这种数字人合成方式可以采用一种变形场（Warping fields）来变换一幅图像以匹配新的姿势或表情，还可以采用编解码器结构实现，编码器从给定的源图像中提取标识码，解码器基于编码器提取的标识码和输入特征合成输出图像。尽管基于图像的模型来合成数字人可以合成高质量的结果，但是，在处理较大的姿势或者表情变化时，极易出现失真现象，而且由于三维表面的形变信息是从二维图片中获取的原因会导致缺少空间几何和时序上的一致性。另外，对于采用编码器结构的方式，解码器可能依赖于面部关键点，脸部轮廓等信息，如果面部关键点和脸部轮廓信息提取不精准，便会导致最终数字人合成精度较差。

为了解决上述方法存在缺少空间几何和时序上的一致性问题，可采用隐式模型进行数字人合成，其通常采用隐式表面函数如SDF（Signed distance functions，符号距离函数）或者体素表示法，将人的面部信息表示为离散的隐式特征体素网格以合成动态变换。此外，还可将NeRF（Neural radiance field，神经辐射场）和体素渲染相结合，利用面部模型的低维参数或者音频信号来合成数字发言人。尽管基于隐式模型来合成数字人的方法能在一定程度上解决空间几何和时序的一致性问题，但是该类方法受限于静态场景重建，且很难泛化到未出现过的表情或姿态上，实用性不好。另外，相关技术还基于显式模型进行数字人的合成，其采用显式三角网格特征表示法，从一系列三维头部扫描图中拟合构建显式形变模型，其用于提供面部形状、动作表情及几何纹理的统计信息。其中，显式形变模型的参数作为先验信息，用于从不完整（如部分遮挡）或者噪声数据（如深度图）中重建数字发言人的面部特征。此外，相关技术还采用GAN（Generative adversarial networks，生成式对抗网络）和二维神经渲染的方法来实现数字人的合成。上述这些方法可生成几何一致且易于编辑控制的数字人，但是，由于受限于颅部结构且无法合成头发信息，或者由于主干几何的松约束会导致时空不一致问题。

相关技术在数字人的合成过程中基于NeRFace（Dynamic Neural RadianceFields for Monocular 4D Facial Avatar Reconstruction，基于动态神经辐射场的数字人重建合成方案）合成新的表情和姿势。NeRFace方法将给定的自拍视频和不包含人脸的背景图片作为输入，采用3DMM（3D Morphable Models，三维形变模型）进行面部表情跟踪估计。最后根据估计的面部姿势和表情，利用体渲染方法合成面部的新视角和新表情。其中，视角射线上的采样点信息和可学习的帧隐码（也即Per-frame Learnable Codes）一起输入到动态神经辐射场中进行模型训练，并输出最终合成的颜色和密度。该方法依赖于背景是静态的，且每条射线上最后一个样本的颜色默认为背景色的对应值的前提条件。相关技术由于忽略了眼部的精细化建模，且神经辐射场的隐式体素表示方法使得模型训练和渲染效率较低，不仅无法在合成的数字人上体现眼部动作如眨眼，而且整个渲染过程比较缓慢，数字人生成效率较低。

相关技术基于NHA（Neural head Avatars，基于单目视频的数字人面部几何和外观建模方案），先采用可变形模型FLAME网络模型构建粗粒度的人脸形状和表情，也即基于实时人脸跟踪器来粗略估计FLAME网络模型中的低维形状，表情和姿势参数，然后再利用神经网络预测动态纹理和三维网格面（也即3D mesh），比如采用几何网络（GeometryNetwork）来修改FLAME网络模型生成的几何体网络（也即geometry mesh），再进行光栅化；然后采用纹理网络（也即Texture Network）来合成光栅化表面的网格面纹理；最后基于可微分优化方法来联合优化FLAME网络模型和神经网络的参数。该类方法对于出现较大视角翻转情况下，仍能够生成高纹理细节的头像，但是，当嘴部动作表情变化明显时，如嘴部的闭合张开等，最终合成的数字人可能会出现一定程度的失真问题。

由上可知，相关技术由于无法实时同步嘴部动作和眼神交流等几何动态变化细节，数字人不具备逼真的面部细节表情和几何纹理结构，最终无法生成具备动态面部表情变化的高保真数字人。鉴于此，本发明通过将人脸样本数据对应的相机信息、表情信息及人脸形状参数输入至三维人脸数据生成模型，得到人脸三维点云数据。根据人脸三维点随着人脸面部表情和姿态动态变化过程下的偏移量确定面部形变点云数据；基于面部形变点云数据构建用于表示面部几何纹理特征的三维高斯集，根据至少一个三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像；不断优化目标人脸图像与人脸样本数据的误差损失直至满足预设条件，利用优化后的目标人脸图像生成具备动态面部表情变化的高保真数字人，有效提升数字人的合成质量和表现效果。

在介绍了本发明的技术方案后，下面详细的说明本发明的各种非限制性实施方式。为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有这些具体细节，本发明同样可以实施。在另外一些实例中，对于所属领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

首先请参见图1，图1为本实施例提供的一种数字人合成模型训练方法的流程示意图，本实施例可包括以下内容：

S101：预先构建数字人合成模型。

在本实施例中，数字人为利用信息科学技术创造出来的与人类形象接近的数字化人物形象，其具有多重人类特征，包括但并不限制于外貌特征、人类表演能力、交互能力特征。本实施例的数字人合成模型用于生成具有动态面部表情变化的人物形象，换言之，数字人合成模型最终输出一具有面部表情的数字人的人脸。当然，本领域技术人员也可采用任何一种现有技术先生成一个三维人体，然后采用本发明技术方案所生成的具有面部表情的人脸替代该三维人体的人脸，从而得到一数字人。本实施例的数字人合成模型包括预先训练好的三维人脸数据生成模型，通过三维人脸数据生成模型输出的人脸三维点云数据能够构造出数字人的三维人脸。数字人合成模型通过下述步骤S103-S105可以渲染得到目标人脸图像，将该目标人脸图像与三维人脸通过特征点对应关系进行相匹配并进行结合，当前的三维人脸便可以具有相应的动态面部表情。当输入数字人合成模型的是多张连续图像，则会得到多个目标人脸图像，将各目标人脸图像分别与三维人脸相匹配结合便可使得最终的数字人能够具有动态面部表情变化，从而解决相关技术数字人的人脸动态表情变化不明显的问题。

S102：获取人脸样本数据，并将人脸样本数据输入至数字人合成模型。

本步骤中的人脸样本数据可为包含人脸的视频数据，如单目RGB（Red Green Bluecolor mode，红绿蓝色彩模式）人脸视频或者自拍人脸视频，也可为多张人脸图像数据，也即一人脸图像数据集，这均不影响本发明的实现。

S103：将人脸样本数据对应的相机信息、表情信息和人脸形状参数，输入至三维人脸数据生成模型，得到人脸三维点云数据。

相机信息为拍摄人脸样本数据对应的图像或视频采集设备的参数数据，表情信息是指人脸样本数据中的人脸的面部表情参数，其中，相机信息包括但并不限制于相机内参数、相机外参数和相机姿势参数也即位姿参数。人脸形状参数用于表示人脸形状或者是说人脸轮廓的数据，可利用几何特征提取方法对人脸样本数据中的人脸图像进行几何特征的提取和分析，从而得到一系列与人脸形状和轮廓相关的特征参数。当然，也可预先基于利用大量事先标注人脸形状的人脸图像对深度学习模型进行训练，得到人脸识别模型，利用该人脸识别模型对人脸样本数据中的人脸图像进行人脸识别，从而得到人脸形状参数，所属领域技术人员可根据实际需求灵活选择生成人脸形状参数的方法，本发明对此不作任何限定。三维人脸数据生成模型为可用于执行三维人脸识别并构建三维人脸的模型，其可输出三维人脸数据，本步骤的人脸三维点云数据即为三维人脸数据生成模型输出的三维人脸数据，该三维人脸数据能够表示出人脸形状和人脸姿势，所属领域技术人员可根据实际情况灵活选择能起到上述作用的三维人脸模型。

S104：根据人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量，确定人脸三维点云数据对应的面部形变点云数据。

在本步骤中，由于人的面部表情和姿态是随时间动态变化的，为了合成高精度三维人，需要学习到动态的人脸表情和姿势的变化，本步骤的人脸三维点云数据为标准场中的面部标准点，需要确定人脸三维点云数据的三维点随时间变化的变化信息，也即偏移量，为了便于后续计算，可将变化信息定义在一形变空间下进行表示，面部形变点云数据即为标准场下的三维点映射至形变空间的三维点的集合。

S105：基于面部形变点云数据构建用于表示面部几何纹理特征的三维高斯集，根据三维高斯集中至少一个三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像。

其中，由于面部表情的复杂多样和面部几何的形状变化，人脸三维重建和新视角合成为欠约束问题，为解决此问题，本步骤采用一种灵活且富有表现力的三维高斯集合来建模人脸面部的几何纹理特征，为更好地优化高斯参数集，以准确地表示面部几何纹理，本步骤将三维高斯投影映射至二维图像平面上，利用三维高斯集中的各三维高斯对二维空间中的像素点进行评价，最终得到二维空间中的人脸图像，该人脸图像即为对S101步骤的人脸样本数据进行重构的人脸图像，本步骤定义为目标人脸图像。

S106：对目标人脸图像与人脸样本数据的误差损失进行不断优化直至满足预设条件，以完成数字人合成模型的一次训练。

在本步骤中，误差损失是指目标人脸图像与人脸样本数据的差别或者是不一致程度或者是差距，通过对误差损失不断优化，降低目标人脸图像与人脸样本数据的差距，使得二者趋于相同。预设条件为预先设置的迭代截止条件，可基于误差损失小于预设阈值来设置该迭代条件，也可基于训练周期或训练时长来设置该迭代条件，这均不影响本申请的实现。利用S102获取的人脸样本数据对数字人合成模型进行一次训练，通过将渲染得到的目标人脸图像与人脸样本数据之间的差别优化至最小时，可以得到渲染得到目标人脸图像过程中所涉及到当前训练下的最优的模型参数。通过不断循环执行S102到S106，最终训练得到满足要求的数字人合成模型。

在本实施例提供的技术方案中，基于三维人脸数据生成模型输出的人脸三维点云数据作为先验信息，通过形变映射可以确定人脸三维点在人脸面部表情和姿态随着时间动态变化过程中的变化情况，并利用灵活且富有表现力的三维高斯集作为面部几何特征表示，通过对三维高斯的渲染图像与原始图像的不断优化可以学习合成具备动态面部表情变化的高保真数字人，进而能够生成逼真的面部细节表情和几何纹理结构，能够更匹配于真实场景的宣传播报任务，并且生成的三维视觉表示更具有真实性与一致性，有效提升数字人的合成质量和表现效果。

在上述实施例中，对于如何执行步骤S102并不做限定，本实施例中给出标准场的三维点映射至形变空间的一种示例性的实施方式，可包括如下步骤：

基于人脸面部表情和姿态是随时间动态变化的特性，确定人脸三维点云数据的三维点随时间变化的偏移量；基于各三维点的偏移量，利用预设三维重建算法，确定人脸三维点云数据的三维点映射至形变空间下的三维点，将形变空间的各三维点作为面部形变点云数据。

在本实施例中，预设三维重建算法可利用任何一种能够进行三维重建的方法，包括但并不限制于基于顶点的蒙皮模型、线性混合蒙皮、双四元数混合蒙皮及基于变形的模型。示例性的，考虑到精度和效率，本实施例可通过线性混合蒙皮映射来确定形变空间中的采样点与标准场也即标准空间的三维点之间的对应关系。本实施例可预先基于线性混合蒙皮方法构建面部形变模型，调用面部形变模型计算人脸三维点云数据的各三维点映射至形变空间下的三维点；面部形变模型可表示为；式中，x_d为形变空间的三维点，d表示形变空间，x_c为人脸三维点云数据的三维点，c表示人脸三维点云数据对应的标准空间，/>为偏移量，LBS(•)为线性混合蒙皮函数，J为联合回归函数，B₁为加性姿态函数，B₂为表情函数，/>为姿态，ε为表情混合基，/>为线性混合蒙皮函数的权重，θ表示加性姿态函数中的参数，ψ表示表情函数中的参数。

示例性的，为了提高三维重建精度，进而提高数字人合成精度，对于上述实施例中的偏移量的确定方式，本实施例还可基于全连接神经网络构建偏移量预测模型，获取人脸表情动态变化样本数据集，人脸表情动态变化样本数据集为偏移量预测模型的训练样本数据，其数据规模可根据实际需求进行灵活选择，每个训练样本数据携带标签，该标签标识了人脸表情随时间变化的偏移量。利用人脸表情动态变化样本数据集训练偏移量预测模型直至满足相应的模型迭代结束条件；将人脸三维点云数据输入至该训练好的偏移量预测模型，得到人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量。

上述实施例对如何获取人脸样本数据对应的相机信息和表情信息并不做任何限定，本发明还给出了人脸样本数据对应的相机信息和表情信息的多种示例性的获取方式，可包括下述内容：

获取预先构建好的面部表情细节捕捉和动画制作模型、面部关键点拟合模型；将人脸样本数据输入至面部表情细节捕捉和动画制作模型，得到相机参数、相机姿态参数和人脸面部表情参数；将人脸样本数据输入至面部关键点拟合模型，得到面部关键点参数；将相机参数和相机姿态参数作为相机信息，人脸面部表情参数和面部关键点参数作为表情信息输入至预先训练好的三维人脸数据生成模型。

在本实施例中，面部表情细节捕捉和动画制作模型（Detailed ExpressionCapture and Animation，DECA）为基于人工神经网络的三维人脸建模模型，其通过深度学习算法获取人脸的详细表情信息，并将其应用于虚拟角色的表达与动作中。DECA通过采集人类面部表情细节，能够捕捉并还原出面部的各种肌肉运动和微表情，对面部特征进行高效的编码与重构，实现高准确度的表情捕捉。当然，如果需要进行动画合成，DECA还能够将捕捉到的面部表情信息应用于虚拟角色中，使其能够以逼真的方式展现丰富的面部表情和动作。面部关键点拟合模型（也即Landmark fitting）先检测面部识别点，然后将识别点比对到三维人脸模型上。

可以理解的是，DECA尽管能得到相机参数和相机姿态参数，但是精度不高。为了提高后续数据处理精度，本实施例还可采用运动恢复结构（Structure from motion）来获取相机信息。运动恢复结构可通过分析图像序列，依次执行图像特征提取、估计场景的初始结和相机运动、优化估计的结果、标定相机、得到场景的稠密描述、推导场景的几何、纹理以及反射属性，得到相机参数并进行三维重建。本实施例可包括下述内容：

在本实施例中，可获取预先构建好的面部表情细节捕捉和动画制作模型、面部关键点拟合模型及运动恢复结构模型；将人脸样本数据输入至面部表情细节捕捉和动画制作模型，得到人脸面部表情参数；将人脸样本数据输入至面部关键点拟合模型，得到面部关键点参数；将人脸样本数据输入至运动恢复结构模型，得到相机参数和相机姿态参数；将相机参数和相机姿态参数作为相机信息，人脸面部表情参数和面部关键点参数作为表情信息输入至预先训练好的三维人脸数据生成模型。

上述实施例对人脸样本数据的类型和来源并不做任何限定，本发明还给出一种示例性的实施方式，在将人脸样本数据对应的相机信息、表情信息及人脸形状参数，输入至预先训练好的人脸通用模型之前，还可按照预设帧采样频率，获取具备动态面部表情变化的人脸视频，并将采集到的该人脸视频作为人脸样本数据。其中，预设帧采样频率为用户自定义且根据需求可实时改变，通过利用预设帧采样频率对现有含有人脸的任何一种视频数据中进行采样，便可得到作为人脸样本数据的人脸视频。举例来说，可按照25FPS采样BBC发言人视频所得到的人脸视频作为人脸样本数据。

上述实施例对三维人脸数据生成模型的类型并不做任何限定，本发明还给出一种示例性的实施方式，本实施例中的数字人合成模型的三维人脸数据生成模型为一预先训练好的面部统计模型，可将人脸样本数据对应的相机信息、表情信息及人脸形状参数输入至该面部统计模型。一个训练好的FLAME（Faces Learned with an Articulated Model andExpressions，面部统计模型）的输入是一个参数向量，可包括可用于分别控制人脸的身份特征、头部的旋转和平移、面部的表情变化的形状参数、姿势参数和表情参数。训练好的FLAME模型的输出为三维人脸网格，其由模板网格和混合形状函数相加并经过皮肤函数变换得到，可以用来表示不同的人脸形状和姿势，也可以用来拟合三维扫描数据或二维图像数据，具有好的人脸表示效果，有利于提升数字人合成精度。

上述实施例对如何基于三维高斯集渲染得到二维空间的目标人脸图像并不做任何限定，为更好地优化高斯参数集，以准确地表示面部几何纹理，本实施例通过可微分的形式将三维高斯投影映射到二维图像平面上，可包括下述内容：

将面部形变点云数据中的三维点作为三维高斯点，并利用协方差矩阵和均值表示三维高斯集的三维高斯，以构建三维高斯集；根据面部形变点云数据中的三维点对应的三维位置信息、不透明度值、协方差矩阵和均值，计算至少一个三维高斯的三维空间影响值；基于至少一个三维空间影响值，通过将三维高斯投影映射至二维图像平面的方式，确定相应三维高斯的二维空间影响值；根据至少一个二维空间影响值计算二维图像平面内的像素点的颜色值，以根据各像素点的颜色值得到目标人脸图像。

本实施例中，在世界坐标系下，每个三维高斯均可由协方差矩阵和均值来确定表示，三维高斯的参数包括但并不限制于三维位置信息，不透明度，各向异性协方差和球谐系数。三维空间影响值为每个三维高斯对于局部区域空间的影响值大小，在计算之前可对三维高斯数据集进行初始化处理，初始化流程可为：获取目标稀疏点云数据；利用目标稀疏点云数据对三维高斯集的各三维高斯的参数进行初始化。在得到三维空间影响值之后，由于三维高斯用于最终渲染的颜色合成的加权值，故为了计算二维图像平面的每个像素点的颜色值，需要将三维空间影响值映射至二维图像平面，当确定二维图像平面内的像素点的颜色值，每个三维高斯的位置可通过梯度流来进行优化，以便于移动到正确的区域，当位置和数值确定之后，便可以得到目标人脸图像。

作为一种更加简单便捷的实施方式，可预先在本地存储三维空间影响值计算关系式，然后通过调用三维空间影响值计算关系式计算至少一个三维高斯的三维空间影响值；三维空间影响值计算关系式可表示为：

；

式中，f _i,t(p)为三维高斯集内的第i个三维高斯在t时刻的三维空间影响值，p表示三维高斯，o _i为第i个三维高斯的不透明度值，sigm(•)为sigmoid函数，x_d为形变空间的三维点，d表示形变空间，T表示转置，μ _i,t为第i个三维高斯在t时刻的均值，∑ _i,t为第i个三维高斯在t时刻的协方差矩阵，其可通过调用关系式计算得到，/>为尺度因子，/>为旋转因子。

上述实施例对如何得到二维空间影响值并不做任何限定，本发明还给出由三维空间影响值确定二维空间影响值的一种示例性的实施方式，可包括下述内容：

根据相机信息得到相机外参数和相机内参数，根据相机外参数和相机内参数将至少一个三维高斯的均值映射至二维图像平面，得到至少一个二维均值；根据相机外参数和点投影变换信息将相应三维高斯的协方差矩阵映射至二维图像平面，得到相应的二维协方差矩阵；基于三维空间影响值计算关系式、至少一个二维均值和对应的二维协方差矩阵，计算相应三维高斯的二维空间影响值。

在上述实施例的S101获取相机信息之后，可以从相机信息中读取相机外参数和相机内参数，由于本实施例的每个三维高斯可有均值和协方差矩阵表示，基于相机的内外参数结合点投影变换分别将三维高斯的均值和协方差矩阵从三维空间映射至二维空间之后，便实现将三维空间影响值映射至二维空间影响值，将二维空间的均值和协方差矩阵代替三维空间的均值和协方差矩阵，将其代入三维空间影响值计算关系式便可得到二维空间影响值。

作为一种高效便捷的实现方式，本实施例可预先在本地存储一均值映射关系式和一协方差矩阵映射关系式，通过调用均值映射关系式计算至少一个三维高斯的二维均值；均值映射关系式可表示为：

；

通过调用协方差矩阵映射关系式计算相应三维高斯的二维协方差矩阵；协方差矩阵映射关系式可表示为：

；

在本发明中，通过三维高斯对二维图像平面的像素点的影响来渲染得到二维图像，上述实施例对如何计算二维图像平面内的像素点的颜色值并不做任何限定，基于上述实施例，本发明还提供了二维图像平面内的像素点的颜色值的一种示例性的计算方式，可包括下述内容：

将各三维高斯按照对应的二维空间影响值进行排序，确定每个三维高斯的高斯影响值组；对各三维高斯，根据通过对当前三维高斯的高斯影响值组内的各目标三维高斯进行加权计算，得到当前三维高斯对二维图像平面内的各像素点的颜色值。

在本实施例中，三维高斯集中的所有三维高斯对二维图像平面的像素点的影响可通过将按照深度排序后的高斯以从前到后的方式加权计算出来，为了便于描述，本实施例定义一高斯影响值组，高斯影响值组为由当前三维高斯之前的所有三维高斯组合而成，每个三维高斯对二维图像平面的像素点的颜色值的计算，可由二维空间下该三维高斯的影响值和排在该高斯前边的高斯影响值组合而成的透明度值相乘加权。作为一种高效便捷的实现方式，本实施例可预先在本地存储一颜色计算关系式，通过调用颜色计算关系式计算二维图像平面内的像素点的颜色值，颜色计算关系式可表示为：；

式中，C _pix为二维图像平面内的像素点的颜色值，为三维高斯集表示的面部场景，c _i为第i个三维高斯的颜色，/>为第i个三维高斯对应的二维空间影响值，j表示第i个三维高斯的高斯影响值组中的第j个目标三维高斯。

上述实施例对如何进行优化并不做任何限定，本发明还给出对目标人脸图像与人脸样本数据的误差损失进行不断优化的一种实现方式，可包括下述内容：

计算目标人脸图像和人脸样本数据的重构损失函数；以重构损失函数为目标，基于误差最小化进行参数优化训练，并在参数优化过程中，通过自适应密度控制算法交替优化三维高斯集中各三维高斯的参数。

为了提高控制精度和可靠性，提高图像处理的准确性和可靠性，本实施例利用自适应密度控制算法控制优化过程，自适应密度控制算法也即为基于三维高斯密度控制的自适应阈值算法，其为针对密度不均匀的图像设计的自适应阈值算法，其可通过对像素密度进行分析确定不同区域的阈值。将目标人脸图像和人脸样本数据分为若干个子区域，然后根据子区域中像素点自适应确定每个子区域的阈值，能够有效地处理不同密度区域的灰度差异，通过自适应密度控制算法来交替优化三维高斯的参数包括三维位置信息，不透明度，各向异性协方差和球谐系数。在优化过程中，通过不断添加和移除三维高斯来生成一个较为紧凑和精确的面部几何纹理表示，解决数字人合成质量不够高的问题，有效提升数字人三维视觉表示的流畅性和真实性。

为了进一步提高数字人合成精度，本发明基于这种Huber函数这种鲁棒性更高的损失函数来重构损失函数，在渲染得出新视角的目标人脸图像后，可与对应的原始人脸样本数据分别输入到Huber函数中，可计算得出基于Huber的图片重构损失函数，在计算得出损失函数后，即可采用常见的随机梯度下降法进行基于误差最小化的参数优化训练。一种更加简单便捷的方式，可预先在本地存储重构损失函数计算关系式，当使用损失函数时，可通过调用重构损失函数计算关系式计算目标人脸图像和人脸样本数据的重构损失函数；重构损失函数计算关系式可表示：

；

式中，表示重构损失函数，I ^new为目标人脸图像，I ^orig为人脸样本数据，δ为加权因子，用于调节损失函数的影响程度大小。

另外，本发明基于上述实施例还提供了可直接使用至实际应用场景的数字人合成方式，实际应用场景包括但并不限制于虚拟主播、影视传媒、视频游戏、数字内容生成，请参阅图2，可包括下述内容：

S201：预先训练得到数字人合成模型。

本步骤可利用如前任意一个数字人合成模型训练方法的实施例所记载的数字人合成模型训练方法的步骤，基于现有的任何一人脸图像数据集，如BBC短视频数据集中人物演讲视频作为训练样本和测试样本，训练得到数字人合成模型。

S202：获取待处理人脸数据。

S203：将待处理人脸数据，输入至数字人合成模型。

本实施例的数字人合成模型可基于神经辐射场技术框架，将面部形变映射建模和三维高斯渲染相融合，对待处理人脸数据进行数字人合成处理，可有效地提升数字人的表现力。

S204：根据数字人合成模型的输出，得到目标视角下的数字人。

由上可知，本实施例可以生成具备动态面部表情变化的高保真数字人，有效提升数字人的合成质量和表现效果，进一步提高了模型的泛化性能和渲染效率，兼顾了三维视觉特征表示的泛化性与有效性。该方法对商业主播、动画制作，视频游戏等相关领域研究等具有重要科学意义及潜在应用价值。

需要说明的是，本发明中各步骤之间没有严格的先后执行顺序，只要符合逻辑上的顺序，则这些步骤可以同时执行，也可按照某种预设顺序执行，图1-图2只是一种示意方式，并不代表只能是这样的执行顺序。

进一步，基于上述本发明的技术方案，下面结合图3对本发明的技术方案涉及的一些可能的应用场景进行举例介绍，图3为本发明提供的一种数字人合成方法所适用的硬件组成框架示意图，可包括下述内容：

该硬件组成框架可以包括第一电子设备31和第二电子设备32，第一电子设备31和第二电子设备32之间通过网络33连接。第一电子设备31部署用于执行上述任意一实施例所记载的数字合成人方法的处理器，第一电子设备31例如可为一服务器，第二电子设备32部署用于提供人机交互界面的用户端。

基于上述本申请的技术方案，本发明实施例的应用场景之一，可以通过第二电子设备32与用户之间的交互来实现，在这一应用场景中，用户通过用户端可发送待处理人脸数据、数字人合成模型的训练样本数据集以及下发人机交互指令，第一电子设备31通过执行相应的指令按照图4所示方式完成上述实施例所记载的数字人合成方法中的全部或部分步骤。其中，人机交互指令可以包括命令执行或下发请求或访问信息，访问请求可以是通过第二电子设备32与第一电子设备31之间进行交互来进行访问第一电子设备31上的信息，或者，是用于直接访问第二电子设备32自身的信息，本实施例对此不做限定。

需要注意的是，上述应用场景仅是为了便于理解本发明的思想和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

由上可知，本实施例可以生成具备动态面部表情变化的高保真数字人，有效提升数字人的合成质量和表现效果。

本发明还针对数字人合成模型训练方法提供了相应的装置，进一步使得方法更具有实用性。其中，装置可从功能模块的角度和硬件的角度分别说明。下面对本发明提供的数字人合成装置进行介绍，该装置用以实现本发明提供的数字人合成模型训练方法，在本实施例中，数字人合成模型训练装置可以包括或被分割成一个或多个程序模块，该一个或多个程序模块被存储在存储介质中，并由一个或多个处理器所执行，已完成实施例一公开的数字人合成模型训练方法。本实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述数字人合成模型训练装置在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能，下文描述的数字人合成模型训练装置与上文描述的数字人合成模型训练方法可相互对应参照。

基于功能模块的角度，请先参见图5，图5为本实施例提供的数字人合成模型训练装置在一种具体实施方式下的结构图，该装置可包括：

模型框架搭建模块501，用于预先构建数字人合成模型；所述数字人合成模型包括预先训练好的三维人脸数据生成模型。

样本数据获取模块502，用于获取人脸样本数据，并将所述人脸样本数据输入至所述数字人合成模型；

模型训练模块503可包括三维人脸数据获取单元、形变单元、渲染单元和优化单元，其中：

三维人脸数据获取单元，用于将获取的人脸样本数据对应的相机信息、表情信息和人脸形状参数，输入至三维人脸数据生成模型，得到人脸三维点云数据；

形变单元，用于根据人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量，确定人脸三维点云数据对应的面部形变点云数据；

渲染单元，用于基于面部形变点云数据构建用于表示面部几何纹理特征的三维高斯集，根据三维高斯集中至少一个三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像；

优化单元，用于对目标人脸图像与人脸样本数据的误差损失进行不断优化直至满足预设条件，以完成所述数字人合成模型的一次训练。

示例性的，在本实施例的一些实施方式中，上述形变单元还可用于：

作为上述实施例的一种示例性的实施方式，上述形变单元还可用于：

预先基于线性混合蒙皮方法构建面部形变模型，面部形变模型为：

；

调用面部形变模型，计算人脸三维点云数据的各三维点映射至形变空间下的三维点；

作为上述实施例的另一种示例性的实施方式，上述形变单元还可用于：

预先基于全连接神经网络构建偏移量预测模型，并利用人脸表情动态变化样本数据集训练偏移量预测模型；将人脸三维点云数据输入至偏移量预测模型，得到人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量。

示例性的，在本实施例的另一些实施方式中，上述实施例中的三维人脸数据获取单元还可用于：

获取预先构建好的面部表情细节捕捉和动画制作模型、面部关键点拟合模型；将人脸样本数据输入至面部表情细节捕捉和动画制作模型，得到相机参数、相机姿态参数和人脸面部表情参数；将人脸样本数据输入至面部关键点拟合模型，得到面部关键点参数；将相机参数和相机姿态参数作为相机信息，人脸面部表情参数和面部关键点参数作为表情信息输入至三维人脸数据生成模型。

与上述实施例作为一种并列的实施方式，上述三维人脸数据获取单元还可用于：

获取预先构建好的面部表情细节捕捉和动画制作模型、面部关键点拟合模型及运动恢复结构模型；将人脸样本数据输入至面部表情细节捕捉和动画制作模型，得到人脸面部表情参数；将人脸样本数据输入至面部关键点拟合模型，得到面部关键点参数；将人脸样本数据输入至运动恢复结构模型，得到相机参数和相机姿态参数；将相机参数和相机姿态参数作为相机信息，人脸面部表情参数和面部关键点参数作为表情信息输入至三维人脸数据生成模型。

示例性的，在本实施例的再一些实施方式中，上述实施例中的三维人脸数据获取单元还可用于：

按照预设帧采样频率，获取具备动态面部表情变化的人脸视频；将人脸视频作为人脸样本数据。

示例性的，在本实施例的再一些实施方式中，上述三维人脸数据获取单元还可进一步用于：

上述数字人合成模型包括预先训练好的面部统计模型，输入至面部统计模型。

示例性的，在本实施例的再一些实施方式中，上述渲染单元还可用于：

作为上述实施例的一种示例性的实施方式，上述渲染单元还可用于：

获取目标稀疏点云数据；利用目标稀疏点云数据对三维高斯集的各三维高斯的参数进行初始化。

作为上述实施例的另一种示例性的实施方式，上述渲染单元还可用于：

调用三维空间影响值计算关系式计算至少一个三维高斯的三维空间影响值；三维空间影响值计算关系式为：

；

作为上述实施例的再一种示例性的实施方式，上述渲染单元还可用于：

调用均值映射关系式，计算至少一个三维高斯的二维均值；均值映射关系式为：

调用协方差矩阵映射关系式，计算相应三维高斯的二维协方差矩阵；协方差矩阵映射关系式为：

；

将各三维高斯按照对应的二维空间影响值进行排序，确定每个三维高斯的高斯影响值组；高斯影响值组为由当前三维高斯之前的所有三维高斯组合而成；对各三维高斯，根据通过对当前三维高斯的高斯影响值组内的各目标三维高斯进行加权计算，得到当前三维高斯对二维图像平面内的各像素点的颜色值。

调用颜色计算关系式计算二维图像平面内的像素点的颜色值，颜色计算关系式为：

；

示例性的，作为本实施例的一种实施方式，上述优化单元还可用于：

作为上述实施例的一种示例性的实施方式，上述优化单元还可用于：

调用重构损失函数计算关系式，计算目标人脸图像和人脸样本数据的重构损失函数；重构损失函数计算关系式为：

；

基于功能模块的角度，请参见图6，图6为本实施例提供的数字人合成装置在一种具体实施方式下的结构图，该装置还可包括：

模型训练模块601，用于预先训练得到数字人合成模型；

待处理数据获取模块602，用于获取待处理人脸数据；

数字人合成模块603，用于将待处理人脸数据，输入至数字人合成模型；根据数字人合成模型的输出，得到目标视角下的数字人。

本实施例数字人合成装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

上文中提到的数字人合成装置和数字人合成模型训练装置是从功能模块的角度描述，进一步的，本发明还提供一种电子设备，是从硬件角度描述。图7为本发明实施例提供的电子设备在一种实施方式下的结构示意图。如图7所示，该电子设备包括存储器70，用于存储计算机程序；处理器71，用于执行计算机程序时实现如上述任一实施例提到的数字人合成方法和/或数字人合成模型训练方法的步骤。

其中，处理器71可以包括一个或多个处理核心，比如4核心处理器、8核心处理器，处理器71还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器71可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable GateArray，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器71也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器71可以集成有GPU(Graphics Processing Unit，图形处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器71还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器70可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器70还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。存储器70在一些实施例中可以是电子设备的内部存储单元，例如服务器的硬盘。存储器70在另一些实施例中也可以是电子设备的外部存储设备，例如服务器上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（SecureDigital，SD）卡，闪存卡（Flash Card）等。进一步地，存储器70还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器70不仅可以用于存储安装于电子设备的应用软件及各类数据，例如：执行数字人合成方法和/或数字人合成模型训练方法过程中的程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中，存储器70至少用于存储以下计算机程序701，其中，该计算机程序被处理器71加载并执行之后，能够实现前述任一实施例公开的数字人合成方法和/或数字人合成模型训练方法的相关步骤。另外，存储器70所存储的资源还可以包括操作系统702和数据703等，存储方式可以是短暂存储或者永久存储。其中，操作系统702可以包括Windows、Unix、Linux等。数据703可以包括但不限于数字人合成结果和/或数字人合成模型训练模型等对应的数据等。

在一些实施例中，上述电子设备还可包括有显示屏72、输入输出接口73、通信接口74或者称为网络接口、电源75以及通信总线76。其中，显示屏72、输入输出接口73比如键盘（Keyboard）属于用户接口，示例性的用户接口还可以包括标准的有线接口、无线接口等。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口74示例性的可以包括有线接口和/或无线接口，如WI-FI接口、蓝牙接口等，通常用于在电子设备与其他电子设备之间建立通信连接。通信总线76可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extendedindustry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域技术人员可以理解，图7中示出的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的组件，例如还可包括实现各类功能的传感器77。

本实施例所述电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

可以理解的是，如果上述实施例中的数字人合成模型训练方法和/或数字人合成方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（RandomAccess Memory，RAM）、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器（例如SD或DX存储器等）、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

基于此，本发明还提供了一种可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时如上任意一实施例所述数字人合成模型训练方法和/或数字人合成方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上对本发明所提供的一种数字人合成及其模型训练方法、装置、电子设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，基于本发明中的实施例，对于本技术领域的普通技术人员来说，在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种数字人合成模型训练方法，其特征在于，包括：

所述数字人合成模型将所述人脸样本数据对应的相机信息、表情信息和人脸形状参数，输入至所述三维人脸数据生成模型，得到人脸三维点云数据；根据所述人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量，确定所述人脸三维点云数据对应的面部形变点云数据；基于所述面部形变点云数据构建用于表示面部几何纹理特征的三维高斯集，根据所述三维高斯集中至少一个三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像；对所述目标人脸图像与所述人脸样本数据的误差损失进行不断优化直至满足预设条件，以完成所述数字人合成模型的一次训练；

其中，所述基于所述面部形变点云数据构建用于表示面部几何纹理特征的三维高斯集，根据所述三维高斯集中至少一个三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像，包括：

通过将面部形变点云数据中的三维点作为三维高斯点，并利用协方差矩阵和均值表示三维高斯集的三维高斯，以构建三维高斯集，通过可微分的形式将三维高斯投影映射到二维图像平面的方式，确定相应三维高斯的二维空间影响值；根据至少一个二维空间影响值计算二维图像平面内的像素点的颜色值，以根据各像素点的颜色值得到目标人脸图像。

2.根据权利要求1所述的数字人合成模型训练方法，其特征在于，所述根据所述人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量，确定所述人脸三维点云数据对应的面部形变点云数据，包括：

3.根据权利要求2所述的数字人合成模型训练方法，其特征在于，所述基于各三维点的偏移量，利用预设三维重建算法，确定所述人脸三维点云数据的三维点映射至形变空间下的三维点，包括：

预先基于线性混合蒙皮方法构建面部形变模型，所述面部形变模型为：；

4.根据权利要求1所述的数字人合成模型训练方法，其特征在于，所述根据所述人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量之前，还包括：

5.根据权利要求1所述的数字人合成模型训练方法，其特征在于，所述将所述人脸样本数据对应的相机信息、表情信息和人脸形状参数，输入至所述三维人脸数据生成模型，包括：

将所述相机参数和所述相机姿态参数作为相机信息，所述人脸面部表情参数和所述面部关键点参数作为表情信息输入至所述三维人脸数据生成模型。

6.根据权利要求1所述的数字人合成模型训练方法，其特征在于，所述将所述人脸样本数据对应的相机信息、表情信息和人脸形状参数，输入至所述三维人脸数据生成模型，包括：

将所述相机参数和所述相机姿态参数作为相机信息，所述人脸面部表情参数和所述面部关键点参数作为表情信息输入所述三维人脸数据生成模型。

7.根据权利要求1所述的数字人合成模型训练方法，其特征在于，所述获取人脸样本数据，包括：

将所述人脸视频作为人脸样本数据。

8.根据权利要求1所述的数字人合成模型训练方法，其特征在于，所述输入至所述三维人脸数据生成模型，包括：

9.根据权利要求1至8任意一项所述的数字人合成模型训练方法，其特征在于，所述基于所述面部形变点云数据构建用于表示面部几何纹理特征的三维高斯集，根据所述三维高斯集中至少一个三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像，包括：

10.根据权利要求9所述的数字人合成模型训练方法，其特征在于，所述利用协方差矩阵和均值表示所述三维高斯集的三维高斯之后，还包括：

获取目标稀疏点云数据；

11.根据权利要求9所述的数字人合成模型训练方法，其特征在于，所述根据所述面部形变点云数据中的三维点对应的三维位置信息、不透明度值、协方差矩阵和均值，计算至少一个三维高斯的三维空间影响值，包括：

；

12.根据权利要求11所述的数字人合成模型训练方法，其特征在于，所述基于至少一个三维空间影响值，通过将三维高斯投影映射至二维图像平面的方式，确定相应三维高斯的二维空间影响值，包括：

13.根据权利要求12所述的数字人合成模型训练方法，其特征在于，所述根据所述相机外参数和所述相机内参数将至少一个三维高斯的均值映射至二维图像平面，包括：

；

14.根据权利要求13所述的数字人合成模型训练方法，其特征在于，所述根据所述相机外参数和点投影变换信息将相应三维高斯的协方差矩阵映射至二维图像平面，包括：

；

15.根据权利要求9所述的数字人合成模型训练方法，其特征在于，二维空间影响值为多个，所述根据至少一个二维空间影响值计算所述二维图像平面内的像素点的颜色值，包括：

16.根据权利要求15所述的数字人合成模型训练方法，其特征在于，所述根据通过对当前三维高斯的高斯影响值组内的各目标三维高斯进行加权计算，得到所述当前三维高斯对所述二维图像平面内的各像素点的颜色值，包括：

；

17.根据权利要求1至8任意一项所述的数字人合成模型训练方法，其特征在于，所述对所述目标人脸图像与所述人脸样本数据的误差损失进行不断优化直至满足预设条件，包括：

18.根据权利要求17所述的数字人合成模型训练方法，其特征在于，所述计算所述目标人脸图像和所述人脸样本数据的重构损失函数，包括：

；

19.一种数字人合成方法，其特征在于，包括：

预先利用如权利要求1至18任一项所述数字人合成模型训练方法，训练得到数字人合成模型；

获取待处理人脸数据；

将所述待处理人脸数据，输入至所述数字人合成模型；

20.一种数字人合成模型训练装置，其特征在于，包括：

模型训练模块，用于将所述人脸样本数据对应的相机信息、表情信息和人脸形状参数，输入至所述三维人脸数据生成模型，得到人脸三维点云数据；根据所述人脸三维点云数据的三维点在人脸面部表情和姿态随时间动态变化过程下的偏移量，确定所述人脸三维点云数据对应的面部形变点云数据；基于所述面部形变点云数据构建用于表示面部几何纹理特征的三维高斯集，根据所述三维高斯集中至少一个三维高斯对二维空间像素点的影响程度渲染得到目标人脸图像；对所述目标人脸图像与所述人脸样本数据的误差损失进行不断优化直至满足预设条件，以完成所述数字人合成模型的一次训练；其中，通过将面部形变点云数据中的三维点作为三维高斯点，并利用协方差矩阵和均值表示三维高斯集的三维高斯，以构建三维高斯集，通过可微分的形式将三维高斯投影映射到二维图像平面的方式，确定相应三维高斯的二维空间影响值；根据至少一个二维空间影响值计算二维图像平面内的像素点的颜色值，以根据各像素点的颜色值得到目标人脸图像。

21.一种数字人合成装置，其特征在于，包括：

模型训练模块，用于预先利用如权利要求1至18任一项所述数字人合成模型训练方法，训练得到数字人合成模型；

待处理数据获取模块，用于获取待处理人脸数据；

22.一种电子设备，其特征在于，包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至18任一项所述的数字人合成模型训练方法和/或如权利要求19所述的数字人合成方法的步骤。

23.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至18任一项所述的数字人合成模型训练方法和/或如权利要求19所述的数字人合成方法的步骤。