CN116993948B

CN116993948B - 一种人脸三维重建方法、系统及智能终端

Info

Publication number: CN116993948B
Application number: CN202311249686.3A
Authority: CN
Inventors: 章天珂; 林丽健; 刘云飞; 李昱; 周昌印; 余飞; 幺宝刚
Original assignee: Hangzhou Gaishi Technology Co ltd; International Digital Economy Academy IDEA
Current assignee: Hangzhou Gaishi Technology Co ltd; International Digital Economy Academy IDEA
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2024-03-26
Anticipated expiration: 2043-09-26
Also published as: CN116993948A

Abstract

本发明公开了一种人脸三维重建方法、系统及智能终端，所述方法包括：从目标数据中提取至少一张面部图像；对所述面部图像进行切片和位置编码，获得图像token序列；基于自注意力机制，提取所述图像token序列中与三维人脸重建相关的人脸参数特征，获得第一人脸参数token序列；对所述第一人脸参数token序列进行解码，获得人脸三维重建参数；对所述人脸三维重建参数进行三维渲染，获得与所述面部图像对应的三维人脸模型。能够精细捕捉人脸的基本形状以及丰富的表情细节，显著提升人脸三维重建的准确度以及细节还原能力。

Description

一种人脸三维重建方法、系统及智能终端

技术领域

本发明涉及虚拟现实与计算机视觉领域，尤其涉及的是一种人脸三维重建方法、系统及智能终端。

背景技术

人脸三维模型已广泛应用于头部姿态估计、三维数字人创建、游戏或动画角色面部动作捕捉、AR/VR等应用场景中，而直接获取人脸三维数据的成本高昂，因此常通过二维图片进行人脸三维重建。

目前人脸三维重建时，常根据预先定义的3DMM(一种基础的人脸3D形变统计模型)，如：Deep3dFaceRecon、DECA和MICA，通过模型拟合的方式来得到人脸对应的3DMM参数。然而，Deep3dFaceRecon 和DECA都是基于二维图片采用弱监督的方式来估计三维人脸参数，在训练的过程中缺少直接的三维监督信号，导致难以准确捕捉细致精确的三维人脸结构信息；MICA将人脸识别模型引入人脸特征提取过程中，来排除在人脸形状建模过程中由于表情、姿态、光线等因素导致的误差问题，导致了只能对人脸的基础形状信息进行建模，缺乏了人脸表情、姿态等细节信息。

因此，现有技术获得的三维人脸模型不够细致和精确。

发明内容

本发明的主要目的在于提供一种人脸三维重建方法、系统、智能终端及计算机存储介质，能够解决目前获得的三维人脸模型不够细致和精确的问题。

为了实现上述目的，本发明第一方面提供一种人脸三维重建方法，所述方法包括：

响应于选取的用于人脸三维重建的目标数据，从所述目标数据中提取至少一张面部图像；

对所述面部图像进行切片和位置编码，获得图像token序列；

基于自注意力机制，提取所述图像token序列中与人脸三维重建相关的人脸参数特征，获得第一人脸参数token序列；

对所述第一人脸参数token序列进行解码，获得人脸三维重建参数；

对所述人脸三维重建参数进行三维渲染，获得与所述面部图像对应的三维人脸模型。

可选的，所述基于自注意力机制，提取所述图像token序列中与人脸三维重建相关的人脸参数特征，获得第一人脸参数token序列，包括：

基于预设的人脸参数，在所述图像token序列的头部添加每个所述人脸参数对应的token；

将更新后的图像token序列输入自注意力模型；

在所述自注意力模型中提取所述人脸参数特征，获得所述第一人脸参数token序列。

可选的，当从所述目标数据中提取到不同时序的多张面部图像，获得若干所述第一人脸参数token序列时，依次对每张面部图像对应的所述第一人脸参数token序列进行平滑处理，并根据平滑结果更新所述第一人脸参数token序列。

可选的，对目标面部图像对应的所述第一人脸参数token序列进行平滑处理，并根据平滑结果更新所述第一人脸参数token序列，包括：

基于所述目标面部图像，获取若干与所述目标面部图像相邻的面部图像的第二人脸参数token序列；

融合所述第一人脸参数token序列和所述第二人脸参数token序列，根据融合结果更新所述第一人脸参数token序列。

可选的，所述融合所述第一人脸参数token序列和所述第二人脸参数token序列，根据融合结果更新所述第一人脸参数token序列，包括：

拼接所述第一人脸参数token序列和所述第二人脸参数token序列，获得拼接结果；

将所述第一人脸参数token序列映射为查询向量；

将所述拼接结果分别映射为键向量和值向量；

基于所述查询向量、所述键向量和所述值向量，计算点积注意力，获得融合结果，根据所述融合结果更新所述第一人脸参数token序列。

可选的，分别采用一个全连接网络将所述第一人脸参数token序列映射为查询向量、将所述拼接结果映射为键向量以及将所述拼接结果映射为值向量。

可选的，基于自注意力机制构建了用于实现人脸参数特征提取功能的人脸参数估计网络，训练人脸参数估计网络时，计算损失值，包括：

将所述三维人脸模型投影至图像坐标系，获得投影图像，计算所述投影图像与所述面部图像之间的距离，获得第一损失值；

当已对所述面部图像对应的人脸进行了三维扫描，获得扫描数据时，计算所述三维人脸模型与所述扫描数据之间的距离，获得第二损失值；

根据所述第一损失值和所述第二损失值，获得所述损失值。

通过将二维弱监督和三维强监督相结合，利用大量的二维数据来弥补三维数据匮乏的问题，提高泛化性能，能准确地对各种不同条件下的人脸进行建模。

可选的，所述计算所述投影图像与所述面部图像之间的距离，获得第一损失值，包括：

依次根据图像像素、人脸关键点、眼部关键点以及嘴部关键点计算所述投影图像与所述面部图像之间的距离，分别获得图像损失值、人脸损失值、眼部损失值和嘴部损失值；

对所述图像损失值、所述人脸损失值、所述眼部损失值和所述嘴部损失值进行加权求和，获得所述第一损失值。

本发明第二方面提供一种人脸三维重建系统，其中，上述系统包括：人脸三维参数生成网络和渲染模块，所述人脸三维参数生成网络用于根据选取的用于人脸三维重建的目标数据生成人脸三维重建参数；所述渲染模块用于对所述人脸三维重建参数进行三维渲染，获得三维人脸模型；所述人脸三维参数生成网络包括数据提取层、图像token层、视觉自注意力模型和解码模型；

所述数据提取层用于从所述目标数据中提取至少一张面部图像；

所述图像token层用于对所述面部图像进行切片和位置编码，获得图像token序列；

所述视觉自注意力模型，用于基于自注意力机制，提取所述图像token序列中与人脸三维重建相关的人脸参数特征，获得第一人脸参数token序列；

所述解码模型用于对所述第一人脸参数token序列进行解码，获得人脸三维重建参数。

可选的，所述人脸三维参数生成网络还包括时序自注意力聚合模型，所述时序自注意力聚合模型用于当从所述目标数据中提取到不同时序的多张面部图像，获得若干所述第一人脸参数token序列时，依次对每张面部图像对应的所述第一人脸参数token序列进行平滑处理以减少相邻的第一人脸参数token序列之间的波动程度，并根据平滑结果更新所述第一人脸参数token序列。

通过时序自注意力聚合模型实现了视频帧之间的时序建模，有效融合了视频中多帧的人脸信息，提升了视频人脸建模的稳定性与可靠性。

本发明第三方面提供一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的人脸三维重建程序，上述人脸三维重建程序被上述处理器执行时实现任意一项上述人脸三维重建方法的步骤。

本发明第四方面提供一种计算机可读存储介质，上述计算机可读存储介质上存储有人脸三维重建程序，上述人脸三维重建程序被处理器执行时实现任意一项上述人脸三维重建方法的步骤。

由上可见，本发明通过提取面部图像，对面部图像进行切片和位置编码后，再基于自注意力机制来提取目标数据中与人脸三维重建相关的人脸参数特征，

再进行解码，获得人脸三维重建参数后进行三维渲染，获得三维人脸模型。能够精细捕捉人脸的基本形状以及丰富的表情细节，显著提升人脸三维重建的准确度以及细节还原能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的人脸三维重建方法流程示意图；

图2是图1实施例中平滑处理流程示意图；

图3是本发明实施例提供的人脸三维重建系统的结构示意图；

图4是本发明实施例提供的量化指标对比示意图；

图5是本发明实施例提供的视频场景下人脸三维重建的稳定性对比图；

图6是本发明实施例提供的一种智能终端的内部结构原理框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似的，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。

下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

目前人脸三维重建时，主要有两种方式，方式一：直接根据图片回归人脸的体素、定点坐标、网格等三维几何结构，需要依据三维数据进行监督训练，而获取三维数据的成本高昂，并且，只是建模了人脸的基础形状信息，缺乏表情等细节信息；方式二、根据预先定义的三维人脸参数模型，如：Deep3dFaceRecon、DECA和MICA，通过模型拟合的方式来得到人脸对应的3DMM参数，然而，Deep3dFaceRecon 和DECA都是基于二维图片采用弱监督的方式来估计三维人脸参数，在训练的过程中缺少直接的三维监督信号，导致难以准确捕捉细致精确的三维人脸结构信息； MICA将人脸识别模型引入人脸特征提取过程中，来排除在人脸形状建模过程中由于表情、姿态、光线等因素导致的误差问题，导致了只能对人脸的基础形状信息进行建模，缺乏了人脸表情、姿态等细节信息。

针对目前人脸三维重建时，只能对人脸的基础形状信息进行建模，缺乏人脸表情等细节信息，获得的三维人脸模型不够细致和精确的问题。本发明提供了一种人脸三维重建方法，基于自注意力机制精准地提取目标数据中的人脸形状和表情等三维人脸参数特征，精准地重建出图片/视频中的三维人脸结构，不仅捕捉了人脸的基本形状，还包括丰富的表情细节，显著提升人脸三维重建的准确度以及细节还原能力。

本发明实施例提供了一种基于自注意力的人脸三维重建方法，部署在各种电子设备上，用来根据选取的图像或者视频进行人脸三维重建，获得三维人脸模型。具体的，如图1所示，本实施例包括如下步骤：

步骤S100：响应于选取的用于人脸三维重建的目标数据，从目标数据中提取至少一张面部图像；

目标数据可以是单张包含人脸的图像，也可以是一段人脸视频或者包含人脸的流媒体（例如采用网络相机拍摄的流媒体）等。

选取目标数据的方式不做限制，可以在用户界面上选取用于人脸三维重建的单张图像、视频或者具有时序关系的多张图像等；也可以是相机或摄像机实时拍摄的图像或视频，然后输入至运行人脸三维重建方法的设备；还可以是运行人脸三维重建方法的后台服务器基于预设条件主动获取图像或视频等。

当目标数据是单张图像时，在图像中识别人脸，获得面部区域，并将面部区域剪裁出来，获得面部图像，这些步骤也简称为图像预处理方法。可以表示为：，其中，/>为提取到的面部图像，/>为图像预处理方法，/>为目标数据。

当目标数据是视频或流媒体时，根据预设条件或预设时间间隔从视频或流媒体中提取到若干个视频帧，获得不同时序的多张图像，再对每张图像采用上述图像预处理方法进行处理，获得每个视频帧中的面部图像，即获得同一个体不同时序的面部图像，所有的面部图像组成面部图像序列，可以表示为：。

具体地，识别人脸可以采用常用的人脸检测算法，如：opencv,dlib或mediapipe等，检测出图像里的人脸包围盒(x, y, h, w)，其中，x，y代表图像中包围盒的左上角坐标，h，w代表包围盒的高和宽。然后将包围盒对应位置的区域剪裁出来，得到面部图像。

需要说明的是，单张图像或者单个视频帧中也可以包含不同个体的人脸，此时，从一张图像或一个视频帧中可以提取出不同个体的面部图像，再分别根据各个个体的面部图像来生成相应的三维人脸模型。

步骤S200：对面部图像进行切片和位置编码，获得图像token序列；

将面部图像切割成多个小的图像块，分别对这些小的图像块进行位置编码，然后将每个图像块的位置编码与采用卷积神经网络从该图像块提取的特征拼接，拼接后的结果作为图像token（标记）来表达图像信息。位置编码的具体表达式为：/>，其中，/>为图像块的位置编码，/>为图像切块操作，/>为位置编码器。

本实施例中，将面部图像切割成不重叠的4x4的16个小的图像块，通过位置编码器PE为每个图像块附加上对应的位置信息，位置信息的具体计算方法如下：

，

其中，pos为图像块的下标（如本实施例为0-15），代表第pos个图像块，i代表特征的维度，d表示模型的特征维度。

步骤S300：基于自注意力机制，提取图像token序列中与人脸三维重建相关的人脸参数特征，获得第一人脸参数token序列；

步骤S400：对第一人脸参数token序列进行解码，获得人脸三维重建参数；

目前通过提取人脸的体素、定点坐标、网格等三维几何结构进行人脸三维重建时只限于人脸，没有眼睛，嘴唇以及表情等信息，然而这些信息对于很多的应用却非常有效；而现有的Deep3dFaceRecon、DECA和MICA模型也不能获得细致准确的三维人脸结构信息。

本发明通过基于自注意力机制构建网络模型来精细捕捉人脸的基本形状以及丰富的表情细节，显著提升了当前人脸三维重建的准确度以及细节还原能力。

具体地，根据预设的人脸参数（如人脸形状、人脸表情、纹理等），在图像token序列的头部添加每个人脸参数对应的token。假定预设的人脸参数为人脸形状、人脸表情和纹理，则在图像token序列的头部添加3个token，分别用于提取人脸形状、人脸表情和纹理。将添加人脸参数对应token后的图像token序列输入基于自注意力机制构建的自注意力模型，在自注意力模型中提取预设的人脸参数对应的人脸参数特征，组合这些人脸参数特征，获得第一人脸参数token序列，然后对第一人脸参数token序列进行解码，获得人脸三维重建参数。其中，人脸参数特征为与人脸三维重建相关的特征，具体不做限制，常见的有：人脸形状、人脸表情、纹理、光照、嘴部形状等。

通过将每个人脸参数视作独立的token，输入到自注意力模型中，能够有效地解耦各个参数，产生更精确的重建结果，实现精准细致的人脸三维重建。

需要说明的是，上述自注意力模型可以是传统的视觉自注意力模型（VisionTransformer），也可以是基于自注意力机制构造的各种网络模型。

本实施例基于自注意力机制构建了人脸参数估计网络，在人脸参数估计网络中实现人脸参数特征提取功能。具体地，将添加了人脸参数token后的图像token序列输入人脸参数估计网络后，利用自注意力机制，将图像token转换为第一人脸参数token序列。然后再通过一个解码器就可以将第一人脸参数token序列映射为人脸三维重建参数。具体可以表示为：，/>，其中，/>为与人脸三维重建相关的人脸三维重建参数，包括形状/>、表情/>、纹理/>、光照/>、嘴部形状/>、相机位姿/>等参数，表达为：；/>表示解码器；/>为图像token序列；/>为人脸参数估计网络；为第一人脸参数token序列。

其中，人脸参数估计网络包括两个部分：编码器（transformer encoder）和解码器（transformer decoder），其中编码器执行特征自注意力的操作，解码器执行特征自注意力以及特征交叉注意力的操作。

人脸参数估计网络中的自注意力机制包括一系列的点积注意力以及多头注意力。点积注意力的计算公式为：

，

其中，Softmax是一个常用归一化函数，用来将输入值映射到[0,1]范围内，具体地，，z代表是一个向量，/>、/>分别代表的是第i个、第j个位置的值，n代表的是向量长度；Q、K、V分别为Query(查询)特征、Key(关键)特征以及Value(值)特征，这些特征均由Transformer中的神经网络学习而来，/>是一个缩放因子。

多头注意力的计算公式为：

，

其中，W为投影矩阵且,/> , /> , /> ，这里d为特征维度，n为注意力头的数量，/>代表特征拼接操作，/>为第/>个注意力头得到的特征。

解码器D用来从人脸参数相关的token序列中提取人脸三维重建参数，本实施例中解码器D为全连接神经网络，其层数和神经元个数不做限制，可以依据需要而相应设定。

步骤S500：对人脸三维重建参数进行三维渲染，获得与面部图像对应的三维人脸模型。

获得精准、细致的人脸三维重建参数后，对人脸三维重建参数进行三维渲染，将这些人脸三维重建参数渲染为包含N个三维点的三维人脸数据，获得与面部图像对应的三维人脸模型。对应于一张面部图像可以生成一个三维人脸模型；对应于从视频或者流媒体中提取的视频帧，对于视频帧中的个体，可以生成不同时序的三维人脸模型。

具体地，三维驱动渲染可以通过FLAME（一个三维人脸参数模型）的解码器来将人脸三维重建参数P 解码成对应的三维模型网格，将该三维模型网格与图像对应的人脸精准对齐，生成三维人脸数据。

本实施例中，训练人脸参数估计网络时，设计了支持2D数据以及3D数据混合训练的损失函数，并针对2D数据和3D数据分别采用不同形式的损失函数。对于2D数据，将三维人脸模型投影至图像坐标系，获得投影图像，计算投影图像与从目标数据中提取到的面部图像之间的距离，获得第一损失值；对于3D数据，当已对面部图像对应的人脸进行了三维扫描，获得扫描数据/>时，计算三维人脸模型/>与扫描数据/>之间的距离，获得第二损失值，根据第一损失值和第二损失值，获得训练人脸参数估计网络时的损失值。具体表达式为：

，

其中，代表损失值，/>为指示函数，当数据类型为2D数据时/>，其他情况，/>为投影函数，表示将三维物体投影为二维图像，/>为三维人脸数据，/>为对应人脸的三维扫描数据。

根据上述损失值可以对人脸参数估计网络和解码器同时进行优化。

通过采用上述方法计算损失值能够使用二维数据、三维数据进行混合训练，能有效利用现有的2D图像以及3D人脸扫描数据，不仅丰富训练数据的多样性，还能将二维弱监督和三维强监督相结合，利用大量的二维数据来弥补三维数据匮乏的问题，提高泛化性能，能准确地对各种不同条件下的人脸进行建模。

在一个实施例中，计算投影图像与从目标数据中提取到的面部图像之间的距离，获得第一损失值时，依次根据图像像素、人脸关键点、眼部关键点以及嘴部关键点计算投影图像与面部图像之间的距离，分别获得图像损失值、人脸损失值、眼部损失值和嘴部损失值；然后对图像损失值、人脸损失值、眼部损失值和嘴部损失值进行加权求和，获得第一损失值。具体表达式为：

，

其中，为可调的超参，L1为L1距离，/>，Pt为图像中人脸的关键点，，X为人脸关键点提取器，/> 为眼部关键点，/>为嘴部关键点,分别为投影后的三维人脸数据、投影后的人脸关键点，投影后的眼部关键点和投影后的嘴部关键点。

针对3D数据的第二损失值由L1距离实现，即。上述L1可通过曼哈顿距离进行实现。

综上所述，本实施例基于自注意力机制精准地提取目标数据中的人脸形状和表情等三维人脸参数特征，精准地重建出图片/视频中的三维人脸结构，不仅捕捉了人脸的基本形状，还包括丰富的表情细节，显著提升人脸三维重建的准确度以及细节还原能力。三维重建结果以及部分中间结果可以进一步服务于头部姿态估计、三维数字人创建、游戏或动画角色面部动作捕捉、AR/VR等应用场景。

当目标数据为视频或流媒体时，虽然可以针对不同时序的视频帧生成相应的三维人脸模型。但是由于单个视频帧只是当前时序的图像，导致即使相邻时序的三维人脸模型之间也可能出现跳跃和突变，也即生成的连续的三维人脸模型不稳定。

为了解决该问题，在一个实施例中，获取到各个时序的面部图像的第一人脸参数token序列之后，还对每张面部图像对应的第一人脸参数token序列进行了平滑处理，通过平滑处理来减少相邻时序的第一人脸参数token序列之间的波动程度，实现视频帧之间的时序建模，能有效提升视频人脸建模的稳定性与可靠性。

具体地，在一个实施例中，如图2所示，平滑处理的步骤包括：

步骤310：基于目标面部图像，获取若干与目标面部图像相邻的面部图像的第二人脸参数token序列；

步骤S320：融合第一人脸参数token序列和第二人脸参数token序列，根据融合结果更新第一人脸参数token序列。

目标面部图像是指当前正在做平滑处理的第一人脸参数token序列所对应的面部图像，根据该面部图像能够得到对应的视频帧的序号，从而获得与目标面部图像相邻的面部图像。相邻的面部图像既可以是目标面部图像前面若干时序的面部图像，也可以是目标面部图像后面若干时序的面部图像。例如：假定目标面部图像对应的视频帧的序号为N，将N-1及N+1视频帧对应的面部图像作为与目标面部图像相邻的面部图像，并获得相邻的面部图像所对应的第二人脸参数token序列。然后将第一人脸参数token序列和第二人脸参数token序列进行融合，通过融合第二人脸参数token序列来平滑第一人脸参数token序列，并更新第一人脸参数token序列。

本实施例首先拼接第一人脸参数token序列和第二人脸参数token序列，获得拼接结果；再将第一人脸参数token序列映射为查询向量；将拼接结果分别映射为键向量和值向量；基于查询向量、键向量和值向量计算点积注意力，获得融合结果，用该融合结果更新第一人脸参数token序列。

具体地，将从视频或流媒体的不同视频帧中提取到的连续的面部图像记，其中下标t表示第t个视频帧。采用人脸参数估计网络根据面部图像提取到第一人脸参数token序列后，对于第t帧面部图像对应的第一人脸参数token序列/>，相邻的面部图像所对应的第二人脸参数token序列为/>，然后将/>一同送入预先构建的时序自注意力特征聚合模块进行融合，得到带有平滑效果的第一人脸参数token序列（/>）。

具体表达式为：

，

其中，代表点积注意力，其计算公式与人脸参数估计网络/>中的点积注意力的计算公式相同，/>为映射函数，/>代表特征拼接操作。

通过自注意力操作将第t-1帧、第t帧、第t+1帧的人脸参数token序列的拼接结果与第t帧人脸参数token序列有关的特征都融合到第t帧的人脸参数token序列上，实现了时序平滑。

其中，时序自注意力特征聚合模块可以由多头注意力模型或者Transformer来实现，其设有三个由全连接神经网络实现的映射函数，分别将第一人脸参数token序列映射为查询向量、将拼接结果映射为键向量以及将拼接结果映射为值向量。

通过采用时序自注意力特征聚合模块融合多个视频帧中的人脸信息，实现视频帧之间的时序建模，有效地改善了多帧人脸模型之间的抖动问题，提高视频帧重建出来的人脸的稳定性与可靠性。也就是说，不仅能够捕捉了人脸的基本形状和丰富的表情细节，而且具有时序上的稳定性，在人脸三维重建方面呈现出更加精准的效果。

示例性系统

如图3所示，对应于上述人脸三维重建方法，本发明实施例还提供人脸三维重建系统，上述系统包括人脸三维参数生成网络600和渲染模块700，人脸三维参数生成网络600用于根据选取的用于人脸三维重建的目标数据生成人脸三维重建参数，渲染模块700用于对人脸三维重建参数进行三维渲染，获得三维人脸模型。其中，人脸三维参数生成网络600包括数据提取层610、图像token层620、视觉自注意力模型630和解码模型640；数据提取层610用于从目标数据中提取至少一张面部图像；图像token层620用于对面部图像进行切片和位置编码，获得图像token序列；视觉自注意力模型630用于基于自注意力机制，提取图像token序列中与人脸三维重建相关的人脸参数特征，获得第一人脸参数token序列；解码模型640用于对第一人脸参数token序列进行解码，获得人脸三维重建参数。

在一个实施例中，人脸三维参数生成网络600还包括时序自注意力聚合模型650，时序自注意力聚合模型650用于当从目标数据中提取到不同时序的多张面部图像，获得若干第一人脸参数token序列时，依次对每张面部图像对应的第一人脸参数token序列进行平滑处理以减少相邻的第一人脸参数token序列之间的波动程度，并根据处理结果更新第一人脸参数token序列。

具体的，本实施例中，上述基于自注意力的人脸三维重建系统的各模块的具体功能可以参照上述基于自注意力的人脸三维重建方法中的对应描述，在此不再赘述。

经测试，获得如图4、图5所示的实验结果，由图4的实验结果可以看出，本发明通过合理设计transformer的网络结构以及利用图像与人脸的token，更加精确并且适配的场景也更为丰富，可以达到更精准、更连续的人脸三维重建效果。由图5的实验结果可以看出，本发明具备良好的可扩展性，通过时序自注意力聚合机制可以有效提升在视频场景下人脸三维重建的连续性，重建得到的人脸三维信息更平滑准确。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图6所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和人脸三维重建程序。该内存储器为非易失性存储介质中的操作系统和人脸三维重建程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该人脸三维重建程序被处理器执行时实现上述任意一种人脸三维重建方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图6中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例还提供一种计算机可读存储介质，上述计算机可读存储介质上存储有人脸三维重建程序，上述人脸三维重建程序被处理器执行时实现本发明实施例提供的任意一种人脸三维重建方法的步骤。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种人脸三维重建方法，其特征在于，所述方法包括：

对所述面部图像进行切片和位置编码，获得图像token序列；

对所述人脸三维重建参数进行三维渲染，获得与所述面部图像对应的三维人脸模型；

所述基于自注意力机制，提取所述图像token序列中与人脸三维重建相关的人脸参数特征，获得第一人脸参数token序列，包括：

将更新后的图像token序列输入自注意力模型；

2.如权利要求1所述的人脸三维重建方法，其特征在于，当从所述目标数据中提取到不同时序的多张面部图像，获得若干所述第一人脸参数token序列时，依次对每张面部图像对应的所述第一人脸参数token序列进行平滑处理，并根据平滑结果更新所述第一人脸参数token序列。

3.如权利要求2所述的人脸三维重建方法，其特征在于，对目标面部图像对应的所述第一人脸参数token序列进行平滑处理，并根据平滑结果更新所述第一人脸参数token序列，包括：

4.如权利要求3所述的人脸三维重建方法，其特征在于，所述融合所述第一人脸参数token序列和所述第二人脸参数token序列，根据融合结果更新所述第一人脸参数token序列，包括：

将所述第一人脸参数token序列映射为查询向量；

将所述拼接结果分别映射为键向量和值向量；

5.如权利要求4所述的人脸三维重建方法，其特征在于，分别采用一个全连接网络将所述第一人脸参数token序列映射为查询向量、将所述拼接结果映射为键向量以及将所述拼接结果映射为值向量。

6.如权利要求1所述的人脸三维重建方法，其特征在于，基于自注意力机制构建了用于实现人脸参数特征提取功能的人脸参数估计网络，训练人脸参数估计网络时，计算损失值，包括：

根据所述第一损失值和所述第二损失值，获得所述损失值。

7.如权利要求6所述的人脸三维重建方法，其特征在于，所述计算所述投影图像与所述面部图像之间的距离，获得第一损失值，包括：

8.一种人脸三维重建系统，包括人脸三维参数生成网络和渲染模块，所述人脸三维参数生成网络用于根据选取的用于人脸三维重建的目标数据生成人脸三维重建参数，所述渲染模块用于对所述人脸三维重建参数进行三维渲染，获得三维人脸模型，其特征在于，所述人脸三维参数生成网络包括数据提取层、图像token层、视觉自注意力模型和解码模型；

所述解码模型用于对所述第一人脸参数token序列进行解码，获得人脸三维重建参数；

将更新后的图像token序列输入自注意力模型；

9.如权利要求8所述的人脸三维重建系统，其特征在于，所述人脸三维参数生成网络还包括时序自注意力聚合模型，所述时序自注意力聚合模型用于当从所述目标数据中提取到不同时序的多张面部图像，获得若干所述第一人脸参数token序列时，依次对每张面部图像对应的所述第一人脸参数token序列进行平滑处理以减少相邻的第一人脸参数token序列之间的波动程度，并根据平滑结果更新所述第一人脸参数token序列。

10.智能终端，其特征在于，所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的人脸三维重建程序，所述人脸三维重建程序被所述处理器执行时实现如权利要求1-7任意一项所述人脸三维重建方法的步骤。

11.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有人脸三维重建程序，所述人脸三维重建程序被处理器执行时实现如权利要求1-7任意一项所述人脸三维重建方法的步骤。