CN116959058A

CN116959058A - 一种三维人脸驱动方法及相关装置

Info

Publication number: CN116959058A
Application number: CN202310208403.4A
Authority: CN
Inventors: 丁中干; 葛志鹏; 陈人望; 曹玮剑; 王福东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-10-27

Abstract

本申请提供了一种三维人脸驱动方法以及相关装置。本申请实施例可应用于人工智能技术领域。其方法包括：将获取到的当前帧人脸图像作为三维人脸重建模型的输入，通过三维人脸重建模型输出第一表情参数及姿态参数；根据第一表情参数、姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象；其中，三维目标的形象基底及三维目标的表情基底为驱动三维目标对象的基矩阵。本申请实施例提供的三维人脸驱动方法，通过在三维人脸重建模型中增加第一表情参数分支，提高对当前帧人脸图像中表情的捕捉能力，以及通过第一表情参数及姿态参数驱动的三维目标对象的形象基底及三维目标对象的表情基底，有效提升了三维人脸驱动的效果。

Description

一种三维人脸驱动方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种三维人脸驱动方法及相关装置。

背景技术

3D(三维)人脸驱动是指基于已重建的3D人脸信息去驱动特定的3D虚拟形象模型。随着计算机技术的不断发展，3D人脸驱动技术在短视频、虚拟直播、远程会议等行业中有着广泛的应用场景。例如在远程会议中，用户不想真人出镜，可以给自己定制一份虚拟形象(avatar形象)，在远程会议过程中，该形象能完全复制用户的姿态和表情。

目前，基于迭代优化的3D人脸驱动方法，需要对视频段中的每帧图像进行多次迭代以求解弱透视投影参数及三维模型参数，依赖计算得到的弱透视投影参数及三维模型参数对3D虚拟人物形象进行驱动。而这种完全依赖配准技术导致3D虚拟形象对用户的表情及姿态复制效果较差，无法更加准确的体现出用户实际的表情及姿态，人脸驱动效果较差。

发明内容

本申请实施例提供了一种三维人脸驱动方法以及相关装置，通过三维人脸重建模型对二维的当前帧人脸图像进行处理，得到当前帧人脸图像中的第一表情参数及姿态参数，通过在三维人脸重建模型中增加第一表情参数分支，提高对当前帧人脸图像中表情的捕捉能力，以及通过第一表情参数及姿态参数驱动的三维目标对象的形象基底及三维目标对象的表情基底，有效提升了三维人脸驱动的效果。

本申请的一方面提供一种三维人脸驱动方法，包括：

获取当前帧人脸图像；

将当前帧人脸图像作为三维人脸重建模型的输入，通过三维人脸重建模型输出第一表情参数及姿态参数，其中，第一表情参数为根据当前帧人脸图像对应的表情信息生成的向量，姿态参数为根据当前帧人脸图像对应的姿态信息生成的矩阵；

根据第一表情参数、姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象；其中，三维目标的形象基底及三维目标的表情基底为驱动三维目标对象的基矩阵。

本申请的另一方面提供了一种三维人脸驱动装置，包括：

人脸图像获取模块，用于获取当前帧人脸图像；

三维人脸重建模型处理模块，用于将当前帧人脸图像作为三维人脸重建模型的输入，通过三维人脸重建模型输出第一表情参数及姿态参数，其中，第一表情参数为根据当前帧人脸图像对应的表情信息生成的向量，姿态参数为根据当前帧人脸图像对应的姿态信息生成的矩阵；

目标对象驱动模块，用于根据第一表情参数、姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象；其中，三维目标的形象基底及三维目标的表情基底为驱动三维目标对象的基矩阵。

在本申请实施例的另一种实现方式中，目标对象驱动模块还用于：

根据姿态参数对二维人脸特征点进行三维重建，生成当前帧人脸图像对应的三维人脸特征点，其中，二维人脸特征点为根据第一表情参数确定的；

根据三维目标对象的形象基底及三维目标对象的表情基底，确定三维目标对象的拓扑模型；

根据三维目标对象的拓扑模型对三维人脸特征点进行拓扑关系构建，得到目标驱动形象。

获取三维目标对象的拓扑模型中的标记点及标记点的拓扑关系；

将三维人脸特征点与拓扑模型中的标记点进行配准，得到三维人脸关键点；

根据拓扑关系，对三维人脸关键点进行拓扑关系构建，得到目标驱动形象。

根据拓扑关系，对三维人脸关键点进行拓扑关系构建，生成三维人脸关键点的拓扑结构；

根据纹理参数及光线参数对三维人脸关键点的拓扑结构进行渲染，生成目标驱动形象，其中，纹理参数为根据当前帧人脸图像对应的皮肤纹理信息生成的向量，光线参数为根据当前帧人脸图像对应的颜色信息及饱和度信息生成的向量。

根据第一表情参数及身份参数，确定当前帧人脸图像中的二维人脸特征点，其中，身份参数为根据当前帧人脸图像对应的人脸信息生成的向量；

根据姿态参数对二维人脸特征点进行三维重建，生成当前帧人脸图像对应的三维人脸特征点。

根据第一表情参数及三维人脸重建的表情基底，生成三维人脸重建的表情信息，其中，三维人脸重建的表情基底为驱动三维人脸重建的基矩阵；

根据身份参数及三维人脸重建的身份基底，生成三维人脸重建的身份信息，其中，三维人脸重建的身份基底为驱动三维人脸重建的基矩阵；

根据三维人脸重建的表情信息、三维人脸重建的身份信息、姿态参数及三维人脸信息，生成当前帧人脸图像对应的三维人脸特征点。

根据第一表情参数及三维目标对象的表情基底，得到目标表情信息；

根据目标表情信息、姿态参数及三维目标对象的形象基底进行加权求和计算，生成目标驱动形象。

在本申请实施例的另一种实现方式中，三维人脸驱动装置还包括三维人脸重建模型训练模块；三维人脸重建模型训练模块用于：

获取训练人脸图像及训练人脸图像对应的表情参数标签；

将训练人脸图像作为三维人脸重建模型的输入，通过三维人脸重建模型输出第一表情训练参数，其中，第一表情训练参数为根据训练人脸图像对应的表情信息生成的向量；

根据第一表情训练参数及表情参数标签，生成表情参数损失函数，表情参数损失函数用于对三维人脸重建模型进行训练。

在本申请实施例的另一种实现方式中，三维人脸重建模型训练模块还用于：

通过三维人脸重建模型输出第二表情训练参数、姿态训练参数、身份训练参数，其中，第二表情训练参数为根据训练人脸图像对应的表情信息生成的向量，姿态参数为根据训练人脸图像对应的姿态信息生成的矩阵，身份训练参数为根据训练人脸图像对应的人脸信息生成的向量；

对训练人脸图像进行人脸检测，得到训练二维人脸关键点；

根据第二表情训练参数、姿态训练参数及身份训练参数生成训练三维人脸关键点；

根据训练二维人脸关键点及训练三维人脸关键点，生成关键点损失函数，其中，关键点损失函数用于与表情参数损失函数训练三维人脸重建模型。

通过三维人脸重建模型输出纹理训练参数及光线训练参数，其中，纹理训练参数为根据训练人脸图像对应的皮肤纹理信息生成的向量，光线参数为根据训练人脸图像对应的颜色信息生成的向量；

根据纹理训练参数及光线训练参数对训练三维人脸关键点组成的训练三维人脸重建模型进行渲染，得到渲染图像；

根据训练人脸图像及渲染图像，生成感知损失函数，其中，感知损失函数用于与表情参数损失函数、关键点损失函数训练三维人脸重建模型。

根据训练人脸图像、渲染图像及训练三维人脸关键点，生成重渲染损失函数；

根据表情参数损失函数、关键点损失函数、感知损失函数及重渲染损失函数，对三维人脸重建模型进行训练。

本申请的另一方面提供了一种计算机设备，包括：

存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

本申请的另一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供了一种三维人脸驱动方法以及相关装置，其方法包括：首先，获取当前帧人脸图像；然后，将当前帧人脸图像作为三维人脸重建模型的输入，通过三维人脸重建模型输出第一表情参数及姿态参数，其中，第一表情参数为根据当前帧人脸图像对应的表情信息生成的向量，姿态参数为根据当前帧人脸图像对应的姿态信息生成的矩阵；最后，根据第一表情参数、姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象；其中，三维目标的形象基底及三维目标的表情基底为驱动三维目标对象的基矩阵。本申请实施例提供的三维人脸驱动方法，通过三维人脸重建模型对二维的当前帧人脸图像进行处理，得到当前帧人脸图像中的第一表情参数及姿态参数，通过在三维人脸重建模型中增加第一表情参数分支，提高对当前帧人脸图像中表情的捕捉能力，以及通过第一表情参数及姿态参数驱动的三维目标对象的形象基底及三维目标对象的表情基底，有效提升了三维人脸驱动的效果。

附图说明

图1为本申请某一实施例提供的虚拟形象示意图；

图2为本申请某一实施例提供的三维人脸驱动系统的一个架构示意图；

图3为本申请某一实施例提供的三维人脸驱动方法的流程图；

图4为本申请某一实施例提供的三维人脸重建模型的结构示意图；

图5为本申请某一实施例提供的三维人脸驱动方法的示意图；

图6为本申请另一实施例提供的三维人脸驱动方法的流程图；

图7为本申请某一实施例提供的目标驱动形象生成过程的示意图；

图8为本申请另一实施例提供的三维人脸驱动方法的流程图；

图9为本申请另一实施例提供的三维人脸驱动方法的流程图；

图10为本申请另一实施例提供的三维人脸驱动方法的流程图；

图11为本申请另一实施例提供的三维人脸驱动方法的流程图；

图12为本申请某一实施例提供的采集人脸的原始点云数据的示意图；

图13为本申请某一实施例提供的标准人头3D模型的示意图；

图14为本申请某一实施例提供的渲染过程的示意图；

图15为本申请某一实施例提供的形变迁移的示意图；

图16为本申请另一实施例提供的三维人脸驱动方法的流程图；

图17为本申请另一实施例提供的三维人脸驱动方法的流程图；

图18为本申请另一实施例提供的三维人脸驱动方法的流程图；

图19为本申请另一实施例提供的三维人脸驱动方法的流程图；

图20为本申请另一实施例提供的三维人脸驱动方法的流程图；

图21为本申请某一实施例提供的三维人脸模型训练的示意图；

图22为本申请某一实施例提供的三维人脸驱动装置的结构示意图；

图23为本申请某一实施例提供的三维人脸驱动装置的结构示意图；

图24为本申请某一实施例提供的服务器结构示意图。

具体实施方式

本申请实施例提供了一种三维人脸驱动方法，通过三维人脸重建模型对二维的当前帧人脸图像进行处理，得到当前帧人脸图像中的第一表情参数及姿态参数，通过在三维人脸重建模型中增加第一表情参数分支，提高对当前帧人脸图像中表情的捕捉能力，以及通过第一表情参数及姿态参数驱动的三维目标对象的形象基底及三维目标对象的表情基底，有效提升了三维人脸驱动的效果。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

3D人脸驱动：是指基于已重建的3D人脸信息去驱动特定的3D模型，并在指定光照和参数后投影2D平面呈现出对应的光影实效(即渲染)的过程。

3D人脸重建：通过人脸2D图像还原重构人脸真实3D信息，包括表情(expression)、身份(ID)、姿态(pose)、纹理(texture)、光照(lighting)等。

3D点云注册：将某个标准点云，对齐到某个扫描点云。如果该标准点云具有网格，那么对齐后的点云就具备了扫描点云的ID和表情信息，同时具备了标准点云的网格拓扑结构。

3D模型形变迁移：将source模型(原模型)的多种表情(或者动作)模型之间的形变迁移到target模型(目标模型)上，从而得到target模型相对应的表情模型。

在视觉效果及视觉表达中，2D模型所带来的视觉效果更趋向于平坦，立体感不强。而3D模型往往具有比2D模型在视觉表达中更趋近于真实效果。随着计算机视觉技术的不断发展，在短视频、虚拟直播、远程会议等行业中，若用户不想以真实形象出镜，用户可以给自己定制一份虚拟形象(avatar形象)，在短视频、虚拟直播、远程会议中以该avatar形象进行出镜。如图1所示。

目前，基于迭代优化的3D人脸驱动方法，需要对视频段中的每帧图像进行多次迭代以求解弱透视投影参数及三维模型参数，依赖计算得到的弱透视投影参数及三维模型参数对3D虚拟人物形象进行驱动。而这种完全依赖配准技术导致3D虚拟形象对用户的表情及姿态复制效果较差，无法更加准确的体现出用户实际的表情及姿态，人脸驱动效果较差。并且，对视频段中的每帧图像进行多次迭代进行求解，还存在耗时严重，对CPU占用过高等问题，不利于在资源受限的场景落地。

本申请实施例提供的三维人脸驱动方法，通过三维人脸重建模型对二维的当前帧人脸图像进行处理，得到当前帧人脸图像中的第一表情参数及姿态参数，通过在三维人脸重建模型中增加第一表情参数分支，提高对当前帧人脸图像中表情的捕捉能力，以及通过第一表情参数及姿态参数驱动的三维目标对象的形象基底及三维目标对象的表情基底，有效提升了三维人脸驱动的效果。并且，通过将几何重建和纹理重建在基础网络层面分开、设计更轻巧的几何重建基础网络，使得人脸3D驱动在计算量上明显少于传统的迭代优化方案，从而使得该技术在更多资源受限场景落地成为可能。

为了便于理解，请参阅图2，图2为本申请实施例中三维人脸驱动方法的应用环境图，如图2所示，本申请实施例中三维人脸驱动方法应用于三维人脸驱动系统。三维人脸驱动系统包括：服务器和终端设备；其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端和服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

服务器首先获取当前帧人脸图像；然后，服务器将当前帧人脸图像作为三维人脸重建模型的输入，通过三维人脸重建模型输出第一表情参数及姿态参数，其中，第一表情参数为根据当前帧人脸图像对应的表情信息生成的向量，姿态参数为根据当前帧人脸图像对应的姿态信息生成的矩阵；最后，服务器根据第一表情参数、姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象；其中，三维目标的形象基底及三维目标的表情基底为驱动三维目标对象的基矩阵。

下面将从服务器的角度，对本申请中三维人脸驱动方法进行介绍。请参阅图3，本申请实施例提供的三维人脸驱动方法包括：步骤S110至步骤S130。

具体的：

S110、获取当前帧人脸图像。

可以理解的是，从视频中获取当前帧人脸图像。当前帧人脸图像为二维(2D)图像。例如，在远程会议场景中，获取当前时间点对应的人脸图像即为该当前帧人脸图像；在短视频拍摄场景中，获取当前时间点对应的人脸图像即为该当前帧人脸图像。步骤S110包括至少两个过程：第二获取图像，以及对获取到的图像进行人脸识别。可通过人脸检测或人脸匹配实现人脸识别。

S120、将当前帧人脸图像作为三维人脸重建模型的输入，通过三维人脸重建模型输出第一表情参数及姿态参数。

其中，第一表情参数为根据当前帧人脸图像对应的表情信息生成的向量，姿态参数为根据当前帧人脸图像对应的姿态信息生成的矩阵。

可以理解的是，三维人脸重建模型可以实现根据二维的人脸图像，生成对应的该人脸的三维模型，例如D3DFR算法实现的三维人脸重建模型，请参阅图4，图4为本申请实施例提供的三维人脸重建模型的结构示意图，本申请实施例提供的方法将D3DFR算法实现的三维人脸重建模型分割为两部分，一部分为几何重建网络，另一部分为纹理重建网络。

在几何重建网络中添加arkit表情分支，通过arkit表情分支输出第一表情参数。由arkit表情分支输出的第一表情参数能够精准的捕捉当前帧人脸图像中用户的表情信息，通过第一表情参数生成的虚拟的三维目标对象能够完全复制用户的表情，提高表情驱动的准确性。几何重建网络的输出包括：第一表情参数(arkitexp)、第二表情参数(exp)、姿态参数(pose)及身份参数(ID)。第一表情参数为根据当前帧人脸图像对应的表情信息生成的向量；第二表情参数为根据当前帧人脸图像对应的表情类型生成的向量，第一表情参数的向量维数高于第二表情参数的向量维数，第一表情参数相较于第二表情参数更加能够体现用户的表情细节；姿态参数为根据当前帧人脸图像对应的姿态信息生成的矩阵；身份参数为根据当前帧人脸图像对应的人脸信息生成的向量。

如表1所示，表1为Tiny-MBV2的网络结构图。

表1

在基于mobilenetV2的设计思路下，从深度、宽度、bottleneck的个数等多个维度进行裁剪，得到轻巧的深度网络Tiny-MBV2，通过tiny-MBV2网络模型结构实现几何重建网络的结构，将该由tiny-MBV2网络模型结构实现几何重建网络装载至移动设备上(例如智能手机)，可以减小在人脸驱动中的计算量，从而降低对内存消耗以及对CPU的占用，提高三维人脸驱动的效率，缩短三维人脸驱动的时间，解决了目前的三维人脸驱动过程中的卡顿等问题。

纹理重建网络(Resent)的输出包括：纹理参数(tex)及光线参数(lighting)。纹理参数为根据当前帧人脸图像对应的皮肤纹理信息生成的向量，光线参数为根据当前帧人脸图像对应的颜色信息及饱和度信息生成的向量。

S130、根据第一表情参数、姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象。

其中，三维目标的形象基底及三维目标的表情基底为驱动三维目标对象的基矩阵。

可以理解的是，三维目标对象的形象基底及三维目标对象的表情基底为根据三维目标形象进行设定的，不同的三维目标形象对应的形象基底及表情基底各不相同。

通过第一表情参数与三维目标对象的表情基底，可以得到驱动三维目标对象的目标表情信息；将驱动三维目标对象的目标表情信息与三维目标的形象基底进行和运算，并将和结果与姿态参数相乘，积结果为目标驱动形象。目标驱动对象可以通过以下公式计算：

y＝P(M+A_exp·e₂)；

其中，y为目标驱动对象，P表示姿态参数,M表示三维目标的形象基底，A_exp表示三维目标的表情基底，e₂表示第一表情参数。

请参阅图5，图5是本申请实施例提供的三维人脸驱动方法的示意图。将获取到的当前帧人脸图像输入至三维人脸重建模型中，通过三维人脸重建模型的几何重建网络(编码单元)输出第一表情参数(arkitexp)及姿态参数(pose)，将第一表情参数(arkitexp)及姿态参数(pose)以及三维目标对象的基底(YTFM)输入解码单元以输出目标驱动形象。

本申请实施例提供的方法，通过三维人脸重建模型对二维的当前帧人脸图像进行处理，得到当前帧人脸图像中的第一表情参数及姿态参数，通过在三维人脸重建模型中增加第一表情参数分支，提高对当前帧人脸图像中表情的捕捉能力，以及通过第一表情参数及姿态参数驱动的三维目标对象的形象基底及三维目标对象的表情基底，有效提升了三维人脸驱动的效果。通过将三维人脸重建模型分割为几何重建网络和纹理重建网络，将轻巧的深度网络Tiny-MBV2作为几何重建网络的网络结构，在移动端部署几何重建网络，可以减小在人脸驱动中的计算量，从而降低对内存消耗以及对CPU的占用，提高三维人脸驱动的效率，缩短三维人脸驱动的时间，解决了目前的三维人脸驱动过程中的卡顿等现象。

在本申请的图3对应的实施例提供的三维人脸驱动方法的一个可选实施例中，请参阅图6，步骤S130进一步包括子步骤S1301至子步骤S1303。具体地：

S1301、根据姿态参数对二维人脸特征点进行三维重建，生成当前帧人脸图像对应的三维人脸特征点。

其中，二维人脸特征点为根据第一表情参数确定的。

可以理解的是，根据第一表情参数、第二表情参数以及身份参数，确定二维人脸特征点，具体的对当前帧人脸图像进行人脸检测，以确认人脸图像中的二维人脸特征点。利用姿态参数对二维人脸特征点进行三维重建，生成三维人脸特征点。

S1302、根据三维目标对象的形象基底及三维目标对象的表情基底，确定三维目标对象的拓扑模型。

可以理解的是，三维目标对象的拓扑模型用于表征特征点之间的拓扑关系，通过该拓扑关系可以将特征点进行连线，以生成三维目标对象。

S1303、根据三维目标对象的拓扑模型对三维人脸特征点进行拓扑关系构建，得到目标驱动形象。

可以理解的是，将三维人脸特征点与三维目标对象的拓扑模型进行注册，用拓扑模型对应的特征点的拓扑关系对三维人脸特征点进行连线，生成的注册结果为目标驱动模型。

为便于理解，请参阅图7，图7为目标驱动形象生成过程的示意图。图7中a为三维人脸特征点表征的人脸模型，b为三维目标对象的拓扑模型表征的标准模型，c为目标驱动形象的模型。将人脸模型以标准模型的拓扑结构进行映射，进而得到目标驱动模型。

本申请实施例提供的方法，通过第一表情参数确定二维人脸特征点，根据姿态参数对二维人脸特征点进行三维重建，得到三维人脸特征点，进而根据目标对象的拓扑模型对三维人脸特征点进行拓扑关系建立，生成目标驱动形象，有效提升了三维人脸驱动的效果。

在本申请的图6对应的实施例提供的三维人脸驱动方法的一个可选实施例中，请参阅图8，步骤S1303进一步包括子步骤S13031至子步骤S13033。具体地：

S13031、获取三维目标对象的拓扑模型中的标记点及标记点的拓扑关系。

可以理解的是，标记点以及标记点的拓扑关系构成三维目标对象的拓扑模型。

S13032、将三维人脸特征点与拓扑模型中的标记点进行配准，得到三维人脸关键点。

可以理解的是，对三维人脸特征点与拓扑模型中的标记点进行配准，以去除三维人脸特征点中的对于建立拓扑关系无关的特征点，留下三维人脸特征点，例如，在拓扑模型中，关于左眼的标记点为20个，20个标记点以及标记点的拓扑关系构成拓扑模型中左眼模型，在三维人脸特征点中关于左眼的特征点为60个，以20个标记点的位置信息确定60个特征点中的20个点，即为左眼的关键点。

S13033、根据拓扑关系，对三维人脸关键点进行拓扑关系构建，得到目标驱动形象。

可以理解的是，对三维人脸关键点赋予与拓扑模型相同的拓扑关系，对三维人脸关键点进行连线，生成目标驱动形象。

本申请实施例提供的方法，根据拓扑模型中的标记点从三维人脸特征点中确定三维人脸关键点，对三维人脸关键点赋予将拓扑模型中的拓扑关系，生成目标驱动形象，有效提升了三维人脸驱动的效果。

在本申请的图8对应的实施例提供的三维人脸驱动方法的一个可选实施例中，请参阅图9，子步骤S13033进一步包括子步骤S130331至子步骤S130332。具体地：

S130331、根据拓扑关系，对三维人脸关键点进行拓扑关系构建，生成三维人脸关键点的拓扑结构。

可以理解的是，将三维人脸关键点赋予拓扑关系，生成三维人脸关键点的拓扑结构，三维人脸关键点的拓扑结构用于表征人脸的结构特征。

S130332、根据纹理参数及光线参数对三维人脸关键点的拓扑结构进行渲染，生成目标驱动形象。

其中，纹理参数为根据当前帧人脸图像对应的皮肤纹理信息生成的向量，光线参数为根据当前帧人脸图像对应的颜色信息及饱和度信息生成的向量。

可以理解的是，据纹理参数及光线参数对三维人脸关键点的拓扑结构进行渲染，在人脸的结构特征上增加光线及纹理特征，使得人脸具有皮肤的质感和颜色。

本申请实施例提供的方法，通过赋予人脸关键点拓扑关系，进而生成人脸的结构特征，通过纹理参数及光线参数对三维人脸关键点的拓扑结构进行渲染，生成具有皮肤的质感和颜色的目标驱动形象，有效提升了三维人脸驱动的真实性及视觉效果。

在本申请的图3对应的实施例提供的三维人脸驱动方法的一个可选实施例中，请参阅图10，步骤S130还子步骤S1300。子步骤S1300为子步骤S1301的前置步骤。具体地：

S1300、根据第一表情参数及身份参数，确定当前帧人脸图像中的二维人脸特征点。

其中，身份参数为根据当前帧人脸图像对应的人脸信息生成的向量。

可以理解的是，通过第一表情参数与表情基底可计算得到二维表情信息，通过身份参数与身份基底可以算得到二维身份信息，将表情信息、身份信息以及平均人脸信息相加，得到二维人脸特征点。其中，表情基底、身份基底以及平均人脸信息均为基于统计学对若干人脸进行面部信息统计得到的，通过采集不同人的不同表情的正面人脸图像，对每个人脸图像进行人脸检测及人脸配准，以对人脸图像中的人脸特征点进行定位。

本申请实施例提供的方法，通过第一表情参数及身份参数，确定当前帧人脸图像中的二维人脸特征点，提高了人脸特征点的定位的准确性，为提高人脸驱动准确性奠定了基础。

在本申请的图9对应的实施例提供的三维人脸驱动方法的一个可选实施例中，请参阅图11，步骤S130还子步骤S1304至子步骤S1306。具体地：

S1304、根据第一表情参数及三维人脸重建的表情基底，生成三维人脸重建的表情信息。

其中，三维人脸重建的表情基底为驱动三维人脸重建的基矩阵。

S1305、根据身份参数及三维人脸重建的身份基底，生成三维人脸重建的身份信息。

其中，三维人脸重建的身份基底为驱动三维人脸重建的基矩阵。

S1306、根据三维人脸重建的表情信息、三维人脸重建的身份信息、姿态参数及三维人脸信息，生成当前帧人脸图像对应的三维人脸特征点。

可以理解的是，三维人脸重建的表情基底、三维人脸重建的身份基底及三维人脸信息均为驱动三维人脸重建的基矩阵，三维人脸重建的表情基底、三维人脸重建的身份基底及三维人脸信息构成三维人脸的基本数据信息。将第一表情参数与三维人脸重建的表情基底的进行乘积运算，乘积结果为三维人脸重建的表情信息；将身份参数与三维人脸重建的身份基底进行乘积运算，乘积结果为三维人脸重建的身份信息，将三维人脸重建的表情信息、三维人脸重建的身份信息及三维人脸信息的加法结果，乘以姿态参数，得到三维人脸特征点。三维人脸特征点可通过以下公式计算：

X＝P(N+B_id·e₁+B_exp·e₂)；

其中，X表示三维人脸特征点，P表示姿态参数,N表示三维人脸信息，B_id表示三维人脸重建的身份基底，e₁表示身份参数，B_exp表示三维人脸重建的表情基底，e₂表示第一表情参数。

为便于理解，下面对基底的制作进行解释。由于基底的表达能力限制着三维重建效果的上限，因此对3DMM基底重新进行了制作。制作流程包括：步骤1：获取人脸的原始点云数据；如图12所示，利用3D扫描设备采集人脸的原始点云数据，得到人脸的原始点云数据构成的3D几何和纹理图(扫描模型)。步骤2：获取三维目标对象的拓扑模型(标准头模)；通过3D建模师设计拓扑合理、布线流畅的三维目标对象的拓扑模型，如图13所示，其中a为高精准度标准头模，用于训练时候高精度拟合；b是低精准度标准头模，用于预测时候减少计算量。步骤3：对扫描模型进行注册。如图14所示，通过对扫描得到的人脸的原始点云数据构成的3D几何和纹理图进行渲染，再对渲染图检测2D配准点，最后反向查找获取三维人脸特征点；利用三维目标对象的拓扑模型中的标记点及标记点的拓扑关系，将三维人脸特征点与三维目标对象的拓扑模型中的标记点进行配准，配准后的三维人脸特征点记为三维人脸关键点，根据标记点的拓扑关系对三维人脸关键点进行拓扑关系构建，即可对采集的3D扫描数据进行注册，得到具备标准网格的3D模型。步骤4：基底制作。基底制作分为ID基底制作、纹理基底制作及表情基制作。对于ID基底：选取原始点云数据中每个ID的自然表情模型做PCA降维，得到ID基底。对于纹理基底：提取原始点云数据中的纹理，得到纹理模型，同样经过PCA降维，得到纹理基底。对于表情基，如图15所示，通过标准头模对应的表情变形对具备标准网格的3D模型进行形变迁移：由于面向avatar驱动场景，需要明确语义的表情基，因此利用标准头模作为模板，通过形变迁移算法得到语义和ARKIT一致的表情基。

本申请实施例提供的方法，通过第一表情参数及三维人脸重建的表情基底的计算结果、身份参数及三维人脸重建的身份基底的计算结果与姿态参数及三维人脸信息，生成当前帧人脸图像对应的三维人脸特征点，提高了三维人脸特征点的准确性，为提高人脸驱动准确性奠定了基础。

在本申请的图3对应的实施例提供的三维人脸驱动方法的一个可选实施例中，请参阅图16，步骤S130进一步包括子步骤S131至子步骤S132。具体地：

S131、根据第一表情参数及三维目标对象的表情基底，得到目标表情信息。

S132、根据目标表情信息、姿态参数及三维目标对象的形象基底进行加权求和计算，生成目标驱动形象。

通过第一表情参数与三维目标对象的表情基底进行乘积运算，可以得到驱动三维目标对象的目标表情信息；将驱动三维目标对象的目标表情信息与三维目标的形象基底进行和运算，并将和结果与姿态参数相乘，积结果为目标驱动形象。目标驱动对象可以通过以下公式计算：

y＝P(M+A_exp·e₂)；

本申请实施例提供的方法，通过三维人脸重建模型对二维的当前帧人脸图像进行处理，得到当前帧人脸图像中的第一表情参数及姿态参数，通过在三维人脸重建模型中增加第一表情参数分支，提高对当前帧人脸图像中表情的捕捉能力，以及通过第一表情参数及姿态参数驱动的三维目标对象的形象基底及三维目标对象的表情基底，有效提升了三维人脸驱动的效果。

在本申请的图3对应的实施例提供的三维人脸驱动方法的一个可选实施例中，请参阅图17，三维人脸驱动方法还包括步骤S210至步骤S240。具体地：

S210、获取训练人脸图像及训练人脸图像对应的表情参数标签。

可以理解的是，从视频中获取训练人脸图像。训练人脸图像为二维(2D)图像。例如，在远程会议场景中，获取当前时间点对应的人脸图像即为该训练人脸图像；在短视频拍摄场景中，获取当前时间点对应的人脸图像即为该训练人脸图像。步骤S110包括至少两个过程：获取图像，以及对获取到的图像进行人脸识别。可通过人脸检测或人脸匹配实现人脸识别。

训练人脸图像对应的表情参数标签是指通过人工或者通过人工智能标签标注模型对训练人脸图像中的表情信息进行标记形成的标签数据。表情参数标签能够准确的反应出训练人脸图像中的表情信息。

S220、将训练人脸图像作为三维人脸重建模型的输入，通过三维人脸重建模型输出第一表情训练参数。

其中，第一表情训练参数为根据训练人脸图像对应的表情信息生成的向量。

可以理解的是，三维人脸重建模型可以实现根据二维的训练人脸图像，生成对应的该人脸的三维模型，例如D3DFR算法实现的三维人脸重建模型。将D3DFR算法实现的三维人脸重建模型分割为两部分，一部分为几何重建网络，另一部分为纹理重建网络。在训练阶段，需要几何重建网络与纹理重建网络共同作用；而在方案落地实时，仅仅需要几何重建网络。纹理重建网络可以采用计算量大、结构复杂的网络，几何重建可以采用计算较量小、结构较简单的网络。

在几何重建网络中添加arkit表情分支，通过arkit表情分支输出第一表情训练参数。由arkit表情分支输出的第一表情训练参数能够精准的捕捉当前帧人脸图像中用户的表情信息，通过第一表情训练参数生成的虚拟的三维目标对象能够完全复制用户的表情，提高表情驱动的准确性。几何重建网络的输出包括：第一表情训练参数(arkitexp)、第二表情参数(exp)、姿态参数(pose)及身份参数(ID)。第一表情训练参数为根据当前帧人脸图像对应的表情信息生成的向量；第二表情参数为根据当前帧人脸图像对应的表情类型生成的向量，第一表情训练参数的向量维数高于第二表情参数的向量维数，第一表情训练参数相较于第二表情参数更加能够体现用户的表情细节；姿态参数为根据当前帧人脸图像对应的姿态信息生成的矩阵；身份参数为根据当前帧人脸图像对应的人脸信息生成的向量。

S230、根据第一表情训练参数及表情参数标签，生成表情参数损失函数。

其中，表情参数损失函数用于对三维人脸重建模型进行训练。

S240、根据表情参数损失函数对三维人脸重建模型进行训练。

可以理解的是，表情参数损失函数(arkit表情参数损失函数)可通过以下公式表示：

其中，L_exp表示表情参数损失函数，i表示训练中一个batch中的某个样本，N表示训练中一个batch中一共有N个样本，e_i表示第一表情训练参数，表示表情参数标签。

本申请实施例提供的方法，通过三维人脸重建模型对二维的训练人脸图像进行处理，得到训练人脸图像中的第一表情训练参数，根据第一表情训练参数以及训练人脸图像对应的表情参数标签生成表情参数损失函数，基于表情参数损失函数对三维人脸重建模型进行训练，提升了三维人脸驱动的效果。

在本申请的图17对应的实施例提供的三维人脸驱动方法的一个可选实施例中，请参阅图18，三维人脸驱动方法还包括步骤S310至步骤S350。具体地：

S310、通过三维人脸重建模型输出第二表情训练参数、姿态训练参数、身份训练参数。

其中，第二表情训练参数为根据训练人脸图像对应的表情信息生成的向量，姿态参数为根据训练人脸图像对应的姿态信息生成的矩阵，身份训练参数为根据训练人脸图像对应的人脸信息生成的向量。

可以理解的是，根据通过三维人脸重建模型中的几何重建网络输出第二表情训练参数、姿态训练参数、身份训练参数。第二表情训练参数为根据训练人脸图像对应的表情信息生成的向量；第一表情训练参数相较于第二表情训练参数更加能够体现用户的表情细节；姿态训练参数为根据训练人脸图像对应的姿态信息生成的矩阵；身份训练参数为根据训练人脸图像对应的人脸信息生成的向量。

S320、对训练人脸图像进行人脸检测，得到训练二维人脸关键点。

可以理解的是，通过人脸检测对训练人脸图像中的人脸关键点进行定位，得到训练二维人脸关键点。

S330、根据第二表情训练参数、姿态训练参数及身份训练参数生成训练三维人脸关键点。

可以理解的是，根据第二表情训练参数、姿态训练参数及身份训练参数对二维人脸关键点进行三维重建，得到训练三维人脸关键点。

S340、根据训练二维人脸关键点及训练三维人脸关键点，生成关键点损失函数。

其中，关键点损失函数用于与表情参数损失函数训练三维人脸重建模型。

可以理解的是，关键点损失函数通过以下公式表示：

可以理解的是，L_landmark表示关键点损失函数，i表示训练中一个batch中的某个样本，N表示训练中一个batch中一共有N个样本，q_i表示训练三维人脸关键点，表示训练二维人脸关键点。

S350、根据关键点损失函数及表情参数损失函数训练三维人脸重建模型。

可以理解的是，根据关键点损失函数及表情参数损失函数，对三维人脸重建模型进行联合训练。

本申请实施例提供的方法，通过训练人脸图像对应的二维人脸关键点与三维人脸重建模型输出的参数建立得到的训练三维人脸关键点，生成关键点损失函数，基于关键点损失函数及表情参数损失函数训练三维人脸重建模型，提升了三维人脸驱动的效果。

在本申请的图18对应的实施例提供的三维人脸驱动方法的一个可选实施例中，请参阅图19，三维人脸驱动方法还包括步骤S410至步骤S440。具体地：

S410、通过三维人脸重建模型输出纹理训练参数及光线训练参数。

其中，纹理训练参数为根据训练人脸图像对应的皮肤纹理信息生成的向量，光线参数为根据训练人脸图像对应的颜色信息生成的向量。

可以理解的是，通过三维人脸重建模型中的纹理重建网络输出纹理训练参数及光线训练参数。纹理训练参数为根据当前帧人脸图像对应的皮肤纹理信息生成的向量，光线训练参数为根据当前帧人脸图像对应的颜色信息及饱和度信息生成的向量。

S420、根据纹理训练参数及光线训练参数对训练三维人脸关键点组成的训练三维人脸重建模型进行渲染，得到渲染图像。

可以理解的是，据纹理训练参数及光线训练参数对三维人脸关键点组成的训练三维人脸重建模型进行渲染，在人脸的结构特征上增加光线及纹理特征，使得人脸具有皮肤的质感和颜色。

S430、根据训练人脸图像及渲染图像，生成感知损失函数。

其中，感知损失函数用于与表情参数损失函数、关键点损失函数训练三维人脸重建模型。

可以理解的是，对训练人脸图像及渲染图像进行感知特征向量提取，分别得到练人脸图像提取的感知特征向量及渲染图像提取的感知特征向量。根据训练人脸图像、渲染图像、训练人脸图像对应的感知特征向量以及渲染图像对应的感知特征向量，生成感知损失函数。感知损失函数可以通过以下公式表示：

其中，L_perceptual表示感知损失函数，I表示训练人脸图像，表示渲染图像，f(I)表示从训练人脸图像提取的感知特征向量，/>表示从渲染图像提取的感知特征向量。

S440、根据关键点损失函数、表情参数损失函数及感知损失函数训练三维人脸重建模型。

可以理解的是，根据关键点损失函数、表情参数损失函数及感知损失函数，对三维人脸重建模型进行联合训练。

本申请实施例提供的方法，根据三维人脸重建模型中的纹理重建网络输出的纹理训练参数及光线训练参数对训练三维人脸关键点组成的训练三维人脸重建模型进行渲染，得到渲染图像，根据渲染图像与训练人脸图像，生成感知损失函数；基于关键点损失函数、表情参数损失函数及感知损失函数训练三维人脸重建模型，提升了三维人脸驱动的效果。

在本申请的图19对应的实施例提供的三维人脸驱动方法的一个可选实施例中，请参阅图20，三维人脸驱动方法还包括步骤S510至步骤S520。具体地：

S510、根据训练人脸图像、渲染图像及训练三维人脸关键点，生成重渲染损失函数。

可以理解的是，重渲染损失函数通过以下公式表示：

其中，L_rendering表示重渲染损失函数，i表示训练中一个batch中的某个样本，M表示训练中一个batch中一共有M个样本，A_i表示训练三维人脸关键点，I_i表示训练人脸图像，表示渲染图像。

S520、根据表情参数损失函数、关键点损失函数、感知损失函数及重渲染损失函数，对三维人脸重建模型进行训练。

可以理解的是，根据表情参数损失函数、关键点损失函数、感知损失函数及重渲染损失函数，对三维人脸重建模型进行联合训练。

请参阅图21，图21是本申请实施例提供的三维人脸模型训练的示意图。将训练人脸图像输入到三维人脸重建模型中，通过三维人脸重建模型中的几何重建网络输出第一表情参数(arkitexp)、第二表情参数(exp)、姿态参数(pose)及身份参数(ID)，通过三维人脸重建模型中的纹理重建网络输出纹理参数(tex)及光线参数(lighting)。将第二表情参数(exp)、姿态参数(pose)、身份参数(ID)纹理参数(tex)、光线参数(lighting)及三维目标对象的基底(YTFM)输入解码单元，对解码单元的输出结果进行可微分渲染，得到训练驱动形象。

本申请实施例提供的方法，根据训练人脸图像、渲染图像及训练三维人脸关键点，生成重渲染损失函数；基于表情参数损失函数、关键点损失函数、感知损失函数及重渲染损失函数训练三维人脸重建模型，提升了三维人脸驱动的效果。

下面对本申请中的三维人脸驱动装置进行详细描述，请参阅图22。图22为本申请实施例中三维人脸驱动装置10的一个实施例示意图，三维人脸驱动装置10包括：

人脸图像获取模块110，用于获取当前帧人脸图像；

三维人脸重建模型处理模块120，用于将当前帧人脸图像作为三维人脸重建模型的输入，通过三维人脸重建模型输出第一表情参数及姿态参数。

目标对象驱动模块130，用于根据第一表情参数、姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象。

本申请实施例提供的装置，通过三维人脸重建模型对二维的当前帧人脸图像进行处理，得到当前帧人脸图像中的第一表情参数及姿态参数，通过在三维人脸重建模型中增加第一表情参数分支，提高对当前帧人脸图像中表情的捕捉能力，以及通过第一表情参数及姿态参数驱动的三维目标对象的形象基底及三维目标对象的表情基底，有效提升了三维人脸驱动的效果。通过将三维人脸重建模型分割为几何重建网络和纹理重建网络，将轻巧的深度网络Tiny-MBV2作为几何重建网络的网络结构，在移动端部署几何重建网络，可以减小在人脸驱动中的计算量，从而降低对内存消耗以及对CPU的占用，提高三维人脸驱动的效率，缩短三维人脸驱动的时间，解决了目前的三维人脸驱动过程中的卡顿等现象。

在本申请的图22对应的实施例提供的三维人脸驱动装置的一个可选实施例中，目标对象驱动模块130还用于：

本申请实施例提供的装置，通过第一表情参数确定二维人脸特征点，根据姿态参数对二维人脸特征点进行三维重建，得到三维人脸特征点，进而根据目标对象的拓扑模型对三维人脸特征点进行拓扑关系建立，生成目标驱动形象，有效提升了三维人脸驱动的效果。

本申请实施例提供的装置，根据拓扑模型中的标记点从三维人脸特征点中确定三维人脸关键点，对三维人脸关键点赋予将拓扑模型中的拓扑关系，生成目标驱动形象，有效提升了三维人脸驱动的效果。

根据拓扑关系，对三维人脸关键点进行拓扑关系构建，生成三维人脸关键点的拓扑结构。

根据纹理参数及光线参数对三维人脸关键点的拓扑结构进行渲染，生成目标驱动形象。

本申请实施例提供的装置，通过赋予人脸关键点拓扑关系，进而生成人脸的结构特征，通过纹理参数及光线参数对三维人脸关键点的拓扑结构进行渲染，生成具有皮肤的质感和颜色的目标驱动形象，有效提升了三维人脸驱动的真实性及视觉效果。

本申请实施例提供的装置，通过第一表情参数及身份参数，确定当前帧人脸图像中的二维人脸特征点，提高了人脸特征点的定位的准确性，为提高人脸驱动准确性奠定了基础。

本申请实施例提供的装置，通过第一表情参数及三维人脸重建的表情基底的计算结果、身份参数及三维人脸重建的身份基底的计算结果与姿态参数及三维人脸信息，生成当前帧人脸图像对应的三维人脸特征点，提高了三维人脸特征点的准确性，为提高人脸驱动准确性奠定了基础。

本申请实施例提供的装置，通过三维人脸重建模型对二维的当前帧人脸图像进行处理，得到当前帧人脸图像中的第一表情参数及姿态参数，通过在三维人脸重建模型中增加第一表情参数分支，提高对当前帧人脸图像中表情的捕捉能力，以及通过第一表情参数及姿态参数驱动的三维目标对象的形象基底及三维目标对象的表情基底，有效提升了三维人脸驱动的效果。

在本申请的图22对应的实施例提供的三维人脸驱动装置的一个可选实施例中，请参阅图23。三维人脸驱动装置还包括三维人脸重建模型训练模块200；三维人脸重建模型训练模块200用于：

获取训练人脸图像及训练人脸图像对应的表情参数标签；

本申请实施例提供的装置，通过三维人脸重建模型对二维的训练人脸图像进行处理，得到训练人脸图像中的第一表情训练参数，根据第一表情训练参数以及训练人脸图像对应的表情参数标签生成表情参数损失函数，基于表情参数损失函数对三维人脸重建模型进行训练，提升了三维人脸驱动的效果。

在本申请的图23对应的实施例提供的三维人脸驱动装置的一个可选实施例中，三维人脸重建模型训练模块200还用于：

对训练人脸图像进行人脸检测，得到训练二维人脸关键点；

本申请实施例提供的装置，通过训练人脸图像对应的二维人脸关键点与三维人脸重建模型输出的参数建立得到的训练三维人脸关键点，生成关键点损失函数，基于关键点损失函数及表情参数损失函数训练三维人脸重建模型，提升了三维人脸驱动的效果。

本申请实施例提供的装置，根据三维人脸重建模型中的纹理重建网络输出的纹理训练参数及光线训练参数对训练三维人脸关键点组成的训练三维人脸重建模型进行渲染，得到渲染图像，根据渲染图像与训练人脸图像，生成感知损失函数；基于关键点损失函数、表情参数损失函数及感知损失函数训练三维人脸重建模型，提升了三维人脸驱动的效果。

本申请实施例提供的装置，根据训练人脸图像、渲染图像及训练三维人脸关键点，生成重渲染损失函数；基于表情参数损失函数、关键点损失函数、感知损失函数及重渲染损失函数训练三维人脸重建模型，提升了三维人脸驱动的效果。

图24是本申请实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图24所示的服务器结构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种三维人脸驱动方法，其特征在于，包括：

获取当前帧人脸图像；

将所述当前帧人脸图像作为三维人脸重建模型的输入，通过所述三维人脸重建模型输出第一表情参数及姿态参数，其中，所述第一表情参数为根据所述当前帧人脸图像对应的表情信息生成的向量，所述姿态参数为根据所述当前帧人脸图像对应的姿态信息生成的矩阵；

根据所述第一表情参数、所述姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象；其中，所述三维目标的形象基底及所述三维目标的表情基底为驱动所述三维目标对象的基矩阵。

2.如权利要求1所述的三维人脸驱动方法，其特征在于，所述根据所述第一表情参数、所述姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象，包括：

根据所述姿态参数对二维人脸特征点进行三维重建，生成所述当前帧人脸图像对应的三维人脸特征点，其中，所述二维人脸特征点为根据所述第一表情参数确定的；

根据所述三维目标对象的形象基底及所述三维目标对象的表情基底，确定所述三维目标对象的拓扑模型；

根据所述三维目标对象的拓扑模型对所述三维人脸特征点进行拓扑关系构建，得到目标驱动形象。

3.如权利要求2所述的三维人脸驱动方法，其特征在于，所述根据所述三维目标对象的拓扑模型对所述三维人脸特征点进行拓扑关系构建，得到目标驱动形象，包括：

获取所述三维目标对象的拓扑模型中的标记点及标记点的拓扑关系；

将所述三维人脸特征点与所述拓扑模型中的标记点进行配准，得到三维人脸关键点；

根据所述拓扑关系，对所述三维人脸关键点进行拓扑关系构建，得到目标驱动形象。

4.如权利要求3所述的三维人脸驱动方法，其特征在于，所述根据所述拓扑关系，对所述三维人脸关键点进行拓扑关系构建，得到目标驱动形象，包括：

根据所述拓扑关系，对所述三维人脸关键点进行拓扑关系构建，生成三维人脸关键点的拓扑结构；

根据纹理参数及光线参数对所述三维人脸关键点的拓扑结构进行渲染，生成目标驱动形象，其中，所述纹理参数为根据所述当前帧人脸图像对应的皮肤纹理信息生成的向量，所述光线参数为根据所述当前帧人脸图像对应的颜色信息及饱和度信息生成的向量。

5.如权利要求2所述的三维人脸驱动方法，其特征在于，所述根据所述姿态参数对二维人脸特征点进行三维重建，生成所述当前帧人脸图像对应的三维人脸特征点之前，包括：

根据所述第一表情参数及身份参数，确定所述当前帧人脸图像中的二维人脸特征点，其中，所述身份参数为根据所述当前帧人脸图像对应的人脸信息生成的向量。

6.如权利要求5所述的三维人脸驱动方法，其特征在于，所述根据所述姿态参数对所述二维人脸特征点进行三维重建，生成所述当前帧人脸图像对应的三维人脸特征点，还包括：

根据所述第一表情参数及三维人脸重建的表情基底，生成三维人脸重建的表情信息，其中，所述三维人脸重建的表情基底为驱动所述三维人脸重建的基矩阵；

根据所述身份参数及三维人脸重建的身份基底，生成三维人脸重建的身份信息，其中，所述三维人脸重建的身份基底为驱动所述三维人脸重建的基矩阵；

根据所述三维人脸重建的表情信息、所述三维人脸重建的身份信息、所述姿态参数及三维人脸信息，生成所述当前帧人脸图像对应的三维人脸特征点。

7.如权利要求1所述的三维人脸驱动方法，其特征在于，所述根据所述第一表情参数、所述姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象，包括：

根据所述第一表情参数及所述三维目标对象的表情基底，得到目标表情信息；

根据所述目标表情信息、所述姿态参数及所述三维目标对象的形象基底进行加权求和计算，生成目标驱动形象。

8.如权利要求1所述的三维人脸驱动方法，其特征在于，所述方法还包括：

获取训练人脸图像及所述训练人脸图像对应的表情参数标签；

将所述训练人脸图像作为三维人脸重建模型的输入，通过所述三维人脸重建模型输出第一表情训练参数，其中，所述第一表情训练参数为根据所述训练人脸图像对应的表情信息生成的向量；

根据所述第一表情训练参数及所述表情参数标签，生成表情参数损失函数，所述表情参数损失函数用于对所述三维人脸重建模型进行训练。

9.如权利要求8所述的三维人脸驱动方法，其特征在于，所述将所述训练人脸图像作为三维人脸重建模型的输入之后，还包括：

通过所述三维人脸重建模型输出第二表情训练参数、姿态训练参数、身份训练参数，其中，所述第二表情训练参数为根据所述训练人脸图像对应的表情信息生成的向量，所述姿态参数为根据所述训练人脸图像对应的姿态信息生成的矩阵，所述身份训练参数为根据所述训练人脸图像对应的人脸信息生成的向量；

对所述训练人脸图像进行人脸检测，得到训练二维人脸关键点；

根据所述第二表情训练参数、所述姿态训练参数及所述身份训练参数生成训练三维人脸关键点；

根据所述训练二维人脸关键点及所述训练三维人脸关键点，生成关键点损失函数，其中，所述关键点损失函数用于与所述表情参数损失函数训练所述三维人脸重建模型。

10.如权利要求9所述的三维人脸驱动方法，其特征在于，所述将所述训练人脸图像作为三维人脸重建模型的输入之后，还包括：

通过所述三维人脸重建模型输出纹理训练参数及光线训练参数，其中，所述纹理训练参数为根据所述训练人脸图像对应的皮肤纹理信息生成的向量，所述光线参数为根据所述训练人脸图像对应的颜色信息生成的向量；

根据所述纹理训练参数及所述光线训练参数对所述训练三维人脸关键点组成的训练三维人脸重建模型进行渲染，得到渲染图像；

根据所述训练人脸图像及所述渲染图像，生成感知损失函数，其中，所述感知损失函数用于与所述表情参数损失函数、所述关键点损失函数训练所述三维人脸重建模型。

11.如权利要求10所述的三维人脸驱动方法，其特征在于，所述根据所述训练人脸图像及所述渲染图像，生成感知损失函数之后，还包括：

根据所述训练人脸图像、所述渲染图像及所述训练三维人脸关键点，生成重渲染损失函数；

根据所述表情参数损失函数、所述关键点损失函数、所述感知损失函数及所述重渲染损失函数，对所述三维人脸重建模型进行训练。

12.一种三维人脸驱动装置，其特征在于，包括：

人脸图像获取模块，用于获取当前帧人脸图像；

三维人脸重建模型处理模块，用于将所述当前帧人脸图像作为三维人脸重建模型的输入，通过所述三维人脸重建模型输出第一表情参数及姿态参数，其中，所述第一表情参数为根据所述当前帧人脸图像对应的表情信息生成的向量，所述姿态参数为根据所述当前帧人脸图像对应的姿态信息生成的矩阵；

目标对象驱动模块，用于根据所述第一表情参数、所述姿态参数、三维目标对象的形象基底及三维目标对象的表情基底，生成目标驱动形象；其中，所述三维目标的形象基底及所述三维目标的表情基底为驱动所述三维目标对象的基矩阵。

13.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如权利要求1至12中任一项所述的三维人脸驱动方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

14.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至12中任一项所述的三维人脸驱动方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行如权利要求1至12中任一项所述的三维人脸驱动方法。