CN116665274A

CN116665274A - 人脸驱动方法和装置

Info

Publication number: CN116665274A
Application number: CN202310655629.9A
Authority: CN
Inventors: 李亘杰
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-08-29

Abstract

本申请实施例了提供一种人脸驱动方法，该人脸驱动方法包括：获取待驱动图像的第一面部特征；获取驱动源图像的第二面部特征和关键点特征；根据所述关键点特征和所述第二面部特征，获取深度特征；将所述第一面部特征、所述第二面部特征、所述关键点特征和所述深度特征输入到预先训练好的目标神经网络中，通过所述目标神经网络输出所述目标驱动图像；其中，所述目标驱动图像为所述待驱动图像在所述驱动源图像驱动下形成的图像。本申请实施例的技术方案可以利用深度特征精确地解析驱动源图像的人脸三维结构，从而为人脸驱动给提供更丰富的人脸信息，有效提高人脸驱动的表现效果和精度。

Description

人脸驱动方法和装置

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种人脸驱动方法、装置、计算机设备、计算机可读存储介质。

背景技术

随着神经网络和计算机技术的快速发展，人脸驱动技术开始应用于计算机游戏、动画制作等领域。人脸驱动技术可以基于真实人脸来驱动三维渲染器面部模型或者2D图像的虚拟人脸，从而实现虚拟人脸和真实人脸在说话、表情和面部细节等多方面的同步。

现有的人脸驱动技术，驱动效果差，从而影响用户的使用体验。

需要说明的是，上述内容并不必然是现有技术，也不用于限制本申请的专利保护范围。

发明内容

本申请实施例提供一种人脸驱动方法、装置、计算机设备、计算机可读存储介质，以解决或缓解上面提出的一项或更多项技术问题。

本申请实施例的一个方面提供了一种人脸驱动方法，所述方法包括：

获取待驱动图像的第一面部特征；

获取驱动源图像的第二面部特征和关键点特征；

根据所述关键点特征和所述第二面部特征，获取深度特征；

将所述第一面部特征、所述第二面部特征、所述关键点特征和所述深度特征输入到预先训练好的目标神经网络中，通过所述目标神经网络输出所述目标驱动图像；其中，所述目标驱动图像为所述待驱动图像在所述驱动源图像驱动下形成的图像。

可选地，所述获取驱动源图像的第二面部特征和关键点特征，包括：

通过预先训练好的3D模型，获取所述驱动源图像中关键点的3D点云信息；

其中，3D点云信息包括平移参数和旋转参数；所述平移参数用于表示所述关键点在三维坐标系中的移动距离；所述旋转参数用于表示所述关键点在所述三维坐标系的旋转角度。

可选地，所述根据所述关键点特征图和所述第二面部特征，获取深度特征，包括：

根据所述关键点特征和所述第二面部特征，获取第一融合特征；

将所述第一融合特征输入到预先训练好的面部深度网络中，以获取所述深度特征。

可选地，所述根据所述关键点特征和所述第二面部特征，获取第一融合特征，包括：

通过调制解调方式将所述关键点特征加载到所述第二面部特征中，以获取所述第一融合特征。

可选地，所述目标神经网络包括交叉注意力机制网络。

可选地，所述交叉注意力机制网络包括编码层、第一卷积层、第二卷积层和第三卷积层；对应地，所述通过所述目标神经网络输出所述目标驱动图像，包括：

根据所述关键点特征和所述深度特征，获取第二融合特征；

将所述第二融合特征输入到所述编码层；

将所述编码层的输出数据经由所述第一卷积层进行卷积操作，以获取第一矩阵；

根据所述第一面部特征和所述第二面部特征，获取第三融合特征；

将所述第三融合特征输入到所述第二卷积层，以获取第二矩阵；

将所述第三融合特征输入到所述第三卷积层，以获取第三矩阵；

根据所述第一矩阵和所述第二矩阵，获取光流特征；

根据所述光流特征和所述第三矩阵，获取所述目标驱动图像。

可选地，根据所述光流特征和所述第三矩阵，获取所述目标驱动图像，包括：

根据所述第一矩阵和所述第二矩阵，确定维度值；

根据所述光流特征、所述第三矩阵和所述维度值，获取所述目标驱动图像。

本申请实施例的另一个方面提供了一种人脸驱动装置，所述装置包括：

第一获取模块，用于获取待驱动图像的第一面部特征；

第二获取模块，用于获取驱动源图像的第二面部特征和关键点特征；其中，所述驱动源图像用于驱动所述待驱动图像，以形成目标驱动图像；

第三获取模块，用于根据所述关键点特征和所述第二面部特征，获取深度特征；

输出模块，用于将所述第一面部特征、第二面部特征、关键点特征和深度特征输入到预先训练好的目标神经网络中，通过所述目标神经网络输出所述目标驱动图像。

本申请实施例的另一个方面提供了一种计算机设备，包括：

至少一个处理器；及

与所述至少一个处理器通信连接的存储器；

其中：所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

本申请实施例的另一个方面提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机指令，所述计算机指令被处理器执行时实现如上所述的方法。

本申请实施例采用上述技术方案可以包括如下优势：

采用驱动源图像的第二面部特征和关键点特征获取驱动源图像的深度特征。然后，利用驱动源图像驱动所述待驱动图像的过程中，可以结合驱动源图像的关键点特征、深度特征和第二面部特征，来影响待驱动图像的第一面部特征，从而实现动作、表情等的精确同步。由于利用了深度特征精确地解析驱动源图像的人脸三维结构，从而为人脸驱动给提供更丰富的人脸信息，有效提高人脸驱动的表现效果和精度。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示意性示出了根据本申请实施例一的人脸驱动方法的运行环境图；

图2示意性示出了根据本申请实施例一的人脸驱动方法的流程图；

图3示意性示出了图2中步骤S202的子步骤流程图；

图4示意性示出了图2中步骤S204的子步骤流程图；

图5示意性示出了图4中步骤S400的子步骤流程图；

图6示意性示出了图2中步骤S206的子步骤流程图；

图7示意性示出了图6中步骤S614的子步骤流程图；

图8A～图8C是本申请实施例一的人脸驱动方法的应用示例示意图；

图9示意性示出了根据本申请实施例二的人脸驱动装置的框图；及

图10示意性示出了根据本申请实施例三中的计算机设备的硬件架构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

首先，提供本申请涉及的术语解释：

人脸深度：指人脸的三维深度，包括凹凸部分、脸型、表情等。通过使用具有深度感知技术的相机或传感器，可以获得人脸深度图。人脸深度图能够精确地展示人脸表面的深度信息。在计算机视觉领域中，人脸深度图与2D人脸图像结合使用，用于人脸识别、表情分析、虚拟变脸等应用中。

人脸驱动：通过真实人脸来驱动三维渲染器面部模型或2D图像的人脸，从而实现虚拟人脸和真实人脸在说话、表情和面部细节等多方面的同步。

脸部关键点：指人脸上的一些特殊位置，例如眼睛、鼻子、嘴巴等。脸部关键点可以用于表示人脸的姿态、表情等信息。可以通过人脸关键点检测算法自动检测和标记脸部关键点，为后续进行人脸识别、表情识别、表情合成等任务提供基础支持。

自监督学习：是机器学习中的一种学习方式。自监督学习不需要人工标注的标签数据，而是利用无标注数据自行生成对应的训练数据，然后通过这些自动生成的“伪标签”进行训练，进而实现模型的学习和预测。自监督学习被广泛应用于计算机视觉、自然语言处理和语音识别等领域。

注意力机制：是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重，同时减弱其他部分的权重，以帮助神经网络更好的聚焦与输入数据中的重要部分，从而提高模型的性能和可解释性。注意力机制广泛应用于深度学习中，包括自然语言处理、计算机视觉、语音识别等领域。

光流：是指在连续的两帧图像中由于图像中的物体移动或者摄像头的移动导致的图像中目标像素的移动。

点云：是物理对象的数字3D表示，其由多个测量点组成。

其次，为方便本领域技术人员理解本申请实施例提供的技术方案，下面对相关技术进行说明：

人脸驱动技术可以用于驱动面部表情和姿态。即通过肌肉运动原理，研究面部表情如何反映面部肌肉的变化。人脸识别技术有以下几种方案：(1)人基于预设规则，通过人脸模型建模和计算机模拟的方式来生成虚拟人脸的表情和姿态。这种人脸驱动方法需要人为设定规则，很难适应人类表情的复杂多变性。(2)通过神经网络技术(深度学习)对人脸进行特征提取和表情识别，可以捕捉面部表情和姿态，并实现更直观、精细的表情合成。需要说明的是，基于神经网络技术的人脸驱动技术可以应用在虚拟现实、计算机游戏、动画制作等各个领域中。

本申请人了解到，相关的人脸驱动技术都是先获取真实人脸的2D图像或视频，再通过人脸检测算法从图像中提取出真实人脸的脸部关键点。将真实人脸的脸部关键点输入简单的神经网络中来预测和驱动虚拟人脸。

然而，上述的人脸驱动技术存在较多缺陷：(1)基于简单神经网络的人脸驱动需要先进行人脸检测，人脸检测的准确性会直接影响人脸驱动效果。(2)面部特征提取不完整，导致人脸驱动效果不理想。(3)脸部关键点缺乏人脸深度信息，也会降低人脸驱动的效果和精度。(4)基于2D的人脸驱动技术只能提供二维视角的人脸表情信息。而在更丰富的虚拟场景中，需要更加真实的人脸表情效果以满足要求。

为此，本申请实施例提供了一种人脸驱动的技术方案。在该技术方案中，(1)利用3D模型提取人脸的信息并训练自监督的人脸深度图网络以提供更丰富的面部信息。(2)采用交叉注意力机制(Cross Attention)更好的挖掘人脸和3D信息之间的相关性，能够得面部表情的捕捉更为精细，能够体现面部更多的细节。(3)本方案可以使用任意一张人脸图片而不像以往需要一段视频，就能和视频源的人脸同步表情和说话等动作。具有应用的简单性，和很强的通用性。可知，基于人脸的3D信息自监督训练出高精度的人脸深度图用于提供更丰富的人脸信息，而不止于关键点的简单信息，其次本方案使用了交叉注意力机制能更好地提取和利用信息达到更精准的人脸驱动效果。因此本方案利用3D信息使得面部表情的捕捉更为精细，能够体现面部更多的细节；在表情转换时可实现更加自然的面部表情动态，从而实现更真实的面部表情合成效果。具体见后文。

最后为了方便理解，下面提供一个示例性运行环境。

如图1所示，运行环境图包括：服务平台2、客户端(4A、4B、…、4N)。

服务平台2可以通过网络连接客户端(4A、4B、…、4N)。

服务平台2可以是单个服务器、服务器集群或云计算服务中心。

服务平台2可以向客户端提供人脸检测服务、人脸驱动服务等。

人脸检测服务可以包括脸部特征提取服务、脸部关键点检测服务等。

脸部特征提取服务可以被配置为接收图像，以及被配置为对图像进行脸部特征提取。

脸部关键点检测服务可以被配置为接收图像，以及被配置为对图像进行人脸关键点自动检测和标记。

人脸驱动服务可以被配置为接收待驱动图像和驱动源图像，以及被配置为根据驱动源图像驱动待驱动图像。

人脸驱动服务还可以被配置为接收驱动指令，以及被配置为根据驱动指令完成人脸驱动。

服务平台2可以位于单个场所之类的数据中心，或者分布在不同的地理位置(例如，在多个场所)中。服务平台2可以经由网络提供服务。网络包括各种网络设备，如路由器、交换机、多路复用器、集线器、调制解调器、网桥、中继器、防火墙、代理设备和/或类似。网络可以包括物理链路，如同轴电缆链路、双绞线电缆链路、光纤链路其组合等，或无线链路，如蜂窝链路、卫星链路、Wi-Fi链路等。

客户端(4A、4B、…、4N)可以被配置为访问服务平台2的内容和服务。客户端(4A、4B、…、4N)可以包括携带或外接显示面板的电子设备，如移动设备、平板设备、膝上型计算机、工作站、虚拟现实设备，游戏设备、数字流媒体设备、车辆终端、智能电视、机顶盒等，也可以包括虚拟化的计算实例。虚拟化的计算实例可以包括虚拟机，如计算机系统、操作系统、服务器等的仿真。计算设备可以基于虚拟映像和/或定义用于仿真的特定软件(例如，操作系统、专用应用程序、服务器)的其他数据，由计算设备加载虚拟机。随着对不同类型的处理服务的需求改变，可以在一个或多个计算设备上加载和/或终止不同的虚拟机。

客户端(4A、4B、…、4N)可以与一个或多个用户相关联。单个用户也可以使用客户端(4A、4B、…、4N)中的一个或多个来访问服务平台2。客户端(4A、4B、…、4N)可以旅行到各种位置并使用不同的网络来访问服务平台2。

客户端(4A、4B、…、4N)可以包括接口。该接口可以包括触摸板、触摸屏、鼠标、键盘、或其他感应元素。例如，输入元件可以被配置为接收用户指令，所述用户指令可以使客户端(4A、4B、…、4N)执行各类操作，例如选定待驱动图像、选定驱动源图像、上传待驱动图像、上传驱动源图像或视频、确定人脸驱动、取消人脸驱动等。在一些实施例中，所述客户端也可以在本地进行图像驱动。

需注意，上述设备是示例性的，在不同的场景中或根据不同需求，设备数量和种类是可调的。

下面以服务平台2为执行主体，通过多个实施例介绍本申请的技术方案。须知，这些实施例可以由多种不同的形式来实施，并且不应当被解释为只限于这里所阐述的实施例。

实施例一

图2示意性示出了根据本申请实施例一的人脸驱动方法的流程图。

如图2所示，该人脸驱动方法可以包括步骤S200～S206，其中：

步骤S200，获取待驱动图像的第一面部特征。

步骤S202，获取驱动源图像的第二面部特征和关键点特征。

步骤S204，根据所述关键点特征和所述第二面部特征，获取深度特征。

步骤S206，将所述第一面部特征、所述第二面部特征、所述关键点特征和所述深度特征输入到预先训练好的目标神经网络中，通过所述目标神经网络输出所述目标驱动图像；其中，所述目标驱动图像为所述待驱动图像在所述驱动源图像驱动下形成的图像。

以下结合图2，对步骤S200～S206中各个步骤以及可选的其他步骤进行详细阐述。

步骤S200，获取待驱动图像的第一面部特征。

待驱动图像中有待驱动人脸。待驱动人脸可以是真实人脸，也可以是采用深度合成技术合成的虚拟人脸，或者是通过人脸模型建模形成的3D人脸面部模型。

面部特征可以包括人脸特定部位特征信息和人脸整体特征信息，例如面部五官、面部结构、人脸的形态和性别、人脸轮廓等。第一面部特征是待驱动图像的面部特征。

在本实施例中，可以通过多种方式获取待驱动图像的第一面部特征，从而为人脸驱动提供基础支持。举例来说：可以通过人工检测和标记来获取待驱动图像的第一面部特征，也可以通过神经网络技术对待驱动图像进行特征提取以获取第一面部特征。

在示例性应用中，可以通过预先训练好的第一面部特征提取网络，获取所述待驱动图像的第一面部特征。第一面部特征提取网络是预先训练好的、用于提取待驱动图像面部特征的模型。在本示例中，通过第一面部特征提取网络对待驱动图像进行特征提取，可以有效提高对待驱动图像面部特征提取的准确性和完整性，从而缓解因待驱动图像面部特征提取不完整或不准确影响后续人脸驱动表现效果。

在一些实施例中，第一面部特征提取网络可以是Unet(Convolutional Net worksfor Biomedical Image Segmentation)模型，用于压缩数据和面部特征提取，从而减少数据量和提取面部特征。需要说明的是，第一面部特征提取网络也可以是卷积神经网络(CNN)，也可以根据实际需求选择不同模型，在此不做限定。

步骤S202，获取驱动源图像的第二面部特征和关键点特征。

驱动源图像可以是视频源、摄像头采集的帧序列等。驱动源图像可以用于驱动待驱动图像，如驱动待驱动图像的表情、面部细节等。第二面部特征是驱动源图像的面部特征。

关键点可以是人脸上的一些特殊位置，例如眼睛、鼻子、嘴巴等，也可以是预先设定的其他位置。

在本实施例中，可以通过多种方式获取驱动源图像的第二面部特征和关键点特征，从而提取更完善的驱动源人脸信息。

例如，可以通过预先训练好的第二面部特征提取网络，获取所述待驱动图像的第二面部特征。

需要说明的是，第二面部特征提取网络和第一面部特征提取网络是两个相互独立、互不影响的网络模型。第二面部特征提取网络为预先训练好的、且用于提取驱动源图像面部特征的模型。

在本实施例中，通过第二面部特征提取网络对驱动源图像进行特征提取，可以有效提高驱动源面部特征提取的准确性，并且较为完整地提取驱动源图像的面部特征，有效缓解因驱动源面部特征提取不完整或不准确导致后续人脸驱动表现效果不佳。

在一些实施例中，第二面部特征提取网络可以是U-net模型，用于压缩数据和面部特征提取，从而减少数据量和提取面部特征。需要说明的是，第二面部特征提取网络也可以是CNN模型，也可以根据实际需求选择不同模型，在此不做限定。

下面提供一个示例性的获取驱动源图像的关键点特征的方案。

在可选的实施例中，如图3所示，所述步骤S202可以包括：

步骤S300，通过预先训练好的3D模型，获取所述驱动源图像中关键点的3D点云信息；其中，3D点云信息包括平移参数和旋转参数；所述平移参数用于表示所述关键点在三维坐标系中的移动距离；所述旋转参数用于表示所述关键点在所述三维坐标系的旋转角度。

举例而言：可以通过DECA(Detailed Expression Capture and Animation)模型对驱动源图像进行3D信息采集，以获取人脸3D点云。点云是物理对象的数字3D表示，其由多个测量点组成。人脸上的每个关键点(如鼻子、嘴巴)都是由3D点云中对应位置的多个测量点组成的。且每个测量点可以包括(x，y，z，p，y，r)六个参数，其中包括三个平移参数(x，y，z)和三个旋转参数(p，y，r)。其中，平移参数(x，y，z)可以表示测量点在三维坐标系中沿x、y、z三个轴的移动距离。旋转参数可以表示测量点在三维坐标系中的旋转角度或欧拉角，包括俯仰角(pitch)、偏航角(yaw)和翻滚角(roll)，通常用弧度或角度表示。在三维坐标系中，关键点是对应位置多个测量点的集合体，因此可以用对应测量点的参数信息描述关键点在三维空间中的位置和方向。需要说明的是，也可以采用其他方式获取3D点云信息等，例如3D Morphable Mo del(3DMM，三维可变模型)等。

在本实施例中，可以通过3D模型获取驱动源图像中关键点的3D点云信息，以根据3D点云信息中的平移参数和旋转参数获知关键点在三维空间中的方位，从而可以更加准确地获得三维视角的人脸信息，为后续人脸驱动提供更丰富的信息。

关键点是人脸特殊位置，因此可以用关键点特征来表示驱动源人脸的姿态、表情等信息。第二面部特征可以包括驱动源人脸的整体特征信息和特定特征信息，如人脸轮廓、面部结构等。因此，在本实施例中，可以基于关键点特征和第二面部特征，结合局部特征和整体特征、三维视角和二维视角，从中提取出驱动源图像的深度特征。深度特征是人脸的深度信息，它能分辨人脸轮廓和面部特征，区分不同深度和曲率，从而精确地解析人脸三维结构，为人脸驱动提供更丰富的面部信息。

下面提供一种示例性的获取深度特征的方案。

在可选的实施例中，如图4所示，所述步骤S204可以包括：

步骤S400：根据所述关键点特征和所述第二面部特征，获取第一融合特征。

步骤S402：将所述第一融合特征输入到预先训练好的面部深度网络中，以获取所述深度特征。

在本实施例中，在将特征输入面部深度网络之前，可以先对关键点特征和第二面部特征进行特征融合，将两种特征合并成一个更具判别能力的特征。再将该特征输入面部神经网络中，可以以较低计算资源精确地解析人脸三维结构，并提取出深度特征。特征融合的方式可以包括特征拼接、特征组合等，可以根据实际需求选择，在此不作限定。

在一些实施例中，面部深度网络可以包括采用自监督学习方式预先训练得到的模型。可以通过自监督训练的面部深度网络获得高精度的深度特征。需要说明的是，面部神经网络可以是卷积神经网络模型，也可以其他模型，在此不作限定。

下面将提供一个示例性的获取第一融合特征的方案。

在可选的实施例中，如图5所示，所述步骤S400可以包括：

步骤S500，根据所述关键点特征和所述第二面部特征，通过调制解调方式将所述关键点特征加载到所述第二面部特征中，以获取所述第一融合特征。

举例而言，关键点特征可以包括尺寸大小为512*512的关键点特征图(Fe atureMap)。第二面部特征也可以包括尺寸大小为512*512的面部特征图(Fe ature Map)。所述通过调制解调方式为：将关键点特征图上的每个特征点值加在面部特征图上对应位置的特征点上，以得到尺寸大小为512*512融合特征图(Feature Map)。该融合特征图对应第一融合特征。需要说明的是，特征点值在融合之前，可以进行预处理，如方差计算等。

在本实施例中，通过调制解调方式进行特征融合，使不同模态的特征图对应位置的特征点可以进行信息交互，从而获取具有更多的面部细节信息和3D信息的第一融合特征。将第一融合特征输入面部深度网络中，可以有效提取人脸深度信息，从而更精确地解析人脸三维结构。

步骤S206，将所述第一面部特征、第二面部特征、关键点特征和深度特征输入到预先训练好的目标神经网络中，通过所述目标神经网络输出所述目标驱动图像。

目标神经网络可以是进行在特征图之间交互和传递信息的网络模型。

在本实施例中，可以将第一面部特征、第二面部特征、关键点特征和深度特征共同输入目标神经网络中。目标神经网络能够在不同的特征图之间进行交互和传递信息，更好的挖掘人脸和3D信息之间的相关性，使得面部表情的捕捉更为精细，输出的目标驱动图能够体现面部更多的细节，达到更精准的人脸驱动效果。

在可选的实施例中，目标神经网络可以是交叉注意力机制网络。交叉注意力机制可以帮助神经网络更好地聚焦与输入数据中的重要部分，对不同语义空间中的及不同模态的特征图进行交叉对齐和对比，优化多模态信息的融合和对齐任务，从而提高模型的性能和理解能力。需要说明的是，目标神经网络也可以是其它模型。

下面提供一个示例性的通过交叉注意力机制网络获取目标驱动图像的方案。

在可选的实施例中，交叉注意力机制网络可以包括编码层、第一卷积层、第二卷积层和第三卷积层。对应地，如图6所示，所述步骤S206包括：

步骤S600：根据所述关键点特征和所述深度特征，获取第二融合特征。

步骤S602：将所述第二融合特征输入到所述编码层。

步骤S604：将所述编码层的输出数据经由所述第一卷积层进行卷积操作，以获取第一矩阵。

步骤S606：根据所述第一面部特征和所述第二面部特征，获取第三融合特征。

步骤S608：将所述第三融合特征输入到所述第二卷积层，以获取第二矩阵。

步骤S610：将所述第三融合特征输入到所述第三卷积层，以获取第三矩阵。

步骤S612：根据所述第一矩阵和所述第二矩阵，获取光流特征。

步骤S614：根据所述光流特征和所述第三矩阵，获取所述目标驱动图像。

在本实施例中，可以基于关键点特征和深度特征进行特征融合，以获取第二融合特征，从而获得更全面、准确的特征。特征融合可以包括特征拼接、特征组合等。举例来说，关键点特征可以是尺寸大小为512*512的三通道关键点特征图，深度特征也可以是尺寸大小512*512的三通道深度特征图。由于每个特征图的尺寸大小相同，因此可以将关键点特征和深度特征进行特征拼接，以得到尺寸大小为512*512的六通道融合特征图，即第二融合特征。同样地，可以将512*512的三通道第一面部特征图和512*512的三通道第二面部特征图进行特征拼接，以获得512*512的六通道第三融合特征。

将第二融合特征输入编码层中。编码层可以用于压缩数据和降维，去除第二融合特征中的冗余信息，有效减少数据量和计算量。

将编码层的输出数据作为第一卷积层的输入，经第一卷积层1×1conv进行卷积操作后，获得第一矩阵Q。

将第三融合特征输入第二卷积层1×1conv中，经卷积操作后获得第二矩阵K。将第三融合特征输入第三卷积层1×1conv中，经卷积操作后获得第三矩阵V。

将第一矩阵Q和第二矩阵K相乘，可以获得光流特征。光流特征用于描述人脸上的每个像素点在连续的两帧之间的运动信息(如何移动、变形和扭曲)，即人脸表情如何转换。

将光流特征和第三矩阵V相乘，可以获得与目标驱动图对应的特征。由于光流特征包括了驱动源图像人脸像素点的运动信息，第三矩阵V中包括有待驱动图像的第一面部特征，因此可以使用光流特征来影响待驱动人脸第一面部特征，从而使待驱动图像可以复现驱动源图像像素点的运动，也就是实现人脸驱动。在一些实施例中，交叉注意力机制网络还可以包括激活层，将与目标驱动图对应的特征输入激活层，经过激活层可以输出目标驱动图。

在本实施例中，通过交叉注意力机制网络对关键点特征图、深度特征图和面部特征图三个不同语义空间进行交叉对齐和对比，在不同像素位置的特征信息以及空间位置信息进行交互和传递，可以提高图像理解和处理的准确性，更好地挖掘人脸和3D信息之间的相关性，能够得面部表情的捕捉更为精细，能够体现面部更多的细节。

在可选的实施例中，如图7所示，步骤S614还可以包括：

步骤S700：根据所述第一矩阵和所述第二矩阵，确定维度值。

步骤S702：根据所述光流特征、第三矩阵和维度值，获取所述目标驱动图像。

在本实施例中，可以根据第一矩阵Q和第二矩阵K的列数，确定出维度值d_k。再根据矩阵Q，K，V以及维度值d_k，通过交叉注意力机制网络计算获取目标驱动图。

交叉注意力机制的计算公式如下：

其中，d_k是Q、K矩阵的列数。

为了方便模型优化以及提升网络的稳定性，可以在计算过程中除以d_k，防止点积/内积过大，提高计算效率。

为了使得本申请更加容易理解，以下结合图8A～图8C提供一个示例性应用。在该示例性应用中，服务平台2通过网络与客户端连接，并向客户端提供人脸驱动服务。

S11，获取待驱动图像和驱动源图像。

S12，通过第一面部特征提取网络获取待驱动图像的第一面部特征。

S13，通过第二面部特征提取网络获取驱动源图像的第二面部特征。

S14，通过3D模型获取驱动源图像中关键点的3D点云信息。

S15，对关键点的3D点云信息和第二面部特征进行特征融合，得到第一融合特征。

S16，将第一融合特征输入面部深度网络，通过面部深度网络获取人脸深度图。

S17，对人脸深度图和关键点的3D点云信息进行特征融合，得到第二融合特征。

S18，将第二融合特征输入编码层，并经由第一卷积层卷积操作后，获得第一矩阵Q。

S19，对第一面部特征和第二面部特征进行特征融合，得到第三融合特征。

S20，将第三融合特征输入第二卷积层，经卷积操作后，获得第二矩阵K。

S21，将第三融合特征输入第三卷积层，经卷积操作后，获得第三矩阵V。

S22，将第一矩阵Q和第二矩阵K相乘，获得光流图(光流特征)。

S23，将光流图和第三矩阵V相乘，获得目标驱动图。

S24，输出目标驱动图。

在本示例性应用中，采用驱动源图像的第二面部特征和关键点特征获取驱动源图像的深度特征。在利用驱动源图像驱动所述待驱动图像的过程中，可以结合驱动源图像的关键点特征、深度特征和第二面部特征，来影响待驱动图像的第一面部特征，从而实现动作、表情等的精确同步。由于利用了深度特征精确地解析驱动源图像的人脸三维结构，从而为人脸驱动给提供更丰富的人脸信息，有效提高人脸驱动的表现效果和精度。

实施例二

图9示意性示出了根据本申请实施例二的人脸驱动装置的框图，该人脸驱动装置1000可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本实施例中各程序模块的功能。如图9所示，该人脸驱动装置1000可以包括：第一获取模块1100、第二获取模块1200、第三获取模块1300和输出模块1400，其中：

第一获取模块1100，用于获取待驱动图像的第一面部特征；

第二获取模块1200，用于获取驱动源图像的第二面部特征和关键点特征；其中，所述驱动源图像用于驱动所述待驱动图像，以形成目标驱动图像；

第三获取模块1300，用于根据所述关键点特征和所述第二面部特征，获取深度特征；

输出模块1400，用于将所述第一面部特征、第二面部特征、关键点特征和深度特征输入到预先训练好的目标神经网络中，通过所述目标神经网络输出所述目标驱动图像。

作为可选的实施例，所述第二获取模块1200还用于：

作为可选的实施例，所述第三获取模块1300还用于：

作为可选的实施例，所述目标神经网络包括交叉注意力机制网络。

作为可选的实施例，所述交叉注意力机制网络包括编码层、第一卷积层、第二卷积层和第三卷积层；对应地，所述输出模块1400还用于：

根据所述关键点特征和所述深度特征，获取第二融合特征；

将所述第二融合特征输入到所述编码层；

根据所述第一矩阵和所述第二矩阵，获取光流特征；

作为可选的实施例，所述输出模块1400还用于：

根据所述第一矩阵和所述第二矩阵，确定维度值；

实施例三

图10示意性示出了根据本申请实施例三的适于实现人脸驱动方法的计算机设备10000的硬件架构示意图。在一些实施例中，计算机设备10000可以是智能手机、可穿戴设备、平板电脑、个人电脑、车载终端、游戏机、虚拟设备、工作台、数字助理、机顶盒、机器人等终端设备。在另一些实施例中，计算机设备10000可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或多个服务器所组成的服务器集群)等。如图10所示，所述计算机设备10000包括但不限于：可通过系统总线相互通信链接存储器10010、处理器10020、网络接口10030。其中：

存储器10010至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(如，SD或DX存储器)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器10010可以是计算机设备10000的内部存储模块，例如该计算机设备10000的硬盘或内存。在另一些实施例中，存储器10010也可以是计算机设备10000的外部存储设备，例如该计算机设备10000上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，存储器10010还可以既包括计算机设备10000的内部存储模块也包括其外部存储设备。本实施例中，存储器10010通常用于存储安装于计算机设备10000的操作系统和各类应用软件，例如人脸驱动方法的程序代码等。此外，存储器10010还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器10020在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他芯片。该处理器10020通常用于控制计算机设备10000的总体操作，例如执行与计算机设备10000进行数据交互或者通信相关的控制和处理等。本实施例中，处理器10020用于运行存储器10010中存储的程序代码或者处理数据。

网络接口10030可包括无线网络接口或有线网络接口，该网络接口10030通常用于在计算机设备10000与其他计算机设备之间建立通信链接。例如，网络接口10030用于通过网络将计算机设备10000与外部终端相连，在计算机设备10000与外部终端之间建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(WidebandCode Divi sion Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetoo th)、Wi-Fi等无线或有线网络。

需要指出的是，图10仅示出了具有部件10010-10030的计算机设备，但是应该理解的是，并不要求实施所有示出的部件，可以替代地实施更多或者更少的部件。

在本实施例中，存储于存储器10010中的人脸驱动方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(如处理器10020)所执行，以完成本申请实施例。

实施例四

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，其中，计算机程序被处理器执行时实现实施例中的人脸驱动方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEP ROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中人脸驱动方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算机设备来实现，它们可以集中在单个的计算机设备上，或者分布在多个计算机设备所组成的网络上，可选地，它们可以用计算机设备可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算机设备来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

需要说明的是，以上仅为本申请的优选实施例，并非因此限制本申请的专利保护范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种人脸驱动方法，其特征在于，所述方法包括：

获取待驱动图像的第一面部特征；

获取驱动源图像的第二面部特征和关键点特征；

根据所述关键点特征和所述第二面部特征，获取深度特征；

2.根据权利要求1所述的方法，其特征在于，所述获取驱动源图像的第二面部特征和关键点特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述关键点特征图和所述第二面部特征，获取深度特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述关键点特征和所述第二面部特征，获取第一融合特征，包括：

5.根据权利要求1至4所述的方法，其特征在于，所述目标神经网络包括交叉注意力机制网络。

6.根据权利要求5所述的方法，其特征在于，所述交叉注意力机制网络包括编码层、第一卷积层、第二卷积层和第三卷积层；对应地，所述通过所述目标神经网络输出所述目标驱动图像，包括：

根据所述关键点特征和所述深度特征，获取第二融合特征；

将所述第二融合特征输入到所述编码层；

根据所述第一矩阵和所述第二矩阵，获取光流特征；

7.根据权利要求6所述的方法，其特征在于，根据所述光流特征和所述第三矩阵，获取所述目标驱动图像，包括：

根据所述第一矩阵和所述第二矩阵，确定维度值；

8.一种人脸驱动装置，其特征在于，所述装置包括：

第一获取模块，用于获取待驱动图像的第一面部特征；

9.一种计算机设备，其特征在于，包括：

至少一个处理器；及

与所述至少一个处理器通信连接的存储器；其中：

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1至7中任一项所述的方法。