CN116092164B

CN116092164B - 人脸图像重演方法、装置、电子设备及存储介质

Info

Publication number: CN116092164B
Application number: CN202310109275.8A
Authority: CN
Inventors: 刘智威; 徐涵; 王金桥; 赵朝阳
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-12-26
Anticipated expiration: 2043-02-01
Also published as: CN116092164A

Abstract

本发明提供一种人脸图像重演方法、装置、电子设备及存储介质，涉及图像处理技术领域，其中方法包括：对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵；基于目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像；其中，多尺度掩码图像用于标识源图像中扭曲重建的部分和上下文修复的部分；基于密集光流和多尺度掩码图像进行人脸重演，确定源图像和驱动图像对应的重建图像；人脸重演包括扭曲重建和上下文修复。本发明实现了源图像和驱动图像之间存在较大差异时也能够精确人脸重演的目的，大幅提高了人脸重演的精准性和适用性。

Description

人脸图像重演方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种人脸图像重演方法、装置、电子设备及存储介质。

背景技术

众所周知，人脸重演技术是指利用一段视频来驱动一张图像，使图像中的人脸能够模仿视频中人物的面部姿态、表情和动作，实现静态图像视频化的效果，并由于重演的人脸图像及能够保留原图像中的身份信息，同时也能够包含驱动图像中人物的表情和姿态，因此，人脸重演技术可广泛应用于媒体、娱乐、虚拟现实等方面。

相关技术中的人脸重演方法，首先基于源图像的不同参数集生成不同模拟图像，再估计不同模拟图像的运动向量，然后基于驱动图像和运动向量进行人脸重演，确定人脸图像对应的重演图像。

然而，虽然现有人脸重演方法也可以用于人脸图像重演，但却仅适用于源图像和驱动图像之间的位姿差异并不大的人脸重演情况，并不适用于源图像和驱动图像之间存在较大差异时的人脸重演情况，从而导致人脸重演的精准性和适用性不高。

发明内容

本发明提供一种人脸图像重演方法、装置、电子设备及存储介质，用以解决现有技术仅适用源图像和驱动图像之间的位姿差异并不大的人脸重演情况所导致的人脸重演的精准性和适用性不高的缺陷，通过从人脸关键点中选取薄板样条插值关键点确定更加灵活的密集光流的方式，实现源图像和驱动图像之间存在较大差异时也能够精确人脸重演的目的，从而大幅提高了人脸重演的精准性和适用性。

本发明提供一种人脸图像重演方法，包括：

对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵；

基于所述目标人脸薄板样条插值关键点矩阵和所述背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像；其中，所述多尺度掩码图像用于标识所述源图像中扭曲重建的部分和上下文修复的部分；

基于所述密集光流和所述多尺度掩码图像进行人脸重演，确定所述源图像和所述驱动图像对应的重建图像；所述人脸重演包括所述扭曲重建和所述上下文修复。

根据本发明提供的一种人脸图像重演方法，所述对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵，包括：

采用Resnet18网络和注意力机制，确定源图像中人脸关键点注意力的第一初始得分矩阵和驱动图像中所述人脸关键点注意力的第二初始得分矩阵；

对所述第一初始得分矩阵和所述第二初始得分矩阵分别进行Gumbel-softmax采样，确定第一采样得分矩阵和第二采样得分矩阵；

基于所述第一采样得分矩阵和所述第二采样得分矩阵，确定第一人脸薄板样条插值关键点矩阵和第二人脸薄板样条插值关键点矩阵；

基于全连接层，对所述源图像和所述驱动图像分别进行自监督学习，确定第三人脸薄板样条插值关键点矩阵和第四人脸薄板样条插值关键点矩阵；

基于所述第一人脸薄板样条插值关键点矩阵、所述第二人脸薄板样条插值关键点矩阵、所述第三人脸薄板样条插值关键点矩阵和所述第四人脸薄板样条插值关键点矩阵，确定所述目标人脸薄板样条插值关键点矩阵；

采用所述Resnet18网络对所述源图像和所述驱动图像进行背景检测，确定背景仿射变换参数矩阵。

根据本发明提供的一种人脸图像重演方法，所述基于所述目标人脸薄板样条插值关键点矩阵和所述背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像，包括：

基于所述目标人脸薄板样条插值关键点矩阵，确定热图；所述热图表征所述源图像与所述驱动图像之间的差异；

确定所述目标人脸薄板样条插值关键点矩阵对应的目标薄板样条插值变换矩阵以及所述背景仿射变换参数矩阵对应的目标背景仿射变换矩阵；

对所述目标薄板样条插值变换矩阵和所述目标背景仿射变换矩阵进行双线性插值，确定所述源图像经扭曲后所得的扭曲编码特征图；

基于所述热图和所述扭曲编码特征图进行光流和掩码预测，确定所述密集光流和所述多尺度掩码图像。

根据本发明提供的一种人脸图像重演方法，在所述确定所述源图像和所述驱动图像对应的重建图像之后，所述方法还包括：

基于所述源图像、所述驱动图像、所述目标人脸薄板样条插值关键点矩阵和所述重建图像，确定混合空间域损失；

基于所述混合空间域损失和预设损失需求的匹配成功结果，确定所述重建图像为符合重演需求的目标重演图像；

基于所述混合空间域损失和所述预设损失需求的匹配失败结果，获取新的源图像和/或新的驱动图像，然后执行所述对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵的步骤；直至确定出所述符合重演需求的目标重演图像。

根据本发明提供的一种人脸图像重演方法，所述基于所述源图像、所述驱动图像、所述目标人脸薄板样条插值关键点矩阵和所述重建图像，确定混合空间域损失，包括：

确定所述驱动图像和所述重建图像之间的二维重建损失；

基于所述源图像和所述目标人脸薄板样条插值关键点矩阵，确定二维等方差损失；

基于所述源图像和所述驱动图像，确定二维背景损失；

基于所述源图像的扭曲编码特征图以及所述驱动图像，确定二维扭曲损失；

基于所述二维重建损失、所述二维等方差损失、所述二维背景损失和所述二维扭曲损失，确定二维空间域损失；

基于所述驱动图像和所述重建图像，确定三维空间域损失；

基于所述二维空间域损失和所述三维空间域损失，确定混合空间域损失。

根据本发明提供的一种人脸图像重演方法，所述基于所述驱动图像和所述重建图像，确定三维空间域损失，包括：

基于所述驱动图像对预训练的人脸重建网络进行表情系数回归，确定第一表情系数向量；

基于所述重建图像对所述预训练的人脸重建网络进行表情系数回归，确定第二表情系数向量；

基于所述第一表情系数向量和所述第二表情系数向量，确定所述三维空间域损失。

根据本发明提供的一种人脸图像重演方法，所述基于所述源图像和所述驱动图像，确定二维背景损失，包括：

基于所述源图像和所述驱动图像的第一级联顺序，确定第一背景仿射变换矩阵；

基于所述源图像和所述驱动图像的第二级联顺序，确定第二背景仿射变换矩阵；

基于所述第一背景仿射变换矩阵和所述第二背景仿射变换矩阵，确定所述二维背景损失。

本发明还提供一种人脸图像重演装置，包括：

确定模块，用于对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵；

运动转换模块，用于基于所述目标人脸薄板样条插值关键点矩阵和所述背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像；其中，所述多尺度掩码图像用于标识所述源图像中扭曲重建的部分和上下文修复的部分；

人脸重演模块，用于基于所述密集光流和所述多尺度掩码图像进行人脸重演，确定所述源图像和所述驱动图像对应的重建图像；所述人脸重演包括所述扭曲重建和所述上下文修复。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述人脸图像重演方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述人脸图像重演方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述人脸图像重演方法。

本发明提供的人脸图像重演方法、装置、电子设备及存储介质，其中人脸重演方法，终端设备通过先对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵，再基于目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像；后基于密集光流和多尺度掩码图像进行人脸重演的方式，确定源图像和驱动图像对应的重建图像。由于其多尺度掩码图像用于标识源图像中扭曲重建的部分和上下文修复的部分，人脸重演包括扭曲重建和上下文修复，因此能够结合从人脸关键点中选取薄板样条插值关键点确定更加灵活的密集光流，实现源图像和驱动图像之间存在较大差异时也能够精确人脸重演的目的，从而大幅提高了人脸重演的精准性和适用性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的人脸图像重演方法的流程示意图；

图2是本发明提供的人脸图像重演方法的总体架构示意图；

图3是本发明提供的确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵的网络结构示意图；

图4是本发明提供的确定密集光流和多尺度掩码图像的网络结构示意图；

图5是本发明提供的确定混合空间域损失的网络结构示意图；

图6是本发明提供的确定三维空间域损失的网络结构示意图；

图7是本发明提供的人脸图像重演装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图8描述本发明的人脸图像重演方法、装置、电子设备及存储介质，其中人脸图像重演方法的执行主体，可以为终端设备，也可以为服务器；终端设备可以为个人计算机(Personal Computer，PC)、便携式设备、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等其它电子设备；服务器可以是指一台服务器，也可以是由多台服务器构成的服务器集群、云计算中心等等；本发明对终端设备或服务器的具体形式不做限定。下述方法实施例以执行主体为终端设备为例进行说明。

参照图1，为本发明实施例提供的人脸图像重演方法的流程示意图，如图1所示，该人脸图像重演方法，包括以下步骤：

步骤110、对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵。

其中，源图像可以为含有给定人脸的图像，驱动图像可以为驱动视频中携带被替换给定人脸的帧图像。并且，人脸关键点检测中的人脸关键点可以包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。此处不作具体限定。

具体的，终端设备针对源图像和驱动图像，可以采用以给定人脸的关键点主导的薄板样条插值方法进行薄板样条插值关键点提取，从而确定目标人脸薄板样条插值关键点矩阵；以及针对源图像和驱动图像，可以采用以给定人脸的关键点的背景为主导的仿射变换方法，进行背景参数提取，从而确定背景仿射变换参数矩阵。进一步的，终端设备确定的目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵，可以为采用预设的稀疏轨迹估计方法对源图像和驱动图像进行稀疏轨迹估计后的结果，为后续进行人脸重演奠定基础。

步骤120、基于目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像；其中，多尺度掩码图像用于标识源图像中扭曲重建的部分和上下文修复的部分。

具体的，终端设备可以采用预设的密集运动转换方法，对目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像；并在多尺度掩码图像用于标识源图像中扭曲重建的部分和上下文修复的部分的情况下，密集光流可以用于对多尺度掩码图像中标识的源图像中扭曲重建的部分进行扭曲重建；此处多尺度掩码图像标识的源图像中上下文修复的部分，也即为源图像中不能通过扭曲重建进行人脸重演的部分，不能通过扭曲重建进行人脸重演的部分则进行上下文修复进行人脸重演，比如鼻子为不能通过扭曲重建进行人脸重演的部分时，可以利用鼻子周围的皮肤、毛孔等上下文进行上下文修复。

步骤130、基于密集光流和多尺度掩码图像进行人脸重演，确定源图像和驱动图像对应的重建图像；人脸重演包括扭曲重建和上下文修复。

具体的，终端设备基于密集光流和多尺度掩码图像进行人脸重演，可以采用预设的重建图像生成方法对源图像进行人脸重演，也即针对多尺度掩码图像中标识的源图像中扭曲重建的部分，可以先使用密集光流对源图像进行扭曲重建，再使用多尺度掩码图像对扭曲重建后的图像进行掩码，实现了针对源图像中不能扭曲重建的部分进行上下文修复的目的。以此确定出源图像和驱动图像对应的重建图像。

需要说明的是，步骤110～步骤130的执行过程可以参照如图2所示的总体架构示意图，也即将源图像和驱动图像作为数据对先输入至稀疏轨迹估计单元进行关键点检测及背景预测，确定进行目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵，再将目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵输入至密集运动生成单元进行密集运动转换和重建图像生成，从而确定源图像和驱动图像对应的重建图像。

本发明提供的人脸图像重演方法，终端设备通过先对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵，再基于目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像；后基于密集光流和多尺度掩码图像进行人脸重演的方式，确定源图像和驱动图像对应的重建图像。由于其多尺度掩码图像用于标识源图像中扭曲重建的部分和上下文修复的部分，人脸重演包括扭曲重建和上下文修复，因此能够结合从人脸关键点中选取薄板样条插值关键点确定更加灵活的密集光流，实现源图像和驱动图像之间存在较大差异时也能够精确人脸重演的目的，从而大幅提高了人脸重演的精准性和适用性。

可选的，步骤110的具体实现过程可以包括：

首先，采用Resnet18网络和注意力机制，确定源图像中人脸关键点注意力的第一初始得分矩阵和驱动图像中人脸关键点注意力的第二初始得分矩阵；再进一步对第一初始得分矩阵和第二初始得分矩阵分别进行Gumbel-softmax采样，确定第一采样得分矩阵和第二采样得分矩阵；然后，基于第一采样得分矩阵和第二采样得分矩阵，确定第一人脸薄板样条插值关键点矩阵和第二人脸薄板样条插值关键点矩阵；进一步基于全连接层，对源图像和驱动图像分别进行自监督学习，确定第三人脸薄板样条插值关键点矩阵和第四人脸薄板样条插值关键点矩阵；最后，基于第一人脸薄板样条插值关键点矩阵、第二人脸薄板样条插值关键点矩阵、第三人脸薄板样条插值关键点矩阵和第四人脸薄板样条插值关键点矩阵，确定目标人脸薄板样条插值关键点矩阵；以及采用Resnet18网络对源图像和驱动图像进行背景检测，确定背景仿射变换参数矩阵。

具体的，如图3所示，终端设备确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵的过程通过以下子步骤确定：

步骤1101：将源图像和驱动图像分别输入至Resnet18网络，得到Resnet18网络的最后一层全连接层输出的源图像对应的512维向量L₀以及驱动图像对应的512维向量L₀’。

步骤1102：针对512维向量L₀和512维向量L₀’，分别采用注意力机制计算源图像中人脸关键点注意力的第一初始得分矩阵L₁和驱动图像中人脸关键点注意力的第二初始得分矩阵L₂，第一初始得分矩阵L₁可以为K₁×106维的得分矩阵，第二初始得分矩阵L₂可以为K₁×106维的得分矩阵。

步骤1103：对第一初始得分矩阵L₁和第二初始得分矩阵L₂分别进行Gumbel-softmax采样，确定分别进行第一采样得分矩阵z₁和第二采样得分矩阵z₂，其计算公式为：

式(1)中，§为自变量且可以取值为1或者2；τ为温度函数；为符合Gumble分布的噪声值，G＝-log(-log(u))，u～U[0,1]表示u在[0,1]上服从均匀分布。进一步的，第一采样得分矩阵z₁和第二采样得分矩阵z₂分别为K₁×106维的0-1矩阵，0代表进行Gumbel-softmax采样时softmax未选值，1代表进行Gumbel-softmax采样softmax选择值。

步骤1104：针对第一采样得分矩阵z₁和第二采样得分矩阵z₂，将第一采样得分矩阵z₁和第二采样得分矩阵z₂分别与106个人脸关键点相乘、再将相乘所得的两个矩阵中的0值均剔除，从而确定第一人脸薄板样条插值关键点矩阵K1和第二人脸薄板样条插值关键点矩阵K2。其中，第一人脸薄板样条插值关键点矩阵K1和第二人脸薄板样条插值关键点矩阵K2均为K₁×N维，N为小于106的正整数。其中，图2中Landmark为106个人脸关键点。

步骤1105：基于全连接层，对源图像和驱动图像分别进行自监督学习，分别确定第三人脸薄板样条插值关键点矩阵K3和第四人脸薄板样条插值关键点矩阵K4。其中，全连接层可以为两层，第三人脸薄板样条插值关键点矩阵K3和第四人脸薄板样条插值关键点矩阵K4分别为K₂×N。

步骤1106：在目标人脸薄板样条插值关键点矩阵包括源图像对应的第一目标人脸薄板样条插值关键点矩阵和驱动图像对应的第二目标人脸薄板样条插值关键点矩阵的情况下，将第一人脸薄板样条插值关键点矩阵K1和第三人脸薄板样条插值关键点矩阵K3拼接为源图像对应的第一目标人脸薄板样条插值关键点矩阵，将第二人脸薄板样条插值关键点矩阵K2和第四人脸薄板样条插值关键点矩阵K4拼接为驱动图像对应的第二目标人脸薄板样条插值关键点矩阵。其中，第一目标人脸薄板样条插值关键点矩阵和第二目标人脸薄板样条插值关键点矩阵分别为K×N维，K＝K₁+K₂。

步骤1107：采用Resnet18网络对源图像S和驱动图像D进行背景检测，确定背景仿射变换参数矩阵，背景仿射变换参数矩阵可以为2×3的仿射变换参数矩阵A_bg。

本发明提供的人脸图像重演方法，终端设备通过采用Resnet18网络、注意力机制、Gumbel-softmax采样和薄板样条插值对源图像和驱动图像进行人脸关键点检测的方式，确定目标人脸薄板样条插值关键点矩阵，以及通过采用Resnet18网络对源图像和驱动图像进行背景检测的方式确定背景仿射变换参数矩阵，以此结合Resnet18网络、注意力机制、Gumbel-softmax采样和薄板样条插值技术提高人脸关键点检测的精准性和可靠性，并且结合Resnet18网络技术提高背景检测的准确性和可靠性。

可选地，步骤120的具体实现过程可以包括：

首先，基于目标人脸薄板样条插值关键点矩阵，确定热图；热图表征源图像与驱动图像之间的差异；再确定目标人脸薄板样条插值关键点矩阵对应的目标薄板样条插值变换矩阵以及背景仿射变换参数矩阵对应的目标背景仿射变换矩阵；进一步对目标薄板样条插值变换矩阵和目标背景仿射变换矩阵进行双线性插值，确定源图像经扭曲后所得的扭曲编码特征图；然后，基于热图和扭曲编码特征图进行光流和掩码预测，确定密集光流和多尺度掩码图像。

具体的，参照图4，终端设备确定密集光流和多尺度掩码图像的过程通过以下子步骤确定；

步骤1201：在目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵包括源图像对应的第一目标人脸薄板样条插值关键点矩阵和驱动图像对应的第二目标人脸薄板样条插值关键点矩阵的情况下，首先确定第一目标人脸薄板样条插值关键点矩阵对应的高斯图以及第二目标人脸薄板样条插值关键点矩阵对应的高斯图，再分析两个高斯图之间的差异，并基于分析两个高斯图所得的差异确定热图，也即分析两个高斯图所得的差异即为源图像与驱动图像之间的差异。

步骤1202：将背景仿射变换参数矩阵与源图像相乘所得的结果，确定为背景仿射变换参数矩阵对应的目标背景仿射变换矩阵。

步骤1203：对第一目标人脸薄板样条插值关键点矩阵和第二目标人脸薄板样条插值关键点矩阵分别进行薄板样条插值变换，确定源图像对应的第一目标薄板样条插值变换矩阵以及驱动图像对应的第二目标薄板样条插值变换矩阵，再将第一目标薄板样条插值变换矩阵和第二目标薄板样条插值变换矩阵拼接为目标薄板样条插值变换矩阵。

步骤1204：对目标薄板样条插值变换矩阵和目标背景仿射变换矩阵进行双线性插值，确定源图像经扭曲后所得的扭曲编码特征图，并将热图和扭曲编码特征图拼接后输入至含有编码器和解码器的密集运动转换器中进行光流和掩码预测，确定密集光流和多尺度掩码图像。其中，密集运动转换器可以为沙漏架构网络。

由于第一目标人脸薄板样条插值关键点矩阵和第二目标人脸薄板样条插值关键点矩阵分别为K×N维，因此第一目标薄板样条插值变换矩阵和第二目标薄板样条插值变换矩阵也为K×N维，从而可以确定K个扭曲编码特征图，同时目标背景仿射变换矩阵也能经扭曲后确定1个扭曲编码特征图，由此基于确定的K+1个扭曲编码特征图确定密集光流的过程可以通过式(2)～(4)确定。

式(2)～(4)中，p为像素点，T_k(p)为第一目标薄板样条插值变换矩阵和第二目标薄板样条插值变换矩阵的第k维中第p个像素点；A_k为预先为第k个扭曲编码特征图设置的扭曲系数矩阵，w_ki为扭曲系数矩阵A_k中第i个扭曲系数，扭曲系数矩阵A_k和扭曲系数w_ki为由最小化对应曲面扭曲的能量函数得到；U为径向基函数，P_ki为源图像对应的第一目标人脸薄板样条插值关键点矩阵的第k维中第i个像素点或者驱动图像对应的第二目标人脸薄板样条插值关键点矩阵的第k维中第i个像素点，N为源图像对应的第一目标人脸薄板样条插值关键点矩阵或者驱动图像对应的第二目标人脸薄板样条插值关键点矩阵中像素点总个数；T_bg(p)为目标背景仿射变换矩阵经扭曲后确定的1个扭曲编码特征图中第p个像素点，A_bg为2×3的仿射变换参数矩阵；T_bg(p)为目标背景仿射变换矩阵中第p个像素点；M₀(p)为目标背景仿射变换矩阵经扭曲后确定的1个扭曲编码特征图中第p个像素点，M_k(p)为第k个扭曲编码特征图中第p个像素点。

需要说明的是，将热图和扭曲编码特征图拼接后输入至含有编码器和解码器的沙漏型网络中进行光流预测的同时还能通过解码器的每一层卷积层进行掩码预测，从而确定多尺度掩码图像，多尺度掩码图像中包含的多个分辨率分别为256×256、128×128、64×64和32×32，多个分辨率指示重建图像的哪些部分可以通过源图像的变形来重建，哪些部分应从上下文修复。

步骤1205：将密集光流和多尺度掩码图像输入至含有编码器和解码器的重建图像生成器中进行人脸重演，也即重建图像生成器使用密集光流扭曲源图像在编码器中每一层的特征图，然后使用多尺度遮挡掩码图像对扭曲的特征图进行掩码，并将掩码结果分别连接到解码器对应的部分，即可得到重建图像生成器输出的重建图像，重建图像生成器中的掩码修复主要通过两个残差块和上采样来修复源图像中被遮挡的图像部分。其中，重建图像生成器也可以为沙漏架构网络。

本发明提供的人脸图像重演方法，终端设备先确定源图像与驱动图像之间差异的热图、再通过薄板样条插值变换和仿射变换确定目标薄板样条插值变换矩阵和目标背景仿射变换矩阵、后通过热图和经由双线性插值确定的扭曲编码特征图确定密集光流和多尺度掩码图像，提高了确定密集光流和多尺度掩码图像的灵活可靠性和精准稳健性。

可选的，在步骤130之后，本发明提供的人脸图像重演方法还可以包括：

基于源图像、驱动图像、目标人脸薄板样条插值关键点矩阵和重建图像，确定混合空间域损失；基于混合空间域损失和预设损失需求的匹配成功结果，确定重建图像为符合重演需求的目标重演图像；基于混合空间域损失和预设损失需求的匹配失败结果，获取新的源图像和/或新的驱动图像，然后执行对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵的步骤；直至确定出符合重演需求的目标重演图像。

具体的，终端设备将源图像、驱动图像、目标人脸薄板样条插值关键点矩阵和重建图像输入至预先设置的混合空间域损失单元中，确定混合空间域损失单元输出的混合空间域损失，并且可以在确定混合空间域损失满足预设损失需求的情况下，即可确定目标重演图像；也可以在确定混合空间域损失不满足预设损失需求的情况下，针对新的源图像和/或新的驱动图像返回步骤110；直至确定出符合重演需求的目标重演图像。

本发明提供的人脸图像重演方法，终端设备通过确定人脸重演过程中的混合空间损失是否满足预测损失需求的方式，确定本次人脸重建所得的重建图像是否为目标重演图像，提高了人脸重演的稳健度和精准度。

可选的，基于源图像、驱动图像、目标人脸薄板样条插值关键点矩阵和重建图像，确定混合空间域损失，其具体实现过程可以包括：

确定驱动图像和重建图像之间的二维重建损失；基于源图像和目标人脸薄板样条插值关键点矩阵，确定二维等方差损失；基于源图像和驱动图像，确定二维背景损失；基于源图像的扭曲编码特征图以及驱动图像，确定二维扭曲损失；基于二维重建损失、二维等方差损失、二维背景损失和二维扭曲损失，确定二维空间域损失；基于驱动图像和重建图像，确定三维空间域损失；基于二维空间域损失和三维空间域损失，确定混合空间域损失。

具体的，终端设备可以将驱动图像D和重建图像输入到重建损失单元L_rec，重建损失单元L_rec通过预训练的VGG-19网络计算驱动图像D和重建图像/>在每一层的多分辨率(分辨率分别为256×256、128×128、64×64和32×32)特征图之间的损失，从而得到二维重建损失/>其计算公式为：

式(5)中，为重建图像/>在预训练的VGG-19网络中第i′层的多分辨率特征图，V_i′(D)为驱动图像D在预训练的VGG-19网络中第i′层的多分辨率特征图。

终端设备还可以将针对目标人脸薄板样条插值关键点矩阵经过薄板样条插值变换后所得的目标薄板样条插值变换矩阵以及源图像输入到等方差损失单元K_eq，等方差损失单元L_eq通过使用随机薄板样条插值变换T_ran进行空间扰动的方式计算二维等方差损失L_eq(S)，其计算公式为：

L_eq(S)＝|E_kp(T_ran(S))-T_ran(E_kp(S))| (6)

式(6)中，S为源图像，E_kp(T_ran(S))为对源图像S进行旋转、平移等空间扰动后确定的目标薄板样条插值变换矩阵，T_ran(E_kp(S))为针对源图像S确定目标薄板样条插值变换矩阵后再进行旋转、平移等空间扰动后的矩阵。

终端设备将源图像S的扭曲编码特征图和驱动图像D输入至密集运动转换器的编码器中，计算二维扭曲损失L_warp(S)，使源图像S的扭曲编码特征图更接近驱动图像D的特征域，其计算公式为：

式(7)中，为源图像S的扭曲编码特征图在驱动图像密集运动转换器的编码器中第i″层的特征图，E_i″(D)为驱动图像D在驱动图像密集运动转换器的编码器中第i″层的特征图。

终端设备基于源图像和驱动图像确定的二维背景损失L_bg，以及确定的二维重建损失二维重建损失二维等方差损失L_eq(S)和二维扭曲损失L_warp(S)，确定二维空间域损失L_2-D，其计算公式为：

此时，如图5所示，终端设备基于二维空间域损失L_2-D和确定的三维空间域损失L_3-D，确定混合空间域损失，其计算公式为：

L＝L_2-D+L_3-D (8)

本发明提供的人脸图像重演方法，终端设备通过基于二维重建损失、二维等方差损失、二维背景损失和二维扭曲损失以及三维空间域损失确定混合空间域损失的方式，提高了验证重建图像质量的可靠性和稳健性。

可选的，基于驱动图像和重建图像，确定三维空间域损失，其具体实现过程可以包括：

基于驱动图像对预训练的人脸重建网络进行表情系数回归，确定第一表情系数向量；基于重建图像对所述预训练的人脸重建网络进行表情系数回归，确定第二表情系数向量；基于第一表情系数向量和第二表情系数向量，确定三维空间域损失。

具体的，参照图6所示，将重建图像和驱动图像D输入3-D空间域损失单元，计算重建图像/>和驱动图像D在预训练的MobileNet V1网络输出的3DMM人脸模型表情系数和M_V1(D)之间的损失；以此计算得到三维空间域损失L_3-D，其计算公式为：

需要说明的是，将重建图像输入预训练的MobileNet V1网络回归3DMM人脸模型的表情系数，生成第一表情系数向量，第一表情系数向量可以为10维表情向量/>同时将驱动图像D输入预训练的MobileNet V1网络回归3DMM人脸模型的表情系数，生成第二表情系数向量，第二表情系数向量为10维表情向量/>然后将第一表情系数向量和第二表情系数向量之间的差值确定为三维空间域损失。

本发明提供的人脸图像重演方法，终端设备通过基于驱动图像和重建图像分别对预训练的人脸重建网络进行表情系数回归的方式，确定第一表情系数向量和第二表情系数向量，从而基于第一表情系数向量和第二表情系数向量之间的差值实现确定三维空间域损失的目的。以此结合预训练的人脸重建网络回归表情系数的技术有效提高了确定三维空间损失的可靠性和准确性。

可选的，基于源图像和驱动图像，确定二维背景损失，其具体实现过程可以包括：

基于源图像和驱动图像的第一级联顺序，确定第一背景仿射变换矩阵；基于源图像和驱动图像的第二级联顺序，确定第二背景仿射变换矩阵；基于第一背景仿射变换矩阵和第二背景仿射变换矩阵，确定二维背景损失。

其中，第一级联顺序表征将源图像和驱动图像以正向顺序级联，第二级联顺序表征将源图像和驱动图像以反向顺序级联。

具体的，在第一背景仿射变换参数矩阵A_bg是源图像和驱动图像以第一级联顺序确定的情况下，终端设备可以确定源图像和驱动图像以第二级联顺序确定第二背景仿射变换矩阵A^′ _bg，然后将第一背景仿射变换参数矩阵A_bg和第二背景仿射变换矩阵A^′ _bg输入至背景损失单元L_bg中计算二维背景损失L_bg，其计算公式为：

式(10)中，I为单位矩阵。

本发明提供的人脸图像重演方法，终端设备提高基于源图像和驱动图像的不同级联顺序确定不同背景仿射变换矩阵的方式，确定二维背景损失，提高了确定二维背景损失的准确性和可靠性，为后续确定目标重演图像的精准性奠定基础。

下面对本发明提供的人脸图像重演装置进行描述，下文描述的人脸图像重演装置与上文描述的人脸图像重演方法可相互对应参照。

参照图7，为本发明提供的人脸图像重演装置的结构示意图，如图7所示，该人脸图像重演装置700，包括：

确定模块710，用于对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵；

运动转换模块720，用于基于目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像；其中，多尺度掩码图像用于标识源图像中扭曲重建的部分和上下文修复的部分；

人脸重演模块730，用于基于密集光流和多尺度掩码图像进行人脸重演，确定源图像和驱动图像对应的重建图像；人脸重演包括扭曲重建和上下文修复。

可选的，确定模块710，具体可以用于采用Resnet18网络和注意力机制，确定源图像中人脸关键点注意力的第一初始得分矩阵和驱动图像中人脸关键点注意力的第二初始得分矩阵；对第一初始得分矩阵和第二初始得分矩阵分别进行Gumbel-softmax采样，确定第一采样得分矩阵和第二采样得分矩阵；基于第一采样得分矩阵和第二采样得分矩阵，确定第一人脸薄板样条插值关键点矩阵和第二人脸薄板样条插值关键点矩阵；基于全连接层，对源图像和驱动图像分别进行自监督学习，确定第三人脸薄板样条插值关键点矩阵和第四人脸薄板样条插值关键点矩阵；基于第一人脸薄板样条插值关键点矩阵、第二人脸薄板样条插值关键点矩阵、第三人脸薄板样条插值关键点矩阵和第四人脸薄板样条插值关键点矩阵，确定目标人脸薄板样条插值关键点矩阵；采用Resnet18网络对源图像和驱动图像进行背景检测，确定背景仿射变换参数矩阵。

可选的，运动转换模块720，具体可以基于目标人脸薄板样条插值关键点矩阵，确定热图；热图表征源图像与驱动图像之间的差异；确定目标人脸薄板样条插值关键点矩阵对应的目标薄板样条插值变换矩阵以及背景仿射变换参数矩阵对应的目标背景仿射变换矩阵；对目标薄板样条插值变换矩阵和目标背景仿射变换矩阵进行双线性插值，确定源图像经扭曲后所得的扭曲编码特征图；基于热图和扭曲编码特征图进行光流和掩码预测，确定密集光流和多尺度掩码图像。

可选的，人脸重演模块730，具体还可以用于基于源图像、驱动图像、目标人脸薄板样条插值关键点矩阵和重建图像，确定混合空间域损失；基于混合空间域损失和预设损失需求的匹配成功结果，确定重建图像为符合重演需求的目标重演图像；基于混合空间域损失和预设损失需求的匹配失败结果，获取新的源图像和/或新的驱动图像，然后执行对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵的步骤；直至确定出符合重演需求的目标重演图像。

可选的，人脸重演模块730，具体还可以用于确定驱动图像和重建图像之间的二维重建损失；基于源图像和目标人脸薄板样条插值关键点矩阵，确定二维等方差损失；基于源图像和驱动图像，确定二维背景损失；基于源图像的扭曲编码特征图以及驱动图像，确定二维扭曲损失；基于二维重建损失、二维等方差损失、二维背景损失和二维扭曲损失，确定二维空间域损失；基于驱动图像和重建图像，确定三维空间域损失；基于二维空间域损失和三维空间域损失，确定混合空间域损失。

可选的，人脸重演模块730，具体还可以用于基于驱动图像对预训练的人脸重建网络进行表情系数回归，确定第一表情系数向量；基于重建图像对预训练的人脸重建网络进行表情系数回归，确定第二表情系数向量；基于第一表情系数向量和第二表情系数向量，确定三维空间域损失。

可选的，人脸重演模块730，具体还可以用于基于源图像和驱动图像的第一级联顺序，确定第一背景仿射变换矩阵；基于源图像和驱动图像的第二级联顺序，确定第二背景仿射变换矩阵；基于第一背景仿射变换矩阵和第二背景仿射变换矩阵，确定二维背景损失。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(CommunicationsInterface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行人脸图像重演方法，该方法包括：

基于目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像；其中，多尺度掩码图像用于标识源图像中扭曲重建的部分和上下文修复的部分；

基于密集光流和多尺度掩码图像进行人脸重演，确定源图像和驱动图像对应的重建图像；人脸重演包括扭曲重建和上下文修复。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的人脸图像重演方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的人脸图像重演方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人脸图像重演方法，其特征在于，包括：

基于所述密集光流和所述多尺度掩码图像进行人脸重演，确定所述源图像和所述驱动图像对应的重建图像；所述人脸重演包括所述扭曲重建和所述上下文修复；

其中，所述对源图像和驱动图像进行人脸关键点检测以及背景预测，确定目标人脸薄板样条插值关键点矩阵和背景仿射变换参数矩阵，具体包括：

将所述第一采样得分矩阵和所述第二采样得分矩阵分别与预设数量个人脸关键点相乘、再将相乘所得的两个矩阵中的0值均剔除，确定第一人脸薄板样条插值关键点矩阵和第二人脸薄板样条插值关键点矩阵；

将所述第一人脸薄板样条插值关键点矩阵和所述第三人脸薄板样条插值关键点矩阵拼接为所述源图像对应的第一目标人脸薄板样条插值关键点矩阵，将所述第二人脸薄板样条插值关键点矩阵和所述第四人脸薄板样条插值关键点矩阵拼接为所述驱动图像对应的第二目标人脸薄板样条插值关键点矩阵，并确定所述目标人脸薄板样条插值关键点矩阵包括所述第一目标人脸薄板样条插值关键点矩阵和所述第二目标人脸薄板样条插值关键点矩阵；

2.根据权利要求1所述的人脸图像重演方法，其特征在于，所述基于所述目标人脸薄板样条插值关键点矩阵和所述背景仿射变换参数矩阵进行密集运动转换，确定密集光流和多尺度掩码图像，包括：

3.根据权利要求1或2所述的人脸图像重演方法，其特征在于，在所述确定所述源图像和所述驱动图像对应的重建图像之后，所述方法还包括：

4.根据权利要求3所述的人脸图像重演方法，其特征在于，所述基于所述源图像、所述驱动图像、所述目标人脸薄板样条插值关键点矩阵和所述重建图像，确定混合空间域损失，包括：

确定所述驱动图像和所述重建图像之间的二维重建损失；

基于所述源图像和所述驱动图像，确定二维背景损失；

基于所述驱动图像和所述重建图像，确定三维空间域损失；

5.根据权利要求4所述的人脸图像重演方法，其特征在于，所述基于所述驱动图像和所述重建图像，确定三维空间域损失，包括：

6.根据权利要求4所述的人脸图像重演方法，其特征在于，所述基于所述源图像和所述驱动图像，确定二维背景损失，包括：

7.一种人脸图像重演装置，其特征在于，包括：

人脸重演模块，用于基于所述密集光流和所述多尺度掩码图像进行人脸重演，确定所述源图像和所述驱动图像对应的重建图像；所述人脸重演包括所述扭曲重建和所述上下文修复；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述人脸图像重演方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述人脸图像重演方法。