CN116843806B

CN116843806B - 人脸动画合成方法、系统和存储介质

Info

Publication number: CN116843806B
Application number: CN202310769585.2A
Authority: CN
Inventors: 李雅; 韩易辰; 郭蒲源; 唐可钦; 高迎明
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2024-07-12
Anticipated expiration: 2043-06-27
Also published as: CN116843806A

Abstract

本发明提供一种人脸动画合成方法、系统和存储介质，所述方法包括：获取包含人脸的源图像和驱动图像；利用关键点编码器和特征提取器从源图像和驱动图像中分别获得源关键点特征和驱动关键点特征，并且利用源编码器对源图像进行编码获得源图像特征；分别对源图像特征和源关键点特征添加可学习的补充特征；然后基于缩放点积自注意力机制进行线性注意的隐式扭曲获得第一图像特征；基于残差连接获得第二图像特征；将第一图像特征和第二图像特征叠加获得合成图像特征，再通过解码器解码后输出图片，拼接逐帧输出的图片生成包含人脸的动画。本发明能够降低隐式扭曲注意力模块的复杂度、提高计算效率。

Description

人脸动画合成方法、系统和存储介质

技术领域

本发明涉及图像合成技术领域，尤其涉及一种人脸动画合成方法和系统。

背景技术

人脸动画合成是一种生成视频保留源图像的身份信息，并且包括驱动图像的姿态和表情的图像重建过程。以下几项技术可以实现人脸动画合成，包括：

人脸3D形变统计模型(3DMM，3D Morphable Model)，又称三维可变形人脸模型，是一种用于描述人脸形状和纹理的数学模型，可被用于3D人脸建模、人脸识别和人脸重建等多个领域。

面部标记或面部锚点，这属于一种形状预测问题，形状预测器可沿输入图像的形状定位感兴趣的关键点。在人脸标记的背景下，可基于形状预测方法通过关键点检测分析输入图像中人脸的重要面部结构。

然而，一方面，基于3DMM和面部标记对图像的面部内容分解过程中，需要进行有监督的训练来进行关键点检测，但是预先训练的关键点检测网络和人脸三维重建网络的准确性会极大地影响图像生成结果，并且由于得到的重建模型在视频检测中无法在时间维度上保持连续性，被遮挡的位置会产生更剧烈的抖动，影响视频生成效果；此外，有些基于3DMM和面部标记的人脸合成技术只能够模拟面部部分，整个上半身建模不完整导致生成的人脸动画不自然，比如当头发和领带移动时，生成的视频可能会存在割裂感。另一方面，基于3DMM和面部标记对图像的动作内容分解过程中，利用3DMM将人脸纹理与人脸的平均形状和表达系数分离，会导致不能准确识别较小的面孔，并且难以实现上半身或全身的驱动；通过将面部图像分离为三维外观特征、典型关键点、旋转矩阵和平移向量，并且预先训练姿态估计器用于监督旋转矩阵和平移向量的方式也可以进行人脸动画合成，但这种方式并不容易转移到其他的动画合成任务中，并且很难准确地建模上半身的运动。

通过引入可学习关键点提取源图像和驱动图像的关键点，能够更好地在不同的人脸间进行驱动，并非特定人物之间才能使用。可学习关键点与图片生成任务并行训练，并且通过自监督的方式进行训练，具有较好的时空连续性。基于可学习关键点进行人脸动画合成的现有技术包括：

1)FOMM(First Ord er Motion Model)技术：FOMM技术基于可学习关键点从源图像和驱动图像中提取出2D关键点，利用显示扭曲生成指定动作和表情的人脸动画。FOMM技术是一种基于深度学习的人脸动画合成技术，可以将一张静态的人脸照片转换成具有指定运动和表情的动态人脸视频。FOMM技术的核心是一个编码器-解码器模型，其中编码器从输入的静态图像中提取人脸特征，解码器则根据给定的动作和表情条件以及编码器提取的特征生成动态人脸视频。然而FOMM技术在生成大角度图片方面存在限制，比如由于提取的关键点较少，生成的侧脸图片容易造成扭曲。

2)fv2v(Face-vid2vid)技术：fv2v技术可基于可学习关键点从输入图像中提取3D关键点，利用fv2v技术进行人脸动画合成的核心思想是：通过将源面部动画和目标面部动画对齐，并利用深度神经网络进行编码与解码操作来生成逼真的面部动画，但是由于3D关键点在一定范围内波动，fv2v技术容易导致生成的视频帧抖动。

3)隐式扭曲(Implicit Warping)技术：隐式扭曲是一种使用隐式形变进行动画合成的技术。隐式扭曲技术通过在图像上应用无限细微的变换来达到变形效果，能够更好地控制纹理、形状和拓扑。由于隐式扭曲使用的是全局注意力而非局部注意力，因此可以预测其他人脸合成模型无法预测的因素，并且随着关键帧数量的增加人脸合成效果显著提高，比如图像合成过程中发生开始帧或结束帧中均未表示的事件，则隐式扭曲可在该事件发生节点添加帧，并将添加的信息反馈到整个图像合成过程的注意力机制中，由此实现更加自然的动画效果。

FOMM、fv2v等技术利用显式扭曲来映射出一个时间序列，从源面部和驱动动作中提取的信息必须对应，这也导致关键点的最终映射是相当严格的。与显式扭曲不同的是，隐式扭曲使用跨模态注意力层，该层生成具有较少预定义引导的工作流，工作流程也不需要在每个关键点的基础上进行扭曲，并且可以适应来自多个帧的输入，因此可从一系列图像中选择出最合适的特征。

然而，现有隐式扭曲技术在人脸合成过程中会占用较多的显卡资源，并且这也导致跨模态注意力层的训练压力较大，因此，如何提高合成人脸动画过程中隐式扭曲跨模态注意力层的运算速度，是一个有待解决的问题。

发明内容

鉴于此，本发明实施例提供了一种人脸动画合成方法和系统，以减少人脸动画合成过程中显卡资源的占用过多的问题，降低隐式扭曲跨模态注意力层的训练压力。

本发明的一个方面提供了一种人脸动画合成方法，该方法包括以下步骤：

获取包含人脸的源图像和驱动图像；

利用关键点编码器对源图像和驱动图像进行编码得到源关键点和驱动关键点，通过特征提取器提取源关键点和驱动关键点的特征，分别得到源关键点特征和驱动关键点特征，并且利用源编码器对源图像进行编码获得源图像特征；

分别对源图像特征和源关键点特征添加可学习的补充特征，通过多层感知器分别输出混合源图像特征和混合源关键点特征；

将混合源图像特征作为值Value，基于混合源关键点特征得到键Key，并基于驱动关键点特征得到查询Query，基于缩放点积自注意力机制进行线性注意的隐式扭曲，获得第一图像特征；

将尺寸被缩小的源图像与键Key相乘得到的矩阵与查询Query相乘，将输出结果通过多层感知器，获得第二图像特征；

将第一图像特征和第二图像特征叠加获得合成图像特征，将合成图像特征通过解码器解码后输出图片，拼接逐帧输出的图片生成包含人脸的动画。

在本发明的一些实施例中，分别对源图像特征和源关键点特征添加可学习的补充特征之前，所述方法还包括：

基于设置的身份损失函数从编码得到的源关键点中提取身份特征和运动特征而得到源身份特征和源运动特征，从编码得到的驱动关键点中提取身份特征和运动特征而得到驱动身份特征和驱动运动特征，基于源身份特征和源运动特征利用跨模态注意力机制进行源关键点重建而获得更新的源关键点，基于源身份特征和驱动运动特征利用跨模态注意力机制进行驱动关键点重建而获得更新的驱动关键点；

其中，身份损失函数是基于均方差损失函数设置的，激励特征提取器从源关键点和驱动关键点提取出相同的身份特征。

在本发明的一些实施例中，基于源身份特征和源运动特征利用跨模态注意力机制进行源关键点重建而获得更新的源关键点包括：使用源身份特征作为键Key和值Value，使用源运动特征作为查询Query，利用跨模态注意力机制来获得更新的源关键点；

基于源身份特征和驱动运动特征利用跨模态注意力机制进行驱动关键点重建而获得更新的驱动关键点包括：使用源身份特征作为键Key和值Value，使用驱动运动特征作为查询Query，利用跨模态注意力机制来获得更新的驱动关键点。

在本发明的一些实施例中，分别对源图像特征和源关键点特征添加可学习的补充特征，通过多层感知器分别输出混合源图像特征和混合源关键点特征，包括：

分别对源图像特征和源关键点特征添加可学习的补充特征，利用压缩激励注意力机制分别对添加可学习的补充特征的源图像特征和添加可学习的补充特征的源关键点特征添加注意，并通过多层感知器分别输出混合源图像特征和混合源关键点特征；或者

分别对源图像特征和源关键点特征添加可学习的补充特征，并直接通过多层感知器分别输出混合源图像特征和混合源关键点特征。

在本发明的一些实施例中，利用压缩激励注意力机制分别对添加可学习的补充特征的源图像特征和添加可学习的补充特征的源关键点特征添加注意，包括：

利用压缩激励注意力机制针对添加可学习的补充特征的源图像特征执行以下操作：

将添加可学习的补充特征的源图像特征扁平化，得到第一扁平化图像特征；

将添加可学习的补充特征的源图像特征基于通道数经二维卷积并扁平化，得到第二扁平化图像特征；

将第一扁平化图像特征和第二扁平化图像特征相乘得到图像特征权重；

将得到的图像特征权重与添加可学习的补充特征的源图像特征相乘，从而利用压缩激励注意力机制对添加可学习的补充特征的源图像特征添加注意；

利用压缩激励注意力机制针对添加可学习的补充特征的源关键点特征执行以下操作：

将添加可学习的补充特征的源关键点特征扁平化，得到第一扁平化关键点特征；

将添加可学习的补充特征的源关键点特征基于通道数经二维卷积并扁平化，得到第二扁平化关键点特征；

将第一扁平化关键点特征和第二扁平化关键点特征相乘得到关键点特征权重；

将得到的关键点特征权重与源关键点特征相乘，从而利用压缩激励注意力机制对添加可学习的补充特征的源关键点特征添加注意。

在本发明的一些实施例中，混合源图像特征和混合源关键点特征与源图像特征和源关键点特征的通道数相同。

在本发明的一些实施例中，基于混合源关键点特征得到键Key，并基于驱动关键点特征得到查询Query，包括

将混合源关键点特征与源图像拼接后进行编码，将编码后的特征作为键Key；

将驱动关键点特征作为查询Query。

在本发明的一些实施例中，所基于缩放点积自注意力机制进行线性注意的隐式扭曲，获得第一图像特征，包括：

将经过缩放和基于Softmax函数归一化的键Key和基于Softmax函数归一化的值Value相乘得到的矩阵与经过缩放和基于Softmax函数归一化的查询Query相乘，获得第一图像特征。

本发明的另一方面提供了一种人脸动画合成系统，该系统包括：处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现上述任一实施例所述方法的步骤。

本发明的另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所述方法的步骤。

本发明的人脸动画合成方法和系统，通过对源图像特征和驱动图像特征添加可学习的补充特征，并且叠加线性注意的隐式扭曲和残差连接获得的图像特征，最终获得保留源图像身份和驱动图像姿态、表情等信息的生成视频。本发明通过将隐式扭曲的跨模态注意力层从平方复杂度降为线性复杂度，减少了过程中的计算量，因此大幅减小了训练内存和时间。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例中人脸动画合成方法的流程示意图。

图2为本发明一实施例中关键点重建过程的示例。

图3为本发明一实施例中分别对源图像特征和源关键点特征添加可学习的补充特征的具体步骤的示例。

图4为本发明一实施例中利用压缩激励注意力机制分别对添加可学习的补充特征的源图像特征和源关键点特征添加注意的具体过程的示例。

图5为本发明一实施例中基于线性注意的隐式扭曲获得第一图像特征的具体步骤的示例。

图6为本发明一实施例中源图像通过残差连接获得第二图像特征的具体步骤的示例。

图7为本发明一实施例中包含关键点重建过程的人脸动画合成方法的流程示例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

现有的隐式扭曲技术在人脸合成过程中由于计算量较大会占用较多的显卡资源，并且模型训练压力较大。基于此，本发明提供了一种人脸动画合成方法，通过对源图像特征和驱动图像特征添加可学习的补充特征，并且基于线性注意的隐式扭曲和残差连接得到的图像特征，最终生成保留源图像身份和驱动图像姿态、表情等信息的包含人脸的视频。

图1为本发明一实施例的人脸动画合成方法的流程示意图。如图1所示，该方法具体可包括步骤S110～S160。

为了简化描述，如没有特殊说明，在下文出现的个人特征均指身份特征，动作特征均指运动特征。

步骤S110：获取包含人脸的源图像和驱动图像。

源图像是包括合成图像中生成人脸的图像，即合成图像的个人特征是基于源图像所包括的头型和头部大小等身份特征生成的；驱动图像是包括合成图像中生成的人脸所希望达成的动作和口型的图像。

视频驱动人脸，就是使用一个视频(驱动视频)来驱动图片生成另一个视频。这里的图片指参考图像，又称为源图像。驱动视频是一段包含人脸动作的视频，生成的视频应保留参考图像的人脸身份和驱动视频的人脸动作。视频驱动人脸的关键在于从驱动视频的人脸中提取与运动相关的特征(即运动特征)而去除与身份相关的特征(即身份特征)。

本发明提出的人脸动画方法可用于人脸面部动作的生成仅为示例，但本发明并不限于此，还可用于重建人物面部与上半身部分，或人物的全身，并且适用对象也不限于人物，还可用于其他类型的物体。

步骤S120：利用关键点编码器对源图像和驱动图像进行编码得到源关键点和驱动关键点，通过特征提取器提取源关键点和驱动关键点的特征，分别得到源关键点特征和驱动关键点特征，并且利用源编码器对所述源图像进行编码获得源图像特征。

更具体地，上述内容可包括以下步骤：

1)利用关键点编码器对输入的源图像进行编码得到源关键点，利用关键点编码器对输入的驱动图像进行编码得到驱动关键点，利用源编码器对源图像进行编码获得源图像特征。

进一步地，关键点编码器是基于可学习关键点设置的，并且由于可学习关键点的训练过程与图片生成任务训练过程同时进行，因此能够通过关键点编码器编码得到具有更好时空连续性的源关键点和驱动关键点。并且利用源编码器对输入的源图像进行编码可得到源图像特征。

2)特征提取器提取源关键点和驱动关键点的特征，分别得到源关键点特征和驱动关键点特征；或者，特征提取器提取关键点重建获得的重建源关键点和重建驱动关键点的特征，分别得到源关键点特征和驱动关键点特征。

利用特征提取器从经过关键点编码器编码得到的源关键点和驱动关键点中分别提取出源关键点特征和驱动关键点特征；或者利用特征提取器，从经过关键点重建过程得到的源关键点和驱动关键点，即重建源关键点和重建驱动关键点中分别提取出源关键点特征和驱动关键点特征。

进一步地，关键点重建过程可包括以下步骤，如图2所示：

经过关键点编码器编码得到的源关键点和驱动关键点通过关键点重建过程可得到重建源关键点和重建驱动关键点。

1)利用身份提取器(个人特征编码器)和运动提取器(动作特征编码器)两个独立的模型，从经过关键点编码器编码得到的源关键点和驱动关键点中分别提取出身份特征和运动特征，具体可包括：

在本发明的一些实施例中，利用身份提取器和运动提取器两个独立的模型，基于设置的身份损失函数从编码得到的源关键点中提取身份特征和运动特征而得到源身份特征和源运动特征，从编码得到的驱动关键点中提取身份特征和运动特征而得到驱动身份特征和驱动运动特征。其中，所述身份损失函数是基于均方差损失函数设置的，激励身份特征提取器从源关键点和驱动关键点提取出相同的身份特征。

作为示例，为了泛化驱动信息仅保留关键点信息，在训练身份提取器和运动提取器这两个模型的过程中，使用身份特征但运动特征不同的两张图片分别作为源图像和驱动图像进行图片生成。

进一步地，基于身份损失函数，利用个人特征编码器和动作特征编码器从源关键点和驱动关键点中分别提取得到源个人特征和源动作特征、驱动个人特征和驱动动作特征。其中，在提取驱动个人特征的过程中，使用教师强制方法(Teacher forcing)激励身份提取器模型从驱动身份特征中提取出与源身份特征相同的身份特征，并且基于身份损失函数从源个人特征和驱动个人特征中去除不同的身份特征。

2)基于分别从源关键点和驱动关键点中提取出的身份特征和运动特征，利用跨模态注意力(Cross-attention)机制获得重建源关键点和驱动关键点。

相比于自注意力(Self-attention)机制输入的单一嵌入序列，跨模态注意力机制可将两个相同维度的嵌入序列不对称地组合在一起，使得一个模态能够从另一个模态接收信息。通常使用一个序列作为查询Query输入，并使用另一个序列作为键Key和值Value输入，即查询Query、键Key和值Value是由两个不同的序列拼凑的。键Key和值Value是注意力机制中两个用于计算加权平均值的向量，查询Query是注意力机制中一个用于计算注意力权重的向量。

在本发明的一些实施例中，基于源身份特征和源运动特征利用跨模态注意力机制进行源关键点重建而获得更新的源关键点，具体可包括：使用源身份特征作为键Key和值Value，使用源运动特征作为查询Query，利用跨模态注意力机制来获得更新的源关键点，即重建源关键点或变换后的源关键点；基于源身份特征和驱动运动特征利用跨模态注意力机制进行驱动关键点重建而获得更新的驱动关键点，具体可包括：使用源身份特征作为键Key和值Value，使用驱动运动特征作为查询Query，利用跨模态注意力机制来获得更新的驱动关键点，即重建驱动关键点或变换后的驱动关键点。

步骤S130：分别对源图像特征和源关键点特征添加可学习的补充特征，通过多层感知器分别输出混合源图像特征和混合源关键点特征。

本发明下文提及的特征可表示为：高(h，height)、宽(w，width)和通道数(c，channels)。其中，h×w可表示为像素数k，并且下文提及的l、d、d'和m分别表示每个像素隐藏的不同通道数。

多层感知器(MLP，Multi-Layer Perceptron)，是一种多层神经网络，最主要的特点是该网络由多个层级组成，并且该网络是一种神经元组成的结构，能够将输入的多个数据集映射到单一的输出数据集。

压缩激励注意力机制是一种深度学习中常用的注意力机制，用于在卷积神经网络中增强特征表示，在本发明中通过压缩激励注意力层(SEAL，Squeeze ExcitationAttention Layer)实现。SEAL模块基于对不同层次的特征提取的加权处理方式，可通过学习输入特征的通道之间的关系，自适应地调整各通道的权重，以提高模型的表示能力。

在本发明中的特征拼接指通道数相加，其包含的信息也相加；特征叠加指通道数不变，仅包含的信息相加。

分别对源图像特征和源关键点特征添加可学习的补充特征，并直接通过多层感知器分别输出混合源图像特征和混合源关键点特征；或者分别对源图像特征和源关键点特征添加可学习的补充特征，利用压缩激励注意力机制在像素级添加注意，并通过多层感知器分别输出混合源图像特征和混合源关键点特征。

进一步地，如图3所示，源图像特征和源关键点特征分别添加可学习的补充特征，通过多层感知器分别输出混合源图像特征和混合源关键点特征，具体可包括以下步骤：

1)可学习的补充特征(h×w×l)分别与源关键点特征(h×w×d)和源图像特征(h×w×d')的通道数拼接起来，分别得到特征(h×w×(d+l))和(h×w×(d'+l))，之后获得的特征直接通过多层感知器分别输出获得混合源图像特征和混合源关键点特征。或者

2)可学习的补充特征(h×w×l)与分别源关键点特征(h×w×d)和源图像特征(h×w×d')的通道数拼接起来，分别得到特征(h×w×(d+l))和(h×w×(d'+l))，并且利用压缩激励注意力机制在获得特征的像素级添加注意后，通过多层感知器可分别输出混合源图像特征和混合源关键点特征。

二维卷积层(Conv2d，Convolution 2D)是一种在深度学习中广泛使用的卷积神经网络层类型，具有高和宽两个空间维度，可以对输入的二维图像数据进行卷积操作。

扁平化(Flatten)操作可将多维数组(如张量)展平成一维数组。

添加可学习的补充特征的源图像特征经过扁平化，得到第一扁平化图像特征；

添加可学习的补充特征的源图像特征基于通道数经二维卷积并扁平化，得到第二扁平化图像特征；

第一扁平化图像特征和第二扁平化图像特征相乘得到图像特征权重；

图像特征权重与添加可学习的补充特征的源图像特征相乘，从而利用压缩激励注意力机制对添加可学习的补充特征的源图像特征添加注意。

更具体地，如图4所示，添加可学习的补充特征的源图像特征c×h×w(此处c为d+l)经过扁平化变换得到第一扁平化图像特征n×c；二维卷积层将c×h×w中的多通道特征转换为单通道特征得到特征1×h×w，并且扁平化变换经过二维卷积得到的特征1×h×w后，得到第二扁平化图像特征n×1；第一扁平化图像特征n×c和经过Softmax函数归一化的第二扁平化图像特征n×1相乘得到图像特征权重c×1，即源图像特征每个像素的通道权重；图像特征权重c×1与输入特征c×h×w相乘，即可在源图像像素特征中添加注意，并且输出与输入的像素数和每个像素隐藏的通道数相同。

添加可学习的补充特征的源关键点特征经过扁平化，得到第一扁平化关键点特征；

添加可学习的补充特征的源关键点特征基于通道数经二维卷积并扁平化，得到第二扁平化关键点特征；

第一扁平化关键点特征和第二扁平化关键点特征相乘得到关键点特征权重；

关键点特征权重与源关键点特征相乘，从而利用压缩激励注意力机制对添加可学习的补充特征的源关键点特征添加注意。

更具体地，如图4所示，添加可学习的补充特征的源关键点特征c×h×w(此处c为d'+l)经过扁平化变换得到第一扁平化关键点特征n×c；二维卷积层将c×h×w中的多通道特征转换为单通道特征得到特征1×h×w，并且扁平化变换经过二维卷积得到的特征1×h×w后，得到第二扁平化关键点特征n×1；第一扁平化关键点特征n×c和经过Softmax函数归一化的第二扁平化关键点特征n×1相乘得到关键点特征权重c×1，即源关键点特征每个像素的通道权重；关键点特征权重c×1与输入特征c×h×w相乘，即可在源关键点像素级特征中添加注意，并且输出与输入的像素数和每个像素隐藏的通道数相同。

像素级添加注意或像素级特征中添加注意，均指对不同的通道(每个像素的通道)赋予不同的注意力权重。

步骤S140：将混合源图像特征作为值Value，基于混合源关键点特征得到键Key，并基于驱动关键点特征得到查询Query，基于缩放点积自注意力机制进行线性注意的隐式扭曲，获得第一图像特征。

缩放点积自注意力(Scaled Dot-Production Attention)是一种常用的自注意力(Self-Attention)机制，可用于处理序列数据，如自然语言句子、时间序列等。缩放点积自注意力机制使用矩阵乘法计算注意力权重，通过注意力汇聚对输入序列中不同位置的信息施加不同的权重，实现对输出序列中的选择倾向，从而对问题进行更准确的分析，获得最匹配的结果。

Softmax函数是一种激活函数，可以将一个数值向量归一化为一个概率分布向量，且各个概率之和为1。

在本发明的一些实施例中，将混合源图像特征作为值Value，并将其表示为k×d'；基于混合源关键点特征得到键Key包括：将混合源关键点特征与源图像拼接后进行编码，将编码后的特征作为键Key，并将其表示为k×d；基于驱动关键点特征得到查询Query包括：将驱动关键点特征作为查询Query，并将其表示为q×d。q与k表示相同的像素数，但为了方便区分键Key和查询Query，将其用不同字符表示。

在本发明的一些实施例中，基于缩放点积自注意力机制进行线性注意的隐式扭曲，获得第一图像特征，如图5所示，包括：将经过缩放和基于Softmax函数归一化的键Key和基于Softmax函数归一化的值Value相乘得到的矩阵与经过缩放和基于Softmax函数归一化的查询Query相乘，获得第一图像特征k×m。可用公式表示为：

其中，E(Q,K,V)表示第一图像特征，Q表示查询Query，K^T表示键Key向量的转置，V表示值Value，n表示矩阵缩放倍数。

在键Key、值Value和查询Query作为输入进行隐式扭曲之前还需要经过扁平化(Flatten)处理，将其展平为一维数组。

步骤S150：将尺寸被缩小的源图像与键Key相乘得到的矩阵与查询Query相乘，将输出结果通过多层感知器，获得第二图像特征。

上述步骤为源图像通过残差连接获得第二图像特征的过程。残差连接能够有效解决梯度消失的问题和权重矩阵的退化问题，在本发明中引入残差连接步骤有利于降低隐式扭曲所缺失的源图像特征造成的影响，进一步加强生成图像的质量。

更具体地，如图6所示，残差连接(Residual Connection)模块加工源图像的具体步骤可包括：源图像大小可被缩小为原始大小的四分之一，被缩小为原始大小的四分之一的源图像与键Key(k×d)拼接后再与键Key(k×d)相乘，得到特征k×(d+3)；该特征k×(d+3)与查询Query(q×d)拼接后，再与查询Query(q×d)相乘，由于k与q含义相同，因此得到特征k×(2d+3)，通过多层感知器输出获得第二图像特征k×m'。其中，源图像可表示为k×3。

源图像被缩小为原始大小的四分之一仅为示例，本发明不限于此，还可以将源图像缩放为其他大小，再通过残差连接获得第二图像特征。

步骤S160：将第一图像特征和第二图像特征叠加获得合成图像特征，将合成图像特征通过解码器解码后输出图片，拼接逐帧输出的图片生成包含人脸的动画。

更具体地，第一图像特征k×m和第二图像特征k×m′叠加获得合成图像特征k×M，合成图像特征经过解码器解码后获得图片，输出图片包括源图像的身份特征信息和驱动图像的运动特征信息，逐帧输出的图片通过拼接获得包含人脸的动画。m、m'和M表示相同的通道数，即第一图像特征、第二图像特征和合成图像特征的大小相同，但为了方便区分第一图像特征、第二图像特征和合成图像特征，因此用不同的字符表示。

作为示例，如图7所示，包含关键点重建过程的人脸动画合成方法的具体过程如下：

利用关键点编码器对输入的源图像和驱动图像进行编码，分别获得源关键点和驱动关键点，并且利用源编码器编码输入的源图像获得源图像特征；

经过编码获得的源关键点和驱动关键点基于关键点重建过程分别获得重建源关键点和重建驱动关键点；

利用特征提取器分别提取重建源关键点和重建驱动关键点的特征获得源关键点特征和驱动关键点特征；

对源图像特征和源关键点特征分别添加可学习的补充特征获得混合源图像特征和混合源关键点特征；

将混合源图像特征作为值Value，基于混合源关键点特征得到键Key，并基于驱动关键点特征得到查询Query，基于线性注意的隐式扭曲获得第一图像特征；

将尺寸被缩小为原始大小四分之一的源图像与键Key相乘得到的矩阵与查询Query相乘，获得第二图像特征；

本发明提出的人脸动画合成方法，具有以下优势：

1、使用可学习关键点作为驱动特征，与面部锚点与3DMM不同的是，可学习关键点是在训练生成网络的同时通过自监督的方法训练出来的，有更好的时空连续性。

2、在关键点重建步骤，使用个人特征编码器和动作特征编码器两个不同的编码器提取关键点中包含的身份特征和运动特征，分离源关键点和驱动关键点的个人特征与运动特征，并对所提取特征通过交叉注意力机制进行合并，能够提高生成视频的自然度和流畅度，并且通过可学习关键点与关键点重建可以消除视频抖动的问题。此外，关键点重建使得生成视频在侧脸等极端条件下比现有技术生成视频的效果更好。

3、利用压缩激励注意力机制添加可学习的补充特征。对于图像中缺失的一部分特征，如眼睛与牙齿，参考图像中可能并不包含这些特征，若去除会导致无法生成参考图像中本来没有特征，减小模型的适用场景。本发明提出了压缩激励注意力层来进行共有特征的添加，在单人脸图像进行处理的时候添加合理的可学习的补充特征，这样扩大了可靠的学习数据集，并且压缩激励注意力层使得可学习的补充特征与源图像特征和源关键点特征更充分地混合，能够生成更清晰、自然的五官与头发。

4、本发明提出的线性注意力的隐式扭曲，虽然在画质上有较小的损失，但经过缩放和基于Softmax函数的归一化步骤，将隐式扭曲的跨模态注意力层从平方复杂度降为线性复杂度，能够极大地减少隐式扭曲过程的计算量，大幅减小训练过程占用的计算机内存资源，提高训练速度，并且降低训练与推理的成本。此外，隐式扭曲能够利用源图像的相似性在查询和键之间建立映射，从而处理多个源图像，减少计算成本的同时提高模型泛化能力。

与上述方法相应地，本发明还提供了一种人脸动画合成系统，该人脸动画合成系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该人脸动画合成系统实现如前所述方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人脸动画合成方法，其特征在于，该方法包括以下步骤：

获取包含人脸的源图像和驱动图像；

利用关键点编码器对所述源图像和驱动图像进行编码分别得到源关键点和驱动关键点，通过特征提取器提取源关键点和驱动关键点的特征，分别得到源关键点特征和驱动关键点特征，并且利用源编码器对所述源图像进行编码获得源图像特征；

将尺寸被缩小的源图像与所述键Key相乘得到的矩阵与所述查询Query相乘，将输出结果通过多层感知器，获得第二图像特征；

将所述第一图像特征和第二图像特征叠加获得合成图像特征，将所述合成图像特征通过解码器解码后输出图片，拼接逐帧输出的图片生成包含人脸的动画。

2.根据权利要求1所述的方法，其特征在于，分别对源图像特征和源关键点特征添加可学习的补充特征之前，所述方法还包括：

其中，所述身份损失函数是基于均方差损失函数设置的，激励特征提取器从源关键点和驱动关键点提取出相同的身份特征。

3.根据权利要求2所述的方法，其特征在于，

所述基于源身份特征和源运动特征利用跨模态注意力机制进行源关键点重建而获得更新的源关键点包括：使用源身份特征作为键Key和值Value，使用源运动特征作为查询Query，利用跨模态注意力机制来获得更新的源关键点；

所述基于源身份特征和驱动运动特征利用跨模态注意力机制进行驱动关键点重建而获得更新的驱动关键点包括：使用源身份特征作为键Key和值Value，使用驱动运动特征作为查询Query，利用跨模态注意力机制来获得更新的驱动关键点。

4.根据权利要求1所述的方法，其特征在于，所述分别对源图像特征和源关键点特征添加可学习的补充特征，通过多层感知器分别输出混合源图像特征和混合源关键点特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述利用压缩激励注意力机制分别对添加可学习的补充特征的源图像特征和添加可学习的补充特征的源关键点特征添加注意，包括：

6.根据权利要求4所述的方法，其特征在于，所述混合源图像特征和混合源关键点特征与源图像特征和源关键点特征的通道数相同。

7.根据权利要求1所述的方法，其特征在于，所述基于混合源关键点特征得到键Key，并基于驱动关键点特征得到查询Query，包括：

将驱动关键点特征作为查询Query。

8.根据权利要求1所述的方法，其特征在于，所述基于缩放点积自注意力机制进行线性注意的隐式扭曲，获得第一图像特征，包括：

9.一种人脸动画合成系统，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。