CN113343761A

CN113343761A - 一种基于生成对抗的实时人脸表情迁移方法

Info

Publication number: CN113343761A
Application number: CN202110491501.4A
Authority: CN
Inventors: 熊盛武; 汤一博; 路雄博; 荣毅; 陈亚雄
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-09-03

Abstract

本发明提供一种基于生成对抗的表情迁移方法，该方法的任务是将驱动人物的表情迁移至源人物面部，并且保持源人物的身份不变。该方法分为两个阶段，第一阶段中，在目标表情特征点的驱动下，使用生成对抗的思想生成粗略的带有驱动人物表情和源人物身份的人脸图像。第二阶段中，利用高通滤波器在图像频域中进行处理，得到包含人脸纹理细节的高频分量，再对该分量进行反傅里叶变换得到纹理图。根据光流场得到扭曲的纹理图，将该纹理图与粗略人物图像组合成最终的图像。本发明提出的纹理增强方法克服了现有技术存在的生成图像模糊或皮肤纹理细节损失等问题，有利于合成真实的细粒度图像。

Description

一种基于生成对抗的实时人脸表情迁移方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于生成对抗的实时人脸表情迁移方法。

背景技术

人脸表情迁移是指将给定的驱动人脸图片的表情迁移到源人脸，新合成的人脸图像保持源图像的身份信息不变，但是其表情与驱动人脸一致。这项技术在远程呈现方面具有广泛应用，包括视频会议、虚拟游戏，以及影视特效领域。因此，人脸表情迁移方法在学术界和工业界均有着重要的研究价值。

传统的人脸表情合成方法通常采用计算机图形学方法或对人脸进行显式三维建模。图形学方法是将源人脸图像参数化，利用预估的光流来扭曲人脸图像，但是这种方法实现繁琐，而且生成效果不够自然逼真，尤其在人物大幅动作的情况下表现较差。在基于三维建模的方法中，驱动人脸和目标人脸的3DMM参数从单个图像中计算出来，并最终混合，通过这种方法生成的效果自然，但是会损失一些人物细节特征。

近年来，随着深度学习的迅速发展，图像生成领域涌现出大量的基于深度神经网络的人脸表情合成方法，这类方法首先利用卷积神经网络提取人脸特征，将图像从高维空间映射到低维空间，由此将目标人脸图像编码为仅包含身份信息的特征向量，然后结合输入的特定表情的特征点，利用深度神经网络合成目标人脸图像。虽然这类方法是有效的，但它们需要成对图像或大量视频的数据集，这可能很难获得，而且生成的图像中有关皮肤纹理等细节过于模糊。

发明内容

本发明的目的是为了解决上述背景技术存在的不足，提供一种基于生成对抗的实时人脸表情迁移方法。本发明主要包括两个阶段：第一阶段为表情迁移阶段，该阶段利用生成对抗的思想生成粗略的带有目标表情和源人物身份的人脸图像。第二阶段为纹理增强阶段，该阶段利用傅里叶变换以及高通滤波器得到纹理细节，并对第一阶段的图像进行细化。本发明方法克服了现有技术存在的生成图像模糊或皮肤纹理细节损失问题。

为了实现上述目的，本发明所采用的技术方案为：基于生成对抗的实时人脸表情迁移方法，该方法分为两个阶段，第一阶段为表情迁移阶段，在目标表情特征点的驱动下，使用生成对抗的思想生成粗略的带有目标表情和源人物身份的人脸图像；第二阶段为纹理增强阶段，利用高通滤波器在图像频域中进行处理，得到包含人脸纹理细节的高频分量，再对该分量进行反傅里叶变换得到纹理图，根据光流场得到扭曲的纹理图，将该扭曲的纹理图与平滑后的粗略人物图像组合成最终表情迁移后的图像并合成最终图片。

进一步的，表情迁移阶段的具体实现方式如下：

步骤一，对数据集中的每一帧图像进行数据预处理工作；

步骤二，构建生成网络，对预处理后的图像中的身份信息和表情信息进行特征编码，生成身份特征向量和表情特征向量：

所述生成网络由五个子网络构成：一个身份编码器Encoder_id、一个表情编码器Encoder_ex、一个生成器G、一个姿态表情判别器D和一个人脸识别分类器I；

步骤三，利用身份特征向量和表情特征向量来生成粗略的人脸图像。

进一步的，步骤一中预处理的过程如下；

使用ffmpeg工具将数据集中的视频分解为图片序列，使用Dlib库对每一帧图片提取人脸若干个特征点，并连接各点绘制landmarks图像，以人脸中鼻尖特征点为中心，将图片裁剪至标准大小；

从数据集中随机选取同一人物的两张图片，其中一张图片作为源图像，将其裁剪后的图片记作x^s，另一张图片作为驱动图像，将其裁剪后的图片记作x^d，s表示源帧，d表示驱动帧；x^s对应的landmarks图像记作y^s，x^d对应的landmarks图像记作y^d。

进一步的，步骤二的具体实现方式如下；

首先将源图像和驱动图像通过身份编码器Encoder_id得到各自的身份特征向量，分别记作

和

驱动图像提取到的landmarks图像送入表情编码器得到表情特征向量，记作

公式如下：

进一步的，步骤三的具体实现方式如下；

将得到的源图像的身份特征向量

和驱动图像的表情特征向量

级联喂入生成器中，解码合成第一阶段的粗略图像，该人物图像含有驱动人物的表情，并保持源人物身份不变，将该图像记作x^pre，生成图像x^pre的公式表达为：

然后将生成图像x^pre送入姿态表情判别器D和人脸识别分类器I中，姿态表情判别器D的输入是生成图片x^pre、驱动图片x^d及驱动图片的landmarks图片y^d，该判别器负责约束生成图像与驱动图像的姿态、表情一致，人脸识别分类器I的输入是源图片x^s和生成图片x^pre，该分类器有利于约束生成图片和源图片的身份一致。

进一步的，所述身份编码器Encoder_id、表情编码器Encoder_ex和人脸识别分类器I都使用预训练的VGG网络结构，由5层3×3卷积核的卷积层、3层全连接层和softmax输出层构成，层与层之间使用最大池化，池化步长为2，所有隐层的激活单元都采用ReLU函数；身份编码器Encoder_id和人脸识别分类器I在训练阶段共享参数，生成器G使用倒置的VGG网络，判别器由4层5×5卷积核的卷积层和一个全连接层组成，使用LeakyReLU激活函数。

进一步的，表情迁移阶段中总的损失函数计算公式如下：

其中，公式(5)为总的损失函数，由生成对抗损失、身份特征匹配损失和感知损失加权求和得到的，λ_GAN、λ_id、及λ_per分别为生成对抗损失、身份特征匹配损失和感知损失的权重参数，公式(6)为生成对抗损失，用于生成器G和判别器D的对抗生成粗略人脸图像阶段，D(·,·)表示判别器判断图像和landmarks图像匹配的概率，公式(7)为身份特征匹配损失，令I(·)表示人脸分类器I输出的身份特征，通过不断缩小生成图片和源图片的身份特征的L₂距离来保持身份信息不变，公式(8)为感知损失，利用VGG网络提取图像的感知特征，采用VGG网络中的最后一个卷积层输出的特征作为图像的感知特征，以此计算生成图像与真实图像之间的感知损失，X表示VGG网络的层数，而Φ_i(·)表示第i层的特征。

进一步的，纹理增强阶段的具体实现方式如下：

步骤四，计算光流场：

使用opencv计算粗略图像x^pre和源图像x^s之间的光流场，记作F_sd；

步骤五，获取源人物初步纹理图：

使用opencv将源图像变换为灰度图像，将灰度图像表示为二维函数f(x,y)，x和y表示空间坐标，(x,y)上的幅值f表示该点的灰度，使用opencv将源灰度图像f(x,y)经过傅里叶变换到频域，记作F(u,v)，并得到频谱，公式如下：

其中公式(9)为二维离散傅里叶变换，图像尺寸为M×N，x，y表示时域变量，u，v表示频域变量，j²＝-1；公式(10)为图片经过傅里叶变换后得到的频谱，I(u,v)是F(u,v)的虚部，R(u,v)是F(u,v)的实部；

然后使用高斯高通滤波器对F(u,v)进行频域处理，提取高频分量F_H(u,v)，公式如下：

F_H(u,v)＝H(u,v)F(u,v) (12)

其中，公式(11)为高斯高通滤波函数，D(u,v)表示从点(u,v)到频率矩形中心的距离，D₀是截止频率，当D(u,v)大于D₀时，对应的H(u,v)逐渐接近1，从而使得高频部分得以通过；而当D(u,v)小于D₀时，H(u,v)逐渐接近0，实现低频部分过滤；D₀为自行设置的常数，公式(12)为高频分量的计算公式；

最后通过反傅里叶变换将高频分量F_H(u,v)从频域变换到空域，得到初步纹理图g(x,y)，该初步纹理图包含源图像中人物皮肤皱纹、头发纹理细节，生成g(x,y)的公式如下：

步骤六，对初步纹理图进行扭曲变换并合成最终图片：

调用pytorch的grid_sample函数，对初步纹理图施加F_sd光流场，得到扭曲后的纹理图，并将其叠加至第一阶段生成的粗略图像进行纹理增强，公式如下：

至此，完成人脸表情迁移，并且保持源人物的身份不变，合成具有纹理细节的细粒度图片。

上述基于生成对抗的人脸表情迁移方法，其中的生成对抗网络模型英文缩写为GAN，全称为GenerativeAdversarial Networks，为本技术领域公知的算法，傅里叶变换是公知的信号分析方法，Dlib和opencv是开源的计算机视觉工具库。

与现有技术相比，本发明具有如下有益效果：

本发明方法基于PyTorch深度学习框架，利用驱动表情轮廓图指导网络学习驱动表情的表达，不局限于表情的种类限制，可生成用户需要的任意的表情图片。本发明使用生成对抗模型的思想生成粗略的人脸图像，并添加纹理增强阶段还原人物的皮肤、头发等纹理细节，本发明在纹理增强阶段采用的是图像频域处理方法，生成纹理图时间短、速度快，可以实时完成表情迁移。本发明在生成对抗原始模型的基础上，添加了人脸识别分类器监督训练，该人脸识别分类器的加入能够最大程度地保留源人物的身份信息，本发明方法克服了现有技术存在的生成图像模糊或皮肤纹理细节损失问题，使生成效果更加真实自然。

附图说明

图1为本发明的流程示意图。

图2为本发明中所述方法在训练阶段的网络结构图，其中源图片和驱动图片是同一人物不同表情的图片对。

图3为本发明中所述方法在纹理增强阶段采用的傅里叶变换流程示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步的说明。

图1所示实施例表明，本发明基于生成对抗的实时表情迁移方法的流程如下：

基于生成对抗的人脸表情迁移方法，第一阶段中，在目标表情特征点的驱动下，使用GAN的思想生成粗略的带有目标表情和源人物身份的人脸图像。第二阶段中，利用高通滤波器在图像频域中进行处理，得到包含人脸纹理细节的高频分量，再对该分量进行反傅里叶变换得到纹理图。根据光流场得到扭曲的纹理图，将该纹理图与平滑后的粗略人物图像组合成最终表情迁移后的图像并合成最终图片。

实施例1

本实施例基于生成对抗的实时表情迁移方法，具体步骤如下：

第一阶段，表情迁移阶段，包括第一步到第三步：

第一步，对数据集中的每一帧图像进行数据预处理工作：

使用ffmpeg工具将数据集中的视频分解为图片序列，使用Dlib库对每一帧图片提取人脸68个特征点，并连接各点绘制landmarks图像，以人脸(鼻尖特征点)为中心，将图片裁剪至256×256标准大小。

从数据集中随机选取同一人物的两张图片，其中一张图片作为源图像，将其裁剪后的图片记作x^s，另一张图片作为驱动图像，将其裁剪后的图片记作x^d，s表示源帧，d表示驱动帧。x^s对应的landmarks图像记作y^s，x^d对应的landmarks图像记作y^d；任务目标是将驱动图像上人物的表情迁移至源图像人物面部，并且保持源图像人物的身份不变，在训练过程中源图像和驱动图像中的人物为同一身份，在测试过程中可以使用不同人物的图片。

第二步，对身份信息和表情信息进行特征编码：

生成网络利用身份特征向量和表情特征向量来生成粗略的人脸图像，生成网络由五个子网络构成：一个身份编码器Encoder_id、一个表情编码器Encoder_ex、一个生成器G、一个姿态表情判别器D和一个人脸识别分类器I。其中身份编码器Encoder_id、表情编码器Encoder_ex和人脸识别分类器I都使用预训练的VGG网络结构，由5层3×3卷积核的卷积层、3层全连接层和softmax输出层构成，层与层之间使用最大池化，池化步长为2，所有隐层的激活单元都采用ReLU函数。身份编码器Encoder_id和人脸识别分类器I在训练阶段共享参数。生成器G使用倒置的VGG网络，判别器由4层5×5卷积核的卷积层和一个全连接层组成，使用LeakyReLU激活函数。VGG网络是本领域公知的经典网络结构，可用于特征提取。

和

驱动图像提取到的landmarks图像送入表情编码器Encoder_ex得到表情特征向量，记作

公式如下：

第三步，合成粗略图像：

将得到的源图像的身份特征向量

和驱动图像的表情特征向量

级联喂入生成器G中，解码合成第一阶段的粗略图像，该人物图像含有驱动人物的表情，并保持源人物身份不变，将该图像记作x^pre，生成图像x^pre的公式表达为：

上述过程中涉及到的损失函数如下：

第二阶段，纹理增强阶段，包括第四步到第六步：

第四步，计算光流场：

使用opencv计算粗略图像x^pre和源图像x^s之间的光流场(flow-field)，记作F_sd；

第五步，获取源图像人物初步纹理图：

使用opencv将源图像变换为灰度图像，在数字图像处理中，可以将灰度图像表示为二维函数f(x,y)，x和y表示空间坐标，(x,y)上的幅值f表示该点的灰度，使用opencv将源灰度图像f(x,y)经过傅里叶变换到频域，记作F(u,v)，并得到频谱，公式如下：

其中公式(9)为二维离散傅里叶变换，图像尺寸为M×N，x，y表示时域变量，u，v表示频域变量，j²＝-1。公式(10)为图片经过傅里叶变换后得到的频谱，I(u,v)是F(u,v)的虚部，R(u,v)是F(u,v)的实部。

F_H(u,v)＝H(u,v)F(u,v) (12)，

其中，公式(11)为高斯高通滤波函数，D(u,v)表示从点(u,v)到频率矩形中心的距离，D₀是截止频率，当D(u,v)大于D₀时，对应的H(u,v)逐渐接近1，从而使得高频部分得以通过；而当D(u,v)小于D₀时，H(u,v)逐渐接近0，实现低频部分过滤。D₀为自行设置的常数，公式(12)为高频分量的计算公式。

最后通过反傅里叶变换将高频分量F_H(u,v)从频域变换到空域，得到初步纹理图g(x,y)，该初步纹理图包含源图像中人物皮肤皱纹、头发纹理等细节，生成g(x,y)的公式如下：

其中图像尺寸为M×N,x，y表示时域变量，u，v表示频域变量，j²＝-1。

第六步，对初步纹理图进行扭曲变换并合成最终图片：

调用pytorch的grid_sample函数，对初步纹理图施加F_sd光流场得到扭曲后的纹理图，记作x^g，公式如下：

第七步，将x^g叠加至第一阶段生成的粗略图像进行纹理增强，公式如下：

至此，完成了人脸表情迁移的训练流程，将驱动人物的表情和姿态迁移到源人物面部，并且保持源人物的身份不变，合成具有纹理细节的细粒度图片。

本实施例中设置的参数如下：

应当理解的是，上述针对实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，本发明可以有各种更改和变化。在不脱离本发明权利要求所保护的范围。所作的任何修改、等同替换、改进等，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于生成对抗的实时表情迁移方法，其特征在于：该方法分为两个阶段，第一阶段为表情迁移阶段，在目标表情特征点的驱动下，使用生成对抗的思想生成粗略的带有目标表情和源人物身份的人脸图像；第二阶段为纹理增强阶段，利用高通滤波器在图像频域中进行处理，得到包含人脸纹理细节的高频分量，再对该分量进行反傅里叶变换得到纹理图，根据光流场得到扭曲的纹理图，将该扭曲的纹理图与平滑后的粗略人物图像组合成最终表情迁移后的图像并合成最终图片。

2.如权利要求1所述的一种基于生成对抗的实时表情迁移方法，其特征在于：表情迁移阶段的具体实现方式如下：

步骤一，对数据集中的每一帧图像进行数据预处理工作；

3.如权利要求2所述的一种基于生成对抗的实时表情迁移方法，其特征在于：步骤一中预处理的过程如下；

4.如权利要求3所述的一种基于生成对抗的实时表情迁移方法，其特征在于：步骤二的具体实现方式如下；

和

公式如下：

5.如权利要求4所述的一种基于生成对抗的实时表情迁移方法，其特征在于：步骤三的具体实现方式如下；

将得到的源图像的身份特征向量

和驱动图像的表情特征向量

6.如权利要求5所述的一种基于生成对抗的实时表情迁移方法，其特征在于：所述身份编码器Encoder_id、表情编码器Encoder_ex和人脸识别分类器I都使用预训练的VGG网络结构，由5层3×3卷积核的卷积层、3层全连接层和softmax输出层构成，层与层之间使用最大池化，池化步长为2，所有隐层的激活单元都采用ReLU函数；身份编码器Encoder_id和人脸识别分类器I在训练阶段共享参数，生成器G使用倒置的VGG网络，判别器由4层5×5卷积核的卷积层和一个全连接层组成，使用LeakyReLU激活函数。

7.如权利要求6所述的一种基于生成对抗的实时表情迁移方法，其特征在于：表情迁移阶段中总的损失函数计算公式如下：

8.如权利要求1所述的一种基于生成对抗的实时表情迁移方法，其特征在于：纹理增强阶段的具体实现方式如下：

步骤四，计算光流场：

步骤五，获取源人物初步纹理图：

(u＝0,1,2,……,M-1,v＝0,1,2，……，N-1)

F_H(u,v)＝H(u,v)F(u,v) (12)

(x＝0,1,2,……,M-1,y＝0,1,2，……，N-1)

步骤六，对初步纹理图进行扭曲变换并合成最终图片：