CN112766160B

CN112766160B - 基于多级属性编码器和注意力机制的人脸替换方法

Info

Publication number: CN112766160B
Application number: CN202110074625.2A
Authority: CN
Inventors: 杜建超; 肖清; 韩硕; 张向东
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2023-07-28
Anticipated expiration: 2041-01-20
Also published as: CN112766160A

Abstract

本发明公开了一种基于多级属性编码器和注意力机制的人脸替换方法，主要解决现有技术中替换图像忽略背景、光照等目标属性且融合效果较差的问题。方案包括：1)利用多任务卷积神经网络对源人脸图像进行预处理；2)通过特征编码器提取源人脸身份特征；3)使用多级属性编码器通过多层次级联的卷积块和反卷积块以及层间连接提取目标人脸图像属性；4)结合注意力机制构建新型生成器网络，并设计生成器损失函数；5)制作网络训练集和测试集，对新型生成器网络进行迭代训练；6)使用训练后的网络模型生成人脸替换图像。本发明能够全面准确提取目标图像属性，更好地保留目标人脸的姿态、表情、光照等信息，生成真实自然的人脸替换图像。

Description

基于多级属性编码器和注意力机制的人脸替换方法

技术领域

本发明属于计算机视觉技术领域，进一步涉及图像处理技术，具体为一种基于多级属性编码器和注意力机制的人脸替换方法。可用于虚拟发型服装体验、大众娱乐以及影视作品后期制作。

背景技术

人脸替换是指将目标图像X_t中的人脸面部区域替换为源人脸图像X_s中的对应部分，同时最大程度地保留目标图像中的面部表情、姿势、光线等目标属性。Blanz V在其发表的论文“Exchanging Faces in Images”(Computer Graphics Forum期刊论文，2004年)中提出了最早的人脸替换方法，使用一种较为简单的3D模型方案粗浅估计姿态和光线，并将源人脸置换到目标图像上。作为人脸替换领域的首次尝试，该方法在一定程度上完成了人脸替换的任务，但额头和颈部存在明显的网状边界，面部五官扭曲不自然，整体视觉效果较差。

在名称为“一种基于光照迁移的视频人脸替换方法”，申请号为201911247743.8的专利申请文件中提出了一种基于光照迁移的视频人脸替换方法；首先利用人脸检测算法实现人脸关键点定位，提取特征，然后使用人脸替换算法将视频中的目标人脸替换成参考人脸，最后利用光照迁移算法将视频中目标人脸的光照迁移到换脸后的面部图像上，得到光照迁移后的人脸替换视频。该方法将光照迁移与人脸替换算法相结合，通过搭建神经网络来学习人脸，高效地实现人脸替换。然而，其存在的不足之处在于：当目标人脸与参考人脸面部表情差异较大时，生成的替换人脸面部严重扭曲，真实感差。

基于图形学的FaceSwap方法将人脸区域从源视频传输到目标视频，该方法基于稀疏检测的人脸区域提取人脸特征点，利用这些特征点使用混合形状拟合三维模板模型，通过使用输入图像的纹理最小化投影形状和局部特征点之间的差异将模型反向投影到目标图像上。最后，将渲染模型与图像融合并进行颜色校正。该方法在计算上是轻量级的，并且可以在CPU上高效地运行，不足之处是当面部角度较大时人脸识别效果不好，替换人脸的眼睛和嘴唇轮廓生硬不自然。

2017年通过网络论坛传播的DeepFakes方法生成的人脸替换视频在短时间内引起了巨大轰动，该项技术基于两个共享权重的自动编码器，自动编码器是一个深度神经网络，能够学习如何获取输入、将输入压缩成很小的编码表示，然后使用解码器恢复输入图像的原始信息。训练完成之后，利用源人脸对应的解码器就可以将目标人脸图像中的人脸替换为源人脸，然后使用泊松图像编辑将输出与图像的其余部分融合。

2020年Iperov在其发表的论文“DeepFaceLab:A Simple,Flexible andExtensible Face Swapping Framework”中提出了一个简单、灵活、可扩展的换脸框架DeepFaceLab，算法的整体过程可以抽象为三个主要部分：提取、训练和转换。提取模块包括人脸检测、人脸对齐以及人脸分割。其中使用S3FD作为默认的人脸检测框架，也可以使用RetinaFace、MTCNN等其他框架，人脸对齐利用最小二乘估计来变换参数，分割阶段采用TernausNet网络分割出头发、眼镜、手等可能会对人脸替换有影响的部位。训练模块中提供了DF、H64、H128、LIAE、Quick96等多种模型，最后使用预训练好的人脸超分网络对转换融合后的图像进行锐化。DeepFaceLab可以生成高分辨率的图像并将其推广到输入分辨率，但其属于典型的一对一的换脸模式，每次更换人脸后均需要重新训练，从而花费大量时间。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于多级属性编码器和注意力机制的人脸替换方法，该方法在保留目标图像中人脸表情、头部姿势、光照等属性的同时，结合注意力机制将提取到的源人脸身份特征与目标图像属性自适应地集成在一起，生成逼真自然的人脸替换图像。

实现本发明的基本思路：首先利用多任务卷积神经网络对源人脸图像进行预处理，随后通过Arcface特征编码器提取源人脸身份特征，再使用U型多级属性编码器，通过多层次级联的卷积块和反卷积块以及层间连接准确全面地提取目标图像的表情与姿态等属性，保留更多细节信息；最后采用结合注意力机制的新型生成器，利用注意力模型权重来自适应地调整人脸身份特征和目标属性集成的有效区域，使生成器生成更加符合视觉机制的人脸替换图像。

本发明实现上述目的具体步骤如下：

(1)源人脸图像预处理：

将源人脸图像X_s送入多任务卷积神经网络MTCNN进行预处理，完成人脸区域检测、人脸对齐以及关键点定位，得到预处理后源人脸图像；

(2)提取源人脸身份特征：

将预处理后源人脸图像插值为分辨率112×112大小后，送入预先训练好的Arcface特征编码器，通过该编码器进行源人脸特征提取，得到512维的人脸身份特征向量，即源人脸身份特征Z_id；

(3)提取目标人脸图像属性：

采用线性整流函数ReLU的变体泄露修正线性单元函数LeakyReLU作为激活函数，利用多级属性编码器，得到目标人脸图像属性Z_att：

其中，X_t表示目标人脸图像；分别指目标人脸图像属性第一分量、第二分量、...、第八分量；

(4)构建注意力模块：

(4a)对深度卷积神经网络第k层的激活向量进行归一化；

(4b)将目标人脸图像属性Z_att和源人脸身份特征Z_id分别集成到激活向量中；

(4c)按照下式，得到注意力模块的输出

其中，M^k为注意力模型权重，φ^k为集成了目标图像属性Z_att的激活向量，为集成了源人脸身份特征Z_id的激活向量；/>表示卷积运算；

(5)构建新型生成器网络：

(5.1)搭建8个残差块，每个残差块均由注意力模块、激活函数和卷积层三部分组成；其中激活函数采用线性整流函数ReLU，卷积核大小设置为3×3、步长为1；

(5.2)将源人脸身份特征Z_id和目标人脸图像属性Z_att的每个分量分别输入到一个残差块进行特征融合；

(5.3)依次级联每个残差块，得到新型生成器网络；

(6)设计保持源人脸身份特征、保留目标图像属性的生成器损失函数；

(7)制作网络训练集和测试集：

通过互联网搜集人脸图片样本，对样本中的模糊图片进行手动过滤，在过滤之后的图片中选择使用不少于10000张图片作为训练集，使用FaceForensics++数据集提供的人脸视频作为测试集；

(8)训练并测试网络模型：

将训练集中的图像输入到多级属性编码器和新型生成器网络中进行迭代训练，得到最终的人脸替换网络模型，并用测试集对其完成测试；

(9)将待替换的源人脸视频和目标人脸视频分帧成对应的图像后，送入人脸替换网络模型中，生成人脸替换图像。

本发明与现有的技术相比具有以下优点：

第一，由于本发明利用多级属性编码器，中间通过拼接的方式将压缩阶段获得的特征图与扩展阶段获得的特征图拼接在一起，充分利用底层包含大量上下文信息的特征图从而得到目标图像的细节信息，使生成的人脸替换结果中人脸表情、头部姿势、光照背景等属性都尽可能地忠于目标图像。

第二，由于本发明使用相对ID距离定义源身份保持损失L_id，该损失在保证生成的人脸替换图像与源身份特征相似的同时，能够使得替换图像与目标人脸特征距离较大，从而防止两个长相相似之人的人脸图像被换脸后，视觉上的无差别感。

第三，由于本发明将注意力机制与生成对抗网络相结合，把源人脸身份特征和目标图像属性送入生成对抗网络中的注意力模块，利用激活向量产生注意力模型权重，使得生成器在生成替换图像时能够对人脸中最具辨识度的区域增加注意力，更好的重建出人脸图像细节信息，生成真实自然的人脸替换图像。

附图说明

图1为本发明的实现流程图；

图2为U型多级属性编码器的结构图；

图3为注意力模块结构图；

图4为生成器网络结构图；

图5为采用本发明与现有方法的仿真结果对比图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

参照附图1，对本发明的步骤做进一步的详细描述。

步骤1.源人脸图像预处理：

将源人脸图像X_s送入多任务卷积神经网络MTCNN(Multi task convolutionalneural network)进行预处理，完成人脸区域检测、人脸对齐以及关键点定位，得到预处理后源人脸图像。人脸对齐是将人脸图像进行对齐并裁剪，使其覆盖整个人脸和一些背景区域；得到的预处理后源人脸图像中包括人脸区域的左上角坐标、右下角坐标以及五个特征点，这里的五个特征点分别指左眼、右眼、鼻子、左嘴角和右嘴角；

所述的多任务卷积神经网络MTCNN将图像进行不同尺度的变换，构建图像金字塔以适应不同大小的人脸进行检测。该网络由三个级联的轻量级卷积神经网络构成，结构依次为：

快速生成候选窗口的P-Net，其结构为：卷积层→卷积层→卷积层；卷积核的大小均为3×3,随后通过一个人脸分类器判断该区域是否是人脸，同时使用边框回归和一个面部关键点定位器来进行人脸区域的初步提议，该部分最终将输出很多张可能存在人脸的人脸区域，并将这些区域输入R-Net进一步处理。

进行高精度候选窗口过滤选择的R-Net，其结构为：卷积层→卷积层→卷积层→全连接层；前两个卷积核大小为3×3，第三个卷积核大小为2×2，全连接层有128个节点，并再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位，滤除大量效果较差的候选框，进一步优化预测结果。

生成边界框与人脸关键点的O-Net，其结构为：卷积层→卷积层→卷积层→卷积层→全连接层；前三个卷积核大小为3×3，第四个卷积核大小为2×2，全连接层有256个节点，保留了更多的图像特征，同时再进行人脸判别、人脸区域边框回归和人脸特征点定位，最终输出人脸区域的左上角坐标和右下角坐标以及人脸区域的五个特征点。

步骤2.提取源人脸身份特征：

将预处理后源人脸图像插值为分辨率112×112后，送入预先训练好的Arcface特征编码器，通过该编码器进行源人脸特征提取，得到512维的人脸身份特征向量，即源人脸身份特征Z_id。这里的Arcface特征编码器是在Resnet-50基础上进行了改进，使其更适合人脸识别模型的训练，为了适应输入的人脸图像大小，将预训练模型的第一个7×7卷积层(步长为2)替换成3×3的卷积层(步长为1)，激活函数采用pReLU替代了原来的ReLU，并且取消了最大池化层和最后的平均池化层，具体结构为：卷积层(3×3)→残差块×3→残差块×4→残差块×6→残差块×3→Flatten层→全连接层；残差块的结构为：归一化层→卷积层→归一化层→激活层→卷积层→归一化层。加性角度间隔损失函数ArcFace loss的定义如下式：

其中N为batch size的大小，n为样本的类别数，为权重/>和特征x_i之间的角度，s为特征尺度，m为角度间隔参数，该损失函数归一化特征向量和权重，增加加性角度间隔m，在提高类间可分性的同时加强类内紧度和类间差异。

步骤3.提取目标人脸图像属性：

多级属性编码器采用一种U型多级属性编码器，如图2所示；该编码器的结构与U-Net网络相比，不使用池化层进行降采样，也不利用卷积层进行上采样，而是通过控制卷积层和反卷积层中的步长来进行尺度变换，能够更好地保留了特征的位置信息及强度信息。最终得到各个分辨率下的多级目标属性，即目标人脸图像属性。

第1步，由7个级联的卷积层和批量归一化BN(BatchNorm)层组成U型多级属性编码器左侧部分，用于依次提取不同分辨率下目标图像的一些浅层属性特征，其中卷积核大小为4×4，步长为2，卷积采用有效填充方式来保证结果都是基于没有缺失上下文特征而得到的。

第2步，由6个反卷积层和BN层组成U型多级属性编码器右侧部分，用来获取多层次的属性特征，卷积核大小为4×4，步长为2，填充为1。

第3步，中间通过拼接的方式，将压缩阶段获得的特征图同扩展阶段获得的特征图拼接在一起，充分利用底层包含大量上下文信息的特征图从而细化图像。

第4步，按照下式，激活函数采用ReLU的变体LeakyReLU：

步骤4.构建如图3所示的注意力模块，使网络能自适应地调整人脸特征和目标属性集成的有效区域，并将源人脸特征嵌入集中在识别身份最具有辨识度的部位，例如眼睛、鼻子和嘴巴等。

(4a)对深度卷积神经网络第k层的激活向量进行归一化，得到归一化激活向量

其中，μ^k和σ^k分别为的均值和标准差。

(4b)将目标人脸图像属性Z_att和源人脸身份特征Z_id分别集成到激活向量中；得到集成了目标图像属性的激活向量φ^k和集成了源人脸身份特征的激活向量

其中，是由/>经过卷积得到的调制参数，/>是由Z_id经过全连接层得到的调制参数；

(4c)按照下式，得到注意力模块的输出

其中，M^k为注意力模型权重，表示卷积运算；

步骤5.构建新型生成器网络：

(5.3)依次级联每个残差块，得到新型生成器网络，如图4所示。

步骤6.设计生成器损失函数，使生成的人脸替换图像真实自然，在保持源人脸身份特征的同时最大程度上忠于目标图像的属性。生成器损失函数按照如下步骤设计：

(6.1)按照下式，定义生成器网络的对抗损失函数L_GAN：

L_GAN＝-log D(Y)，

其中，Y为生成的人脸替换图像；生成器网络的对抗损失函数用于保证生成的人脸图像尽可能真实自然。

(6.2)按照下式，定义生成器网络的目标属性保存损失函数L_att，该函数即就是目标人脸图像X_t与输出的人脸替换结果图像Y的多级特征向量之间的欧式平方距离：

其中，n等于8，为提取的人脸替换结果图像Y的第k级属性，/>为提取的目标人脸图像X_t的第k级属性；目标属性保存损失函数可以防止模型为了迎合训练集而过于复杂造成过拟合的情况，从而提高模型的泛化能力。

(6.3)按照下式，设计生成器中的源身份保持损失函数L_id：

其中，L_id为源身份保持损失，cos^-1θ为反余弦函数，Z_id(X_s)为提取的源人脸图像X_s的身份特征，Z_id(Y)为提取的人脸替换结果图像Y的身份特征，Z_id(X_t)为提取的目标人脸图像X_t的身份特征；源身份保持损失函数在保证生成图像与源身份特征相似的同时，使其与目标人脸特征距离较大。

(6.4)按照下式，定义生成器网络的最终损失：

L_G＝αL_GAN+βL_att+γL_id

其中，α、β、γ分别为对抗损失函数L_GAN、目标属性保存损失函数L_att和源身份保持损失函数L_id在最终损失L_G中所占的权重；

步骤7.制作网络训练集和测试集：

通过互联网搜集名人人脸属性数据集CelebA HQ和Flicker人像照片高清数据集FFHQ，并对其进行手动过滤，排除分辨率较低不清晰的图片；在过滤之后的图片中选择使用不少于10000张图片作为训练集，本实施例使用约30000张人脸图片进行训练；使用FaceForensics++数据集提供的人脸视频作为测试集；

步骤8.训练并测试网络模型：

将训练集中的图像输入到多级属性编码器和新型生成器网络中进行迭代训练，得到最终的人脸替换网络模型，并用测试集对其完成测试；本实施例将整理好的训练集图像输入到搭建的网络中迭代训练150次；

步骤9.生成人脸替换图像：

将待替换的源人脸视频和目标人脸视频分帧成对应的图像后，送入人脸替换网络模型中，生成人脸替换图像。本实施例将待替换的源人脸视频和目标人脸视频分帧成对应的图像后，送入生成对抗网络，加载步骤8迭代训练150次的网络模型，最终生成与源人脸十分相似的人脸替换图像。

下面结合仿真实验对本发明的效果做进一步的说明。

1.仿真条件：

本发明的仿真实验是在Intel i7-9700K八核CPU处理器、内存为32GB和NVIDIAGeForce GTX 1080Ti GPU的硬件环境以及PyCharm的软件环境下进行的。

2.仿真内容与结果分析：

本发明的仿真实验是从FaceForensics++数据集中随机选取30组视频对，每组视频对包含一个源人脸视频和对应的目标人脸视频，然后将每个源人脸视频分帧成图片后随机挑选一张作为源人脸图像，类似的将每个目标人脸视频均匀采样10帧共得到300张目标人脸图像，分别使用FaceSwap、DeepFaceLab、DeepFakes以及本发明所提方法对每组图像进行人脸替换。

参照图5，可以看出，由于DeepFaceLab和DeepFakes方法先生成源面部区域图像，再嵌入到目标人脸中，会出现比较明显的嵌入痕迹，如图5中(b)、(c)的第四、五列所示。FaceSwap由于使用dlib库在非全脸或面部角度比较偏时人脸识别效果不好，替换结果中眼睛和嘴唇轮廓较为生硬不自然，如图5中(c)、(e)的第三列所示。而本文所提方法的替换结果中人脸表情自然且与目标图像高度一致，例如图5中(a)所示嘴巴张开大小、图5中(c)所示面部微笑程度、图5中(d)所示视线的方向等都与目标图像一致；光线属性完全尊重于目标图像，如图5中(b)所示；本文方法的结果完全忠于目标图像的光线信息，而不受源人脸图像信息的干扰。因此，本文所提方法生成的人脸替换结果真实自然，保留了更多的面部细节信息，有较好的主观视觉体验。

下面采用几种客观评价指标进一步对替换结果进行比较和评估，包括：1)准确率；2)结构相似性；3)头部姿势差异；4)面部表情差异。对于准确率，采用Face++人工智能开放平台提供的人脸相似度比对数据作为评价依据；结构相似性SSIM(StructuralSIMilarity)反映场景中图像结构的属性，取值范围为[0,1]，当两幅图像一模一样时，SSIM的值为1；头部姿势差异通过计算换脸图像与目标图像头部欧拉角的欧氏距离来评价；面部表情差异则通过计算两者面部特征点之间的欧式距离来衡量。

表1本发明方法和现有技术方法人脸替换结果对比表

方法类型	准确率	结构相似性	头部姿势	面部表情
					FaceSwap	83.56％	0.70	3.05	2.23
DeepFaceLab	92.28％	0.76	3.96	2.52
					DeepFakes	87.75％	0.78	4.22	2.99
本发明	92.45％	0.83	2.93	2.02

从表1可见，本发明与现有技术方法相比，准确率最高，最大程度上保留了源人脸特征信息，使得替换结果与源人脸相似度较高。从整体角度而言生成的替换图像与目标图像有更大的结构相似性且头部姿势和面部表情差异最小，具有明显的优势。

综上所述，本发明提出的人脸替换方法，首先在生成对抗网络的基础上使用新型多级属性编码器提取各种空间分辨率下的多层目标属性，然后将注意力机制与生成对抗网络相结合，自适应地集成人脸身份特征和目标图像属性，使生成的替换图像在表情、光线和头部姿势等方面与目标图像更加一致，解决了替换结果中人物表情不自然、背景光线融合不好的问题。本发明可以广泛应用于隐私保护、大众娱乐和影视制作等。

上述仿真分析证明了本发明所提方法的正确性与有效性。

本发明未详细说明部分属于本领域技术人员公知常识。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于多级属性编码器和注意力机制的人脸替换方法，其特征在于，实现步骤包括如下：

(1)源人脸图像预处理：

(2)提取源人脸身份特征：

(3)提取目标人脸图像属性：

(4)构建注意力模块：

(4a)对深度卷积神经网络第k层的激活向量进行归一化；

(4c)按照下式，得到注意力模块的输出

(5)构建新型生成器网络：

(5.3)依次级联每个残差块，得到新型生成器网络；

(7)制作网络训练集和测试集：

(8)训练并测试网络模型：

2.根据权利要求1所述的方法，其特征在于：步骤(1)中的多任务卷积神经网络由三个级联的轻量级卷积神经网络构成，结构依次为：

P-Net网络，其结构为：卷积层→卷积层→卷积层；卷积核的大小均为3×3,随后通过一个人脸分类器判断该区域是否是人脸，同时使用边框回归和一个面部关键点定位器来进行人脸区域的初步提议；该网络最终输出可能存在人脸的人脸区域，并将这些区域输入R-Net网络；

R-Net网络，其结构为：卷积层→卷积层→卷积层→全连接层；其中，前两个卷积核大小为3×3、第三个卷积核大小为2×2，全连接层有128个节点，并再次使用边框回归和面部关键点定位器进行人脸区域的边框回归和关键点定位，优化预测结果；

O-Net网络，其结构为：卷积层→卷积层→卷积层→卷积层→全连接层；其中，前三个卷积核大小为3×3、第四个卷积核大小为2×2，全连接层有256个节点，该网络进行人脸判别、人脸区域边框回归和人脸特征点定位，最终输出人脸区域的左上角坐标、右下角坐标以及人脸区域的五个特征点。

3.根据权利要求1所述的方法，其特征在于：步骤(2)中Arcface特征编码器是在Resnet-50基础上改进得到，具体结构为：卷积核为3×3的卷积层→残差块×3→残差块×4→残差块×6→残差块×3→Flatten层→全连接层；残差块的结构为：归一化层→卷积层→归一化层→激活层→卷积层→归一化层。

4.根据权利要求1所述的方法，其特征在于：步骤(3)中的多级属性编码器为U型多级属性编码器，该编码器包括左侧和右侧两个部分，结构如下：

左侧部分由7个级联的卷积层和批量归一化BN层组成，用于依次提取不同分辨率下目标图像的一些浅层属性特征，其中卷积核大小为4×4、步长为2，卷积采用有效填充方式；

右侧部分由6个反卷积层和批量归一化BN层组成，用来获取多层次的属性特征，卷积核大小为4×4、步长为2，填充为1。

5.根据权利要求1所述的方法，其特征在于：步骤(6)中的生成器损失函数，按照如下步骤进行设计：

(6.1)按照下式，定义生成器网络的对抗损失函数L_GAN：

L_GAN＝-log D(Y)，

其中，Y为生成的人脸替换图像；

(6.2)按照下式，定义生成器网络的目标属性保存损失函数L_att：

其中，n等于8，为提取的人脸替换结果图像Y的第k级属性，/>为提取的目标人脸图像X_t的第k级属性；

(6.3)按照下式，设计生成器中的源身份保持损失函数L_id：

其中，L_id为源身份保持损失，cos^-1θ为反余弦函数，Z_id(X_s)为提取的源人脸图像X_s的身份特征，Z_id(Y)为提取的人脸替换结果图像Y的身份特征，Z_id(X_t)为提取的目标人脸图像X_t的身份特征；

(6.4)按照下式，定义生成器网络的最终损失：

L_G＝αL_GAN+βL_att+γL_id

其中，α、β、γ分别为对抗损失函数L_GAN、目标属性保存损失函数L_att和源身份保持损失函数L_id在最终损失L_G中所占的权重。

6.根据权利要求1所述的方法，其特征在于：步骤(7)中的人脸图片样本包括名人人脸属性数据集CelebA HQ和Flicker人像照片高清数据集FFHQ。