CN111798546B

CN111798546B - 一种基于生成对抗机制的多人表情迁移方法

Info

Publication number: CN111798546B
Application number: CN202010494513.8A
Authority: CN
Inventors: 刘勇; 张江宁
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2022-04-26
Anticipated expiration: 2040-06-03
Also published as: CN111798546A

Abstract

本发明提供一种基于生成对抗机制的多人表情迁移方法，包括Landmark转换器(ψ)和人脸生成器

参考人员静止状态下图像记为

对应landmark向量记为

待迁移表情图像

对应landmark向量为

对参考人员静止状态下landmark向量

进行特征处理的网络结构

对参考人员迁移表情landmark向量

进行特征处理的网络结构

其中经上述网络结构

和网络结构

的特征在通道层面进行拼接后送入网络结构

本发明方法基于Py‑Torch深度学习框架，先在几何空间对人员表情的landmark进行转换，然后使用对抗生成模型设计思想将转换后的landmark与参考图像结合并生成真实的目标图像。

Description

一种基于生成对抗机制的多人表情迁移方法

技术领域

本发明涉及一种表情迁移方法，具体地，涉及一种基于生成对抗机制的多人表情迁移方法。

背景技术

表情迁移技术在很多场景下都有极大的应用潜力，比如电影制作，动画制作等。随着深度学习的发展及计算机算力的增加，许多基于深度学习的表情迁移方法都取得了不错的效果，能够实现不同人之间的表情迁移且生成逼真的迁移人脸图像。但已有的方法一般只能针对特定人物进行训练，当模型训练完毕后只能对该特定人物进行表情迁移及人脸生成，不能适用于同时针对多人表情迁移的场景，极大地限制了该方法的应用潜力。针对这一问题，亟待一种更普世的多人之间表情迁移方法，其能够在训练完毕后实现不同人(多人)之间的表情迁移，甚至可以在未知的人物上进行表情迁移。

发明内容

本发明针对目前的方法不能很好地使用一个模型实现多人之间表情迁移这一问题，提出了一种基于生成对抗机制的多人表情迁移方法。

为达到上述目的，本发明采取了如下的技术方案：

一种基于生成对抗机制的多人表情迁移方法，包括Landmark转换器(ψ)和人脸生成器

所述Landmark转换器(ψ)是由多个全连接层、ReLU激活函数层组成，其中，参考人员静止状态下(面无表情面朝镜头方向)图像记为

对应landmark向量记为

待迁移表情图像

对应landmark向量为

对参考人员静止状态下landmark向量

进行特征处理的网络结构

对参考人员迁移表情landmark向量

进行特征处理的网络结构

其中经上述网络结构

和网络结构

的特征在通道层面进行拼接后送入网络结构

输入参考人员静止状态下landmark向量

待迁移表情landmark向量

分别经网络结构

网络结构

提取图像特征后由网络结构

进一步进行特征融合，这样经过网络结构

和

后得到偏置landmark向量(l_shift)，其值代表每个landmark向量相对于参考人员静止状态landmark向量

的偏移量，最后偏置landmark向量(l_shift)通过和参考人员静止状态landmark向量

相加输出参考人员表情迁移后的landmark向量

从而完成在landmark向量几何空间上的表情迁移；

Landmark转换器(ψ)生成的参考人员表情迁移后的landmark向量

在送入人脸生成器

前需转换为参考人员表情迁移后的landmark图像

其方式为以参考人员表情迁移后的landmark向量

包含的每一个landmark坐标点为中心，在128*128大小的图像上画半径为2的实心圆；

所述人脸生成器

是由多个卷积层、反卷积层、批归一化层和ReLU激活函数层组成，输入参考人员图像

参考人员表情迁移后的landmark向量

分别经网络结构

网络结构

提取图像特征后由网络结构

进一步进行特征融合，最后经网络结构

解码得到参考人员表情迁移后的图像

在进行前向推理时，输入参考人员静止状态landmark向量

和迁移表情landmark 向量

先通过Landmark转换器(ψ)生成参考人员表情迁移后的landmark向量

并将之转化为landmark图像形式

然后和参考人员图像

一起送入人脸生成器

生成参考人员表情迁移后的图像

使用不同的迁移表情landmark向量

和不同的参考人员图像

作为输入，生成不同的参考人员表情迁移后的图像

这样使用一个模型即可实现了多人表情迁移。

作为优选地，所述Landmark转换器(ψ)在训练时，除了采用L1损失函数，还额外使用对抗思路设计了landmark真假鉴别器(D_TF)和身份鉴别器(D_S)去进一步增强网络回归landmark的准确性。

作为优选地，所述Landmark转换器(ψ)包含

和

由6层全连接和激活函数组成，

由5层全连接和激活函数组成，

由5层全连接和激活函数组成。

作为优选地，所述landmark真假鉴别器(D_TF)由6层全连接和激活函数组成，身份鉴别器(D_S)由6层全连接和激活函数组成。

作为优选地，人脸生成器

在训练时，采用L1损失函数进行像素级别的约束，同时采用了对抗思想的图像鉴别器(D_img)以进一步增加生成图像的真实性。

作为优选地，网络结构

由3层卷积层组成，网络结构

由6层卷积层组成，网络结构

由18层卷积层组成，网络结构φ₄由2层反卷积层和1层卷积层组成。

作为优选地，所述图像鉴别器(D_TF)由6层卷积层和激活函数组成。

与现有技术相比，本发明具有如下有益效果：

本发明方法基于Py-Torch深度学习框架，先在几何空间对人员表情的landmark进行转换，然后使用对抗生成模型设计思想将转换后的landmark与参考图像结合并生成真实的目标图像。其中landmark定义为面部的106个关键点，如左眼左眼角或右嘴角。这样的设计不仅使得我们可以实现多人之间人脸表情迁移，同时还将人脸的几何特征和纹理特征解耦开来，具有更高的可编辑特性。

附图说明：

图1为本发明整体系统流程示意图；

图2为本发明中Landmark转换器(ψ)的流程示意图；

图3为本发明中人脸生成器

的流程示意图；

图4为本发明应用在RaFD数据集上的效果示意图；

图5为本发明应用Multi-PIE数据集上的效果示意图。

具体实施方式：

以下结合说明书附图及具体实施例来对本发明作进一步的描述。

如图1～3所示，本发明提供一种基于生成对抗机制的多人表情迁移方法，包括Landmark转换器(ψ)和人脸生成器

对应landmark向量记为

待迁移表情图像

对应landmark向量为

对参考人员静止状态下landmark向量

进行特征处理的网络结构

对参考人员迁移表情 landmark向量

进行特征处理的网络结构

其中经上述网络结构

和网络结构的特征在通道层面进行拼接后送入网络结构

输入参考人员静止状态下landmark向量

待迁移表情landmark向量

分别经网络结构

网络结构

提取图像特征后由网络结构

进一步进行特征融合，这样经过网络结构

和

相加输出参考人员表情迁移后的landmark向量

从而完成在landmark向量几何空间上的表情迁移；

Landmark转换器(ψ)生成的参考人员表情迁移后的landmark向量

在送入人脸生成器

前需转换为参考人员表情迁移后的landmark图像

其方式为以参考人员表情迁移后的landmark向量

所述人脸生成器

参考人员表情迁移后的landmark向量

分别经网络结构

网络结构

提取图像特征后由网络结构

进一步进行特征融合，最后经网络结构

解码得到参考人员表情迁移后的图像

在进行前向推理时，输入参考人员静止状态landmark向量

和迁移表情landmark 向量

并将之转化为landmark图像形式

然后和参考人员图像

一起送入人脸生成器

生成参考人员表情迁移后的图像

使用不同的迁移表情landmark向量

和不同的参考人员图像

作为输入，生成不同的参考人员表情迁移后的图像

这样使用一个模型即可实现了多人表情迁移。

所述Landmark转换器(ψ)在训练时，除了采用L1损失函数，还额外使用对抗思路设计了landmark真假鉴别器(D_TF)和身份鉴别器(D_S)去进一步增强网络回归landmark的准确性。

所述Landmark转换器(ψ)包含

和

由6层全连接和激活函数组成，

由5层全连接和激活函数组成，

由5层全连接和激活函数组成。

所述landmark真假鉴别器(D_TF)由6层全连接和激活函数组成，身份鉴别器(D_S) 由6层全连接和激活函数组成。

人脸生成器

网络结构

由3层卷积层组成，网络结构

由6层卷积层组成，网络结构

由18 层卷积层组成，网络结构φ₄由2层反卷积层和1层卷积层组成。

所述图像鉴别器(D_TF)由6层卷积层和激活函数组成。

所述Landmark转换器(ψ)在训练时需要大于60个id的同步(具有相同的表情)landmark数据，且每个id的landmark数据不少于24个。

所述人脸生成器

在训练时需要大于60个id的同步(具有相同的表情)图像数据，且每个id的图像数据不少于24张。

本发明一种基于生成对抗机制的多人表情迁移方法能够生成高真实度的表情迁移图像，由于人脸生成器

采用全卷机网络结构，故其输出分辨率不受限制。考虑到算力代价及应用效果，该方法通常生成512*512分辨率的图像。

本发明方法不同于其他的方法，在表情迁移人脸图像生成过程中将人脸的几何信息和纹理信息进行了解耦，具有更灵活的应用价值，比如可以通过对landmark中的嘴巴开合程度操作，从而控制生成图像中人脸的嘴巴开合程度。

本发明方法不同于已有的单人表情迁移方法，其仅适用一个模型即可实现多人之间的表情迁移，大大降低了网络训练的算力成本以及应用的存储成本。

所述的参考人员表情迁移后的landmark向量

定义为长度为212的向量，由face++人脸属性检测模型得到。

其中，landmark向量

l_shift和

为长度212的向量，landmark图像

和

为分辨率512*512的3通道彩色图像，landmark图像

为分辨率128*128的单通道图像。

如图4所示，在RaFD数据集上的效果，第一列为参考人员图像，第一行为不同的待迁移表情人员图像，其余为生成的表情迁移后的参考人员图像。

如图5所示，在Multi-PIE数据集上的效果，第一行为参考人员图像，第一列为不同的待迁移表情人员图像，其余为生成的表情迁移后的参考人员图像。

本实施例中其余未记载的内容可以参考前文人脸表情的迁移方法的相关描述，在此不作赘述。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于生成对抗机制的多人表情迁移方法，其特征在于，包括Landmark转换器(ψ)和人脸生成器

所述Landmark转换器(ψ)是由多个全连接层、ReLU激活函数层组成，

输入参考人员静止状态下landmark向量

待迁移表情landmark向量

分别经网络结构

网络结构

提取图像特征后由网络结构

进一步进行特征融合，这样经过网络结构

和

相加输出参考人员表情迁移后的landmark向量

从而完成在landmark向量几何空间上的表情迁移；

Landmark转换器(ψ)生成的参考人员表情迁移后的landmark向量

在送入人脸生成器

前需转换为参考人员表情迁移后的landmark图像

其方式为以参考人员表情迁移后的landmark向量

所述人脸生成器

参考人员表情迁移后的landmark向量

分别经网络结构

网络结构

提取图像特征后由网络结构

进一步进行特征融合，最后经网络结构

解码得到参考人员表情迁移后的图像

在进行前向推理时，输入参考人员静止状态landmark向量

和迁移表情landmark向量

并将之转化为landmark图像形式

然后和参考人员图像

一起送入人脸生成器

生成参考人员表情迁移后的图像

使用不同的迁移表情landmark向量

和不同的参考人员图像

作为输入，生成不同的参考人员表情迁移后的图像

这样使用一个模型即可实现了多人表情迁移。

2.根据权利要求1中所述的一种基于生成对抗机制的多人表情迁移方法，其特征在于，所述Landmark转换器(ψ)在训练时，除了采用L1损失函数，还额外使用对抗思路设计了landmark真假鉴别器(D_TF)和身份鉴别器(D_S)去进一步增强网络回归landmark的准确性。

3.根据权利要求1中所述的一种基于生成对抗机制的多人表情迁移方法，其特征在于，所述Landmark转换器(ψ)包含

和

由6层全连接和激活函数组成，

由5层全连接和激活函数组成，

由5层全连接和激活函数组成。

4.根据权利要求2中所述的一种基于生成对抗机制的多人表情迁移方法，其特征在于，所述landmark真假鉴别器(D_TF)由6层全连接和激活函数组成，身份鉴别器(D_S)由6层全连接和激活函数组成。

5.根据权利要求1中所述的一种基于生成对抗机制的多人表情迁移方法，其特征在于，人脸生成器

6.根据权利要求1中所述的一种基于生成对抗机制的多人表情迁移方法，其特征在于，网络结构

由3层卷积层组成，网络结构

由6层卷积层组成，网络结构

7.根据权利要求5中所述的一种基于生成对抗机制的多人表情迁移方法，其特征在于，所述图像鉴别器(D_TF)由6层卷积层和激活函数组成。