CN111797897A

CN111797897A - 一种基于深度学习的音频生成人脸图像方法

Info

Publication number: CN111797897A
Application number: CN202010494445.5A
Authority: CN
Inventors: 刘勇; 张江宁
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-10-20

Abstract

本发明提供一种基于深度学习的音频生成人脸图像方法，包括几何结构预测器(ψ)和人脸生成器

几何结构预测器(ψ)输入音频、头部姿态和眼部状态，分别经过

和

提取对应特征f_A、f_P和f_B，然后由

回归得到目标身份面部landmark向量(l)，从而实现音频到landmark几何空间的映射；人脸生成器

输入目标身份参考图像(I_r)、目标身份面部landmark图像(L)分别经

提取图像特征后由

进一步进行特征融合，得到目标身份对应表情图像(I_t)。本发明方法基于Py‑Torch深度学习框架，先对音频进行特征提取并回归人脸的landmark，然后使用对抗生成模型设计思想将landmark与目标生成身份参考图像融合，以生成与音频相应的高质量真实人脸目标身份图像。

Description

一种基于深度学习的音频生成人脸图像方法

技术领域

本发明涉及一种人脸图像生成方法，具体地，涉及一种基于深度学习的音频生成人脸图像方法。

背景技术

声音和视觉在人类传递/接收信息过程中扮演着重要的角色，同时这两种方式在一定程度上包含着重叠的信息。比如当我们听到一个熟悉的人讲话时，能够联想到这个人嘴部的运动和面部表情；当我们看到一个人的图像序列(视频)时，能够推测出画面中的人物说了什么内容，因此说明两种信息可以进行相互转换。在一些实际的商业场景中，比如虚拟主播(语音生成播音员的面部图像)和语音合成人脸图像中，产生了通过音频生成对应说话的人脸图像技术需求，具有极大的商业应用价值。随着深度学习的发展及计算机算力的增加，许多基于深度学习的音频处理和图像生成方法都取得了不错的效果，但仍未出现直接通过音频生成高质量人脸图像的方法。针对这一现象，亟待一种方法能够对输入的音频信号进行处理，并生成相应嘴部运动和面部表情的高质量真实人脸图像。

发明内容

本发明针对目前的方法不能将音频直接生成高质量真实人脸图像这一问题，提出了一种基于深度学习的音频生成人脸图像方法。

为达到上述目的，本发明采取了如下的技术方案：

一种基于深度学习的音频生成人脸图像方法，包括几何结构预测器(ψ)和人脸生成器

几何结构预测器(ψ)输入3种数据：音频数据、头部姿态数据和眼部状态数据，分别经过网络结构

网络结构

和网络结构

(α₁，α₂和α₃为网路对应参数)提取对应特征f_A、f_P和f_B，特征f_A、f_P和f_B在通道层面进行拼接后送入网络结构

然后由网络结构

回归得到目标身份面部landmark向量(l)，从而实现音频到landmark几何空间的映射；

所述几何结构预测器(ψ)生成的目标身份面部landmark向量(l)转换为人脸生成器

输入的目标身份面部landmark图像(L)，其方式为以目标身份面部landmark向量(l)包含的每一个landmark坐标点为中心，在64*64大小的图像上画半径为2的实心圆；

人脸生成器

包括网络结构

网络结构

和网络结构

输入目标身份参考图像(I_r)、目标身份面部landmark图像(L)分别经网络结构

网络结构

提取图像特征后由网络结构

进一步进行特征融合，得到目标身份对应表情图像(I_t)。

作为优选地，所述几何结构预测器(ψ)在训练时，除了采用L1损失函数，还额外使用对抗思路设计了landmark真假鉴别器(D_L)以进一步增强网络回归landmark的准确性。

作为优选地，所述几何结构预测器(ψ)包含4个网络结构

和

具体地，

由10层卷积层、1层全连接层和激活函数组成，

由4层全连接层和激活函数组成，

由3层全连接层和激活函数组成，

由2层全连接层和激活函数组成。

作为优选地，所述landmark真假鉴别器(D_L)由6层全连接和激活函数组成。

作为优选地，所述人脸生成器

在训练时，采用L1损失函数进行像素级别的约束，采用Mask损失函数增大面部区域的损失权重，同时采用了对抗思想的图像真假鉴别器(D_I)以进一步增加生成图像的真实性。

作为优选地，所述人脸生成器

包含网络结构

网络结构

和网络结构

具体地，网络结构

由21层卷积层组成，网络结构

由3层卷积层组成，网络结构

由2层反卷积层和1层卷积层组成。

作为优选地，所述图像真假鉴别器(D_I)由6层卷积层和激活函数组成。

与现有技术相比，本发明具有如下有益效果：

本发明方法基于Py-Torch深度学习框架，先对音频进行特征提取并回归人脸的landmark，然后使用对抗生成模型设计思想将landmark与目标生成身份参考图像融合，以生成与音频相应的高质量真实人脸目标身份图像。这样的两阶段设计不仅使得我们可以实现音频生成人脸图像任务，同时还将人脸的几何特征和纹理特征解耦开来。具体地，该方法由几何结构预测器和人脸生成器两个子模型构成。几何结构预测器输入音频、头部姿态(pitch， yaw和roll)和眼部状态(眼睛开合程度)，输出目标身份面部landmark，在几何空间实现音频到面部表情的转换。训练过程中，我们除了采用L1损失函数，还额外设计了landmark 真假鉴别器以进一步增强网络的表现力。人脸生成器输入目标身份参考图像(提供纹理信息)和前一步生成的目标身份面部landmark(提供几何信息)，输出目标身份对应表情图像。训练过程中，我们采用L1图像误差，Mask误差以及真假鉴别器共三种损失函数，以生成高真实度的人脸图像。

附图说明：

图1为本发明整体系统流程示意图；

图2为本发明中几何结构预测器(ψ)的流程示意图；

图3为本发明中人脸生成器

的流程示意图；

图4为本发明应用在AnnIV数据集上的测试效果示意图。

具体实施方式：

以下结合说明书附图及具体实施例来对本发明作进一步的描述。

如图1～3所示，本发明提供一种基于深度学习的音频生成人脸图像方法，包括几何结构预测器(ψ)和人脸生成器

网络结构

和网络结构

然后由网络结构

回归得到目标身份面部landmark向量(l)，从而实现音频到landmark几何空间的映射；所述几何结构预测器(ψ)生成的目标身份面部landmark 向量(l)转换为人脸生成器

输入的目标身份面部landmark图像(L)，其方式为以目标身份面部landmark向量(l)包含的每一个landmark坐标点为中心，在64*64大小的图像上画半径为2的实心圆；人脸生成器

包括网络结构

网络结构

和网络结构

网络结构

提取图像特征后由网络结构

进一步进行特征融合，得到目标身份对应表情图像(I_t)。

其中，所述几何结构预测器(ψ)在训练时，除了采用L1损失函数，还额外使用对抗思路设计了landmark真假鉴别器(D_L)以进一步增强网络回归landmark的准确性。

所述几何结构预测器(ψ)包含4个网络结构

和

具体地，

由10层卷积层、1层全连接层和激活函数组成，

由4层全连接层和激活函数组成，

由3层全连接层和激活函数组成，

由2层全连接层和激活函数组成。

所述landmark真假鉴别器(D_L)由6层全连接和激活函数组成。

所述人脸生成器

所述人脸生成器

包含网络结构

网络结构

和网络结构

具体地，网络结构

由21层卷积层组成，网络结构

由3层卷积层组成，网络结构

由2层反卷积层和1层卷积层组成。

所述图像真假鉴别器(D_I)由6层卷积层和激活函数组成。

所述几何结构预测器(ψ)在训练时需要不少于500组同步的音频，头部姿态，眼部状态和landmark数据。

所述人脸生成器

在训练时需要不少于500组同步的landmark和图像数据。

所述音频预提取特征方式为使用MFCCs在频域提取特征。

所述目标身份面部landmark(l)定义为长度为212的向量，由face++人脸属性检测模型得到。

所述头部姿态定义为长度为3的向量，分别代表pitch，yaw和roll，由face++人脸属性检测模型得到。

所述眼部状态定义为长度为2的向量，分别代表左眼和右眼的开合程度，由landmark 数据进一步计算眼睛高度除以眼睛宽度得到。

本发明一种基于深度学习的音频生成人脸图像方法，能够根据输入音频、头部姿态和眼部状态生成高真实度的目标身份对应表情图像，由于人脸生成器采用全卷机网络结构，故其输出分辨率不受限制。考虑到算力代价及应用效果，该方法通常生成256*256分辨率的图像。

本发明方法在实现音频生成人脸图像过程中将人脸的几何信息和纹理信息进行了解耦，具有更好的解释性。

本发明方法中向量l为长度212的向量，图像I_r和I_t为分辨率256*256的3通道彩色图像，图像L为分辨率64*64的单通道图像。

如图4所示，在AnnIV数据集测试效果，前三行为使用不同人物身份自身的音频作为输入生成图像，后两行为使用其不同人物身份的音频作为输入生成的同一人物图像。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种基于深度学习的音频生成人脸图像方法，其特征在于，包括几何结构预测器(ψ)和人脸生成器

网络结构

和网络结构

然后由网络结构

人脸生成器

包括网络结构

网络结构

和网络结构

网络结构

提取图像特征后由网络结构

进一步进行特征融合，得到目标身份对应表情图像(I_t)。

2.根据权利要求1中所述的一种基于深度学习的音频生成人脸图像方法，其特征在于，所述几何结构预测器(ψ)在训练时，除了采用L1损失函数，还额外使用对抗思路设计了landmark真假鉴别器(D_L)以进一步增强网络回归landmark的准确性。

3.根据权利要求1中所述的一种基于深度学习的音频生成人脸图像方法，其特征在于，所述几何结构预测器(ψ)包含4个网络结构

和

具体地，

由10层卷积层、1层全连接层和激活函数组成，

由4层全连接层和激活函数组成，

由3层全连接层和激活函数组成，

由2层全连接层和激活函数组成。

4.根据权利要求2中所述的一种基于深度学习的音频生成人脸图像方法，其特征在于，所述landmark真假鉴别器(D_L)由6层全连接和激活函数组成。

5.根据权利要求1中所述的一种基于深度学习的音频生成人脸图像方法，其特征在于，所述人脸生成器

6.根据权利要求1中所述的一种基于深度学习的音频生成人脸图像方法，其特征在于，所述人脸生成器

包含网络结构

网络结构

和网络结构

具体地，网络结构

由21层卷积层组成，网络结构

由3层卷积层组成，网络结构

由2层反卷积层和1层卷积层组成。

7.根据权利要求6中所述的一种基于深度学习的音频生成人脸图像方法，其特征在于，所述图像真假鉴别器(D_I)由6层卷积层和激活函数组成。