CN113628635A

CN113628635A - 一种基于教师学生网络的语音驱动说话人脸视频生成方法

Info

Publication number: CN113628635A
Application number: CN202110811278.7A
Authority: CN
Inventors: 熊盛武; 陈燚雷; 曾瑞; 林承德; 马宜祯
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-11-09
Anticipated expiration: 2041-07-19
Also published as: CN113628635B

Abstract

本发明涉及一种基于教师学生网络的语音驱动说话人脸视频生成方法。首先利用教师网络压缩出视频数据中的动态信息，接着利用学生网络学习语音到动态信息的预测，然后使用预训练好的教师网络提取的人脸动态信息作为监督，结合人脸身份信息实现语音驱动人脸的说话任务。相比于传统的任意说话人脸视频生成技术，本发明首次挖掘视频信号中的动态信息，在人脸生成、图片清晰度和生成说话人脸的视频唇形的准确度上有较大的提升。

Description

一种基于教师学生网络的语音驱动说话人脸视频生成方法

技术领域

本发明涉及多媒体领域和人工智能领域，特别是涉及一种基于教师学生网络的语音驱动说话人脸视频生成方法。

背景技术

任意说话人脸视频生成技术是指输入任意一个人的一张正脸照片和其一段说话语音，然后生成该人正脸说话的视频，且生成的视频有准确的唇动和表情变化。由单张人脸图片和说话语音生成自然流畅的说话人脸视频十分具有挑战性，其需要生成保留身份特征的多帧人脸，而且要求人脸变化尤其是唇形变化在时域上要与输入的语音一致。说话人脸视频生成技术在虚拟主播、智能家居、游戏电影人物制作等领域具有十分广阔的应用前景和潜力。

说话人脸生成任务最早可以追溯到上个世纪九十年代，当时是使用稀疏网格建模人脸，然后使用语音信号驱动人脸网格运动。20世纪初，麻省理工的EZZAT提出“make ittalk”的方案，通过收集单人一定数量的说话人脸视频形成单人视频库，然后将文本信号转换成音素信号，再将音素信号在单人视频库中搜索最合适的视素，最后使用光流计算这些视素的中间帧来生成视频。近年来，随着计算机计算能力的增长、大规模数据集的构建以及深度学习的兴起，2016年VGG组的Joon Son Chung在其论文《you said that？》中首次实现了使用编解码学习结构在大规模数据集LRW上训练，只使用单张人脸照片和说话音频就可以生成单张人脸说话视频。随后的技术都是使用视频帧作为真值来对网络进行自监督学习，但是这些方法都没有充分挖掘视频信息的动态信息。

发明内容

本发明针对现有技术的不足，在深度学习自编码器生成模型的基础上，融入生成对抗网络和知识蒸馏在图像生成方面的优良特性，提出了一种基于教师学生网络的语音驱动说话人脸视频生成方法。首先利用教师网络压缩出视频数据中的动态信息，接着利用学生网络学习语音到动态信息的预测，然后使用预训练好的教师网络提取的人脸动态信息作为监督，结合人脸身份信息实现语音驱动人脸的说话任务。

为了达到上述目的，本发明提供的技术方案是一种基于教师学生网络的语音驱动说话人脸视频生成方法，包括以下步骤：

步骤1，获取大量的说话人脸视频数据集；

步骤2，使用ffmpeg工具从步骤1获取的数据集中提取视频帧和语音数据；

步骤3，使用dlib库提供的人脸检测工具提取步骤2视频帧中的人脸照片，并将其转换成正脸照片，然后剪裁成N×N尺寸的正脸照片I₁，使用语音处理工具库python_speech_features提取步骤2语音信号的MFCC特征；

步骤4，使用face_alignment提供的人脸对齐工具，检测步骤3剪裁好的正脸照片I₁中的人脸特征点；

步骤5，构建并训练教师网络；

步骤6，构建并训练学生网络；

步骤7，级联学生网络训练；

步骤8，将步骤3提取的MFCC特征序列和任意人脸照片I输入到步骤7训练好的级联学生网络中，即可得到对应的图片序列，然后使用ffmpeg将图片序列合成视频。

而且，所述步骤5中构建并训练教师网络包括以下几个步骤：

步骤5.1，整个网络采取自监督学习的方式，分别对步骤4检测出的人脸特征点l₁、l₂和剪裁好的正脸照片I₁使用三个编码器f₁、f₂、f₃进行编码，生成隐变量z₁、z₂、z₃；

步骤5.2，令z₄＝concat((z₂-z₁),z₃)，用解码器f_D对z₄进行解码，得到表现剪裁好的正脸照片I₁变化的区域范围m和变化区域内像素值的变化信息c，动态特征m和c的计算方式如下：

(m,c)＝f_D(z₄) (1)

步骤5.3，利用步骤5.2计算得到的参数m和c，结合剪裁好的正脸照片I₁，得到合成照片I₁′：

I₁′＝m×c+(1-m)×I₁ (2)

步骤5.4，使用W-GAN-gp算法的网络架构对教师网络进行训练。

而且，所述步骤5.4中使用W-GAN-gp算法的网络架构对教师网络进行训练包括生成器训练阶段和判别器训练阶段：

步骤5.4.1，生成器训练阶段，给定预处理好的人脸特征点l₁、l₂和剪裁好的正脸照片I₁，使用步骤5.1-5.3的计算流程，网络通过预测的运动信息m和c生成图片I₁′，并计算生成器的损失函数l_loss：

l_loss＝l_rec+l_reg+l_gen (3)

l_rec＝||I₁-I₁′||₁ (4)

l_reg＝||m||₁ (5)

l_gen＝-D_I([I₁′,m]) (6)

式中，l_rec为重建损失，l_reg为稀疏正则化损失，l_gen为对抗损失，D_I(·)表示判别器，||||₁表示L₁范数。

步骤5.4.2，判别器训练阶段，使用W-GAN-gp的判别器部分，判别器损失函数

计算方式为：

式中，

表示求导，D_I(·)表示判别器，||||表示L₂范数，λ＝10，l_gp表示Lipschitz惩罚系数，为了解决梯度爆炸。

生成阶段和判别阶段交替训练直到算法收敛，教师网络训练结束。

而且，所述步骤6中构建并训练学生网络包括以下几个步骤：

步骤6.1，使用步骤3提取到的语音信号的MFCC特征，以视频帧的时间点为中心，加上一个10ms的时间窗提取MFCC信号；

步骤6.2，使用步骤5训练好的教师网络，输入人脸特征点l₁、l₂和剪裁好的正脸照片I₁，得到变化区域m和变化区域内像素值的变化信息c；

步骤6.3，输入步骤6.1切割好的语音信号10ms的MFCC特征a_mfcc和一张剪裁好的正脸照片I₁，分别使用语音编码器f₄和身份信息编码器f₅进行编码，生成隐变量z₅和z₆，然后令z₇＝concat(z₅,z₆)；

步骤6.4，使用解码器

预测运动信息(m_s,c_s)，

步骤6.5，利用步骤6.4计算得到的参数m_s和c_s，结合剪裁好的正脸照片I₁，得到合成照片I′_1s：

I_1s′＝m_s×c_s+(1-m_s)×I₁ (9)

步骤6.6，使用W-GAN-gp算法的网络架构对学生网络进行训练。

而且，所述步骤6.6中使用W-GAN-gp算法的网络架构对学生网络进行训练包括生成器训练阶段和判别器训练阶段：

步骤6.6.1，生成器训练阶段，给定MFCC特征a_mfcc和剪裁好的正脸照片I₁，使用步骤6.2-6.5的计算流程，学生网络通过预测的运动信息m_s和c_s生成图片I′_1s，并计算生成器的损失函数l′_loss：

l′_loss＝l′_rec+l′_reg+l′_gen+l_mot (10)

l′_rec＝||I₁-I₁′_s||₁ (11)

l′_reg＝||m||₁ (12)

l′_gen＝-D_I([I_1s′,m]) (13)

l_mot＝||m_s-m||₁+||c_s-c||₁ (14)

式中，l′_rec为重建损失，l′_reg为稀疏正则化损失，l′_gen为对抗损失，l_mot为监督运动信息损失，D_I(·)表示判别器，||||₁表示L₁范数。

步骤6.6.2，判别器训练阶段，使用W-GAN-gp的判别器部分，判别器损失函数

为：

式中，

表示求导，D_I(·)表示判别器，||||表示L₂范数，λ＝10，l′_gp表示Lipschitz惩罚系数，为了解决梯度爆炸。

生成阶段和判别阶段交替训练直到算法收敛，学生网络训练结束。

而且，所述步骤7中级联学生网络训练包括以下几个步骤：

步骤7.1，将步骤3提取的MFCC特征序列{a₁,a₂,...a_n}依次通过步骤6.3中的语音编码器f₄得到语音隐变量序列{a′₁,a′₂,...a′_n}；

步骤7.2，输入人脸身份照片I₁，通过步骤6.3中的身份编码器f₅得到身份隐变量z，通过广播机制将隐变量z与语音隐变量序列{a′₁,a′₂,...a′_n}拼接得到隐变量序列{b₁,b₂,...b_n}；

步骤7.3，为了建模时序序列的时序性，将隐变量序列{b₁,b₂,...b_n}输入LSTM网络得到包含时序信息的隐变量序列{b′₁,b′₂,...b′_n}，然后再将隐变量序列{b′₁,b′₂,...b′_n}中的每一个隐变量分别按照步骤6.4-6.6进行训练，生成图片序列{I_1a,I_2a,...I_na}。

与现有技术相比，本发明具有如下优点：相比于传统的任意说话人脸视频生成技术，本发明首次挖掘视频信号中的动态信息，在人脸生成、图片清晰度和生成说话人脸的视频唇形的准确度上有较大的提升。

附图说明

图1为本发明实施例的网络结构图。

图2为本实施例基于对抗网络的教师网络模型框图。

图3为本实施例基于对抗网络的学生网络模型框图。

图4为本实施例基于对抗网络的级联学生网络模型框图。

具体实施方式

本发明提供一种基于教师学生网络的语音驱动说话人脸视频生成方法，首先利用教师网络压缩出视频数据中的动态信息，接着利用学生网络学习语音到动态信息的预测，然后使用预训练好的教师网络提取的人脸动态信息作为监督，结合人脸身份信息实现语音驱动人脸的说话任务。

下面结合附图和实施例对本发明的技术方案作进一步说明。

如图1所示，本发明实施例的流程包括以下步骤：

步骤1，获取大量的说话人脸视频数据集。

步骤2，使用ffmpeg工具从步骤1获取的数据集中提取视频帧和语音数据。

步骤3，使用dlib库提供的人脸检测工具提取步骤2视频帧中的人脸照片，并将其转换成正脸照片，然后剪裁成N×N尺寸(N可以取64、128、256等值)的正脸照片I₁，使用语音处理工具库python_speech_features提取步骤2语音信号的MFCC特征。

步骤4，使用face_alignment提供的人脸对齐工具，检测步骤3剪裁好的正脸照片I₁中的人脸特征点。

步骤5，构建并训练教师网络。

步骤5.1，整个网络采取自监督学习的方式，首先分别对步骤4检测出的人脸特征点l₁、l₂和剪裁好的正脸照片I₁使用三个编码器f₁、f₂、f₃进行编码，生成隐变量z₁、z₂、z₃。

步骤5.2，令z₄＝concat((z₂-z₁),z₃)，用解码器f_D对z₄进行解码，得到表现剪裁好的正脸照片I₁变化区域m和变化区域内像素值的变化信息c。

动态特征m和c的计算方式如下：

(m,c)＝f_D(z₄) (1)

步骤5.3，利用步骤5.2计算得到的参数m和c，结合剪裁好的正脸照片I₁，得到合成照片I₁′。

合成照片I₁′的计算方式如下：

I₁′＝m×c+(1-m)×I₁ (2)

步骤5.4，使用W-GAN-gp算法的网络架构对教师网络进行训练。

步骤5.4.1，生成器训练阶段，给定预处理好的人脸特征点l₁、l₂和剪裁好的正脸照片I₁，使用步骤5.1-5.3的计算流程，网络通过预测的运动信息m和c生成图片I₁′，生成器的损失函数l_loss包含重建损失l_rec、稀疏正则化损失l_reg和对抗损失l_gen三个损失函数，计算方式如下：

l_loss＝l_rec+l_reg+l_gen (3)

l_rec＝||I₁-I₁′||₁ (4)

l_reg＝||m||₁ (5)

l_gen＝-D_I([I₁′,m]) (6)

式中，D_I(·)表示判别器，||||₁表示L₁范数。

计算方式为：

式中，

步骤6，构建并训练学生网络。

步骤6.1，使用步骤3提取到的语音信号的MFCC特征，以视频帧的时间点为中心，加上一个10ms的时间窗提取MFCC信号。

步骤6.2，使用步骤5预训练好的教师网络，输入人脸特征点l₁、l₂和剪裁好的正脸照片I₁，得到变化区域m和变化区域内像素值的变化信息c。

步骤6.3，输入步骤6.1切割好的语音信号10ms的MFCC特征a_mfcc和一张剪裁好的正脸照片I₁，分别使用语音编码器f₄和身份信息编码器f₅进行编码，生成隐变量z₅和z₆，然后令z₇＝concat(z₅,z₆)。

步骤6.4，使用解码器

预测运动信息(m_s,c_s)，

步骤6.5，利用步骤6.4计算得到的参数m_s和c_s，结合剪裁好的正脸照片I₁，得到合成照片I′_1s。

合成照片I′_1s的计算方式如下：

I_1s′＝m_s×c_s+(1-m_s)×I₁ (9)

步骤6.6，使用W-GAN-gp算法的网络架构对学生网络进行训练。

步骤6.6.1，生成器训练阶段，给定MFCC特征a_mfcc和剪裁好的正脸照片I₁，使用步骤6.2-6.5的计算流程，学生网络通过预测的运动信息m_s和c_s生成图片I′_1s，生成器的损失函数l′_loss包含重建损失l_rec、稀疏正则化损失l_reg、对抗损失l_gen和监督运动信息损失l_mot四个损失函数，计算方式如下：

l′_loss＝l′_rec+l′_reg+l′_gen+l_mot (10)

l′_rec＝||I₁-I_1s′||₁ (11)

l′_reg＝||m||₁ (12)

l′_gen＝-D_I([I_1s′,m]) (13)

l_mot＝||m_s-m||₁+||c_s-c||₁ (14)

式中，D_I(·)表示判别器，||||₁表示L₁范数。

为：

式中，

步骤7，级联学生网络训练。

步骤7.2，输入人脸身份照片I₁，通过步骤6.3中的身份编码器f₅得到身份隐变量z，通过广播机制将其与语音隐变量序列{a′₁,a′₂,...a′_n}拼接得到隐变量序列{b₁,b₂,...b_n}；

步骤7.3，为了建模时序序列的时序性，将隐变量序列{b₁,b₂,...b_n}输入LSTM网络得到包含时序信息的隐变量序列{b′₁,b′₂,...b′_n}，将隐变量序列{b′₁,b′₂,...b′_n}中的每一个隐变量分别按照步骤6.4-6.6进行训练，生成图片序列{I_1a,I_2a,...I_na}。

步骤8，将步骤3提取的MFCC特征序列{a₁,a₂......a_n}和任意人脸照片I输入到步骤7训练好的级联学生网络中，即可得到对应的图片序列{I_1a,I_2a,...I_na}，然后使用ffmpeg将图片序列合成视频。

具体实施时，以上流程可采用计算机软件技术实现自动运行流程。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于教师学生网络的语音驱动说话人脸视频生成方法，其特征在于，包括如下步骤：

步骤1，获取大量的说话人脸视频数据集；

步骤2，从步骤1获取的数据集中提取视频帧和语音数据；

步骤3，提取步骤2视频帧中的人脸照片，并将其转换成正脸照片，然后剪裁成N×N尺寸的正脸照片I₁，提取步骤2语音信号的MFCC特征；

步骤4，检测步骤3剪裁好的正脸照片I₁中的人脸特征点；

步骤5，构建并训练教师网络；

步骤6，构建并训练学生网络；

步骤7，级联学生网络训练；

2.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法，其特征在于：所述步骤5中构建并训练教师网络包括以下几个步骤：

(m,c)＝f_D(z₄) (1)

I₁′＝m×c+(1-m)×I₁ (2)

步骤5.4，使用W-GAN-gp算法的网络架构对教师网络进行训练。

3.如权利要求2所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法，其特征在于：所述步骤5.4中使用W-GAN-gp算法的网络架构对教师网络进行训练包括生成器训练阶段和判别器训练阶段，生成阶段和判别阶段交替训练直到算法收敛，教师网络训练结束，其中生成器训练阶段，给定预处理好的人脸特征点l₁、l₂和剪裁好的正脸照片I₁，使用步骤5.1-5.3的计算流程，网络通过预测的运动信息m和c生成图片I₁′，并计算生成器的损失函数l_loss：

l_loss＝l_rec+l_reg+l_gen (3)

l_rec＝||I₁-I₁′||₁ (4)

l_reg＝||m||₁ (5)

l_gen＝-D_I([I₁′,m]) (6)

式中，l_rec为重建损失，l_reg为稀疏正则化损失，l_gen为对抗损失，D_I(·)表示判别器，|| ||₁表示L₁范数。

4.如权利要求3所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法，其特征在于：所述步骤5.4中判别器训练阶段，使用W-GAN-gp的判别器部分，判别器损失函数

计算方式为：

式中，

表示求导，D_I(·)表示判别器，|| ||表示L₂范数，λ＝10，l_gp表示Lipschitz惩罚系数，为了解决梯度爆炸。

5.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法，其特征在于：所述步骤6中构建并训练学生网络包括以下几个步骤：

步骤6.4，使用解码器

预测运动信息(m_s,c_s)，

步骤6.5，利用步骤6.4计算得到的参数m_s和c_s，结合剪裁好的正脸照片I₁，得到合成照片I₁′_s：

I_1s′＝m_s×c_s+(1-m_s)×I₁ (9)

步骤6.6，使用W-GAN-gp算法的网络架构对学生网络进行训练。

6.如权利要求5所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法，其特征在于：所述步骤6.6中使用W-GAN-gp算法的网络架构对学生网络进行训练包括生成器训练阶段和判别器训练阶段，生成阶段和判别阶段交替训练直到算法收敛，学生网络训练结束，其中生成器训练阶段，给定MFCC特征a_mfcc和剪裁好的正脸照片I₁，使用步骤6.2-6.5的计算流程，学生网络通过预测的运动信息m_s和c_s生成图片I′_1s，并计算生成器的损失函数l′_loss：

l′_loss＝l′_rec+l′_reg+l′_gen+l_mot (10)

l′_rec＝||I₁-I_1s′|| (11)

l′_reg＝||m||₁ (12)

l′_gen＝-D_I([I_1s′,m]) (13)

l_mot＝||m_s-m||₁+||c_s-c||₁ (14)

式中，l′_rec为重建损失，l′_reg为稀疏正则化损失，l′_gen为对抗损失，l_mot为监督运动信息损失，D_I(·)表示判别器，|| ||₁表示L₁范数。

7.如权利要求6所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法，其特征在于：所述步骤6.6中判别器训练阶段，使用W-GAN-gp的判别器部分，判别器损失函数

为：

式中，

表示求导，D_I(·)表示判别器，|| ||表示L₂范数，λ＝10，l′_gp表示Lipschitz惩罚系数，为了解决梯度爆炸。

8.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法，其特征在于：所述步骤7中级联学生网络训练包括以下几个步骤：