CN109308731A

CN109308731A - 级联卷积lstm的语音驱动唇形同步人脸视频合成算法

Info

Publication number: CN109308731A
Application number: CN201810972946.2A
Authority: CN
Inventors: 朱建科; 江泽胤子
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2019-02-05
Anticipated expiration: 2038-08-24
Also published as: CN109308731B

Abstract

本发明公开了一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法。采集目标人物的说话视频作为底板视频，对图像序列进行三维人脸重建获得目标三维人脸模型，获得底板视频的面部动画向量序列；音频信号提取出滤波器组的语音特征；将滤波器组的语音特征作为级联卷积长短时记忆网络的输入，以面部动画向量序列作为输出进行训练测试；用音频信号的面部动画向量序列替换目标三维人脸模型的面部动画向量序列生成新三维人脸模型并渲染人脸图像合成唇形同步人脸视频。本发明保留更多的声纹信息，创新通过二维卷积神经网络获取滤波器组的语音特征，扩大了卷积神经网络的感受野，增加了网络深度，获得了准确的唇形同步人脸视频。

Description

级联卷积LSTM的语音驱动唇形同步人脸视频合成算法

技术领域

本发明涉及计算机视觉领域以及音频信号处理的相关技术，尤其涉及了一种基于级联卷积长短时记忆网络结构(级联卷积LSTM)的语音驱动唇形同步人脸视频算法。

背景技术

经过近些年的探索和发展，计算机视觉已经在数字娱乐、医疗健康、安防监控等很多领域具有应用场景。合成逼真的视觉内容不仅具有很大的商业价值,而且也是业界一直所期望的。如果没有计算机合成的综合视觉效果,许多电影特效也是不可能实现的。目前,网络上就已经存在着大量的人工合成视频。此外，语音识别与文本合成语音技术也已广泛应用于聊天机器人中。本发明希望通过提出一种新的从语音或文本合成语音生成唇形同步人脸视频的方法，使得网络聊天机器人具有真人的外观及表情。

语音或文本合成语音通常被表示为单声道音频信号,且频率很高,通常为16KHz。另一方面,视频是二维图像的时间序列,具有高维度(超过100K)和相对较低的采样频率,如25帧/秒,是一个三维信号。由于人类对面部表情的微妙变化非常敏感,所以需要生成细粒度的合成结果。因此,通过从低维度高频语音的音频信号或文本合成语音的音频信号中直接恢复高保真度的高维度低频视频是很有挑战的,这是一个严重欠约束的病态问题。

发明内容

为了解决背景技术中存在的问题，本发明提出了级联卷积LSTM的语音驱动唇形同步人脸视频合成算法，实现了通过语音或文本合成语音合成唇形同步人脸视频。

本发明采用的技术方案包括如下步骤：

1)采集目标人物的说话视频作为底板视频，说话视频中的目标人物即为最终人脸视频合成的主体人物，从对底板视频提取出图像序列和音频信号，对底板视频的图像序列进行三维人脸重建，获得目标三维人脸模型，再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列，该面部动画向量序列即为合成人脸表情的加权系数；

2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号，均采用特征提取方法提取出滤波器组的语音特征；

3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入，以面部动画向量序列作为输出进行训练和测试；

训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据，底板视频的面部动画向量序列作为训练输入标签；

测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据，预测获得用户输入语音或文本合成语音的面部动画向量序列；

4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列，再结合准确稠密的三维人脸追踪方式生成新的三维人脸模型；

5)使用新的三维人脸模型，渲染出人脸图像并嵌入到底板视频的图像序列中，最终合成唇形同步人脸视频。

本发明特殊采用滤波器组的语音特征处理获得面部模型数据，构建了特殊的级联卷积长短时记忆网络进行训练预测获得对应音频信号的面部模型数据替换图像的面部模型数据合成获得唇形同步人脸视频。

所述步骤1)中的目标三维人脸模型使用了准确稠密的三维形变模型三维人脸重建。

所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。

所述步骤3)中的级联卷积长短时记忆网络结构，如图1和图3所示，主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四个级联的全连接长短时记忆网络、三个级联的全连接层网络和输出层依次顺序连接而成；其中二维卷积层的卷积核大小为5*5且卷积核个数为32，两个级联的卷积长短时记忆网络的卷积核大小均为3*3且内部单元数分别为64和100，四个级联的全连接长短时记忆网络的单元数分别为60、100、200、300，三个级联的全连接层网络的卷积核大小分别为200、100、29；

所述的级联卷积长短时记忆网络结构采用以下公式表示的锚样例、正样例、负样例之间的三元组损失函数，如下：

L_tri＝max(0,p-α×n)

其中，y是指训练时的预测面部动画向量序列，是指底板视频的面部动画向量序列，是指经随机打乱的面部动画向量序列，是将底板视频的面部动画向量序列中的各的面部动画向量随机打乱后重新排序获得的面部动画向量序列，p是指训练时的预测面部动画向量序列y和底板视频的面部动画向量序列之间的距离，n是指锚样例和负样例之间的距离，L_tri是所求的三元组损失，α是权重系数，i表示从底板视频的音频信号提取的滤波器组的语音特征的帧序数，N表示从底板视频的音频信号提取的滤波器组的语音特征的帧总数；

所述步骤4)使用准确稠密的三维人脸追踪方法获得目标人物的头部姿态和光照系数，头部姿态和光照系数组成构建新的三维人脸模型。

所述步骤5)中，渲染人脸图像使用基于数据驱动的相似纹理检索方法以匹配到最符合当前语音的嘴唇图像，再结合嘴唇图像进行最终人脸图像的渲染，合成唇形同步人脸视频。

所述步骤1)中的目标人物的说话视频采用Kinect 2.0相机采集。

传统唇形同步人脸视频合成算法通过将音频流转化为毫秒级的音素序列，而音素的提取大多通过人工标记或者自动语音识别系统，这个过程很容易出错而且很复杂，需要很高的人力成本。最近基于梅尔频率倒谱系数特征的方法忽略了同一个时间窗口内的相关性，因此也忽略了音频信号中大量的细节信息。

而本发明提出的算法直接从音频信号中提取滤波器组的语音特征，之后经过级联卷积长短时记忆网络的预测，最终合成唇形同步人脸视频，将唇形同步人脸视频合成问题转化为从音频信号到面部动画向量序列的序列到序列回归问题。

本发明的有益效果是：

本发明提出了语音驱动的唇形同步人脸视频合成算法，创新地利用滤波器组的语音特征进行二维卷积操作，从而获得了同一时间窗口的相关性，保留了大量的语音特征信息，并且使用了新颖的级联卷积长短时记忆网络模型，解决了恢复从音频信号到人脸视频的复杂映射问题，准确稠密的三维人脸跟踪解决了因人物说话引起的头部移动和面部细微变化，最终合成唇形同步人脸视频。

本发明直接从音频信号中提取滤波器组的语音特征，相对于传统的梅尔频率倒谱系数特征，可以尽可能保留更多的声纹信息并转化为二维信号；使得可以利用卷积长短时记忆网络去捕获更丰富的空间信息，用于生成面部动画向量序列；然后结合准确稠密的三维人脸跟踪算法来合成唇形同步人脸视频。

本发明提出了的算法，创新地通过二维卷积神经网络获取滤波器组的语音特征，扩大了卷积神经网络的感受野，该语音特征不仅增加了网络的深度而且分析了时间窗口内部以及不同时间窗口之间的相关性，进一步利用级联卷积长短时记忆网络获取音频信号与人脸视频间的复杂映射关系，并且通过准确稠密的三维人脸追踪对人物说话时引起的头部移动和面部的细微变化解耦合。

附图说明

图1为本发明算法采用的神经网络结构示意图。

图2为本发明算法的整体结构示意图。

图3为本发明算法的流程图。

图4为数据集中的合成视频结果图；(a)使用真值合成的人脸视频，(b)使用梅尔倒谱频率和全连接长短时记忆层合成的人脸视频，(c)使用真人语音和级联卷积长短时记忆网络合成的人脸视频，(d)使用文本合成语音和级联卷积长短时记忆网络合成的人脸视频。

表1为评测中的不同网络模型和损失函数的对比。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清晰、完整的描述。基于本发明中的实施例，本领域普通技术人员在没有做创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的目的、技术方案及优点更加清楚明白，接下来将参照附图对本发明实施例进行详细的说明。

按照本发明完整方法具体实施的实施例如下：

如图2所示，采用以下系统模块为：

输入模块，用来接收用户输入语音的音频信号或文本合成语音的音频信号，接下来送入级联卷积长短时记忆网络模块进行特征提取并生成面部动画向量序列。

级联卷积长短时记忆网络模块，把接收到的音频信号进行基于滤波器组的语音特征提取，之后进行卷积操作，进行卷积长短时记忆神经网络操作，最后进行全连接网络操作，生成面部动画向量序列，并送入输出模块。

输出模块，通过级联卷积长短时记忆网络模块输出的面部动画向量序列合成人脸视频，把最终合成的人脸视频显示出来。

为验证本发明，在自己采集的数据集上进行设计实验，将本发明算法采用不同模型和损失函数进行对比，把实验结果与用目标面部动画向量序列合成的人脸视频进行对比。如图4所示，本发明提出的算法可精确合成人脸视频。图4(a)的四张子图为使用真值合成的人脸视频中不同连续帧的图像序列，图4(b)为使用梅尔倒谱频率和全连接长短时记忆层合成的人脸视频不同连续帧的图像序列，图4(c)为使用真人语音和级联卷积长短时记忆网络合成的人脸视频不同连续帧的图像序列，图4(d)为使用文本合成语音和级联卷积长短时记忆网络合成的人脸视频不同连续帧的图像序列。

图4中可见采用本发明合成的人脸视频非常接近用目标面部动画向量序列合成的人脸视频。收集的数据包含17个用Kinect 2.0采集的说话人视频序列，视频总长81分钟22秒，共17段，共146460帧，用时间戳同步了音频和视频图像以及深度信息，验证结果如表1所示。

表1:不同网络模型和损失函数的对比

上表中可见本发明的结果在的数据集测试中不仅性能优秀，并且可以合成逼真的人脸视频。

由此可见本发明算法取得在语音驱动人脸视频合成领域中常用算法更优秀的实验结果。

最后，应当指出，以上实施例仅是本发明较有代表性的例子。显然，本发明的技术方案并不限于上述实施例，还可以有许多变形。本领域的普通技术人员可在不脱离本发明的发明思想情况下，对于上述实施例做出种种修改或变化，因而本发明的保护范围并不被上述实施例所限，而应该是符合权利要求书提到的创新性特征的最大范围。

Claims

1.一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法，其特征在于包括如下步骤：

1)采集目标人物的说话视频作为底板视频，从对底板视频提取出图像序列和音频信号，对底板视频的图像序列进行三维人脸重建，获得目标三维人脸模型，再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列；

3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入，以面部动画向量序列作为输出进行训练和测试；训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据，底板视频的面部动画向量序列作为训练输入标签；测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据，预测获得用户输入语音或文本合成语音的面部动画向量序列；

4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列，再结合三维人脸追踪方式生成新的三维人脸模型；

2.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法，其特征在于：所述步骤1)中的目标三维人脸模型使用了三维形变模型三维人脸重建。

3.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法，其特征在于：所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。

4.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法，其特征在于：所述步骤3)中的级联卷积长短时记忆网络结构，主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四个级联的全连接长短时记忆网络、三个级联的全连接层网络和输出层依次顺序连接而成；其中二维卷积层的卷积核大小为5*5且卷积核个数为32，两个级联的卷积长短时记忆网络的卷积核大小均为3*3且内部单元数分别为64和100，四个级联的全连接长短时记忆网络的单元数分别为60、100、200、300，三个级联的全连接层网络的卷积核大小分别为200、100、29；

所述的级联卷积长短时记忆网络结构采用以下公式的三元组损失函数，如下：

L_tri＝max(0,p-α×n)

其中，y是指训练时的预测面部动画向量序列，是指底板视频的面部动画向量序列，是指经随机打乱的面部动画向量序列，是将底板视频的面部动画向量序列中的各的面部动画向量随机打乱后重新排序获得的面部动画向量序列，p是指训练时的预测面部动画向量序列y和底板视频的面部动画向量序列之间的距离，n是指锚样例和负样例之间的距离，L_tri是所求的三元组损失，α是权重系数，i表示从底板视频的音频信号提取的滤波器组的语音特征的帧序数，N表示从底板视频的音频信号提取的滤波器组的语音特征的帧总数。

5.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法，其特征在于：所述步骤4)使用三维人脸追踪方法获得目标人物的头部姿态和光照系数，头部姿态和光照系数组成构建新的三维人脸模型。

6.根据权利要求1所述级联卷积LSTM的语音驱动唇形同步人脸视频合成算法，其特征在于：所述步骤5)中，渲染人脸图像使用基于数据驱动的相似纹理检索方法以匹配到最符合当前语音的嘴唇图像，再结合嘴唇图像进行最终人脸图像的渲染，合成唇形同步人脸视频。

7.根据权利要求1所述级联卷积LSTM的语音驱动唇形同步人脸视频合成算法，其特征在于：所述步骤1)中的目标人物的说话视频采用Kinect 2.0相机采集。