CN110277099A

CN110277099A - 基于语音的嘴型生成方法和装置

Info

Publication number: CN110277099A
Application number: CN201910512255.9A
Authority: CN
Inventors: 刘霄; 李鑫; 龙翔; 张赫男; 孙昊; 文石磊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-09-24

Abstract

本发明实施例提供一种基于语音的嘴型生成方法和装置，属于深度学习领域。该方法包括：获取所述语音；根据所述语音以及训练后的时间卷积网络，得到嘴部关键点坐标序列；根据所述嘴部关键点坐标序列得到所述嘴型。该基于语音的嘴型生成方法和装置可以并行处理多条语音，提高处理效率。

Description

基于语音的嘴型生成方法和装置

技术领域

本发明涉及深度学习，具体地涉及基于语音的嘴型生成方法和装置。

背景技术

虚拟主播指的是根据一段文本生成一个主播形象，主播说的话、脸部唇形、表情、动作都与文本所表达的内容和情感匹配。该技术的关键在于根据一段语音生成嘴部关键点。语音输入是一个连续的时间序列，生成的嘴部关键点也是个连续的时间序列，两个序列需要尽量的匹配，使得每个时间点上嘴部关键点形成的唇形对应于语音输入。当前还无法大规模的并行处理多条语音导致处理效率非常低。

发明内容

本发明实施例的目的是提供一种基于语音的嘴型生成方法和装置，该基于语音的嘴型生成方法和装置可以并行处理多条语音，提高处理效率。

为了实现上述目的，本发明实施例提供一种基于语音的嘴型生成方法，该方法包括：获取所述语音；根据所述语音以及训练后的时间卷积网络，得到嘴部关键点坐标序列；根据所述嘴部关键点坐标序列得到所述嘴型。

优选地，所述方法还包括：获取测试语音和所述测试语音对应的人物嘴部影像；根据所述测试语音对应的人物嘴部影像，确定所述人物嘴部影像对应的嘴部关键点坐标序列；根据所述测试语音和训练前的时间卷积网络，得到所述测试语音对应的嘴部关键点坐标序列；根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列，调整训练前的时间卷积网络，以得到训练后的时间卷积网络。

优选地，所述根据所述语音以及训练后的时间卷积网络，得到嘴部关键点坐标序列包括：根据所述语音提取梅尔频率倒谱系数特征；将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络，得到所述嘴部关键点坐标序列。

优选地，根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列，调整训练前的时间卷积网络，以得到训练后的时间卷积网络包括：对比所述测试语音对应的嘴部关键点坐标序列和所述人物嘴部影像对应的嘴部关键点坐标序列，计算均方差损失函数；根据所述均方差损失函数调整训练前的时间卷积网络的参数，得到训练后的时间卷积网络。

优选地，所述时间卷积网络为三层。

本发明还提供一种基于语音的嘴型生成装置，该装置包括：获取单元以及处理单元，其中，所述获取单元用于获取所述语音；所述处理单元用于根据所述语音以及训练后的时间卷积网络，得到嘴部关键点坐标序列；根据所述嘴部关键点坐标序列得到所述嘴型。

优选地，该嘴型生成装置还包括训练单元，用于获取测试语音和所述测试语音对应的人物嘴部影像；根据所述测试语音对应的人物嘴部影像，确定所述人物嘴部影像对应的嘴部关键点坐标序列；根据所述测试语音和训练前的时间卷积网络，得到所述测试语音对应的嘴部关键点坐标序列；根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列，调整训练前的时间卷积网络，以得到训练后的时间卷积网络。

优选地，处理单元具体用于：根据所述语音提取梅尔频率倒谱系数特征；将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络，得到所述嘴部关键点坐标序列。

本发明实施例还提供一种电子设备，该电子设备包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，以实现上文所述的基于语音的嘴型生成方法。

本发明实施例还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上文所述的基于语音的嘴型生成方法。

通过上述技术方案，通过本发明提供的基于语音的嘴型生成方法和装置，通过训练后的时间卷积网络，从语音中得到对应的嘴部关键点坐标序列，然后根据嘴部关键点坐标序列得到嘴型。由于时间卷积网络的特性，该基于语音的嘴型生成方法和装置可以并行处理多条语音，提高处理效率。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明一实施例提供的基于语音的嘴型生成方法的流程图；

图2是本发明另一实施例提供的基于语音的嘴型生成方法的流程图；

图3是本发明一实施例提供的训练后的时间卷积网络的方法流程图；

图4是本发明另一实施例提供的训练后的时间卷积网络的方法流程图；

图5是本发明一实施例提供的时间卷积网络的结构示意图；

图6是本发明一实施例提供的基于语音的嘴型生成装置的结构示意图。

附图标记说明

1 获取单元 2 处理单元

3 训练单元。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1是本发明一实施例提供的基于语音的嘴型生成方法的流程图。如图1所述，该方法包括：

步骤S11，获取所述语音；

步骤S12，根据所述语音以及训练后的时间卷积网络，得到嘴部关键点坐标序列；

步骤S13，根据所述嘴部关键点坐标序列得到所述嘴型。

时间卷积网络(Temporal Convolutional Nets,TCN)是一种可以用来解决时间序列预测的算法，在本发明实施例中，使用TCN可以从语音生成嘴部关键点坐标序列，可以理解的是，该序列的坐标是以嘴部动作发生时间为先后顺序排列的。本发明使用训练后的TCN来进行嘴部关键点坐标序列的处理。TCN的具体训练方式将在下文详述。在得到嘴部关键点坐标序列之后，就可以根据嘴部关键点坐标序列得到嘴型。

图2是本发明另一实施例提供的基于语音的嘴型生成方法的流程图。如图2所述，该方法包括：

步骤S21，获取所述语音；

步骤S22，根据所述语音提取梅尔频率倒谱系数特征；

步骤S23，将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络，得到所述嘴部关键点坐标序列；

步骤S24，根据所述嘴部关键点坐标序列得到所述嘴型。

在本实施例中，提供了一种根据语音以及训练后的TCN，得到嘴部关键点坐标序列的方式。

首先从语音中提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)特征，然后将MFCC特征输入训练后的TCN，训练后的TCN输出的序列就是嘴部关键点坐标序列。

图3是本发明一实施例提供的训练后的时间卷积网络的方法流程图。如图3所示，该方法包括：

步骤S31，获取测试语音和所述测试语音对应的人物嘴部影像；

步骤S32，根据所述测试语音对应的人物嘴部影像，确定所述人物嘴部影像对应的嘴部关键点坐标序列；

步骤S33，根据所述测试语音和训练前的时间卷积网络，得到所述测试语音对应的嘴部关键点坐标序列；

步骤S34，根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列，调整训练前的时间卷积网络，以得到训练后的时间卷积网络。

本实施例提供对于TCN的训练方式。首先，获取一段测试语音，并且至少该测试语音对应的人物嘴部影像是已知的。然后，从人物嘴部影像中，提取出人物嘴部影像对应的嘴部关键点坐标序列，人物嘴部影像对应的嘴部关键点坐标序列可以认为使较为真实的嘴部关键点坐标序列，以作为后续对比使用。接着，使用未训练的，也即训练前的TCN，从测试语音中得到语音对应的嘴部关键点坐标序列，由于使用的TCN不一定准确，所以这个序列可能是有较大问题的，于是，最后使用语音对应的嘴部关键点坐标序列和人物嘴部影像对应的嘴部关键点坐标序列，来调整训练前的TCN，知道语音对应的嘴部关键点坐标序列和人物嘴部影像对应的嘴部关键点坐标序列一致，就得到了训练后的TCN。

图4是本发明另一实施例提供的训练后的时间卷积网络的方法流程图。如图4所示，该方法包括：

步骤S34，对比所述测试语音对应的嘴部关键点坐标序列和所述人物嘴部影像对应的嘴部关键点坐标序列，计算均方差损失函数；

步骤S35，根据所述均方差损失函数调整训练前的时间卷积网络的参数，得到训练后的时间卷积网络。

在本实施例中，提供了根据人物嘴部影像对应的嘴部关键点坐标序列和测试语音对应的嘴部关键点坐标序列，调整训练前的TCN，从而得到训练后的TCN的方式。

首先，将测试语音对应的嘴部关键点坐标序列和人物嘴部影像对应的嘴部关键点坐标序列进行对比，计算损失函数(均方差)，然后，依据损失函数调整训练前的TCN的参数，使得测试语音对应的嘴部关键点坐标序列与人物嘴部影像对应的嘴部关键点坐标序列一致，就得到了训练后的TCN。该训练后的TCN可以使用以精确地从语音中得到对应的嘴部关键点坐标序列。

以下将结合TCN的结构简单描述本发明的实现过程。

图5是本发明一实施例提供的时间卷积网络的结构示意图。如图5所示，在本发明实施例中，TCN为三层，可以分为输出层(即图5最上层)以及两个隐层，其输出层即输出嘴部关键点坐标序列，而输入的MFCC特征，经过两个隐层处理，最后达到输出层输出。TCN的每一层输入是一个序列(包括MFCC特征)，输出是一个等长的序列。输出序列在每一个时间点的取值由其输入序列的当前时刻、前一个时刻以及下一个时刻的输入数据来决定。

图6是本发明一实施例提供的基于语音的嘴型生成装置的结构示意图。如图6所示，该装置包括：获取单元1以及处理单元2，其中，所述获取单元1用于获取所述语音；所述处理单元2用于根据所述语音以及训练后的时间卷积网络，得到嘴部关键点坐标序列；根据所述嘴部关键点坐标序列得到所述嘴型。

优选地，该嘴型生成装置还包括训练单元3，用于：获取测试语音和所述测试语音对应的人物嘴部影像；根据所述测试语音对应的人物嘴部影像，确定所述人物嘴部影像对应的嘴部关键点坐标序列；根据所述测试语音和训练前的时间卷积网络，得到所述测试语音对应的嘴部关键点坐标序列；根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列，调整训练前的时间卷积网络，以得到训练后的时间卷积网络。

优选地，所述时间卷积网络为三层。

上述基于语音的嘴型生成装置与上文所述的基于语音的嘴型生成方法的实施例类似，在此不再赘述。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种基于语音的嘴型生成方法，其特征在于，该方法包括：

获取所述语音；

根据所述语音以及训练后的时间卷积网络，得到嘴部关键点坐标序列；

根据所述嘴部关键点坐标序列得到所述嘴型。

2.根据权利要求1所述的基于语音的嘴型生成方法，其特征在于，所述方法还包括：

获取测试语音和所述测试语音对应的人物嘴部影像；

根据所述测试语音对应的人物嘴部影像，确定所述人物嘴部影像对应的嘴部关键点坐标序列；

根据所述测试语音和训练前的时间卷积网络，得到所述测试语音对应的嘴部关键点坐标序列；

根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列，调整训练前的时间卷积网络，以得到训练后的时间卷积网络。

3.根据权利要求1所述的基于语音的嘴型生成方法，其特征在于，所述根据所述语音以及训练后的时间卷积网络，得到嘴部关键点坐标序列包括：

根据所述语音提取梅尔频率倒谱系数特征；

将所述梅尔频率倒谱系数特征输入训练后的时间卷积网络，得到所述嘴部关键点坐标序列。

4.根据权利要求2所述的基于语音的嘴型生成方法，其特征在于，根据所述人物嘴部影像对应的嘴部关键点坐标序列和所述测试语音对应的嘴部关键点坐标序列，调整训练前的时间卷积网络，以得到训练后的时间卷积网络包括：

对比所述测试语音对应的嘴部关键点坐标序列和所述人物嘴部影像对应的嘴部关键点坐标序列，计算均方差损失函数；

根据所述均方差损失函数调整训练前的时间卷积网络的参数，得到训练后的时间卷积网络。

5.根据权利要求1所述的基于语音的嘴型生成方法，其特征在于，所述时间卷积网络为三层。

6.一种基于语音的嘴型生成装置，其特征在于，该装置包括：

获取单元以及处理单元，其中，

所述获取单元用于获取所述语音；

所述处理单元用于根据所述语音以及训练后的时间卷积网络，得到嘴部关键点坐标序列；根据所述嘴部关键点坐标序列得到所述嘴型。

7.根据权利要求6所述的基于语音的嘴型生成装置，其特征在于，该嘴型生成装置还包括训练单元，用于获取测试语音和所述测试语音对应的人物嘴部影像；

8.根据权利要求6所述的基于语音的嘴型生成装置，其特征在于，所述处理单元具体用于：

根据所述语音提取梅尔频率倒谱系数特征；

9.一种电子设备，其特征在于，该电子设备包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，以实现权利要求1-5中任一项权利要求所述的基于语音的嘴型生成方法。

10.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行权利要求1-5中任一项权利要求所述的基于语音的嘴型生成方法。