CN113314145A

CN113314145A - 样本生成、模型训练、口型驱动方法、装置、设备及介质

Info

Publication number: CN113314145A
Application number: CN202110642755.1A
Authority: CN
Inventors: 陀得意; 林哲; 司季雨; 韩欣彤; 康世胤; 刘峰; 游于人; 许佳
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-08-27

Abstract

本发明实施例公开了一种样本生成、模型训练、口型驱动方法、装置、设备及介质。其中，方法包括：捕捉得到真实人物在讲话过程中形成的语音片段和口型驱动参数序列；根据驱动结果，将口型驱动参数序列与语音片段进行时间对齐；识别语音片段中的各有效语音段的起止时间，并根据起止时间，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列；根据与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列，形成用于训练得到口型驱动参数识别模型的训练样本对。本发明实施例的方案，生成了用于训练口型驱动参数识别模型的高质量样本，为训练得到高精度的口型驱动参数识别模型提供依据。

Description

样本生成、模型训练、口型驱动方法、装置、设备及介质

技术领域

本发明实施例涉及人工智能技术，尤其涉及一种样本生成、模型训练、口型驱动方法、装置、设备及介质。

背景技术

随着科学技术的不断发展，人工智能在诸如直播、智能交通以及智慧医疗等领域得到了广泛地发展及应用。

在人工智能领域中，训练样本的好坏直接影响训练得到的网络模型的精度；如何生成高精度的训练样本得到了业界的广泛研究。

发明内容

本发明实施例提供一种样本生成、模型训练、口型驱动方法、装置、设备及介质，以生成用于训练口型驱动参数识别模型的样本，为训练得到高精度的口型驱动参数识别模型提供依据。

第一方面，本发明实施例提供了一种训练样本的生成方法，包括：

捕捉得到真实人物在讲话过程中形成的语音片段和口型驱动参数序列；

使用口型驱动参数序列对虚拟人物进行连续口型驱动，并根据驱动结果，将所述口型驱动参数序列与所述语音片段进行时间对齐；

识别语音片段中的各有效语音段的起止时间，并根据起止时间，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列；

根据与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列，形成用于训练得到口型驱动参数识别模型的训练样本对。

第二方面，本发明实施例还提供了一种口型驱动参数识别模型训练方法，包括：

将预先生成的多个训练样本对输入至神经网络模型中进行迭代训练；

生成口型驱动参数识别模型；

其中，各所述训练样本对由本发明实施例中任一实施例所述的训练样本的生成方法生成。

第三方面，本发明实施例还提供了一种口型驱动方法，其特征在于，包括：

获取待播报的非静音语音片段，并确定与所述非静音语音片段对应的内容表征向量；

将所述内容表征向量输入至预先训练的口型驱动参数识别模型中，得到与所述非静音语音片段对应的目标口型序列；其中，所述口型驱动参数识别模型由本发明实施例中任一实施例所述的口型驱动参数识别模型训练方法训练得到；

响应于非静音语音片段的播放指令，使用所述目标口型序列对虚拟人物进行连续口型驱动。

第四方面，本发明实施例还提供了一种训练样本的生成装置，包括：

捕捉模块，用于捕捉得到真实人物在讲话过程中形成的语音片段和口型驱动参数序列；

对齐模块，用于使用口型驱动参数序列对虚拟人物进行连续口型驱动，并根据驱动结果，将所述口型驱动参数序列与所述语音片段进行时间对齐；

识别模块，用于识别语音片段中的各有效语音段的起止时间，并根据起止时间，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列；

生成模块，用于根据与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列，形成用于训练得到口型驱动参数识别模型的训练样本对。

第五方面，本发明实施例还提供了一种口型驱动参数识别模型训练装置，包括：

训练模块，将预先生成的多个训练样本对输入至神经网络模型中进行迭代训练；

生成模块，用于生成口型驱动参数识别模型；

第六方面，本发明实施例还提供了一种口型驱动装置，包括：

获取模块，用于获取待播报的非静音语音片段，并确定与所述非静音语音片段对应的内容表征向量；

输入模块，用于将所述内容表征向量输入至预先训练的口型驱动参数识别模型中，得到与所述非静音语音片段对应的目标口型序列；其中，所述口型驱动参数识别模型由本发明实施例中任一实施例所述的口型驱动参数识别模型训练方法训练得到；

驱动模块，用于响应于非静音语音片段的播放指令，使用所述目标口型序列对虚拟人物进行连续口型驱动。

第七方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一实施例所述的训练样本的生成方法、口型驱动参数识别模型训练方法，或者口型驱动方法。

第八方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例中任一实施例所述的训练样本的生成方法、口型驱动参数识别模型训练方法，或者口型驱动方法。

本发明实施例通过捕捉得到真实人物在讲话过程中形成的语音片段和口型驱动参数序列；使用口型驱动参数序列对虚拟人物进行连续口型驱动，并根据驱动结果，将口型驱动参数序列与语音片段进行时间对齐；识别语音片段中的各有效语音段的起止时间，并根据起止时间，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列；根据与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列，形成用于训练得到口型驱动参数识别模型的训练样本对，自动生成了用于训练口型驱动参数识别模型的样本，为训练得到高精度的口型驱动参数识别模型提供依据。

附图说明

图1是本发明实施例一中的一种训练样本的生成方法的流程图；

图2是本发明实施例二中的一种训练样本的生成方法的流程图；

图3是本发明实施例三中的一种口型驱动参数识别模型训练方法的流程图；

图4是本发明实施例四中的一种口型驱动方法的流程图；

图5a是本发明实施例四中采集到的一种blendshape参数的示意图；

图5b是本发明实施例四中采集到的一种blendshape参数的示意图；

图5c是本发明实施例四中采集到的一种blendshape参数的示意图；

图6是本发明实施例五中的一种训练样本的生成装置的结构示意图；

图7是本发明实施例六中的一种口型驱动参数识别模型训练装置的结构示意图；

图8是本发明实施例七中的一种口型驱动装置的结构示意图；

图9是本发明实施例八中的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种训练样本的生成方法的流程图，本实施例可适用于生成用于训练口型驱动参数识别模型的样本的情况，该方法可以由训练样本的生成装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成在电子设备中，本实施例中涉及到的电子设备可以为计算机、服务器或者平板电脑等；具体的，参考图1，该方法具体包括如下步骤：

步骤110、捕捉得到真实人物在讲话过程中形成的语音片段和口型驱动参数序列。

其中，语音片段即为真实人物在讲话过程中说出的语音数据，每个语音片段可以包含一句语音内容，也可以包含多句语音内容，本实施例中对其不加以限制；同时每个语音片段的长度可以为30秒、1分钟或者2分钟等，本实施例中对其也不加以限定；口型驱动参数序列即为与语音片段对应的口型变化序列，口型驱动参数序列中包含了人物在说话过程中与人物的嘴部区域对应的各个特征点的参数变化情况(例如，各个特征点的位置坐标的变化情况)；示例性的，口型驱动参数序列中可以包括人物嘴部区域的52个特征点的参数变化情况；在本实施例中，一个语音片段与一个口型驱动参数序列相对应。需要说明的是，若某一语音片段为静音数据，即真实人物并没有讲话，则此时没有与其对应的口型驱动参数序列，或者与其对应的口型驱动参数序列为空。

可以理解的是，在本实施例中真实人物在讲话过程中形成的语音片段可以为一个，相应的，口型驱动参数序列的数量也可以为一个。

在本实施例的一个可选实现方式中，可以通过同一采集设备(例如，带语音采集功能的摄像头)捕捉真实真实人物在讲话过程中形成的语音片段和口型驱动参数序列；也可以通过不同的采集设备捕捉真实真实人物在讲话过程中形成的语音片段和口型驱动参数序列，例如，可以通过语音采集设备采集语音片段，并同时通过视频采集设备采集口型驱动参数序列。

步骤120、使用口型驱动参数序列对虚拟人物进行连续口型驱动，并根据驱动结果，将口型驱动参数序列与语音片段进行时间对齐。

其中，虚拟人物可以为：动漫形象、玩偶形象或者真实人物形象等，本实施例中对其不加以限定。

其中，时间对齐为起止时间与结束时间对齐；将口型驱动参数序列与语音片段进行时间对齐即分别将口型驱动参数序列与语音片段的起止时间对齐，以及结束时间对齐。可以理解的是，将口型驱动参数序列与语音片段的起止时间对齐，以及结束时间对齐，即实现了将口型驱动参数序列与语音片段在时间上的对应。这样设置的好处在于，在同时播放将口型驱动参数序列与语音片段的情况下，可以保证语音与口型变化的同步，为后续生成准确地训练样本对提供依据。

在本实施例的一个可选实现方式中，在捕捉得到真实人物在讲话过程中形成的语音片段和口型驱动参数序列之后，可以进一步的使用口型驱动参数序列对虚拟人物进行连续口型驱动，并根据驱动结果(即使用口型驱动参数序列对虚拟人物进行连续口型驱动得到的可视化结果)，将口型驱动参数序列与语音片段进行时间对齐。

这样设置的好处在于，可以确定口型驱动参数序列与语音片段的对应关系，为后续生成训练样本对提供依据。

在本实施例的一个可选实现方式中，使用口型驱动参数序列对虚拟人物进行连续口型驱动可以为在虚拟人物中对口型驱动参数序列进行可视化展示，即在虚拟人物中对嘴部区域的各个特征点的参数变化情况进行展示，以使虚拟人物的嘴部区域根据口型驱动参数序列进行不断变化。

步骤130、识别语音片段中的各有效语音段的起止时间，并根据起止时间，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列。

其中，有效语音段为识别到的各语音片段中的非静音语音段，即每个有效语音段中都包含语义信息。

在本实施例的一个可选实现方式中，在根据驱动结果，将口型驱动参数序列与语音片段进行时间对齐之后，还可以进一步的识别捕捉到的语音片段中的各有效语音段的起止时间，并根据各有效语音段的起止时间对口型驱动参数序列进行分段，得到多个口型驱动参数子系列，并根据起止时间，确定与各有效语音段分别对应的口型驱动参数子序列。

示例性的，若目标有效语音段的起止时间为8点-8点零5，则可以在分割后的各口型驱动参数子序列种查询起止时间为8点-8点零5的目标口型驱动参数子序列，该目标口型驱动参数子序列与目标有效语音段相对应。

步骤140、根据与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列，形成用于训练得到口型驱动参数识别模型的训练样本对。

在本实施例的一个可选实现方式中，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列之后，还可以进一步的确定与各有效语音段对应的内容表征向量，例如，可以提取各有效语音段的梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)，从而生成与各有效语音段对应的内容表征向量。

进一步的，可以根据与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列，形成用于训练得到口型驱动参数识别模型的训练样本对。示例性的，每个训练样本对中可以包括与一个有效语音段对应的内容表征向量，以及与该有效语音段对应的口型驱动参数子序列。

本实施例的方案，通过捕捉得到真实人物在讲话过程中形成的语音片段和口型驱动参数序列；使用口型驱动参数序列对虚拟人物进行连续口型驱动，并根据驱动结果，将口型驱动参数序列与语音片段进行时间对齐；识别语音片段中的各有效语音段的起止时间，并根据起止时间，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列；根据与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列，形成用于训练得到口型驱动参数识别模型的训练样本对，自动生成了用于训练口型驱动参数识别模型的样本，为训练得到高精度的口型驱动参数识别模型提供依据。

实施例二

图2是本发明实施例二中的一种训练样本的生成方法的流程图，本实施例是对上述各技术方案的进一步细化，本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图2所示，训练样本的生成方法可以包括如下步骤：

步骤210、通过语音采集设备捕捉得到真实人物在讲话过程中形成的语音片段；以及通过视频采集设备捕捉得到真实人物在讲话过程中形成的口型驱动参数序列。

在本实施例的一个可选实现方式中，可以通过语音采集设备(例如，麦克风或者麦克风阵列)捕捉得到真实人物在讲话过程中形成的语音片段；以及通过视频采集设备(例如，摄像头)捕捉得到真实人物在讲话过程中形成的口型驱动参数序列。

需要说明的是，本实施例中通过视频采集设备采集到的数据并不是视频数据，而是包含了与人物的嘴部区域对应的各个特征点的参数，即采集到的每一帧数据中都包含与人物的嘴部区域对应的各个特征点的参数；可以理解的是，采集到的多帧数据即形成了口型驱动参数序列。

在本实施例的一个具体例子中，视频设备采集的数据每一帧中可以包括52维参数，即采集到的每一帧数据中都可以包括人物嘴部区域的52个特征点，这样设置的好处在于，通过特征点参数的变化，可以更好地对人物嘴部区域的变化进行表示，为后续口型识别的准确性提供帮助。

步骤220、使用口型驱动参数序列对虚拟人物进行连续口型驱动，并根据驱动结果，将口型驱动参数序列与语音片段进行时间对齐。

步骤230、对语音片段进行语义理解，根据语义理解结果对语音片段进行分段；剔除不包含语义信息的各无效语音片段，得到各有效语音段。

在本实施例的一个可选实现方式中，在识别语音片段中的各有效语音段的起止时间之前，还可以对捕捉到的语音片段进行语义理解，确定语音片段的语义信息，例如，可以将语音片段输入至自然语言处理模型中，得到与语音片段对应的语义理解结果；进一步的，可以根据语义理解结果对语音片段进行分段，示例性的，可以按语义理解结果，对语音片段进行按句分段，即可以将一句话分在一个语音片段中。

进一步的，可以检测分段之后的各语音片段中是否均包含语义信息，即检测分段之后的各语音片段中的语义理解结果是否为空，若目标语音片段的语义理解结果为空，则目标语音片段为无效语音片段；剔除分段后的各语音片段中的全部目标语音片段(无效语音片段)，得到全部有效语音段。可以理解的是，本实施例中涉及到的无效语音片段即为静音语音片段，即此过程中真是人物并未讲话；剔除语音片段中的无效语音段的好处在于可以滤除训练样本中的负样本，为后续训练得到高精度的口型驱动参数识别模型提供依据。

步骤240、根据目标有效语音段的属性信息确定目标有效语音段的目标起止时间；在口型驱动参数序列中确定与目标起止时间对应的目标口型驱动参数子序列。

其中，目标有效语音段的属性信息中可以包括目标有效语音段的长度、或者目标有效语音段的起止时间等，本实施例中对其不加以限定。目标有效语音段可以为各有效语音段中的任一语音片段，本实施例中对其不加以限定。

在本实施例的一个可选实现方式中，在剔除不包含语义信息的各无效语音片段，得到各有效语音段之后，可以根据目标有效语音段的属性信息确定目标有效语音段的目标起止时间，并在口型驱动参数序列中确定与目标起止时间对应的目标口型驱动参数子序列。

示例性的，可以在目标有效语音段的属性信息中查询目标有效语音段的目标起止时间，并在查询到目标起止时间之后，在口型驱动参数序列中查询与目标起止时间一致的目标口型驱动参数子序列；可以理解的是，根据本实施例的方案确定的目标口型驱动参数子序列与目标有效语音段的起止时间相同。

在本实施例的一个可选实现方式中，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列还可以包括：提取有效语音段的MFCC，生成与有效语音段对应的内容表征向量；根据内容表征向量对口型驱动参数序列进行重采样，并根据重采样后的口型驱动参数序列确定与有效语音段对应的口型驱动参数子序列。

在本实施例的一个可选实现方式中，可以提取各有效语音段的MFCC系数，得到各有效语音段的内容表征信息；在本实施例中，可以通过内容表征向量的形式来表示各有效语音段的内容表征信息。

进一步的，可以根据内容表征向量对口型驱动参数序列进行重采样；示例性的，若通过内容表征向量确定有效语音短的采样率为16K，则可以将口型驱动参数序列的采样率调整为100fps。这样设置的好处在于，可以保证语音片段与口型驱动参数序列的帧数一致，为使语音片段与口型驱动参数序列的对齐提供依据。

进一步的，可以根据重采样后的口型驱动参数序列确定与有效语音段对应的口型驱动参数子序列；可以理解的是，重采样后的口型驱动参数序列与各有效语音段的帧数相同，这样，进一步的根据各有效语音段的起止时间，即可以在重采样后的口型驱动参数序列中快速确定与各有效语音段对应的口型驱动参数子序列，极大地提升了训练样本的生成时间。

步骤250、将与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列进行配对，形成用于训练得到口型驱动参数识别模型的训练样本对。

本实施例的方案，可以对语音片段进行语义理解，根据语义理解结果对语音片段进行分段；剔除不包含语义信息的各无效语音片段，得到各有效语音段，删除了训练样本中的负样本，为提升口型驱动参数识别模型的精度提供依据；可以快速地生成训练样本本，节省了收集训练样本所使用的时间，为提升口型驱动参数识别模型的训练效率提供依据。

实施例三

图3为本发明实施例三提供的一种口型驱动参数识别模型训练方法的流程图，本实施例可通过上述各实施例生成的训练样本来训练得到口型驱动参数识别模型的情况，该方法可以由口型驱动参数识别模型训练装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成在电子设备中，本实施例中涉及到的电子设备可以为计算机、服务器或者平板电脑等；具体的，参考图1，该方法具体包括如下步骤：

步骤310、将预先生成的多个训练样本对输入至神经网络模型中进行迭代训练。

其中，各训练样本对由上述各实施例涉及到的训练样本的生成方法生成。

其中，神经网络模型可以为延时神经网络模型(Time Delay Neural Network，TDNN)，也可以为其他普通神经网络模型，本实施例中对其不加以限定。

在本实施例的一个可选实现方式中，通过上述各实施例的方法生成多个训练样本对之后，可以将多个训练样本对同时输入至TDNN中进行迭代训练。

步骤320、生成口型驱动参数识别模型。

在本实施例的一个可选实现方式中，在将预先生成的多个训练样本对输入至神经网络模型中进行迭代训练之后，当满足迭代训练停止条件时，即可得到口型驱动参数识别模型。

本实施例的方案，通过将预先生成的多个训练样本对输入至神经网络模型中进行迭代训练，得到口型驱动参数识别模型，可以快速地得到口型驱动参数识别模型，为后续对虚拟人物的口型驱动提供依据。

实施例四

图4为本发明实施例四提供的一种口型驱动方法的流程图，本实施例可适用于通过口型驱动参数识别模型识别口型参数并驱动虚拟人物的口型进行驱动情况，该方法可以由口型驱动装置来执行，该装置可以通过软件和/或硬件的方式实现，并集成在电子设备中，本实施例中涉及到的电子设备可以为计算机、服务器或者平板电脑等；具体的，参考图4，该方法具体包括如下步骤：

步骤410、获取待播报的非静音语音片段，并确定与非静音语音片段对应的内容表征向量。

在本实施例的一个可选实现方式中，可以通过麦克风或者麦克风阵列实时采集语音片段，当获取到的语音片段为非静音语音片段时，可以通过提取该非静音语音片段的MFCC，从而形成与非静音语音片段对应的内容表征向量。

可以理解的是，若通过麦克风采集到的语音片段为静音语音片段，则无需对静音语音片段作后续处理，即无需提取与静音语音片段对应的内容表征向量。

步骤420、将内容表征向量输入至预先训练的口型驱动参数识别模型中，得到与非静音语音片段对应的目标口型序列。

其中，口型驱动参数识别模型由上述实施例涉及到的口型驱动参数识别模型训练方法训练得到。

在本实施例的一个可选实现方式中，在获取到非静音语音片段，并确定与非静音语音片段的内容表征向量之后，可以进一步的将确定的内容表征向量输入至上述实施例训练得到的口型驱动参数识别模型中，得到与非静音语音片段对应的目标口型序列。

示例性的，若获取到的非静音语音片段包含的语义内容为“今天天气怎么样？”，在获取到语义内容为“今天天气怎么样？”的非静音语音片段的内容表征向量之后，可以将内容表征向量输入至上述实施例训练得到的口型驱动参数识别模型中，得到与非静音语音片段对应的目标口型序列。

步骤430、响应于非静音语音片段的播放指令，使用目标口型序列对虚拟人物进行连续口型驱动。

在本实施例的一个可选实现方式中，在得到与非静音语音片段对应的目标口型序列之后，如果接收到了非静音语音片段的播放指令，则需要使用目标口型序列对虚拟人物进行连续口型驱动，这样即可保证在播放非静音语音片段时，使虚拟人物的口型与播放的语音内容保持一致。

示例性的，在上述例子中，得到与语义内容为“今天天气怎么样？”的非静音语音片段对应的目标口型序列之后，如果接收到“今天天气怎么样？”的非静音语音片段的播放指令，则可以使用目标口型序列对虚拟人物进行连续口型驱动，此时，可以同时播报“今天天气怎么样？”，虚拟人物的口型驱动参数也与“今天天气怎么样？”的内容一致。

需要说明的是，将内容表征向量输入至预先训练的口型驱动参数识别模型中，既可以得到与非静音语音片段对应的目标口型序列，也可以得到与语音内容，但考虑到模型输出的语音内容存在准确率不高的情况，故在响应于非静音语音片段的播放指令的过程中，对模型输出的语音内容进行静音处理，仅播放采集到的非静音语音片段。

这样设置的好处在于，可以避免由于模型输出的语音内容不准确，而导致语音内容与虚拟人物的口型对不上的问题，提升了用户的观看体验。

现有技术中，可以通过构建超过10个小时的大数据量单人音视频数据集，从音频中提取语义分布特征，并从高清视频中提取图像每一帧的口型特征，进而学习音频特征和口型的对应关系。但是这种方法成本很高，直播间的语音驱动口型由离线提前生成，无法满足低延迟实时交互的场景，后期处理复杂。

现有技术中，还可以通过提取语音的底层特征，经过神经网络对每一帧语音进行分类，从而映射到不同口型，达到驱动口型的效果。但是这种方法得到的口型的质量不高，提前预定义的口型种类较少，口型过渡不够自然，帧率较低，部分口型会有明显的发声问题。

本实施例的方案，通过获取待播报的非静音语音片段，并确定与非静音语音片段对应的内容表征向量；将内容表征向量输入至预先训练的口型驱动参数识别模型中，得到与非静音语音片段对应的目标口型序列；响应于非静音语音片段的播放指令，使用目标口型序列对虚拟人物进行连续口型驱动，可以实时地对虚拟人物进行驱动，可以保证播放的语音内容与虚拟人物的口型一致，提升了用户的观看体验，可以应用在直播虚拟开播、虚拟数字人、2d/3d动画制作以及游戏形象自动配音等领域。

为了使本领域技术人员更好地理解本实施例的方案，下面采用一个具体示例进行说明，具体过程包括有：

数据采集阶段：

1.采集设备采用带用arkit功能的移动设备，并安装采集程序。

2.录制52维的blendshape参数(口型驱动参数序列)，并使用语音采集设备进行语音采集。

其中，采集设备采集到的blendshape参数可以如图5a-5c所示。

3.对采集到的blendshape参数通过渲染程序进行可视化，并和语音进行口型上的对齐。

4.对采集到的语音使用语音活动检测(Voice Activity Detection,VAD)对语音进行端点检测，获得人声的起始点和终止点。

5.人工调整人声段的时间戳信息，得到精确的分句时间戳。利用精确的分句时间戳对blendshape进行分句。

6.根据采集到的音频，进行重采样到16k，单通道，采用降噪算法对信号进行降噪和去混响，音量归一化。

驱动系统：其中，驱动系统包括训练和预测两个阶段。

其中，训练阶段主要包括：

1.提取采集到的语音的内容表征信息(内容表征向量)，该环节是数据处理的核心环节，相比复杂的内容表征方法，这里采用MFCC提取内容表征信息。

2.对提取得到的blendshape参数进行重采样，调整采样率得到100fps的帧序列，和语音的内容表征的帧数对齐。

3.训练延时神经网络，从语音的内容表征信息学习到对应的blendshape参数信息。

4.对学习到blendshape参数进行反归一化。

预测阶段主要包括：

1.在直播的计算机终端，或者移动终端，开启语音驱动功能。

2.采集麦克风实时的语音流，对输入语音进行缓存，重采样到16k，单通道。

3.采用前端音频处理算法，对语音进行降噪，VAD端点检测，音量归一化。

4.实时流式提取语音的内容表征信息，采用MFCC内容表征信息，根据VAD结果标记帧是否静音。

5.如果内容表征帧数足够且非静音帧，将非静音帧输入训练好的延时神经网络，输出blendshape参数。

6.对预测到blendshape参数进行反归一化，静音处理，平滑和重采样到指定帧率，输出结果，即得到驱动结果。

本实施例的方案，是一种低成本的语音口型数据集构建方案，构建方便，且得到的训练样本质量高；输入音频流到深度网络中即可得到高质量的口型帧结果，在虚拟形象上驱动的口型自然流畅；延迟低，实时性强，在不同平台均可低功耗运行；同时，适用范围广，在虚拟数字人，2d/3d动画制作，游戏形象自动配音，直播虚拟开播等领域均可使用。

实施例五

图6是本发明实施例五中的一种训练样本的生成装置的结构示意图，该装置可以执行上述各实施例中涉及到的训练样本的生成方法。参照图6，该装置包括：捕捉模块610、对齐模块620、识别模块630以及生成模块640。

捕捉模块610，用于捕捉得到真实人物在讲话过程中形成的语音片段和口型驱动参数序列；

对齐模块620，用于使用口型驱动参数序列对虚拟人物进行连续口型驱动，并根据驱动结果，将所述口型驱动参数序列与所述语音片段进行时间对齐；

识别模块630，用于识别语音片段中的各有效语音段的起止时间，并根据起止时间，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列；

生成模块640，用于根据与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列，形成用于训练得到口型驱动参数识别模型的训练样本对。

本实施例的方案，通过捕捉模块捕捉得到真实人物在讲话过程中形成的语音片段和口型驱动参数序列；通过对齐模块使用口型驱动参数序列对虚拟人物进行连续口型驱动，并根据驱动结果，将所述口型驱动参数序列与所述语音片段进行时间对齐；通过识别模块识别语音片段中的各有效语音段的起止时间，并根据起止时间，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列；通过生成模块根据与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列，形成用于训练得到口型驱动参数识别模型的训练样本对，生成了用于训练口型驱动参数识别模型的高质量样本，为训练得到高精度的口型驱动参数识别模型提供依据。

在本实施例的一个可选实现方式中，捕捉模块610，具体用于

通过语音采集设备捕捉得到真实人物在讲话过程中形成的所述语音片段；

以及通过视频采集设备捕捉得到真实人物在讲话过程中形成的口型驱动参数序列。

在本实施例的一个可选实现方式中，训练样本的生成装置，还包括：语义理解模块，用于

对所述语音片段进行语义理解，根据语义理解结果对所述语音片段进行分段；

剔除不包含语义信息的各无效语音片段，得到各所述有效语音段。

在本实施例的一个可选实现方式中，识别模块630，具体用于

根据目标有效语音段的属性信息确定所述目标有效语音段的目标起止时间；

在口型驱动参数序列中确定与所述目标起止时间对应的目标口型驱动参数子序列。

在本实施例的一个可选实现方式中，识别模块630，还具体用于

提取所述有效语音段的梅尔频率倒谱系数MFCC，生成与所述有效语音段对应的内容表征向量；

根据所述内容表征向量对所述口型驱动参数序列进行重采样，并根据重采样后的口型驱动参数序列确定与有效语音段对应的口型驱动参数子序列。

在本实施例的一个可选实现方式中，生成模块640，具体用于

将与所述有效语音段对应的内容表征向量，以及与所述有效语音段对应的口型驱动参数子序列进行配对，形成用于训练得到口型驱动参数识别模型的训练样本对。

本发明实施例所提供的训练样本的生成装置可执行本发明任意实施例所提供的训练样本的生成方法，具备执行方法相应的功能模块和有益效果。

实施例六

图7是本发明实施例六中的一种口型驱动参数识别模型训练装置的结构示意图；该装置可以执行上述各实施例中涉及到的口型驱动参数识别模型训练方法。参照图7，该装置包括：训练模块710以及生成模块720。

其中，训练模块710，用于将预先生成的多个训练样本对输入至神经网络模型中进行迭代训练；

生成模块720，用于生成口型驱动参数识别模型.

其中，各所述训练样本对由上述各实施例所涉及到的训练样本的生成方法生成。

本实施例的方案，通过训练模块将预先生成的多个训练样本对输入至神经网络模型中进行迭代训练；通过生成模块，生成口型驱动参数识别模型，可以快速地得到口型驱动参数识别模型，为后续对虚拟人物的口型驱动提供依据。

本发明实施例所提供的口型驱动参数识别模型训练装置可执行本发明任意实施例所提供的口型驱动参数识别模型训练方法，具备执行方法相应的功能模块和有益效果。

实施例七

图8是本发明实施例七中的一种口型驱动装置的结构示意图；该装置可以执行上述各实施例中涉及到的口型驱动方法。参照图8，该装置包括：获取模块810、输入模块820以及驱动模块830。

其中，获取模块810，用于获取待播报的非静音语音片段，并确定与所述非静音语音片段对应的内容表征向量；

输入模块820，用于将所述内容表征向量输入至预先训练的口型驱动参数识别模型中，得到与所述非静音语音片段对应的目标口型序列；

驱动模块830，用于响应于非静音语音片段的播放指令，使用所述目标口型序列对虚拟人物进行连续口型驱动。

本实施例的方案，通过获取模块获取待播报的非静音语音片段，并确定与所述非静音语音片段对应的内容表征向量；通过输入模块将所述内容表征向量输入至预先训练的口型驱动参数识别模型中，得到与所述非静音语音片段对应的目标口型序列；通过驱动模块响应于非静音语音片段的播放指令，使用所述目标口型序列对虚拟人物进行连续口型驱动，可以实时地对虚拟人物进行驱动，可以保证播放的语音内容与虚拟人物的口型一致，提升了用户的观看体验，可以应用在直播虚拟开播、虚拟数字人、2d/3d动画制作以及游戏形象自动配音等领域。

本发明实施例所提供的口型驱动装置可执行本发明任意实施例所提供的口型驱动方法，具备执行方法相应的功能模块和有益效果。

实施例八

图9是本发明实施例八中的一种电子设备的结构示意图，如图9所示，该电子设备包括处理器90、存储器91、输入装置92和输出装置93；电子设备中处理器90的数量可以是一个或多个，图9中以一个处理器90为例；电子设备中的处理器90、存储器91、输入装置92和输出装置93可以通过总线或其他方式连接，图9中以通过总线连接为例。

存储器91作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的训练样本的生成方法对应的程序指令/模块(例如，训练样本的生成装置中的捕捉模块610、对齐模块620、识别模块630以及生成模块640)，或者如本发明实施例中的口型驱动参数识别模型训练方法对应的程序指令/模块(例如，口型驱动参数识别模型训练装置中的训练模块710以及生成模块720)，或者如本发明实施例中的口型驱动方法对应的程序指令/模块(例如，口型驱动装置中的获取模块810、输入模块820以及驱动模块830)。处理器90通过运行存储在存储器91中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的训练样本的生成方法、口型驱动参数识别模型训练方法，或者口型驱动方法。

存储器91可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器91可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器91可进一步包括相对于处理器90远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置92可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置93可包括显示屏等显示设备。

实施例九

本发明实施例九还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种训练样本的生成方法，该方法包括：

或者，用于执行一种口型驱动参数识别模型训练方法，该方法包括：

将预先生成的多个训练样本对输入至神经网络模型中进行迭代训练，得到口型驱动参数识别模型；

其中，各所述训练样本对由本实施例中涉及到的任一训练样本的生成方法生成。

或者，一种口型驱动方法，该方法包括：

将所述内容表征向量输入至预先训练的口型驱动参数识别模型中，得到与所述非静音语音片段对应的目标口型序列；其中，所述口型驱动参数识别模型由本实施例中涉及到的任一口型驱动参数识别模型训练方法训练得到；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的训练样本的生成方法、口型驱动参数识别模型训练方法，或者口型驱动方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述训练样本的生成装置、口型驱动参数识别模型训练装置，或者口型驱动装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种训练样本的生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述捕捉得到真实人物在讲话过程中形成的语音片段和口型驱动参数序列，包括：

3.根据权利要求1所述的方法，其特征在于，在识别语音片段中的各有效语音段的起止时间之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述识别语音片段中的各有效语音段的起止时间，并根据起止时间，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列，包括：

5.根据权利要求1所述的方法，其特征在于，在口型驱动参数序列中分别确定与各有效语音段分别对应的口型驱动参数子序列，还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据与有效语音段对应的内容表征向量，以及与有效语音段对应的口型驱动参数子序列，形成用于训练得到口型驱动参数识别模型的训练样本对，包括：

7.一种口型驱动参数识别模型训练方法，其特征在于，包括：

生成口型驱动参数识别模型；

其中，各所述训练样本对由权利要求1-6中任一项所述的训练样本的生成方法生成。

8.一种口型驱动方法，其特征在于，包括：

将所述内容表征向量输入至预先训练的口型驱动参数识别模型中，得到与所述非静音语音片段对应的目标口型序列；其中，所述口型驱动参数识别模型由权利要求7所述的口型驱动参数识别模型训练方法训练得到；

9.一种训练样本的生成装置，其特征在于，包括：

10.一种口型驱动参数识别模型训练装置，其特征在于，包括：

训练模块，用于将预先生成的多个训练样本对输入至神经网络模型中进行迭代训练；

生成模块，用于生成口型驱动参数识别模型；

11.一种口型驱动装置，其特征在于，包括：

输入模块，用于将所述内容表征向量输入至预先训练的口型驱动参数识别模型中，得到与所述非静音语音片段对应的目标口型序列；其中，所述口型驱动参数识别模型由权利要求7所述的口型驱动参数识别模型训练方法训练得到；

12.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的训练样本的生成方法、权利要求7所述的口型驱动参数识别模型训练方法，或者权利要求8所述的口型驱动方法。

13.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的训练样本的生成方法、权利要求7所述的口型驱动参数识别模型训练方法，或者权利要求8所述的口型驱动方法。