CN116257762B

CN116257762B - 深度学习模型的训练方法及控制虚拟形象口型变化的方法

Info

Publication number: CN116257762B
Application number: CN202310551036.8A
Authority: CN
Inventors: 王新国; 王英
Original assignee: 4u Beijing Technology Co ltd
Current assignee: 4u Beijing Technology Co ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-07-14
Anticipated expiration: 2043-05-16
Also published as: CN116257762A

Abstract

本申请提供了一种深度学习模型的训练方法及控制虚拟形象口型变化的方法，该训练方法包括：对样本音频数据进行预处理；将预处理后的所述样本音频数据输入到预先构建的深度学习模型中，其中，所述深度学习模型对预处理后的所述样本音频数据进行音频特征提取，比较前一时间步长的音频特征和当前时间步长的音频特征，并基于比较结果确定所述当前时间步长的音频特征对应的口型参数；根据所述口型参数确定所述深度学习模型的损失，并基于所述损失更新所述深度学习模型的网络参数。本申请解决了现有的深度学习模型无法将待处理的音频信号准确地转换为相应的口型参数的技术问题。

Description

深度学习模型的训练方法及控制虚拟形象口型变化的方法

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种深度学习模型的训练方法和装置、以及控制虚拟形象口型变化的方法、装置和系统。

背景技术

现有的控制虚拟形象口型变化的方法主要采用基于深度学习的技术，如基于卷积神经网络（Convolutional Neural Network，CNN）的深度学习模型。这些模型通过训练学习口型参数与音频特征之间的关系，并利用生成模型或回归模型将输入的音频信号转换为相应的口型参数，从而可以实现控制虚拟形象口型变化的目的。

但是，基于CNN网络训练出的深度学习模型控制虚拟形象口型变化会存在一些问题。这种模型只能捕捉局部相关性，而不能捕捉长期的依赖关系。此外，对于时序信息的处理也是有限的，它只能基于当前时刻的输入来进行推理，而不能记住之前的输入历史记录。由此，导致训练出的深度学习模型无法将待处理的音频信号准确地转换为相应的口型参数。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种深度学习模型的训练方法及控制虚拟形象口型变化的方法，以至少解决现有的深度学习模型无法将待处理的音频信号准确地转换为相应的口型参数的技术问题。

根据本申请实施例的一个方面，提供了一种深度学习模型的训练方法，包括：对样本音频数据进行预处理；将预处理后的所述样本音频数据输入到预先构建的深度学习模型中，其中，所述深度学习模型对预处理后的所述样本音频数据进行音频特征提取，比较前一时间步长的音频特征和当前时间步长的音频特征，并基于比较结果确定所述当前时间步长的音频特征对应的口型参数；根据所述口型参数确定所述深度学习模型的损失，并基于所述损失更新所述深度学习模型的网络参数，以训练所述深度学习模型。

根据本申请实施例的另一方面，提供了一种控制虚拟形象口型变化的方法，包括：获取待处理音频数据；将所述待处理音频数据输入到深度学习模型，得到与所述待处理音频数据对应的口型参数；以及基于所述口型参数，控制虚拟形象的口型进行变化；其中，所述深度学习模型是根据上述训练方法训练得到的。

根据本申请实施例的另一方面，还提供了一种深度学习模型的训练装置，包括：预处理模块，被配置为对样本音频数据进行预处理；训练模块，被配置为：将预处理后的所述样本音频数据输入到预先构建的深度学习模型中，其中，所述深度学习模型对预处理后的所述样本音频数据进行音频特征提取，比较前一时间步长的音频特征和当前时间步长的音频特征，并基于比较结果确定所述当前时间步长的音频特征对应的口型参数；以及根据所述口型参数确定所述深度学习模型的损失，并基于所述损失更新所述深度学习模型的网络参数，以训练所述深度学习模型。

根据本申请实施例的另一方面，还提供了一种控制虚拟形象口型变化的装置，包括：获取模块，被配置为获取待处理音频数据；参数确定模块，将所述待处理音频数据输入到深度学习模型，得到与所述待处理音频数据对应的口型参数；以及控制模块，被配置为基于所述口型参数，控制虚拟形象的口型进行变化；其中，所述深度学习模型是根据上述训练方法训练得到的。

根据本申请实施例的另一方面，还提供了一种控制虚拟形象口型变化的系统，包括：虚拟形象生成设备，包括如上所述的控制虚拟形象口型变化的装置；以及虚拟形象呈现设备，用于呈现所述虚拟形象生成设备生成的所述虚拟形象。

在本申请实施例中，对样本音频数据进行预处理；将预处理后的所述样本音频数据输入到预先构建的深度学习模型中，其中，所述深度学习模型对预处理后的所述样本音频数据进行音频特征提取，比较前一时间步长的音频特征和当前时间步长的音频特征，并基于比较结果确定所述当前时间步长的音频特征对应的口型参数；根据所述口型参数确定所述深度学习模型的损失，并基于所述损失更新所述深度学习模型的网络参数，以训练所述深度学习模型；从而解决了现有的深度学习模型无法将待处理的音频信号准确地转换为相应的口型参数的技术问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种深度学习模型的训练方法的流程图；

图2是根据本申请实施例的一种确定口型参数的方法的流程图；

图3是根据本申请实施例的另一种训练深度学习模型的方法的流程图；

图4是根据本申请实施例的一种利用CNN和LSTM训练深度学习模型的方法的流程图；

图5是根据本申请实施例的利用长短期记忆网络确定口型参数的方法的流程图；

图6是根据本申请实施例的另一种口型参数的确定方法的流程图；

图7是根据本申请实施例的一种控制虚拟形象口型变化的方法的流程图；

图8是根据本申请实施例的一种深度学习模型的训练装置的结构示意图；

图9是根据本申请实施例的一种控制虚拟形象口型变化的装置的结构示意图；

图10是根据本申请实施例的一种控制虚拟形象口型变化的系统的架构示意图；

图11示出了适于用来实现本公开实施例的电子设备的结构示意图。

其中，上述附图包括以下附图标记：

1001、CPU；1002、ROM；1003、RAM；1004、总线；1005、I/O接口；1006、输入部分；1007、输出部分；1008、存储部分；1009、通信部分；1010、驱动器；1011、可拆卸介质；100、控制虚拟形象口型变化的系统；101、第一终端设备；102、第二终端设备；103、第三终端设备；104、网络；105、服务器；106、动捕装置；1062、动捕头盔；1064、动捕服；1066、动捕手套；82、预处理模块；84、训练模块；92、获取模块；94、参数确定模块；96、控制模块。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请实施例提供了一种深度学习模型的训练方法，如图1所示，包括以下步骤：

步骤S102，对样本音频数据进行预处理。

从样本音频数据中截取随机长度的音频数据，并掩蔽所述样本音频数据中除所截取的音频数据以外的音频数据，得到预处理后的所述样本音频数据，其中，所述随机长度在预设的长度范围内。例如，可以使用随机函数生成一个介于最小长度和最大长度之间的随机数，作为需要截取的音频数据的长度。这样可以使得训练样本的长度多样化，增加训练数据的多样性。

步骤S104，将预处理后的所述样本音频数据输入到预先构建的深度学习模型中，其中，所述深度学习模型对预处理后的所述样本音频数据进行音频特征提取，比较前一时间步长的音频特征和当前时间步长的音频特征，并基于比较结果确定所述当前时间步长的音频特征对应的口型参数。

在一些实施例中，如图2所示，深度学习模型可以通过以下方法来确定口型参数：

步骤S1042，将预处理后的所述样本音频数据输入到预先构建的深度学习模型中。

步骤S1044，对预处理后的所述样本音频数据进行音频特征提取。

例如，将所述样本音频数据进行短时傅里叶变换，得到频谱图，使用二维卷积层从所述频谱图中提取频域特征；基于残差网络中的残差块，使用跳跃连接，将所述频域特征直接添加到所述残差块中，得到具有梯度的所述频域特征；将具有梯度的所述频域特征进行逆傅里叶变化，得到时域特征序列，并将述所时域特征序列作为所提取的音频特征。

本实施例将样本音频数据进行短时傅里叶变换，并使用二维卷积层从频谱图中提取频域特征，可以在时频域上提取出音频数据的显著特征。这种处理方式有助于更好地表征音频信号，使得深度学习模型能够更准确地学习到音频特征，并提高模型的预测性能。

此外，基于残差网络中的残差块，并使用跳跃连接将频域特征直接添加到残差块中，可以有效地解决深度神经网络中的梯度消失和梯度爆炸问题，并提高模型的训练速度和性能。并且，这种方法可以使得模型更容易地捕捉到音频信号中的局部特征。

最后，将具有梯度的频域特征进行逆傅里叶变化，得到时域特征序列，并将所述时域特征序列作为所提取的音频特征，可以将频域特征转换为时域特征，进一步提高模型对音频信号的理解能力，并使得模型更容易地学习到时域上的时序信息。

步骤S1046，比较前一时间步长的音频特征和当前时间步长的音频特征，并基于比较结果确定所述当前时间步长的音频特征对应的口型参数。

首先，将所述时域特征序列输入到长短期记忆网络中，利用所述长短期记忆网络确定所述时域特征序列中所述前一时间步长的音频特征和所述当前时间步长的音频特征之间的依赖关系。

然后，在所述长短期记忆网络的输出层之前加入注意力机制，利用所述注意力机制对所述时域特征序列中每个音频特征赋予不同的注意力权重，并基于所述不同的注意力权重得到注意力输出。例如，将注意力查询向量和所述时域特征序列中的每个音频特征映射到同一维度，并将映射到同一维度的所述注意力查询向量和所述每个音频特征分别相加，并将相加后得到的结果进行非线性变换，得到所述每个音频特征对应的注意力权重；将所述每个音频特征对应的注意力权重分别与相应的音频特征相乘，并将各个相乘后的结果相加，得到所述注意力输出。

本实施例通过使用注意力机制可以更好地关注时域特征序列中的重要部分，从而提高模型的准确性。通过将注意力查询向量和时域特征映射到同一维度，可以使它们更容易进行比较和加权。将注意力查询向量添加到每个音频特征中，并进行非线性变换，可以获取每个音频特征对应的注意力权重。将注意力权重与相应的音频特征相乘，并将所有相乘后的结果相加，可以得到注意力输出，该输出强调了对于当前任务而言最重要的音频特征。这样，可以帮助模型更好地处理长序列数据，并充分利用序列中的信息，以提高模型的性能。

最后，基于所述依赖关系和所述注意力输出，来比较前一时间步长的音频特征和当前时间步长的音频特征。例如，可以基于所述依赖关系和所述注意力输出，来计算所述前一时间步长的音频特征和所述当前时间步长的音频特征之间的相似度；利用所述相似度，来比较所述前一时间步长的音频特征和所述当前时间步长的音频特征，以确定所述当前时间步长对应的口型参数。

本实施例基于依赖关系和注意力输出来比较前一时间步长的音频特征和当前时间步长的音频特征，可以帮助识别口型参数的变化，从而实现音频到口型参数的转换。通过计算前一时间步长的音频特征和当前时间步长的音频特征之间的相似度，可以衡量它们之间的相似程度，进而确定当前时间步长对应的口型参数。因此，本实施例可以提高音频到口型参数的转换的准确性和稳定性，有助于实现更加自然和流畅的语音合成效果。

步骤S106，根据所述口型参数确定所述深度学习模型的损失，并基于所述损失更新所述深度学习模型的网络参数，以训练所述深度学习模型。

在步骤S104中确定的口型参数是深度学习模型预测的口型参数，将这个预测的口型参数与实际的口型参数之间的误差量化成一个损失函数。在确定损失函数之后，使用优化算法来更新深度学习模型的网络参数，以最小化损失函数。例如，采用随机梯度下降方法，通过计算损失函数关于网络参数的梯度，来更新网络参数，从而使得损失函数逐渐减小。

在本实施例中，将时域特征序列输入到长短期记忆网络中，可以利用长短期记忆网络确定不同时间步之间的依赖关系，从而更好地捕捉音频信号的动态特征。加入注意力机制可以对不同的时域特征赋予不同的权重，从而可以提高关注音频信号的重要部分的能力，同时减少对噪音的关注。在比较前一时间步长的音频特征和当前时间步长的音频特征时，可以综合考虑时间步长之间的依赖关系和注意力输出，从而更好地反映音频信号的时序变化和重要性。

实施例2

深度学习模型可以用于实现音频驱动的三维虚拟形象。通过将音频数据和相应的口型参数作为样本，对深度学习模型进行训练，使其能够生成与输入音频相对应的口型参数。然后，使用模型输出的口型参数来驱动虚拟形象的口型变化，实现虚拟形象的生成。

本申请实施例提供了另一种深度学习模型的训练方法，如图3所示，该方法包括以下步骤：

步骤S302，对样本音频数据进行预处理。

首先，从指定长度的样本音频数据中确定随机长度的音频数据作为有效数据，该随机长度在预设的长度范围内（例如300毫秒至500毫秒），并可以取范围内的任意值。这样可以使得样本音频数据的有效数据长度从指定长度变为随机长度。

接下来，确定指定长度的样本音频数据中除有效数据外的音频数据为无效数据。为此，可以确定一个随机长度的窗口，并根据窗口确定一个以指定长度为中心的掩码数组。在掩码数组中，随机长度窗口内的元素被设置为第一数值，而窗口外的元素被设置为第二数值。例如，可以使用一个二进制数组作为掩码数组，其中1表示有效数据，0表示无效数据。然后，可以使用指定长度的掩码数组从样本音频数据中提取出随机长度的音频数据作为有效数据，并将除有效数据外的音频数据掩蔽，以得到预处理后的样本音频数据。通过这种掩码的方式，可以将样本音频数据中除有效数据外的音频数据掩盖掉，以得到更加规范的、适合进一步处理的样本音频数据。

本实施例将指定长度的样本音频数据转化为随机长度的有效数据可以增加数据的多样性和泛化性，使得模型更能够适应各种长度的音频数据。同时，确定指定长度的样本音频数据中除有效数据外的音频数据为无效数据并进行掩蔽，可以去除无用信息，减小噪音对模型的干扰，提高模型的性能和准确率。最终得到的预处理后的样本音频数据更加干净、紧凑，适用于后续的训练和使用。

步骤S304，训练深度学习模型。

本实施例中的深度学习模型由卷积神经网络CNN和长短期记忆网络（Long Short-Term Memory, LSTM）融合而成，如图4所示，利用CNN和LSTM训练深度学习模型的方法可以包括以下步骤：

步骤S3042，利用卷积神经网络提取音频特征。

使用卷积神经网络来提取音频信号中的特征，这些特征可以是频谱图中的边缘、纹理或形状等。卷积神经网络可以有多个卷积层和池化层，最后将提取的特征通过全连接层输出给下一步的LSTM。

具体地，首先对预处理后的样本音频数据进行短时傅里叶变换（STFT），得到频谱图。短时傅里叶变换将时域信号转换到频域，通过将时域信号分段并对每一段进行傅里叶变换，得到时间和频率的二维谱图。使用二维卷积层从频谱图中提取频域特征。卷积层通过卷积核对输入数据进行卷积操作，从而得到卷积特征图。卷积核的大小和数量可以根据需要进行设置，以提取不同层次的音频特征。

接着，基于残差网络中的残差块，使用跳跃连接，将频域特征直接添加到残差块中，得到具有梯度的频域特征。残差块可以有效地解决深度神经网络中的梯度消失和梯度爆炸问题，跳跃连接可以有效地维持梯度流动。

然后，将具有梯度的频域特征进行逆傅里叶变化（ISTFT），得到时域特征序列。逆傅里叶变换是将频域信号转换回时域的方法，通过对每一帧频谱图进行逆傅里叶变换，可以得到每一帧对应的时域信号。

本实施例将时域特征序列作为所提取的音频特征。这些特征可以进一步用于训练基于深度学习的音频合成模型，用于生成样本音频数据对应的口型参数，从而驱动虚拟形象的口型。

步骤S3044，利用长短期记忆网络比较前一时间步长的音频特征和当前时间步长的音频特征，并基于比较结果确定所述当前时间步长的音频特征对应的口型参数。

使用LSTM来学习音频序列中的上下文信息，LSTM可以记忆过去的状态和上下文信息，并通过反向传播更新神经网络的参数。在每个时间步，LSTM可以接受上一层卷积神经网络的特征，以及前一个时间步的隐藏状态和细胞状态作为输入，然后输出当前时间步的隐藏状态和细胞状态，以及对应的口型参数。

在一些实施例中，如图5所示，利用长短期记忆网络确定口型参数的方法可以包括以下步骤：

步骤S30442，输入时域特征序列到LSTM网络中，以确定前一时间步长的音频特征和当前时间步长的音频特征之间的依赖关系。

LSTM是递归神经网络，它能够对长序列数据进行建模，并具有较强的记忆能力。在本实施例中，LSTM被用于对时域特征序列进行处理。

首先，将时域特征序列作为输入送入LSTM网络中，其中每个时刻的输入是一个音频特征。在LSTM中，每个时刻的输入都会被分别传递给三个门控单元：输入门、遗忘门和输出门。这些门控单元可以控制对当前时刻的输入、前一时刻的状态以及前一时刻的输出的影响程度。通过对这些门控单元的控制，LSTM可以实现对时序数据的长期记忆和短期记忆，从而提高模型的准确性。

在本实施例中，LSTM网络将前一时间步长的音频特征和当前时间步长的音频特征之间的依赖关系进行建模，并输出一个维度为隐藏大小的隐藏状态。这个隐藏状态可以被看作是LSTM对时域特征序列中前一时间步长和当前时间步长之间关系的表示，它可以被用于后续的口型参数的计算和预测。

具体地，对于一个时间步长，其对应的输出是依赖于前面所有时间步长的输入和输出的，因此前面的时间步长的输出对当前时间步长的输出是有影响的。通过将前面时间步长的输出作为当前时间步长的输入，并且在深度学习模型中引入适当的记忆单元，深度学习模型可以学习到更长期的依赖关系。

步骤S30444，利用注意力权重得到注意力输出。

首先，计算注意力查询向量（attention query vector）。注意力查询向量用于在时域特征中查询注意力信息。通常情况下，注意力查询向量是LSTM的最后一个隐藏状态向量。其中，注意力查询向量可以通过下式得到：

其中，ft 是音频特征在时间步长 t 的值，大小为 D。注意力查询向量 q_t的维度为b_a, Wa是注意力机制的权重矩阵, Ua,是注意力机制的参数矩阵，ht表示当前时间步的LSTM隐状态。

上述注意力查询向量的公式引入了新的参数Wa和Ua，它们是待学习的可训练参数。将Wa和Ua作为注意力查询向量的一部分，意味着LSTM网络可以自动地学习并调整这个参数，以更好地匹配任务需求。通过引入可学习的参数，LSTM网络可以更好地适应不同的任务和数据集，从而提高模型的泛化性能。在具体应用中，通过调整注意力查询向量的参数Wa和Ua可以帮助网络更好地集中注意力于任务相关的音频特征，从而提高模型的准确性。

接着，定义注意力机制的三个线性变换。这些线性变换是为了将注意力查询向量和时域特征映射到同一维度，使它们更容易进行比较和加权。这些线性变换通常是全连接层或卷积层。

然后，计算注意力权重和注意力输出。将注意力查询向量添加到每个音频特征中，并进行非线性变换，可以获取每个音频特征对应的注意力权重。这个过程通常包括使用激活函数如sigmoid或softmax，以确保注意力权重总和为1。将注意力权重与相应的音频特征相乘，并将所有相乘后的结果相加，可以得到注意力输出。注意力输出强调了对于当前任务而言最重要的音频特征，可以作为LSTM网络的输入。

在一些实施例中，注意力权重可以通过以下公式得到：

其中，v_a是注意力机制的向量；T为时域特征序列的总长度；a_t是注意力权重，表示在时间步长时相应的音频特征对当前任务的重要程度；q_k表示注意力查询向量和键向量之间的相似度得分。

通过上述注意力权重公式，能够提高深度学习模型对任务相关信息的关注程度，从而更准确地进行口型参数预测。在计算注意力权重时，引入了可学习的参数v_a，通过学习这些参数，网络能够更好地理解不同时间步长之间的语音信号之间的关系，并对任务相关的信息进行更加精确的区分。这种注意力机制可以使模型更好地捕捉到语音信号中的重要特征，并根据任务需求对其进行加权组合，从而提高了模型的准确性。

在一些实施例中，注意力输出可以通过以下公式得到：

其中，fk表示第k个音频特征，a_k表示第k个音频特征的注意力权重。

本实施中，注意力输出公式利用了计算出的注意力权重来加权平均输入的音频特征向量，从而使深度学习模型更加关注与任务相关的音频特征，从而提高模型的准确性。另外，注意力机制还可以减少模型的计算量。在传统的RNN或LSTM模型中，模型需要对整个输入序列进行处理，而注意力机制可以只关注和当前输出相关的部分输入。这样可以降低计算量，加速模型的训练和推断过程。最后，注意力机制还可以提高模型的可解释性。通过观察模型在不同时间步长上的注意力权重，可以了解模型在处理输入序列时所关注的重要部分，从而更好地理解模型的决策过程。

最后，将注意力输出作为LSTM网络的输入。将计算得到的注意力输出添加到LSTM网络的输入中，可以让LSTM网络更加关注对当前任务最有用的音频特征。

本实施例通过加入注意力机制，可以提高音频特征的重要性，提高模型的预测性能，尤其是在处理长音频序列时。

步骤S30446，基于依赖关系和注意力输出，确定当前时间步长对应的口型参数。

首先，计算前一时间步长的音频特征和当前时间步长的音频特征之间的相似度。可以通过计算这两个时间步长的注意力输出之间的余弦相似度来完成。余弦相似度是一种用于衡量向量相似度的常见指标，其值介于-1和1之间，越接近1表示向量越相似，越接近-1表示向量越不相似。

通过计算前一时间步长的音频特征和当前时间步长的音频特征之间的相似度，可以将它们进行比较，以确定当前时间步长对应的口型参数。具体地，将前一时间步长的口型参数和当前时间步长的音频特征相乘，然后对所有相乘后的结果进行加和，得到一个加权和。这个加权和即为当前时间步长对应的口型参数。

需要注意的是，在计算前一时间步长的口型参数和当前时间步长的音频特征的相似度时，还需要考虑它们之间的依赖关系。具体来说，在计算相似度时，需要使用前一时间步长的口型参数和当前时间步长的音频特征之间的依赖关系，以确保计算的相似度是准确的。

口型参数的具体计算方法将在下文详细描述，此处不再赘述。

步骤S3046，确定损失函数。

定义损失函数来度量生成的口型参数与实际口型参数之间的误差。可以选择均方误差（Mean Squared Error）作为损失函数，也可以选择其他适合口型参数的损失函数。

步骤S3048，更新深度学习模型的网络参数。

将预处理后的样本音频数据输入到深度学习模型中，训练深度学习模型。使用反向传播算法和优化器来更新神经网络的参数，以最小化损失函数。可以使用随机梯度下降（Stochastic Gradient Descent）、自适应优化算法（Adam）、Adagrad或者其他优化器。

实施例3

本申请实施例提供了一种口型参数的确定方法，如图6所示，该方法包括以下步骤：

步骤S602，计算前一时间步长的音频特征和当前时间步长的音频特征之间的相似度。

例如，可以使用余弦相似度公式：

其中，c_t-1和 c_t分别表示前一时间步长的注意力输出和当前时间步长的注意力输出。

步骤S604，计算当前时间步长对应的初步的口型参数。

通过将前一时间步长的口型参数和当前时间步长的音频特征相乘，并对所有相乘后的结果进行加和，得到一个加权和。这个加权和即为当前时间步长对应的初步的口型参数：

其中，M_t表示当前时间步长对应的初步的口型参数，F_i表示第 i 个时间步长对应的口型参数， Ht,i表示当前时间步长和第 i 个时间步长的注意力输出之间的相似度加权值。

步骤S606，计算当前时间步长对应的最终的口型参数。

在计算相似度时，还要考虑前一时间步长的口型参数和当前时间步长的音频特征之间的依赖关系，具体而言，可以将当前时间步长的注意力输出与前一时间步长的口型参数相乘，得到一个加权和，作为当前时间步长和前一时间步长之间的依赖关系权重：

其中，H_t-1,t表示前一时间步长的口型参数和当前时间步长的音频特征之间的依赖关系权重，T表示时域特征序列的总长度。最后，将依赖关系权重和当前时间步长的口型参数相加，得到最终的口型参数：

其中，M_t-1表示前一时间步长对应的口型参数，M表示最终的口型参数。

本实施例采用上述口型参数计算方式，可以具有以下有益效果：

1）更加准确地捕捉语音和口型之间的关系。传统的基于规则的方法往往需要人工编写复杂的规则来建立语音和口型之间的映射关系，而且这种映射关系通常是固定的。而使用深度学习模型，可以通过训练来自动地学习语音和口型之间的映射关系，更加准确地捕捉它们之间的关系。

2）能够处理多样性和复杂性。语音中存在多样性和复杂性，同一段语音可以由不同的人说出来，甚至同一个人说同一句话也会有不同的语音表现。传统的基于规则的方法难以处理这种多样性和复杂性，而深度学习模型可以通过训练来适应不同的语音表现。

3）提高口型合成的质量。口型合成的质量很大程度上取决于口型参数的准确性。通过使用深度学习模型计算口型参数，可以提高口型合成的质量，使合成结果更加自然和流畅。

实施例4

本申请实施例提供了一种控制虚拟形象口型变化的方法，如图7所示，该方法包括以下步骤：

步骤S702，获取待处理音频数据。

步骤S704，将所述待处理音频数据输入到深度学习模型，得到与所述待处理音频数据对应的口型参数。

步骤S706，基于所述口型参数，控制虚拟形象的口型发生变化。

其中，深度学习模型是根据上述实施例中的训练方法训练得到的，此处不再赘述。

实施例5

本申请实施例提供了一种深度学习模型的训练装置，如图8所示，包括：预处理模块82和训练模块84。

预处理模块82被配置为对样本音频数据进行预处理。训练模块84被配置为：将预处理后的所述样本音频数据输入到预先构建的深度学习模型中，其中，所述深度学习模型对预处理后的所述样本音频数据进行音频特征提取，比较前一时间步长的音频特征和当前时间步长的音频特征，并基于比较结果确定所述当前时间步长的音频特征对应的口型参数；根据所述口型参数确定所述深度学习模型的损失，并基于所述损失更新所述深度学习模型的网络参数，以训练所述深度学习模型。

需要说明的是：上述实施例提供的深度学习模型的训练装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的深度学习模型的训练装置与深度学习模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

实施例6

本申请实施例提供了一种控制虚拟形象口型变化的装置，如图9所示，包括：获取模块92、参数确定模块94和控制模块96。

获取模块92被配置为获取待处理音频数据；参数确定模块94将所述待处理音频数据输入到深度学习模型，得到与所述待处理音频数据对应的口型参数；控制模块96被配置为基于所述口型参数，控制虚拟形象的口型进行变化。

需要说明的是：上述实施例提供的控制虚拟形象口型变化的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的控制虚拟形象口型变化的装置与控制虚拟形象口型变化的方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

实施例7

本申请实施例提供了一种控制虚拟形象口型变化的系统，如图10所示，控制虚拟形象口型变化的系统100可以包括终端设备例如第一终端设备101、第二终端设备102、第三终端设备103中的一个或多个、网络104、服务器105和动捕装置106。其中，服务器105相当于虚拟形象生成设备，终端设备相当于虚拟形象呈现设备。当然，也可以是终端设备既充当虚拟形象生成设备又充当虚拟形象生成设备。

网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间、以及动捕装置106和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图10中的终端设备、网络、动捕装置和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、动捕装置和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

动捕装置106用于实时采集动捕数据，并经网络104发送给服务器105。其中，动捕装置106可以包括动捕头盔1062、动捕服1064和动捕手套1066中的一个或多个。

动捕头盔1062设置有摄像头，其拍摄速度高达60帧/秒，能够捕捉快速的唇部动作、眨眼动作，以及面部的抽动和抖动。此外，本实施例中的动捕头盔1062是开放式的结构，这样，空气能够在其中流通，从而使得佩带动捕头盔1062的人员能够在进行操作时更加舒适。动捕头盔1062可以连接专用的数据线，如果数据线长度不够，还可以通过连接增强型USB延长线延长。

动捕服1064由惯性传感器、控制盒、莱卡面料等组成。本实施例中的动捕服1064设置有17个传感器，能够同时追踪23个不同的身体环节的动作，追踪部位包括双脚、小腿、膝盖、腹部、双手、手肘以及肩膀等。本实施例中的动捕服1064通过这样的结构，能够满足运动捕捉和动画设计的严格需求，具有使用简单、穿戴舒适、数据质量高的有益效果。在其他的实施例中，动捕服1064上还可以通过放置可追踪标记来捕捉穿戴动捕服1064的人或其他物体的运动轨迹。例如，可以放置反光标记，通过红外相机等追踪装置来跟踪这些标记。

动捕手套1066由惯性传感器、弹性面料、手部动作捕捉系统等组成。本实施例中，动捕手套1066上设置有12颗高性能的九轴惯性传感器，姿态更新频率为120Hz，采集点数量为12个节点，静态精度为0.02度，动态精度为0.2度，解算频率为约1000Hz，数据延迟为30ms。

服务器105接收到动捕数据之后，执行本公开实施例所提供的控制虚拟形象口型变化的方法，生成虚拟形象的音视频数据，并推送给第一终端设备101、第二终端设备102、第三终端设备103。

本公开实施例所提供的控制虚拟形象口型变化的方法一般由服务器105执行，相应地，控制虚拟形象口型变化的装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的控制虚拟形象口型变化的方法也可以由第一终端设备101、第二终端设备102、第三终端设备103执行，为其他终端设备提供虚拟形象的音视频数据的发送服务，相应的，虚拟形象的音视频数据的发送装置也可以设置于第一终端设备101、第二终端设备102、第三终端设备103中，本示例性实施例中对此不做特殊限定。

在一些示例性实施例中，可以是用户通过第一终端设备101、第二终端设备102、第三终端设备103上的应用程序观看渲染的虚拟形象，服务器105通过本公开实施例所提供的虚拟形象的音视频数据的发送系统，生成虚拟形象的音视频数据，并将虚拟形象的音视频数据发送给第一终端设备101、第二终端设备102、第三终端设备103等。第一终端设备101、第二终端设备102、第三终端设备103也可以基于虚拟形象的音视频数据的类型，本地执行渲染操作或者直接播放服务器渲染好的音视频数据。

实施例8

图11示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图11示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，该电子设备包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，电子设备还可以包括AI( ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现上述方法实施例的各个步骤等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种深度学习模型的训练方法，其特征在于，包括：

对样本音频数据进行预处理；

将预处理后的所述样本音频数据输入到预先构建的深度学习模型中，其中，所述深度学习模型对预处理后的所述样本音频数据进行音频特征提取，比较前一时间步长的音频特征和当前时间步长的音频特征，并基于比较结果确定所述当前时间步长的音频特征对应的口型参数；

根据所述口型参数确定所述深度学习模型的损失，并基于所述损失更新所述深度学习模型的网络参数，以训练所述深度学习模型；

其中，对预处理后的所述样本音频数据进行音频特征提取包括：将预处理后的所述样本音频数据进行短时傅里叶变换，得到频谱图，使用二维卷积层从所述频谱图中提取频域特征；基于残差网络中的残差块，使用跳跃连接将所述频域特征直接添加到所述残差块中，得到具有梯度的所述频域特征；将具有梯度的所述频域特征进行逆傅里叶变化，得到时域特征序列，并将述所时域特征序列作为所提取的音频特征。

2.根据权利要求1所述的方法，其特征在于，对样本音频数据进行预处理包括：从所述样本音频数据中截取随机长度的音频数据，并掩蔽所述样本音频数据中除所截取的音频数据以外的音频数据，得到预处理后的所述样本音频数据，其中，所述随机长度在预设的长度范围内。

3.根据权利要求1所述的方法，其特征在于，比较前一时间步长的音频特征和当前时间步长的音频特征，并基于比较结果确定所述当前时间步长的音频特征对应的口型参数，包括：

将所述时域特征序列输入到长短期记忆网络中，利用所述长短期记忆网络确定所述时域特征序列中所述前一时间步长的音频特征和所述当前时间步长的音频特征之间的依赖关系；

在所述长短期记忆网络的输出层之前加入注意力机制，利用所述注意力机制对所述时域特征序列中每个音频特征赋予不同的注意力权重，并基于所述不同的注意力权重得到注意力输出；

基于所述依赖关系和所述注意力输出，来比较所述前一时间步长的音频特征和所述当前时间步长的音频特征。

4.根据权利要求3所述的方法，其特征在于，利用所述注意力机制对所述时域特征序列中每个音频特征赋予不同的注意力权重，并基于所述不同的注意力权重得到注意力输出，包括：

将注意力查询向量和所述时域特征序列中的每个音频特征映射到同一维度，并将映射到同一维度的所述注意力查询向量和所述每个音频特征分别相加，并将相加后得到的结果进行非线性变换，得到所述每个音频特征对应的注意力权重；

将所述每个音频特征对应的注意力权重分别与相应的音频特征相乘，并将各个相乘后的结果相加，得到所述注意力输出。

5.根据权利要求3所述的方法，其特征在于，基于所述依赖关系和所述注意力输出，来比较所述前一时间步长的音频特征和所述当前时间步长的音频特征，包括：

基于所述依赖关系和所述注意力输出，来计算所述前一时间步长的音频特征和所述当前时间步长的音频特征之间的相似度；

利用所述相似度，来比较所述前一时间步长的音频特征和所述当前时间步长的音频特征，以确定所述当前时间步长对应的口型参数。

6.一种控制虚拟形象口型变化的方法，其特征在于，包括：

获取待处理音频数据；

将所述待处理音频数据输入到深度学习模型中，得到与所述待处理音频数据对应的口型参数；以及

基于所述口型参数，控制虚拟形象的口型进行变化；

其中，所述深度学习模型是根据权利要求1至5中任一项所述的方法训练得到的。

7.一种深度学习模型的训练装置，其特征在于，包括：

预处理模块，被配置为对样本音频数据进行预处理；

训练模块，被配置为：

其中，所述训练模块还被配置为：将预处理后的所述样本音频数据进行短时傅里叶变换，得到频谱图，使用二维卷积层从所述频谱图中提取频域特征；基于残差网络中的残差块，使用跳跃连接将所述频域特征直接添加到所述残差块中，得到具有梯度的所述频域特征；将具有梯度的所述频域特征进行逆傅里叶变化，得到时域特征序列，并将述所时域特征序列作为所提取的音频特征。

8.一种控制虚拟形象口型变化的装置，其特征在于，包括：

获取模块，被配置为获取待处理音频数据；

参数确定模块，将所述待处理音频数据输入到深度学习模型中，得到与所述待处理音频数据对应的口型参数；以及

控制模块，被配置为基于所述口型参数，控制虚拟形象的口型进行变化；

9.一种控制虚拟形象口型变化的系统，其特征在于，包括：

虚拟形象生成设备，包括如权利要求8所述的控制虚拟形象口型变化的装置；以及

虚拟形象呈现设备，用于呈现所述虚拟形象生成设备生成的所述虚拟形象。