CN116564338A

CN116564338A - 语音动画生成方法、装置、电子设备和介质

Info

Publication number: CN116564338A
Application number: CN202310847814.8A
Authority: CN
Inventors: 廖家聪; 丘国辰; 付星辉; 孙钟前
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-08-08
Anticipated expiration: 2043-07-12
Also published as: CN116564338B

Abstract

本申请实施例公开了一种语音动画生成方法、装置、电子设备和介质，可以应用于语音技术等人工智能领域；本申请实施例获取特征提取网络和视素生成网络；通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络；由训练后的特征提取网络，从第二音频数据中提取音素特征；由视素生成网络，生成音素特征对应的视素特征；通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络，以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。本申请中采用两种不同的音频数据和标签，进行有监督的两阶段训练过程，可以提高生成语音动画的准确性。

Description

语音动画生成方法、装置、电子设备和介质

技术领域

本申请涉及计算机技术领域，具体涉及一种语音动画生成方法、装置、电子设备和介质。

背景技术

语音动画（Speech-driven animation）指的是通过自然语言处理和计算机图形学技术，将声音信号转化为人类可视化的动画如唇形动画等。语音动画常被应用于电影、游戏、动漫、虚拟直播、虚拟现实等领域，以使动画中的人物能够模拟真人发音时的动画效果。例如，在虚拟现实技术中，动画师可以手工制作每一帧音频对应的唇形动画，或可以通过动作捕捉演员基于音频的表演内容，将演员的表情迁移到虚拟人物上，以生成虚拟人物的唇形动画。

然而，现有生成语音动画的方法如通过人工制作唇形动画或通过动作捕捉制作唇形动画存在一定误差，制作出来的语音动画存在唇形不准确的问题。

发明内容

本申请实施例提供一种语音动画生成方法、装置、电子设备和介质，可以提升制作语音动画的准确性。

本申请实施例提供一种语音动画生成方法，包括：获取特征提取网络和视素生成网络；通过第一音频数据、以及所述第一音频数据对应的口型标签，训练所述特征提取网络，得到训练后的特征提取网络；由所述训练后的特征提取网络，从第二音频数据中提取音素特征；由所述视素生成网络，生成所述音素特征对应的视素特征；通过所述视素特征、以及所述第二音频数据对应的音素标签，训练所述视素生成网络，得到训练后的视素生成网络，以便将所述训练后的特征提取网络以及所述训练后的视素生成网络用于生成语音动画。

本申请实施例还提供一种语音动画生成装置，包括：获取单元，用于获取特征提取网络和视素生成网络；第一训练单元，用于通过第一音频数据、以及所述第一音频数据对应的口型标签，训练所述特征提取网络，得到训练后的特征提取网络；提取单元，用于由所述训练后的特征提取网络，从第二音频数据中提取音素特征；视素生成单元，用于由所述视素生成网络，生成所述音素特征对应的视素特征；第二训练单元，用于通过所述视素特征、以及所述第二音频数据对应的音素标签，训练所述视素生成网络，得到训练后的视素生成网络，以便将所述训练后的特征提取网络以及所述训练后的视素生成网络用于生成语音动画。

本申请实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本申请实施例所提供的任一种语音动画生成方法中的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所提供的任一种语音动画生成方法中的步骤。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本申请实施例所提供的任一种语音动画生成方法中的步骤。

本申请实施例可以获取特征提取网络和视素生成网络；通过第一音频数据、以及所述第一音频数据对应的口型标签，训练所述特征提取网络，得到训练后的特征提取网络；由所述训练后的特征提取网络，从第二音频数据中提取音素特征；由所述视素生成网络，生成所述音素特征对应的视素特征；通过所述视素特征、以及所述第二音频数据对应的音素标签，训练所述视素生成网络，得到训练后的视素生成网络，以便将所述训练后的特征提取网络以及所述训练后的视素生成网络用于生成语音动画。

在本申请中，基于监督学习算法，通过第一音频数据以及相应的口型标签训练特征提取网络，以优化特征提取网络的参数，再通过第二音频数据中的音素特征以及相应的音素标签训练视素生成网络。由此，本申请通过不同音频数据以及不同标签，对特征提取网络和视素生成网络进行两阶段训练，通过第一阶段训练，特征提取网络可以学习从音频到口型的基础表达，以更好地提取并表达音频数据中的音频特征；通过第二阶段训练，根据输入音频数据的音素特征和相应的音素标签，视素生成网络可以学习从音素特征到视素特征的映射关系，以获得更加真实和逼真的视素特征。显然，本申请通过有监督的两阶段训练过程，使特征提取网络和视素生成网络最大程度地学习音频和口型、音频和音素之间的对应关系，从而提高使用训练后的特征提取网络和训练后的视素生成网络生成的视素特征所生成语音动画的准确性。

此外，在两阶段训练过程中，采用两种不同的音频数据和标签进行训练，可以使得特征提取网络和视素生成网络具有更强的泛化能力，从而拓宽了应用场景和范围，并提高了模型的可靠性和可持续性。尤其是在视素生成网络的训练过程中，音素标签作为第二音频数据的伪标签来训练视素生成网络，以此在缺乏音素特征到视素特征的训练数据的情况下，也能够对视素生成网络进行训练。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的语音动画生成方法的场景示意图；

图1b是本申请实施例提供的语音动画生成方法的流程示意图；

图1c是本申请实施例提供的通过音素特征提取网络提取音素相关特征的示意图；

图1d是本申请实施例提供的编码向量表的示意图；

图1e是本申请实施例提供的调整待处理音素特征的示意图；

图1f是本申请实施例提供的对待处理音频的重音片段的进行夸张度变换的示意图；

图2a是本申请另一个实施例提供的语音动画生成方法的流程示意图；

图2b是本申请实施例提供的两阶段模型的模型结构的示意图；

图2c是本申请实施例提供的两阶段模型的训练过程的示意图；

图2d是本申请实施例提供的视位参数曲线的示意图；

图2e是本申请实施例提供的训练后的两阶段模型生成语音动画的流程示意图；

图3是本申请实施例提供的语音动画生成装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在对本申请实施例进行详细地解释说明之前，先对本申请实施例涉及到的一些名词进行解释说明。

音素：是发音的最小单元，是能用于区分音位的最小单位。通常，一个句子有多个词组成，一个词由多个字组成，一个字有多个音素组成。汉字的音素一般为声母、韵母和声调，例如，汉字“爱”包括音素“a”和“i”。英文单词的音素一般为元音和辅音，例如，单词“cat”包括音素“k”、“æ”和“t”。

视素：是语音在视觉意义上的最小可区分单元。每个音素会对应一种特定的视素，即一种特定的口型。

本申请实施例提供一种语音动画生成方法、装置、电子设备和介质。

其中，该语音动画生成装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑（Personal Computer，PC）等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该语音动画生成装置还可以集成在多个电子设备中，比如，语音动画生成装置可以集成在多个服务器中，由多个服务器来实现本申请的语音动画生成方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，语音动画生成方法由服务器实现，该服务器可以获取特征提取网络和视素生成网络；在第一阶段训练中，通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络；在第二阶段训练中，由训练后的特征提取网络，从第二音频数据中提取音素特征；由视素生成网络，生成音素特征对应的视素特征；通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络，以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。

以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。可以理解的是，在本申请的具体实施方式中，涉及到音频数据等与用户相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

人工智能（Artificial Intelligence，AI）是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术，该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在本实施例中，提供了一种涉及人工智能的基于语音技术的语音动画生成方法，如图1b所示，该语音动画生成方法的具体流程可以如下：

110、获取特征提取网络和视素生成网络。

其中，特征提取网络是指用于从音频数据中提取音素特征的网络。音素特征是指音素的特征数据，音素特征是与语音信号相关的特征，其可以表示为数字向量或矩阵形式。例如，特征提取网络可以包括但不限于卷积神经网络（CNN）、循环神经网络（RNN）、深度神经网络（DNN）等神经网络模型中的一种或多个的组合。特征提取网络能够自动学习一组具有鉴别性的特征来代表输入的音频数据，举例来说，对于语音识别任务，特征提取网络可以学习到不同音素之间的鉴别性特征。例如，在英文中，单词 "cat" 和 "bat" 之间的区别在于第一个音素的发音差异。特征提取网络可以自动学习到这种声音差异，并将其编码为相应的特征向量，从而能够区分不同的音素，以提取相应的音素特征。

其中，视素生成网络是指用于由音素特征生成相应视素特征的网络。视素特征是指视素的特征数据，视素特征是与视觉信号相关的特征，其可以表示为数字向量或矩阵形式。例如，视素生成网络可以包括但不限于基于前馈神经网络（FNN）、卷积神经网络（CNN）、循环神经网络（RNN）、深度神经网络（DNN）等语音到口型的映射模型中的一种或多个的组合，如视素生成网络可以为LipSync（口型同步）模型。

120、通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络。

其中，音频数据是指记录声音信号的数字化数据。音频数据可以由音频采集设备如麦克风、话筒、录音仪对真实场景中的声音采集得到，也可以由语音生成模型等人工智能技术根据文字等源数据合成得到。第一音频数据是指用于训练特征提取网络的音频数据。

在实际应用中，音频数据可以由一系列时间上连续的采样数据点组成，每个采样数据点代表了该时刻的声音强度或振幅大小。这些采样数据点可以通过一定的采样率进行采集，并通过合适的编码格式进行存储和传输。在处理时，多个采样数据点可以组成一帧（frame）或一段（segment），用于执行数据分析、降噪、过滤等操作。

其中，标签是指监督学习任务中，用于描述和分类样本的离散值或离散向量，即样本对应的真实值或目标输出。口型标签是指在对音频数据进行特征提取的任务中，用于描述音频数据对应的口型的标签，它记录音频中不同音素或音节所对应的口形特征信息。例如，可以使用特征提取网络对第一音频数据进行特征提取，以将第一音频数据转换为相应的特征向量，第一音频数据的口型标签用于描述这些特征向量所属的类别或输出值。在一些实施方式中，可以以音频数据对应的三维口型参数如mesh（网格）或者3dmm（可变性人脸模型）系数作为口型标签。

例如，可以用多个第一音频数据训练特征提取网络。针对每个第一音频网络，将第一音频数据分为多个时间片段，并将卷积神经网络作为特征提取网络，对每个时间片段进行编码，得到编码后的语音表示，这些编码后的语音表示可以被看做是原始音频数据在一个低维度向量空间中的投影或者降维表示。再使用聚类等技术从这个低维度向量空间中提取出对应音素的特征向量即第一音频数据对应的音素特征。然后，利用监督学习算法，基于提取到的音素特征以及对应的口型标签对特征提取网络进行训练，以优化特征提取网络的参数，使特征提取网络可以学习从音频到口型的基础表达，以更好地提取并表达音频数据中的音素特征。

在一些实施方式中，第一音频数据为通用音频数据，例如，可以采用通用的音频数据集作为第一音频数据，如通用音频数据可以为开源的VOCA数据集（用于细粒度动作理解的视觉对象-动作共现数据集）或BIWI数据集（伯克利内在物体及其三维运动数据集）。通用音频数据通常包括大量对象在海量场景下的数据，使用通用音频数据来训练特征提取网络，可以将开源、通用数据的特征引入特征提取网络，使特征提取网络学习从音频到口型的一个通用化表达，提高特征提取网络的通用性和鲁棒性，使其能够更好地适应各种不同的语音数据。

在一些实施方式中，第一音频数据也可以为基于场景或实际任务需求构建的音频数据。例如，在某些定制化的应用场景中，可以针对特定任务创建特定类型的音频数据作为第一音频数据，以使特征提取网络在该应用场景下达到最优的效果。

在一些实施方式中，可以通过特征提取网络将音频数据分割成音素，以提取得到音素特征序列，以提高模型对语音信号的建模精度，再基于音素特征序列对应的预测口型与口型标签之间的差异度调整网络参数，以提高特征提取网络的预测精度。具体地，通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络，包括：

由特征提取网络，从第一音频数据中提取音素特征序列；

确定音素特征序列对应的预测口型；

通过预测口型与第一音频数据对应的口型标签之间的差异度，调整特征提取网络的网络参数，得到训练后的特征提取网络。

其中，音素特征序列是指多个音素特征组成的序列，该音素特征为第一音频序列中的音素特征。例如，对于汉语“你好”的音频数据，从该音频数据提取每个音素对应的声学特征（即音素特征），根据发音顺序，将这些声学特征组成一个音素特征序列。

其中，预测口型是指根据给定的音素特征序列，预测出的、其所对应的口型，该预测口型可以以相应的口型类型或口型特征表征。在实际应用中，预测口型则是使用模型或算法推测得到的给定音素所对应的预测口型。

例如，特征提取网络可以将音频数据分成若干个时间窗口，然后提取每个时间窗口内的音素特征，并通过这些声学特征构建音素特征序列。如，对于一段5秒长的音频数据，可以将其分成10个1秒长的时间窗口，然后对每个时间窗口内的声音数据进行音素特征提取，得到10个特征向量，每个特征向量即表示相应时间窗口对应的音素特征，最终构成包含该10个特征向量的音素特征序列，并确定音素特征序列对应的口型标签（即预测口型）。再使用监督学习的方法，基于预测口型与实际的口型标签之间的差异度，通过误差反向传播算法来优化特征提取网络的网络参数，从而得到训练后的特征提取网络。由于音素代表了发音中的最小单位，因此将音素特征序列和口型标签进行比较，可以更加精确地推断和预测对应的口型，提升特征提取网络的表达能力。

在训练过程中，可以定义合适的损失函数来度量网络输出与实际口型标签之间的差异。例如，可以使用交叉熵损失函数或均方误差损失函数等损失函数，基于预测口型和实际口型标签计算损失值，使用随机梯度下降等优化算法来最小化损失函数，从而迭代调整网络参数，并不断改进网络的性能，直至损失函数收敛，最后调整得到的特征提取网络即为训练后的特征提取网络。

在一些实施方式中，可以通过前向编码，提取初始音素特征序列中每个初始音素特征及其之前的信息，以提升音素特征的表达能力。具体地，由特征提取网络，从第一音频数据中提取音素特征序列，包括：

由特征提取网络，从第一音频数据中提取初始音素特征序列；

对初始音素特征序列中的初始音素特征进行前向传播，得到前向隐向量；

由前向隐向量拼接得到音素特征序列。

其中，初始音素特征序列是多个初始音素特征组成的序列，该初始音素特征是指初始音频序列中的音素特征。

在一些实施方式中，特征提取网络可以包括音素特征提取网络、时序特征提取网络以及口型预测网络。其中，音素特征提取网络可以为预训练的神经网络模型如声波嵌入向量2.0（Wav2Vec2.0）模型等，以利用音频数据对音素特征提取网络进行预训练，如图1c所示的通过音素特征提取网络提取音素相关特征的示意图，在利用第一音频数据训练音素特征提取网络的过程中，音素特征提取网络学习并提取音频信号中的音素相关特征（即初始音素特征序列），而不关注音频信号中音素无关的特征，以此可以为下游任务提供更好地语音表示，此外预训练的音素特征提取网络能极大缓解训练数据不足的问题。时序特征提取网络可以为长短时记忆网络（LSTM）网络、门控循环单元网络(GRU)、卷积神经网络（CNN）等能提取时间序列特征的网络，口型预测网络可以为全连接层网络等能对音素特征序列预测得到其对应预测口型的网络。

例如，可以通过音素特征提取网络如预训练的声波嵌入向量2.0模型，从第一音频数据中提取每个音素的音素特征（即初始音素特征），并按照音频中音素的发音顺序组成初始音素特征序列如X = {x₁, x₂, …, x_t, …, x_T}，其中x_t表示在时间步t的D维特征向量（即音素特征），再将初始音素特征序列输入LSTM网络，LSTM网络中有三个门控单元即输入门（input gate）、遗忘门（forget gate）和输出门（output gate），这三个门控单元分别用于控制信息的输入、遗忘和输出，它们能够根据当前输入和前一时刻的状态（即进行前向传播），确定需要保留和丢弃的信息。如，对于第t个时间步的输入x_t和前一时刻的状态 h_t-1，计算i_t（输入门控信号）和f_t（遗忘门控信号），以根据这两个门控信号更新隐状态c_t（也称为记忆细胞状态）并计算o_t（输出门控信号），再根据o_t和c_t计算输出h_t（也称为隐状态），也即为时间步t的音素特征的前向隐向量，以此类推，计算得到初始音素特征序列中每个音素特征对应的前向隐向量，再根据音素的发音顺序拼接得到与初始音素特征序列长度相同的音素特征序列{h₁, h₂, …, h_t, …, h_T}，该序列中的每个分量对应一个音素特征。

在实际应用中，可以将口型预测网络作为分类器，将音素特征序列映射到样本标记空间，以实现对音素特征序列的分类，将该分类对应的口型类型作为音素特征序列的预测口型。

在实际应用中，口型预测网络可以使用分类器确定音素特征序列对应的预测口型，但分类器的输出通常只能表示某一个分类或标签，不能很好地反映不同分类之间的差异。在一些实施方式中，口型预测网络可以通过对音素特征序列进行回归处理，输出的连续的实数值作为音素特征序列对应的预测口型，以区分不同口型的微小差异。相比使用分类器的方法，回归处理可以得到更精细的预测结果。此外，对音素特征序列进行回归处理，还可以使得预测结果不受样本标记空间的限制、更加灵活，可以应用于不同场景、不同任务，以增加口型预测网络的鲁棒性。具体地，确定音素特征序列对应的预测口型，包括：

对音素特征序列进行第一回归处理，得到音素特征序列对应的预测口型。

例如，可以将全连接层网络作为口型预测网络，并将三维口型参数如mesh（网格）或者3dmm（可变性人脸模型）系数作为第一音频数据的口型标签。通过全连接层网络对音素特征序列进行回归处理，预测音素特征序列对应的三维口型参数（即预测口型）。以通过对特征提取网络的训练，最终得到一个能够预测口型的全连接层网络，该全连接层网络的输入为音素特征序列，输出为对应的三维口型参数的预测结果。

130、由训练后的特征提取网络，从第二音频数据中提取音素特征。

其中，第二音频数据是指用于训练视素生成网络的音频数据。

例如，可以用多个第二音频数据训练视素生成网络。将多个第二音频数据输入训练后的特征提取网络，经训练后的音素特征提取网络提取其对应的初始音素特征序列（下称第二初始音素特征序列），经训练后的时序特征网络提取第二初始音素特征序列中的时序特征，得到其对应的音素特征序列（下称第二音素特征序列），将第二音素特征序列作为第二音频数据的音素特征。其中，训练后的音素特征提取网络和训练后的时序特征网络的处理过程与在特征提取网络的训练过程中相应网络的处理过程一致，具体可以参见前述相应描述，在此不再赘述。

在一些实施方式中，第二音频数据可以为基于场景或实际任务需求构建的音频数据。例如，在某些定制化的应用场景中，可以针对特定任务创建特定类型的音频数据作为第二音频数据，以使特征提取网络在该应用场景下达到最优的效果。

140、由视素生成网络，生成音素特征对应的视素特征。

例如，可以通过视素生成网络，将第二音素特征序列从语音映射到口型，得到相应的视素特征。

在一些实施方式中，可以通过音素到视素的线性映射矩阵，将音素特征转换为对应的视素特征，通过线性映射矩阵可以将复杂的转换过程简化为对应的矩阵乘法运算，从而简化了计算过程，提升处理效率。具体地，由视素生成网络，生成音素特征对应的视素特征，包括：

通过视素生成网络，对音素特征以及音素标签进行第二回归处理，得到线性映射矩阵；

对音素特征以及线性映射矩阵进行乘积运算，得到音素特征对应的视素特征。

其中，线性映射矩阵是用于将音素特征空间线性变换到视素特征空间的矩阵，线性映射矩阵可以实现音素得到视素的转换。

其中，乘积运算是指对两个或多个数进行相乘的运算。

例如，视素生成网络可以为线性模型如Y=AX+B，其中A表示该模型的权重矩阵（即线性映射矩阵）、B表示偏置向量、X表示输入的音素特征、Y表示输出值，可以由音素特征作为输入数据X以及将输入的音素特征对应的标签（即音素标签）作为输出值Y，让线性模型进行一次回归处理得到线性映射矩阵A和偏置向量B，在该次回归处理中得到的预测值Y^’即为该音素特征对应的视素特征。具体而言，可以将大小为(m,n)的线性映射矩阵与输入的大小为 n 第二音素特征序列相乘，其中m表示输出的维度，n表示输入的维度，再与大小为m的偏置向量加和，得到大小为m的视素特征Y^’。

视素特征可以表征为用于描述人脸口型的参数如网格、3DMM系数或视位参数（viseme参数）。在一些实施方式中，视素特征为视位参数形式。视位参数是用于描述人脸的口型姿态的一组参数，相比的网格或者3DMM系数，视位参数通过嘴唇张合程度、舌头位置等信息，可以直接反映嘴唇、舌头等口腔部位的动态变化，而不需要考虑面部其他区域的形状变化，以此视位参数更加简洁、直观，并且对于口型的描述更加精细和准确，能直接驱动游戏、动漫和虚拟人等场景的人物，应用于更广泛的场景。

150、通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络，以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。

其中，音素标签是指在将音频数据转换为视素特征的任务中，用于描述音频数据对应的音素特征的标签。例如，可以将第二音频数据分割为不同的音素，并对每个音素赋予相应标签，第二音频数据中的所有音素对应的标签即构成该音频数据对应的音素标签。需说明的是，在视素生成网络的训练过程中，音素标签作为第二音频数据的伪标签来训练视素生成网络，以此在缺乏音素特征到视素特征的训练数据的情况下，也能够对视素生成网络进行训练。

例如，可以利用监督学习算法，基于视素特征以及对应的音素标签对视素生成网络进行训练，以优化视素生成网络的参数。根据输入音频数据的音素特征和相应的音素标签，视素生成网络可以学习从音素特征到视素特征的映射关系，以获得更加真实和逼真的视素特征。需说明的是，在通过线性映射矩阵将音素特征转换为对应的视素特征时，训练视素生成网络即是训练该线性映射矩阵，使训练后的线性映射矩阵能够在转换音素特征时，最大程度地保留原始信息的同时减小误差。由于音素代表了发音中的最小单位，视素代表视觉上的最小单位，因此将音素特征和音素标签作为训练视素生成网络的输入，可以更加精确地推断和预测对应的视素特征，提升特征提取网络的表达能力。

在训练过程中，可以定义合适的损失函数来度量网络输出与实际音素标签之间的差异。例如，可以使用交叉熵损失函数或均方误差损失函数等损失函数，基于视素特征和音素标签计算损失值，使用随机梯度下降等优化算法来最小化损失函数，从而迭代调整网络参数，并不断改进网络的性能，直至损失函数收敛，最后调整得到的视素生成网络即为训练后的视素生成网络。

需说明的是，在视素生成网络为线性模型时，对视素生成网络的训练过程也即是对线性模型中的线性映射矩阵和偏置向量的训练过程。例如，可以由输入数据（即输入的音素特征）作为X以及输入的音素特征对应的标签（即音素标签）作为Y，让线性模型进行一次回归得到线性映射矩阵和偏置向量，在该次回归中得到的预测值即为该音素特征对应的视素特征。可以将音素标签作为真实值与该预测值计算损失，以进一步调整线性映射矩阵和偏置向量（即训练视素生成网络），即经过多次回归处理得到最终的映射矩阵和偏置向量，即得到训练后的视素生成网络。

在实际应用中，可以使用不同语言（如中文或英文）或应用场景的音频数据训练得到相应语言的视素生成网络。由于本申请实施例中，特征提取网络和视素生成网络是分别训练的，以此在不同语言或应用场景中可以仅训练视素生成网络，以使其能扩展到不同的语言或应用场景，使本申请方法可以广泛应用。

在一些实施方式中，为了实现更好地训练效果，音素标签可以以每个音素对应的视素特征表示。例如，当视素特征为视位参数（如viseme参数）时，可以将每个音频数据中每个音素对应的视位参数作为该音素的音素标签，音频数据的音素标签包括其所有音素的音素标签。

在一些实施方式中，可以将音频数据中音素对应的编码向量作为音素标签。具体地，通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络之前，还包括：

从第二音频数据中提取每个音素的音频帧；

对音素的音频帧进行编码，得到编码向量；

将编码向量作为第二音频数据对应的音素标签。

其中，音素的音频帧是指音频数据中构成该音素的帧。例如，音频数据中，一个音素在音频中会持续一段时间，则该持续时间内的帧都为该音素的音频帧。

例如，可以通过音素对齐算法从第二音频数据查找每个时间点所对应的文本单元（即音素），再将对应同一音素的时间点的音频帧作为该音素的音频帧，并对该音素的音频帧进行编码，将第二音频数据的所有音频帧的编码结果作为其对应的音素标签。其中，音素对齐算法是一种常用的将音频信号与文字进行对齐的方法，常见的音素对齐算法包括动态时间规整法、基于隐马尔可夫模型的方法和包络对齐法等，这些方法可以有效地将音频中的语音与文本进行对应，以确定文本中帧与音素对应关系。

在实际应用中，可以通过多种方法对音频帧进行编码，如独热（onehot）编码或word2vec编码等。在一些实施方式中，可以对音频帧进行独热编码，得到该中间音频帧的编码向量。独热编码能够将音频帧表征为二进制向量，以更准确地表征特征之间的相对距离，同时独热编码的表征形式简单，能高效处理编码过程，给提升编码效率。

在一些实施方式中，可以对音素的中间帧进行编码，以减少要处理的帧数据，也可以更好地反映音素的声学特征，从而提高处理和分析的准确性和鲁棒性。具体地，对音素的音频帧进行编码，得到编码向量，包括：

从每个音素的音频帧中，确定每个音素的中间音频帧；

对中间音频帧进行编码，得到编码向量。

其中，中间音频帧是指位于音素的音频帧中间位置的一帧。

可以理解的是，音素的中间音频帧通常是位于或接近该音素的音频波峰位置的帧，因此中间音频帧通常更能准确、完整地反映该音素的声学特征。在实际应用中，波峰（中间帧）对应的口型视觉效果通常最大，位于波峰（中间帧）两侧的帧对应的口型视觉效果逐渐递减，该视觉效果可以表征为视素特征（如视位参数）的值。因此，可以设置中间音频帧对应的编码值为视位参数的最大值即1。例如，如图1d所示的编码向量表的示意图，可以通过音素对齐算法确定图中的音频“你好”的音素序列为“nnniiihhhaaaooo”，音频中同一个音素会持续一段时间。对于音频中的每个音素，可以根据图中表格所示的独热编码给定的状态，将其中间的一帧进行编码，图中灰色表格中显示的数字即为相应音素的编码结果，如图中编码向量表对于音素“n”，在前9位状态“a”~“jqzcs”中均不存在（即表示为0），在第10为状态“dtnlgkh”中存在（即表示为1），因此可以将中间的一帧进行独热编码得到相应的编码向量“0000000001”，图中音频“你好”的编码向量表中使用灰色表格突出显示了音频“你好”的所有音素的编码向量。以此，音素中除中间帧以外的其他帧不会被用来训练视素生成网络。

在视素生成网络是线性模型时，它可以根据两个帧之间的差异来推断出中间相邻帧的形态，以此，即使只使用中间音频帧的数据转换得到视素特征，视素生成网络也可以维持中间帧的线性，得到连续、可靠的信息。而且，在构造音素标签的过程中，以视素特征（如视位参数）的最大值构造中间音频帧对应的向量，可以表征音素中间帧视觉效果通常最大、位于中间帧两侧的帧的视觉效果逐渐递减的特性。

需说明的是，对视素生成网络的训练过程也即是对线性模型Y=AX+B中模型的权重矩阵（即线性映射矩阵）A和偏置向量B的训练过程。具体地，将输入的音素特征作为模型输入X，以及将输入的音素特征对应的标签（即音素标签）作为模型输出Y，让线性模型拟合学习偏置向量B以及线性映射矩阵A，直至模型收敛，以训练得到最终的映射矩阵和偏置向量。

在一些实施方式中，可以将音素特征分为多个时间窗口，并生成每个时间窗口对应的视素特征。在对视素生成网络的训练过程，可以将采样窗口沿时间轴滑动，即一次滑动对应一个时间窗口，并在每个时间窗口内执行线性回归，以得到每个时间窗口对应的视素特征。

在一些实施方式中，可以对中间音频帧进行编码得到初始编码向量，再经线性变换得到该音素所有音频帧对应的编码向量，以使得在视素生成网络的训练过程中，输入的音素特征与其对应的音素标签的特征长度一致，以更好地进行训练和预测。

在一些实施方式中，可以将待处理音频经训练后的特征提取网络和训练后的视素生成网络处理后，自动生成与该音频匹配的语音动画。具体地，通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络之后，还包括：

获取待处理音频；

由训练后的特征提取网络，从待处理音频中提取待处理音素特征；

由训练后的视素生成网络，生成待处理音素特征对应的待处理视素特征；

由待处理视素特征，生成待处理音频对应的语音动画。

例如，可以获取要生成语音动画的音频作为待处理音频，将待处理音频输入训练后的特征提取网络，经训练后的音素特征提取网络提取其对应的初始音素特征序列（下称待处理初始音素特征序列），经训练后的时序特征网络提取待处理初始音素特征序列中的时序特征，得到其对应的音素特征序列（下称待处理音素特征序列）。将待处理音素特征序列作为待处理音素特征，与训练后的视素生成网络的线性映射矩阵相乘，再加入训练后的偏置向量，得到待处理视素特征，由该待处理视素特征作为语言动画中人物的唇形特征，以生成与待处理音频匹配的语音动画，即该语音动画的音频为待处理音频，其画面中人物的口型为相应的视素特征生成的口型。如，在视素特征为视位参数形式时，可以以该视位参数直接驱动游戏、动漫和虚拟人等场景的人物，以生成相应的语音动画。

其中，训练后的音素特征提取网络、训练后的时序特征网络的处理过程与特征提取网络的训练过程中相应网络的处理过程一致，训练后的视素生成网络与视素生成网络的训练过程中的处理过程一致，具体可以参见前述相应描述，在此不再赘述。

在一些实施方式中，可以通过比较待处理视素特征与参考视素之间的偏差度，检测并调整存在错误的待处理视素特征，以提升视素特征的表达准确性，以提升生成的语音动画的准确性。具体地，由训练后的视素生成网络，生成待处理音素特征对应的待处理视素特征之后，还包括：

获取待处理音频对应的参考视素；

若待处理视素特征与参考视素之间的偏差度大于偏差度阈值，调整待处理视素特征，得到调整后的视素特征，调整后的视素特征用于生成待处理音频对应的语音动画。

其中，参考视素是指用于识别训练后的视素生成网络生成的视素特征是否出错的视素。

其中，偏差度阈值是指用于衡量参考视素与待处理视素特征之间偏差大小的阈值，该阈值可以根据任务的具体要求和应用场景决定，或可以根据经验或实验得出。

例如，可以根据先验知识为音频中的音素设置相应的参考视素以及偏差度阈值，通过计算参考视素与偏差度阈值的差异度指标如欧式距离、均方误差、绝对误差等作为偏差度，若偏差度大于偏差度阈值，则说明训练后的视素生成网络生成的视素特征出错，若偏差度小于等于偏差度阈值，则说明训练后的视素生成网络生成的视素特征未出错。以此，可以对偏差度大于偏差度阈值的视素特征进行调整，以减小参考视素与偏差度阈值的偏差度，提升视素特征的表达的准确性，以提升生成的语音动画的准确性。

在一些实施方式中，可以基于统计法或先验知识确定待处理音频是否明显出错，若是，则获取待处理音频对应的参考视素，以及判断参考视素与待处理视素特征之间的偏差度是否大于偏差度阈值，以及时确定要进一步调整的音频，提升调整效率，也减小要调整音频的数据量。若待处理音频未明显出错，则不执行这些步骤。具体地，在实际应用中，可以将大量要生成语音动画的待处理音频输入训练后的特征提取网络和训练后的视素生成网络得到相应的待处理视素特征，以此可以通过统计法将多个待处理音频的待处理视素特征的值进行统计，并计算出均值/标准差，然后检查每个视素特征的值是否和均值/标准差相差太远如是否超过3倍标准差，若超过3倍标准差，则认为该视素特征可能存在错误，以此，可以认为该视素特征对应的待处理音频明显出错。在实际应用中，也可以基于先验知识提出一些检验规则，如待处理音频为“OK”时，其发音“OW”对应的视素特征的值理论上应该较大，若从待处理音频中提取待处理音素特征的值较小，则说明该待处理音频明显出错。如图1e所示的调整待处理音素特征的示意图，调整前的图中显示有训练后的视素生成网络生成的 “OW”的视位参数（即视素特征）曲线，该曲线表征视位参数的值较小（即图中“OW”的视位参数曲线波动较小），可以放大OK口型中“OW”部份的视位参数的值，以得到调整后较大的视位参数（即图中“OW”的视位参数曲线波动较大），图中响应曲线是指多频带处理（MBP）的响应曲线。

在一些实施方式中，可以通过对齐处理确定待处理音频中的目标音素，以获取目标音素对应的视素作为参考视素，从而精确地从音素粒度上确定待处理音频与视素之间的关系，提高确定的参考视素的准确性。具体地，获取待处理音频对应的参考视素，包括：

获取待处理音频对应的音频文本；

将音频文本与待处理音频进行对齐处理，确定待处理音频的音频帧对应的目标音素；

将目标音素对应视素作为参考视素。

其中，音频文本是指待处理音频对应的文本内容。例如，若待处理音频为由音频采集设备如麦克风、话筒、录音仪对真实场景中的声音采集得到的音频数据，可以通过音频文本技术识别采集到的音频数据，以将其转换成相应的音频文本。若待处理音频为由语音生成模型等人工智能技术根据文字等源数据合成得到的音频数据，可以将该用于生成待处理音频的文字作为音频文本。

其中，目标音素是指待处理音频中的音频帧对应的音素。

例如，可以通过动态时间规整法、基于隐马尔可夫模型的方法和包络对齐法等音素对齐算法将待处理音频与其对应的音频文本对应，确定待处理音频中每帧对应的目标音素。在实际应用中，可以根据先验知识建立音素与视素的映射关系，如从现有的视频或动画中捕获音频中的音素以及与其对应的视素的映射关系，再查找目标音素在该映射关系中所对应的视素，将待处理音频中所有音频帧的目标音素所对应的视素根据时序拼接得到参考视素。

在一些实施方式中，可以对待处理音频中的重音片段的视素特征进行夸张度变换，以增强该片段的感知效果，提升生成的语音动画的准确性。具体地，由训练后的视素生成网络，生成待处理音素特征对应的待处理视素特征之后，还包括：

计算待处理音频的短时能量；

根据短时能量，确定待处理音频中的重音片段；

对待处理视素特征中，重音片段对应的目标视素特征进行夸张度变换，得到变换后的视素特征，变换后的视素特征用于生成待处理音频对应的语音动画。

其中，短时能量是指一段时间内音频信号的能量大小。短时能量能体现音频信号在不同时刻的强弱程度。在实际应用中，可以根据任务或场景设置能量阈值，短时能量大于该能量阈值的音频片段为重音片段，短时能量小于等于该能量阈值的音频片段为非重音片段。

其中，目标视素特征是指重音片段对应的视素特征。

其中，夸张度变换是指用于调整音频中特定部分的音量或强度的方法。

例如，可以将待处理音频分为多个音频片段，计算每个音频片段的能量大小以得到短时能量。如可以将待处理音频的信号分为若干个窗口，每个窗口内的信号被称为一帧即一个音频片段，短时能量即为每一帧信号的能量值。再将每个音频片段的能量值与能量阈值进行比较，将能量值大于该能量阈值的音频片段作为重音片段。再对该重音片段对应的目标视素特征进行夸张度变换，得到变换后的视素特征，如图1f所示的对待处理音频的重音片段的进行夸张度变换的示意图，根据短时能量可以确定出待处理音频的重音片段1和重音片段2。再获取图中实线曲线所示的待处理音频对应的变换前的视位参数（即待处理视素特征）的曲线，可以对图中重音片段对应的曲线的数值进行增大，得到图中虚线曲线所示的变换后的视位参数（即变换后的视素特征）的曲线，以使重音片段对应的变换后的视位参数的曲线显示的口型相比变换前视位参数的曲线显示的口型的张开幅度更大，以增强重音片段对应的口型的视觉效果。

需说明的是，在实际应用中，在待处理音频对应的待处理视素特征与参考视素之间的偏差度大于偏差度阈值时，可以对该待处理视素特征进行调整以及夸张度变换两种处理。例如，可以先调整该待处理视素特征，得到调整后的视素特征，再将调整后的视素特征作为待处理视素特征，对其中的目标视素特征进行夸张度变换，得到变换后的视素特征，以使用变换后的视素特征生成语音动画。再如，也可以先对待处理视素特征进行夸张度变换，将变换后的视素特征作为待处理视素特征，再调整该待处理视素特征，得到调整后的视素特征，以使用调整后的视素特征生成语音动画。

在一些实施方式中，可以通过夸张度系数进行夸张度变化，以准确、量化地增大重音片段的感知效果。具体地，对待处理视素特征中，重音片段对应的目标视素特征进行夸张度变换，得到变换后的视素特征，包括：

获取重音片段对应的夸张度系数；

对夸张度系数以及目标视素特征进行乘法运算，得到中间视素特征；

由中间视素特征以及待处理视素特征，得到变换后的视素特征。

其中，夸张度系数可以用于对重音片段进行夸张度变换，以增强重音部分的感知效果。例如，可以根据任务或应用场景预设夸张度系数，如在某些对语音特定部位较为注重的场景如演讲或朗读场景中，可以对音频中语气词、数字或地名等部分内容对应的重音片段设置大于1的夸张度系数。再如，也可以分别计算待处理音频中重音片段和非重音片段的梅尔倒谱系数（MFCCs），并计算梅尔倒谱系数的差值，得到对应待处理音频中各重音或非重音片段的梅尔倒谱系数的数值序列，为了避免夸张度系数过大或过小，对得到的差异序列进行归一化处理，将归一化后的差异序列中与重音片段对应的数值作为该重音片段对应的夸张度系数。

其中，中间视素特征是指夸张度系数以及目标视素特征进行乘法运算得到的视素特征。

例如，可以将夸张度系数与目标视素特征相乘得到中间视素特征，再用中间视素特征替换待处理视素特征中的目标视素特征，得到变换后的视素特征。或，可以将中间视素特征与处理视素特征中除目标视素特征以外的其他视素特征合并，得到变换后的视素特征。

本申请实施例提供的语音动画生成方案可以应用在各种语音动画生成场景中。比如，以唇形动画为例，获取特征提取网络和视素生成网络；通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络；由训练后的特征提取网络，从第二音频数据中提取音素特征；由视素生成网络，生成音素特征对应的视素特征；通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络，以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。

由此，本申请实施例基于监督学习算法，通过第一音频数据以及相应的口型标签训练特征提取网络，以优化特征提取网络的参数，再通过第二音频数据中的音素特征以及相应的音素标签训练视素生成网络。由此，本申请通过不同音频数据以及不同标签，对特征提取网络和视素生成网络进行两阶段训练，通过第一阶段训练，特征提取网络可以学习从音频到口型的基础表达，以更好地提取并表达音频数据中的音频特征；通过第二阶段训练，根据输入音频数据的音素特征和相应的音素标签，视素生成网络可以学习从音素特征到视素特征的映射关系，以获得更加真实和逼真的视素特征。显然，本申请实施例通过有监督的两阶段训练过程，使特征提取网络和视素生成网络最大程度地学习音频和口型、音频和音素之间的对应关系，从而提高使用训练后的特征提取网络和训练后的视素生成网络生成的视素特征所生成语音动画的准确性。

由上可知，本申请实施例可以应用到游戏、动漫和虚拟直播等多个领域的对话场景中，这些对话场景中的角色往往需要较多的口型动画资产，如果通过传统的动画制作流程来制作口型动画需要耗费较高的人力成本，通过本申请实施例的语音动画生成方法可以快速生成准确自然的语音动画。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以生成游戏中虚拟人物的唇形动画（即语音动画）为例，对本申请实施例的方法进行详细说明。

本申请实施例中的唇形动画是根据对话场景中的音频自动生成3D人物角色的口型动画。游戏、动漫和虚拟直播等场景的面部动画的一般是通过3D面部网格序列渲染得到，驱动3D网格的方式一般有两种：骨骼的方式和Blendshape（变形动画）的方式，本申请实施例采用的是Blendshape的方式，即动画。3D网格是计算机图形学中常用的物体3D表示方法，网格是多个顶点、边和面片构成的集合，将多个多边形面片通常是三角形面片拼接起来，就构成一个三维物体的表面。3D网格的动画即是指连续的网格。

如图2a所示，一种语音动画生成方法具体流程如下：

210、获取两阶段模型，待训练的生成模型包括特征提取网络和视素生成网络。

例如，如图2b所示的两阶段模型（即Two-stage模型）的模型结构的示意图，其包括通用模型（即特征提取网络）和转换模型（即视素生成网络）两个模块。通用模型包括音频特征提取模块（即音素特征提取网络）和时间序列模型。对复杂度较高的音频信号，通过特征提取模块将音频转换成更低纬度的特征，降低任务的复杂度。时间序列模型由LSTM模型（即时序特征提取网络）和全连接层网络（即口型预测网络）组成，LSTM模型又称长短时记忆网络，时间序列模型的作用是将特征转换成mesh或者3dmm系数，因为音频是时序信号，所以采用LSTM的结构进行转换，LSTM是深度学习领域中一种序列预测的方法。转换模型包括一个线性模型。

220、通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络。

如图2c所示的两阶段模型的训练过程的示意图。例如，如图2c所示，在第一阶段训练中，第一音频数据经通用模型中的音频特征提取模块提取第一初始音素特征序列，经长短时记忆网络进行前向传播后，得到第一音素特征序列，再由全连接层网络进行回归处理后，得到第一音素特征序列对应的三维口型参数如mesh或者3dmm系数。

通用模型其主要作用是学习一个音频到口型的一个通用化表达。在这一过程中，通过mesh或者3dmm系数作为监督信号，可以使得通用模型学习到音频到口型动画的关系，这种关系通过转换模型可以换算成对应的视位参数如viseme参数；在实际使用过程中，通用模型的输出结果通过转换模型得到viseme参数。

具体地，可以利用开源数据对模型进行第一阶段训练，如开源数据可以采用VOCA数据集和BIWI数据集。开源数据集中有多个样本，每个样本即为一个第一音频数据，开源数据中每个样本的口型标签是以网格或者3DMM系数的形式存在的，这些数据无法直接应用在游戏中。口型仅仅和语音音素相关，因此需要从音频中提取音素特征，音素特征的提取主要借助预训练的神经网络模型实现，预训练的神经网络模型得益于海量的音频数据，对音频有比较好的泛化性。而且音素信息与音频信息相比更为简单，通过预训练的神经网络模型对音频进行特征提取可以极大缓解训练数据不足的问题。

230、由训练后的特征提取网络，从第二音频数据中提取音素特征。

例如，如图2c所示，在第二阶段训练中，通用模型的参数是与第一阶段是共享且模型训练的过程中是固定的，第二音频数据经通用模型中训练后的音频特征提取模块提取第二初始音素特征序列，经训练后的长短时记忆网络进行前向传播后，得到第二音素特征序列（即音素特征）。

第二阶段训练通过共享第一阶段训练的通用模型的参数，间接将开源数据引入到转换模型的训练过程中。在实际应用中，可以针对游戏场景创建数据集，以用于生成游戏中虚拟人物的唇形动画，该数据集包括多个第二音频数据以及每个第二音频数据对应的音素标签。

240、由视素生成网络，生成音素特征对应的视素特征；

例如，转换模型通过线性模型将通用模型特征（即音素特征）转换成如图2d所示的视位参数曲线（即视素特征）。

250、通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络。

由于现有技术中，缺乏音频到viseme参数的训练数据，第二阶段训练可以用伪标签数据（即音素标签）进行训练，在训练转换模型后，即得到训练后的两阶段模型。

伪标签的构造过程为，首先通过音素对齐算法得到音频中每一帧的音素，例如，音频“你好”的音素序列为“nnniiihhhaaaooo”，音频中同一个音素会持续一段时间，转换模型是仅仅根据波峰的数据训练一个映射矩阵，因此在采集数据仅仅采集每个音素中间帧的数据，中间帧的viseme参数用one hot编码的向量，如图1d所示的编码向量表中，灰色表格中的数值即构成了音频“你好”相应音素的伪标签。音素中其他帧的数据是隐式构造的（伪标签中不体现其他帧对应的向量）。在本申请实施例中通过线性模型使构造的伪标签数据满足3DMM(人脸3D形变统计模型)特性，具体地，本申请实施例采用线性模型作为转换模型，如下：

（公式1）；

（公式2）；

其中，表示偏置向量，/>表示fwh参数（即3DMM）对应的线性模型的权重，/>表示viseme参数对应的线性模型（即本申请实施例的转换模型）的权重，/>表示3DMM的半高全宽参数，/>表示viseme参数，/>表示fwh参数对应的线性模型的输入值，/>表示本申请实施例的转换模型的输入值，/>表示随机给定一个权重参数（可以根据权重矩阵的特性，随机设定权重参数/>作为初始的权重矩阵）。 “==》” 的符号通常表示逻辑蕴含，也即由3DMM的fwh参数对应的线性模型（公式1和公式2中左侧的公式）可以推导出viseme参数对应的线性模型（公式1和公式2中右侧的公式）。由此，本申请实施例采用线性模型作为转换模型，能满足3dmm特性。

由于转换模型的训练数据仅仅需要音频和伪标签数据，因此可以很便捷的将转换模型扩展应用到不同的语义语言，只需按照不同语言对应的viseme规范构造伪标签，便可以直接训练不同语言的转换模型，继而将通用模型的结果转换成不同语言viseme表达。

260、通过训练后的两阶段模型生成语音动画，训练后的两阶段模型包括训练后的特征提取网络和训练后的视素生成网络。

具体地，如图2e所示训练后的两阶段模型生成语音动画的流程示意图，训练后的两阶段模型可以通过如下步骤261~266生成语音动画。

261、获取待处理音频。

例如，待处理音频可以为由语音生成模型等人工智能技术根据文字等源数据合成得到的音频，如游戏中NPC(非玩家角色)的音频。

262、由训练后的特征提取网络，从待处理音频中提取待处理音素特征。

例如，将NPC音频输入训练后的两阶段模型，由该模型中的通用模型（即训练后的特征提取网络）处理后，输出相应的音素特征。

263、由训练后的视素生成网络，生成待处理音素特征对应的待处理视素特征。

例如，可以将通用模型输出的音素特征输入转换模型（即训练后的视素生成网络），生成相应的viseme参数（即视素特征）。

本申请实施例中，转换模型已经能够输出自然且相对准确的口型动画的viseme参数，但为了进一步提升口型的准确度和表现力，还可以进行后处理。一方面，转换模型输出的结果不是百分百正确的，会有出错的情况，需要通过后处理对其中明显有错误的样本进行修正；另一方面，转换模型输出的口型为标准的口型动画，无法根据音频的强弱进行动态的夸张度变换。因此，该处理可以通过准确性修正模块和夸张度动态变换模块这两个模块实现，可以通过这两个模块对待处理视素特征进行准确度修正（见步骤264）和/或夸张度动态变换（见步骤265）。

264、若待处理视素特征与参考视素之间的偏差度大于偏差度阈值，调整待处理视素特征，得到调整后的视素特征。

例如，准确性修正主要借助音频文本和音素强制对齐算法实现的，通过音频文本和音素强制对齐算法可以准确的知道音频中每一帧的viseme类别，当转换模型输出的viseme参数权重和音素强制对齐算法的结果相差较大时，则表明口型预测出错，此时需要对口型的对应参数需要进行放大，音频为“OK”时，“OW”的viseme参数是需要比较大的，当模型此时输出的结果比较小时，则表示模型预测出错，需要修正，可以放大OK口型参数的“OW”部份。

265、对待处理视素特征中，重音片段对应的目标视素特征进行夸张度变换，得到变换后的视素特征。

例如，根据音频的短时能量检测音频的重音区间，对重音区间的口型进行动态夸张度变换。

266、由调整后的视素特征或变换后的视素特征，生成待处理音频对应的语音动画。

例如，可以由步骤264或步骤265生成的viseme参数，控制Blendshape（变形动画）模型，以由该模型生成游戏中虚拟人物的唇形的动画效果。

本申请实施例将本申请实施例生成的唇形动画与现有技术生成的唇形动画的比较，发现针对中文音频生成的唇形动画和基于英文音频生成的唇形动画，本申请实施例生成的唇形动画的效果要优于现有技术生成的唇形动画。

通过深度学习的方式由音频数据生成唇形动画的核心问题是如何获取音频到对应口型动画的数据对，现有技术通常是通过人工采集音频到对应口型动画的数据对来解决这一问题，这种人工采集数据的方式成本较高。然而，本申请实施例通过开源数据和伪标签数据对深度学习模型即两阶段模型进行训练，既能够生成准确、自然的唇形动画，又能解决采集数据成本高的问题。同时通过转换模型，可以扩展应用到不同的语义语言。此外，本申请实施例可以直接输出Viseme参数，该参数可以直接用于驱动游戏、动漫和虚拟人等场景的人物，提升相应场景下生成唇形动画的效率。

由上可知，本申请实施例结合开源数据和伪造标签数据对两阶段模型进行训练，以利用训练后的两阶段模型生成唇形动画，并利用准确性修正和夸张度动态变换对生成唇形动画进行后处理以能够根据输入的语音音频生成准确和多样的口型动画。

为了更好地实施以上方法，本申请实施例还提供一种语音动画生成装置，该语音动画生成装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以语音动画生成装置具体集成在服务器为例，对本申请实施例的方法进行详细说明。

例如，如图3所示，该语音动画生成装置可以包括获取单元310、第一训练单元320、提取单元330、视素生成单元340以及第二训练单元350，如下：

（一）获取单元310

用于获取特征提取网络和视素生成网络。

（二）第一训练单元320

用于通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络。

在一些实施方式中，第一训练单元320具体可以用于：

由特征提取网络，从第一音频数据中提取音素特征序列；

确定音素特征序列对应的预测口型；

在一些实施方式中，由特征提取网络，从第一音频数据中提取音素特征序列，包括：

由前向隐向量拼接得到音素特征序列。

在一些实施方式中，确定音素特征序列对应的口型类型，包括：

（三）提取单元330

用于由训练后的特征提取网络，从第二音频数据中提取音素特征。

（四）视素生成单元340

用于由视素生成网络，生成音素特征对应的视素特征。

在一些实施方式中，视素生成单元340具体可以用于：

（五）第二训练单元350

用于通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络，以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。

在一些实施方式中，第二训练单元350还可以用于：

从第二音频数据中提取每个音素的音频帧；

对音素的音频帧进行编码，得到编码向量；

将编码向量作为第二音频数据对应的音素标签。

在一些实施方式中，对音素的音频帧进行编码，得到编码向量，包括：

从每个音素的音频帧中，确定每个音素的中间音频帧；

对中间音频帧进行编码，得到编码向量。

在一些实施方式中，该语音动画生成装置还可以包括生成单元，生成单元具体可以用于：

获取待处理音频；

由待处理视素特征，生成待处理音频对应的语音动画。

在一些实施方式中，该语音动画生成装置还可以包括调整单元，调整单元具体可以用于：

获取待处理音频对应的参考视素；

在一些实施方式中，获取待处理音频对应的参考视素，包括：

获取待处理音频对应的音频文本；

将目标音素对应视素作为参考视素。

在一些实施方式中，该语音动画生成装置还可以包括变换单元，变换单元具体可以用于：

计算待处理音频的短时能量；

根据短时能量，确定待处理音频中的重音片段；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的语音动画生成装置包括获取单元、第一训练单元、提取单元、视素生成单元以及第二训练单元。其中，获取单元用于获取特征提取网络和视素生成网络；第一训练单元，用于通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络；提取单元，用于由训练后的特征提取网络，从第二音频数据中提取音素特征；视素生成单元，用于由视素生成网络，生成音素特征对应的视素特征；第二训练单元，用于通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络，以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。

由此，本申请实施例通过有监督的两阶段训练过程，使特征提取网络和视素生成网络最大程度地学习音频和口型、音频和音素之间的对应关系，从而提高使用训练后的特征提取网络和训练后的视素生成网络生成的视素特征所生成语音动画的准确性。

本申请实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图4所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器410、一个或一个以上计算机可读存储介质的存储器420、电源430、输入模块440以及通信模块450等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器410是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行服务器的各种功能和处理数据。在一些实施例中，处理器410可包括一个或多个处理核心；在一些实施例中，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

存储器420可用于存储软件程序以及模块，处理器410通过运行存储在存储器420的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器420还可以包括存储器控制器，以提供处理器410对存储器420的访问。

服务器还包括给各个部件供电的电源430，在一些实施例中，电源430可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源430还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块440，该输入模块440可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块450，在一些实施例中通信模块450可以包括无线模块，服务器可以通过该通信模块450的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块450可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中服务器中的处理器410会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器420中，并由处理器410来运行存储在存储器420中的应用程序，从而实现各种功能，如下：

获取特征提取网络和视素生成网络；通过第一音频数据、以及第一音频数据对应的口型标签，训练特征提取网络，得到训练后的特征提取网络；由训练后的特征提取网络，从第二音频数据中提取音素特征；由视素生成网络，生成音素特征对应的视素特征；通过视素特征、以及第二音频数据对应的音素标签，训练视素生成网络，得到训练后的视素生成网络，以便将训练后的特征提取网络以及训练后的视素生成网络用于生成语音动画。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本申请实施例通过有监督的两阶段训练过程，使特征提取网络和视素生成网络最大程度地学习音频和口型、音频和音素之间的对应关系，从而提高使用训练后的特征提取网络和训练后的视素生成网络生成的视素特征所生成语音动画的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种语音动画生成方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序/指令，该计算机程序/指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序/指令，处理器执行该计算机程序/指令，使得该电子设备执行上述实施例中提供的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种语音动画生成方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音动画生成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种语音动画生成方法、装置、电子设备和介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音动画生成方法，其特征在于，包括：

获取特征提取网络和视素生成网络；

通过第一音频数据、以及所述第一音频数据对应的口型标签，训练所述特征提取网络，得到训练后的特征提取网络；

由所述训练后的特征提取网络，从第二音频数据中提取音素特征；

由所述视素生成网络，生成所述音素特征对应的视素特征；

通过所述视素特征、以及所述第二音频数据对应的音素标签，训练所述视素生成网络，得到训练后的视素生成网络，以便将所述训练后的特征提取网络以及所述训练后的视素生成网络用于生成语音动画。

2.如权利要求1所述的语音动画生成方法，其特征在于，所述通过第一音频数据、以及所述第一音频数据对应的口型标签，训练所述特征提取网络，得到训练后的特征提取网络，包括：

由所述特征提取网络，从所述第一音频数据中提取音素特征序列；

确定所述音素特征序列对应的预测口型；

通过所述预测口型与所述第一音频数据对应的口型标签之间的差异度，调整所述特征提取网络的网络参数，得到训练后的特征提取网络。

3.如权利要求2所述的语音动画生成方法，其特征在于，所述由所述特征提取网络，从所述第一音频数据中提取音素特征序列，包括：

由所述特征提取网络，从所述第一音频数据中提取初始音素特征序列；

对所述初始音素特征序列中的初始音素特征进行前向传播，得到前向隐向量；

由所述前向隐向量拼接得到音素特征序列。

4.如权利要求2所述的语音动画生成方法，其特征在于，所述确定所述音素特征序列对应的口型类型，包括：

对所述音素特征序列进行第一回归处理，得到所述音素特征序列对应的预测口型。

5.如权利要求1所述的语音动画生成方法，其特征在于，所述由所述视素生成网络，生成所述音素特征对应的视素特征，包括：

通过所述视素生成网络，对所述音素特征以及所述音素标签进行第二回归处理，得到线性映射矩阵；

对所述音素特征以及所述线性映射矩阵进行乘积运算，得到所述音素特征对应的视素特征。

6.如权利要求1所述的语音动画生成方法，其特征在于，所述通过所述视素特征、以及所述第二音频数据对应的音素标签，训练所述视素生成网络，得到训练后的视素生成网络之前，还包括：

从所述第二音频数据中提取每个音素的音频帧；

对所述音素的音频帧进行编码，得到编码向量；

将所述编码向量作为所述第二音频数据对应的音素标签。

7.如权利要求6所述的语音动画生成方法，其特征在于，所述对所述音素的音频帧进行编码，得到编码向量，包括：

从每个所述音素的音频帧中，确定每个所述音素的中间音频帧；

对所述中间音频帧进行编码，得到所述编码向量。

8.如权利要求1~7任一项所述的语音动画生成方法，其特征在于，所述通过所述视素特征、以及所述第二音频数据对应的音素标签，训练所述视素生成网络，得到训练后的视素生成网络之后，还包括：

获取待处理音频；

由所述训练后的特征提取网络，从所述待处理音频中提取待处理音素特征；

由所述训练后的视素生成网络，生成所述待处理音素特征对应的待处理视素特征；

由所述待处理视素特征，生成所述待处理音频对应的语音动画。

9.如权利要求8所述的语音动画生成方法，其特征在于，所述由所述训练后的视素生成网络，生成所述待处理音素特征对应的待处理视素特征之后，还包括：

获取所述待处理音频对应的参考视素；

若所述待处理视素特征与所述参考视素之间的偏差度大于偏差度阈值，调整所述待处理视素特征，得到调整后的视素特征，所述调整后的视素特征用于生成所述待处理音频对应的语音动画。

10.如权利要求9所述的语音动画生成方法，其特征在于，所述获取所述待处理音频对应的参考视素，包括：

获取所述待处理音频对应的音频文本；

将所述音频文本与所述待处理音频进行对齐处理，确定所述待处理音频的音频帧对应的目标音素；

将所述目标音素对应视素作为所述参考视素。

11.如权利要求8所述的语音动画生成方法，其特征在于，所述由所述训练后的视素生成网络，生成所述待处理音素特征对应的待处理视素特征之后，还包括：

计算所述待处理音频的短时能量；

根据所述短时能量，确定所述待处理音频中的重音片段；

对所述待处理视素特征中，所述重音片段对应的目标视素特征进行夸张度变换，得到变换后的视素特征，所述变换后的视素特征用于生成所述待处理音频对应的语音动画。

12.一种语音动画生成装置，其特征在于，包括：

获取单元，用于获取特征提取网络和视素生成网络；

第一训练单元，用于通过第一音频数据、以及所述第一音频数据对应的口型标签，训练所述特征提取网络，得到训练后的特征提取网络；

提取单元，用于由所述训练后的特征提取网络，从第二音频数据中提取音素特征；

视素生成单元，用于由所述视素生成网络，生成所述音素特征对应的视素特征；

第二训练单元，用于通过所述视素特征、以及所述第二音频数据对应的音素标签，训练所述视素生成网络，得到训练后的视素生成网络，以便将所述训练后的特征提取网络以及所述训练后的视素生成网络用于生成语音动画。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1~11任一项所述的语音动画生成方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1~11任一项所述的语音动画生成方法中的步骤。