CN114724540A

CN114724540A - 模型处理方法及装置、情感语音合成方法及装置

Info

Publication number: CN114724540A
Application number: CN202011543098.7A
Authority: CN
Inventors: 廉洁
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2022-07-08

Abstract

本说明书实施例提供了语音数据的处理方法及装置、模型处理方法及装置、情感语音合成方法及装置。其中，通过获取目标发声对象的多条第一情感语音数据，并对至少一条第一情感语音数据的目标声音要素进行调整，得到第二情感语音数据，以便将该多条第一情感语音数据和第二情感语音数据，合并成目标发声对象的情感语音数据集。之后，可以将目标发声对象的目标身份信息，以及情感语音数据集中的情感语音数据样本对应的台词语句和情感标记作为输入，将该情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，得到情感语音合成模型。此后，在应用阶段，情感语音合成模型可以根据输入的文本信息和情感标记，合成具有情感表现力的语音数据。

Description

模型处理方法及装置、情感语音合成方法及装置

技术领域

本说明书实施例涉及语音合成技术领域，具体地，涉及语音数据的处理方法及装置、模型处理方法及装置、情感语音合成方法及装置、基于直播的情感语音合成方法及装置、基于电子书的情感语音合成方法及装置、基于视频的情感语音合成方法及装置。

背景技术

语音合成技术历经几十年发展，经过了能听懂、够自然、有表现力阶段。目前的语音合成技术，通常难以合成具有情感表现力的语音。所谓情感表现力，通常指听到一段声音后，能够明显感知到发声对象的情感，例如兴奋、悲伤或中性等。

因此，迫切需要一种合理、可靠的方案，可以合成具有情感表现力的语音。

发明内容

本说明书实施例提供了语音数据的处理方法及装置、模型处理方法及装置、情感语音合成方法及装置、基于直播的情感语音合成方法及装置、基于电子书的情感语音合成方法及装置、基于视频的情感语音合成方法及装置。

第一方面，本说明书实施例提供了一种语音数据的处理方法，包括：获取目标发声对象的多条第一情感语音数据，所述多条第一情感语音数据对应多条台词语句，所述多条台词语句对应至少一个情感标记，其中，第一情感语音数据通过对所述目标发声对象读出相应的台词语句时发出的声音进行录制而得到；对至少一条第一情感语音数据的目标声音要素进行调整，得到第二情感语音数据；将所述多条第一情感语音数据和所述第二情感语音数据，合并成所述目标发声对象的情感语音数据集。

在一些实施例中,所述目标声音要素包括语速和/或语调。

在一些实施例中，所述台词语句包括以下任一种作品中的台词：文字作品、戏剧作品、影视剧作品。

在一些实施例中，所述至少一个情感标记包括以下至少一项：中性、积极情感、消极情感。

在一些实施例中，所述积极情感包括以下至少一项：兴奋、舒缓、高兴、崇拜；所述消极情感包括以下至少一项：悲伤、愤怒、厌恶、害怕。

在一些实施例中，在所述获取目标发声对象的多条第一情感语音数据之前，所述方法还包括：获取至少一个文本；对于所述至少一个情感标记中的情感标记，从所述至少一个文本中，提取出多条具有该情感标记所指示的情感的台词语句；将提取出的台词语句提供给所述目标发声对象，以使所述目标发声对象读出所述提取出的台词语句，从而获得所述多条第一情感语音数据。

第二方面，本说明书实施例提供了一种模型处理方法，包括：获取目标发声对象的目标身份信息和情感语音数据集，以及所述情感语音数据集中的情感语音数据样本对应的台词语句和情感标记；将所述目标身份信息、所述台词语句和情感标记作为输入，将所述情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，得到情感语音合成模型。

在一些实施例中，所述待训练的语音合成模型通过以下方式进行预训练：将至少一个样本发声对象的样本身份信息和文本信息作为输入，将所述样本发声对象读出所述文本信息的语音数据作为训练标签，对初始语音合成模型进行训练，其中，所述样本发声对象不同于所述目标发声对象。

在一些实施例中，所述待训练的语音合成模型包括声谱预测网络和声码器，所述待训练的语音合成模型的第一处理过程包括：利用所述声谱预测网络，根据输入的目标身份信息、台词语句和情感标记，预测声谱图；利用所述声码器，根据所述声谱预测网络预测出的声谱图，生成时域波形。

在一些实施例中，所述对待训练的语音合成模型进行训练，包括：基于所述时域波形和所述情感语音数据样本，确定预测损失，以预测损失减小为目标，调整所述声谱预测网络中的网络参数。

在一些实施例中，所述声谱预测网络关联至少一个情感标记分别对应的情感强度系数，所述情感强度系数用于情感强度调整；以及在所述情感语音合成模型的应用阶段，所述情感语音合成模型的第二处理过程包括：利用声谱预测网络，根据输入的情感标记所对应的情感强度系数，进行情感强度调整。

在一些实施例中，所述声谱预测网络包括编码器和解码器；以及所述利用所述声谱预测网络，根据输入的目标身份信息、台词语句和情感标记，预测声谱图，包括：利用所述编码器，将输入的目标身份信息、台词语句和情感标记，分别转换成向量，并对转换所得的向量进行拼接,得到拼接向量；利用所述解码器，根据所述拼接向量，预测声谱图。

在一些实施例中，所述编码器包括情感标记嵌入模块、身份嵌入模块和字符编码模块；以及所述利用所述编码器，将输入的目标身份信息、台词语句和情感标记，分别转换成向量，包括：利用所述情感标记嵌入模块，将输入的情感标记映射成情感嵌入向量；利用所述身份嵌入模块，将输入的目标身份信息映射成身份嵌入向量；利用所述字符编码模块，将输入的台词语句映射成字符嵌入向量，并对所述字符嵌入向量进行编码，得到字符编码向量。

在一些实施例中，所述情感标记嵌入模块关联至少一个情感标记分别对应的情感强度系数，所述情感强度系数用于情感强度调整；以及在所述情感语音合成模型的应用阶段，所述情感语音合成模型的第二处理过程包括：利用所述情感标记嵌入模块，在将输入的情感标记映射成情感嵌入向量后，将该情感嵌入向量与该情感标记对应的情感强度系数的乘积，确定为经情感强度调整后的情感嵌入向量。

在一些实施例中，声谱图包括，梅尔频率声谱图。

第三方面，本说明书实施例提供了一种情感语音合成方法，包括：获取待合成语音的文本信息和其对应的情感标记；将所述文本信息和所述情感标记，输入采用如第二方面中任一实现方式描述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据。

第四方面，本说明书实施例提供了一种情感语音合成方法，应用于客户端，包括：获取待合成语音的文本信息和其对应的情感标记；将所述文本信息和所述情感标记发送至语音合成端，使得所述语音合成端将所述文本信息和所述情感标记，输入采用如第二方面中任一实现方式描述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据。

第五方面，本说明书实施例提供了一种基于直播的情感语音合成方法，应用于主播客户端，包括：获取直播的虚拟主播的配音文本，以及所述配音文本对应的情感标记；将所述配音文本和所述情感标记发送至服务端，使得所述服务端将所述配音文本和所述情感标记，输入采用如第二方面中任一实现方式描述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；经由所述服务端，将所述情感语音数据提供给相应的观众客户端。

第六方面，本说明书实施例提供了一种基于电子书的情感语音合成方法，包括：获取电子书中的目标文本，以及所述目标文本对应的情感标记；将所述目标文本和所述情感标记输入采用如第二方面中任一实现方式描述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；基于电子书客户端提供所述情感语音数据。

第七方面，本说明书实施例提供了一种基于视频的情感语音合成方法，包括：获取待配音的视频的配音文本，以及所述配音文本对应的情感标记；将所述配音文本和所述情感标记，输入采用如第二方面中任一实现方式描述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；基于视频客户端提供所述情感语音数据。

第八方面，本说明书实施例提供了一种语音合成模型，包括：声谱预测网络，用于根据输入的目标发声对象的目标身份信息，以及所述目标发声对象的情感语音数据样本对应的台词语句和情感标记，预测声谱图；声码器，用于根据所述声谱预测网络预测出的声谱图，生成时域波形。

在一些实施例中，所述声谱预测网络关联至少一个情感标记分别对应的情感强度系数，所述情感强度系数用于情感强度调整；以及在模型应用阶段，所述声谱预测网络还用于：根据输入的情感标记所对应的情感强度系数，进行情感强度调整。

在一些实施例中，所述声谱预测网络包括：编码器，用于将输入的目标身份信息、台词语句和情感标记，分别转换成向量，并对转换所得的向量进行拼接,得到拼接向量；解码器，用于根据所述拼接向量，预测声谱图。

在一些实施例中，所述编码器包括：情感标记嵌入模块，用于将输入的情感标记映射成情感嵌入向量；身份嵌入模块，用于将输入的目标身份信息映射成身份嵌入向量；字符编码模块，用于将输入的台词语句映射成字符嵌入向量，并对所述字符嵌入向量进行编码，得到字符编码向量。

在一些实施例中，所述情感标记嵌入模块关联至少一个情感标记分别对应的情感强度系数，所述情感强度系数用于情感强度调整；以及在模型应用阶段，所述情感标记嵌入模块还用于：在将输入的情感标记映射成情感嵌入向量后，将该情感嵌入向量与该情感标记对应的情感强度系数的乘积，确定为经情感强度调整后的情感嵌入向量。

第九方面，本说明书实施例提供了一种语音数据的处理装置，包括：获取单元，被配置成获取目标发声对象的多条第一情感语音数据，所述多条第一情感语音数据对应多条台词语句，所述多条台词语句对应至少一个情感标记，其中，第一情感语音数据通过对所述目标发声对象读出相应的台词语句时发出的声音进行录制而得到；调整单元，被配置成对至少一条第一情感语音数据的目标声音要素进行调整，得到第二情感语音数据；生成单元，被配置成将所述多条第一情感语音数据和所述第二情感语音数据，合并成所述目标发声对象的情感语音数据集。

第十方面，本说明书实施例提供了一种模型处理装置，包括：获取单元，被配置成获取目标发声对象的目标身份信息和情感语音数据集，以及所述情感语音数据集中的情感语音数据样本对应的台词语句和情感标记；模型训练单元，被配置成将所述目标身份信息、所述台词语句和情感标记作为输入，将所述情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，得到情感语音合成模型。

第十一方面，本说明书实施例提供了一种情感语音合成装置，包括：获取单元，被配置成获取待合成语音的文本信息和其对应的情感标记；语音合成单元，被配置成将所述文本信息和所述情感标记，输入采用如第二方面中任一实现方式描述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据。

第十二方面，本说明书实施例提供了一种情感语音合成装置，应用于客户端，包括：获取单元，被配置成获取待合成语音的文本信息和其对应的情感标记；发送单元，被配置成将所述文本信息和所述情感标记发送至语音合成端，使得所述语音合成端将所述文本信息和所述情感标记，输入采用如第二方面中任一实现方式描述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据。

第十三方面，本说明书实施例提供了一种基于直播的情感语音合成装置，应用于主播客户端，包括：获取单元，被配置成获取直播的虚拟主播的配音文本，以及所述配音文本对应的情感标记；发送单元，被配置成将所述配音文本和所述情感标记发送至服务端，使得所述服务端将所述配音文本和所述情感标记，输入采用如第二方面中任一实现方式描述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；处理单元，被配置成经由所述服务端，将所述情感语音数据提供给相应的观众客户端。

第十四方面，本说明书实施例提供了一种基于电子书的情感语音合成装置，包括：获取单元，被配置成获取电子书中的目标文本，以及所述目标文本对应的情感标记；语音合成单元，被配置成将所述目标文本和所述情感标记输入采用如第二方面中任一实现方式描述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；处理单元，被配置成基于电子书客户端提供所述情感语音数据。

第十五方面，本说明书实施例提供了一种基于视频的情感语音合成装置，包括：获取单元，被配置成获取待配音的视频的配音文本，以及所述配音文本对应的情感标记；语音合成单元，被配置成将所述配音文本和所述情感标记，输入采用如第二方面中任一实现方式描述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；处理单元，被配置成基于视频客户端提供所述情感语音数据。

第十六方面，本说明书实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令该计算机执行如第一方面至第七方面中任一实现方式描述的方法。

第十七方面，本说明书实施例提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现如第一方面至第七方面中任一实现方式描述的方法。

第十八方面，本说明书实施例提供了一种计算机程序，当所述计算机程序在计算机中执行时，令计算机执行如第一方面至第七方面中任一实现方式描述的方法。

本说明书的上述实施例提供的方法及装置，通过获取目标发声对象的多条第一情感语音数据，而后对至少一条第一情感语音数据的目标声音要素进行调整，得到第二情感语音数据，以便将该多条第一情感语音数据和第二情感语音数据，合并成目标发声对象的数据规模较大的情感语音数据集。之后，通过将目标发声对象的目标身份信息，以及该情感语音数据集中的情感语音数据样本对应的台词语句和情感标记作为输入，将该情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，能得到具有较好的情感语音合成效果的情感语音合成模型。此后，在应用阶段，该情感语音合成模型可以根据输入的文本信息和情感标记，合成具有情感表现力的语音数据。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本说明书的一些实施例可以应用于其中的一个示例性系统架构图；

图2是根据本说明书的语音数据的处理方法的一个实施例的流程图；

图3是根据本说明书的模型处理方法的一个实施例的流程图；

图4a是待训练的语音合成模型的第一处理过程的一个示意图；

图4b是声谱预测网络的处理过程的一个示意图；

图4c是编码器的处理过程的一个示意图；

图5是根据本说明书的情感语音合成方法的一个实施例的流程图；

图6是根据本说明书的情感语音合成方法的一个实施例的示意图；

图7是情感语音合成方法在直播场景中的一个示意图；

图8是情感语音合成方法在有声阅读场景中的一个示意图；

图9是情感语音合成方法在视频配音场景中的一个示意图；

图10是根据本说明书的语音数据的处理装置的一个结构示意图；

图11是根据本说明书的模型处理装置的一个结构示意图；

图12是根据本说明书的情感语音合成装置的一个结构示意图；

图13是根据本说明书的情感语音合成装置的一个结构示意图；

图14是根据本说明书的基于直播的情感语音合成装置的一个结构示意图；

图15是根据本说明书的基于电子书的情感语音合成装置的一个结构示意图；

图16是根据本说明书的基于视频的情感语音合成装置的一个结构示意图。

具体实施方式

下面结合附图和实施例对本说明书作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本说明书中的实施例及实施例中的特征可以相互组合。另外，本说明书中的“第一”、“第二”等词，仅用于信息区分，不起任何限定作用。

本说明书的一些实施例分别提供了语音数据的处理方法、模型处理方法、情感语音合成方法，可以实现对有情感表现力的语音数据的合成。具体地，图1示出了适用于这些实施例的示例性系统架构图。

如图1所示，其示出了样本管理系统、模型训练系统、语音合成系统和客户端。其中，样本管理系统和模型训练系统，可以是同一个系统，也可以是不同的系统，在此不做具体限定。

样本管理系统可以获取目标发声对象的多条第一情感语音数据，并根据该多条第一情感语音数据建立目标发声对象的情感语音数据集。该情感语音数据集中的情感语音数据，可以作为情感语音数据样本。

其中，目标发声对象通常是自然人。上述多条第一情感语音数据对应多条台词语句，该多条台词语句对应至少一个情感标记。需要指出，上述多条第一情感语音数据和该多条台词语句可以具有一一对应关系。

实践中，上述多条第一情感语音数据和上述至少一个情感标记也具有对应关系。具体地，台词语句具有相应的情感标记所指示的情感，相应地，该台词语句对应的第一情感语音数据，也具有该情感标记所指示的情感。

台词语句可以是任意角色所说的话语。另外，台词语句可以包括以下任一种作品中的台词：文字作品、戏剧作品、影视剧作品等。应该理解，该角色可以是该任一种作品中的角色。而且，该角色可以是人物角色或动物角色等，在此不做具体限定。其中，文字作品可以包括小说和/或剧本等。戏剧作品可以包括话剧、歌剧、地方戏剧和/或广播剧等。影视剧作品可以包括电影作品和/或电视剧作品等。

进一步地，台词语句可以包括独白语句、旁白语句或对白语句等。独白语句通常是任意角色独自抒发感情或表达个人愿望的话。旁白语句通常是任意角色背着其他角色对观众说的话。对白语句通常是角色之间的对话。通常，对白语句具有较强的情感，因此，台词语句可以具体包括，对白语句。

本说明书中的情感标记，可以是用于表示任意情感的标记。具体地，上述至少一个情感标记可以包括中性、积极情感和/或消极情感。该积极情感可以包括兴奋、舒缓、高兴和/或崇拜等等。该消极情感可以包括悲伤、愤怒、厌恶和/或害怕等等。可选地，该中性可以包括惊讶、无聊和/或乏力等等。

上述多条第一情感语音数据中的第一情感语音数据，是目标发声对象的有情感表现力的语音数据，通过对目标发声对象读出相应的台词语句时发出的声音进行录制而得到。

在模型训练阶段，模型训练系统可以将目标发声对象的目标身份信息，以及上述情感语音数据集中的情感语音数据样本对应的台词语句和情感标记作为输入，将该情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，得到情感语音合成模型。其中，目标身份信息可以包括任何用于指示目标发声对象的身份的信息，例如可以包括但不限于，目标发声对象的用户标识、身份证号、员工号和/或电话号码等等，在此不做具体限定。

在获得情感语音合成模型后，可以将其应用于语音合成系统。具体地，在模型应用阶段，语音合成系统例如可以从客户端获取待合成语音的文本信息，以及该文本信息对应的情感标记，并将该文本信息和该情感标记输入该情感语音合成模型，使得该情感语音合成模型输出合成的情感语音数据。之后，语音合成系统可以将情感语音数据提供给该客户端，使得该客户端向用户播放该情感语音数据，和/或将该情感语音数据提供给除该客户端以外的其他客户端，使得该其他客户端向用户播放该情感语音数据。

其中，语音合成系统可以应用于不同的场景，例如直播场景、有声阅读场景和/或视频配音场景等。在直播场景中，待合成语音的文本信息可以包括虚拟主播的配音文本，该配音文本的来源客户端可以包括主播客户端，上述其他客户端可以包括观众客户端。在有声阅读场景中，待合成语音的文本信息可以包括电子书中的目标文本，该目标文本可以是电子书中的任意一个文本，在此不做具体限定。另外，该目标文本的来源客户端可以包括电子书客户端。在视频配音场景中，待合成语音的文本信息可以包括待配音的视频的配音文本，该配音文本的来源客户端可以包括视频客户端。

下面，结合具体的实施例，描述上述方法的具体实施步骤。

参看图2，其示出了语音数据的处理方法的一个实施例的流程200。该方法的执行主体可以为图1所示的样本管理系统。该方法包括以下步骤：

步骤201，获取目标发声对象的多条第一情感语音数据，多条第一情感语音数据对应多条台词语句，多条台词语句对应至少一个情感标记，其中，第一情感语音数据通过对目标发声对象读出相应的台词语句时发出的声音进行录制而得到；

步骤202，对至少一条第一情感语音数据的目标声音要素进行调整，得到第二情感语音数据；

步骤203，将多条第一情感语音数据和第二情感语音数据，合并成目标发声对象的情感语音数据集。

下面，对以上步骤做进一步说明。

在步骤201中，上述多条第一情感语音数据可以是负责语音录制的相关人员上传至样本管理系统的。其中，该相关人员与目标发声对象可以是同一个人，也可以是不同的人，在此不做具体限定。

另外，上述多条台词语句，可以是人工挑选的，也可以是非人工挑选的，在此不做具体限定。

可选地，在步骤201之前，上述执行主体可以获取至少一个文本，其中的文本中存在台词语句。而后，对于上述至少一个情感标记中的情感标记，可以从该至少一个文本中，提取出多条具有该情感标记所指示的情感的台词语句。然后，可以将提取出的台词语句提供给目标发声对象，以使目标发声对象读出该提取出的台词语句，从而获得上述多条第一情感语音数据。其中，情感标记可以预先对应台词提取规则，可以根据该台词提取规则，从上述至少一个文本中提取出多条具有该情感标记所指示的情感的台词语句。应该理解，台词提取规则可以根据实际需求设置，在此不做具体限定。

需要指出，通过采用此种非人工挑选的方式，可以快速获得上述至少一个情感标记分别对应的台词语句。相较于人工挑选方式，能有效地节约人工成本和时间成本。

需要说明的是，上述至少一个文本中的文本，可以来源于前文中罗列的任意一种作品。

实践中，对于语音合成模型来说，数据规模越大，整体合成效果越好。但因对情感表现力、情感强度控制等要求严格，往往只能采用同一个人的不同情感语音数据，并且数据规模有限。而台词语句，尤其是对白语句，又口语化又有情感。对于上述至少一个情感标记中的每个情感标记，针对该情感标记挑选多个(例如500-1000个等)台词语句，在较短的时间内便可以完成录音，由此可以有效地控制成本。

在获得目标发声对象的经录制所得的上述多条第一情感语音数据后，为了扩充目标发声对象的情感语音数据样本，可以通过执行步骤202，实现样本扩充。

具体地，在步骤202中，可以对上述多条第一情感语音数据中的至少一条第一情感语音数据的目标声音要素进行调整，得到第二情感语音数据。应该理解，第二情感语音数据是经调整后的第一情感语音数据。其中，目标声音要素是与声音的特性有关的要素。进一步地，目标声音要素例如可以包括语速和/或语调等等。

在步骤203中，可以将上述多条第一情感语音数据和第二情感语音数据，合并成情感语音数据集。

此外，上述执行主体还可以将目标发声对象的情感语音数据集存放到指定的数据库，而且，还可以将与该情感语音数据集有关的对应关系信息存放至数据库。其中，该对应关系信息用于表征该情感语音数据集中的情感语音数据与台词语句和情感标记之间的对应关系。

本实施例提供的语音数据的处理方法，通过获取目标发声对象的经录制所得的多条第一情感语音数据，而后对至少一条第一情感语音数据的目标声音要素进行调整，得到第二情感语音数据，能实现对目标发声对象的情感语音数据样本的扩充。然后，可以将该多条第一情感语音数据和第二情感语音数据，合并成目标发声对象的数据规模较大的情感语音数据集。该情感语音数据集中的情感语音数据，以及该情感语音数据对应的台词语句和情感标记，能用于训练得到具有较好的情感语音合成效果的情感语音合成模型。

下面，进一步介绍情感语音数据集在模型训练阶段的应用。

参看图3，其示出了模型处理方法的一个实施例的流程300。该方法的执行主体可以为图1所示的模型训练系统。该方法包括以下步骤：

步骤301，获取目标发声对象的目标身份信息和情感语音数据集，以及情感语音数据集中的情感语音数据样本对应的台词语句和情感标记；

步骤302，将目标身份信息、台词语句和情感标记作为输入，将情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，得到情感语音合成模型。

下面，对以上步骤做进一步说明。

在步骤301中，目标发声对象的目标身份信息和情感语音数据集，以及情感语音数据集中的情感语音数据样本对应的台词语句和情感标记，可以从样本管理系统接收，也可以从如前所述的数据库中获取，在此不做具体限定。

在步骤302中，可以将目标身份信息，以及情感语音数据集中的情感语音数据样本对应的台词语句和情感标记作为输入，将该情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，得到情感语音合成模型。

实践中，上述待训练的语音合成模型可以是经预训练后的模型。具体地，上述待训练的语音合成模型可以通过以下方式进行预训练：将至少一个样本发声对象的样本身份信息和文本信息作为输入，将该样本发声对象读出该文本信息的语音数据作为训练标签，对初始语音合成模型进行训练，其中，该样本发声对象通常是自然人，并且不同于目标发声对象。其中，样本身份信息所包括的信息项与目标身份信息中的类似，在此不再赘述。基于此，通过对经预训练后的语音合成模型进行训练，得到情感语音合成模型，可以大大降低目标发声对象的情感语音数据量。

通常，初始语音合成模型可以是未经训练的语音合成模型。其中，在对初始语音合成模型进行预训练时，不用向该模型输入情感标记。因此，上述至少一个样本发声对象的语音数据可以视为无情感语音数据。

需要说明的是，在对初始语音合成模型进行预训练时，虽然未向该模型输入情感标记，但该模型可以预先关联如前所述的至少一个情感标记，以及从该至少一个情感标记中，为输入的文本信息随机分配情感标记。采用此种预训练方法训练所得的上述待训练的语音合成模型，能保证语音可懂度。

可选地，上述待训练的语音合成模型可以包括但不限于声谱预测网络，以及声码器。其中，声谱预测网络可以是用于预测声谱图的神经网络，声码器可以是用于将声谱图转换成时域波形的神经网络。通常，声谱预测网络可以引入注意力机制，该注意力机制例如可以包括，基于位置敏感的注意力机制。通过引入该注意力机制，可以使用之前解码处理的累积注意力权重作为一个额外的特征，因此使得模型在沿着输入序列向前移动的时候保持前后一致，减少了解码过程中潜在的子序列重复或遗漏。

进一步地，声谱预测网络用于根据输入的目标身份信息、台词语句和情感标记，预测声谱图。声码器用于根据该声谱图，生成时域波形。基于此，在模型训练阶段，上述待训练的语音合成模型的第一处理过程可以包括：利用声谱预测网络，根据输入的目标身份信息、台词语句和情感标记，预测声谱图；利用声码器，根据声谱预测网络预测出的声谱图，生成时域波形。如图4a所示，其是上述待训练的语音合成模型的第一处理过程的一个示意图。

具体地，在模型训练阶段，声谱预测网络可以将输入的目标身份信息、台词语句和情感标记分别转换成向量，并对转换所得的向量进行拼接，得到拼接向量，以及根据该拼接向量，预测声谱图。

需要指出，本说明书中的声谱图是随着时间变化的频谱图。该声谱图例如可以包括但不限于，梅尔频率声谱图。通常，梅尔频率声谱图可称为梅尔频谱，并且可以利用梅尔标度滤波器组对相应的原始声谱图进行变换而获得。

可选地，声谱预测网络可以关联至少一个情感标记分别对应的情感强度系数。在情感语音合成模型的应用阶段，声谱预测网络可以根据输入的情感标记所对应的情感强度系数，进行情感强度调整。基于此，在情感语音合成模型的应用阶段，情感语音合成模型的第二处理过程可以包括：利用声谱预测网络，根据输入的情感标记所对应的情感强度系数，进行情感强度调整。

具体地，对于输入的情感标记，声谱预测网络可以先将该情感标记映射成情感嵌入向量，而后将该情感嵌入向量与该情感标记对应的情感强度系数的乘积，确定为经情感强度调整后的情感嵌入向量。基于此，在情感语音合成模型的应用阶段，可以实现对情感强度的有效控制。

上述情感强度系数例如可以处于[0.01,2]内。另外，上述情感强度系数的默认值可以为1。对于任意一个情感标记，当该情感标记对应的情感强度系数的值为0.01时，致使该情感标记所指示的情感略有倾向。当该情感强度系数的值为2时，致使默认情感强度加倍。

可选地，声谱预测网络可以包括但不限于编码器和解码器。该解码器可以引入如前所述的注意力机制。其中，编码器用于将输入的目标身份信息、台词语句和情感标记，分别转换成向量，并对转换所得的向量进行拼接,以及将所得的拼接向量输入解码器。解码器用于根据该拼接向量，预测声谱图。基于此，上述第一处理过程可以进一步包括：利用编码器，将输入的目标身份信息、台词语句和情感标记，分别转换成向量，并对转换所得的向量进行拼接,得到拼接向量；利用解码器，根据该拼接向量，预测声谱图。如图4b所示，其是上述第一处理过程中声谱预测网络的处理过程的一个示意图。

进一步地，编码器可以包括但不限于情感标记嵌入模块、身份嵌入模块和字符编码模块。其中，情感标记嵌入模块用于将输入的情感标记映射成情感嵌入向量。身份嵌入模块用于将输入的目标身份信息映射成身份嵌入向量。字符编码模块，用于将输入的台词语句映射成字符嵌入向量，并对字符嵌入向量进行编码，得到字符编码向量。基于此，上述第一处理过程可以进一步包括：利用情感标记嵌入模块，将输入的情感标记映射成情感嵌入向量；利用身份嵌入模块，将输入的目标身份信息映射成身份嵌入向量；利用字符编码模块，将输入的台词语句映射成字符嵌入向量。如图4c所示，其是上述第一处理过程中编码器的处理过程的一个示意图。

应该理解，在模型训练阶段，情感标记嵌入模块、身份嵌入模块和字符编码模块分别输出的向量，用于拼接成如前所述的拼接向量。

进一步地，情感标记嵌入模块可以关联至少一个情感标记分别对应的情感强度系数，该情感强度系数用于情感强度调整。在情感语音合成模型的应用阶段，情感标记嵌入模块还可以用于：在将输入的情感标记映射成情感嵌入向量后，将该情感嵌入向量与该情感标记对应的情感强度系数的乘积，确定为经情感强度调整后的情感嵌入向量。基于此，上述第二处理过程可以进一步包括：利用情感标记嵌入模块，在将输入的情感标记映射成情感嵌入向量后，将该情感嵌入向量与该情感标记对应的情感强度系数的乘积，确定为经情感强度调整后的情感嵌入向量。由此，在情感语音合成模型的应用阶段，可以实现对情感强度的有效控制。

可选地，对上述待训练的语音合成模型进行训练可以包括：对声谱预测网络进行训练。应该理解，在上述待训练的语音合成模型中的声码器具有较高的准度的情况下，可以仅对上述待训练的语音合成模型中的声谱预测网络进行训练。

作为一种实现方式，对上述待训练的语音合成模型进行训练具体包括：基于作为训练标签的情感语音数据样本，以及声谱预测网络预测出的声谱图，确定预测损失，以预测损失减小为目标，调整声谱预测网络中的网络参数。其中，该预测损失，可以是该情感语音数据样本的声谱图和该预测出的声谱图的不一致程度。

作为另一种实现方式，对上述待训练的语音合成模型进行训练具体包括：基于作为训练标签的情感语音数据样本，以及声码器生成的时域波形，确定预测损失，以预测损失减小为目标，调整声谱预测网络中的网络参数。其中，该预测损失，可以是该情感语音数据样本的时域波形和声码器生成的时域波形的不一致程度。

可选地，除了对声谱预测网络进行训练外，还可以对声码器进行训练。例如，可以将情感语音数据集中的情感语音数据样本的声谱图作为输入，将该情感语音数据样本的时域波形作为训练标签，对声码器进行训练。

可选地，上述待训练的语音合成模型可以采用对Tacotron2架构进行改进后的架构。其中，Tacotron2是基于深度学习的端到端语音合成模型。实践中，Tacotron2架构包括声谱预测网络、声码器和中间连接层。该声谱预测网络，是一个引入注意力机制的基于循环的Seq2seq的特征预测网络，用于从输入的字符序列预测梅尔频谱的帧序列。声码器，是一个WaveNet(波网)的修订版本，用于根据预测的梅尔频谱帧序列生成时域波形样本。中间连接层，使用低层次的声学表征-梅尔频率声谱图来衔接声谱预测网络和声码器。

其中，Seq2seq是一种循环神经网络的变种,包括编码器(Encoder)和解码器(Decoder)。WaveNet是一个用于生成原始音频的深度神经网络。

在Tacotron2架构中，声谱预测网络包括编码器和解码器等。其中，编码器仅包括字符编码模块。该字符编码模块通常包括字符嵌入层、3个卷积层和一个双向LSTM(LongShort-Term Memory，长短期记忆网络)。

在一些实施例中，可以通过在Tacotron2架构中的编码器中，增加如前所述的情感标记嵌入模块和身份嵌入模块，来实现对Tacotron2架构的改进。其中，增加情感标记嵌入模块和身份嵌入模块后的Tacotron2改进架构，可以作为上述待训练的语音合成模型的架构。

本实施例提供的模型处理方法，通过获取目标发声对象的目标身份信息和情感语音数据集，以及情感语音数据集中的情感语音数据样本对应的台词语句和情感标记，而后将目标身份信息、该台词语句和情感标记作为输入，将该情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，以便得到具有较好的情感语音合成效果的情感语音合成模型。

下面，接着介绍情感语音合成模型在应用阶段的相关内容。

参看图5，其示出了情感语音合成方法的一个实施例的流程500。该方法的执行主体可以为图1所示的语音合成系统。该方法包括以下步骤：

步骤501，获取待合成语音的文本信息和其对应的情感标记；

步骤502，将文本信息和情感标记，输入情感语音合成模型，使得情感语音合成模型输出合成的情感语音数据。

其中，本实施例中的情感语音合成模型，是采用图3对应的实施例描述的方法训练得到的。

需要说明的是，在本实施例中，待合成语音的文本信息可以是任意类别的文本信息，例如前文中所述的配音文本，或者电子书中的目标文本等，在此不做具体限定。

需要指出，根据前文中的描述，情感语音合成模型可以包括声谱预测网络，以及声码器。声谱预测网络可以包括编码器和解码器。编码器可以包括情感标记嵌入模块、身份嵌入模块和字符编码模块。

在应用阶段，将待合成语音的文本信息和其对应的情感标记，作为情感语音合成模型的输入。具体地，情感标记作为情感标记嵌入模块的输入，情感标记嵌入模块根据输入的情感标记，输出情感嵌入向量。待合成语音的文本信息作为字符编码模块的输入，字符编码模块根据输入的文本信息，输出字符编码向量。应该理解，情感嵌入向量和字符编码向量经拼接后所得的拼接向量，作为解码器的输入。

对于情感标记嵌入模块，可以有不同的实现方式。

作为一种实现方式，情感标记嵌入模块可以将输入的情感标记映射成情感嵌入向量，并输出该情感嵌入向量。

作为另一种实现方式，情感标记嵌入模块可以关联至少一个情感标记分别对应的情感强度系数，该情感强度系数用于情感强度调整。情感标记嵌入模块可以进一步用于：在将输入的情感标记映射成情感嵌入向量后，将该情感嵌入向量与该情感标记对应的情感强度系数的乘积，确定为经情感强度调整后的情感嵌入向量，并输出该经情感强度调整后的情感嵌入向量。应该理解，该经情感强度调整后的情感嵌入向量用于与相应的字符编码向量进行拼接。通过采用该实现方式，可以实现对情感强度的有效控制。

本实施例提供的情感语音合成方法，通过获取待合成语音的文本信息和其对应的情感标记，而后将文本信息和情感标记，输入情感语音合成模型，能使得情感语音合成模型合成具有情感表现力的语音数据。而且，无须输入额外信息，例如参考音频，便可以对合成效果、情感强度进行有效控制。

进一步参看图6，其是情感语音合成方法的一个实施例的示意图。该实施例示出了客户端(如图1所示的客户端)与语音合成端(如图1所示的语音合成系统)之间的交互过程。

如图6所示，情感语音合成方法可以包括以下步骤：

步骤601，客户端获取待合成语音的文本信息和其对应的情感标记；

步骤602，客户端将文本信息和情感标记发送至语音合成端；

步骤603，语音合成端将文本信息和情感标记，输入情感语音合成模型，使得情感语音合成模型输出合成的情感语音数据。

其中，在步骤601中，客户端可以响应于用户的针对待合成语音的文本信息的语音合成指令，而获取该文本信息和其对应的情感标记。该语音合成指令可以包括该文本信息或该文本信息的文本标识，该文本标识可以预先对应该情感标记。

可选地，语音合成指令可以包括情感标记，以及以下任一项：待合成语音的文本信息、该文本信息的文本标识。其中，该情感标记可以是用户针对该文本信息选择的情感标记。

在步骤603中，语音合成端利用情感语音合成模型，根据文本信息和情感标记合成情感语音数据。其中，情感语音合成模型是采用图3对应的实施例描述的方法训练得到的。

可选地，在步骤603之后，语音合成端可以将情感语音数据提供给客户端，和/或将情感语音数据提供给除该客户端以外的其他客户端。

图6对应的实施例描述的语音合成方法，通过客户端获取待合成语音的文本信息和其对应的情感标记，而后将文本信息和情感标记发送至语音合成端，使得语音合成端将文本信息和情感标记，输入情感语音合成模型，能使得情感语音合成模型输出个性化的情感语音数据，该情感语音数据具有较强的情感表现力。

图6对应的实施例描述的语音合成方法，可以应用于不同的场景，例如直播场景、有声阅读场景和/或视频配音场景等。

作为示例，在直播场景中，待合成语音的文本信息例如可以包括直播的虚拟主播的配音文本。如图7所示，其示出了情感语音合成方法在直播场景中的一个示意图。具体地，在直播场景中，情感语音合成方法可以包括：步骤701，主播客户端获取直播的虚拟主播的配音文本，以及配音文本对应的情感标记；步骤702，主播客户端将配音文本和情感标记发送至服务端；步骤703，服务端将配音文本和情感标记，输入如前所述的情感语音合成模型，使得情感语音合成模型输出合成的情感语音数据；步骤704，服务端将情感语音数据提供给相应的观众客户端。其中，该情感语音数据作为虚拟主播的配音语音数据。服务端包括如前所述的语音合成端。该观众客户端可以是，观看该配音文本对应的直播的观众用户的客户端。在直播过程中，该观众客户端可以向其所属的观众用户播放该情感语音数据。

可选地，在步骤704中，服务端可以响应于从主播客户端接收到与情感语音数据有关的播放请求，而将该情感语音数据提供给相应的观众客户端。

可选地，服务端还可以将情感语音数据提供给主播客户端，使得主播客户端向用户播放该情感语音数据。

在有声阅读场景中，待合成语音的文本信息例如可以包括电子书中的任意一个文本。如图8所示，其示出了情感语音合成方法在有声阅读场景中的一个示意图。具体地，在有声阅读场景中，情感语音合成方法可以包括：步骤801，电子书客户端获取电子书中的目标文本，以及目标文本对应的情感标记；步骤802，电子书客户端将目标文本和情感标记发送至语音合成端；步骤803，语音合成端将目标文本和情感标记输入如前所述的情感语音合成模型，使得情感语音合成模型输出合成的情感语音数据；步骤804，语音合成端将情感语音数据提供给电子书客户端，使得电子书客户端向用户提供该情感语音数据。其中，该情感语音数据作为目标文本对应的语音数据。目标文本可以是用户在电子书中选择的待进行有声阅读的文本。另外，目标文本的文本类别例如可以包括小说、散文或诗歌等。

在视频配音场景中，待合成语音的文本信息例如可以包括待配音的视频的配音文本。如图9所示，其示出了情感语音合成方法在视频配音场景中的一个示意图。具体地，在视频配音场景中，情感语音合成方法可以包括：步骤901，视频客户端获取待配音的视频的配音文本，以及配音文本对应的情感标记；步骤902，视频客户端将配音文本和情感标记发送至语音合成端；步骤903，语音合成端将配音文本和情感标记，输入如前所述的情感语音合成模型，使得情感语音合成模型输出合成的情感语音数据；步骤904，语音合成端将情感语音数据提供给视频客户端，使得视频客户端向用户提供该情感语音数据。其中，该情感语音数据作为待配音的视频的配音语音数据。

以上仅对情感语音合成方法在直播场景、有声阅读场景和视频配音场景中的应用，进行了举例说明，对于情感语音合成方法在其他场景中的应用，可以根据以上已描述的示例类推得到，在此不再一一举例说明。

进一步参考图10，本说明书提供了一种语音数据的处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置可以应用于如图1所示的样本管理系统。

如图10所示，本实施例的语音数据的处理装置1000包括：获取单元1001、调整单元1002和生成单元1003。其中，获取单元1001被配置成获取目标发声对象的多条第一情感语音数据，该多条第一情感语音数据对应多条台词语句，该多条台词语句对应至少一个情感标记，其中，第一情感语音数据通过对目标发声对象读出相应的台词语句时发出的声音进行录制而得到；调整单元1002被配置成对至少一条情感语音数据的目标声音要素进行调整，得到第二情感语音数据；生成单元1003被配置成将该多条第一情感语音数据和第二情感语音数据，合并成目标发声对象的情感语音数据集。

可选地，目标声音要素可以包括语速和/或语调等。

可选地，台词语句可以包括以下任一种作品中的台词：文字作品、戏剧作品、影视剧作品。

可选地，上述至少一个情感标记可以包括以下至少一项：中性、积极情感、消极情感等等。其中，积极情感可以包括以下至少一项：兴奋、舒缓、高兴、崇拜等。消极情感可以包括以下至少一项：悲伤、愤怒、厌恶、害怕等。

可选地，获取单元1001还可以被配置成：获取至少一个文本；以及上述装置1000还可以包括：提取单元(图中未示出)，被配置成对于上述至少一个情感标记中的情感标记，从该至少一个文本中，提取出多条具有该情感标记所指示的情感的台词语句；发送单元(图中未示出)，被配置成将提取出的台词语句提供给目标发声对象，以使目标发声对象读出该提取出的台词语句，从而获得上述多条第一情感语音数据。

进一步参考图11，本说明书提供了一种模型处理装置的一个实施例，该装置实施例与图3所示的方法实施例相对应，该装置可以应用于如图1所示的模型训练系统。

如图11所示，本实施例的模型处理装置1100包括：获取单元1101和模型训练单元1102。其中，获取单元1101被配置成获取目标发声对象的目标身份信息和情感语音数据集，以及情感语音数据集中的情感语音数据样本对应的台词语句和情感标记；模型训练单元1102被配置成将目标身份信息、该台词语句和情感标记作为输入，将该情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，得到情感语音合成模型。

可选地，待训练的语音合成模型，通过以下方式进行预训练：将至少一个样本发声对象的样本身份信息和文本信息作为输入，将该样本发声对象读出该文本信息的语音数据作为训练标签，对初始语音合成模型进行训练，其中，该样本发声对象不同于目标发声对象。

可选地，待训练的语音合成模型可以包括：声谱预测网络和声码器，待训练的语音合成模型的第一处理过程包括：利用声谱预测网络，根据输入的目标身份信息、台词语句和情感标记，预测声谱图；利用声码器，根据声谱预测网络预测出的声谱图，生成时域波形。

可选地，模型训练单元1102可以进一步被配置成：对声谱预测网络进行训练。

可选地，模型训练单元1102可以进一步被配置成：基于时域波形和情感语音数据样本，确定预测损失，以预测损失减小为目标，调整声谱预测网络中的网络参数。

可选地，声谱预测网络可以关联至少一个情感标记分别对应的情感强度系数，该情感强度系数用于情感强度调整；以及在情感语音合成模型的应用阶段，情感语音合成模型的第二处理过程可以包括：利用声谱预测网络，根据输入的情感标记所对应的情感强度系数，进行情感强度调整。

可选地，声谱预测网络可以包括编码器和解码器；以及上述第一处理过程可以进一步包括：利用编码器，将输入的目标身份信息、台词语句和情感标记，分别转换成向量，并对转换所得的向量进行拼接,得到拼接向量；利用解码器，根据该拼接向量，预测声谱图。

可选地，编码器可以包括情感标记嵌入模块、身份嵌入模块和字符编码模块；以及上述第一处理过程可以具体包括：利用情感标记嵌入模块，将输入的情感标记映射成情感嵌入向量；利用身份嵌入模块，将输入的目标身份信息映射成身份嵌入向量；利用字符编码模块，将输入的台词语句映射成字符嵌入向量，并对字符嵌入向量进行编码，得到字符编码向量。

可选地，情感标记嵌入模块可以关联至少一个情感标记分别对应的情感强度系数，该情感强度系数用于情感强度调整；以及在情感语音合成模型的应用阶段，情感语音合成模型的第二处理过程可以进一步包括：利用情感标记嵌入模块，在将输入的情感标记映射成情感嵌入向量后，将该情感嵌入向量与该情感标记对应的情感强度系数的乘积，确定为经情感强度调整后的情感嵌入向量。

可选地，声谱图可以包括，梅尔频率声谱图。

进一步参考图12，本说明书提供了一种情感语音合成装置的一个实施例，该装置实施例与图5所示的方法实施例相对应，该装置可以应用于如图1所示的语音合成系统。

如图12所示，本实施例的情感语音合成装置1200包括：获取单元1201和语音合成单元1202。其中，获取单元1201被配置成获取待合成语音的文本信息和其对应的情感标记；语音合成单元1202被配置成将该文本信息和该情感标记，输入采用如图3对应的实施例描述的方法训练所得的情感语音合成模型，使得情感语音合成模型输出合成的情感语音数据。

进一步参考图13，本说明书提供了一种情感语音合成装置的一个实施例，该装置实施例与图6所示的方法实施例相对应，该装置可以应用于如图1所示的客户端。

如图13所示，本实施例的情感语音合成装置1300包括：获取单元1301和发送单元1302。其中，获取单元1301被配置成获取待合成语音的文本信息和其对应的情感标记；发送单元1302被配置成将文本信息和情感标记发送至语音合成端，使得语音合成端将文本信息和情感标记，输入采用如图3对应的实施例描述的方法训练所得的情感语音合成模型，使得情感语音合成模型输出合成的情感语音数据。

进一步参考图14，本说明书提供了一种基于直播的情感语音合成装置的一个实施例，该装置实施例与图7所示的方法实施例相对应，该装置可以应用于直播场景中的主播客户端。

如图14所示，本实施例的情感语音合成装置1400包括：获取单元1401、发送单元1402和处理单元1403。其中，获取单元1401被配置成获取直播的虚拟主播的配音文本，以及该配音文本对应的情感标记；发送单元1402被配置成将该配音文本和该情感标记发送至服务端，使得服务端将该配音文本和该情感标记，输入采用如图3对应的实施例描述的方法训练所得的情感语音合成模型，使得情感语音合成模型输出合成的情感语音数据；处理单元1403被配置成经由服务端，将情感语音数据提供给相应的观众客户端。

进一步参考图15，本说明书提供了一种基于电子书的情感语音合成装置的一个实施例，该装置实施例与图8所示的方法实施例相对应，该装置可以应用于语音合成端(如图1所示的语音合成系统)。

如图15所示，本实施例的情感语音合成装置1500包括：获取单元1501、语音合成单元1502和处理单元1503。其中，获取单元1501被配置成获取电子书中的目标文本，以及该目标文本对应的情感标记；语音合成单元1502被配置成将该目标文本和该情感标记，输入采用如图3对应的实施例描述的方法训练所得的情感语音合成模型，使得情感语音合成模型输出合成的情感语音数据；处理单元1503被配置成基于电子书客户端提供情感语音数据。

进一步参考图16，本说明书提供了一种基于视频的情感语音合成装置的一个实施例，该装置实施例与图9所示的方法实施例相对应，该装置可以应用于语音合成端(如图1所示的语音合成系统)。

如图16所示，本实施例的情感语音合成装置1600包括：获取单元1601、语音合成单元1602和处理单元1603。其中，获取单元1601被配置成获取待配音的视频的配音文本，以及该配音文本对应的情感标记；语音合成单元1602被配置成将该配音文本和该情感标记，输入采用如图3对应的实施例描述的方法训练所得的情感语音合成模型，使得情感语音合成模型输出合成的情感语音数据；处理单元1603被配置成基于视频客户端提供情感语音数据。

在图10-16分别对应的装置实施例中，各个单元的具体处理及其带来的技术效果可参考前文中的方法实施例中的相关说明，在此不再赘述。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令计算机执行以上任一方法实施例描述的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现以上任一方法实施例描述的方法。

本说明书实施例还提供了一种计算机程序，当该计算机程序在计算机中执行时，令计算机执行以上任一方法实施例描述的方法。其中，该计算机程序例如可以包括APP(Application，应用程序)或小程序等。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种语音数据的处理方法，包括：

获取目标发声对象的多条第一情感语音数据，所述多条第一情感语音数据对应多条台词语句,所述多条台词语句对应至少一个情感标记，其中，第一情感语音数据通过对所述目标发声对象读出相应的台词语句时发出的声音进行录制而得到；

对至少一条第一情感语音数据的目标声音要素进行调整，得到第二情感语音数据；

将所述多条第一情感语音数据和所述第二情感语音数据，合并成所述目标发声对象的情感语音数据集。

2.根据权利要求1所述的方法，其中，所述目标声音要素包括语速和/或语调。

3.根据权利要求1所述的方法，其中，所述台词语句包括以下任一种作品中的台词：文字作品、戏剧作品、影视剧作品。

4.根据权利要求1所述的方法，其中，所述至少一个情感标记包括以下至少一项：中性、积极情感、消极情感。

5.根据权利要求4所述的方法，其中，

所述积极情感包括以下至少一项：兴奋、舒缓、高兴、崇拜；

所述消极情感包括以下至少一项：悲伤、愤怒、厌恶、害怕。

6.根据权利要求1-5之一所述的方法，其中，在所述获取目标发声对象的多条第一情感语音数据之前，所述方法还包括：

获取至少一个文本；

对于所述至少一个情感标记中的情感标记，从所述至少一个文本中，提取出多条具有该情感标记所指示的情感的台词语句；

将提取出的台词语句提供给所述目标发声对象，以使所述目标发声对象读出所述提取出的台词语句，从而获得所述多条第一情感语音数据。

7.一种模型处理方法，包括：

获取目标发声对象的目标身份信息和情感语音数据集，以及所述情感语音数据集中的情感语音数据样本对应的台词语句和情感标记；

将所述目标身份信息、所述台词语句和情感标记作为输入，将所述情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，得到情感语音合成模型。

8.根据权利要求7所述的方法，其中，所述待训练的语音合成模型通过以下方式进行预训练：

将至少一个样本发声对象的样本身份信息和文本信息作为输入，将所述样本发声对象读出所述文本信息的语音数据作为训练标签，对初始语音合成模型进行训练，其中，所述样本发声对象不同于所述目标发声对象。

9.根据权利要求7所述的方法，其中，所述待训练的语音合成模型包括声谱预测网络和声码器，所述待训练的语音合成模型的第一处理过程包括：

利用所述声谱预测网络，根据输入的目标身份信息、台词语句和情感标记，预测声谱图；

利用所述声码器，根据所述声谱预测网络预测出的声谱图，生成时域波形。

10.根据权利要求9所述的方法，其中，所述对待训练的语音合成模型进行训练，包括：

基于所述时域波形和所述情感语音数据样本，确定预测损失，以预测损失减小为目标，调整所述声谱预测网络中的网络参数。

11.根据权利要求9所述的方法，其中，所述声谱预测网络关联至少一个情感标记分别对应的情感强度系数，所述情感强度系数用于情感强度调整；以及

在所述情感语音合成模型的应用阶段，所述情感语音合成模型的第二处理过程包括：

利用所述声谱预测网络，根据输入的情感标记所对应的情感强度系数，进行情感强度调整。

12.根据权利要求9所述的方法，其中，所述声谱预测网络包括编码器和解码器；以及

所述利用所述声谱预测网络，根据输入的目标身份信息、台词语句和情感标记，预测声谱图，包括：

利用所述编码器，将输入的目标身份信息、台词语句和情感标记，分别转换成向量，并对转换所得的向量进行拼接,得到拼接向量；

利用所述解码器，根据所述拼接向量，预测声谱图。

13.根据权利要求12所述的方法，其中，所述编码器包括情感标记嵌入模块、身份嵌入模块和字符编码模块；以及

所述利用所述编码器，将输入的目标身份信息、台词语句和情感标记，分别转换成向量，包括：

利用所述情感标记嵌入模块，将输入的情感标记映射成情感嵌入向量；

利用所述身份嵌入模块，将输入的目标身份信息映射成身份嵌入向量；

利用所述字符编码模块，将输入的台词语句映射成字符嵌入向量，并对所述字符嵌入向量进行编码，得到字符编码向量。

14.根据权利要求13所述的方法，其中，所述情感标记嵌入模块关联至少一个情感标记分别对应的情感强度系数，所述情感强度系数用于情感强度调整；以及

利用所述情感标记嵌入模块，在将输入的情感标记映射成情感嵌入向量后，将该情感嵌入向量与该情感标记对应的情感强度系数的乘积，确定为经情感强度调整后的情感嵌入向量。

15.根据权利要求9或12所述的方法，其中，声谱图包括，梅尔频率声谱图。

16.一种情感语音合成方法，包括：

获取待合成语音的文本信息和其对应的情感标记；

将所述文本信息和所述情感标记，输入采用如权利要求7所述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据。

17.一种情感语音合成方法，应用于客户端，包括：

获取待合成语音的文本信息和其对应的情感标记；

将所述文本信息和所述情感标记发送至语音合成端，使得所述语音合成端将所述文本信息和所述情感标记，输入采用如权利要求7所述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据。

18.一种基于直播的情感语音合成方法，应用于主播客户端，包括：

获取直播的虚拟主播的配音文本，以及所述配音文本对应的情感标记；

将所述配音文本和所述情感标记发送至服务端，使得所述服务端将所述配音文本和所述情感标记，输入采用如权利要求7所述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；

经由所述服务端，将所述情感语音数据提供给相应的观众客户端。

19.一种基于电子书的情感语音合成方法，包括：

获取电子书中的目标文本，以及所述目标文本对应的情感标记；

将所述目标文本和所述情感标记输入采用如权利要求7所述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；

基于电子书客户端提供所述情感语音数据。

20.一种基于视频的情感语音合成方法，包括：

获取待配音的视频的配音文本，以及所述配音文本对应的情感标记；

将所述配音文本和所述情感标记，输入采用如权利要求7所述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；

基于视频客户端提供所述情感语音数据。

21.一种语音合成模型，包括：

声谱预测网络，用于根据输入的目标发声对象的目标身份信息，以及所述目标发声对象的情感语音数据样本对应的台词语句和情感标记，预测声谱图；

声码器，用于根据所述声谱预测网络预测出的声谱图，生成时域波形。

22.根据权利要求21所述的语音合成模型，其中，所述声谱预测网络关联至少一个情感标记分别对应的情感强度系数，所述情感强度系数用于情感强度调整；以及

在模型应用阶段，所述声谱预测网络还用于：

根据输入的情感标记所对应的情感强度系数，进行情感强度调整。

23.根据权利要求21所述的语音合成模型，其中，所述声谱预测网络包括：

编码器，用于将输入的目标身份信息、台词语句和情感标记，分别转换成向量，并对转换所得的向量进行拼接,得到拼接向量；

解码器，用于根据所述拼接向量，预测声谱图。

24.根据权利要求23所述的语音合成模型，其中，所述编码器包括：

情感标记嵌入模块，用于将输入的情感标记映射成情感嵌入向量；

身份嵌入模块，用于将输入的目标身份信息映射成身份嵌入向量；

字符编码模块，用于将输入的台词语句映射成字符嵌入向量，并对所述字符嵌入向量进行编码，得到字符编码向量。

25.根据权利要求24所述的语音合成模型，其中，所述情感标记嵌入模块关联至少一个情感标记分别对应的情感强度系数，所述情感强度系数用于情感强度调整；以及

在模型应用阶段，所述情感标记嵌入模块还用于：

在将输入的情感标记映射成情感嵌入向量后，将该情感嵌入向量与该情感标记对应的情感强度系数的乘积，确定为经情感强度调整后的情感嵌入向量。

26.一种语音数据的处理装置，包括：

获取单元，被配置成获取目标发声对象的多条第一情感语音数据，所述多条第一情感语音数据对应多条台词语句，所述多条台词语句对应至少一个情感标记，其中，第一情感语音数据通过对所述目标发声对象读出相应的台词语句时发出的声音进行录制而得到；

调整单元，被配置成对至少一条第一情感语音数据的目标声音要素进行调整，得到经调整后的第二情感语音数据；

生成单元，被配置成将所述多条第一情感语音数据和所述第二情感语音数据，合并成所述目标发声对象的情感语音数据集。

27.一种模型处理装置，包括：

获取单元，被配置成获取目标发声对象的目标身份信息和情感语音数据集，以及所述情感语音数据集中的情感语音数据样本对应的台词语句和情感标记；

模型训练单元，被配置成将所述目标身份信息、所述台词语句和情感标记作为输入，将所述情感语音数据样本作为训练标签，对待训练的语音合成模型进行训练，得到情感语音合成模型。

28.一种情感语音合成装置，包括：

获取单元，被配置成获取待合成语音的文本信息和其对应的情感标记；

语音合成单元，被配置成将所述文本信息和所述情感标记，输入采用如权利要求7所述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据。

29.一种情感语音合成装置，应用于客户端，包括：

发送单元，被配置成将所述文本信息和所述情感标记发送至语音合成端，使得所述语音合成端将所述文本信息和所述情感标记，输入采用如权利要求7所述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据。

30.一种基于直播的情感语音合成装置，应用于主播客户端，包括：

获取单元，被配置成获取直播的虚拟主播的配音文本，以及所述配音文本对应的情感标记；

发送单元，被配置成将所述配音文本和所述情感标记发送至服务端，使得所述服务端将所述配音文本和所述情感标记，输入采用如权利要求7所述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；

处理单元，被配置成经由所述服务端，将所述情感语音数据提供给相应的观众客户端。

31.一种基于电子书的情感语音合成装置，包括：

获取单元，被配置成获取电子书中的目标文本，以及所述目标文本对应的情感标记；

语音合成单元，被配置成将所述目标文本和所述情感标记输入采用如权利要求7所述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；

处理单元，被配置成基于电子书客户端提供所述情感语音数据。

32.一种基于视频的情感语音合成装置，包括：

获取单元，被配置成获取待配音的视频的配音文本，以及所述配音文本对应的情感标记；

语音合成单元，被配置成将所述配音文本和所述情感标记，输入采用如权利要求7所述的方法训练所得的情感语音合成模型，使得所述情感语音合成模型输出合成的情感语音数据；

处理单元，被配置成基于视频客户端提供所述情感语音数据。

33.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-20中任一项所述的方法。

34.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-20中任一项所述的方法。

35.一种计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-20中任一项所述的方法。