CN115798456A

CN115798456A - 跨语言情感语音合成方法、装置及计算机设备

Info

Publication number: CN115798456A
Application number: CN202211502443.1A
Authority: CN
Inventors: 詹皓粤; 余心远; 林悦
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-14

Abstract

本申请提供一种跨语言情感语音合成方法、装置及计算机设备，方法包括：获取待通过语音表述的文本信息，以及用于赋予语音情感的风格标签；将文本信息和风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音；其中，目标情感与风格标签相关联，已训练的语音合成模型被用于对文本信息和风格标签进行信息解耦处理、语音学特征预测处理以及语音合成处理。采用本申请，能够提升语音合成质量。

Description

跨语言情感语音合成方法、装置及计算机设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种跨语言情感语音合成方法、装置及计算机设备。

背景技术

目前，语音合成技术作为语音交互闭环的核心之一，已经能够合成出较自然的中性语音，但当遇到机器人、虚拟助手等这些需要模仿人类行为的人机交互任务时，简单的中性语音合成还不能满足人类所需。故能够模拟表现出人类情感和说话风格的情感语音合成，已成为未来语音合成的发展趋势。

然而，现有的情感语音合成技术，无论是收集同一个说话人不同情感的语音数据构造语音合成系统，还是收集目标说话人不同情感的少量语音数据构造语音转换系统，以将目标说话人中立情感的语音转换为其他情感类型的语音，从而实现多情感的语音合成系统，又或是收集同一个说话人不同情感的语音数据构造情感识别模型，多说话人语音数据构造多说话人语音合成模型，得到多说话人情感语音合成模型，均存在拓展性差、成本较高、难以满足实际语音交互要求等诸多问题。

因此，现有的情感语音合成技术存在着因合成策略设置不合理，而导致语音合成质量不高的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种跨语言情感语音合成方法、装置及计算机设备，用以提升语音合成质量。

第一方面，本申请提供一种跨语言情感语音合成方法，包括：

获取待通过语音表述的文本信息，以及用于赋予语音情感的风格标签；

将文本信息和风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音；

其中，目标情感与风格标签相关联，已训练的语音合成模型被用于对文本信息和风格标签进行信息解耦处理、语音学特征预测处理以及语音合成处理。

在本申请一些实施例中，已训练的语音合成模型包括：文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；其中，将文本信息和风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音，包括：将文本信息和风格标签输入至已训练的语音合成模型，以通过文本处理模块对文本信息进行特征提取，得到文本信息的字符特征；通过信息解耦模块，对字符特征和风格标签进行信息解耦处理，得到与字符特征对应的文本音律特征，以及与风格标签对应的风格音律特征；通过风格预测模块，分析文本音律特征、风格音律特征以及风格标签，得到风格特征；通过语音学特征预测模块，对风格特征、文本音律特征以及预设的音色标签进行语音学特征预测处理，得到语音学特征；通过语音合成模块，对语音学特征、字符特征以及音色标签进行语音合成处理，输出采用目标情感发声的跨语言合成语音。

在本申请一些实施例中，通过文本处理模块对文本信息进行特征提取，得到文本信息的字符特征，包括：通过文本处理模块，筛选出文本信息中的特殊字符信息，以将特殊字符信息转化为标准化字符信息，得到标准文本信息；以及基于预设的音素映射表，将标准文本信息转化为跨语言音素信息；基于预设的统一符号集，将跨语言音素信息转化为数字序列表示，作为文本信息的字符特征。

在本申请一些实施例中，语音学特征包括能量信息、时长信息以及归一化的音高信息；其中，归一化的音高信息是根据音高信息的均值和标准差计算得到的。

在本申请一些实施例中，在将文本信息和风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音之前，还包括：构建初始的语音合成模型；其中，初始的语音合成模型包括文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；获取样本数据集，并将样本数据集划分为训练集和测试集；其中，样本数据集包括样本文本集、样本风格标签集以及样本语音集；样本文本集包括至少一个样本文本；样本风格标签集包括至少两个样本风格标签；样本语音集包括至少一个与样本文本集中的样本文本内容对应的样本语音；使用训练集，对初始的语音合成模型进行初步训练，得到初步训练后的语音合成模型；使用测试集，对初步训练后的语音合成模型进行测试调整，得到已训练的语音合成模型。

在本申请一些实施例中，使用训练集，对初始的语音合成模型进行初步训练，得到初步训练后的语音合成模型，包括：将训练集中的至少一个样本文本和至少两个样本风格标签输入至初始的语音合成模型，以通过文本处理模块对至少一个样本文本进行特征提取，得到样本字符特征；以及通过信息解耦模块，对样本字符特征和至少两个样本风格标签进行信息解耦处理，得到与样本字符特征对应的样本文本音律特征，以及与各样本风格标签对应的样本风格音律特征；将样本文本音律特征、各样本风格音律特征以及至少两个样本风格标签作为模块输入，将至少一个样本语音对应的样本风格特征作为模块输出，训练风格预测模块，得到初步训练后的风格预测模块；获取至少一个样本语音对应的样本语音学特征，以将样本语音学特征作为模块输出，将样本风格特征、样本文本音律特征以及预设的样本音色标签作为模块输入，训练语音学特征预测模块，得到初步训练后的语音学特征预测模块；将样本语音学特征、样本字符特征以及样本音色标签作为模块输入，将预设的跨语言情感语音作为模块输出，训练语音合成模块，得到初步训练后的语音合成模块；基于初步训练后的风格预测模块、初步训练后的语音学特征预测模块、初步训练后的语音合成模块，构建初步训练后的语音合成模型。

在本申请一些实施例中，初始的语音合成模型还包括：风格特征提取模块和语音学特征提取模块；其中，风格特征提取模块，被配置为分析至少一个样本语音，提取得到隐式的样本风格特征；语音学特征提取模块，被配置为分析至少一个样本语音，提取得到样本语音学特征。

第二方面，本申请提供一种跨语言情感语音合成装置，包括：

信息获取模块，用于获取待通过语音表述的文本信息，以及用于赋予语音情感的风格标签；

语音合成模块，用于将文本信息和风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音；

第三方面，本申请还提供一种计算机设备，包括：

一个或多个处理器；

存储器；以及一个或多个应用程序，其中的一个或多个应用程序被存储于存储器中，并配置为由处理器执行以实现上述的跨语言情感语音合成方法。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器进行加载，以执行上述跨语言情感语音合成方法中的步骤。

第五方面，本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面提供的方法。

上述跨语言情感语音合成方法、装置及计算机设备，服务器通过获取待通过语音表述的文本信息，以及用于赋予语音情感的风格标签，并将文本信息和风格标签输入至已训练的语音合成模型，即可得到已训练的语音合成模型输出的，采用目标情感发声的跨语言合成语音。其中，目标情感与风格标签相关联，已训练的语音合成模型被用于对文本信息和风格标签进行信息解耦处理、语音学特征预测处理以及语音合成处理。由此，本申请提出在语音合成技术中利用信息解耦，来降低风格标签对说话人的表现依赖，使得风格表现效果更佳，进而提升语音合成质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中跨语言情感语音合成方法的流程示意图；

图2是本申请实施例中跨语言情感语音合成方法的流程示意图；

图3是本申请实施例中跨语言合成语音获取步骤的流程示意图；

图4是本申请实施例中字符特征获取步骤的流程示意图；

图5是本申请实施例中语音合成模型训练步骤的流程示意图；

图6是本申请实施例中跨语言情感语音合成装置的结构示意图；

图7是本申请实施例中计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，术语“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

在本申请实施例中，跨语言情感语音合成方法主要涉及人工智能(ArtificialIntelligence，AI)中的语音合成技术，又称文语转换(Text To Speech，TTS)，是一种可以将任意输入文本转换成相应语音的技术，是人机语音交互中不可或缺的模块之一。其中，在语音合成技术中，主要分为语言分析部分和声学系统部分，也称为前端部分和后端部分，语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学规格书，想好该怎么读；声学系统部分主要是根据语音分析部分提供的语音学规格书，生成对应的音频，实现发声的功能。

本申请实施例提供一种跨语言情感语音合成方法、装置及计算机设备，以下分别进行详细说明。

参阅图1，图1为本申请提供的跨语言情感语音合成方法的场景示意图，该跨语言情感语音合成方法可应用于人机语音交互系统中。其中，人机语音交互系统包括终端102和服务器104。终端102可以是既包括接收和发射硬件的设备，即具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。终端102具体可以是台式终端或移动终端，终端102具体还可以是手机、平板电脑、笔记本电脑、智能机器设备(如耳机、录音笔、家居终端、商务终端、可穿戴设备、金融终端、车载终端等)中的任意一种。服务器104可以是独立的服务器，也可以是服务器组成的服务器网络或服务器集群，其包括但不限于计算机、网络主机、单个网络服务器、边缘服务器、多个网络服务器集或多个服务器构成的云服务器。其中，云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。此外，终端102与服务器104之间通过网络建立通信连接，网络具体可以是广域网、局域网、城域网中的任意一种。

本领域技术人员可以理解，图1中示出的应用环境，仅仅是适用于本申请方案的一种应用场景，并不构成对本申请方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的计算机设备，例如图1中仅示出1个服务器104，可以理解的是，该人机语音交互系统还可以包括一个或多个其他服务器，具体此处不作限定。另外，如图1所示，该人机语音交互系统还可以包括存储器，用于存储数据，如存储待通过语音表述的一个或多个候选文本信息，以及用于赋予语音情感的一个或多个风格标签，以供用户选择后进行语音合成。

需要说明的是，图1所示的人机语音交互系统的场景示意图仅仅是一个示例，本发明实施例描述的人机语音交互系统以及场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着人机语音交互系统的演变和新业务场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。

参阅图2，本申请实施例提供了一种跨语言情感语音合成方法，下述实施例主要以该方法应用于上述图1中的服务器104来举例说明，但不排除其他实施例将其应用于图1所示的终端102中，该方法包括步骤S201至S202，具体如下：

S201，获取待通过语音表述的文本信息，以及用于赋予语音情感的风格标签。

其中，文本信息可以是采用任意国家语言示出的文字内容，例如，英文文本、中文文本、日文文本、韩文文本等，具体本申请实施例不做限定。

其中，风格标签可以是以人为主说明人们在交流过程中所要传达的情感标签，其取决于人类情感的丰富程度，例如，风格标签包括但不局限于是：纯真、可爱、活泼、傲娇、沉稳、喜、怒、哀、乐等，具体本申请实施例不做限定。

具体实现中，服务器104合成跨语言情感语音之前，首先需获取待通过语音表述的文本信息，以及用于赋予语音情感的风格标签，而该文本信息和风格标签均可以是用户预先或即时提交的，用以指示服务器104按照其提交的文本和风格输出对应所需的语音，而该语音内容即为与所提交文本信息一致的内容，语音传达的情感也与所提交的风格标签对应。当然，该文本信息和风格标签也可以不是用户提交的，如当服务器104仅预存了一个风格标签且无法接收用户提交的风格标签时，作为后续语音合成依据的风格标签即是预设固定的。因此，对于文本信息和风格标签的来源，本申请实施例不做具体限定。

进一步地，服务器104可基于预存的信息提取得到文本信息和风格标签，也可通过终端102或其他设备的发送操作来获取，若是通过终端102或其他设备获取，则存在以下几种方式之一可供选择：1、在普通网络结构中，服务器104可从终端102或其他建立有网络连接的云设备处接收文本信息和风格标签；2、在预置的区块链网络中，服务器104可从其他终端节点或服务器节点处同步获取文本信息和风格标签，该区块链网络可以是公有链、私有链等；3、在预置的树状结构中，服务器104可从上级服务器请求得到文本信息和风格标签，或是从下级服务器轮询得到文本信息和风格标签。

还需说明的是，服务器104若从终端102或其他设备处获取到非文本信息的数据，如包含文字内容的图像信息，则服务器104可基于预设的图像分析算法，提取出该图像信息中的文字内容，作为后续合成任意语言情感语音的依据。具体而言，该图像信息可以来源于任意场景中的摄像机，则最终所得语音可用于提醒、指示或警示相应人员。

S202，将文本信息和风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音；其中，目标情感与风格标签相关联，已训练的语音合成模型被用于对文本信息和风格标签进行信息解耦处理、语音学特征预测处理以及语音合成处理。

其中，目标情感是与风格标签相关联的情感信息，例如，当前所用的风格标签为“喜”，则上文所述的跨语言合成语音传达的目标情感同样为“喜”。

具体实现中，服务器104获取到文本信息和风格标签之后，可调用已训练的语音合成模型，以将文本信息和风格标签输入至已训练的语音合成模型中，待已训练的语音合成模型对该文本信息和风格标签，顺序进行信息解耦处理、语音学特征预测处理以及语音合成处理，直至输出用户所需的跨语言合成语音。

可以理解的是，在调用已训练的语音合成模型之前，首先需训练语音合成模型，使其具备语音合成功能，而实施例中所涉及的模型训练步骤将在下文详细说明。除此之外，本实施例中涉及的信息解耦处理步骤、语音学特征预测步骤、语音合成步骤也将在下文逐一详细说明。

在一个实施例中，可参阅图3，已训练的语音合成模型包括：文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；其中，将文本信息和风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音，包括：将文本信息和风格标签输入至已训练的语音合成模型，以通过文本处理模块对文本信息进行特征提取，得到文本信息的字符特征；通过信息解耦模块，对字符特征和风格标签进行信息解耦处理，得到与字符特征对应的文本音律特征，以及与风格标签对应的风格音律特征；通过风格预测模块，分析文本音律特征、风格音律特征以及风格标签，得到风格特征；通过语音学特征预测模块，对风格特征、文本音律特征以及预设的音色标签进行语音学特征预测处理，得到语音学特征；通过语音合成模块，对语音学特征、字符特征以及音色标签进行语音合成处理，输出采用目标情感发声的跨语言合成语音。

其中，文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块并非是电路模块，而是预置有对应算法程序的功能模块，例如，文本处理模块中预置有文本处理程序，该文本处理程序可对文本信息按照预设算法进行文本处理；又例如，风格预测模块中预置有基于神经网络参数编写而成的算法程序。

具体实现中，服务器104在获取到文本信息和风格标签之后，可将文本信息和风格标签输入至已训练的语音合成模型，以使该语音合成模型利用文本处理模块分析文本信息，并利用信息解耦模块和风格预测模块分析风格标签，启动语音合成步骤。

具体而言，可参阅图5，已训练的语音合成模型在接收到文本信息之后，可通过文本处理模块对该文本信息进行特征提取，得到该文本信息的字符特征，该字符特征可以是用于表示任意语言的字符特征，即该文本处理模块可将不同语言的文本信息转换为统一的字符表示。

然后，文本信息的字符特征和风格标签将作为信息解耦模块的模块输入，被输入至信息解耦模块中，用以将风格标签和情感说话人信息分布进行解耦，降低风格标签对情感说话人的依耐性，即无需情感说话人ID参与分析，反映在模型训练阶段，解耦环节的存在会促使语音合成模型学习到多个说话人表现同一风格标签的变化方式，让对应风格标签的语音表现力效果更佳，模型学习更简单，进而在模型应用阶段可提升语音合成质量。

进一步地，信息解耦模块的模块输出为与字符特征对应的文本音律特征，以及与风格标签对应的风格音律特征，而文本音律特征、风格音律特征以及同一风格标签将顺序作为风格预测模块的模块输入，输出风格特征。

更进一步地，风格预测模块输出的风格特征将作为语音学特征预测模块的模块输入，信息解耦模块输出的文本音律特征也将作为语音学特征预测模块的模块输入，作为模块输入的还有预设的音色标签，该音色标签可以是任意一个说话人的音色标签，则语音学特征预测模块在接收到上述信息之后，将输出语音学特征，包括音高、能量、时长等信息。

最后，语音学特征预测模块输出的语音学特征、文本处理模块输出的字符特征以及上文所述的音色标签，将作为语音合成模块的模块输入，供语音合成模块分析输出任意语言的情感语音，也即是用目标情感发声的跨语言合成语音。

在一个实施例中，可参阅图4，通过文本处理模块对文本信息进行特征提取，得到文本信息的字符特征，包括：步骤S401，通过文本处理模块，筛选出文本信息中的特殊字符信息，以将特殊字符信息转化为标准化字符信息，得到标准文本信息；步骤S402，基于预设的音素映射表，将标准文本信息转化为跨语言音素信息；步骤S403，基于预设的统一符号集，将跨语言音素信息转化为数字序列表示，作为文本信息的字符特征。

其中，特殊字符信息包括但不局限于数字、英文缩写、时间格式等，例如，数字“1”、“2”、“3”等，英文缩写“CPU”、“ID”等，时间格式“2022-1-1”、“2023-1-1”等。

其中，音素是语音的最小单位，也是根据语音的自然属性划分出来的最小语音单位。音素映射表可将不带声调拼音转为音素，声调转音素，英文字母转音素，标点转音素。

其中，统一字符集包含但不局限于国际音标表、UTF-8编码等。

具体实现中，服务器104针对文本信息的处理环节，是通过文本处理模块，首先筛选出文本信息中的特殊字符信息，以将该特殊字符信息转换为标准化字符信息，如将时间“2022-08-22”转化为“2022年8月22日”，或者转化为“August twenty second twentytwenty two”，即可得到标准文本信息，而具体选用何种标准化格式以实际业务需求为准。

进一步地，针对标准文本信息的处理可基于预设的音素映射表，即先将标准文本信息中的内容逐一转换为跨语言音素信息，然后利用统一符号表，将跨语言音素信息转化为数字序列表示，以此作为文本信息的字符特征，从而实现跨语言语音合成。

在一个实施例中，语音学特征包括能量信息、时长信息以及归一化的音高信息；其中，归一化的音高信息是根据音高信息的均值和标准差计算得到的。

其中，能量信息是指耳朵感知的声音大小，其取值范围一般在“0-1024”之间；时长信息是指声音持续的时间长度，其取值在大于“0”的范围，每增加“1”则时长增加“10ms”；归一化的音高信息是指均值为“0”，标准差为“1”的分布范围，分布范围的作用对象是人声音高“50-1000Hz”。

在一个实施例中，在将文本信息和风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音之前，还包括：构建初始的语音合成模型；其中，初始的语音合成模型包括文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；获取样本数据集，并将样本数据集划分为训练集和测试集；其中，样本数据集包括样本文本集、样本风格标签集以及样本语音集；样本文本集包括至少一个样本文本；样本风格标签集包括至少两个样本风格标签；样本语音集包括至少一个与样本文本集中的样本文本内容对应的样本语音；使用训练集，对初始的语音合成模型进行初步训练，得到初步训练后的语音合成模型；使用测试集，对初步训练后的语音合成模型进行测试调整，得到已训练的语音合成模型。

具体实现中，文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块的连接方式可参阅图3或图5，服务器104获取样本数据集之前，可先获取少量的样本文本，然后采用正则算法，对样本文本进行正则化处理，以获取更多的样本文本；而样本风格标签和样本语音，可针对不同的应用环境进行针对性获取，具体本申请实施例不做限定。

进一步地，服务器104可按预设比例，将样本数据集划分为训练集和测试集，如预设比例为训练集比例占“8”、测试集比例占“2”，进而使用训练集进行模型训练，使用测试集进行模型测试。

更进一步地，模型训练的停止条件可以包括：1、误差小于某个预先设定的较小的值；2、两次迭代之间的权值变化已经很小，可设定一个阈值，当小于这个阈值后，就停止训练；3、设定最大迭代次数，当迭代超过最大次数就停止训练，例如“273个周期”；4、识别准确率达到某个预先设定的较大的值。

在一个实施例中，可参阅图5，使用训练集，对初始的语音合成模型进行初步训练，得到初步训练后的语音合成模型，包括：将训练集中的至少一个样本文本和至少两个样本风格标签输入至初始的语音合成模型，以通过文本处理模块对至少一个样本文本进行特征提取，得到样本字符特征；以及通过信息解耦模块，对样本字符特征和至少两个样本风格标签进行信息解耦处理，得到与样本字符特征对应的样本文本音律特征，以及与各样本风格标签对应的样本风格音律特征；将样本文本音律特征、各样本风格音律特征以及至少两个样本风格标签作为模块输入，将至少一个样本语音对应的样本风格特征作为模块输出，训练风格预测模块，得到初步训练后的风格预测模块；获取至少一个样本语音对应的样本语音学特征，以将样本语音学特征作为模块输出，将样本风格特征、样本文本音律特征以及预设的样本音色标签作为模块输入，训练语音学特征预测模块，得到初步训练后的语音学特征预测模块；将样本语音学特征、样本字符特征以及样本音色标签作为模块输入，将预设的跨语言情感语音作为模块输出，训练语音合成模块，得到初步训练后的语音合成模块；基于初步训练后的风格预测模块、初步训练后的语音学特征预测模块、初步训练后的语音合成模块，构建初步训练后的语音合成模型。

其中，样本文本、样本风格标签以及样本音色标签的来源可参考上文所述方式，样本语音同样本音色标签一样，可以是任意一个说话人发出的语音，且该语音内容与样本文本一致。

具体实现中，文本处理模块、信息解耦模块、语音学特征预测模块以及语音合成模块的训练方式均可在维持模块输入、模块输出不变的情况下多次训练、学习，而风格预测模块则需变换样本风格标签进行多次训练、学习，以避免风格预测模块只能学习到单风格的样本风格特征，影响语音合成模型在应用阶段的语音合成效果。因此，通过单独多次训练风格预测模块，可学习到多风格的样本风格特征，进而提升语音合成质量。

在一个实施例中，可参阅图5，初始的语音合成模型还包括：风格特征提取模块和语音学特征提取模块；其中，风格特征提取模块，被配置为分析至少一个样本语音，提取得到隐式的样本风格特征；语音学特征提取模块，被配置为分析至少一个样本语音，提取得到样本语音学特征。

其中，风格特征提取模块和语音学特征提取模块只有在模型训练阶段才能够被使用，在模型应用阶段，上述两个模块存在，但并非一定被使用，因此未被直接显示于图3所示的模型结构中。

具体实现中，语音合成模型在训练阶段所需的样本风格特征和样本语音学特征，均为上述两个模块，即风格特征提取模块和语音学特征提取模块分析输出的。其中，风格特征提取模块，被配置为分析至少一个样本语音，提取得到隐式的样本风格特征。与隐式特征对立的是显示特征，显示特征(也称为显示风格表示)即使用了相关目标优化函数进行学习的表示，如希望学习某八种风格的表示，需要标注八种风格对应的语音及文本，训练是加入分类损失函数进行优化；隐式特征(也称为隐式风格表示)即不直接优化风格表示的目标，而是通过约束其他输出来间接约束风格表示，本案中通过约束样本语音学特征来间接约束风格表示。

具体而言，隐式的样本风格特征可通过对样本语音提取语音学特征或者频谱特征后，经过深度学习网络，以对时间维度的输出结果取平均值，即可得到隐式的样本风格特征。

上述实施例中，服务器通过获取待通过语音表述的文本信息，以及用于赋予语音情感的风格标签，并将文本信息和风格标签输入至已训练的语音合成模型，即可得到已训练的语音合成模型输出的，采用目标情感发声的跨语言合成语音。其中，目标情感与风格标签相关联，已训练的语音合成模型被用于对文本信息和风格标签进行信息解耦处理、语音学特征预测处理以及语音合成处理。由此，本申请提出在语音合成技术中利用信息解耦，来降低风格标签对说话人的表现依赖，使得风格表现效果更佳，进而提升语音合成质量。

应该理解的是，虽然图2、图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

为了更好实施本申请实施例提供的跨语言情感语音合成方法，在本申请实施例所提出的跨语言情感语音合成方法的基础之上，本申请实施例还提供了一种跨语言情感语音合成装置，如图6所示，该跨语言情感语音合成装置600包括：

信息获取模块610，用于获取待通过语音表述的文本信息，以及用于赋予语音情感的风格标签；

语音合成模块620，用于将所述文本信息和所述风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音；

其中，所述目标情感与所述风格标签相关联，所述已训练的语音合成模型被用于对所述文本信息和所述风格标签进行信息解耦处理、语音学特征预测处理以及语音合成处理。

在一个实施例中，已训练的语音合成模型包括：文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；语音合成模块620还用于将文本信息和风格标签输入至已训练的语音合成模型，以通过文本处理模块对文本信息进行特征提取，得到文本信息的字符特征；通过信息解耦模块，对字符特征和风格标签进行信息解耦处理，得到与字符特征对应的文本音律特征，以及与风格标签对应的风格音律特征；通过风格预测模块，分析文本音律特征、风格音律特征以及风格标签，得到风格特征；通过语音学特征预测模块，对风格特征、文本音律特征以及预设的音色标签进行语音学特征预测处理，得到语音学特征；通过语音合成模块，对语音学特征、字符特征以及音色标签进行语音合成处理，输出采用目标情感发声的跨语言合成语音。

在一个实施例中，语音合成模块620还用于通过文本处理模块，筛选出文本信息中的特殊字符信息，以将特殊字符信息转化为标准化字符信息，得到标准文本信息；以及基于预设的音素映射表，将标准文本信息转化为跨语言音素信息；基于预设的统一符号集，将跨语言音素信息转化为数字序列表示，作为文本信息的字符特征。

在一个实施例中，跨语言情感语音合成装置600还包括模型训练模块，用于构建初始的语音合成模型；其中，初始的语音合成模型包括文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；获取样本数据集，并将样本数据集划分为训练集和测试集；其中，样本数据集包括样本文本集、样本风格标签集以及样本语音集；样本文本集包括至少一个样本文本；样本风格标签集包括至少两个样本风格标签；样本语音集包括至少一个与样本文本集中的样本文本内容对应的样本语音；使用训练集，对初始的语音合成模型进行初步训练，得到初步训练后的语音合成模型；使用测试集，对初步训练后的语音合成模型进行测试调整，得到已训练的语音合成模型。

在一个实施例中，模型训练模块，还用于将训练集中的至少一个样本文本和至少两个样本风格标签输入至初始的语音合成模型，以通过文本处理模块对至少一个样本文本进行特征提取，得到样本字符特征；以及通过信息解耦模块，对样本字符特征和至少两个样本风格标签进行信息解耦处理，得到与样本字符特征对应的样本文本音律特征，以及与各样本风格标签对应的样本风格音律特征；将样本文本音律特征、各样本风格音律特征以及至少两个样本风格标签作为模块输入，将至少一个样本语音对应的样本风格特征作为模块输出，训练风格预测模块，得到初步训练后的风格预测模块；获取至少一个样本语音对应的样本语音学特征，以将样本语音学特征作为模块输出，将样本风格特征、样本文本音律特征以及预设的样本音色标签作为模块输入，训练语音学特征预测模块，得到初步训练后的语音学特征预测模块；将样本语音学特征、样本字符特征以及样本音色标签作为模块输入，将预设的跨语言情感语音作为模块输出，训练语音合成模块，得到初步训练后的语音合成模块；基于初步训练后的风格预测模块、初步训练后的语音学特征预测模块、初步训练后的语音合成模块，构建初步训练后的语音合成模型。

在一个实施例中，初始的语音合成模型还包括：风格特征提取模块和语音学特征提取模块；其中，风格特征提取模块，被配置为分析至少一个样本语音，提取得到隐式的样本风格特征；语音学特征提取模块，被配置为分析至少一个样本语音，提取得到样本语音学特征。

上述实施例中，通过获取待通过语音表述的文本信息，以及用于赋予语音情感的风格标签，并将文本信息和风格标签输入至已训练的语音合成模型，即可得到已训练的语音合成模型输出的，采用目标情感发声的跨语言合成语音。其中，目标情感与风格标签相关联，已训练的语音合成模型被用于对文本信息和风格标签进行信息解耦处理、语音学特征预测处理以及语音合成处理。由此，本申请提出在语音合成技术中利用信息解耦，来降低风格标签对说话人的表现依赖，使得风格表现效果更佳，进而提升语音合成质量。

需要说明的是，关于跨语言情感语音合成装置的具体限定可以参见上文中对于跨语言情感语音合成方法的限定，在此不再赘述。上述跨语言情感语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，跨语言情感语音合成装置600可以实现为一种计算机程序的形式，计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该跨语言情感语音合成装置600的各个程序模块，比如，图6所示的信息获取模块610、语音合成模块620；各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的跨语言情感语音合成方法中的步骤。例如，图7所示的计算机设备可以通过如图6所示的跨语言情感语音合成装置600中的信息获取模块610执行步骤S201。计算机设备可通过语音合成模块620执行步骤S202。其中，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现一种跨语言情感语音合成方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，已训练的语音合成模型包括：文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；处理器执行计算机程序时还实现以下步骤：

将文本信息和风格标签输入至已训练的语音合成模型，以通过文本处理模块对文本信息进行特征提取，得到文本信息的字符特征；通过信息解耦模块，对字符特征和风格标签进行信息解耦处理，得到与字符特征对应的文本音律特征，以及与风格标签对应的风格音律特征；通过风格预测模块，分析文本音律特征、风格音律特征以及风格标签，得到风格特征；通过语音学特征预测模块，对风格特征、文本音律特征以及预设的音色标签进行语音学特征预测处理，得到语音学特征；通过语音合成模块，对语音学特征、字符特征以及音色标签进行语音合成处理，输出采用目标情感发声的跨语言合成语音。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

通过文本处理模块，筛选出文本信息中的特殊字符信息，以将特殊字符信息转化为标准化字符信息，得到标准文本信息；以及基于预设的音素映射表，将标准文本信息转化为跨语言音素信息；基于预设的统一符号集，将跨语言音素信息转化为数字序列表示，作为文本信息的字符特征。

构建初始的语音合成模型；其中，初始的语音合成模型包括文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；获取样本数据集，并将样本数据集划分为训练集和测试集；其中，样本数据集包括样本文本集、样本风格标签集以及样本语音集；样本文本集包括至少一个样本文本；样本风格标签集包括至少两个样本风格标签；样本语音集包括至少一个与样本文本集中的样本文本内容对应的样本语音；使用训练集，对初始的语音合成模型进行初步训练，得到初步训练后的语音合成模型；使用测试集，对初步训练后的语音合成模型进行测试调整，得到已训练的语音合成模型。

将训练集中的至少一个样本文本和至少两个样本风格标签输入至初始的语音合成模型，以通过文本处理模块对至少一个样本文本进行特征提取，得到样本字符特征；以及通过信息解耦模块，对样本字符特征和至少两个样本风格标签进行信息解耦处理，得到与样本字符特征对应的样本文本音律特征，以及与各样本风格标签对应的样本风格音律特征；将样本文本音律特征、各样本风格音律特征以及至少两个样本风格标签作为模块输入，将至少一个样本语音对应的样本风格特征作为模块输出，训练风格预测模块，得到初步训练后的风格预测模块；获取至少一个样本语音对应的样本语音学特征，以将样本语音学特征作为模块输出，将样本风格特征、样本文本音律特征以及预设的样本音色标签作为模块输入，训练语音学特征预测模块，得到初步训练后的语音学特征预测模块；将样本语音学特征、样本字符特征以及样本音色标签作为模块输入，将预设的跨语言情感语音作为模块输出，训练语音合成模块，得到初步训练后的语音合成模块；基于初步训练后的风格预测模块、初步训练后的语音学特征预测模块、初步训练后的语音合成模块，构建初步训练后的语音合成模型。

上述实施例中，本申请提出在语音合成技术中利用信息解耦，来降低风格标签对说话人的表现依赖，使得风格表现效果更佳，进而提升语音合成质量。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，已训练的语音合成模型包括：文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上对本申请实施例所提供的一种跨语言情感语音合成方法、装置及计算机设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种跨语言情感语音合成方法，其特征在于，包括：

将所述文本信息和所述风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音；

2.如权利要求1所述的方法，其特征在于，所述已训练的语音合成模型包括：文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；

其中，所述将所述文本信息和所述风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音，包括：

将所述文本信息和所述风格标签输入至已训练的语音合成模型，以通过所述文本处理模块对所述文本信息进行特征提取，得到所述文本信息的字符特征；

通过所述信息解耦模块，对所述字符特征和所述风格标签进行信息解耦处理，得到与所述字符特征对应的文本音律特征，以及与所述风格标签对应的风格音律特征；

通过所述风格预测模块，分析所述文本音律特征、所述风格音律特征以及所述风格标签，得到风格特征；

通过所述语音学特征预测模块，对所述风格特征、文本音律特征以及预设的音色标签进行语音学特征预测处理，得到语音学特征；

通过所述语音合成模块，对所述语音学特征、所述字符特征以及所述音色标签进行语音合成处理，输出所述采用目标情感发声的跨语言合成语音。

3.如权利要求2所述的方法，其特征在于，所述通过所述文本处理模块对所述文本信息进行特征提取，得到所述文本信息的字符特征，包括：

通过所述文本处理模块，筛选出所述文本信息中的特殊字符信息，以将所述特殊字符信息转化为标准化字符信息，得到标准文本信息；以及

基于预设的音素映射表，将所述标准文本信息转化为跨语言音素信息；

基于预设的统一符号集，将所述跨语言音素信息转化为数字序列表示，作为所述文本信息的字符特征。

4.如权利要求2所述的方法，其特征在于，所述语音学特征包括能量信息、时长信息以及归一化的音高信息；

其中，所述归一化的音高信息是根据所述音高信息的均值和标准差计算得到的。

5.如权利要求1所述的方法，其特征在于，在所述将所述文本信息和所述风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音之前，还包括：

构建初始的语音合成模型；其中，所述初始的语音合成模型包括文本处理模块、信息解耦模块、风格预测模块、语音学特征预测模块以及语音合成模块；

获取样本数据集，并将所述样本数据集划分为训练集和测试集；其中，所述样本数据集包括样本文本集、样本风格标签集以及样本语音集；所述样本文本集包括至少一个样本文本；所述样本风格标签集包括至少两个样本风格标签；所述样本语音集包括至少一个与所述样本文本集中的样本文本内容对应的样本语音；

使用所述训练集，对所述初始的语音合成模型进行初步训练，得到初步训练后的语音合成模型；

使用所述测试集，对所述初步训练后的语音合成模型进行测试调整，得到所述已训练的语音合成模型。

6.如权利要求5所述的方法，其特征在于，所述使用所述训练集，对所述初始的语音合成模型进行初步训练，得到初步训练后的语音合成模型，包括：

将所述训练集中的至少一个样本文本和至少两个样本风格标签输入至所述初始的语音合成模型，以通过所述文本处理模块对所述至少一个样本文本进行特征提取，得到样本字符特征；以及

通过所述信息解耦模块，对所述样本字符特征和所述至少两个样本风格标签进行信息解耦处理，得到与所述样本字符特征对应的样本文本音律特征，以及与各所述样本风格标签对应的样本风格音律特征；

将所述样本文本音律特征、各所述样本风格音律特征以及所述至少两个样本风格标签作为模块输入，将所述至少一个样本语音对应的样本风格特征作为模块输出，训练所述风格预测模块，得到初步训练后的风格预测模块；

获取所述至少一个样本语音对应的样本语音学特征，以将所述样本语音学特征作为模块输出，将所述样本风格特征、所述样本文本音律特征以及预设的样本音色标签作为模块输入，训练所述语音学特征预测模块，得到初步训练后的语音学特征预测模块；

将所述样本语音学特征、所述样本字符特征以及所述样本音色标签作为模块输入，将预设的跨语言情感语音作为模块输出，训练所述语音合成模块，得到初步训练后的语音合成模块；

基于所述初步训练后的风格预测模块、所述初步训练后的语音学特征预测模块、所述初步训练后的语音合成模块，构建所述初步训练后的语音合成模型。

7.如权利要求6所述的方法，其特征在于，所述初始的语音合成模型还包括：风格特征提取模块和语音学特征提取模块；其中，

所述风格特征提取模块，被配置为分析所述至少一个样本语音，提取得到隐式的所述样本风格特征；

所述语音学特征提取模块，被配置为分析所述至少一个样本语音，提取得到所述样本语音学特征。

8.一种跨语言情感语音合成装置，其特征在于，包括：

语音合成模块，用于将所述文本信息和所述风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音；

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储器；以及一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行以实现权利要求1至7中任一项所述的跨语言情感语音合成方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行权利要求1至7中任一项所述跨语言情感语音合成方法中的步骤。