CN114242033A

CN114242033A - 语音合成方法、装置、设备、存储介质及程序产品

Info

Publication number: CN114242033A
Application number: CN202111601435.8A
Authority: CN
Inventors: 黄杰雄; 轩晓光; 关迪聆; 陈传艺; 孙洪文
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-03-25

Abstract

本申请公开了一种语音合成方法、装置、设备、存储介质及程序产品，涉及人工智能领域。该方法包括：获取目标文本的目标音素、目标情感以及目标音色；对目标音素对应的目标音素特征与目标情感对应的目标情感特征进行特征融合，得到音素融合特征；基于音素融合特征与目标音色对应的目标音色特征进行发音预测，得到目标音素对应的语音发音特征；对语音发音特征进行特征解码，得到目标声学特征；基于目标声学特征合成目标语音，目标语音与目标文本相对应，目标语音是具有目标情感与目标音色的音频。本申请实施例提供的方法，可得到不同情感以及不同音色的语音，丰富合成语音的语音效果，且有助于提高合成语音的自然性与真实性。

Description

语音合成方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及人工智能领域，特别涉及一种语音合成方法、装置、设备、存储介质及程序产品。

背景技术

语音合成是指将文本转化为音频的过程，该过程中，通常利用声学模型进行语音合成。

相关技术中，利用样本文本的音素与样本文本对应的音频训练声学模型，从而利用训练完成的声学模型将待合成文本对应的音素，转化为音频对应的声学特征，实现语音合成。其中，音素是根据语音的自然属性划分出最小语音单位，以中文普通话为例，音素可包括声韵母、声调等。然而，利用声学模型得到的音频，其对文本的表达方式为统一风格，合成语音较为生硬，风格单一。

发明内容

本申请实施例提供了一种语音合成方法、装置、设备、存储介质及程序产品。所述技术方案如下：

一方面，本申请实施例提供了一种语音合成方法，所述方法包括：

获取目标文本的目标音素、目标情感以及目标音色；

对所述目标音素对应的目标音素特征与所述目标情感对应的目标情感特征进行特征融合，得到音素融合特征；

基于所述音素融合特征与所述目标音色对应的目标音色特征进行发音预测，得到所述目标音素对应的语音发音特征；

对所述语音发音特征进行特征解码，得到目标声学特征；

基于所述目标声学特征合成目标语音，所述目标语音与所述目标文本相对应，所述目标语音是具有所述目标情感与所述目标音色的音频。

另一方面，本申请实施例提供了一种语音合成装置，所述装置包括：

获取模块，用于获取目标文本的目标音素、目标情感以及目标音色；

第一融合模块，用于对所述目标音素对应的目标音素特征与所述目标情感对应的目标情感特征进行特征融合，得到音素融合特征；

第一预测模块，用于基于所述音素融合特征与所述目标音色对应的目标音色特征进行发音预测，得到所述目标音素对应的语音发音特征；

第一解码模块，用于对所述语音发音特征进行特征解码，得到目标声学特征；

语音合成模块，用于基于所述目标声学特征合成目标语音，所述目标语音与所述目标文本相对应，所述目标语音是具有所述目标情感与所述目标音色的音频。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的语音合成方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的语音合成方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的语音合成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例中，在合成文本对应的语音时，获取情感特征，将情感特征与文本对应的音素特征进行融合，得到融合情感后的音素融合特征，且同时还获取音色特征，利用融合情感后的音素融合特征与音色特征进行发音预测，得到音素对应的发音特征，并利用发音特征进行解码得到合成语音的声学特征。由于在语音合成过程中，将音素与情感特征融合，使合成语音可具有特定情感，且同时还利用音色特征进行发音预测，使合成语音具有特定音色，从而可得到不同情感以及不同音色的语音，丰富合成语音的语音效果，且有助于提高合成语音的自然性与真实性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的实施环境的示意图；

图2示出了本申请一个示例性实施例提供的语音合成方法的流程图；

图3示出了本申请另一个示例性实施例提供的语音合成方法的流程图；

图4示出了本申请一个示例性实施例提供的声学模型的结构示意图；

图5示出了本申请一个示例性实施例提供的声学模型训练方法的流程图；

图6是本申请一个示例性实施例提供的语音合成装置的结构框图；

图7示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请示例性实施例提供的实施环境的示意图。该实施环境中可以包括：终端101与服务器102。

终端101是提供有语音合成功能的电子设备。终端101可以为智能手机、平板电脑、智能电视、数码播放器、膝上型便携计算机或台式计算机等等。终端101中可运行有提供语音合成功能的客户端，该客户端可为即时通信类应用程序、音乐播放类应用程序、阅读类应用程序等，本申请实施例对终端101的具体类型不做限定。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例中，服务器是终端101中提供语音合成功能客户端的后台服务器，可将文本转化为语音。

终端101和服务器102间能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一种可能的实施方式中，如图1所示，终端101将需转化的目标文本以及合成语音对应的情感类型与音色类型发送至服务器102，服务器102接收到目标文本、情感类型以及音色类型后，基于目标文本、情感类型以及音色类型对应的特征进行语音合成，得到音频的声学特征，实现将文本转化为具有特定情感以及特定音色类型的语音。

在另一种可能的实施方式中，上述语音合成过程也可由终端101执行。服务器102对用于进行语音合成的声学模型进行训练，从而将训练完成的声学模型发送至终端101，由终端101在本地实现语音合成，无需借助服务器102。或者，用于进行语音合成的声学模型也可在终端101侧进行训练，并由终端101执行语音合成过程。本申请实施例对此不做限定。

为了方便表述，下述各个实施例以语音合成方法由计算机设备执行为例进行说明。

本申请实施例提供的方法可应用于配音场景，如文章配音、小说配音、杂志配音等，采用本实施例提供的方法，在配音过程中，可根据书籍中的文本内容生成指定情感以及指定音色的语音，丰富配音效果。

且还可应用于智能教育场景，将所需学习的文本内容转化为具有特定情感以及特定音色特征的语音，从而模拟真人教育场景，有助于对文本内容更好的理解与学习。

上述仅对应用场景为例进行示意性说明，本申请实施例提供的方法还可以应用于其他需要进行语音合成的场景，本申请实施例并不对实际应用场景构成限定。

请参考图2，其示出了本申请一个示例性实施例提供的语音合成方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤201，获取目标文本的目标音素、目标情感以及目标音色。

可选的，目标文本指需转化为语音的文本。音素是根据语音的自然属性划分出最小语音单位，不同语种对应音素可能不同，比如，文本对应的中文普通话的音素与方言的音素不同，或者，文本对应的中文音素与对应的英文音素不同。

以中文普通话为例，音素可包括声韵母、声调等，比如，目标文本为“今天的天气真好”时，对应的目标音素可为“jin1 tian1 de1 tian1 qi4 zhen1 hao3”。目标音素可为目标文本所需合成语种的音素。目标音素可为对目标文本进行前端处理得到。

目标情感与目标音色是指合成语音后语音所具有的表现效果。其中，目标情感与目标音色可以为针对目标文本的单一情感与单一音色。比如，目标情感可为高兴，目标音色为“张三”说话的音色。

步骤202，对目标音素对应的目标音素特征与目标情感对应的目标情感特征进行特征融合，得到音素融合特征。

其中，目标音素特征是对目标音素的向量化表示，目标音素特征中包含目标音素中的各个音素信息。目标情感特征是对目标情感的向量化表示，用于指示目标情感对应的情感类型。

在获取目标音素以及目标情感后，对目标音素以及目标情感进行处理，得到对应的目标音素特征以及目标情感特征，从而对目标音素特征与目标情感特征进行融合，将情感融入音素中，得到融合后的音素融合特征，从而基于音素预测发音时使发音具有目标情感。

步骤203，基于音素融合特征与目标音色对应的目标音色特征进行发音预测，得到目标音素对应的语音发音特征。

可选的，语音发音特征即指语音发音方式，比如，发音的时长、音调、能量等。

由于不同音色对应的发音方式不同，比如，不同人说话对应的音调不同。因此，在一种可能的实施方式中，计算机设备在基于音素融合特征进行发音预测的过程中，同时引入目标音色对应的音色特征，从而得到具有特定音色以及特定情感的发音方式。

步骤204，对语音发音特征进行特征解码，得到目标声学特征，目标语音与目标文本相对应，目标语音是具有目标情感与目标音色的音频。

可选的，在预测得到语音发音特征后，需进行特征解码，当计算机设备将其解码为音频对应的声学特征，后续才可基于目标声学特征进行语音合成。

其中，声学特征用于表示语音的频谱特征，目标声学特征即为合成目标语音对应的频谱特征，其可为梅尔频谱(mel-spectrogram)、梅尔倒谱系数(Mel-scaleFrequencyCepstral Coefficients，MFCC)、线性预测倒谱系数(Linear Prediction CepstralCoefficients，LPCC)、感知线性预测系数(Perceptual Linear Predictive，PLP)等。

步骤205，基于目标声学特征合成目标语音，目标语音与目标文本相对应，目标语音是具有目标情感与目标音色的音频。

计算机设备可利用声码器对声学特征进行转换，得到目标语音。目标语音即为目标文本对应的读音，且读音具有特定的情感以及特定的音色。

其中，声码器用于将声学特征转化为可播放的语音波形，即将声学特征还原为音频。可选的，声码器可为基于神经网络的声码器，比如可为WaveNet、HIFIGAN或MelGAN等声码器，本实施例对声码器的具体结构不做限定。

综上所述，本申请实施例中，在合成文本对应的语音时，获取情感特征，将情感特征与文本对应的音素特征进行融合，得到融合情感后的音素融合特征，且同时还获取音色特征，利用融合情感后的音素融合特征与音色特征进行发音预测，得到音素对应的发音特征，并利用发音特征进行解码得到合成语音的声学特征。由于在语音合成过程中，将音素与情感特征融合，使合成语音可具有特定情感，且同时还利用音色特征进行发音预测，使合成语音具有特定音色，从而可得到不同情感以及不同音色的语音，丰富合成语音的语音效果，且有助于提高合成语音的自然性与真实性。

可选的，音素融合特征由情感融合网络对目标音素特征与目标情感特征融合得到；语音发音特征由语音预测网络对音素融合特征与目标音色特征预测得到；目标声学特征由解码网络对语音发音特征解码得到。下面将对基于情感融合网络、语音预测网络以及解码网络进行语音合成的过程进行示例性说明。

请参考图3，其示出了本申请另一个示例性实施例提供的语音合成方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤301，获取目标文本的目标音素、目标情感以及目标音色。

本步骤实施方式可参考上述步骤201，本实施例不再赘述。

步骤302，对目标音素进行特征编码，得到目标音素序列。

在一种可能的实施方式中，将目标音素输入音素嵌入层进行嵌入embedding处理，得到目标音素对应的初始音素序列，在得到初始音素序列后，将初始音素序列输入编码网络进行编码，得到对应的目标音素序列，其中，目标音素序列即为对目标音素进行特征编码后得到的目标音素序列。

可选的，编码网络可为卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、Transformer模型等，本实施例对编码网络的具体结构不做限定。

步骤303，对目标情感进行特征编码，得到初始情感序列。

在一种可能的实施方式中，将目标情感输入情感嵌入层进行embedding处理，得到情感嵌入向量，即初始情感序列。

其中，本步骤与步骤302的实施时序可为顺序执行，也可为同步执行，本实施例进对实施方式进行说明，但对实施时序不做限定。

步骤304，对初始情感序列进行扩展处理，得到目标情感序列，目标情感序列与目标音素序列的序列长度相同。

由于需对目标音素特征与目标情感特征进行融合，因此，需使情感序列与音素序列的序列长度相同，即对初始情感序列进行序列扩展，使目标情感序列的序列长度与目标音素序列的序列长度相同。

示意性的，当目标音素序列的序列长度为30，而初始情感序列的序列长度为1时，可将初始情感序列进行复制，得到目标情感序列，使目标情感序列的序列长度为30。

步骤305，将目标音素序列与目标情感序列输入情感融合网络进行融合处理，得到音素融合序列。

在一种可能的实施方式中，可将目标音素序列与目标情感序列直接进行序列融合，得到融合后的音素融合序列。然而，直接进行序列融合后得到的音素融合序列融合效果较差，合成语音后音频情感表达较为生硬。因此，在另一种可能的实施方式中，利用情感融合网络对目标音素序列与目标情感序列进行融合。可选的，情感融合网络中包含长短期记忆(Long Short-Term Memory，LSTM)结构以及残差shortcut结构。该步骤可替换为如下步骤：

步骤305a，将目标音素序列与目标情感序列进行序列融合，得到第一音素融合序列。

在一种可能的实施方式中，计算机设备首先将目标音素序列与目标情感序列进行序列融合，其中，序列融合可为对序列进行序列相加，得到第一音素融合序列。

步骤305b，将第一音素融合序列输入长短期记忆LSTM网络进行序列处理，得到第二音素融合序列，LSTM网络用于将情感信息嵌入音素上下文信息中。

由于LSTM网络可对特征在时序上前后信息相关性的学习能力较好，因此，引入LSTM网络对第一音素融合序列进行处理，从而基于音素帧与帧之间相关性进行情感特征的融合，即将情感信息嵌入音素的上下文信息中，从而使融合得到的特征融合效果较好，从而使合成音频情感表达更为细腻。

在一种可能的实施方式中，计算机设备需确定LSTM网络的层数。可选的，LSTM网络的网络层数根据融合需求或计算量需求中至少一种确定，网络层数与融合能力呈正相关关系，网络层数与计算量呈负相关关系。

当需使文本与情感信息的融合效果更好时，可基于较多LSTM层对第一音素融合序列进行处理；而当需加快语音合成，减少语音合成过程中的计算量时，可基于较少的LSTM层对第一融合序列进行处理。或者，可综合融合效果与计算量，确定LSTM层层数，在确保融合效果时减少计算量。比如，基于2层LSTM层对第一音素融合序列进行处理。

计算机设备利用LSTM网络对第一音素融合序列进行处理后，得到第二音素融合序列。

步骤305c，将第一音素融合序列与第二音素融合序列进行序列融合，得到音素融合序列。

本实施例中，除利用LSTM网络融合文本与情感信息之外，还引入残差结构，确保音素中各个音素均与情感特征融合。在一种可能的实施方式中，计算机设备将目标音素序列与目标情感序列直接进行序列融合后的第一音素融合序列与第二音素融合序列进行序列融合，得到最终的音素融合序列。即通过二次融合，得到音素融合序列，确保情感融合效果，从而使合成语音情感表达更为细腻。

步骤306，对目标音色进行特征编码，得到初始音色序列。

在得到音素融合序列后，可基于音素融合序列进行发音特征的预测。而由于不同音色对应的音调、音高等不同，因此，在进行发音特征预测时，引入音色特征，从而提高合成语音的音色特征与目标音色一致性。

在一种可能的实施方式中，首先对目标音色进行特征编码，得到初始音色序列。即对目标音色进行embedding处理，得到初始音色序列。

步骤307，对初始音色序列进行扩展处理，得到目标音色序列，目标音色序列与音素融合序列的序列长度相同。

由于需对音素融合序列与目标音色对应的目标音色特征进行融合，因此，需使音色序列与音素融合序列的序列长度相同，即对初始音色序列进行序列扩展，使目标音色序列的序列长度与音色融合序列的序列长度相同。

结合上述示例，当目标音素序列与目标情感序列的序列长度为30时，融合后的音色融合序列的序列长度仍为30，因此，对初始音色序列进行复制，得到序列长度为30的目标音色序列。

步骤308，将目标音色序列与音素融合序列输入语音预测网络进行发音预测，得到目标音素对应的语音发音序列，语音发音序列用于表征目标语音对应的发音时长、音调以及能量中的至少一种。

在一种可能的实施方式中，将目标音色序列与音素融合序列进行序列融合，得到融合后的特征序列，并将融合后的特征序列输入语音预测网络中进行发音预测，得到目标语音对应的发音时长、发音音调以及发音能量大小。

可选的，语音预测网络为可变信息适配器(Variance Adaptor)，其中，可包含时长预测器、音调预测器以及能量预测器。当将融合后的特征序列输入语音预测网络后，可通过时长预测器预测得到音素的时长序列，通过音调预测器得到音调序列，以及通过能量预测器得到能量序列。

步骤309，将语音发音序列输入解码网络进行序列解码，得到目标声学特征，解码网络为流Flow结构。

计算机设备得到语音发音特征后，对语音发音特征进行解码，得到最终的目标声学特征。其中，目标声学特征为梅尔频谱特征(mel-spectrogram)。

可选的，解码网络可为CNN、RNN、Transformer等结构。而在一种可能的实施方式中，利用流(Flow)结构作为解码网络。其中，Flow为可逆结构，其对特征拟合能力较强。

且在进行长文本即字数较多的文本进行音频合成时，Flow结构计算量较小。比如，当目标文本的文本长度为T时，Flow结构的计算复杂度为O(T)，而Transformer结构的计算复杂度为O(T*T)。

步骤310，基于目标声学特征合成目标语音。

本步骤实施方式可参考上述步骤205的实施方式，本实施例不再赘述。

本实施例中，利用LSTM结构以及shortcut结构进行目标音素特征与目标情感特征的融合，从而提高音素与情感的融合效果，使合成语音在情感表达上更为细腻，提高语音拟人真实性以及流畅性。

本实施例中，在预测发音特征过程中，引入目标音色特征，使最终得到的目标声学特征更具目标音色对应的音色特点，从而提高语音拟人真实性以及流畅性。

本实施例中，在对语音发音特征进行解码时，采用Flow结构进行解码，可降低合成长文本对应的目标声学特征时的计算复杂度。

在一种可能的实施方式中，除在语音发音预测过程中引入目标音色特征外，为加强目标音色的发音特征，在解码过程中，同时基于语音发音特征与目标音色特征进行解码，得到目标语音的目标声学特征，从而使目标语音更具表现力。

可选的，对语音发音特征进行特征解码，可包括如下步骤：

步骤一、对语音发音特征与目标音色特征进行特征融合，得到发音融合特征。

为使语音对应的音色与目标音色对应的发音特征更为符合，将语音发音特征与目标音色特征进行特征融合，从而基于融合后的发音融合特征进行特征解码，即利用语音发音序列与目标音色序列共同进行序列解码。在一种可能的实施方式中，将语音发音序列与目标音色序列进行序列融合，得到发音融合序列。其中，融合后的发音融合序列与语音发音序列的序列长度保持相同。

步骤二、对发音融合特征进行特征解码，得到目标声学特征。

得到发音融合序列后，计算机设备将发音融合序列输入解码网络进行特征解码。即利用Flow结构对发音融合序列进行特征解码。

在利用Flow结构进行解码的过程中，包含多次特征输入，在每次特征输入过程中，均将语音发音序列与目标音色序列进行融合输入，即每次均输入发音融合序列，从而使不同音色以及不同情感的音频声学特征拟合效果更好。

本实施例中，在解码过程中，引入目标音色特征，且利用Flow结构对音色特征与发音特征进行解码，提供拟合音色特征与发音特征的能力，从而进一步加强解码得到的目标声学特征对应的音色特点，提高与目标音色的相似性。

在一种可能的实施方式中，语音合成的声学模型的模型结构可如图4所示，基于该声学模型合成目标声学特征过程可为：

将目标文本的目标音素输入音素嵌入层(Phoneme Embedding)401中进行嵌入处理，得到初始音素序列，并将初始音素序列输入编码器(Encoder)402进行编码处理得到目标音素序列。且将目标情感输入情感嵌入层(Emotion Embedding)403进行嵌入处理，得到目标情感序列。之后，计算机设备将目标音素序列与目标情感序列进行序列融合，并将融合后的第一音素融合序列输入情感融合网络(Emotion Net)404中，得到第二音素融合序列，且将第一音素融合序列与第二音素融合序列进行序列融合，得到音素融合序列。

同时，计算机设备将目标音色输入音色嵌入层(Speaker Embedding)405中进行嵌入处理，得到目标音色序列。计算机设备将音素融合序列与目标音色序列进行融合，并将融合后的发音融合序列输入到语音预测网络Variance Adaptor 406中，得到语音发音序列，且将语音发音序列与目标音色序列进行序列融合，并将融合得到的发音融合序列输入解码器(mel-spectrogram Flow Decoder)407中进行解码处理，得到目标声学特征，即梅尔频谱特征。

在一种可能的实施方式中，进行语音合成的声学模型由训练集中训练样本训练得到。可选的，情感融合网络、语音预测网络与解码网络基于样本文本、样本语音、样本情感以及样本音色训练得到，样本语音是具有样本情感以及样本音色特征的音频，样本语音与样本文本相对应。

即一组训练样本中包含样本文本、样本语音、样本情感以及样本音色。可选的，相同的样本文本可能对应不同的样本语音，比如，相同的样本文本对应不同情感或不同音色的样本语音。其中，情感可包括如中性、高兴、生气、伤心、恐惧、厌恶和惊奇等不同类型，音色可为不同人说话对应的音色。由于相同的样本文本可能对应不同的样本语音，因此，每组训练样本均需进行标注，从而区别训练样本中样本语音对应的情感以及音色。比如，对于不同的样本语音，可标注为“<音频>，张三，高兴”,“<音频>，李四，中性”。

在一种可能的实施方式中，计算机设备基于多组训练样本对声学模型进行训练，其中，声学模型中包含情感融合网络、语音预测网络与解码网络。下面对声学模型的训练方法进行示意性说明。

请参考图5，其示出了本申请一个示例性实施例提供的声学模型训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤501，确定样本文本对应的样本音素，样本音素包含样本文本对应的拼音信息以及各个拼音对应的时长信息。

当获取样本文本后，可将样本文本转化为样本音素。可选的，利用前端处理模块将文本转化为音素。

在一种可能的实施方式中，在训练过程中，除需获取样本文本对应的音素外，还需获取样本音素中各个拼音对应的时长信息，即样本音素的时间戳信息，其为每个拼音的声韵母在样本语音中对应的起始位置与结束位置。从而根据真实音频中各个音素的时长信息对模型进行训练，提高模型预测发音时长的准确性。

可选的，样本音素的时间戳信息可通过对齐模型输出得到。在一种可能的实施方式中，使用force alignment对齐工具得到样本音素的时间戳信息。示意性的，当样本文本为“今天的天气真好”，样本音素为“jin1 tian1 de1 tian1 qi4 zhen1hao3”时，样本音素的时间戳信息为(时间单位为秒)：“j(0.0,0.2)in1(0.2,0.5)t(0.5,0.6)ian1(0.6,0.8)d(0.8,0.9)e1(0.9,1.2)t(1.2,1.3)ian1(1.3,1.6)q(1.6,1.8)i4(1.8,2.0)zh(2.0,2.2)en1(2.2,2.5)h(2.5,2.6)ao3(2.6,2.8)”。

步骤502，将样本音素对应的样本音素特征与样本情感对应的样本情感特征输入情感融合网络进行特征融合，得到样本音素融合特征。

可选的，样本音素特征中包含样本音素的时间戳信息。当获取样本音素后，对样本音素进行Embedding以及Encoder处理，得到样本音素序列，且对样本情感进行Embedding处理，得到样本情感序列。同样的，样本音素序列与样本情感序列的序列长度需保持相同。

在一种可能的实施方式中，将样本音素序列与样本情感序列输入情感融合网络进行融合，得到样本音素融合序列，即样本音素融合特征。

可选的，情感融合网络包含LSTM结构与shortcut结构，其对样本音素序列与样本情感序列的融合过程可参考上述步骤305中情感融合网络对目标音素序列与目标情感序列的融合过程，本实施例不再赘述。

步骤503，将样本音素融合特征与样本音色对应的样本音色特征输入语音预测网络进行发音预测，得到样本音素对应的预测语音发音特征。

在融合得到样本音素融合特征之后，利用样本音素融合特征与样本音色特征进行发音预测，其中，基于语音预测网络进行发音预测，语音预测网络为Variance Adaptor。

其中，样本音色特征为对样本音色进行Embedding处理之后得到的样本音色序列。可选的，样本音色序列的序列长度需与样本音素融合序列的序列长度保持相同。

可选的，预测语音发音特征包括预测发音时长、预测发音音调以及预测发音能量大小。

可选的，语音预测网络对样本音素融合序列以及样本音色序列进行发音预测的过程可参考上述步骤308中语音预测网络对音素融合序列与目标音色序列进行发音预测的过程，本实施例不再赘述。计算机设备通过语音预测网络进行发音预测，得到预测语音发音序列。

步骤504，将预测语音发音特征输入解码网络进行特征解码，得到预测声学特征。

可选的，计算机设备将预测语音发音特征即预测语音发音序列输入解码网络进行特征解码，解码网络为Flow结构，基于解码网络进行特征解码，得到预测的梅尔频谱特征。

而在另一种可能的实施方式中，在进行特征解码过程中还可基于音色特征进行解码，因此，在训练过程中，计算机设备还可将预测语音发音特征与样本音色特征输入解码网络进行特征解码，得到预测声学特征，从而提高训练后的解码网络对音色特征的拟合能力。

当将预测语音发音特征与样本音色特征输入解码网络进行特征解码时，即将预测语音发音序列与样本音色序列进行序列融合得到预测发音融合序列，从而将预测发音融合序列输入解码网络，得到预测的梅尔频谱特征。

其中，基于解码网络对预测语音发音序列与样本音色序列进行特征解码的过程可参考上述实施例利用解码网络对语音发音序列与目标音色序列进行特征解码的过程，本实施例不再赘述。

步骤505，基于预测声学特征与样本语音对应的样本声学特征，对情感融合网络、语音预测网络以及解码网络进行训练。

当计算机设备通过声学模型预测得到样本文本对应的预测声学特征后，利用预测声学特征与样本声学特征对情感融合网络、语音预测网络以及解码网络进行训练，得到训练后的声学模型，从而可利用训练后的声学模型实现语音合成。在一种可能的实施方式中，训练过程可包括如下步骤：

步骤505a，确定预测声学特征对应的预测梅尔频谱以及样本声学特征对应的样本梅尔频谱之间的误差损失。

在一种可能的实施方式中，计算机设备预先对样本语音进行处理，得到样本语音对应的样本梅尔频谱，从而在基于声学模型得到样本文本的预测梅尔频谱后，利用样本梅尔频谱与预测梅尔频谱之间的误差训练声学模型。

可选的，计算机设备可利用L1损失函数确定样本梅尔频谱与预测梅尔频谱之间的误差损失值，基于误差损失值对声学模型进行训练。或者，还可采用L2损失函数、均方误差(Mean-Square Error，MSE)损失函数等进行误差损失值的计算，本实施例对误差损失值的计算方式不做限定。

步骤505b，基于误差损失值，通过反向传播更新情感融合网络、语音预测网络以及解码网络的网络参数。

在一种可能的实施方式中，确定误差损失后，可基于误差损失反向传播更新声学模型中各网络的网络参数，包括情感融合网络、语音预测网络以及解码网络的网络参数，直至网络参数满足训练条件为止，即误差损失达到收敛条件为止。

比如，可采用Adam优化算法对声学模型梯度进行反向传播，更新声学模型中各网络的网络参数，得到训练后的声学模型。

得到训练完成后的声学模型后，计算机设备可利用训练完成的声学模型对不同文本进行语音转化，且可得到具有不同情感、不同音色的声学特征，丰富合成语音的语音效果。

图6是本申请一个示例性实施例提供的语音合成装置的结构框图，如图6所示，该装置包括：

获取模块601，用于获取目标文本的目标音素、目标情感以及目标音色；

第一融合模块602，用于对所述目标音素对应的目标音素特征与所述目标情感对应的目标情感特征进行特征融合，得到音素融合特征；

第一预测模块603，用于基于所述音素融合特征与所述目标音色对应的目标音色特征进行发音预测，得到所述目标音素对应的语音发音特征；

第一解码模块604，用于对所述语音发音特征进行特征解码，得到目标声学特征；

语音合成模块605，用于基于所述目标声学特征合成目标语音，所述目标语音与所述目标文本相对应，所述目标语音是具有所述目标情感与所述目标音色的音频。

可选的，所述音素融合特征由情感融合网络对所述目标音素特征与所述目标情感特征融合得到；

所述语音发音特征由语音预测网络对所述音素融合特征与所述目标音色特征预测得到；

所述目标声学特征由解码网络对所述语音发音特征解码得到。

可选的，所述第一融合模块602，包括：

第一编码单元，用于对所述目标音素进行特征编码，得到目标音素序列；

第二编码单元，用于对所述目标情感进行所述特征编码，得到初始情感序列；

第一扩展单元，用于对所述初始情感序列进行扩展处理，得到目标情感序列，所述目标情感序列与所述目标音素序列的序列长度相同；

第一融合单元，用于将所述目标音素序列与所述目标情感序列输入所述情感融合网络进行融合处理，得到音素融合序列。

可选的，所述第一融合单元，还用于：

将所述目标音素序列与所述目标情感序列进行序列融合，得到第一音素融合序列；

将所述第一音素融合序列输入长短期记忆LSTM网络进行序列处理，得到第二音素融合序列，所述LSTM网络用于将情感信息嵌入音素上下文信息中；

将所述第一音素融合序列与所述第二音素融合序列进行所述序列融合，得到所述音素融合序列。

可选的，所述LSTM网络的网络层数根据融合需求或计算量需求中至少一种确定，所述网络层数与融合能力呈正相关关系，所述网络层数与计算量呈负相关关系。

可选的，所述第一预测模块603，包括：

第三编码单元，用于对所述目标音色进行所述特征编码，得到初始音色序列；

第二扩展单元，用于对所述初始音色序列进行所述扩展处理，得到目标音色序列，所述目标音色序列与所述音素融合序列的序列长度相同；

预测单元，用于将所述目标音色序列与所述音素融合序列输入所述语音预测网络进行所述发音预测，得到所述目标音素对应的语音发音序列，所述语音发音序列用于表征所述目标语音对应的发音时长、音调以及能量中的至少一种。

可选的，所述第一解码模块604，还用于：

将所述语音发音序列与所述目标音色序列输入所述解码网络进行序列解码，得到所述目标声学特征，所述解码网络为流Flow结构。

可选的，所述第一解码模块604，还包括：

第二融合单元，用于对所述语音发音特征与所述目标音色特征进行特征融合，得到发音融合特征；

解码单元，用于对所述发音融合特征进行特征解码，得到所述目标声学特征。

可选的，所述情感融合网络、所述语音预测网络与所述解码网络基于样本文本、样本语音、样本情感以及样本音色训练得到，所述样本语音是具有所述样本情感以及样本音色特征的音频，所述样本语音与所述样本文本相对应。

可选的，所述装置还包括：

确定模块，用于确定所述样本文本对应的样本音素，所述样本音素包含所述样本文本对应的拼音信息以及各个拼音对应的时长信息；

第二融合模块，用于将所述样本音素对应的样本音素特征与所述样本情感对应的样本情感特征输入所述情感融合网络进行所述特征融合，得到样本音素融合特征；

第二预测模块，用于将所述样本音素融合特征与所述样本音色对应的样本音色特征输入所述语音预测网络进行所述发音预测，得到所述样本音素对应的预测语音发音特征；

第二解码模块，用于将所述预测语音发音特征输入所述解码网络进行所述特征解码，得到预测声学特征；

训练模块，用于基于所述预测声学特征与所述样本语音对应的样本声学特征，对所述情感融合网络、所述语音预测网络以及所述解码网络进行训练。

可选的，所述声学特征为梅尔频谱特征。

所述训练模块，包括：

损失确定单元，用于确定所述预测声学特征对应的预测梅尔频谱以及所述样本声学特征对应的样本梅尔频谱之间的误差损失；

训练单元，用于基于所述误差损失，通过反向传播更新所述情感融合网络、所述语音预测网络以及所述解码网络的网络参数。

需要说明的是：上述实施例提供的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其实现过程详见方法实施例，这里不再赘述。

请参考图7，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备700包括中央处理单元(Central Processing Unit，CPU)701、包括随机存取存储器702和只读存储器703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。所述计算机设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

所述基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中所述显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。所述基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。所述大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说，所述大容量存储设备707可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元701执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元701执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备700可以通过连接在所述系统总线705上的网络接口单元711接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一实施例所述的语音合成方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的语音合成方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一方法实施例所述的语音合成方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘(SSD，Solid StateDrives)或光盘等。其中，RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，所述方法包括：

获取目标文本的目标音素、目标情感以及目标音色；

对所述语音发音特征进行特征解码，得到目标声学特征；

2.根据权利要求1所述的方法，其特征在于，所述音素融合特征由情感融合网络对所述目标音素特征与所述目标情感特征融合得到；

所述目标声学特征由解码网络对所述语音发音特征特征解码得到。

3.根据权利要求2所述的方法，其特征在于，所述对所述目标音素对应的目标音素特征与所述目标情感对应的目标情感特征进行特征融合，得到音素融合特征，包括：

对所述目标音素进行特征编码，得到目标音素序列；

对所述目标情感进行特征编码，得到初始情感序列；

对所述初始情感序列进行扩展处理，得到目标情感序列，所述目标情感序列与所述目标音素序列的序列长度相同；

将所述目标音素序列与所述目标情感序列输入所述情感融合网络进行融合处理，得到音素融合序列。

4.根据权利要求3所述的方法，其特征在于，所述将所述目标音素序列与所述目标情感序列输入所述情感融合网络进行融合处理，得到音素融合序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述LSTM网络的网络层数根据融合需求或计算量需求中至少一种确定，所述网络层数与融合能力呈正相关关系，所述网络层数与计算量呈负相关关系。

6.根据权利要求3所述的方法，其特征在于，所述基于所述音素融合特征与所述目标音色对应的目标音色特征进行发音预测，得到所述目标音素对应的语音发音特征，包括：

对所述目标音色进行特征编码，得到初始音色序列；

对所述初始音色序列进行所述扩展处理，得到目标音色序列，所述目标音色序列与所述音素融合序列的序列长度相同；

将所述目标音色序列与所述音素融合序列输入所述语音预测网络进行所述发音预测，得到所述目标音素对应的语音发音序列，所述语音发音序列用于表征所述目标语音对应的发音时长、音调以及能量中的至少一种。

7.根据权利要求6所述的方法，其特征在于，所述对所述语音发音特征进行特征解码，得到目标声学特征，包括：

将所述语音发音序列输入所述解码网络进行序列解码，得到所述目标声学特征，所述解码网络为流Flow结构。

8.根据权利要求1至7任一所述的方法，其特征在于，所述对所述语音发音特征进行特征解码，得到目标声学特征，包括：

对所述语音发音特征与所述目标音色特征进行特征融合，得到发音融合特征；

对所述发音融合特征进行特征解码，得到所述目标声学特征。

9.根据权利要求2至7任一所述的方法，其特征在于，所述情感融合网络、所述语音预测网络与所述解码网络基于样本文本、样本语音、样本情感以及样本音色训练得到，所述样本语音是具有所述样本情感以及样本音色特征的音频，所述样本语音与所述样本文本相对应。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

确定所述样本文本对应的样本音素，所述样本音素包含所述样本文本对应的拼音信息以及各个拼音对应的时长信息；

将所述样本音素对应的样本音素特征与所述样本情感对应的样本情感特征输入所述情感融合网络进行所述特征融合，得到样本音素融合特征；

将所述样本音素融合特征与所述样本音色对应的样本音色特征输入所述语音预测网络进行所述发音预测，得到所述样本音素对应的预测语音发音特征；

将所述预测语音发音特征输入所述解码网络进行所述特征解码，得到预测声学特征；

基于所述预测声学特征与所述样本语音对应的样本声学特征，对所述情感融合网络、所述语音预测网络以及所述解码网络进行训练。

11.根据权利要求10所述的方法，其特征在于，所述声学特征为梅尔频谱特征；所述基于所述预测声学特征与所述样本语音对应的声学特征，对所述情感融合网络、所述语音预测网络以及所述解码网络进行训练，包括：

确定所述预测声学特征对应的预测梅尔频谱以及所述样本声学特征对应的样本梅尔频谱之间的误差损失；

基于所述误差损失，通过反向传播更新所述情感融合网络、所述语音预测网络以及所述解码网络的网络参数。

12.一种语音合成装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的语音合成方法。

14.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的语音合成方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令以实现如权利要求1至11任一所述的语音合成方法。