CN113096640A

CN113096640A - 一种语音合成方法、装置、电子设备及存储介质

Info

Publication number: CN113096640A
Application number: CN202110251885.2A
Authority: CN
Inventors: 彭话易; 黄旭为; 张国鑫
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-07-09

Abstract

本公开关于一种语音合成方法、装置、电子设备及存储介质，该方法包括：获取待合成文本；根据待合成文本的音素序列，确定待合成文本的文本特征；根据输入的情感标签和情感强度值，确定待合成文本的情感特征；融合所述文本特征和所述情感特征，得到待合成文本对应的情感文本特征；根据所述情感文本特征确定所述待合成文本对应的声学特征；根据待合成文本对应的声学特征合成目标情感语音。本公开中合成语音的情感表现力与输入的情感标签和情感强度值相关联，输入不同的情感标签可以得到不同情感类别的合成语音，输入不同的情感强度值可以得到同一情感类别下不同情感强度的合成语音，在提升合成语音情感表现力同时还可控制合成语音的情感强度。

Description

一种语音合成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的不断发展，人机交互即虚拟人与人类之间通过自然语言进行交互已经变的不可或缺，通过语音合成技术将自然语言转换为语音是实现人机交互中的重要一环。语音合成是通过机械的、电子的方法产生人造语音的技术，它是将计算机自己产生的或者外部输入的文字信息转变为人类可以听得懂的、流利的口语输出的技术。

相关技术中，通过将深度学习技术应用于语音合成虽然合成出的语音达到了“能够听清，能够听懂”的程度，但其情感表现力不够理想，情感表现单一且情感强度无法控制，无法满足对于合成语音的“高拟人，高逼真，高情感表现力”的要求。

发明内容

本公开提供一种语音合成方法、装置、电子设备及存储介质，以至少解决相关技术中合成语音的情感表现力不够理想，情感表现单一且情感强度无法控制的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音合成方法，包括：

获取待合成文本；

根据所述待合成文本的音素序列，确定所述待合成文本的文本特征；

根据输入的情感标签和情感强度值，确定所述待合成文本的情感特征；

融合所述文本特征和所述情感特征，得到所述待合成文本对应的情感文本特征；

根据所述情感文本特征，确定所述待合成文本对应的声学特征；

根据所述待合成文本对应的声学特征合成目标情感语音。

作为一个可能的实施方式，所述根据输入的情感标签和情感强度值，确定所述待合成文本的情感特征，包括：

确定输入的情感标签对应的独热编码向量；

根据所述独热编码向量和预设的情感词典，得到所述情感标签对应的情感编码信息；

根据所述情感编码信息和输入的情感强度值，得到所述待合成文本的情感特征。

作为一个可能的实施方式，所述根据所述情感文本特征，确定所述待合成文本对应的声学特征，包括：

将所述情感文本特征输入至声学特征模型，得到所述音素序列中各音素的时长特征、基频特征和能量特征；

将所述情感文本特征与所述音素序列中各音素的时长特征、基频特征和能量特征进行融合，得到目标融合文本特征；

根据所述目标融合文本特征，得到所述待合成文本对应的声学特征。

作为一个可能的实施方式，所述将所述情感文本特征输入至声学特征模型，得到所述音素序列中各音素的时长特征，包括：

将所述情感文本特征输入至声学特征模型的时长预测网络，得到所述音素序列中各音素的预测时长特征；

获取输入的时长调整系数；

根据所述时长调整系数对所述音素序列中各音素的预测时长特征进行调整，得到所述音素序列中各音素的时长特征。

作为一个可能的实施方式，所述将所述情感文本特征输入至声学特征模型，得到所述音素序列中各音素的基频特征，包括：

将所述情感文本特征输入至所述声学特征模型的基频预测网络，得到所述音素序列中各音素的预测基频特征；

获取输入的基频调整值和预设基频调整方式；

根据所述基频调整值和所述预设基频调整方式，对所述音素序列中各音素的预测基频特征进行调整，得到所述音素序列中各音素的基频特征。

作为一个可能的实施方式，所述将所述情感文本特征输入至声学特征模型，得到所述音素序列中各音素的能量特征，包括：

将所述情感文本特征与所述音素序列中各音素的基频特征进行融合，得到第一融合文本特征；

将所述第一融合文本特征输入至所述声学特征模型的能量预测网络，得到所述音素序列中各音素的预测能量特征；

获取输入的能量调整值和预设能量调整方式；

根据所述能量调整值和所述预设能量调整方式，对所述音素序列中各音素的预测能量特征进行调整，得到所述音素序列中各音素的能量特征。

作为一个可能的实施方式，所述根据待合成文本的音素序列，确定所述待合成文本的文本特征，包括：

基于正则表达式，确定所述待合成文本中非预设语言的字符；

将所述非预设语言的字符转换为预设语言的字符，得到转换后的待合成文本；

确定所述转换后的待合成文本的音素序列；

将所述音素序列输入至所述声学特征模型的文本编码网络，得到所述文本特征。

根据本公开实施例的第二方面，提供一种语音合成装置，包括：

文本获取单元，被配置为执行获取待合成文本；

文本特征确定单元，被配置为执行根据所述待合成文本的音素序列，确定所述待合成文本的文本特征；

情感特征确定单元，被配置为执行根据输入的情感标签和情感强度值，确定所述待合成文本的情感特征；

第一融合单元，被配置为执行融合所述文本特征和所述情感特征，得到所述待合成文本对应的情感文本特征；

声学特征确定单元，被配置为执行根据所述情感文本特征，确定所述待合成文本对应的声学特征；

语音合成单元，被配置为执行根据所述待合成文本对应的声学特征合成目标情感语音。

作为一个可能的实施方式，所述情感特征确定单元，包括：

第一确定单元，被配置为执行确定输入的情感标签对应的独热编码向量；

情感编码信息确定单元，被配置为执行根据所述独热编码向量和预设的情感词典，得到所述情感标签对应的情感编码信息；

情感特征确定子单元，被配置为执行根据所述情感编码信息和输入的情感强度值，得到所述待合成文本的情感特征。

作为一个可能的实施方式，所述声学特征确定单元，包括：

第二确定单元，被配置为执行将所述情感文本特征输入至声学特征模型，得到所述音素序列中各音素的时长特征、基频特征和能量特征；

第二融合单元，被配置为执行将所述情感文本特征与所述音素序列中各音素的时长特征、基频特征和能量特征进行融合，得到目标融合文本特征；

声学特征确定子单元，被配置为执行根据所述目标融合文本特征，得到所述待合成文本对应的声学特征。

作为一个可能的实施方式，所述第二确定单元，包括：

预测时长特征确定单元，被配置为执行将所述情感文本特征输入至声学特征模型的时长预测网络，得到所述音素序列中各音素的预测时长特征；

第一获取单元，被配置为执行获取输入的时长调整系数；

第一调整单元，被配置为执行根据所述时长调整系数对所述音素序列中各音素的预测时长特征进行调整，得到所述音素序列中各音素的时长特征。

作为一个可能的实施方式，所述第二确定单元，包括：

预测基频特征确定单元，被配置为执行将所述情感文本特征输入至所述声学特征模型的基频预测网络，得到所述音素序列中各音素的预测基频特征；

第二获取单元，被配置为执行获取输入的基频调整值和预设基频调整方式；

第二调整单元，被配置为执行根据所述基频调整值和所述预设基频调整方式，对所述音素序列中各音素的预测基频特征进行调整，得到所述音素序列中各音素的基频特征。

作为一个可能的实施方式，所述第二确定单元，包括：

第三融合单元，被配置为执行将所述情感文本特征与所述音素序列中各音素的基频特征进行融合，得到第一融合文本特征；

预测能量特征确定单元，被配置为执行将所述第一融合文本特征输入至所述声学特征模型的能量预测网络，得到所述音素序列中各音素的预测能量特征；

第三获取单元，被配置为执行获取输入的能量调整值和预设能量调整方式；

第三调整单元，被配置为执行根据所述能量调整值和所述预设能量调整方式，对所述音素序列中各音素的预测能量特征进行调整，得到所述音素序列中各音素的能量特征。

作为一个可能的实施方式，所述文本特征确定单元，包括：

第三确定单元，被配置为执行基于正则表达规则，确定所述待合成文本中非预设语言的字符；

转换单元，被配置为执行将所述非预设语言的字符转换为预设语言的字符，得到转换后的待合成文本；

第四确定单元，被配置为执行确定所述转换后的待合成文本的音素序列；

编码单元，被配置为执行将所述音素序列输入至所述声学特征模型的文本编码网络，得到所述文本特征。

根据本公开实施例的第三方面，提供一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面中的语音合成方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述第一方面中的语音合成方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述第一方面中的语音合成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过根据输入的情感标签和情感强度值确定待合成文本的情感特征，并将该情感特征与待合成文本的文本特征进行融合得到该待合成文本的情感文本特征，进而根据该情感文本特征确定待合成文本对应的声学特征，根据该声学特征合成目标情感语音，由于合成目标情感语音的声学特征是基于情感文本特征确定的，从而该目标情感语音的情感表现力与输入的情感标签和情感强度值相关联，输入不同的情感标签可以得到不同情感类别的目标情感语音，输入不同的情感强度值可以得到不同情感强度的目标情感语音，进而提升了合成语音的情感表现力，实现合成语音情感表现多样化，并可控制合成语音的情感强度，满足了对于合成语音“高拟人，高逼真，高情感表现力”的要求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音合成方法的实施环境示意图；

图2是根据一示例性实施例示出的一种语音合成方法的流程图；

图3是根据一示例性实施例示出的另一种语音合成方法的流程图；

图4是根据一示例性实施例示出的声学特征模型的结构示意图；

图5是根据一示例性实施例示出的根据情感文本特征确定待合成文本对应的声学特征的流程图；

图6是根据一示例性实施例示出的得到音素序列中各音素的时长特征的一种方法的流程图；

图7是根据一示例性实施例示出的得到音素序列中各音素的基频特征的一种方法的流程图；

图8是根据一示例性实施例示出的得到音素序列中各音素的能量特征的一种方法的流程图；

图9是根据一示例性实施例示出的一种语音合成装置的框图；

图10是根据一示例性实施例示出电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，其所示为根据一示例性实施例示出的一种语音合成方法的实施环境示意图，该实施环境可以包括终端110和服务器120，该终端110和服务器120之间可以通过有线网络或者无线网络连接。

终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端110中可以安装有提供语音合成功能的客户端软件如应用程序(Application，简称为App)，该应用程序可以是专门提供语音合成的应用程序，也可以是具有语音合成功能的其他应用程序，例如具有语音合成功能的直播应用程序等等。终端110的用户可以通过预先注册的用户信息登录应用程序，该用户信息可以包括账号和密码。

服务器120可以是为终端110中的应用程序提供后台服务的服务器，也可以是与应用程序的后台服务器连接通信的其它服务器，可以是一台服务器，也可以是由多台服务器组成的服务器集群。服务器120中可以存储有声学特征模型，该声学特征模型可以包括文本编码网络、情感编码层、情感强度控制层、时长预测网络、基频预测网络、能量预测网络和声学特征解码网络，服务器120可以按照预定周期对该声学特征模型进行训练更新。终端110在需要进行语音合成时，可以将相应数据发送给服务器120，由服务器120调用声学特征模型根据该数据进行语音合成，并将合成的语音返回给终端110。

可以理解的，终端110也可以从服务器120下载声学特征模型，并在本地存储，当需要进行语音合成操作时，终端110可以直接调用本地存储的声学特征模型实施语音合成。

由此可见，本公开实施例的语音合成方法可以由电子设备来执行，该电子设备可以是终端或者服务器，可以由终端或者服务器单独执行，也可以是终端和服务器相互配合执行。

图2是根据一示例性实施例示出的一种语音合成方法的流程图，如图2所示，以语音合成方法应用于电子设备进行说明，包括以下步骤：

在步骤21中，获取待合成文本。

其中，待合成文本可以是中文文本、英文文本、中英文混合文本或者其他语言的文本。

在步骤22中，根据待合成文本的音素序列，确定该待合成文本的文本特征。

其中，音素是语音中的一个最小单元，例如在中文的读音中，一个声母或者韵母可以分别作为一个音素，在其他语言的读音中，每一个发音也相当于一个音素。

音素序列是由待合成文本的音素按照在待合成文本中的先后顺序排列成的序列，待合成文本的音素序列可以通过对待合成文本进行相应转换得到。

作为一个可能的实施方式，在根据待合成文本的音素序列确定待合成文本的文本特征时，可以包括：

基于正则表达规则，确定待合成文本中非预设语言的字符；

将该非预设语言的字符转换为预设语言的字符，得到转换后的待合成文本；

确定上述转换后的待合成文本的音素序列；

将上述待合成文本的音素序列输入至声学特征模型的文本编码网络，得到文本特征。

具体的实施中，由于待合成文本中可能存在不规范的字符，因此可以对待合成文本进行标准化处理，以将待合成文本中非预设语言的字符转换为预设语言的字符。以待合成文本是中文文本为例，该中文文本中可能有非中文词组如5％，可以通过正则表达式匹配待合成文本中的非中文词组，并将该非中文词组转换为相应的中文读法如将5％转换为百分之五。通过对待合成文本的上述标准化处理，可以确保待合成文本的音素序列的准确性。

在基于转换后的待合成文本来确定待合成文本的音素序列时，可以先对转换后的待合成文本进行韵律预测以获得字符级别的韵律标签，该韵律标签可以是如韵律词或韵律短语等韵律字符对应的音素后添加的一个表示停顿的特殊标识。具体的韵律预测可以使用一个训练好的Bert模型来获取转换后待合成文本中各字符的字符向量，并将各字符的字符向量输入到一个训练好的多层感知机中，通过该多层感知机得到字符级别的韵律标签。其中，多层感知机可以包括输入层、隐藏层和输出层，其中输入层的节点数可以为768个，隐藏层可以包括两层即第一层隐藏层和第二层隐藏层，该第一层隐藏层和第二层隐藏层的节点个数可以相同例如均为256个，输出层的节点数可以为4个。然后根据预设的音素转换字典将转换后的待合成文本中的各字符转换为对应的音素，并在与韵律字符对应的音素后添加相应的韵律标签，从而得到待合成文本的音素序列。其中，预设的音素转换字典是与预设语言的待合成文本相对应的音素转换字典。以预设语言的待合成文本是中文文本为例，可以先使用一个拼音字典将转换后的待合成文本中的汉字转换为拼音，如中国->zhong1guo2，然后使用一个拼音音素映射字典将拼音转为发音音素，如zhong1 guo2->JH UH1NG1 G UW2AO2。

本公开的实施例中，待合成文本的文本特征可以由待合成文本的音素序列中各音素的特征表示构成，音素序列中各音素的特征表示可以通过声学特征模型的文本编码器对音素序列进行编码处理得到。具体的实施中，文本编码器可以包括依次连接的嵌入embedding层、三层一维卷积神经网络和双向LSTM(LongShort-Term Memory，长短期记忆)网络，其中，嵌入embedding层将音素序列中各音素转换为嵌入向量，三层一维卷积神经网络根据嵌入向量可以学习得到每个音素的局部上下文信息，而双向LSTM网络则可以根据每个音素的局部上下文信息得到每个音素的双向全局信息，从而文本编码器通过上述的三层一维卷积神经网络和双向LSTM网络能够得到待合成文本的音素序列中各音素的具有强表现力且包含上下文信息的特征表示。

本公开实施例通过对待合成文本的转换并基于转换后的待合成文本确定音素序列，确保了音素序列的准确性，在后续将音素序列输入至声学特征模型的文本编码网络得到相应的文本特征时提高文本特征的准确性，进而有利于提高合成的目标情感语音的准确性。

在步骤23中，根据输入的情感标签和情感强度值，确定上述待合成文本的情感特征。

其中，情感标签用于表征情感类别，例如情感类别可以包括：高兴、悲伤、惊喜、生气等等，不同的情感类别可以对应不同的情感标签，而同一情感类别在表达时还可以有不同的情感强度值，情感强度值用于标识情感强度大小，情感强度是指人对事物所产生的选择倾向性，它是情感最重要的动力特性。

本公开的实施例中，可以预先设置情感强度值的取值范围，一般情感强度值越大则其表示的情感强度越大，例如可以将情感强度值的取值范围设置为0～5。用户在需要输入情感强度值时，可以根据对于合成语音情感强度的需求输入该取值范围内的数值，从而可以控制最终合成语音的情感强度。例如，需要在合成语音中表达非常高兴的情感，则可以输入情感类别是高兴的情感标签，同时输入一个比较大的情感强度值如4，则可以在最终合成语音中表现出非常高兴的情感；而如果仅仅想表现一点点高兴，则可以输入一个比较小的情感强度值如2。

作为一个可能的实施方式，上述步骤S23在实施时可以包括如图3所示的以下步骤：

在步骤S231中，确定输入的情感标签对应的独热编码向量。

在步骤S232中，根据所述独热编码向量和预设的情感词典，得到所述情感标签对应的情感编码信息。

在步骤S233中，根据所述情感编码信息和输入的情感强度值，得到所述待合成文本的情感特征。

其中，独热编码又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。情感词典可以是一个预先训练好的m行n列的矩阵，该矩阵汇中的每一行表征一个情感类别，每一行中的元素表征该情感类别在该元素所在列的表达值，其中m和n的具体数值可以在情感词典训练开始时根据实际情况进行初始化设定，例如情感词典可以是6x128的矩阵，也即该情感词典包括6个情感类别。本公开的实施例中，情感标签的独热编码向量的维度与情感词典中列的维度相一致。

具体的，在根据情感标签的独热编码向量和预设的情感词典确定该情感标签的情感编码信息时，可以计算该独热编码向量与情感词典的张量积，得到的结果即为情感标签对应的情感编码信息。在数学中，张量积(tensor product)可以应用于不同的上下文中如向量、矩阵、张量、向量空间、代数、拓扑向量空间和模，其属于一般的双线性运算，在某些上下文中也叫做外积。

举例而言，假设情感标签的独热编码向量为[0,1,0,……,0]^T，情感词典为

则该情感标签对应的情感编码信息为：

在获取到输入的情感强度值后，可以计算该情感强度值与情感标签的情感编码信息之间的乘积，从而可以得到待合成文本的情感特征。具体的实施中，可以基于以下公式计算情感特征：y＝w*x，其中，x为输入情感标签的情感编码信息，w为获取到的输入的情感强度值，该w的取值范围可以为0～5，y为情感特征。

本公开实施例针对输入的情感标签，通过该情感标签的独热编码向量和预设的情感词典得到该情感标签的情感编码信息，进而可以根据该情感编码信息和输入的情感强度值得到待合成文本的情感特征，从而将输入的情感标签和情感强度值与基于待合成文本合成的目标情感语音建立关联性。

在步骤24中，融合所述文本特征和所述情感特征，得到上述待合成文本对应的情感文本特征。

其中，融合的具体方式可以是将文本特征与情感特征相加并将相加结果作为待合成文本的情感文本特征，也可以是计算文本特征与情感特征的点乘并将点乘结果作为待合成文本的情感文本特征。

在步骤25中，根据上述情感文本特征，确定上述待合成文本对应的声学特征。

其中，声学特征可以是预设维度的梅尔声学特征，例如该预设维度可以是80维，该梅尔声学特征可以包括基频特征、时长特征、能量特征。具体的实施中，可以将上述情感文本特征输入预训练的深度神经网络进行梅尔声学特征的预测，进而可以得到带有情感的梅尔声学特征以作为待合成文本对应的声学特征。

在步骤26中，根据上述待合成文本对应的声学特征合成目标情感语音。

具体的，可以调用声码器将上述待合成文本对应的声学特征转换为语音波形以得到目标情感语音。其中，声码器可以为Wavenet、Griffin-Lim、单层循环神经网络模型WaveRNN、基于非自回归网络的Parallel WaveGan等等，以获取更好的音质，达到与真人讲话接近的音质效果。

本公开的实施例中由于合成目标情感语音的声学特征是基于情感文本特征确定的，而情感文本特征是由待合成文本的文本特征与情感标签的情感特征融合得到，且该情感标签的情感特征是根据输入的情感标签和情感强度值确定，从而合成的目标情感语音的情感表现力与输入的情感标签和情感强度值相关联，输入不同的情感标签可以得到不同情感类别的目标情感语音，且对于同一情感类别输入不同的情感强度值可以得到不同情感强度的目标情感语音，进而提升了合成语音的情感表现力，实现合成语音情感表现多样化，并可控制合成语音的情感强度，满足了对于合成语音“高拟人，高逼真，高情感表现力”的要求。

为了降低实现本公开实施例的语音合成方法的语音合成装置的复杂性，作为一个可能的实施方式，可以预先训练一个声学特征模型，如图4所示，该声学特征模型可以包括情感编码层、文本编码网络、情感强度控制层、时长预测网络、基频预测网络、能量预测网络、多个融合层和声学特征解码网络。

其中，情感编码层可以基于预训练的情感词典将输入的情感标签映射为情感编码信息。该预训练的情感词典可以是一个预先训练好的m行n列的矩阵，该矩阵汇中的每一行表征一个情感类别，每一行中的元素表征该情感类别在该元素所在列的表达值。

文本编码网络可以包括依次连接的嵌入embedding层、三层一维卷积神经网络和双向LSTM(LongShort-Term Memory，长短期记忆)网络，其中，嵌入embedding层将音素序列中各音素转换为嵌入向量，三层一维卷积神经网络根据嵌入向量可以学习得到每个音素的局部上下文信息，而双向LSTM网络则可以根据每个音素的局部上下文信息得到每个音素的双向全局信息，从而文本编码器通过上述的三层一维卷积神经网络和双向LSTM网络能够得到待合成文本的音素序列中各音素的具有强表现力且包含上下文信息的特征表示。

情感强度控制层可以获取输入的情感强度值，并基于预设函数y＝w*x，得到情感特征，其中，x为输入情感标签的情感编码信息，w为获取到的输入的情感强度值，该w的取值范围可以为0～5，y为情感特征，从而得到的情感特征是对所需情感强度的情感类别的特征表示。

时长预测网络、基频预测网络和能量预测网络的网络结构可以相同，均可以包括两层一维卷积神经网络和一个全连接层。对于时长预测网络，通过两层一维卷积神经网络后再通过一个全连接层可以输出预测的字符的发音时长；对于基频预测网络，通过两层一维卷积神经网络后再一个全连接层可以输出预测的字符的发音基频；对于能量预测网络，通过两层一维卷积神经网络后再通过一个全连接层可以输出预测的字符的发音能量大小，该发音能量大小可以通过分贝数值体现。

声学特征解码网络可以是基于位置敏感的注意力机制解码网络，基于位置敏感的注意力机制是对之前注意力机制的扩展，其可以使用之前解码处理的累积注意力权重作为额外的特征，因此使得语音合成在沿着输入序列向前移动的时候保持前后一致，减少了解码过程中潜在的子序列重复和遗漏。具体的，该声学特征解码网络可包括基于位置敏感的注意力机制层、PreNet层和两层LSTM网络，其中，PreNet层由两层全连接层构成，且每层全连接层后都有激活函数层。

基于上述的声学特征模型，在一个可能的实施方式中，上述步骤S25在根据情感文本特征确定待合成文本对应的声学特征时，可以包括图5中的以下步骤：

在步骤S251中，将所述情感文本特征输入至声学特征模型，得到所述音素序列中各音素的时长特征、基频特征和能量特征。

其中，时长特征表征相应音素在合成语音中的持续发音时长，基频特征表征相应音素在合成语音中的发音基频，能量特征表征相应音素在合成语音中的发音能量大小，示例性的，该发音能量大小可以为分贝量。

具体的，可以将情感文本特征输入至声学特征模型的时长预测网络，并将该时长预测网络输出的预测时长直接作为音素序列中相应音素的时长特征。将该情感文本特征输入至声学特征模型的基频预测网络，并将基频预测网络输出的预测基频特征直接作为音素序列中相应音素的基频特征。将情感文本特征与音素序列中各音素的基频特征融合后输入至声学特征模型的能量预测网络，并将能量预测网络输出的预测能量特征直接作为音素序列中相应音素的能量特征。

作为一个可能的实施方式，为了能够进一步提高情感语音合成的灵活性，实现对合成情感语音的语速的控制，如图6所示，在将情感文本特征输入至声学特征模型得到音素序列中各音素的时长特征时，可以包括以下步骤：

在步骤S61中，将所述情感文本特征输入至声学特征模型的时长预测网络，得到所述音素序列中各音素的预测时长特征。

可以理解的，该预测时长特征是时长预测网络的输出结果。

在步骤S62中，获取输入的时长调整系数。

在步骤S63中，根据所述时长调整系数对所述音素序列中各音素的预测时长特征进行调整，得到所述音素序列中各音素的时长特征。

具体的，用户可以根据实际应用中对于合成情感语音的快慢需求输入相应的时长调整系数，在根据时长调整系数对音素序列中各音素的预测时长特征进行调整时，可以计算音素序列中各音素的预测时长特征与该时长调整系数的乘积，将音素的预测时长特征与时长调整系数的乘积结果作为该音素的时长特征，从而可以得到音素序列中各音素的时长特征。一般时长调整系数小于1时可以加快合成情感语音的语速，时长调整系数大于1时可以减慢合成情感语音的语速。示例性的，时长调整系统的取值范围可以是0.5～2。

通过利用输入的时长调整系数来对预测的预测时长特征进行调整，可以实现根据实际对于合成情感语音的语速需求对合成情感语音进行灵活控制。

作为一个可能的实施方式，为了能够进一步提高情感语音合成的灵活性，实现对合成情感语音的频率的控制，如图7所示，在将情感文本特征输入至声学特征模型得到音素序列中各音素的基频特征时，可以包括以下步骤：

在步骤S71中，将所述情感文本特征输入至所述声学特征模型的基频预测网络，得到所述音素序列中各音素的预测基频特征。

可以理解的，该预测基频特征是基频预测网络的输出结果。

在步骤S72中，获取输入的基频调整值和预设基频调整方式。

在步骤S73中，根据所述基频调整值和所述预设基频调整方式，对所述音素序列中各音素的预测基频特征进行调整，得到所述音素序列中各音素的基频特征。

具体的，用户可以根据实际应用中对于合成情感语音的频率需求输入相应的频率调整值和预设基频调整方式，以控制合成语音的频率。其中，预设基频调整方式可以包括在预测基频特征基础上加上频率调整值或者在预测基频特征基础上减去频率调整值，具体采用哪种预设基频调整方式可以由用户根据实际对于合成情感语音的频率需求来选择，若需要合成情感语音的频率提高，则可以选择在预测基频特征基础上加上频率调整值，若需要合成情感语音的频率降低，则可以在预测基频特征基础上减去频率调整值。其中，频率调整值也可以由用户根据实际需要的频率调整幅度进行输入，示例性的，频率调整值的取值范围可以是0～100Hz。

通过利用输入的基频调整值和预设基频调整方式来对预测的预测基频特征进行调整，可以实现根据实际对于合成情感语音的频率需求对合成情感语音进行灵活控制。

作为一个可能的实施方式，为了能够进一步提高情感语音合成的灵活性，实现对合成情感语音的音强的控制，如图8所示，在将情感文本特征输入至声学特征模型得到音素序列中各音素的能量特征时，可以包括以下步骤：

在步骤S81中，将所述情感文本特征与所述音素序列中各音素的基频特征进行融合，得到第一融合文本特征。

具体的融合方式可以是将音素序列中各音素的基频特征与该音素在情感文本特征中对应的特征进行加和，并将该加和结果作为第一融合文本特征，或者将音素序列中各音素的基频特征与该音素在情感文本特征中对应的特征以向量形式进行点乘，并将该点乘结果作为第一融合文本特征。

在步骤S82中，将所述第一融合文本特征输入至所述声学特征模型的能量预测网络，得到所述音素序列中各音素的预测能量特征。

可以理解的，该预测能量特征是能量预测网络的输出结果。

在步骤S83中，获取输入的能量调整值和预设能量调整方式。

在步骤S84中，根据所述能量调整值和所述预设能量调整方式，对所述音素序列中各音素的预测能量特征进行调整，得到所述音素序列中各音素的能量特征。

具体的，用户可以根据实际应用中对于合成情感语音的发音强度需求输入相应的能量调整值和预设能量调整方式，以控制合成语音的语音强度。其中，预设能量调整方式可以包括在预测能量特征基础上加上能量调整值或者在预测能量特征基础上减去能量调整值，具体采用哪种预设能量调整方式可以由用户根据实际对于合成情感语音的发音强度需求来选择，若需要合成情感语音的发音强度提高，则可以选择在预测能量特征基础上加上能量调整值，若需要合成情感语音的发音强度降低，则可以在预测能量特征基础上减去能量调整值。其中，能量调整值也可以由用户根据实际需要的能量调整幅度进行输入。

通过利用输入的能量调整值和预设能量调整方式来对预测的预测能量特征进行调整，可以实现根据实际对于合成情感语音的发音强度需求对合成情感语音进行灵活控制。

可以理解的，图6、图7和图8所示方法可以根据实际需要进行任意的组合，从而可以实现对合成情感语音的语速、频率和强度的共同控制，也可以实现对合成情感语音的语速、频率和强度中的一个或者多个的控制。

在步骤S252中，将所述情感文本特征与所述音素序列中各音素的时长特征、基频特征和能量特征进行融合，得到目标融合文本特征。

具体的，可以先将情感文本特征与所述音素序列中各音素的基频特征进行融合得到第一融合文本特征，然后将该第一融合文本特征与音素序列中各音素的能量特征进行融合，得到第二融合文本特征，进而根据音素序列中各音素的时长特征对该第二融合文本特征进行帧级别的复制操作得到目标融合文本特征。其中，第一融合文本特征和第二融合文本特征对应的融合方式可以是相应特征之间相加或者点乘。

可以理解的，第二融合文本特征实质由与音素序列中各音素相对应的音素特征构成的音素特征序列，该音素特征序列中每个音素特征包括与该音素相对应的文本特征、情感特征、基频特征和能量特征。在根据音素序列中各音素的时长特征对第二融合文本特征进行帧级别的复制操作时，可以将每个音素特征扩充为一个帧序列单元，该帧序列单元包含的帧数量与该音素特征对应音素的时长特征相一致，在将音素特征扩充为帧单元序列时可以对该音素特征进行复制操作的次数为(时长特征-1)，从而该帧单元序列中每一帧为其对应的音素特征。

举例而言，待合成文本的音素序列包括4个音素，其对应的第二融合文本特征是由4个80维的音素特征构成的序列，假设各音素对应的时长特征分别为3，2，1，1，则在对该第二融合文本特征进行帧级别的复制操作时，对第一音素特征复制2(3-1)次，从而得到对应第一音素的帧单元序列，该帧单元序列中包括3个第一音素特征；对第二音素特征复制1(2-1)次，从而得到对应第二音素的帧单元序列，该帧单元序列中包括2个第二音素特征；对第三音素特征不复制(1-1)，从而得到对应第三音素的帧单元序列，该帧单元序列中包括1个第三音素特征；对第四音素特征不复制(1-1)，从而得到对应第四音素的帧单元序列，该帧单元序列中包括1个第四音素特征。通过上述帧级别的复制操作后，可以得到由4个帧单元序列构成的目标融合文本特征，每个帧单元序列中包括数量与相应音素的时长特征相一致的帧，且每帧为与该音素相对应的音素特征，该音素特征包括相应音素对应的文本特征、情感特征、基频特征和能量特征。

在步骤S253中，根据所述目标融合文本特征，得到所述待合成文本对应的声学特征。

具体的，可以将目标融合文本特征输入至声学特征模型的声学特征解码网络，得到该声学特征解码网络输出的待合成文本对应的声学特征。具体的实施中，可以将目标融合文本特征、上一时刻的累积注意力权重和第一层LSTM网络当前时刻输出的解码隐状态输入至基于位置敏感的注意力机制层，得到输出的注意力上下文向量；将该注意力上下文向量与第一层LSTM网络当前时刻输出的解码隐状态拼接后输入至第二层LSTM网络，得到该第二层LSTM网络当前时刻输出的解码隐状态。将该第二层LSTM网络当前时刻输出的解码隐状态与注意力上下文向量拼接后输入至PreNet层，并将该PreNet层的输出与注意力上下文向量拼接后作为第一层LSTM网络的输入；根据第二层LSTM网络在各个时刻输出的解码隐状态与注意力上下文向量的拼接结果预测梅尔声学特征。其中，注意力上下文向量的维度与目标融合文本特征的维度相一致，例如可以均为512维。

本公开的实施例通过单一的声学特征模型可以实现合成情感语音的多样化，结构简单，不仅提高了情感语音合成的效率，而且可以实现合成情感语音的语速、频率、音强以及情感强度的控制，既可以根据场景需求控制上述的任一一种，也可以共同控制，大大提高了情感语音合成的灵活性。

下面简要介绍上述声学特征模型的训练过程，该训练过程可以包括以下步骤：

获取训练样本集合，该训练样本集合中的训练样本包括样本语音对应的样本音素序列和声学特征(如梅尔频谱)，与该样本语音对应的情感标签、情感强度值，各样本音素对应的时长、基频和能量。

将训练样本中的样本音素序列输入至声学特征模型的文本编码网络，将该训练样本中的情感标签输入至声学特征模型的情感编码层，将该训练样本中的情感强度值输入至声学特征模型的情感强度控制层，同时将该训练样本中的声学特征(如梅尔频谱)，各样本音素对应的时长、基频和能量作为期望输出数据，训练该声学特征模型，在训练过程中根据实际输出数据与期望输出数据之间的差异反向调整声学特征模型中的模型参数，直至满足训练结束条件。其中，训练结束条件可以是实际输出数据与期望输出数据之间的差异达到最小，也可以是迭代次数达到预设迭代次数阈值。

图9是根据一示例性实施例示出的一种语音合成装置的框图。参照图9，该语音合成装置900包括文本获取单元91，文本特征确定单元92，情感特征确定单元93，第一融合单元94，声学特征确定单元95，语音合成单元96。

该文本获取单元91，被配置为执行获取待合成文本；

该文本特征确定单元92，被配置为执行根据所述待合成文本的音素序列，确定所述待合成文本的文本特征；

该情感特征确定单元93，被配置为执行根据输入的情感标签和情感强度值，确定所述待合成文本的情感特征；

该第一融合单元94，被配置为执行融合所述文本特征和所述情感特征，得到所述待合成文本对应的情感文本特征；

该声学特征确定单元95，被配置为执行根据所述情感文本特征，确定所述待合成文本对应的声学特征；

该语音合成单元96，被配置为执行根据所述待合成文本对应的声学特征合成目标情感语音。

作为一个可能的实施方式，所述情感特征确定单元93，包括：

作为一个可能的实施方式，所述声学特征确定单元95，包括：

作为一个可能的实施方式，所述第二确定单元，包括：

第一获取单元，被配置为执行获取输入的时长调整系数；

作为一个可能的实施方式，所述第二确定单元，包括：

作为一个可能的实施方式，所述文本特征确定单元92，包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一示例性的实施例中，还提供了一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行存储器上所存放的指令时，实现上述实施例提供的任一种语音合成方法的步骤。

该电子设备可以是终端、服务器或者类似的运算装置，以该电子设备是终端为例，图10是根据一示例性实施例示出的运行一种语音合成方法的终端的框图，具体来讲：

所述终端可以包括RF(Radio Frequency，射频)电路1010、包括有一个或一个以上计算机可读存储介质的存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、WiFi(wireless fidelity，无线保真)模块1070、包括有一个或者一个以上处理核心的处理器1080、以及电源1090等部件。本领域技术人员可以理解，图10中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1080处理；另外，将涉及上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述终端的使用所创建的数据等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1020还可以包括存储器控制器，以提供处理器1080和输入单元1030对存储器1020的访问。

输入单元1030可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1030可包括触敏表面1031以及其他输入设备1032。触敏表面1031，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1031上或在触敏表面1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1031。除了触敏表面1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及所述终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1040可包括显示面板1041，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1041。进一步的，触敏表面1031可覆盖显示面板1041，当触敏表面1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。其中，触敏表面1031与显示面板1041可以两个独立的部件来实现输入和输入功能，但是在某些实施例中，也可以将触敏表面1031与显示面板1041集成而实现输入和输出功能。

所述终端还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在所述终端移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于所述终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与所述终端之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一终端，或者将音频数据输出至存储器1020以便进一步处理。音频电路1060还可能包括耳塞插孔，以提供外设耳机与所述终端的通信。

WiFi属于短距离无线传输技术，所述终端通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070，但是可以理解的是，其并不属于所述终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是所述终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行所述终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器1080可包括一个或多个处理核心；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

所述终端还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1090还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，所述终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的语音合成方法的指令。

本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，终端1000还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

在一示例性的实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1020，上述指令可由装置1000的处理器1080执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在一示例性的实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本公开实施例提供的语音合成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音合成方法，其特征在于，包括：

获取待合成文本；

根据所述待合成文本对应的声学特征合成目标情感语音。

2.根据权利要求1所述的语音合成方法，其特征在于，所述根据输入的情感标签和情感强度值，确定所述待合成文本的情感特征，包括：

确定输入的情感标签对应的独热编码向量；

3.根据权利要求1所述的语音合成方法，其特征在于，所述根据所述情感文本特征，确定所述待合成文本对应的声学特征，包括：

4.根据权利要求3所述的语音合成方法，其特征在于，所述将所述情感文本特征输入至声学特征模型，得到所述音素序列中各音素的时长特征，包括：

获取输入的时长调整系数；

5.根据权利要求3所述的语音合成方法，其特征在于，所述将所述情感文本特征输入至声学特征模型，得到所述音素序列中各音素的基频特征，包括：

获取输入的基频调整值和预设基频调整方式；

6.根据权利要求3所述的语音合成方法，其特征在于，所述将所述情感文本特征输入至声学特征模型，得到所述音素序列中各音素的能量特征，包括：

获取输入的能量调整值和预设能量调整方式；

7.一种语音合成装置，其特征在于，包括：

文本获取单元，被配置为执行获取待合成文本；

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的语音合成方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的语音合成方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的语音合成方法。