CN112786004B

CN112786004B - 语音合成方法以及电子设备、存储装置

Info

Publication number: CN112786004B
Application number: CN202011615062.5A
Authority: CN
Inventors: 王瑾薇; 胡亚军; 江源
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2024-05-31
Anticipated expiration: 2040-12-30
Also published as: CN112786004A

Abstract

本申请公开了一种语音合成方法以及电子设备、存储装置，其中，语音合成方法包括：获取待合成文本和待合成文本的目标情感类型，并获取目标情感类型的参考音频；基于参考音频关于韵律参数的数据分布情况，获取与目标情感类型对应的韵律特征；其中，韵律参数包括以下至少一种：基频、强度、时长；以及，对待合成文本的音素序列进行特征提取，得到待合成文本的音素特征；利用韵律特征和音素特征进行解码，得到待合成文本融入目标情感类型后的合成音频。上述方案，能够准确地在合成音频中融入情感。

Description

语音合成方法以及电子设备、存储装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音合成方法以及电子设备、存储装置。

背景技术

语音合成是指将文本转化为音频的技术，从而能够使机器按照文本发出声音。目前，语音合成已在智能客服、小说阅读、智能车载等诸多场景得到了应用。然而，目前的语音合成缺乏情感，如在交互场景，智能客服并不能在交互过程中与用户产生共情，从而大大降低用户体验。有鉴于此，如何准确地在合成音频中融入情感成为极具研究价值的课题。

发明内容

本申请主要解决的技术问题文本是提供一种语音合成方法以及电子设备、存储装置，能够准确地在合成音频中融入情感。

为了解决上述问题文本，本申请第一方面提供了一种语音合成方法，包括：获取待合成文本和待合成文本的目标情感类型，并获取目标情感类型的参考音频；基于参考音频关于韵律参数的数据分布情况，获取与目标情感类型对应的韵律特征；其中，韵律参数包括以下至少一种：基频、强度、时长；以及，对待合成文本的音素序列进行特征提取，得到待合成文本的音素特征；利用韵律特征和音素特征进行解码，得到待合成文本融入目标情感类型后的合成音频。

为了解决上述问题文本，本申请第二方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音合成方法。

为了解决上述问题文本，本申请第三方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音合成方法。

上述方案，通过获取待合成文本和待合成文本的目标情感类型，并获取目标情感类型的参考音频，从而基于参考音频关于韵律参数的数据分布情况，获取与目标情感类型对应的韵律特征，且韵律参数包括以下至少一种：基频、强度、时长，进而对待合成文本的音素序列进行特征提取，得到待合成文本的音素特征，并利用韵律特征和音素特征进行解码，得到待合成文本融入目标情感类型后的合成音频，能够直接基于与目标情感类型对应的参考音频的基频、强度、时长中的至少一种数据分布情况，来得到韵律特征，有利于提高韵律特征的准确性，故能够有利于利用韵律特征和音素特征准确地进解码，进而能够准确地在合成音频中融入情感。

附图说明

图1是本申请语音合成方法一实施例的流程示意图；

图2是训练情感预测模型一实施例的状态示意图；

图3是本申请语音合成方法一实施例的框架示意图；

图4是图1中步骤S12一实施例的流程示意图；

图5是训练韵律提取网络一实施例的流程示意图；

图6是训练韵律提取网络一实施例的框架示意图；

图7是训练韵律提取网络另一实施例的框架示意图；

图8是本申请电子设备一实施例的框架示意图；

图9是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请语音合成方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取待合成文本和待合成文本的目标情感类型，并获取目标情感类型的参考音频。

在一个实施场景中，待合成文本可以根据实际应用场景进行设置。例如，在智能客服场景中，待合成文本可以是对用户的问题、指令等的回复文本，如对用户指令“请帮我查询一下本月话费”，对应的回复文本可以是“正在查询中请稍等”，从而可以将该回复文本作为待合成文本；或者，在小说阅读场景中，待合成文本也可以是人物的会话文本，如角色A的会话文本“恭喜你，抽中了本店的一等奖！”，角色B的会话文本“太好啦！我中奖啦！”。其他场景可以以此类推，在此不做限定。需要说明的是，本公开实施例以及下述其他公开实施例既可以应用于前述智能客服场景、小说阅读场景，也可以应用于智能车载、虚拟人物等其他需要语音合成的场景中，在此不做限定。

在一个实施场景中，待合成文本的目标情感类型可以是预设情感类型中的一种，即可以从预设情感类型中选择一种作为待合成文本的目标情感类型，以在最终得到的合成音频中融入该目标情感类型。具体地，预设情感类型是根据语音合成使用场景预先设置的。例如，可以对智能交互场景设置一组预设情感类型，可以对小说阅读场景设置一组预设情感类型等等，在此不再一一举例。上述方式，将目标情感类型设置为预设情感类型中的一种，且预设情感类型是根据语音合成使用场景预先设置的，能够有利于在不同使用场景采用不同特色的情感类型，从而能够有利于提高语音合成的适用范围。

在一个具体的实施场景中，预设情感类型可以包括但不限于：安慰、可爱、宠溺、调皮、鼓励、抱歉等，即预设情感类型的起伏变化较为平缓，从而在智能客服等交互场景中，即使目标情感类型选择错误，也能够尽可能地降低对用户体验的影响。如，前述待合成文本“正在查询中请稍等”，其正确的情感类型为“中立”，而选择的目标情感类型为“调皮”，在此情况下，也不会影响用户体验。上述方式，通过将目标情感类型设置为预设情感类型中的一种，且预设情感类型包括：安慰、可爱、宠溺、调皮、鼓励、抱歉，即预设情感类型起伏变化较为平缓，从而在智能客服等交互场景中，即使目标情感类型选择错误，能够尽可能地降低对用户体验的影响，进而能够有利于大大提高目标情感类型的容错性。

在另一个具体的实施场景中，预设情感类型还可以包括但不限于：悲伤、高兴、生气、惊讶、疑问、中立等，即预设情感类型可以具有较大的起伏变化，从而能够表达更为丰富的情感。如前述待合成文本“太好啦！我中奖啦！”，其可以选择预设情感类型“高兴”作为该待合成文本的目标情感类型，其他情况可以以此类推，在此不再一一举例。上述方式，将预设情感类型设置为包括但不限于：悲伤、高兴、生气、惊讶、疑问、中立，即预设情感类型的起伏变化较大，从而在小说阅读等场景中，能够表达更为丰富的情感，有利于将用户带入小说情节，提高用户体验。

在一个实施场景中，待合成文本的目标情感类型可以是由用户对待合成文本进行设置的，即用户可以指定待合成文本的目标情感类型，从而能够有利于满足用户对合成音频的定制需求。例如，在智能车载场景中，用户可以指定待合成文本的目标情感类型为“可爱”，从而使得诸如车载导航等，能够以融入“可爱”情感的合成音频与用户进行交互，其他情况可以以此类推，在此不再一一举例。上述方式，将目标情感类型设置为是由用户对待合成文本进行设置的，能够有利于满足用户对合成音频的定制需求。

在另一个实施场景中，目标情感类型也可以是对待合成文本进行预测得到的，即可以对待合成文本进行情感预测，得到待合成文本的目标情感类型。例如，在小说阅读场景中，以前述待合成文本“太好啦！我中奖啦！”为例，可以对该待合成文本进行预测，从而可以得到该待合成文本的目标情感类型“高兴”，其他情况可以以此类推，在此不再一一举例。上述方式，将目标情感类型设置为是对待合成文本预测得到的，能够有利于在语音合成过程中，大大减少人工参与度，提高语音合成的自动化程度以及智能化程度。

在一个具体的实施场景中，可以预先训练一个情感预测模型，从而可以将待合成文本输入该情感预测模型，得到待合成文本的目标情感类型。具体地，情感预测模型可以包括但不限于：BERT(BidirectionalEncoder Representation from Transformers,即双向Transformer的Encoder)等，在此不做限定。具体地，可以将待合成文本输入情感预测模型进行语义提取，得到待合成文本的情感语义表示，再利用情感语义表示进行预测，得到待合成文本属于每一种预设情感类型的预测概率值，并选择其中最大的预测概率值所对应的预设情感类型，作为待合成文本的目标情感类型。仍以前述待合成文本“太好啦！我中奖啦！”为例，预设情感类型可以包括：悲伤、高兴、生气、惊讶、疑问、中立，最终可以利用情感预测模型预测得到该待合成文本属于预设情感类型“悲伤”的预测概率值为0.01、属于预设情感类型“高兴”的预测概率值为0.9、属于预设情感类型“悲伤”的预测概率值为0.01、属于预设情感类型“惊讶”的预测概率值为0.06、属于预设情感类型“疑问”的预测概率值为0.01、属于预设情感类型“中立”的预测概率值为0.01，故可以将预设情感类型“高兴”，作为待合成文本“太好啦！我中奖啦！”的目标情感类型。其他情况可以以此类推，在此不再一一举例。

在另一个具体的实施场景中，请结合参阅图2，图2是训练情感预测模型一实施例的状态示意图。如图2所示，在训练情感预测模型时，可以先利用第一训练样本对情感预测模型进行训练，第一训练样本为大规模无监督数据，从而能够使得情感预测模型学习到丰富语义信息。在此基础上，可以利用第二训练样本对情感预测模型进行迁移学习，以利用大规模无监督数据训练得到的语义信息。此外，第二训练样本为小规模有监督情感数据，即第二训练样本标注有实际情感类型，从而可以利用第二训练样本经情感预测模型预测得到的预测情感类型与实际情感类型之间的差异，调整情感预测模型的网络参数，进而能够有利于提升情感预测的模型的准确性。

在一个实施场景中，如前所述，目标情感类型为预设情感类型中的一种，则可以预先基于每一种预设情感类型录制参考音频，从而可以将各种预设情感类型所对应的参考音频的组合，作为情感音库，在此基础上，在得到待合成文本的目标情感类型之后，可以在情感音库中获取与目标情感类型的参考音频。仍以预设情感类型包括：安慰、可爱、宠溺、调皮、鼓励、抱歉为例，可以预先录制融入“安慰”情感的参考音频、融入“可爱”情感的参考音频、融入“宠溺”情感的参考音频、融入“调皮”情感的参考音频、融入“鼓励”情感的参考音频、融入“抱歉”情感的参考音频。其他情况可以以此类推，在此不再一一举例。

步骤S12：基于参考音频关于韵律参数的数据分布情况，获取与目标情感类型对应的韵律特征。

本公开实施例中，韵律参数包括以下至少一种：基频、强度、时长。需要说明的是，一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的，这些振动中有一个频率最低的振动，该频率就是基频，由基频发出的音称为基音。此外，声波平均能流密度的大小称为声强，即声音强度。通常声音强度是由振动幅度的大小决定的，以能量来计算声强。时长表示声音中音素或词语或句子的发音时长。为了提高韵律特征的准确性，可以获取尽可能多的韵律参数的数据分布情况。例如，可以获取基频的数据分布情况、强度的数据分布情况和时长的分布情况；或者，可以获取基频、强度、时长中任意两者的数据分布情况，在此不做限定。此外，韵律参数还可以包括诸如谐波等采用数字信号处理(DigitalSignal Processing，DSP)技术所提取的参数，在此不再一一举例。

在一个实施场景中，数据分布情况可以包括若干种数值统计量。若干种数值统计量具体可以包括但不限于：均值、方差、数值变化范围等，在此不做限定。例如，数据分布情况可以包括以下至少一者：基频的均值、方差和数值变化范围，强度的均值、方差和数值变化范围，时长的均值、方差和数值变化范围。具体地，可以对参考音频进行采样，以获取若干参数数值(如，基频数值、强度数值、时长数值等)，在此基础上，可以对上述若干参数数值的均值、方差、数值变化范围等进行归一化处理以使得归一化后的数据分布满足高斯分布，从而得到均值、方差、数值变化范围等数值统计量。在此基础上，可以利用上述若干种数值统计量提取得到韵律特征，具体可以参阅下述相关实施例，在此暂不赘述。此外，数据分布情况除了可以包括若干种数值统计量，还可以进一步包括但不限于：清浊音标记、中文或英文标记、短静音或长静音标记等，在此不做限定。

在另一个实施场景中，韵律参数的数据分布情况可以是在至少一种统计维度分别得到的，至少一种统计维度可以包括但不限于：句子级、词语级、音素级。需要说明的是，在统计维度为句子级的情况下，可以以整个参考音频为统计对象，统计在整个参考音频中韵律参数的数据分布情况；而在统计维度为词语级的情况下，可以分别以每个词语为统计对象，统计参考音频在每个词语发音过程中韵律参数的数据分布情况；而在统计维度为音素级的情况下，可以分别以每个音素为统计对象，统计参考音频在每个音素发音过程中韵律参数的数据分布情况。此外，音素(phone)是指根据语音的自然属性划分出来的最小语音单元，依据音节的发音动作分析，一个动作构成一个音素，音素一般分为元音和辅音两大类，如汉语音节“啊(ā)”只有一个音素，而“爱(ài)”有两个音素，“代(dài)”有三个音素，其他情况可以以此类推，在此不再一一举例。上述方式，通过在至少一种统计维度分别得到韵律参数的数据分布情况，能够提高韵律特征的特征信息的丰富度，从而能够有利于进一步提高韵律特征的准确性。

在又一个实施场景中，为了进一步提高韵律特征的特征信息丰富度，对于韵律参数“基频”而言，可以在句子级统计维度，统计参考音频关于韵律参数“基频”的数据分布情况，并在词语级统计维度，统计参考音频关于韵律参数“基频”的数据分布情况，并在音素级统计维度，统计参考音频关于韵律参数“基频”的数据分布情况，从而可以基于上述不同统计维度关于韵律参数“基频”的数据分布情况，可以得到参考音频的基频特征；而对于韵律参数“强度”而言，以此类推，可以统计得到参考音频关于韵律参数“强度”在句子级统计维度、词语级统计维度和音素级统计维度的数据分布情况，在此基础上，可以提取得到参考音频的强度特征；并且对于韵律参数“时长”而言，也可以以此类推，统计得到参考音频关于韵律参数“时长”在句子级统计维度、词语级统计维度和音素级统计维度的数据分布情况，在此基础上，可以提取得到参考音频的时长特征，最终可以将上述基频特征、强度特征和时长特征进行融合(如，进行拼接)，得到参考音频的韵律特征。上述方式，能够使得韵律特征包含各个统计维度上不同韵律参数的特征信息，从而能够尽可能地提高韵律特征的丰富度。

在又一个实施场景中，为了提高特征提取效率，可以预先训练一个韵律提取网络，从而可以利用韵律提取网络对韵律参数的数据分布情况进行特征提取，得到韵律特征。具体地，韵律提取网络可以包括但不限于：VAE(Variational AutoEncoder，变分自编码模型)等，在此不做限定。韵律提取网络的具体训练可以参阅下述相关公开实施例中的步骤，在此暂不赘述。

在又一个实施场景中，请继续结合参阅图3，如图3所示，除了可以利用参考音频，得到韵律特征，还可以预先训练一个韵律预测网络，从而利用韵律预测网络得到韵律特征。具体地，可以将待合成文本和目标情感类型输入韵律预测网络，得到与目标情感类型对应的韵律特征。韵律预测网络的具体训练过程可以参阅下述其他公开实施例，在此暂不赘述。

步骤S13：对待合成文本的音素序列进行特征提取，得到待合成文本的音素特征。

在一个实施场景中，音素的具体含义可以参阅前述相关描述，在此不再赘述。待合成文本的音素序列可以包含待合成文本中各个文字的音素。仍以前述待合成文本“太好啦！我中奖啦！”为例，其音素序列可以包括：tài hǎo lāwǒzhōng jiǎng lā，其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，为了提高特征提取的效率，可以预先训练一个音素提取网络，该音素提取网络可以包括但不限于：tacotron等，在此不做限定。本公开实施例中，通过对音素序列进行特征提取，能够包含上下文发音表征的音素特征。

步骤S14：利用韵律特征和音素特征进行解码，得到待合成文本融入目标情感类型后的合成音频。

请结合参阅图3，图3是本申请语音合成方法一实施例的框架示意图。如图3所示，在得到音素特征和韵律特征之后，可以将音素特征和韵律特征输入解码器进行解码，最终得到融入目标情感类型后的合成音频。解码器具体可以包括但不限于：LSTM(Long Short-Term Memory，长短期记忆网络)等，在此不做限定。

在一个实施场景中，如图3所示，在第t-1时刻解码时，可以得到一个音频帧的声学参数x_t-1，则在第t时刻解码时，为了提高合成音频的流畅性和自然度，可以将上一时刻(即第t-1时刻)解码得到的声学参数x_t-1与音素特征、韵律特征输入解码器，得到第t时刻解码所得到的音频帧的声学参数x_t，最终可以利用声码器对各个音频帧的声学参数进行转换，得到合成音频。需要说明的是，声学参数可以包括上述基频、强度、时长等，此外声学参数还可以包括但不限于：清浊音参数、线性预测参数等，在此不做限定。

在另一个实施场景中，请结合参阅图3，为了提高解码准确性，在利用解码器进行解码之前，还可以将音素特征输入注意力机制网络，从而能够通过注意力机制网络对齐待合成文本中字级或音素级与解码器输出的音频帧的声学参数之间的对应关系。

在又一个实施场景中，请继续参阅图3，为了进一步提高解码准确性，区别于前述描述，在解码过程中，还可以进一步利用目标情感类型、韵律特征和音素特征进行解码，得到若干音频帧的声学参数，从而利用若干音频帧的声学参数，得到合成音频，具体过程可以参阅前述相关描述，在此不再赘述。上述方式，在解码过程中，通过在韵律特征和音素特征的基础上进一步融入目标情感类型，能够有利于在解码过程中进一步加强目标情感类型，从而能够有利于提高合成音频中融入目标情感类型的效果。

请参阅图4，图4是图1中步骤S12一实施例的流程示意图。本公开实施例中，数据分布情况包括若干种数值统计量，若干种数值统计量的具体含义可以参阅前述公开实施例中相关描述，在此不再赘述。本公开实施例具体可以包括如下步骤：

步骤S41：基于韵律参数的若干种数值统计量，得到韵律参数的期望数值。

在一个实施场景中，如前述公开实施例所述，若干种数值统计量包括数值变化范围，为了提高韵律特征的丰富度，可以在至少一种统计维度，分别统计参考音频关于韵律参数的初始分布情况，并基于初始分布情况中的极值(如，极大值、极小值等)，获取数值变化范围，其中，至少一种统计维度包括：句子级、词语级、音素级。上述方式，在至少一种统计维度，分别统计参考音频关于韵律参数的初始分布情况，并基于初始分布情况中的极值，获取数值变化范围，且至少一种统计维度包括：句子级、词语级、音素级，从而能够提高韵律特征的特征信息的丰富度，从而能够有利于进一步提高韵律特征的准确性。

在一个具体的实施场景中，可以在至少一种统计维度对参考音频进行采样，获取若干参数数值(如，基频数值、强度数值、时长数值等)，在此基础上，可以对上述若干参数数值进行归一化处理，得到在对应统计维度上韵律参数的数据分布情况。例如，可以在“句子级”统计维度对参考音频的“基频”进行数据采样，得到在“句子级”统计维度参考音频关于韵律参数“基频”的初始分布情况，在其他统计维度或其他韵律参数的情况下，可以以此类推，在此不再一一举例。

在另一个具体的实施场景中，具体可以去除初始分布情况中预设百分比(如，5％)的极值，从而得到数值变化范围，有利于提高数值变化范围的鲁棒性。仍以前述在“句子级”统计维度对参考音频的“基频”采样得到的初始分布情况为例，可以去除其中5％的极值，得到“句子级”统计维度参考音频关于韵律参数“基频”的数据分布情况。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，可以获取韵律参数的第一期望调整系数，并将方差与第一期望调整数据的乘积与均值之和，作为韵律参数的期望数值。上述方式，通过获取韵律参数的第一期望调整系数，从而将方差与第一期望调整数据的乘积与均值之和，作为韵律参数的期望数值，能够有利于提高调整韵律参数的期望数值的便利性。

在一个具体的实施场景中，第一期望调整系数可以在预设数值范围内选择，预设数值范围具体可以根据实际应用情况进行设置。例如，如前述公开实施例所述，韵律参数的数据分布情况满足高斯分布，即其数据分布居中于均值，且主要分布于[μ-3δ,μ+3δ]范围内。此外，高斯分布满足在[μ-δ,μ+δ]区间内，占据68.26％的数据量，在[μ-2δ,μ+2δ]区间内，占据95.44％的数据量，在[μ-3δ,μ+3δ]区间内，占据99.74％的数据量，在此基础上，上述预设数值范围具体可以设置为-3至3，其他情况可以以此类推，在此不再一一举例。

在另一个具体的实施场景中，第一期望调整系数具体可以是由用户进行设置的，例如，用户期望最终得到的合成音频具有较低的基频，则可以将第一期望调整系数设置地较小(如，-3、-2.5、-2等等)，或者，用户期望最终得到的合成音频具有较高的基频，则可以将第一期望调整系数设置地较大(如，2、2.5、3等等)，在此不做限定。

在又一个具体的实施场景中，如前所述，可以在至少一种统计维度，获取数据分布情况，则可以分别针对每一种统计维度得到的关于韵律参数的方差，采用第一期望调整系数进行相乘，并将乘积与对应的均值相加，得到在该统计维度参考音频关于韵律参数的期望数值。例如，在“句子级”统计维度得到参考音频关于“基频”的均值和方差/>在第一期望调整系数为α的情况下，得到“句子级”统计维度参考音频关于韵律参数“基频”的期望数值/>为了便于描述可以记为/>以此类推，可以得到“词语级”统计维度参考音频关于韵律参数“基频”的期望数值/>以及“音素级”统计维度参考音频关于韵律参数“基频”的期望数值/>同理可以得到“句子级”统计维度参考音频关于韵律参数“强度”期望数值/>“词语级”统计维度参考音频关于韵律参数“强度”期望数值以及“音素级”统计维度参考音频关于韵律参数“强度”期望数值/>还可以得到“句子级”统计维度参考音频关于韵律参数“时长”期望数值/>“词语级”统计维度参考音频关于韵律参数“时长”期望数值/>以及“音素级”统计维度参考音频关于韵律参数“时长”期望数值/>在此不做限定。

在又一个具体的实施场景中，在若干种数值统计量还包括数值变化范围的情况下，还可以将上述方差与第一期望系数的乘积与均值之和，以及数值变化范围，共同作为期望数值。

步骤S42：对至少一种韵律参数的期望数值进行特征提取，得到韵律特征。

在一个实施场景中，如前述公开实施例所述，为了提高特征效率，可以采用韵律提取网络(如，VAE)对至少一种韵律参数的期望数值进行特征提取，得到韵律特征。

此外，除了可以如前述方式，通过韵律参数的第一期望调整系数处理韵律参数的均值和方差，得到对应韵律参数的期望数值，也可以在基于参考音频关于韵律参数的数据分布情况，获取与目标情感类型对应的韵律特征之后，获取韵律参数的第二期望调整系数，并利用第二期望调整系数直接更新所得到的韵律特征。上述方式，在得到韵律特征之后，通过获取韵律参数的第二期望调整系数，并利用第二期望调整系数，更新韵律特征，能够有利于进一步提高调整韵律特征的便利性。

在一个具体的实施场景中，第二期望调整系数可以根据实际应用需要进行设置，如可以设置为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.1、1.2等等，在此不做限定。

在另一个具体的实施场景中，可以直接利用第二期望调整系数与韵律特征相乘，以对韵律特征进行更新。

需要说明的是，在采用如图3所示的韵律预测网络得到韵律特征的情况下，可以获取用户的第三期望调整系数，从而可以利用第三期望调整系数对韵律预测网络所预测得到的韵律特征进行更新，以便于用户对韵律特征调整，从而调整最终得到的合成音频。具体地，第三期望调整系数的设置方式可以参阅前述第二期望调整系数的设置方式，在此不再赘述。此外，可以直接将第三期望调整系数乘以韵律预测网络所预测得到的韵律特征，以更新韵律特征。

区别于前述实施例，通过将数据分布情况设置为包括若干种数值统计量，从而基于韵律参数的若干种数值统计量，得到韵律参数的期望数值，并对至少一种韵律参数的期望数值进行特征提取，得到韵律特征，能够降低韵律特征与文本之间的耦合关系，并使得不同种韵律参数之间互不耦合，从而有利于提高分别对不同韵律参数的期望数值进行调整的便利性。

请参阅图5，图5是训练韵律提取网络一实施例的流程示意图。具体可以包括如下步骤：

步骤S51：获取标注有样本目标情感类型的样本待合成文本，并获取样本目标情感类型的参考音频。

本公开实施例中，样本待合成文本标注有样本目标情感类型，例如，对于样本待合成文本“太好啦！我中奖啦！”可以标注有昂本目标情感类型“高兴”，其他情况可以以此类推，在此不再一一举例。此外，样本待合成文本以及样本目标情感类型的参考音频，具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S52：利用韵律提取网络对参考音频关于韵律参数的样本数据分布情况进行特征提取，得到第一样本韵律特征，并利用韵律预测网络对样本待合成文本和样本目标情感类型进行韵律预测，得到第二样本韵律特征。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S53：利用第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数。

具体地，可以采用KL损失函数处理第一样本韵律特征和第二样本韵律特征，得到损失值，从而利用该损失值，调整韵律提取网络或韵律预测网络的网络参数。具体地，上述损失值可以表示为：

VAE_loss＝w*kl[q||p.detach]+(1-w)*kl[p||q.detach]……(1)

上述公式(1)中，q表示韵律预测网络预测得到的第二样本韵律特征，p表示韵律提取网络提取得到的第一样本韵律特征，VAE_loss表示采用KL损失函数对第一样本韵律特征和第二样本韵律特征进行处理所得到的损失值，kl[||]表示计算||前后两者之间的KL散度，具体计算过程在此不再赘述。w表示权重参数，该权重参数可以根据实际应用情况进行设置。此外，.detach表示在更新过程中不进行网络参数更新，例如，p.detach表示不更新韵律提取网络的网络参数，q.detach表示不更新韵律预测网络的网络参数，故能够通过更新韵律提取网络的网络参数，使第一样本韵律特征逼近于第二样本韵律特征，而通过更新韵律预测网络的网络参数，使第二样本韵律特征逼近于第一样本韵律特征，最终使得韵律提取网络所提取的韵律特征和韵律预测网络所预测的韵律特征趋同。

在一个具体的实施场景中，上述韵律提取网络和韵律预测网络可以是经过若干次训练得到，在训练次数满足预设条件的情况下，可以将第二样本韵律特征作为第一样本韵律特征的约束目标(如，公式(1)所述的VAE_loss的q.detach)，调整韵律提取网络的网络参数，从而能够有利于使第二样本韵律特征逼近于第一样本韵律特征；而在训练次数不满足预设条件的情况下，将第一样本韵律特征作为第二样本韵律特征的约束目标(如，公式(1)所述的VAE_loss的p.detach)，调整韵律预测网络的网络参数，从而能够有利于使第一样本韵律特征逼近于第二样本韵律特征。预设条件具体可以包括以下任一者：训练次数为奇数，训练次数为偶数，在此不做限定。上述方式，在训练次数满足预设条件的情况下，将第二样本韵律特征作为第一样本韵律特征的约束目标，调整韵律提取网络的网络参数，而在训练次数不满足预设条件的情况下，将第一样本韵律特征作为第二韵律特征的约束目标，调整韵律预测网络的网络参数，能够在韵律提取网络和韵律预测网络的联合训练过程中，使两者交替地更新网络参数，从而能够有利于使两者相互促进，提高性能。

在另一个具体的实施场景中，请结合参阅图6，图6是训练韵律提取网络一实施例的框架示意图。如图6所示，还可以进一步对样本待合成文本的样本音素序列进行特征提取，得到样本音素特征，从而可以进一步利用第一样本韵律特征、样本音素特征进行解码，得到融入样本目标情感类型后的样本合成音频。在此基础上，可以利用样本待合成文本对应的样本实际音频的音频特征(如，梅尔频率倒谱系数)和样本合成音频的音频特征(如，梅尔频率倒谱系数)之间的差异，得到另一损失值，为了与前述损失值进行区别，可以将该损失值记为Mel_loss，其中，上述样本实际音频为融入样本目标情感类型的音频，例如，上述样本待合成文本“太好啦！我中奖啦！”对应设有融入样本目标情感类型“高兴”的样本实际音频，其他情况可以以此类推，在此不再一一举例。进一步地，如前述公开实施例所述，在每次解码时，可以对应得到一音频帧的声学参数，故可以统计解码所得到的第一音频帧数量M，以及上述样本实际音频的第二音频帧数量N，从而可以将第一音频帧数量M和第二音频帧数量编码N为预设长度K(如，100、125等)的0-1向量，对于第一音频帧数量M对应的0-1向量而言，其第1至第M的元素可以设置为1，第M+1至第K的元素可以设置为0，而对于第二音频帧数量N对应的0-1向量而言，其第1至第N的元素可以设置为1，第N+1至第K的元素可以设置为0，进而可以基于第一音频帧数量对应的0-1向量和第二音频帧数量对应的0-1向量计算另一损失值Stop_loss。在此基础上，每次训练过程中，总损失值可以表示为：

Loss＝VAE_loss+Mel_loss+Stop_loss……(2)

在又一个具体的实施场景中，请结合参阅图7，图7是训练韵律提取网络另一实施例的框架示意图。如图7所示，为了进一步提高韵律提取网络的性能，还可以在调整网络参数之前，获取韵律提取网络的隐藏层向量，并利用隐藏层向量进行预测，得到样本待合成文本的预测目标情感类型，从而可以利用样本目标情感类型与预测目标情感类型之间的差异，以及第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数。具体地，可以利用交叉熵损失函数处理利用样本目标情感类型与预测目标情感类型，得到又一损失值，为了便于描述可以记为Emotion_loss。上述方式，通过获取韵律提取网络的隐藏层向量，并利用隐藏层向量进行预测，得到样本待合成文本的预测目标情感类型，从而利用样本目标情感类型与预测目标情感类型之间的差异，以及第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数，进而能够有利于增强韵律特征与目标情感类型之间的相关性，有利于进一步提高韵律提取网络的性能。

在又一个具体的实施场景中，上述样本待合成文本是由样本对象的样本音频转换得到的，例如，上述样本待合成文本“太好啦！我中奖啦！”可以是由样本对象A的样本音频转换得到的，其他情况可以以此类推，在此不再一一举例。请结合参阅图7，如图7所示，可以获取韵律提取网络的隐藏层向量，并利用隐藏层向量进行预测，得到样本音频所属的预测对象，从而利用样本对象与预测对象之间的差异，以及第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数，且在利用样本对象与预测对象之间的差异调整网络参数过程中，采用梯度反转方式进行调整。具体地，可以利用交叉熵损失函数处理样本对象与预测对象之间的差异，得到又一损失值，为了便于描述可以记为Speaker_loss。需要说明的是，区别于传统的反向传播，传统的反向传播是指将损失值逐层向后传递，然后每层网络都会根据传回来的损失值计算梯度，进而更新本层网络的网络参数，而梯度反转(Gradient Reversal)是将传到本层的损失值乘以一个负数，这样就使得越来越难以利用韵律特征区分不同对象，从而能大大降低韵律特征与说话人之间的相关性。上述方式，样本待合成文本是由样本对象的样本音频转换得到的，通过获取韵律提取网络的隐藏层向量，并利用隐藏层向量进行预测，得到样本音频所属的预测对象，从而利用样本对象与预测对象之间的差异，以及第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数，且在利用样本对象与预测对象之间的差异调整网络参数过程中，采用梯度反转方式进行调整，能够有利于降低韵律特征与说话人之间的关联性，有利于进一步提高韵律提取网络的性能。

在又一个具体的实施场景中，每次训练过程中，可以获取上述VAE_loss、Mel_loss、Stop_loss、Emotion_loss、Speaker_loss，从而可以获取总损失值Loss，并利用总损失值Loss调整韵律提取网络或韵律预测网络的网络参数。具体地，总损失值Loss可以表示为：

Loss＝VAE_loss+Mel_loss+Stop_loss+Emotion_loss+Speaker_loss……(3)

区别于前述实施例，通过获取标注有样本目标情感类型的样本待合成文本，并获取样本目标情感类型的参考音频，从而利用韵律提取网络对参考音频关于韵律参数的样本数据分布情况进行特征提取，得到第一样本韵律特征，并利用韵律预测网络对样本待合成文本和样本目标情感类型进行韵律预测，得到第二样本韵律特征，进而利用第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数，故能够使韵律提取网络和韵律预测网络两者进行联合训练，从而能够使韵律提取网络和韵律预测网络在训练过程中，相互促进，共同提升准确性，且有利于提高训练效率。

请参阅图8，图8是本申请电子设备80一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82，存储器81中存储有程序指令，处理器82用于执行程序指令以实现上述任一语音合成方法实施例中的步骤。具体地，电子设备80可以包括但不限于：台式计算机、笔记本电脑、平板电脑、手机、服务器等等，在此不做限定。

具体而言，处理器82用于控制其自身以及存储器81以实现上述任一语音合成方法实施例中的步骤。处理器82还可以称为CPU(Central Processing Unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由集成电路芯片共同实现。

本公开实施例中，处理器82用于获取待合成文本和待合成文本的目标情感类型，并获取目标情感类型的参考音频；处理器82用于基于参考音频关于韵律参数的数据分布情况，获取与目标情感类型对应的韵律特征；其中，韵律参数包括以下至少一种：基频、强度、时长；以及，处理器82用于对待合成文本的音素序列进行特征提取，得到待合成文本的音素特征；处理器82用于利用韵律特征和音素特征进行解码，得到待合成文本融入目标情感类型后的合成音频。

在一些公开实施例中，数据分布情况包括若中种数值统计量，处理器82用于利用韵律参数的若干种数值统计量，得到韵律参数的期望数值；处理器82对至少一种韵律参数的期望数值进行特征提取，得到韵律特征。

区别于前述实施例，通过将数据分布情况设置为包括若干种数值统计量，从而利用韵律参数的数值统计量，得到韵律参数的期望数值，并对至少一种韵律参数的期望数值进行特征提取，得到韵律特征，能够降低韵律特征与文本之间的耦合关系，并使得不同种韵律参数之间互不耦合，从而有利于提高分别对不同韵律参数的期望数值进行调整的便利性。

在一些公开实施例中，若干种数值统计量包括均值和方差，处理器82用于获取韵律参数的第一期望调整系数，并将方差与第一期望调整系数的乘积与均值之和，作为韵律参数的期望数值。

区别于前述实施例，若干种数值统计量包括均值和方差，通过获取韵律参数的第一期望调整系数，从而将方差与第一期望调整数据的乘积与均值之和，作为韵律参数的期望数值，能够有利于提高调整韵律参数的期望数值的便利性。

在一些公开实施例中，处理器82用于获取韵律参数的第二期望调整系数，并利用第二期望调整系数，更新韵律特征。

区别于前述实施例，在得到韵律特征之后，通过获取韵律参数的第二期望调整系数，并利用第二期望调整系数，更新韵律特征，能够有利于进一步提高调整韵律特征的便利性。

在一些公开实施例中，若干种数值统计量包括数值变化范围，处理器82用于在至少一种统计维度，分别统计参考音频关于韵律参数的初始分布情况；处理器82用于基于初始分布情况中的极值，获取数值变化范围；其中，至少一种统计维度包括：句子级、词语级、音素级。

区别于前述实施例，若干种数值统计量包括数值变化范围，在至少一种统计维度，分别统计参考音频关于韵律参数的初始分布情况，并基于初始分布情况中的极值，获取数值变化范围，且至少一种统计维度包括：句子级、词语级、音素级，从而能够提高韵律特征的特征信息的丰富度，从而能够有利于进一步提高韵律特征的准确性。

在一些公开实施例中，处理器82用于利用目标情感类型、韵律特征和音素特征进行解码，得到若干音频帧的声学参数；处理器82用于利用若干音频帧的声学参数，得到合成音频。

区别于前述实施例，在解码过程中，通过在韵律特征和音素特征的基础上进一步融入目标情感类型，能够有利于在解码过程中进一步加强目标情感类型，从而能够有利于提高合成音频中融入目标情感类型的效果。

在一些公开实施例中，韵律特征是利用韵律提取网络提取得到的，处理器82用于获取标注有样本目标情感类型的样本待合成文本，并获取样本目标情感类型的参考音频；处理器82用于利用韵律提取网络对参考音频关于韵律参数的样本数据分布情况进行特征提取，得到第一样本韵律特征，并利用韵律预测网络对样本待合成文本和样本目标情感类型进行韵律预测，得到第二样本韵律特征；处理器82用于利用第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数。

在一些公开实施例中，韵律提取网络是经过若干次训练得到的，处理器82用于在训练次数满足预设条件的情况下，将第二样本韵律特征作为第一样本韵律特征的约束目标，调整韵律提取网络的网络参数；处理器82用于在训练次数不满足预设条件的情况下，将第一样本韵律特征作为第二样本韵律特征的约束目标，调整韵律预测网络的网络参数。

区别于前述实施例，在训练次数满足预设条件的情况下，将第二样本韵律特征作为第一样本韵律特征的约束目标，调整韵律提取网络的网络参数，而在训练次数不满足预设条件的情况下，将第一样本韵律特征作为第二样本韵律特征的约束目标，调整韵律预测网络的网络参数，能够在韵律提取网络和韵律预测网络的联合训练过程中，使两者交替地更新网络参数，从而能够有利于使两者相互促进，提高性能。

在一些公开实施例中，处理器82用于获取韵律提取网络的隐藏层向量；处理器82用于利用隐藏层向量进行预测，得到样本待合成文本的预测目标情感类型，处理器82用于利用样本目标情感类型与预测目标情感类型之间的差异，以及第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数。

区别于前述实施例，通过获取韵律提取网络的隐藏层向量，并利用隐藏层向量进行预测，得到样本待合成文本的预测目标情感类型，从而利用样本目标情感类型与预测目标情感类型之间的差异，以及第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数，进而能够有利于增强韵律特征与目标情感类型之间的相关性，有利于进一步提高韵律提取网络的性能。

在一些公开实施例中，样本待合成文本是由样本对象的样本音频转换得到的，处理器82用于获取韵律提取网络的隐藏层向量；处理器82用于利用隐藏层向量进行预测，得到样本音频所属的预测对象；处理器82用于利用样本对象与预测对象之间的差异，以及第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数；其中，在利用样本对象与预测对象之间的差异调整网络参数过程中，采用梯度反转方式进行调整。

区别于前述实施例，样本待合成文本是由样本对象的样本音频转换得到的，通过获取韵律提取网络的隐藏层向量，并利用隐藏层向量进行预测，得到样本音频所属的预测对象，从而利用样本对象与预测对象之间的差异，以及第一样本韵律特征和第二样本韵律特征，调整韵律提取网络或韵律预测网络的网络参数，且在利用样本对象与预测对象之间的差异调整网络参数过程中，采用梯度反转方式进行调整，能够有利于降低韵律特征与说话人之间的关联性，有利于进一步提高韵律提取网络的性能。

在一些公开实施例中，目标情感类型为预设情感类型中的一种，预设情感类型包括：安慰、可爱、宠溺、调皮、鼓励、抱歉；和/或，目标情感类型为预设情感类型中的一种，预设情感类型是根据语音合成使用场景预先设置的；和/或，目标情感类型是利用以下任一种方式得到的：目标情感类型是对待合成文本预测得到的，目标情感类型是由用户对待合成文本进行设置的。

区别于前述实施例，目标情感类型是由用户对待合成文本进行设置的，能够有利于满足用户对合成音频的定制需求；而目标情感类型是对待合成文本预测得到的，能够有利于在语音合成过程中，大大减少人工参与度，提高语音合成的自动化程度以及智能化程度；此外，目标情感类型为预设情感类型中的一种，预设情感类型包括：安慰、可爱、宠溺、调皮、鼓励、抱歉，即预设情感类型起伏变化较为平缓，从而在智能客服等交互场景中，即使目标情感类型选择错误，能够尽可能地降低对用户体验的影响，进而能够有利于大大提高目标情感类型的容错性；此外，目标情感类型为预设情感类型中的一种，预设情感类型是根据语音合成使用场景预先设置的，能够有利于在不同使用场景采用不同特色的情感类型，从而能够有利于提高语音合成的适用范围。

请参阅图9，图9是本申请存储装置90一实施例的框架示意图。存储装置90存储有能够被处理器运行的程序指令91，程序指令91用于实现上述任一语音合成方法实施例中的步骤。

上述方案，能够提高韵律特征的准确性，故能够有利于利用韵律特征和音素特征准确地进解码，进而能够准确地在合成音频中融入情感。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音合成方法，其特征在于，包括：

获取待合成文本和所述待合成文本的目标情感类型，并获取所述目标情感类型的参考音频；

基于所述参考音频关于韵律参数的数据分布情况，获取与所述目标情感类型对应的韵律特征；其中，所述韵律参数包括以下至少一种：基频、强度、时长；以及，

对所述待合成文本的音素序列进行特征提取，得到所述待合成文本的音素特征；

利用所述韵律特征和所述音素特征进行解码，得到所述待合成文本融入所述目标情感类型后的合成音频；

其中，所述韵律特征是利用韵律提取网络提取得到的，所述韵律提取网络的训练步骤包括：

获取标注有样本目标情感类型的样本待合成文本，并获取所述样本目标情感类型的参考音频；

利用所述韵律提取网络对所述参考音频关于韵律参数的样本数据分布情况进行特征提取，得到第一样本韵律特征，并利用韵律预测网络对所述样本待合成文本和所述样本目标情感类型进行韵律预测，得到第二样本韵律特征；

利用所述第一样本韵律特征和所述第二样本韵律特征，调整所述韵律提取网络的网络参数。

2.根据权利要求1所述的方法，其特征在于，所述数据分布情况包括若干种数值统计量；所述基于所述参考音频关于韵律参数的数据分布情况，获取与所述目标情感类型对应的韵律特征，包括：

基于所述韵律参数的若干种数值统计量，得到所述韵律参数的期望数值；

对至少一种所述韵律参数的期望数值进行特征提取，得到所述韵律特征。

3.根据权利要求2所述的方法，其特征在于，所述若干种数值统计量包括均值和方差；所述基于所述韵律参数的若干种数值统计量，得到所述韵律参数的期望数值，包括：

获取所述韵律参数的第一期望调整系数，并将所述方差与所述第一期望调整系数的乘积与所述均值之和，作为所述韵律参数的期望数值；

或者，在所述对至少一种所述韵律参数的期望数值进行特征提取，得到所述韵律特征之后，所述方法还包括：

获取所述韵律参数的第二期望调整系数，并利用所述第二期望调整系数，更新所述韵律特征。

4.根据权利要求2所述的方法，其特征在于，所述若干种数值统计量包括数值变化范围；在所述基于所述韵律参数的若干种数值统计量，得到所述韵律参数的期望数值之前，所述方法还包括：

在至少一种统计维度，分别统计所述参考音频关于韵律参数的初始分布情况；

基于所述初始分布情况中的极值，获取所述数值变化范围；

其中，所述至少一种统计维度包括：句子级、词语级、音素级。

5.根据权利要求1所述的方法，其特征在于，所述利用所述韵律特征和所述音素特征进行解码，得到所述待合成文本融入所述目标情感类型后的合成音频，包括：

利用所述目标情感类型、所述韵律特征和所述音素特征进行解码，得到若干音频帧的声学参数；

利用所述若干音频帧的声学参数，得到所述合成音频。

6.根据权利要求1所述的方法，其特征在于，所述韵律提取网络是经过若干次训练得到的；所述利用所述第一样本韵律特征和所述第二样本韵律特征，调整所述韵律提取网络的网络参数，包括：

在训练次数满足预设条件的情况下，将所述第二样本韵律特征作为所述第一样本韵律特征的约束目标，调整所述韵律提取网络的网络参数；

在训练次数不满足预设条件的情况下，将所述第一样本韵律特征作为所述第二样本韵律特征的约束目标，调整所述韵律预测网络的网络参数。

7.根据权利要求1所述的方法，其特征在于，在所述利用所述第一样本韵律特征和所述第二样本韵律特征，调整所述韵律提取网络的网络参数之前，所述方法还包括：

获取所述韵律提取网络的隐藏层向量；

利用所述隐藏层向量进行预测，得到所述样本待合成文本的预测目标情感类型；

所述利用所述第一样本韵律特征和所述第二样本韵律特征，调整所述韵律提取网络的网络参数，包括：

利用所述样本目标情感类型与所述预测目标情感类型之间的差异，以及所述第一样本韵律特征和所述第二样本韵律特征，调整所述韵律提取网络的网络参数。

8.根据权利要求1所述的方法，其特征在于，所述样本待合成文本是由样本对象的样本音频转换得到的；在所述利用所述第一样本韵律特征和所述第二样本韵律特征，调整所述韵律提取网络的网络参数之前，所述方法还包括：

获取所述韵律提取网络的隐藏层向量；

利用所述隐藏层向量进行预测，得到所述样本音频所属的预测对象；

利用所述样本对象与所述预测对象之间的差异，以及所述第一样本韵律特征和所述第二样本韵律特征，调整所述韵律提取网络的网络参数；

其中，在利用所述样本对象与所述预测对象之间的差异调整所述网络参数过程中，采用梯度反转方式进行调整。

9.根据权利要求1所述的方法，其特征在于，所述目标情感类型为预设情感类型中的一种，所述预设情感类型包括：安慰、可爱、宠溺、调皮、鼓励、抱歉；

和/或，所述目标情感类型为预设情感类型中的一种，所述预设情感类型是根据语音合成使用场景预先设置的；

和/或，所述目标情感类型是利用以下任一种方式得到的：所述目标情感类型是对所述待合成文本预测得到的，所述目标情感类型是由用户对所述待合成文本进行设置的。

10.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的语音合成方法。

11.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至9任一项所述的语音合成方法。