CN115331653A

CN115331653A - 一种语音合成方法、电子设备及计算机可读存储介质

Info

Publication number: CN115331653A
Application number: CN202210962981.2A
Authority: CN
Inventors: 谭志力
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-11-11

Abstract

本申请公开了一种语音合成方法、电子设备及介质，获取待处理文本对应的多个音素序列；提取音素序列中各音素对应的音素特征。对每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征。依据解耦后的音素特征和目标人物的音色特征，得到符合目标人物音色的音频。对音素特征进行解耦，降低了原本存在的个人音色特征造成的干扰。在需要生成符合目标人物音色的音频时，无需再获取大量具有目标人物音色特征的音频数据进行训练，只需要从少量具有目标人物音色特征的音频数据中提取出目标人物的音色特征，依据解耦后的音素特征和目标人物的音色特征，便可以得到符合目标人物音色的音频，降低了音色迁移的成本。

Description

一种语音合成方法、电子设备及计算机可读存储介质

技术领域

本申请涉及音频处理技术领域，特别涉及一种语音合成方法、电子设备及计算机可读存储介质。

背景技术

语音合成是根据输入文本，生成出对应的语音音频。语音合成技术在语音助手、聊天机器人、有声书、虚拟人等场景有广泛的应用。而随着个性化语音需求的猛增，音色迁移技术越来越重要。音色迁移可以生成目标人物音色的语音音频，目标人物可以是特定主播、明星等。

传统的方案，需要录制大量目标人物的语音，在一个预训练好的基础模型上进行训练，令模型学习到目标人物的音调、韵律、口音等音色特征。每个人都有其独特的音色，当需要生成一位特定人物音色的音频时，一般需要录制几小时以上特定人物的语音，训练此模型。训练过程需要大量的训练样本，并且样本量越多模型训练的运算量也就越高，导致音色迁移的成本较高。

综上，在实现本申请过程中，发明人发现现有技术中至少存在音色迁移成本较高的问题。

发明内容

有鉴于此，本申请的目的在于提供一种语音合成方法、电子设备及计算机可读存储介质，能够基于少量的训练数据得到具有目标人物音色的音频，从而降低了音色迁移的成本。其具体方案如下：

第一方面，本申请公开了一种语音合成方法，包括：

获取待处理文本对应的多个音素序列；

对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征；

依据解耦后的音素特征和目标人物的音色特征，得到符合目标人物音色的音频。

可选地，所述对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征包括：

统计同一个音素在不同音素序列中对应的平均音素特征；

基于各音素对应的平均音素特征，对各所述音素序列的音素特征进行调整，以得到解耦后的音素特征。

可选地，所述基于各音素对应的平均音素特征，对各所述音素序列的音素特征进行调整，以得到解耦后的音素特征包括：

将目标音素对应的目标平均音素特征和目标音素序列中所述目标音素对应的目标音素特征进行均方差运算，得到解耦后的目标音素特征；其中，所述目标音素为所有音素中的任意一个音素；所述目标音素序列为所有音素序列中的任意一个音素序列。

利用音色判别器识别所述音素特征包含的个人音色特征；

基于所述待处理文本对应的实际音色特征与所述音色判别器识别的个人音色特征，确定出音色识别损失；

将所述音色识别损失反向传播至用于梯度取反的合成器，以得到更新后的合成器；

利用更新后的合成器提取所述音素序列中各音素对应的目标音素特征，将所述目标音素特征作为解耦后的音素特征。

可选地，在所述对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征之后还包括：

将所述解耦后的音素特征存储至数据库；

在获取到音色调整指令的情况下，从所述数据库中调用所述解耦后的音素特征；其中，所述音色调整指令中携带有目标音色特征；

依据所述解耦后的音素特征和所述目标音色特征，得到符合目标音色的音频。

将所述解耦后的音素特征存储至云端；

在所述本地数据库中不存在所述解耦后的音素特征的情况下，从所述云端获取所述解耦后的音素特征。

可选地，所述依据解耦后的音素特征和目标人物的音色特征，得到符合目标人物音色的音频包括：

将所述解耦后的音素特征和所述目标人物的音色特征进行拼接，得到携带目标人物音色的音素特征；

利用解码器将所述携带目标人物音色的音素特征解码为帧序列；

利用声码器对所述帧序列进行处理，得到符合目标人物音色的音频。

利用深度学习神经网络模型对所述解耦后的音素特征和所述目标人物的音色特征进行融合处理，以得到符合目标人物音色的音频。

第二方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的语音合成方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述公开的语音合成方法。

本申请中，获取待处理文本对应的多个音素序列；提取音素序列中各音素对应的音素特征；对于一个待处理文本而言，通过该待处理文本对应的多个音素序列可以充分挖掘出音素特征中包含的个人音色特征。为了降低个人音色特征对音素特征造成的干扰，可以对每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征。解耦后的音素特征有效的过滤掉了个人音色特征，依据解耦后的音素特征和目标人物的音色特征，可以得到更加符合目标人物音色的音频。在该技术方案中，对音素特征进行解耦，降低了原本存在的个人音色特征造成的干扰。在需要生成符合目标人物音色的音频时，无需再获取大量具有目标人物音色特征的音频数据进行训练，只需要从少量具有目标人物音色特征的音频数据中提取出目标人物的音色特征，依据解耦后的音素特征和目标人物的音色特征，可以快速的得到符合目标人物音色的音频。基于少量的音频数据便可以得到符合目标人物音色的音频，有效的降低了音色迁移的成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种语音合成方法所适用的系统框架图；

图2为本申请实施例提供的一种语音合成方法流程图；

图3为本申请提供的一种神经网络模型的示意图；

图4为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

传统方式中，要生成符合人物音色的音频，需要先获取到大量具有人物音色的音频数据，利用大量音频数据对模型进行训练，令模型学习到人物的音色特征。为保证模型的准确性，需要大量的训练数据，但这样会导致模型训练的运算量较高，造成较高的音色迁移成本。

故此，本申请实施例提供了一种语音合成方法、电子设备及计算机可读存储介质，在获取待处理文本对应的多个音素序列，提取音素序列中各音素对应的音素特征之后，可以对每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征。解耦后的音素特征有效的过滤掉了个人音色特征，依据解耦后的音素特征和目标人物的音色特征，可以得到更加符合目标人物音色的音频。通过该种处理方式，利用少量的目标人物的音频，便可以将文本转换为符合目标人物音色的音频。

图1为本申请提供的一种语音合成方法所适用的系统框架图，图1中是以ECAPA-TDNN(Emphasized Channel Attention Propagation and Aggregation in TDNN)网络模型和FastSpeech网络模型的相互配合为例，其中，ECAPA-TDNN网络模型可以用于提取音频片段的音色特征，FastSpeech网络模型可以生成待处理文本的音素序列，FastSpeech网络模型的phoneme Embedding层和FFT Block层可以对音素序列进行处理，得到音素特征。在FastSpeech网络模型中可以添加损失函数Loss_mse，依据损失函数对音素特征进行解耦，从而有效过滤掉音素特征中包含的个人音色特征。图1中采用符号H_pho表示解耦后的音素特征。FastSpeech网络模型的Length Regulator层可以将解耦后的音素特征和目标人物的音色特征进行拼接，经由FastSpeech网络模型中其它层的处理，最终输出符合目标人物音色的音频。

为了便于描述，在后续内容中均以ECAPA-TDNN网络模型和FastSpeech网络模型为例展开介绍。但是需要说明的是，图1中ECAPA-TDNN网络模型和FastSpeech网络模型仅为举例说明。在实际应用中，也可以采用其他类型的网络模型执行上述操作。例如，可以采用长短期记忆网络模型提取音色特征，采用注意力模型执行音素特征的获取、音素特征的解耦、解耦后的音素特征和目标人物的音色特征的合成操作。

本申请实施例提供的语音合成方法可以适用于多种场景，例如，应用于有声书、明星语音助手、模拟亲人说话等。

图2为本申请实施例提供的一种语音合成方法流程图。参见图2所示，该语音合成方法可以包括以下步骤

S201：获取待处理文本对应的多个音素序列。

待处理文本可以是需要转换为音频的纯文本信息。待处理文本可以是一篇文章、一篇新闻报道或者是一段路况播报等。在本申请实施例中，对于待处理文本的具体形式不做限定。

在实际应用中，用户往往希望将待处理文本按照用户喜欢的人物声音进行播报。人物多种多样，为了便于区分，可以将用户喜欢的人物称作目标人物。基于这种需求，需要将待处理文本转换为符合目标人物音色的音频。

S202：提取音素序列中各音素对应的音素特征。

一个音素序列中往往包含有多个音素对应的音素特征。不同音素序列包含的音素可能相同，也可能不同。以一个音素为例，可以从所有音素序列中提取出该音素对应的音素特征。

在本申请实施例中，采用音素特征和目标人物的音色特征合成的方式，得到符合目标人物音色的音频。

以FastSpeech网络模型为例，FastSpeech网络模型在将文本信息转换为音频时，会先将文本信息转换为音素序列，然后将音素序列转换为音素特征，最终基于音素特征生成音频。为了更加贴合用户的听觉习惯，在音素特征中会自动包含符合平时人物说话习惯的音色特征。在需要将文本信息转换为符合目标人物音色的音频时，音素特征中自动包含的音色特征会成为干扰因素，故此，在本申请实施例中，为了充分挖掘音素特征中包含的个人音色特征，可以同时获取待处理文本对应的多个音素序列，将多个音素序列对应的音素特征进行比较，从而挖掘出音素特征中包含的个人音色特征。

S203：对每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征。

在本申请实施例中，实现音色解耦的方式可以有多种。一种可行的实现方式可以是挖掘出每个音素包含的个人音色特征，统计同一个音素在不同音素序列中对应的平均音素特征；平均音素特征可以反映出音素的共有特征。基于各音素对应的平均音素特征，对各音素序列的音素特征进行调整，以得到解耦后的音素特征。

对音素特征的解耦主要是保留音素特征中的共有特征，剔除个人音色特征。

网络模型对音素序列的处理过程包括多次迭代处理，每一次迭代处理都可以计算出音素对应的平均音素特征。在本申请实施例中，在每一次迭代处理时，都可以依赖上一次迭代处理得到的平均音素特征对本次迭代处理的音素特征进行调整，从而过滤掉本次迭代处理的音素特征中包含的个人音色特征。

为了降低个人音色特征对音素特征造成的干扰，可以对每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征。在本申请实施例中，可以通过求均方差的方式调整音素特征，从而达到音色解耦的目的。

每个音素序列的音素特征的处理方式类似，以所有音素序列中的任意一个音素序列即目标音素序列为例，目标音素序列的音素特征中包含有多个音素对应的特征，以所有音素中的任意一个音素即目标音素为例展开介绍。

在具体实现中，可以将目标音素对应的目标平均音素特征和目标音素序列中目标音素对应的目标音素特征进行均方差运算，得到解耦后的目标音素特征。

举例说明，设音素集P＝[p₁,p₂,···,p_N]包含N个音素，其中，p_i代表第i个音素，1≤i≤N。待处理文本包含多条音素序列可供训练，X_i表示第i条音素序列，此音素序列为X_i＝[x_i1,x_i2,···]，其中，x_ij表示第i条音素序列中第j个音素，即每一个x_ij为一个音素，x_ij∈P。

在模型训练的第k次迭代(epoch)，每个音素序列经过FastSpeech网络模型的phoneme embedding层及encoder层后可得出得音素特征H_pho，H_k,i代表第i条音素序列对应的音素特征，

代表了第k次epoch的模型所提取出的音素x_ij的音素特征。每个音素序列的序列长度和其对应的音素特征的序列长度一致。

因为x_ij为一个音素，所以通过查找对应关系，每个音素都能找到在不同音素序列中对应的音素特征。把每个音素在不同音素序列所对应的音素特征求平均，即可得

即为音素p_i在第k次epoch的FastSpeech网络模型的平均音素特征。

在模型训练的第k+1次epoch，音素序列X_i经过FastSpeech网络模型的phonemeembedding层及encoder层后可得出得音素特征

除了FastSpeech网络模型原有损失函数外，为了对音素特征进行音色解耦，额外添加了另一损失函数，添加的损失函数可以按照Mean Square Error(MSE，均方差)运算的方式设置。

添加损失函数的目的是为了让音素特征仅保留不同说话人的同一音素的共有特征，滤除不同说话人的个人音色特征。损失函数的表达式如下：

此损失函数的意义为令每一音素x_ij都能接近其整体表达

解耦后的音素特征H_pho仅保留了音素的集体特征，去除了说话人的个人音色特征。

除了上述介绍的MSE方式外，也可以使用生成对抗网络(Generative AdversarialNet，GAN)的思路，令得到的音素特征不带有个人音色特征。在本申请实施例中，可以利用音色判别器识别音素特征所包含的个人音色特征；基于待处理文本对应的实际音色特征与音色判别器识别的个人音色特征，确定出音色识别损失；将音色识别损失反向传播至用于梯度取反的合成器，以得到更新后的合成器；利用更新后的合成器提取音素序列中各音素对应的目标音素特征，将目标音素特征作为解耦后的音素特征。

在具体实现中，音色识别损失往往以损失函数的形式呈现。在确定出音色识别损失函数之后，可以利用反向传播算法计算由音色判别器和合成器形成的神经网络模型中每一网络层的梯度，基于该梯度即可更新神经网络参数，从而得到训练好的神经网络模型。为了使得合成器输出的音素特征能够去除说话人的个人音色，可以对合成器设置梯度取反，基于取反后的梯度可以更新合成器的网络参数，从而使得更新后的合成器提取出的音素特征不包含个人音色。

图3为本申请实施例提供的一种神经网络模型的示意图，具体来说，令音素特征H_pho输出至判别器神经网络，以H_pho的说话人音色标签训练判别器，因此判别器具有判别H_pho说话人音色的能力；音素序列至H_pho的网络层为生合成器，决定了音素如何生成H_pho。如图3中(a)图所示为一般的分类神经网络的训练过程，利用说话人音色标签与判别器的输出计算损失函数Loss_disc，使用反向传播算法计算每一网络层的梯度，即可更新神经网络参数，以训练模型。图3中(b)图为本申请实施例提供的一种滤除个人音色特征的神经网络模型的示意图，利用GAN生成对抗的思想，可以把损失函数Loss_disc反向传播至合成器的梯度取反。梯度取反可以是将原本的梯度乘以-1，即可令判别器与合成器两者之间互相对抗，令H_pho不带有说话人的音色，此时利用更新后的合成器提取音素序列中各音素对应的目标音素特征，目标音素特征中已经不携带个人音色，因此可以将目标音素特征作为解耦后的音素特征。

S204：依据解耦后的音素特征和目标人物的音色特征，得到符合目标人物音色的音频。

解耦后的音素特征有效的过滤掉了个人音色特征，依据解耦后的音素特征和目标人物的音色特征，可以得到更加符合目标人物音色的音频。

对于目标人物音色特征的获取，仅需从数分钟具有目标人物音色的音频频段中提取即可。在本申请实施例中，可以获取目标人物的音频片段；利用音色提取网络模型对音频片段进行分析，以提取目标人物的音色特征。

音色提取网络模型可以有多种，例如，ECAPA-TDNN网络模型、长短期记忆网络模型等。

在实际应用中，可以任选其中一种网络模型提取音频片段的音色特征。例如，可以利用ECAPA-TDNN网络模型提取音频片段的音色特征。

在本申请实施例中，对于依据解耦后的音素特征和目标人物的音色特征得到符合目标人物音色的音频的方式不做限定，一种可行的实现方式可以将解耦后的音素特征和目标人物的音色特征进行拼接，得到携带目标人物音色的音素特征；利用解码器将携带目标人物音色的音素特征解码为帧序列；利用声码器对帧序列进行处理，得到符合目标人物音色的音频。

解耦后的音素特征和目标人物的音色特征均是以向量的形式呈现。将解耦后的音素特征和目标人物的音色特征进行拼接可以是将解耦后的音素特征和目标人物的音色特征直接相加或直接相乘。

除了上述介绍的方式外，也可以利用深度学习神经网络模型对解耦后的音素特征和目标人物的音色特征进行融合处理，以得到符合目标人物音色的音频。

本申请中，获取待处理文本对应的多个音素序列，提取音素序列中各音素对应的音素特征；对于一个待处理文本而言，通过该待处理文本对应的多个音素序列可以充分挖掘出音素特征中包含的个人音色特征。为了降低个人音色特征对音素特征造成的干扰，可以对每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征。解耦后的音素特征有效的过滤掉了个人音色特征，依据解耦后的音素特征和目标人物的音色特征，可以得到更加符合目标人物音色的音频。在该技术方案中，对音素特征进行解耦，降低了原本存在的个人音色特征造成的干扰。在需要生成符合目标人物音色的音频时，无需再获取大量具有目标人物音色特征的音频数据进行训练，只需要从少量具有目标人物音色特征的音频数据中提取出目标人物的音色特征，依据解耦后的音素特征和目标人物的音色特征进行合成，可以快速的得到符合目标人物音色的音频。基于少量的音频数据便可以得到符合目标人物音色的音频，有效的降低了音色迁移的成本。

上述介绍中是以得到符合目标人物音色的音频为例，在实际应用中，为了满足不同的音色切换需求，可以设置音色调整机制。并且为了提升音色调整的执行效率，可以在得到解耦后的音素特征之后，将解耦后的音素特征存储至本地数据库。从而在后续具有音色调整需求时，可以直接从本地数据库中调用解耦后的音素特征。

在具体实现中，当用户需要切换语音播放的音色时，可以在音频播放设备的人机交互界面上选择所需的目标音色。对于音频播放设备而言，用户在人机交互界面点击目标音色对应的确认选项相当于输入音色调整指令。在音频播放设备上可以预先存储不同音色对应的音色特征。在用户选定目标音色之后，通过查询存储的音色特征，可以得到目标音色对应的目标音色特征。

音频播放设备在获取到音色调整指令的情况下，可以从数据库中调用解耦后的音素特征；依据解耦后的音素特征和目标音色特征，得到符合目标音色的音频。

考虑到实际应用中，本地数据库存储空间有限，并且容易出现信息误删除的情况。因此，在本申请实施例中，可以将解耦后的音素特征存储至云端；在本地数据库中不存在解耦后的音素特征的情况下，可以从云端获取解耦后的音素特征。

在本申请实施例中，通过设置音色调整机制，可以满足不同的音色切换需求。通过存储解耦后的音素特征，可以在执行音色切换时直接调用解耦后的音素特征，无需再执行音色解耦的操作，提升了音色切换的效率。

进一步的，本申请实施例还提供了一种电子设备。图4是根据一示例性实施例示出的电子设备20结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图4为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的语音合成方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及视频数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量视频数据223的运算与处理，其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的语音合成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的各种视频数据。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的语音合成方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的电子设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种语音合成方法、电子设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音合成方法，其特征在于，包括：

获取待处理文本对应的多个音素序列；

提取所述音素序列中各音素对应的音素特征；

2.根据权利要求1所述的语音合成方法，其特征在于，所述对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征包括：

统计同一个音素在不同音素序列中对应的平均音素特征；

3.根据权利要求2所述的语音合成方法，其特征在于，所述基于各音素对应的平均音素特征，对各所述音素序列的音素特征进行调整，以得到解耦后的音素特征包括：

4.根据权利要求1所述的语音合成方法，其特征在于，所述对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征包括：

利用音色判别器识别所述音素特征包含的个人音色特征；

5.根据权利要求1所述的语音合成方法，其特征在于，在所述对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征之后还包括：

将所述解耦后的音素特征存储至本地数据库；

在获取到音色调整指令的情况下，从所述本地数据库中调用所述解耦后的音素特征；

依据所述解耦后的音素特征和所述音色调整指令对应的目标音色特征，得到符合目标音色的音频。

6.根据权利要求5所述的语音合成方法，其特征在于，在所述对所述每个音素对应的音素特征进行音色解耦，以得到解耦后的音素特征之后还包括：

将所述解耦后的音素特征存储至云端；

7.根据权利要求1所述的语音合成方法，其特征在于，所述依据解耦后的音素特征和目标人物的音色特征，得到符合目标人物音色的音频包括：

8.根据权利要求1所述的语音合成方法，其特征在于，所述依据解耦后的音素特征和目标人物的音色特征，得到符合目标人物音色的音频包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至8任一项所述的语音合成方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的语音合成方法。