CN114927122A

CN114927122A - 一种情感语音的合成方法及合成装置

Info

Publication number: CN114927122A
Application number: CN202210529681.5A
Authority: CN
Inventors: 詹皓粤; 余心远; 林悦
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-08-19
Also published as: WO2023221345A1; US20240321259A1

Abstract

本申请提供了一种情感语音的合成方法及合成装置，包括：确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色；拆分原始文本以得到构成原始文本的多个目标音节；基于目标情感和情感音色对多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音学语音特征序列；整合每个目标音节的语音学语音特征序列，得到原始文本的所对应的语音特征；利用语音特征和目标音色，合成目标情感语音。这样，在合成多音色的情感语音时，不必针对每种目标音色收集不同目标情感的语音数据，仅需收集一个或少数音色不同目标情感的语音数据，从而降低了多音色情感语音合成的成本，减少了相应音色的说话人的情感表现能力对语音质量的影响。

Description

一种情感语音的合成方法及合成装置

技术领域

本申请涉及语音合成技术领域，尤其是涉及一种情感语音的合成方法及合成装置。

背景技术

近几年来，随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展，促进了人机交互方式的极大转变，同时也伴随着越来越多的商业化产品的落地。语音交互作为一种新型模式，不仅带来了崭新的用户体验，也扩大了各个产品设计思路及应用场景。语音合成系统作为语音交互闭环的核心系统之一，如何合成出多音色的多情感语音是语音合成领域的重要研究课题。

现有技术中，在合成多音色的多情感语音时，需要收集每种音色不同种情感的语音数据，这极大地提高了语音合成系统的构建成本，同时，具有相应音色的说话人的情感表现能力也影响了合成语音的质量。

发明内容

有鉴于此，本申请的目的在于提供一种情感语音的合成方法及合成装置，通过该合成方法及合成装置，能够根据目标情感和情感音色确定原始文本的语音特征，并基于原始文本的语音特征和目标音色，合成目标情感语音；通过这种方式，在需要合成不同目标音色和不同目标情感的语音时，不必针对每种目标音色收集不同目标情感的语音数据，仅需收集一个或少数音色不同目标情感的语音数据即可，从而降低了情感语音合成的成本，减少了具有相应音色的说话人的情感表现能力对语音质量的影响，提高了语音交互的服务体验。

本申请实施例提供了一种情感语音的合成方法，所述合成方法包括：

确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色；

拆分所述原始文本以得到构成所述原始文本的多个目标音节；

基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列；所述语音特征序列包括以下项中的至少一项：发音时长、音高和能量；

整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征；

利用所述原始文本的语音特征和所述目标音色，合成与所述原始文本对应的且具有所述目标情感和所述目标音色的目标情感语音。

进一步的，所述确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色的步骤，包括：

响应于情感语音合成指令，获取待合成情感语音所对应的原始文本、目标情感和目标音色；

查找预定情感音库，当所述目标情感对应一个音色时，将所述对应的音色确定为情感音色；

当所述目标情感对应多个音色时，利用自然语言处理技术对所述原始文本进行语义分析，确定所述原始文本中包含的情感的情感强度；

从所述目标情感对应的多个音色中筛选出与所述情感强度相符的音色，并将与所述情感强度相符的音色作为所述情感音色；其中，音色与所述情感强度相符是指在所述预定情感音库包括的多个样本语音中，与该音色对应且具有所述目标情感的至少一个样本语音中所蕴含的目标情感的强度与所述情感强度相符。

进一步的，所述基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音学语音特征序列的步骤，包括：

基于预设的映射关系表，确定所述多个目标音节中每个目标音节在所述目标情感和所述情感音色下映射出的语音学语音特征序列。

进一步的，所述预设的映射关系表通过以下步骤被确定：

获取多个样本语音；每个样本语音标记有情感标记和音色标记；

针对多个样本语音中的每个样本语音，确定该样本语音中每个语音帧的频谱特征和从该样本语音对应的样本文本拆分出的多个样本音节；

从该样本语音的首个语音帧和该样本语音对应的首个样本音节开始，根据每个语音帧的频谱特征将语音帧和样本音节进行对齐，确定出每个样本音节对应的一个或多个语音帧；

针对每个样本音节，基于该样本音节对应的一个或多个语音帧确定该样本音节的发音时长；

基于该样本音节对应的一个或多个语音帧的频谱特征，根据音频算法确定该样本音节的音高和能量；

将该样本音节对应的发音时长、音高和能量确定为该样本音节的语音特征序列；

根据每个样本语音中每个样本音节的语音特征序列、每个样本语音的情感标记和音色标记，构建用于表征在不同情感和不同音色下音节到语音特征序列的映射关系的映射关系表。

进一步的，所述整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征的步骤，包括：

针对每个目标音节，将该目标音节、所述目标情感以及该目标音节的语音特征序列输入预先训练好的语音特征处理模型进行特征融合，得到该目标音节的融合语音特征；

根据该目标音节的发音时长确定该目标音节的融合语音特征的复制次数，并按照所述复制次数对该目标音节的融合语音特征进行复制，得到该目标音节的中间语音特征；

整合所述原始文本的每个目标音节的中间语音特征，得到所述原始文本所对应的语音特征。

进一步的，所述语音特征处理模型通过以下步骤被训练得到，包括：

针对多个样本语音中每个样本语音对应的每个样本音节，将该样本音节、该样本语音的情感标记和音色标记以及该样本音节的语音特征序列输入初始语音特征处理模型，得到该样本音节的融合语音特征；

根据该样本音节的发音时长确定该样本音节的融合语音特征的复制倍数，并按照所述复制倍数对该样本音节的融合语音特征进行复制，得到该样本音节的中间语音特征；

整合该样本语音对应的每个样本音节的中间语音特征，得到该样本语音对应的样本文本的语音特征；

对该样本语音对应的样本文本的语音特征进行音色识别，确定该样本语音对应的样本文本的语音特征的音色识别结果；

根据确定的音色识别结果和该样本语音的音色标记，对所述初始语音特征处理模型的模型参数进行调整，基于参数调整后的所述初始语音特征处理模型重新得到该样本语音对应的样本文本的语音特征，并确定重新得到的语音特征的音色识别结果；

重复上述步骤，直至该样本语音对应的样本文本的语音特征被确定出的音色识别结果不符合所述音色标记时，得到所述语音特征处理模型。

进一步的，所述基于该样本音节对应的一个或多个语音帧的频谱特征，根据音频算法确定该样本音节的音高的步骤，包括：

针对多个样本语音中的每个样本语音，从所述多个样本语音中筛选出与该样本语音具有相同音色标记的至少一个目标样本语音；所述至少一个目标样本语音中包括该样本语音；

基于所述至少一个目标样本语音中每个目标样本语音的每个语音帧的频谱特征，根据音频算法确定该语音帧的原始音高；

基于每个目标样本语音的每个语音帧的原始音高，确定与该样本语音的音色标记对应的原始音高的统计学数据；

基于所述原始音高的统计学数据，对该样本语音的每个语音帧的初始音高进行归一化处理，得到该样本语音的每个语音帧的音高；

针对该样本语音对应的每个样本音节，确定该样本音节对应的一个或多个语音帧的音高的平均值，并将所述平均值确定为该样本音节的音高。

本申请实施例还提供了一种情感语音的合成装置，所述合成装置包括：

确定模块，用于确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色；

拆分模块，用于拆分所述原始文本以得到构成所述原始文本的多个目标音节；

映射模块，用于基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列；所述语音特征序列包括以下项中的至少一项：发音时长、音高和能量；

整合模块，用于整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征；

合成模块，用于利用所述原始文本的语音特征和所述目标音色，合成与所述原始文本对应的且具有所述目标情感和所述目标音色的目标情感语音。

进一步的，所述确定模块在用于确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色时，所述确定模块用于：

进一步的，所述映射模块在用于基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列时，所述映射模块用于：

基于预设的映射关系表，确定所述多个目标音节中每个目标音节在所述目标情感和所述情感音色下映射出的语音特征序列。

进一步的，所述合成装置还包括映射确定模块；所述映射确定模块用于通过以下步骤确定所述预设的映射关系表：

进一步的，所述整合模块在用于整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征时，所述整合模块用于：

进一步的，所述合成装置还包括训练模块；所述训练模块用于通过以下步骤训练得到所述语音特征处理模型：

进一步的，所述映射确定模块在用于基于该样本音节对应的一个或多个语音帧的频谱特征，根据音频算法确定该样本音节的音高时，所述映射确定模块用于：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的一种情感语音的合成方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的一种情感语音的合成方法的步骤。

本申请实施例提供的一种情感语音的合成方法及合成装置，能够根据目标情感和情感音色确定原始文本的语音特征，并基于原始文本的语音特征和目标音色，合成目标情感语音；通过这种方式，在需要合成不同目标音色和不同目标情感的语音时，不必针对每种目标音色收集不同目标情感的语音数据，仅需收集一个或少数音色不同目标情感的语音数据即可，从而降低了情感语音合成的成本，减少了具有相应音色的说话人的情感表现能力对语音质量的影响，提高了语音交互的服务体验。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种情感语音的合成方法的流程图；

图2示出了本申请实施例所提供的一种情感语音的合成装置的结构示意图之一；

图3示出了本申请实施例所提供的一种情感语音的合成装置的结构示意图之二；

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于语音合成技术领域。

经研究发现，现有技术中合成情感语音主要包括以下几种方式：

第一，构造单音色多情感的语音合成系统，即收集目标说话人不同情感的语音数据构造语音合成系统。

第二，收集目标说话人不同情感的少量语音数据构造语音转换系统，将目标音色中立情感的语音转换为其他情感类型的语音，从而实现多情感的语音合成系统。

然而，如果使用上述两种方式进行情感语音合成，如果想要合成多音色的情感语音，需要针对可合成的每种目标音色收集该目标音色的各种情感的语音数据，即针对每一个目标说话人收集多情感语音数据。显然，这样的方式大大提高了数据收集的成本及难度，说话人的情感表现能力也会影响情感语音合成系统合成语音的质量。

第三，收集同一个说话人不同情感的语音数据构造情感识别模型，多说话人语音数据构造多说话人语音合成模型，使用预训练好的情感识别模型提取情感特征，加入到多说话人语音合成模型中进行迁移学习得到多说话人情感语音合成模型。然而，该系统需要分阶段训练，情感识别模型和多阶段的迁移学习大大提高了该系统构建的复杂度及难度；同时由于两个阶段的训练使用不同类型的数据集，也会影响合成语音的质量。

第四，收集同一个说话人不同情感的语音数据构造情感识别模型，多说话人语音数据构造多说话人语音合成模型，使用预训练的情感识别模型作为判别器，基于对抗式训练技术得到每个目标说话人多种情感的语音合成模型。然而，该系统针对不同情感需要使用单独的模型，普适性较差；多阶段的训练方式同样会提高了该系统构建的复杂度及难度，在不同的训练阶段也需要使用不同类型的数据集，进而会影响合成语音的质量。

综上所述，现有技术中在合成多音色的多情感语音时，存在数据收集的成本及难度大，语音合成系统构建复杂以及多训练阶段使用不同类型样本数据影响语音质量的缺陷。

基于此，本申请实施例提供了一种情感语音的合成方法及合成装置，能够根据目标情感和情感音色确定原始文本的语音特征，并基于原始文本的语音特征和目标音色，合成目标情感语音；通过这种方式，在需要合成不同目标音色和不同目标情感的语音时，不必针对每种目标音色收集不同目标情感的语音数据，仅需收集一个或少数音色不同目标情感的语音数据即可，从而降低了情感语音合成的成本，减少了具有相应音色的说话人的情感表现能力对语音质量的影响，提高了语音交互的服务体验。

请参阅图1，图1为本申请实施例所提供的一种情感语音的合成方法的流程图。如图1中所示，本申请实施例提供的一种情感语音的合成方法，包括：

S101、确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色。

S102、拆分所述原始文本以得到构成所述原始文本的多个目标音节。

S103、基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列；所述语音特征序列包括以下项中的至少一项：发音时长、音高和能量。

S104、整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征。

S105、利用所述原始文本的语音特征和所述目标音色，合成与所述原始文本对应的且具有所述目标情感和所述目标音色的目标情感语音。

根据本申请示例性实施例的一种情感语音的合成方法，能够根据目标情感和情感音色确定原始文本的语音特征，并基于原始文本的语音特征和目标音色，合成目标情感语音；通过这种方式，在需要合成不同目标音色和不同目标情感的语音时，不必针对每种目标音色收集不同目标情感的语音数据，仅需收集一个或少数音色不同目标情感的语音数据即可，从而降低了情感语音合成的成本，减少了具有相应音色的说话人的情感表现能力对语音质量的影响，提高了语音交互的服务体验。

下面，将结合具体的示例来详细描述各步骤的实现过程。

在一种可能的实施方式中，步骤S101可包括以下步骤：

S1011、响应于情感语音合成指令，获取待合成情感语音所对应的原始文本、目标情感和目标音色。

其中，情感语音合成指令可以是用户触发的，也可以是预设程序自动生成的，本申请对此不作任何限制。

以用户触发为例，在具体实施时，可以响应于用户触发的情感语音合成指令，获取待合成情感语音所对应的原始文本、目标情感和目标音色。其中，原始文本是用于指示待合成语音的语义内容的文本；目标情感是指期望待合成语音所具有的情感，示例性的，情感可以是自然、愤怒、悲伤和喜悦等；目标音色是指期望待合成语音所具有的音色，而不同的说话人具有不同的音色，音色能够反映出语音的特有品质，因而可以区分说话人的身份，示例性的，音色可以是说话人A、说话人B和说话人C等。

这里，原始文本的获取方式可以是用户在页面中输入的，也可以是用户在预设文本库中选择的，还可以是从用户输入的语音中识别出来的，原始文本的获取方式本申请在此不做任何限定。

S1012、查找预定情感音库，当所述目标情感对应一个音色时，将所述对应的音色确定为情感音色。

其中，本申请示例性实施例所提供的情感语音的合成方法可以通过情感语音的合成系统实现。预定情感音库是指构建该合成系统或者得到该合成方法所需的多个样本语音所组成的语音库。

值得注意的是，在现有技术中为构建出可以合成多种音色以及多种情感的语音合成系统，针对合成系统能够合成的每种目标音色，均需要获取该种目标音色的不同情感的样本语音数据；也就是说，针对每种目标音色对应的目标说话人，需要收集该目标说话人表达各种情感的语音数据，这极大地增加了合成系统构建的成本和难度，同时目标说话人的情感演绎能力也极大地制约了合成语音的质量。

而根据本申请实施例提供的情感语音的合成方法，针对能够合成的每种目标音色，不需要收集该种目标音色的不同情感的样本语音数据，仅需收集该种目标音色的自然朗读的样本语音数据以及一种或几种音色的情感语音数据即可；也就是说，对于情感语音数据，本申请实施例提供的合成方法仅需收集一个或少数几个说话人表达情感的语音数据；显然，这极大地降低了合成系统构建的成本和难度。此外，收集的情感语音数据也不限定于由目标说话人(对应合成系统能合成的目标音色)提供，这样可以选择具有更好的情感表现能力的说话人来提供情感语音，例如专业的播音员，从而提升情感语音的合成质量，提高语音交互的服务体验。

在具体实施时，预定情感音库中包括多个样本语音，每个样本语音具有情感标记和音色标记；其中，情感标记指示该样本语音所具有的情感，音色标记指示该样本语音所具有的音色。这样，预定情感音库中的每种情感都具有对应的音色。

因此，当所述目标情感对应一个音色时，可直接将所述对应的音色确定为情感音色。

S1013、当所述目标情感对应多个音色时，利用自然语言处理技术对所述原始文本进行语义分析，确定所述原始文本中包含的情感的情感强度。

该步骤中，当所述目标情感对应多个音色时，利用自然语言处理技术对所述原始文本进行语义分析，确定出原始文本中体现的情感的情感强度，也就是情感的强烈程度。应当理解，在情感强度不同时，同一种情感对应的文本和语音有不同。例如，以情感“悲伤”为例，在情感强度较低时，情感语音可能体现为抽泣着说话；在情感强度较高时，情感语音可能体现为大声哭泣着说话，此时文本中可能也会出现更多的表现强烈情感的词汇等。

S1014、从所述目标情感对应的多个音色中筛选出与所述情感强度相符的音色，并将与所述情感强度相符的音色作为所述情感音色。

进一步的，从所述目标情感对应的多个音色中筛选出与所述情感强度相符的音色，并将与所述情感强度相符的音色作为所述情感音色。这样，使得合成语音中目标情感的强烈程度与原始文本所体现的情感强度相符合，可以进一步提升合成语音的质量。

其中，音色与所述情感强度相符是指在所述预定情感音库包括的多个样本语音中，与该音色对应且具有所述目标情感的至少一个样本语音中所蕴含的目标情感的强度与所述情感强度相符。

这里，在所述预定情感音库中目标情感对应多个音色时，针对每个音色，所述预定情感音库中包括与该音色对应且具有所述目标情感的至少一个样本语音；在构建所述预定情感音库时，可以通过对样本语音进行语音分析或人工标记等方式，确定出与该音色对应且具有所述目标情感的至少一个样本语音中所蕴含的目标情感的强度。

进一步的，可以该音色和与该音色对应的目标情感的强度进行绑定，这样，在确定出目标情感后，可以从目标情感对应的多个音色中筛选出与所述情感强度相符的音色。

示例性的，在具体实施时，通过查找预定情感音库确定目标情感“悲伤”对应“说话人A”、“说话人B”和“说话人C”三种音色；针对“悲伤”这一类型的情感，“说话人A”、“说话人B”和“说话人C”绑定的“悲伤”情感强度依次为“强”、“中”和“弱”；利用自然语言处理技术对原始文本进行语义分析，确定原始文本中包含的情感的情感强度为“弱”，此时可确定出音色“说话人C”与情感强度相符，进而将音色“说话人C”作为情感音色。

在一种可能的实施方式中，当所述目标情感对应多个音色时，也可以通过将所述目标情感对应的多个音色提供给用户选择，响应于用户的选择操作确定情感音色。

在一种可能的实施方式中，关于步骤S102拆分所述原始文本以得到构成所述原始文本的多个目标音节可以通过预设字典的方式实现。

具体说来，文本中的字/词的发音是以音节为单位的，例如，“你”这个字由“n”和“i”两个音节构成。该步骤中可以通过字典的方式将原始文本拆分成多个音节；为便于后续步骤的处理和计算机识别，可以基于音节在字典中的顺序将各目标音节表示成数字序列的形式。通过这种方式，原始文本被拆分成了多个目标音节，每个目标音节表现为一个或多个数字编码，原始文本表现为一串数字序列。

此外，需要说明的是，原始文本的语种可以是中文、英文和日文等，原始文本也可以是多语种构成的混合文本；原始文本中除了包括字/词外，也可以包含数字和特殊符号，这些数字和特殊符号也可以通过字典的方式拆分成音节并转换成数字序列，本申请对于文本的语种和内容不做任何限定。

在一种可能的实施方式中，步骤S103可包括以下步骤：

其中，所述映射关系表用于表征在不同情感和不同音色下音节到语音特征序列的映射关系。具体的，所述映射关系表可以通过机器学习的方式实现，例如卷积神经网络CNN和长短期记忆网络LSTM。

在具体实施时，确定所述映射关系表的步骤包括：

步骤1、获取多个样本语音。

其中，每个样本语音标记有情感标记和音色标记，每个样本语音有对应的样本文本，每个样本文本被拆分成多个样本音节。

需要说明的是，如前所述，本申请实施例提供的情感语音的合成方法，针对能够合成的每种目标音色，仅需收集该种目标音色的自然朗读的样本语音以及一种或几种音色的情感语音即可。因此，从样本语音集获取的多个样本语音中，既包含了情感语音，也包含了非情感语音(自然朗读语音)。其中，非情感语音也有相应的情感标记，例如非情感语音的情感标记可以为0。

当所述映射关系表通过机器学习的方式实现时，可利用样本语音训练网络模型，使得网络模型学习到在不同情感和不同音色下音节到语音特征序列的映射关系。这样，在对网络模型进行训练时，本申请提高的合成方法可以使用样本语音中的情感语音和非情感语音进行联合训练，进一步降低了模型训练的复杂度，减少数据分类训练对合成语音质量的影响。

步骤2、针对多个样本语音中的每个样本语音，确定该样本语音中每个语音帧的频谱特征和从该样本语音对应的样本文本拆分出的多个样本音节。

首先，需要说明的是，按照一定的采样频率对连续的原始语音信号进行采样可以得到多个语音时序样本点，多个语音时序样本点组成了样本语音；将样本语音分帧可以得到样本语音的多个语音帧，其中每个语音帧的时长相同。

该步骤中，针对每个样本语音，确定出该样本语音的每个语音帧的频谱特征；其中，频谱特征包括梅尔频谱特征或者梅尔倒谱系数特征等。具体说来，可通过对样本语音的每个语音帧进行短时傅里叶变换得到样本语音的线性频谱；再将线性频谱通过梅尔滤波器得到每个语音帧的梅尔频谱特征，或者将线性频谱通过Fbank滤波器，再经过离散余弦变化得到每个语音帧的梅尔倒谱系数特征。除了上述频谱特征的提取方式，该步骤还可以通过机器学习的方式来实现，例如无监督神经网络和预训练网络模型等，本申请在此不作任何限定。

步骤3、从该样本语音的首个语音帧和该样本语音对应的首个样本音节开始，根据每个语音帧的频谱特征将语音帧和样本音节进行对齐，确定出每个样本音节对应的一个或多个语音帧。

示例性的，针对首个样本音节，以首个语音帧为起点向后依次进行对齐，直到根据语音帧的频谱特征确定出首个样本音节对应的结束语音帧，并将首个语音帧和结束语音帧之间的语音帧确定为首个样本音节对应的语音帧；再针对第二个样本音节，以结束语音帧的下一个语音帧为起点重复上述步骤，直至确定出每个样本音节对应的一个或多个语音帧。

步骤4、针对每个样本音节，基于该样本音节对应的一个或多个语音帧确定该样本音节的发音时长。

该步骤中，因为语音帧的时长是一致的，例如，每个语音帧的时长是10毫秒，因此可以基于该样本音节对应的语音帧的个数和时长，确定出该样本音节的发音时长；示例性的，某一样本音节对应了第三语音帧到第五语音帧，每个语音帧的发音时长是10毫秒，则该样本音节的发音时长为30毫秒。

步骤5、基于该样本音节对应的一个或多个语音帧的频谱特征，根据音频算法确定该样本音节的音高和能量。

该步骤中，可以根据音频算法，例如WORLD算法，基于语音帧的频谱特征，计算出每个语音帧的音高和能量；再将该样本音节对应的一个或多个语音帧的音高和能量分别取平均值，得到该样本音节的音高和能量。

在一种可能的实施方式中，步骤5中确定该样本音节的音高，还可以通过以下步骤实现：

步骤(A)、针对多个样本语音中的每个样本语音，从所述多个样本语音中筛选出与该样本语音具有相同音色标记的至少一个目标样本语音；所述至少一个目标样本语音中包括该样本语音。

该步骤中，针对多个样本语音中的每个样本语音，按照该样本语音的音色标记从多个样本语音中筛选出至少一个目标样本语音，这样目标样本语音的音色标记均相同；目标样本语音中也包括该样本语音。

步骤(B)、基于所述至少一个目标样本语音中每个目标样本语音的每个语音帧的频谱特征，根据音频算法确定该语音帧的原始音高。

这里，与步骤5中的实施方式相同，可以根据音频算法，例如WORLD算法，基于语音帧的频谱特征，计算出每个语音帧的原始音高。

步骤(C)、基于每个目标样本语音的每个语音帧的原始音高，确定与该样本语音的音色标记对应的原始音高的统计学数据。

该步骤中，可以采用常用的统计学计算公式，根据至少一个目标样本语音中每个目标样本语音的每个语音帧的原始音高，计算出原始音高的统计学数据。而目标样本语音是根据音色标记从多个样本语音中筛选出来的，也就是说，目标样本语音均具有相同的音色标记，因而计算出的原始音高的统计学数据与该音色标记相对应。

步骤(D)、基于所述原始音高的统计学数据，对该样本语音的每个语音帧的初始音高进行归一化处理，得到该样本语音的每个语音帧的音高。

其中，原始音高的统计学数据可以包括原始音高的平均值和标准差等。当所述统计学数据为原始音高的平均值时，对该样本语音的每个语音帧的原始音高进行归一化处理的方式包括：该语音帧的音高＝(该语音帧的原始音高-原始音高的平均值)/原始音高的平均值；当所述统计学数据为原始音高的平均值和标准差时，对该样本语音的每个语音帧的原始音高进行归一化处理的方式包括：该语音帧的音高＝(该语音帧的原始音高-原始音高的平均值)/原始音高的标准差。

通过这种方式，根据样本音节对应的音色标记对样本音节的音高进行了归一化处理，可以去除音高中由音色标记引入的音色信息，保证后续合成出的目标情感语音的音色与目标音色的音色一致。

步骤(E)、针对该样本语音对应的每个样本音节，确定该样本音节对应的一个或多个语音帧的音高的平均值，并将所述平均值确定为该样本音节的音高。

步骤6、将该样本音节对应的发音时长、音高和能量确定为该样本音节的语音特征序列。

步骤7、根据每个样本语音中每个样本音节的语音特征序列、每个样本语音的情感标记和音色标记，构建用于表征在不同情感和不同音色下音节到语音特征序列的映射关系的映射关系表。

当所述映射关系表通过机器学习的方式实现时，在对模型进行训练时，针对每个样本语音中的每个样本音节，可将该样本音节、该样本语音的情感标记和音色标记作为模型的输入，将该样本音节的语音特征序列作为模型的期望输出，使得模型学习到在不同情感和不同音色下音节到语音特征序列的映射关系。这样在应用时，训练好的模型即可基于输入的每个目标音节、目标情感和情感音色，确定出该目标音节映射出的语音特征序列。

在一种可能的实施方式中，步骤S104可包括以下步骤：

S1041、针对每个目标音节，将该目标音节、所述目标情感以及该目标音节的语音特征序列输入预先训练好的语音特征处理模型进行特征融合，得到该目标音节的融合语音特征。

在具体实施时，语音特征处理模型可以包括各类网络模型，例如CNN模型和LSTM模型等。针对每个目标音节，语音特征处理模型将输入的该目标音节、所述目标情感以及该目标音节的语音特征序列中的各项分别映射到同一特征维度，并将映射到同一维度后得到的该目标音节的特征向量、所述目标情感的特征向量以及该目标音节的语音特征序列中各项的特征向量相加以进行特征融合，从而得到该目标音节的融合语音特征。示例性的，可以将该目标音节、所述目标情感以及该目标音节的语音特征序列中的各项分别映射成为256维的特征向量，再进行向量加法得到一个256维的融合语音特征。

这样，语音特征处理模型通过将该目标音节、所述目标情感以及该目标音节的语音特征序列中的各项分别映射到同一特征维度后再相加，可以使得融合语音特征中包括了音节信息、情感信息和语音特征序列在内的综合信息，为后续的语音合成做好准备。

S1042、根据该目标音节的发音时长确定该目标音节的融合语音特征的复制次数，并按照所述复制次数对该目标音节的融合语音特征进行复制，得到该目标音节的中间语音特征。

该步骤中，按照发音时长确定复制次数，对综合特征进行复制后得到中间语音特征，使得基于中间语音特征合成出的该目标音节可以具有准确的发音时长。例如，某个目标音节的发音时长应为30毫秒，可确定出复制倍数为3倍，则将该目标音节的综合特征复制三次，综合特征的长度被扩展到原来的三倍，得到该目标音节的中间语音特征，这样在合成出的实际目标情感语音中该目标音节的发音时长才能符合预期时长。

S1043、整合所述原始文本的每个目标音节的中间语音特征，得到所述原始文本所对应的语音特征。

这里，因为文本在发音时是以音节为单位的，因而将原始文本的每个目标音节的中间特征顺次整合起来，即可得到所述原始文本所对应的语音特征。

在一种可能的实施方式中，所述语音特征处理模型的步骤通过以下步骤被训练得到：

步骤1、针对多个样本语音中每个样本语音对应的每个样本音节，将该样本音节、该样本语音的情感标记和音色标记以及该样本音节的语音特征序列输入初始语音特征处理模型，得到该样本音节的融合语音特征。

其中，预先构建的初始语音特征处理模型的模型参数可以是随机设置的，在后续的训练过程中可通过逐步调节初始语音特征处理模型的模型参数得到训练好的语音特征处理模型。

同样的，在训练语音特征处理模型的过程中，同时使用样本语音中的情感语音和非情感语音进行联合训练，进一步降低了模型训练的复杂度，减少数据分类训练对合成语音质量的影响。

步骤2、根据该样本音节的发音时长确定该样本音节的融合语音特征的复制倍数，并按照所述复制倍数对该样本音节的融合语音特征进行复制，得到该样本音节的中间语音特征。

步骤3、整合该样本语音对应的每个样本音节的中间语音特征，得到该样本语音对应的样本文本的语音特征。

这里，步骤1至步骤3的描述可以参照S1041至S1043的描述，并且能达到相同的技术效果，对此不做赘述。

步骤4、对该样本语音对应的样本文本的语音特征进行音色识别，确定该样本语音对应的样本文本的语音特征的音色识别结果。

该步骤中，可以通过预先构建的音色识别模型对该样本语音对应的样本文本的语音特征进行音色识别，确定语音特征的音色识别结果。

步骤5、根据确定的音色识别结果和该样本语音的音色标记，对所述初始语音特征处理模型的模型参数进行调整，基于参数调整后的所述初始语音特征处理模型重新得到该样本语音对应的样本文本的语音特征，并确定重新得到的语音特征的音色识别结果。

该步骤中，可以根据音色识别结果和该样本语音的音色标记，确定出初始语音特征处理模型中模型参数的梯度；对模型参数的梯度进行取反，再将取反后的梯度反向传播以更新初始语音特征处理模型的模型参数。

进一步的，可以根据参数调整后的初始语音特征处理模型按照步骤1至步骤3中的方式重新得到语音特征；再按照步骤4中的方式重新确定语音特征的音色识别结果。

步骤6、重复上述步骤5，直至该样本语音对应的样本文本的语音特征被确定出的音色识别结果不符合所述音色标记时，得到所述语音特征处理模型。

通过这种方式训练语音特征处理模型，使得训练好的语音特征处理模型得到的语音特征不能被识别出符合音色标记的音色识别结果，音色识别结果的准确率尽可能低，此时说明语音特征中由情感音色引入的音色信息被去除，且语音特征中的情感特征被保留，这样能够提高后续合成出的目标情感语音的语音质量，保证目标情感语音的音色与目标音色的音色一致。

在一种可能的实施方式中，步骤S105可以通过将原始文本的语音特征和目标音色输入语音合成模型，合成出与所述原始文本对应的且具有所述目标情感和所述目标音色的目标情感语音。在具体实施时，该步骤可以通过多层的卷积神经网络CNN以及循环神经网络RNN等方式实现。

本申请实施例提供的一种情感语音的合成方法，包括：确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色；拆分所述原始文本以得到构成所述原始文本的多个目标音节；基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列；所述语音特征序列包括以下项中的至少一项：发音时长、音高和能量；整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征；利用所述原始文本的语音特征和所述目标音色，合成与所述原始文本对应的且具有所述目标情感和所述目标音色的目标情感语音。

通过该合成方法，能够根据目标情感和情感音色确定原始文本的语音特征，并基于原始文本的语音特征和目标音色，合成目标情感语音；通过这种方式，在需要合成具有不同目标音色和不同目标情感的语音时，不必针对每种目标音色收集不同目标情感的语音数据，仅需收集一个或少数音色不同目标情感的语音数据即可，从而降低了情感语音合成的成本，减少了具有相应音色的说话人的情感表现能力对语音质量的影响，提高了语音交互的服务体验。

请参阅图2、图3，图2为本申请实施例所提供的一种情感语音的合成装置的结构示意图之一，图3为本申请实施例所提供的一种情感语音的合成装置的结构示意图之二。如图2中所示，所述合成装置200包括：

确定模块210，用于确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色；

拆分模块220，用于拆分所述原始文本以得到构成所述原始文本的多个目标音节；

映射模块230，用于基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列；所述语音特征序列包括以下项中的至少一项：发音时长、音高和能量；

整合模块240，用于整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征；

合成模块250，用于利用所述原始文本的语音特征和所述目标音色，合成与所述原始文本对应的且具有所述目标情感和所述目标音色的目标情感语音。

进一步的，所述确定模块210在用于确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色时，所述确定模块210用于：

进一步的，所述映射模块230在用于基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列时，所述映射模块230用于：

进一步的，如图3所示，所述合成装置200还包括映射确定模块260；所述映射确定模块260用于通过以下步骤确定所述预设的映射关系表：

进一步的，所述整合模块240在用于整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征时，所述整合模块240用于：

进一步的，如图3所示，所述合成装置200还包括训练模块270；所述训练模块270用于通过以下步骤训练得到所述语音特征处理模型：

进一步的，所述映射确定模块260在用于基于该样本音节对应的一个或多个语音帧的频谱特征，根据音频算法确定该样本音节的音高时，所述映射确定模块260用于：

本申请实施例提供的一种情感语音的合成装置，包括：确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色；拆分所述原始文本以得到所述原始文本的多个目标音节；基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列；所述语音特征序列包括以下项中的至少一项：发音时长、音高和能量；整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征；使用所述原始文本的语音特征和所述目标音色，合成与所述原始文本对应的且具有所述目标情感和所述目标音色的目标情感语音。

通过该合成装置，能够根据目标情感和情感音色确定原始文本的语音特征，并基于原始文本的语音特征和目标音色，合成目标情感语音；这样，在需要合成具有不同目标音色和不同目标情感的语音时，不必针对每种目标音色收集不同目标情感的语音数据，仅需收集一个或少数音色不同目标情感的语音数据即可，从而降低了情感语音合成的成本，减少了具有相应音色的说话人的情感表现能力对语音质量的影响，提高了语音交互的服务体验。

请参阅图4，图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备运行如实施例中的一种情感语音的合成方法时，所述处理器410与所述存储器420之间通过总线430通信，所述处理器410执行所述机器可读指令，所述处理器410方法项的前序部分，以执行以下步骤：

在一个可行的实施方案，所述处理器410在用于执行确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色时，具体用于：

在一个可行的实施方案，所述处理器410在用于执行基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列时，具体用于：

在一个可行的实施方案，所述处理器410还用于通过执行以下步骤确定所述预设的映射关系表：

在一个可行的实施方案，所述处理器410在用于执行整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征时，具体用于：

在一个可行的实施方案，所述处理器410还用于通过执行以下步骤训练得到所述语音特征处理模型：

在一个可行的实施方案，所述处理器410在用于执行基于该样本音节对应的一个或多个语音帧的频谱特征，根据音频算法确定该样本音节的音高时，具体用于：

通过上述方式，能够根据目标情感和情感音色确定原始文本的语音特征，并基于原始文本的语音特征和目标音色，合成目标情感语音；这样，在需要合成具有不同目标音色和不同目标情感的语音时，不必针对每种目标音色收集不同目标情感的语音数据，仅需收集一个或少数音色不同目标情感的语音数据即可，从而降低了情感语音合成的成本，减少了具有相应音色的说话人的情感表现能力对语音质量的影响，提高了语音交互的服务体验。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行，所述处理器执行以下步骤：

在一个可行的实施方案，所述处理器在用于执行确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色时，具体用于：

在一个可行的实施方案，所述处理器在用于执行基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列时，具体用于：

在一个可行的实施方案，所述处理器还用于通过执行以下步骤确定所述预设的映射关系表：

在一个可行的实施方案，所述处理器在用于执行整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征时，具体用于：

在一个可行的实施方案，所述处理器还用于通过执行以下步骤训练得到所述语音特征处理模型：

在一个可行的实施方案，所述处理器在用于执行基于该样本音节对应的一个或多个语音帧的频谱特征，根据音频算法确定该样本音节的音高时，具体用于：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种情感语音的合成方法，其特征在于，所述合成方法包括：

2.如权利要求1所述的合成方法，其特征在于，所述确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色的步骤，包括：

3.如权利要求1所述的合成方法，其特征在于，所述基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列的步骤，包括：

4.如权利要求3所述的合成方法，其特征在于，所述预设的映射关系表通过以下步骤被确定：

5.如权利要求4所述的合成方法，其特征在于，所述整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征的步骤，包括：

6.如权利要求5所述的合成方法，其特征在于，所述语音特征处理模型的步骤通过以下步骤被训练得到：

7.如权利要求4所述的合成方法，其特征在于，所述基于该样本音节对应的一个或多个语音帧的频谱特征，根据音频算法确定该样本音节的音高的步骤，包括：

8.一种情感语音的合成装置，其特征在于，所述合成装置包括：

9.如权利要求8所述的合成装置，其特征在于，所述确定模块在用于确定待合成情感语音所对应的原始文本、目标情感、目标音色和情感音色时，所述确定模块用于：

10.如权利要求8所述的合成装置，其特征在于，所述映射模块在用于基于所述目标情感和所述情感音色对所述多个目标音节中的每个目标音节进行映射处理，得到每个目标音节的语音特征序列时，所述映射模块用于：

11.如权利要求10所述的合成装置，其特征在于，所述合成装置还包括映射确定模块；所述映射确定模块用于通过以下步骤确定所述预设的映射关系表：

12.如权利要求11所述的合成装置，其特征在于，所述整合模块在用于整合所述多个目标音节中的每个目标音节的语音特征序列，得到所述原始文本所对应的语音特征时，所述整合模块用于：

13.如权利要求12所述的合成装置，其特征在于，所述合成装置还包括训练模块；所述训练模块用于通过以下步骤训练得到所述语音特征处理模型：

14.如权利要求11所述的合成装置，其特征在于，所述映射确定模块在用于基于该样本音节对应的一个或多个语音帧的频谱特征，根据音频算法确定该样本音节的音高时，所述映射确定模块用于：

15.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的一种情感语音的合成方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的一种情感语音的合成方法的步骤。