CN115457931B

CN115457931B - 一种语音的合成方法、装置、设备及存储介质

Info

Publication number: CN115457931B
Application number: CN202211378555.0A
Authority: CN
Inventors: 李太豪; 郑书凯; 黄剑韬; 阮玉平
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-03-24
Anticipated expiration: 2042-11-04
Also published as: CN115457931A

Abstract

本说明书公开了一种语音的合成方法、装置、设备及存储介质，通过将获取到的语音文本数据拆分为多个字语音文本数据，并且每个子语音文本数据之间存在重叠，从而使得在将每个子语音文本数据对应的情感语音数据进行合成时，可以针对重叠的部分进行优化处理，以使各子语音文本数据对应的情感语音数据过渡时更加自然。进而通过预测模型，针对每个子语音文本数据，在考虑到预测出的上一个子语音文本数据对应的情感强度值的基础上，预测出该子语音文本数据的情感强度值，以避免任意相邻的两个子语音文本数据之间的情感强度的变化较为生硬的问题，最后通过语音合成模型，合成与所述语音文本数据对应的情感语音，进而可以使合成的情感语音数据更加拟人化。

Description

一种语音的合成方法、装置、设备及存储介质

技术领域

本说明书涉及人工智能技术领域，尤其涉及一种语音的合成方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，语音合成技术越来越广泛的被应用于各个领域中，如：人机对话、新闻播报等。

目前，通过深度学习模型合成的语音的情感强度基本一致，即合成的语音中不包含情感的起伏变化，从而使得合成出的语音较为生硬，不能满足用户日益丰富的个性化需求。

因此，如何能够使合成的语音更加拟人化，则是一个亟待解决的问题。

发明内容

本说明书提供一种语音的合成方法、装置、设备及存储介质，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种语音的合成方法，包括：

获取合成语音所需的语音文本数据；

将所述语音文本数据划分为各子语音文本数据，其中，针对每个子语音文本数据，该子语音文本数据中的末尾部分的至少部分字符，作为下一个子语音文本数据的开始部分的字符；

从所述各子语音文本数据中依次选取出一个子语音文本数据，输入到预先训练的预测模型中，以通过所述预测模型基于在该子语音文本数据之前选取出的子语音文本数据的预测结果，预测出该子语音文本数据对应的情感强度特征表示，所述情感强度特征表示用于表征生成该子语音文本数据对应的情感语音数据所需的语音参数；

将每个子语音文本数据对应的情感强度特征表示，以及每个子语音文本数据输入到预先训练的语音合成模型中，以通过所述语音合成模型，生成所述语音文本数据对应的情感语音数据。

可选地，训练所述预测模型，具体包括：

获取用于合成语音的文本数据以及所述文本数据对应的第一语音数据和第二语音数据，所述第一语音数据为采集到的不包含特殊情感的真实语音数据，所述第二语音数据为采集到的包含有一种类型的特殊情感的真实语音数据；

对所述第一语音数据和所述第二语音数据进行分析，以确定出所述第一语音数据和所述第二语音数据之间的数据差异值，并根据所述数据差异值，确定出所述第二语音数据的目标情感强度值，所述数据差异值包括：两个语音数据之间的能量差异、帧数差异、基频差异中的至少一种；

对所述文本数据以及所述第二语音数据中包含的特殊情感的类型进行编码，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示；

将所述第一特征表示输入到所述预测模型中，以通过所述预测模型，预测出生成所述文本数据对应的情感语音数据所需的情感强度特征表示，并根据确定出的所述情感强度特征表示，确定生成所述文本数据对应的情感语音数据所需的情感强度值；

以最小化预测出的所述情感强度值和所述第二语音数据的目标情感强度值之间的偏差为优化目标，对所述预测模型进行训练。

可选地，对所述第一语音数据和所述第二语音数据进行分析，以确定出所述第一语音数据和所述第二语音数据之间的数据差异值，具体包括：

根据所述第一语音数据的数据信息，确定出所述第一语音数据的梅尔谱信息，所述数据信息包括：频率信息、幅度信息、相位信息；以及

根据所述第二语音数据的数据信息，确定出所述第二语音数据的梅尔谱信息；

针对所述第一语音数据中的每帧第一语音数据，从第二语音数据中确定出与该帧第一语音数据相对应的至少一帧第二语音数据，确定该帧第一语音数据和与该帧第一语音数据相对应的第二语音数据之间的至少一种数据差异值。

可选地，根据所述数据差异值，确定出所述第二语音数据的目标情感强度值，具体包括：

根据确定出的所述第一语音数据和所述第二语音数据之间的各数据差异值，确定所述第一语音数据和所述第二语音数据之间的融合数据差异值；

根据所述融合数据差异值，确定出所述第二语音数据的目标情感强度值。

可选地，对所述文本数据以及所述第二语音数据中包含的特殊情感的类型进行编码，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示，具体包括：

对所述文本数据进行分析，以确定出所述文本数据对应的音素文本数据，所述音素文本数据用于表征所述文本数据中的每个字符对应的发音；

对所述文本数据对应的音素文本数据以及所述第二语音数据中包含的特殊情感的类型进行编码，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示。

可选地，对所述文本数据对应的音素文本数据以及所述第二语音数据中包含的特殊情感的类型进行编码，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示，具体包括：

将所述第二语音数据中包含的特殊情感的类型输入到特征提取模型中，以通过所述特征提取模型，提取出所述第二语音数据中包含的特殊情感的类型的第二特征表示；

对所述文本数据对应的音素文本数据进行编码，以得到所述音素文本数据对应的第三特征表示；

根据所述第二特征表示和所述第三特征表示，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示。

可选地，训练所述语音合成模型，具体包括：

将所述文本数据输入到预先训练的预测模型中，以通过预先训练的预测模型预测出所述文本数据对应的情感强度特征表示；

将所述文本数据对应的情感强度特征表示，以及所述文本数据输入到所述语音合成模型中，以通过所述语音合成模型，生成所述文本数据对应的情感语音；

以最小化通过所述语音合成模型生成的情感语音数据和所述第二语音数据之间的偏差为优化目标，对所述语音合成模型进行训练。

本说明书提供了一种语音的合成装置，包括：

获取模块，用于获取合成语音所需的语音文本数据；

数据拆分模块，用于将所述语音文本数据划分为各子语音文本数据，其中，针对每个子语音文本数据，该子语音文本数据中的末尾部分的至少部分字符，作为下一个子语音文本数据的开始部分的字符；

预测模块，用于从所述各子语音文本数据中依次选取出一个子语音文本数据，输入到预先训练的预测模型中，以通过所述预测模型基于在该子语音文本数据之前选取出的子语音文本数据的预测结果，预测出该子语音文本数据对应的情感强度特征表示，所述情感强度特征表示用于表征生成该子语音文本数据对应的情感语音数据所需的语音参数；

合成模块，用于将每个子语音文本数据对应的情感强度特征表示，以及每个子语音文本数据输入到预先训练的语音合成模型中，以通过所述语音合成模型，生成所述语音文本数据对应的情感语音数据。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音的合成方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述语音的合成方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的语音的合成方法，首先获取合成语音所需的语音文本数据，将语音文本数据划分为各子语音文本数据，其中，针对每个子语音文本数据，该子语音文本数据中的末尾部分的至少部分字符，作为下一个子语音文本数据的开始部分的字符，从各子语音文本数据中依次选取出一个子语音文本数据，输入到预测模型中，以通过预测模型基于在该子语音文本数据之前选取出的子语音文本数据的预测结果，预测出该子语音文本数据对应的情感强度特征表示，情感强度特征表示用于表征生成该子语音文本数据对应的情感语音数据所需的语音参数，将每个子语音文本数据对应的情感强度特征表示，以及每个子语音文本数据输入到预先训练的语音合成模型中，以通过语音合成模型，生成语音文本数据对应的情感语音数据。

从上述方法中可以看出，可以通过将获取到的语音文本数据拆分为多个字语音文本数据，并且每个子语音文本数据之间存在重叠，从而使得在将每个子语音文本数据对应的情感语音数据进行合成时，可以针对重叠的部分进行优化处理，以使各子语音文本数据对应的情感语音数据过渡时更加自然，进而通过预测模型，针对每个子语音文本数据，在考虑到预测出的上一个子语音文本数据对应的情感强度值的基础上，预测出该子语音文本数据的情感强度值，以避免任意相邻的两个子语音文本数据之间的情感强度值的变化较为生硬的问题，最后通过语音合成模型，合成与所述语音文本数据对应的情感语音，进而可以使合成的情感语音数据更加拟人化。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中提供的一种语音的合成方法的流程示意图；

图2为本说明书中提供的情感语音合成的方法的整体结构示意图；

图3为本说明书提供的一种语音的合成装置的示意图；

图4为本说明书提供的一种对应于图1的电子设备的示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中提供的一种语音的合成方法的流程示意图，包括以下步骤：

S101：获取合成语音所需的语音文本数据。

在本说明书中，业务平台在执行业务的过程中，可能会需要向用户播放带有情感的情感语音数据，进而可以通过播放的情感语音数据为用户提供服务，其中，这里的业务可以是儿童故事朗读、情感电台播报、智能语音客服等。

而上述内容中，业务平台播放的情感语音数据，可以是从数据库预先保存的情感语音数据中获取的，也可以是根据执行业务时需要合成的情感语音数据对应的语音文本数据合成的情感语音数据，例如：若业务平台执行的业务为儿童故事朗读，则可以将对应的儿童故事的文本数据作为这里的语音文本数据。

在本说明书中，用于实现语音的合成方法的执行主体，可以是指服务器等设置于业务平台的指定设备，也可以是指诸如台式电脑、笔记本电脑等指定设备，为了便于描述，下面仅以服务器是执行主体为例，对本说明书提供的语音的合成方法进行说明。

S102：将所述语音文本数据划分为各子语音文本数据，其中，针对每个子语音文本数据，该子语音文本数据中的末尾部分的至少部分字符，作为下一个子语音文本数据的开始部分的字符。

从上述内容中可以看出，服务器获取到的语音文本数据通常为长文本数据，例如：儿童故事文本，情感电台的语音文本等，而服务器在获取到这些内容较长的语音文本数据后，可以按照指定长度以及语音文本数据中的标点符号，将获取到的语音文本数据划分为多个片段，并将每个片段均作为一个子语音文本数据。

其中，在划分子语音文本数据时，服务器可以针对每个子语音文本数据，将处于该子语音文本数据中的末尾部分的至少部分字符，插入到下一个子语音文本数据的开始位置，以作为下一个子语音文本数据的开始部分的字符，从而可以将获取到的语音文本数据划分为各子语音文本数据，换句话说，就是服务器可以将一个子语音文本数据的最后一个词，拼接到下一个子语音文本数据的开头，这样使得在通过语音合成模型进行语音合成时，可以将相邻的两个子语音文本数据对应的情感语音数据中重叠的词对应的音频进行平滑处理，从而使得不同子语音文本数据对应的情感语音数据之间的过渡更加自然。

S103：从所述各子语音文本数据中依次选取出一个子语音文本数据，输入到所述预测模型中，以通过所述预测模型基于在该子语音文本数据之前选取出的子语音文本数据的预测结果，预测出该子语音文本数据对应的情感强度特征表示，所述情感强度特征表示用于表征生成该子语音文本数据对应的情感语音数据所需的语音参数。

从上述内容可知，服务器在获取到各子语音文本数据后，可以通过语音合成模型，合成出每个子语音文本数据对应的情感语音数据，而在此之前，服务器还可以通过预先训练的预测模型，预测出每个子语音文本数据对应的情感强度特征表示，进而可以使语音合成模型根据预测模型预测出的每个子语音文本数据对应的情感强度特征表示，进行情感语音数据合成。其中，每个子语音文本数据对应的情感强度特征表示用于表征生成该子语音文本数据对应的情感语音数据所需的语音参数，这里的语音参数可以是指，用于体现生成的情感语音数据中的特殊情感所需的音量对应的能量、用于体现生成的情感语音数据中的特殊情感所需的语速对应的帧数、用于体现生成的情感语音数据中的特殊情感所需的音域对应的基频等参数。

具体地，服务器可以从各子语音文本数据中依次选取出一个子语音文本数据，若该子语音文本数据为第一个子语音文本数据，则可以将该子语音文本数据输入到预测模型中，以通过预测模型，预测出该子语音文本数据对应的情感强度特征表示，若该子语音文本数据不为第一个子语音文本数据，则可以将该子语音文本数据和预测模型预测出的该子语音文本数据的上一个子语音文本数据的情感强度特征表示输入到预测模型中，以通过预测模型基于在该子语音文本数据之前选取出的子语音文本数据的预测结果，预测出该子语音文本数据对应的情感强度特征表示。

需要说明的是，上述内容中并不是直接将子语音文本数据输入到预测模型中的，而是会提取出每个子语音文本数据对应的音素文本数据的特征表示，并将每个子语音文本数据对应的音素文本数据的特征表示输入到预测模型中，以下将对其进行详细说明。

进一步地，上述的预测模型在部署在服务器中以进行情感强度特征表示预测之前，还需要对预测模型进行训练，其中，对预测模型进行训练的方法可以是，获取用于合成语音的文本数据以及文本数据对应的第一语音数据和第二语音数据，其中，第一语音数据为采集到的不包含特殊情感的真实语音数据，第二语音数据为采集到的包含有一种类型的特殊情感的真实语音数据，这里的第一语音数据即为中性语音数据，这里的特殊情感的类型可以根据实际需求确定，优选地，可以为：愤怒、开心、恐惧、惊讶、悲伤等情感的类型。

进一步地，根据第一语音数据的数据信息，确定出第一语音数据的梅尔谱信息，以及根据第二语音数据的数据信息，确定出第二语音数据的梅尔谱信息，针对第一语音数据中的每帧第一语音数据，从第二语音数据中确定出与该帧语音数据相对应的至少一帧第二语音数据，根据该帧第一语音数据对应的梅尔谱信息以及与该帧对应的第二语音数据的梅尔谱信息，确定该帧第一语音数据和与该帧第一语音数据相对应的第二语音数据之间的至少一种数据差异值，其中，数据信息包括：频率信息、幅度信息、相位信息，数据差异值包括：两个语音数据之间的能量差异、帧数差异、基频差异中的至少一种。

其中，服务器针对每帧第一语音数据，确定与该帧第一语音数据对应的第二语音数据的方法可以是，通过动态规整算法（Dynamic Time Warping，DTW）确定出第一语音数据中的每帧第一语音数据对应的第二语音数据，需要说明的是，由于第一语音数据和第二语音数据包含的特殊情感不同，因此，第一语音数据和第二语音数据的语速存在差异，所以第一语音数据和第二语音数据之间的帧数也存在差异，例如：第一语音数据可能为100帧，而第二语音数据可能为70帧，因此，在进行动态规整的时候，存在一帧第一语音数据对应着多帧第二语音数据的情况存在，也可能存在一帧第二语音数据对应着多帧第一语音数据的情况存在。

两个语音数据之间的能量差异能反应出这两个语音数据之间的音量大小差异，可以通过该帧语音数据中包含的每个采样点的值的加权平方和求得。

两个语音数据之间的帧数差异能反应出这两个语音数据之间的语速差异，其中，帧数差异可以是针对每帧第一语音数据，将与该帧第一语音数据对应的第二语音数据的帧数，作为该帧第一语音数据对应的帧数，同样地，针对每帧第二语音数据，将该帧第二语音数据对应的第一语音数据的帧数，作为该帧第二语音数据对应的帧数，而这里的帧数差异即为每帧第一语音数据对应的第二语音数据的帧数和与该帧第一语音数据对应的第二语音数据对应的第一语音数据的帧数的差值。

两个语音数据之间的基频差异能反应出这两个语音数据之间的音域差异，可以通过诸如：parsemouth等工具包提取出来。

进一步地，服务器可以根据第一语音数据中的每帧第一语音数据，根据确定出的该帧第一语音数据和与该帧第一语音数据对应的第二语音数据之间的各数据差异值，确定该帧第一语音数据和与该帧第一语音数据对应的第二语音数据之间的融合数据差异值，进而可以根据该帧第一语音数据和与该帧第一语音数据对应的第二语音数据之间的融合数据差异值，确定出该帧第一语音数据和与该帧第一语音数据对应的第二语音数据之间的目标情感强度值，作为该帧第二语音数据的目标情感强度值。

其中，服务器确定融合数据差异值的方法可以是，对该帧第一语音数据和与该帧第一语音数据对应的第二语音数据之间的每个数据差异值进行归一化处理，根据归一化处理后的各数据差异值，计算出融合数据差异值，这里的计算融合数据差异值方法可以是求各数据差异值的均值、求各数据差异值的和等方法。

服务器根据确定出的融合数据差异值，确定情感强度值的方法可以是，将融合数据差异值按大小划分为若干个区间，该帧第一语音数据和与该帧第一语音数据对应的第二语音数据之间的融合数据差异值所处的区间对应的区间值，即为与该帧第一语音数据对应的第二语音数据的目标情感强度值。例如：将融合数据差异值按照大小划分为[0~0.1),[0.1~0.2)...,[0.9~1.0]十个区间，其中，每个区间的顺序即为该区间对应的区间值，如[0~0.1)对应的区间值即为1，以此类推，若确定出的融合数据差异值为0.09，则与该帧第一语音数据对应的第二语音数据的情感强度值即为1。

需要说明的是，若一帧第一语音数据对应多帧第二语音数据，则可以针对该帧第一语音数据对应的每帧第二语音数据，将该帧第一语音数据与该帧第二语音数据之间的目标情感强度值，作为该帧第二语音数据的目标情感强度值。若多帧第一语音数据对应一帧第二语音数据，则可以将该帧第二语音数据与每帧第一语音数据之间的目标情感强度值进行融合，以得到该帧第二语音数据的目标情感强度值。

进一步地，服务器可以对文本数据以及第二语音数据中包含的特殊情感的类型进行编码，得到用于表征文本数据以及第二语音数据中包含的特殊情感的类型的第一特征表示，并将得到的第一特征表示输入到预测模型中，以通过预测模型，预测出生成文本数据对应的情感语音数据所需的情感强度特征表示，并根据生成的情感强度特征表示，确定生成文本数据对应的情感语音数据所需的情感强度值，进而可以以最小化预测出的生成文本数据对应的情感语音数据所需的情感强度值和上述内容中确定出的第二语音数据的目标情感强度值之间的偏差为优化目标，对预测模型进行训练。

值得说明的是，上述内容中，预测模型可以根据输入的第一特征表示，针对生成文本数据对应的每帧情感语音数据，预测出生成该帧情感语音数据所需的情感强度特征表示，因此，可以使得文本数据中每个字词对应的情感语音数据之间过渡的更加自然。

需要说明的是，服务器在对文本数据进行编码之前，可以对文本数据进行分析，以确定出文本数据对应的音素文本数据，其中，音素文本数据用于表征文本数据中的每个字符对应的发音（音素即根据语音的自然属性划分出的最小语音单位，音节中的一个发音动作即对应一个音素，例如：单元音、双元音、清辅音等），进而可以对文本数据对应的音素文本数据进行编码，得到文本数据（也就是音素文本数据）对应的第三特征表示。

进一步地，服务器可以将第二语音数据中包含的特殊情感的类型输入到预设特征提取模型中，以通过特征提取模型，提取出第二语音数据中包含的特殊情感的类型的第二特征表示。

服务器在得到上述的第二特征表示和第三特征表示后，可以将第二特征表示和第三特征表示进行拼接融合，以得到用于表征上述的文本数据以及上述的第二语音数据中包含的特殊情感的类型的第一特征表示。

需要说明的是，这里得到的第二特征表示在与文本数据对应的第三特征表示进行拼接融合之前，可以根据文本数据所包含的字符的数量，将第二特表示进行复制后，将复制后的第二特征表示与文本数据对应的第三特征表示进行拼接融合。例如：假设文本数据中有二十个字符，则可以将第二特征表示对应复制二十份，以进行对应。

上述内容中的预测模型可以由循环神经网络（Recurrent Neural Network，RNN）、全连接层、条件随机场（Conditional Random Field，CRF）组成，其中，条件随机场可以用于预测多个变量相互依赖的序列数，换句话说，条件随机场可以根据一个序列中的各数据之间的关联关系进行预测。

例如：假设有一组人物的图片，其中有一张图片为嘴巴张开的人物图片，而在对该图片中的人物的行为进行预测时，如果仅根据张开的嘴巴，无法判断该图片中的任务是在吃饭，还是在唱歌，还是在聊天，此时，若该图片的上一张图片为食物的图片，则可以根据上一张图片判断出，该图片中的人物正在吃饭，而在通过条件随机场CRF进行预测时，即可以根据上一张图片预测这张图片的内容。

从上述内容中可知，服务器可以通过预测模型中的条件随机场CRF，根据预测出的上一个子语音文本数据对应的情感强度值，预测出这一个子语音文本数据对应的情感强度值，从而可以避免相邻的子语音文本数据对应的情感语音数据之间的过渡较为生硬的问题。

值得说明的是，上述的根据情感强度特征表示确定出的情感强度值仅用于对预测模型进行训练的过程中，在实际应用中，服务器可以直接将通过预测模型确定出的情感强度特征表示进行情感语音数据的生成。

S104：将每个子语音文本数据对应的情感强度特征表示，以及每个子语音文本数据输入到预先训练的语音合成模型中，以通过所述语音合成模型，生成所述语音文本数据对应的情感语音数据。

服务器在通过预测模型预测出每个子语音文本数据对应的情感强度值后，可以将每个子语音文本数据，以及每个子语音文本数据对应的情感强度特征表示，输入到预先训练的语音合成模型中，以通过语音合成模型，生成语音文本数据对应的情感语音数据，这里的语音合成模型可以是诸如：神经网络声码器 HiFiGAN等神经网络模型。

其中，服务器在将每个子语音文本数据输入到语音合成模型之前，可以通过上述方法，确定出该子语音文本数据对应的第一特征表示，进而可以将该子语音文本数据对应的第一特征表示，以及预测出的该子语音文本数据对应的情感强度值，输入到解码器中，以通过解码器，根据该子语音文本数据对应的第一特征表示，以及预测出的该子语音文本数据对应的情感强度值，生成该子语音文本数据对应的梅尔谱信息，进而可以将生成的梅尔谱信息输入到预先训练的语音合成模型中，以使语音合成模型根据输入的梅尔谱信息，生成该子语音文本数据对应的情感语音数据，这里的解码器可以是FastSpeech2等解码器。

其中，语音合成模型在部署到服务器中，以进行情感语音数据合成之前，还需要对语音合成模型进行训练。而服务器训练语音合成模型的方法可以是，获取用于合成语音的文本数据以及文本数据对应的第一语音数据和第二语音数据。其中，第一语音数据为采集到的不包含特殊情感的真实语音数据，第二语音数据为采集到的包含有一种类型的特殊情感的真实语音数据，将文本数据输入到预先训练的预测模型中，以通过预测模型预测出所述文本数据对应的情感强度值，进而可以将文本数据对应的情感强度值，以及文本数据输入到语音合成模型中，以通过语音合成模型，生成文本数据对应的情感语音。以最小化情感语音数据和第二语音数据之间的偏差为优化目标，对所述语音合成模型进行训练。

为了对上述内容进行详细说明，本说明书还提供了服务器在执行业务的过程中进行情感语音合成的整体结构的示意图，如图2所示。

图2为本说明书中提供的情感语音合成的方法的整体结构示意图。

从图2中可以看出，服务器可以需要执行业务的过程中，可以通过调度模块，判断是否需要通过上述的方法合成情感语音数据，若是，则从数据库中调取生成情感语音数据所需的语音文本数据，进而可以通过预处理模块，对调取的语音文本数据进行预处理，以将调取到的语音文本数据划分为各子语音文本数据，并得到每个子语音文本数据对应的音素文本数据，进而可以通过由上述的预测模型和语音合成模型组成的情感语音数据合成模块，生成调取的语音文本数据对应的情感语音数据。

进一步地，服务器在得到生成的调取的语音文本数据对应的情感语音数据后，可以通过音频存储模块，将得到的情感语音数据存储到数据库中，并可以通过播报模块，对生成的情感语音数据进行播报，网络传输等业务的执行。

若否，则可以从数据库中调取数据库中存储的情感语音数据，进而可以根据调取到的情感语音数据进行业务执行。

从上述内容中可以看出，服务器可以通过将获取到的语音文本数据拆分为多个字语音文本数据，并且每个子语音文本数据之间存在重叠，从而使得在将每个子语音文本数据对应的情感语音数据进行合成时，可以针对重叠的部分进行优化处理，以使各子语音文本数据对应的情感语音数据过渡时更加自然，进而通过预测模型，针对每个子语音文本数据，在考虑到预测出的上一个子语音文本数据对应的情感强度值的基础上，预测出该子语音文本数据的情感强度值，以避免任意相邻的两个子语音文本数据之间的情感强度值的变化较为生硬的问题，另外，由于预测模型在进行预测时，可以每个子语音文本数据对应的每帧情感语音数据进行情感强度特征表示预测，因此，可以使得每个子语音文本数据中包含的字词之间的过渡也更加自然，最后通过语音合成模型，合成与所述语音文本数据对应的情感语音，进而可以使合成的情感语音数据更加拟人化。

以上为本说明书的一个或多个实施例提供的语音的合成方法，基于同样的思路，本说明书还提供了相应的语音的合成装置，如图3所示。

图3为本说明书提供的一种语音的合成装置的示意图，包括：

获取模块301，用于获取合成语音所需的语音文本数据；

数据拆分模块302，用于将所述语音文本数据划分为各子语音文本数据，其中，针对每个子语音文本数据，该子语音文本数据中的末尾部分的至少部分字符，作为下一个子语音文本数据的开始部分的字符；

预测模块303，用于从所述各子语音文本数据中依次选取出一个子语音文本数据，输入到预先训练的预测模型中，以通过所述预测模型基于在该子语音文本数据之前选取出的子语音文本数据的预测结果，预测出该子语音文本数据对应的情感强度特征表示，所述情感强度特征表示用于表征生成该子语音文本数据对应的情感语音数据所需的语音参数；

合成模块304，用于将每个子语音文本数据对应的情感强度特征表示，以及每个子语音文本数据输入到预先训练的语音合成模型中，以通过所述语音合成模型，生成所述语音文本数据对应的情感语音数据。

可选地，所述装置还包括：第一训练模块305；所述第一训练模块305具体用于，获取用于合成语音的文本数据以及所述文本数据对应的第一语音数据和第二语音数据，所述第一语音数据为采集到的不包含特殊情感的真实语音数据，所述第二语音数据为采集到的包含有一种类型的特殊情感的真实语音数据；对所述第一语音数据和所述第二语音数据进行分析，以确定出所述第一语音数据和所述第二语音数据之间的数据差异值，并根据所述数据差异值，确定出所述第二语音数据的目标情感强度值，所述数据差异值包括：两个语音数据之间的能量差异、帧数差异、基频差异中的至少一种；对所述文本数据以及所述第二语音数据中包含的特殊情感的类型进行编码，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示；将所述第一特征表示输入到所述预测模型中，以通过所述预测模型，预测出生成所述文本数据对应的情感语音数据所需的情感强度特征表示，并根据确定出的所述情感强度特征表示，确定生成所述文本数据对应的情感语音数据所需的情感强度值；以最小化预测出的所述情感强度值和所述第二语音数据的目标情感强度值之间的偏差为优化目标，对所述预测模型进行训练。

可选地，所述第一训练模块305具体用于，根据所述第一语音数据的数据信息，确定出所述第一语音数据的梅尔谱信息，所述数据信息包括：频率信息、幅度信息、相位信息；以及根据所述第二语音数据的数据信息，确定出所述第二语音数据的梅尔谱信息；针对所述第一语音数据中的每帧第一语音数据，从第二语音数据中确定出与该帧第一语音数据相对应的至少一帧第二语音数据，确定该帧第一语音数据和与该帧第一语音数据相对应的第二语音数据之间的至少一种数据差异值。

可选地，所述第一训练模块305具体用于，根据确定出的所述第一语音数据和所述第二语音数据之间的各数据差异值，确定所述第一语音数据和所述第二语音数据之间的融合数据差异值；根据所述融合数据差异值，确定出所述第二语音数据的目标情感强度值。

可选地，所述第一训练模块305具体用于，对所述文本数据进行分析，以确定出所述文本数据对应的音素文本数据，所述音素文本数据用于表征所述文本数据中的每个字符对应的发音；对所述文本数据对应的音素文本数据以及所述第二语音数据中包含的特殊情感的类型进行编码，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示。

可选地，所述第一训练模块305具体用于，将所述第二语音数据中包含的特殊情感的类型输入到特征提取模型中，以通过所述特征提取模型，提取出所述第二语音数据中包含的特殊情感的类型的第二特征表示；对所述文本数据对应的音素文本数据进行编码，以得到所述音素文本数据对应的第三特征表示；

可选地，所述装置还包括：第二训练模块306；

所述第二训练模块306具体用于，获取用于合成语音的文本数据以及所述文本数据对应的第一语音数据和第二语音数据，所述第一语音数据为采集到的不包含特殊情感的真实语音数据，所述第二语音数据为采集到的包含有一种类型的特殊情感的真实语音数据；将所述文本数据输入到预先训练的预测模型中，以通过所述预测模型预测出所述文本数据对应的情感强度特征表示；将所述文本数据对应的情感强度特征表示，以及所述文本数据输入到所述语音合成模型中，以通过所述语音合成模型，生成所述文本数据对应的情感语音；以最小化通过所述语音合成模型生成的情感语音数据和所述第二语音数据之间的偏差为优化目标，对所述语音合成模型进行训练。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的一种语音的合成方法。

本说明书还提供了图4所示的一种对应于图1的电子设备的示意结构图。如图4所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的语音的合成方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种语音的合成方法，其特征在于，包括：

获取合成语音所需的语音文本数据；

从所述各子语音文本数据中依次选取出一个子语音文本数据，输入到预先训练的预测模型中，以通过所述预测模型基于在该子语音文本数据之前选取出的子语音文本数据的预测结果，预测出该子语音文本数据对应的情感强度特征表示，所述情感强度特征表示用于表征生成该子语音文本数据对应的情感语音数据所需的语音参数；其中，

所述预测模型是通过获取用于合成语音的文本数据以及所述文本数据对应的第一语音数据和第二语音数据，对所述第一语音数据和所述第二语音数据进行分析，以确定出所述第一语音数据和所述第二语音数据之间的数据差异值，并根据所述数据差异值，确定出所述第二语音数据的目标情感强度值，并对所述文本数据以及所述第二语音数据中包含的特殊情感的类型进行编码，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示，将所述第一特征表示输入到所述预测模型中，以通过所述预测模型，预测出生成所述文本数据对应的情感语音数据所需的情感强度特征表示，并根据确定出的所述情感强度特征表示，确定生成所述文本数据对应的情感语音数据所需的情感强度值，以最小化预测出的所述情感强度值和所述第二语音数据的目标情感强度值之间的偏差为优化目标，对所述预测模型进行训练得到的，所述第一语音数据为采集到的不包含特殊情感的真实语音数据，所述第二语音数据为采集到的包含有一种类型的特殊情感的真实语音数据，所述数据差异值包括：两个语音数据之间的能量差异、帧数差异、基频差异中的至少一种；

2.如权利要求1所述的方法，其特征在于，对所述第一语音数据和所述第二语音数据进行分析，以确定出所述第一语音数据和所述第二语音数据之间的数据差异值，具体包括：

3.如权利要求1所述的方法，其特征在于，根据所述数据差异值，确定出所述第二语音数据的目标情感强度值，具体包括：

4.如权利要求3所述的方法，其特征在于，对所述文本数据以及所述第二语音数据中包含的特殊情感的类型进行编码，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示，具体包括：

5.如权利要求4所述的方法，其特征在于，对所述文本数据对应的音素文本数据以及所述第二语音数据中包含的特殊情感的类型进行编码，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示，具体包括：

6.如权利要求1所述的方法，其特征在于，训练所述语音合成模型，具体包括：

将所述文本数据输入到预先训练的预测模型中，以通过所述预测模型预测出所述文本数据对应的情感强度特征表示；

7.一种语音的合成装置，其特征在于，包括：

获取模块，用于获取合成语音所需的语音文本数据；

预测模块，用于从所述各子语音文本数据中依次选取出一个子语音文本数据，输入到所述预测模型中，以通过预先训练的预测模型基于在该子语音文本数据之前选取出的子语音文本数据的预测结果，预测出该子语音文本数据对应的情感强度特征表示，所述情感强度特征表示用于表征生成该子语音文本数据对应的情感语音数据所需的语音参数；

训练模块，用于通过获取用于合成语音的文本数据以及所述文本数据对应的第一语音数据和第二语音数据，对所述第一语音数据和所述第二语音数据进行分析，以确定出所述第一语音数据和所述第二语音数据之间的数据差异值，并根据所述数据差异值，确定出所述第二语音数据的目标情感强度值，并对所述文本数据以及所述第二语音数据中包含的特殊情感的类型进行编码，得到用于表征所述文本数据以及所述第二语音数据中包含的特殊情感的类型的第一特征表示，将所述第一特征表示输入到所述预测模型中，以通过所述预测模型，预测出生成所述文本数据对应的情感语音数据所需的情感强度特征表示，并根据确定出的所述情感强度特征表示，确定生成所述文本数据对应的情感语音数据所需的情感强度值，以最小化预测出的所述情感强度值和所述第二语音数据的目标情感强度值之间的偏差为优化目标，对所述预测模型进行训练得到所述预测模型，所述第一语音数据为采集到的不包含特殊情感的真实语音数据，所述第二语音数据为采集到的包含有一种类型的特殊情感的真实语音数据，所述数据差异值包括：两个语音数据之间的能量差异、帧数差异、基频差异中的至少一种；

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~6任一项所述的方法。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~6任一项所述的方法。