CN114627851A

CN114627851A - 一种语音合成方法及系统

Info

Publication number: CN114627851A
Application number: CN202210238371.8A
Authority: CN
Inventors: 马明
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-14

Abstract

本申请提供一种语音合成方法及系统，可以根据目标文本的情感类别，获取目标情感类别集，其中，目标情感类别集包括若干目标语音样本，目标语音样本的情感类别与目标文本的情感类别相同；并根据各目标语音样本的情感编码向量，获取平均情感编码向量，其中，目标语音样本的情感编码向量是目标语音样本的情感强度对应的向量表征，平均情感编码向量是对所有情感编码向量进行加和求平均值得到的；根据目标文本的文本序列编码和所述平均情感编码向量，以合成精确、稳定的情感强度对应的音频，有利于用户体验。

Description

一种语音合成方法及系统

技术领域

本申请实施例涉及语音合成技术，更具体地讲，涉及一种语音合成方法及系统。

背景技术

语音合成又称文语转换，其主要功能是将文本转换以合成语音，并尽可能使合成语音有较高的可懂度和自然度。近年来，随着语音合成技术的进步，合成的语音在音质及其自然度上越来越靠近人说话时真实的声音。但是，人说话时是富有情感的，例如，高兴、悲伤、疑惑以及生气等情感类别。因此，如何合成具有情感的语音，使合成的语音更靠近人说话时真实的声音是语音合成技术发展的关键。

现有技术中，常采用数据驱动的方式合成具有情感的语音，即通过采集到的包含各个情感类别的语音数据对各类情感进行建模，生成各个不同情感类别对应的声学参数模型，并基于参数合成的技术合成目标情感语音。但是，同一情感类别可以根据情感强度的大小被进一步划分为多种情感层次，以“哀”的情感类别为例，“哀”的情感类别进一步可划分为“郁郁寡欢”、“愁肠九转”“悲愁垂涕”等多种情感层次，采用数据驱动的方式难以合成精确、稳定的情感强度对应的音频，不利于用户体验。

发明内容

本申请示例性的实施方式提供一种语音合成方法及设备，以解决现有技术中无法在语音合成时合成精确、稳定的情感强度对应的音频的问题，提高用户体验。

一方面，本申请提供一种语音合成方法，包括：

根据目标文本的情感类别，获取目标情感类别集，其中，所述目标情感类别集包括若干目标语音样本，所述目标语音样本的情感类别与所述目标文本的情感类别相同；

根据各所述目标语音样本的情感编码向量，获取平均情感编码向量，其中，所述目标语音样本的情感编码向量是所述目标语音样本的情感强度对应的向量表征，所述平均情感编码向量是对所有所述情感编码向量进行加和求平均值得到的；

根据所述目标文本的文本序列编码和所述平均情感编码向量，得到目标音频。

另一方面，本申请提供一种语音合成系统，包括：

第一获取模块，用于根据目标文本的情感类别，获取目标情感类别集，其中，所述目标情感类别集包括若干目标语音样本，所述目标语音样本的情感类别与所述目标文本的情感类别相同；

第二获取模块，用于根据各所述目标语音样本的情感编码向量，获取平均情感编码向量，其中，所述目标语音样本的情感编码向量是所述目标语音样本的情感强度对应的向量表征，所述平均情感编码向量是对所有所述情感编码向量进行加和求平均值得到的；

音频合成模块，用于根据所述目标文本的文本序列编码和所述平均情感编码向量，得到目标音频。

本申请提供一种语音合成方法及系统，可以根据目标文本的情感类别，获取目标情感类别集，其中，目标情感类别集包括若干目标语音样本，目标语音样本的情感类别与目标文本的情感类别相同；并根据各目标语音样本的情感编码向量，获取平均情感编码向量，其中，目标语音样本的情感编码向量是目标语音样本的情感强度对应的向量表征，平均情感编码向量是对所有情感编码向量进行加和求平均值得到的；根据目标文本的文本序列编码和所述平均情感编码向量，以合成精确、稳定的情感强度对应的音频，有利于用户体验

附图说明

为了更清楚地说明本申请实施例或相关技术中的实施方式，下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例的一种语音语音合成方法的流程示意图；

图2示出了根据一些实施例的获取文本序列编码的流程示意图；

图3示出了根据一些实施例的确定目标梅尔谱的流程示意图；

图4示出了根据一些实施例的对目标音频的情感强度进行调整的流程示意图；

图5示出了根据一些实施例的一种语音合成系统的结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

首先对本发明实施例涉及的专业术语进行解释说明，如下：

梅尔谱：一种从语音音频中提取出的频域特征，可以用来表征语音信号的短时特征。

编码器：通过算法将一种可读数据转化为不可读数据的装置，统称为编码器。

解码器：通过算法将一种不可读数据转化为可读数据的装置，统称为解码器。

卷积神经网络：一种靠卷积计算的神经网络，是深度学习的代表算法之一，可以细分为很多种不同的卷积神经网络。

循环神经网络：一种以序列数据(比如音频)为输入，在序列演进方向(音频中方向就是时间)进行递归的链式链接计算的神经网络，可以细分为很多种不同的循环神经网络。

全连接网络：最基础的一种神经网络计算方式，把所有的输入和输出以乘法和加法的方式连接在一起。

注意力机制：一种通过编解码，对目标数据进行加权变化，让系统更清晰知道应该关注哪里的机制。

基频(Fundamental Frequency)，当发声体由于振动而发出声音时，声音一般可以分解为许多单纯的正弦波，也就是说所有的自然声音基本都是由许多频率不同的正弦波组成的，其中频率最低的正弦波即为基频(用F0表示)，而其他频率较高的正弦波则为泛音。

能量(Energy)，又称强度或音量，代表声音的大小，可由声音讯号的震幅来模拟，震幅越大，代表此声音波形的音量越大。

声码器(Vocoder)，一种声音信号处理装置或软件，其能将声学特征编码成声音波形。

现有的语音合成技术中，虽然已经能够合成逼真自然的情感语音，但这些情感语音合成技术采用的大多是数据驱动的方式，即若要合成“怒”的语音，则收集关于“怒”的语料并构建一个表征“怒”情感标签的声学模型或拼接数据库，继而利用这个模型(或数据库)合成“怒”的语音。但是，“怒”这一情感可以根据情感强度的大小被进一步划分为多种情感层次，如“愤愤不平”、“火冒三丈”“怒火中烧”等，而采用上述情感语音合成技术仅能使用简单程度分类的表示法来标识情感强度，比如，根据听者主观感觉，将语音片段的情感强度标注为“轻度”、“中度”、“重度”等少量几个简单级别，继而分别对不同情感类别的少量强度等级的语音数据进行建模以生成对应级别的语音。因此，如何合成不同情感强度的语音依然是当前语音合成领域的一大技术难题。

为了解决上述问题，本申请提供一种语音合成方法，该方法能够合成富有情感的语音，且能够对合成的语音的情感强度进行自主调控，使得合成的语音的情感层次符合用户的期望，提升用户的体验感。

图1为本申请提供的一种语音合成方法的流程示意图，如图1所示，该方法包括以下步骤：

S101：根据目标文本的情感类别，获取目标情感类别集，其中，所述目标情感类别集包括若干目标语音样本，所述目标语音样本的情感类别与所述目标文本的情感类别相同。

在一些实施例中，目标文本可以是一部电子书中的全部文字内容，也可以是一部电子书中的一个章节、一个片段或者一个句子的全部文字内容，还可以是其他类型文本中的文字内容，例如新闻文本、公众号文章文本、短信交流记录文本、互联网平台通讯APP的聊天记录文本等，目标文本的情感类别是目标文本转换成语音后该语音的情感类别，目标文本的情感类别可以包括喜、怒、哀、乐、厌、惊、惧等。

在一些实施例中，目标文本的情感类别可以是人为标定的，即用户直接确定目标文本转换成语音后的情感类别，目标文本的情感类别也可以通过将目标文本输入情感编码网络模型来获取。情感编码网络模型的建立，可利用爬虫技术，爬取公开网络中现有的文本数据，通过读取文本数据中与情感内容相关的情感词，并结合情感词与上下文的关系，分析各文本数据，对各文本数据进行人工打标，例如，可将分析后的文本数据标注为喜、怒、哀、乐、厌、惊、惧等情感类别，根据标注后的文本数据来建立情感编码网络模型的卷积神经网络，利用反向传播技术，对该情感编码网络模型的卷积神经网络进行训练，直至达到收敛条件，以完成对该情感编码网络模型的卷积神经网络的训练，经过训练后的情感编码网络模型的卷积神经网络可对输入的目标文本进行情感类别的分析，以输出目标文本的情感类别。

在一些实施例中，确定目标文本的情感类别后，可以在预先建立的语音库中获取目标情感类别集。其中，语音库包括若干具有不同种情感类别标签的情感类别集，目标情感类别集是若干具有不同种情感类别标签的情感类别集中的一个，目标情感类别集的情感类别标签与目标文本的情感类别相对应。

在一些实施例中，可以通过获取若干语音样本以建立语音库，具体的，在获取若干语音样本后，可以判断各语音样本对应的情感类别，并根据各语音样本对应的情感类别进行分类，生成对应的情感类别集，语音库即为各情感类别集的集合。其中，每一个情感类别集均是情感类别相同的语音样本的集合；根据各情感类别集中的语音样本的情感类别，生成对应的情感类别标签，并根据各情感类别标签标记对应的情感类别集，例如，共有6个语音样本，分别为语音样本A、语音样本B、语音样本C、语音样本D、语音样本E以及语音样本F，若语音样本A和语音样本B对应“喜”这一情感类别，语音样本C对应“怒”这一情感类别，语音样本D、语音样本E以及语音样本F对应“惊”这一情感类别，则共可以生成三个情感类别集，分别为第一情感类别集、第二情感类别集以及第三情感类别集。其中，第一情感类别集包括语音样本A和语音样本B，第二情感类别集包括语音样本C，第三情感类别集包括语音样本D、语音样本E以及语音样本F，根据语音样本A和语音样本B对应的“喜”这一情感类别，生成情感标签“喜”，并用情感标签“喜”标记第一情感类别集；根据语音样本C对应的“怒”这一情感类别，生成情感标签“怒”，并用情感标签“怒”标记第二情感类别集；根据语音样本D、语音样本E以及语音样本F对应的“惊”这一情感类别，生成情感标签“惊”，并用情感标签“惊”标记第三情感类别集。标记后的第一情感类别集、第二情感类别集以及第三情感类别集共同构成了语音库。需要说明的是，本实施例仅示例性的说明语音库的构成，在实际情况中，根据各语音样本对应的情感类别，语音库还可以包括更多的标记有不通过情感标签的情感类别集，例如，标记有“哀”情感标签的情感类别集，标记有“乐”情感标签的情感类别集，标记有“厌”情感标签的情感类别集，标记有“惧”情感标签的情感类别集等，本申请对此不做限定。

在一些实施例中，可以根据目标文本的情感类别，在语音库中获取标记有目标情感类别标签的情感类别集，并将标记有目标情感类别标签的情感类别集确定为目标情感类别集。例如，目标文本的情感类别为“喜”，则在语音库中获取标记有情感标签“喜”的情感类别集，并将标记有情感标签“喜”的情感类别集确定为目标情感类别集。

S102：根据各所述目标语音样本的情感编码向量，获取平均情感编码向量，其中，所述目标语音样本的情感编码向量是所述目标语音样本的情感强度对应的向量表征，所述平均情感编码向量是对所有所述情感编码向量进行加和求平均值得到的。

在一些实施例中，每一个目标语音样本均对应有一个梅尔谱，可以将目标语音样本输入至对应的神经网络模型中，以输出目标语音样本对应的梅尔谱。

将输出的各梅尔谱依次输入至预设卷积神经网络、预设循环神经网络以及预设全连接网络，输出对应数量的编码序列，将编码序列经过多头注意力机制，生成相对于每个预设特征向量的加权系数，并根据加权系数，对预设特征向量进行加权处理，以得到各目标语音样本的情感编码向量，其中，预设特征向量表征目标语音样本的情感强度。

在一些实施例中，同一情感类别可以根据情感强度的大小被进一步划分为多种情感层次，目标情感类别集可以包括若干不同情感强度的目标语音样本。例如，“喜”这一情感类别根据情感强度的大小进一步可划分为“春风得意”、“喜气洋洋”、“喜极而泣”、“怡然自得”等多种情感层次，“喜极而泣”这一情感层次对应的情感强度明显大于“怡然自得”这一情感层次对应的情感强度。

在一些实施例中，由于各目标语音样本对应的情感强度不同，因此用于表征各目标语音样本的情感编码向量也不相同，可以对所有语音样本对应的情感编码向量进行加和求平均值处理，得到平均情感编码向量，并用平均情感编码向量表征目标情感类别集。例如，可以将目标情感类别集中的各语音样本根据对应的情感强度由小至大的顺序进行排序，并通过设定情感编码向量处理规则，对目标情感类别集中的目标语音样本进行处理，以得到平均情感编码向量，所述情感编码向量处理规则为：

其中，e_i表示目标情感类别集中的各目标语音样本对应的情感编码向量，N_i表示目标情感类别集中的目标语音样本的个数，

表示标记有情感类别“i”标签的情感类别集中的第j个目标语音样本对应的情感编码向量。

S103：根据所述目标文本的文本序列编码和所述平均情感编码向量，得到目标音频。

在一些实施例中，目标文本的文本序列编码可以根据目标文本的词性序列编码和音素序列编码得到。其中，词性序列编码是用于表征目标文本中的各个词对应的向量序列，音素序列编码是用于表征目标文本中的各个字对应的向量序列，图2为本申请提供的示例性实施例中获取文本序列编码的流程示意图，可以通过图2所示的步骤得到所述目标文本的文本序列编码。

S201：对目标文本中的文字内容进行词分割处理和字分割处理。

这个过程可以利用分词工具进行，例如LAC分词工具，本申请对于词分割处理和字分割处理所使用的工具不作限制。目标文本中的文字内容经过词分割处理后的，可以得到多个词语，例如“今天天气真好”，分词结果为“今天，天气，真好”。目标文本中的文字内容经过字分割处理后，可以得到多个字，例如“今天，天气，真好”，字分割结果为“今，天，天，气，真，好”。

S202：将经过词分割处理后的目标文本输入词性编码模型，例如输入谷歌的BERT模型，从词性编码模型可以输出经过词分割处理后的目标文本中的每个词语的向量表征，将每一个输出的词语的向量表征按输出顺序拼接起来，即可得到所述目标文本的词性序列编码。并将经过字分割处理后的目标文本输入音素编码模型，例如输入VSM模型，从音素编码模型可以输出经过字分割处理后的目标文本中的每个字的向量表征，将每一个输出的字的向量表征按输出顺序拼接起来，即可得到所述目标文本的音素序列编码。

S203：将所述词性序列编码和所述音素序列编码输入至编码器，即可输出可以被计算机识别的文本序列编码，其中，所述编码器是基于多头自注意力机制构成的，词性序列编码和音素序列编码输入至所述编码器后，所述编码器可以通过对输入的词性序列编码和音素序列编码进行分析，以得到融合上下文关系后的文本序列，将该文本序列转换为可以被计算机识别的文本序列编码之后，从所述编码器输出。

在一些实施例中，可以将平均情感编码向量确定为目标情感编码向量，并根据目标情感编码向量和文本序列编码，确定目标梅尔谱，以得到目标音频。

可选的，可以将与平均情感编码向量相似度最高的某一个情感编码向量确定为目标情感编码向量，并根据目标情感编码向量和文本序列编码，确定目标梅尔谱，以得到目标音频，采用上述将与平均情感编码向量相似度最高的某一个情感编码向量确定为目标情感编码向量的方式可以避免由于编码器的泛化能力弱造成的合成语音的质量低的情况发生。

图3为本申请示例性提供的确定目标梅尔谱的流程示意图，如图3所示，可以对文本序列编码和音素序列编码进行残差处理，将文本序列编码和音素序列编码的残差值确定为目标序列编码，并对目标情感编码向量和目标序列编码进行残差处理，将目标情感编码向量和目标序列编码的残差值确定为待预测序列编码，将待预测序列编码输入至用于生成梅尔谱的模型中，输出目标梅尔谱，并根据目标梅尔谱得到目标音频，以避免在平均情感编码向量嵌入编码器输出的文本序列编码中时出现音素缺损，而造成最终合成的语音(目标音频)的音质受损的情况发生，提高合成的语音的质量。

在一些实施例中，可以将待预测序列编码分别输入至能量预测模型、基频预测模型以及时长预测模型中，分别得到对应的能量预测编码、基频预测编码以及时长预测编码；其中，所述能量预测编码是预测得到的目标文本中的每一个音素对应的合成之后的发音强度(音量大小)的向量表征，所述基频预测编码是预测得到的目标文本中的每一个音素对应的合成之后的发音基频的向量表征，所述时长预测编码是预测得到的目标文本中的每一个音素对应的合成之后的发音时长的向量表征。

将所述能量预测编码、所述基频预测编码和所述时长预测编码与所述待预测序列编码相加，得到目标梅尔谱序列编码，并将所述目标梅尔谱序列编码输入至解码器中进行解码，得到目标梅尔谱，其中，所述解码器是基于多头自注意力机制构成的。

需要说明的是，在能量预测模型、基频预测模型以及时长预测模型之前加入目标情感编码向量。可以避免由于能量、基频和时长影响待合成的目标音频的情感表现，以使合成的目标音频具有合适的韵律特征。

可选的，在一些实施例中，可以根据如图4所示的步骤对目标音频的情感强度进行调整，以实现自主控制合成的目标音频对应的情感强度的大小，并设定情感调节参数，可以通过对情感调节参数的调控实现目标音频对应的情感强度的可调，所述步骤包括：

S301:获取第一情感编码向量和第二情感编码向量；

其中，第一情感编码向量是具有最弱情感强度的目标语音样本对应的情感编码向量，第二情感编码向量是具有最强情感强度的目标语音样本对应的情感编码向量。

可选的，可以将平均情感编码向量确定为第二情感编码向量，使得用户在根据情感强度调整规则调节情感调节参数α时，合成的目标音频对应的情感强度均小于或等于根据平均情感编码向量合成的音频对应的情感强度。

可选的，可以将距离平均情感编码向量最近的一个情感编码向量确定为第二情感编码向量，使得用户在根据情感强度调整规则调节情感调节参数α时，合成的目标音频对应的情感强度均小于或等于根据所述距离情感编码向量最近的一个情感编码向量合成的音频对应的情感强度，以避免由于编码器的泛化能力弱造成的合成语音的质量低的情况发生。

S302:根据第一情感编码向量、第二情感编码向量和预设的情感调节参数，确定情感强度调整规则；

S303:根据情感强度调整规则，调整平均情感编码向量：

在一些实施例中，情感强度调整规则为：

其中，

是调整后的所述平均情感编码向量，

是第一情感编码向量，

是第二情感编码向量，α是情感调节参数，α∈[0,1]，当α＝0时合成具有最弱情感强度的目标音频，当α＝1合成具有最强情感强度的目标音频。

S304：根据文本序列编码和调整后的平均情感编码向量，确定目标梅尔谱，并将目标梅尔谱转换成音频信号。

在一些实施例中，可以将与调整后的平均情感编码向量相似度最高的某一个情感编码向量确定为目标情感编码向量，并根据目标情感编码向量和文本序列编码，确定目标梅尔谱，以得到目标音频，其中，所述目标情感编码向量

可以表示为：

采用上述将与平均情感编码向量相似度最高的某一个情感编码向量确定为目标情感编码向量的方式可以避免由于编码器的泛化能力弱造成的合成语音的质量低的情况发生。

参见图5，为本申请实施例提供的一种语音合成系统，包括：

第一获取模块51，用于执行：根据目标文本的情感类别，获取目标情感类别集，其中，所述目标情感类别集包括若干目标语音样本，所述目标语音样本的情感类别与所述目标文本的情感类别相同。

第二获取模块52，用于执行：用于根据各所述目标语音样本的情感编码向量，获取平均情感编码向量，其中，所述目标语音样本的情感编码向量是所述目标语音样本的情感强度对应的向量表征，所述平均情感编码向量是对所有所述情感编码向量进行加和求平均值得到的。

音频合成模块53，用于执行：用于根据所述目标文本的文本序列编码和所述平均情感编码向量，得到目标音频。

在一些实施例中，所述第一获取模块51，具体用于执行：

获取若干语音样本；对各所述语音样本进行分类，得到对应的情感类别集，其中，每一个所述情感类别集均是情感类别相同的所述语音样本的集合；根据各所述情感类别集中的所述语音样本的情感类别，生成对应的情感类别标签，并用各所述情感类别标签标记对应的所述情感类别集；将标记有目标情感类别标签的所述情感类别集确定为目标情感类别集，其中，所述目标情感类别标签是与所述目标文本的情感类别相匹配的所述情感类别标签。

可选的，所述第一获取模块51还用于执行：

获取第一情感编码向量和第二情感编码向量，所述第一情感编码向量是具有最弱情感强度的所述目标语音样本对应的情感编码向量，所述第二情感编码向量是具有最强情感强度的所述目标语音样本对应的情感编码向量；根据所述第一情感编码向量、所述第二情感编码向量和预设的情感调节参数，确定情感强度调整规则；根据所述情感强度调整规则，调整所述平均情感编码向量；根据所述文本序列编码和调整后的所述平均情感编码向量，确定所述目标梅尔谱；将所述目标梅尔谱转换成音频信号，得到与所述情感调节参数对应的情感强度的所述目标音频；

在一些实施例中，所述第二获取模块52在执行根据各所述目标语音样本的情感编码向量，获取平均情感编码向量之前，还用于执行：

获取各所述目标语音样本对应的梅尔谱；将各所述梅尔谱依次输入至预设卷积神经网络、预设循环神经网络以及预设全连接网络，输出对应数量的编码序列；将所述编码序列经过多头注意力机制，生成相对于每个预设特征向量的加权系数，所述预设特征向量表征目标语音样本的情感强度；根据所述加权系数，对所述预设特征向量进行加权处理，得到各所述目标语音样本的情感编码向量。

在一些实施例中，所述音频合成模块53，具体用于执行：

获取所述目标文本的文本序列编码；根据所述文本序列编码和所述平均情感编码向量，确定目标梅尔谱；将所述目标梅尔谱转换成音频信号，得到目标音频。

在一些实施例中，所述音频合成模块53获取所述目标文本的文本序列编码时，具体用于执行：

对所述目标文本进行词分割和字分割处理；将所述词分割处理后的所述目标文本输入词性编码模型，输出所述目标文本的词性序列编码；将所述字分割处理后的所述目标文本输入音素编码模型，输出所述目标文本的音素序列编码；将所述词性序列编码和所述音素序列编码输入至编码器，得到所述目标文本的文本序列编码，其中，所述编码器是基于多头自注意力机制构成的。

在一些实施例中，所述音频合成模块53根据所述的文本序列编码和所述平均情感编码向量，确定目标梅尔谱时，具体用于执行：

获取目标情感编码向量，其中，所述目标情感编码向量是与所述平均情感编码向量相似度最高的所述情感编码向量；根据所述目标情感编码向量和所述文本序列编码，确定所述目标梅尔谱。

在一些实施例中，所述音频合成模块53根据所述目标情感编码向量和所述文本序列编码，确定所述目标梅尔谱时，具体用于执行：

将所述文本序列编码和所述音素序列编码的残差值确定为目标序列编码；将所述目标情感编码向量和所述目标序列编码的残差值确定为待预测序列编码；根据所述待预测序列编码，确定所述目标梅尔谱。

在一些实施例中，所述音频合成模块53根据所述待预测序列编码，确定所述目标梅尔谱时，具体用于执行：

将所述待预测序列编码输入至能量预测模型中，获取能量预测编码；将所述待预测序列编码输入至基频预测模型中，获取基频预测编码；将所述待预测序列编码输入至时长预测模型中，获取时长预测编码；将所述能量预测编码、所述基频预测编码和所述时长预测编码与所述待预测序列编码相加，得到目标梅尔谱序列编码；将所述目标梅尔谱序列编码输入至解码器，得到目标梅尔谱，其中，所述解码器是基于多头自注意力机制构成的。

由以上技术方案可知，本申请提供一种语音合成方法及系统，可以根据目标文本的情感类别，获取目标情感类别集，其中，目标情感类别集包括若干目标语音样本，目标语音样本的情感类别与目标文本的情感类别相同；并根据各目标语音样本的情感编码向量，获取平均情感编码向量，其中，目标语音样本的情感编码向量是目标语音样本的情感强度对应的向量表征，平均情感编码向量是对所有情感编码向量进行加和求平均值得到的；根据目标文本的文本序列编码和所述平均情感编码向量，以合成精确、稳定的情感强度对应的音频，有利于用户体验

可选的，本方法的应用场景可以有多种，可以是上述用于针对指定文本合成特定情感强度的语音，即根据用户输入的文本以及情感强度相关信息，合成针对输入文本的特定情感强度的语音。还可以是对用户输入的语音重新基于用户输入的情感强度相关信息生成自定义的新的情感强度的语音。还可以是应用于人机交互场景，即用户输入语句或语音或文本，根据用户输入语句/语音/文本确定回复文本，并基于用户自定义的情感强度相关信息合成回复语音，或者是在人机交互的过程中，智能设备往往会自己分析判断并输入相应情感强度的合成语音，这时若用户对于机器合成并回复的语音不满意，可以输入相应的情感强度特征向量进行合成语音情感强度的调整等，本申请对此不做限定。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的语音合成方法及系统的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据目标文本的情感类别，获取目标情感类别集，还包括：

获取若干语音样本；

对各所述语音样本进行分类，得到对应的情感类别集，其中，每一个所述情感类别集均是情感类别相同的所述语音样本的集合；

根据各所述情感类别集中的所述语音样本的情感类别，生成对应的情感类别标签，并用各所述情感类别标签标记对应的所述情感类别集；

将标记有目标情感类别标签的所述情感类别集确定为目标情感类别集，其中，所述目标情感类别标签是与所述目标文本的情感类别相匹配的所述情感类别标签。

3.根据权利要求1所述的方法，其特征在于，所述根据各所述目标语音样本的情感编码向量，获取平均情感编码向量之前，还包括：

获取各所述目标语音样本对应的梅尔谱；

将各所述梅尔谱依次输入至预设卷积神经网络、预设循环神经网络以及预设全连接网络，输出对应数量的编码序列；

将所述编码序列经过多头注意力机制，生成相对于每个预设特征向量的加权系数，所述预设特征向量表征目标语音样本的情感强度；

根据所述加权系数，对所述预设特征向量进行加权处理，得到各所述目标语音样本的情感编码向量。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本的文本序列编码和所述平均情感编码向量，得到目标音频，还包括：

获取所述目标文本的文本序列编码；

根据所述文本序列编码和所述平均情感编码向量，确定目标梅尔谱；

将所述目标梅尔谱转换成音频信号，得到目标音频。

5.根据权利要求4所述的方法，其特征在于，所述获取所述目标文本的文本序列编码，还包括：

对所述目标文本进行词分割和字分割处理；

将所述词分割处理后的所述目标文本输入词性编码模型，输出所述目标文本的词性序列编码；

将所述字分割处理后的所述目标文本输入音素编码模型，输出所述目标文本的音素序列编码；

将所述词性序列编码和所述音素序列编码输入至编码器，得到所述目标文本的文本序列编码，其中，所述编码器是基于多头自注意力机制构成的。

6.根据权利要求4所述的方法，其特征在于，所述根据所述的文本序列编码和所述平均情感编码向量，确定目标梅尔谱，还包括：

获取目标情感编码向量，其中，所述目标情感编码向量是与所述平均情感编码向量相似度最高的所述情感编码向量；

根据所述目标情感编码向量和所述文本序列编码，确定所述目标梅尔谱。

7.根据权利要求4所述的方法，其特征在于，所述根据所述目标情感编码向量和所述文本序列编码，确定所述目标梅尔谱，还包括：

将所述文本序列编码和所述音素序列编码的残差值确定为目标序列编码；

将所述目标情感编码向量和所述目标序列编码的残差值确定为待预测序列编码；

根据所述待预测序列编码，确定所述目标梅尔谱。

8.根据权利要求7所述的方法，其特征在于，所述根据所述待预测序列编码，确定所述目标梅尔谱，还包括：

将所述待预测序列编码输入至能量预测模型中，获取能量预测编码；

将所述待预测序列编码输入至基频预测模型中，获取基频预测编码；

将所述待预测序列编码输入至时长预测模型中，获取时长预测编码；

将所述能量预测编码、所述基频预测编码和所述时长预测编码与所述待预测序列编码相加，得到目标梅尔谱序列编码；

将所述目标梅尔谱序列编码输入至解码器，得到目标梅尔谱，其中，所述解码器是基于多头自注意力机制构成的。

9.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本的文本序列编码和所述平均情感编码向量，得到目标音频，还包括：

获取第一情感编码向量和第二情感编码向量，所述第一情感编码向量是具有最弱情感强度的所述目标语音样本对应的情感编码向量，所述第二情感编码向量是具有最强情感强度的所述目标语音样本对应的情感编码向量；

根据所述第一情感编码向量、所述第二情感编码向量和预设的情感调节参数，确定情感强度调整规则；

根据所述情感强度调整规则，调整所述平均情感编码向量；

根据所述文本序列编码和调整后的所述平均情感编码向量，确定所述目标梅尔谱；

将所述目标梅尔谱转换成音频信号，得到与所述情感调节参数对应的情感强度的所述目标音频；

其中，所述情感强度调整规则为：

是调整后的所述平均情感编码向量，

是第一情感编码向量，

是第二情感编码向量，α是情感调节参数。

10.一种语音合成系统，其特征在于，包括：