CN117877460A

CN117877460A - 语音合成方法、装置、语音合成模型训练方法、装置

Info

Publication number: CN117877460A
Application number: CN202410052370.3A
Authority: CN
Inventors: 刘大兴; 任梦星; 彭菲; 刘迎建
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-04-12
Anticipated expiration: 2044-01-12

Abstract

本申请公开了一种语音合成方法、装置、语音合成模型训练方法、装置、电子设备，属于计算机技术领域。所述方法包括：对目标文本执行单词到音素的转换处理，得到目标音素；对目标文本进行语义情感提取，得到目标文本的情感语义特征向量；对目标音素进行多头注意力编码处理，得到音素特征向量；对情感语义特征向量和音素特征向量进行融合处理，得到融合向量；对融合向量进行随机时长预测，得到每个目标音素的持续时长信息；获取融合向量的均值和方差；根据均值、方差和持续时长信息，编码得到音频数据。本方法通过引入待合成文本的情感和语义信息，提高文本先验分布的复杂程度，拉近先验分布和后验分布距离，最终合成更富有表现力和情感的语音。

Description

语音合成方法、装置、语音合成模型训练方法、装置

技术领域

本申请涉及计算机技术领域，特别是涉及语音合成方法、装置、语音合成模型训练方法、装置、电子设备，以及计算机可读存储介质。

背景技术

随着深度学习的发展，基于神经网络端到端的语音合成方法已经代替统计参数合成方法成为语音合成的基本方向。端到端语音合成方法可分为双阶段训练法和单阶段训练法。在单阶段的端到端语音合成中，整个合成系统在一个阶段进行训练，可以完全端到端的直接优化文本到音频的映射。单阶段语音合成方法根据不同的生成方法有VAE(Variational AutoEncoder)为框架的VITS(Variational Inference with adversariallearning for end-to-end Text-to-Speech)模型，以Normalizing Flow为主的Glow-TTS模型，以及基于DPM(Diffusion Probabilistic Model)的Grad-TTS模型。其中VITS模型采用带有标准化流的变分推断和对抗训练过程，极大提高了生成的音频质量，同时引入基于标准化流的随机时长预测器实现了合成不同节奏的语音。但是实际使用中发现，采用VITS模型进行语音合成时，仍然存在合成语音不够自然，缺少表现力，缺少情感色彩的缺陷。

可见，现有技术中的采用VITS模型的语音合成方法还需要改进。

发明内容

本申请实施例提供一种语音合成方法、装置、语音合成模型训练方法、装置、电子设备及存储介质，可以提升语音合成在语音和情感方面的表现力，提升了合成语音的品质。

第一方面，本申请实施例提供了一种语音合成方法，应用于语音合成模型，所述方法包括：

对目标文本执行单词到音素的转换处理，得到目标音素；

对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量；

对所述目标音素进行多头注意力编码处理，得到音素特征向量；

对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量；

对所述融合向量进行随机时长预测，得到每个所述目标音素的持续时长信息；

获取所述融合向量的均值和方差；

根据所述均值、所述方差，以及，所述持续时长信息，获取所述目标文本对应的音频数据。

第二方面，本申请实施例提供了一种语音合成装置，应用于语音合成模型，所述装置包括：

目标音素获取模块，用于对目标文本执行单词到音素的转换处理，得到目标音素；

情感语义特征向量获取模块，用于对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量；

音素特征向量获取模块，用于对所述目标音素进行多头注意力编码处理，得到音素特征向量；

融合向量获取模块，用于对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量；

持续时长信息获取模块，用于对所述融合向量进行随机时长预测，得到每个所述目标音素的持续时长信息；

均值和方差获取模块，用于获取所述融合向量的均值和方差；

音频数据获取模块，用于根据所述均值、所述方差，以及，所述持续时长信息，获取所述目标文本对应的音频数据。

第三方面，本申请实施例提供了一种语音合成模型训练方法，所述语音合成模型包括：后验编码器、解码器、单调对齐搜索模块、标准化流模型、随机时长预测器、局部注意力编码器、音素转换模块，以及，情感语义特征提取模块，所述方法包括：

针对每条训练样本，通过所述音素转换模块对所述训练样本中的样本文本执行单词到音素的转换处理，得到目标音素；

通过所述局部注意力编码器，对所述目标音素进行多头注意力编码处理，得到音素特征向量；

通过所述情感语义特征提取模块，对所述样本文本进行语义情感提取，得到所述样本文本的情感语义特征向量；

通过所述局部注意力编码器，对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量；

通过所述局部注意力编码器，获取所述融合向量的均值和方差；

通过后验编码器，获取根据所述样本文本对应的音频真实值进行后验编码处理得到的第一隐层向量；

通过所述标准化流模型，对所述第一隐层向量进行处理，得到第二隐层向量；

通过所述单调对齐搜索模块，根据所述均值、所述方差和所述第二隐层向量，搜索得到持续时长信息；

根据所述均值、所述方差，以及，所述持续时长信息，得到标准化流输入向量；

将所述标准化流输入向量作为所述标准化流模型的反向流输入，得到所述标准化流模型输出的第三隐层向量；

通过所述解码器，对所述第三隐层向量进行解码处理，得到音频合成值；

获取所述语音合成模型的模型损失，其中，所述模型损失至少包括：所述音频合成值和所述音频真实值的线性频谱的绝对值损失，以及，所述标准化流模型的反向流损失，所述反向流损失根据以下第一条件分布和第二条件分布的差值计算得到：给定文本的条件下，所述标准化流模型的反向流输出的第三隐层向量的第一条件分布、给定音频的条件下，所述后验编码器输出的第四隐层向量的第二条件分布；

以优化所述模型损失为目标，迭代训练所述语音合成模型。

第四方面，本申请实施例提供了一种语音合成模型训练装置，所述语音合成模型包括：后验编码器、解码器、单调对齐搜索模块、标准化流模型、随机时长预测器、局部注意力编码器、音素转换模块，以及，情感语义特征提取模块，所述装置包括：

目标音素获取模块，用于针对每条训练样本，通过所述音素转换模块对所述训练样本中的样本文本执行单词到音素的转换处理，得到目标音素；

音素特征向量获取模块，用于通过所述局部注意力编码器，对所述目标音素进行多头注意力编码处理，得到音素特征向量；

情感语义特征向量获取模块，用于通过所述情感语义特征提取模块，对所述样本文本进行语义情感提取，得到所述样本文本的情感语义特征向量；

融合向量获取模块，用于通过所述局部注意力编码器，对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量；

均值和方差获取模块，用于通过所述局部注意力编码器，获取所述融合向量的均值和方差；

第一隐层向量获取模块，用于通过后验编码器，获取根据所述样本文本对应的音频真实值进行后验编码处理得到的第一隐层向量；

第二隐层向量获取模块，用于通过所述标准化流模型，对所述第一隐层向量进行处理，得到第二隐层向量；

持续时长信息获取模块，用于通过所述单调对齐搜索模块，根据所述均值、所述方差和所述第二隐层向量，搜索得到持续时长信息；

标准化流输入向量获取模块，用于根据所述均值、所述方差，以及，所述持续时长信息，得到标准化流输入向量；

第三隐层向量获取模块，用于将所述标准化流输入向量作为所述标准化流模型的反向流输入，得到所述标准化流模型输出的第三隐层向量；

音频合成模块，用于通过所述解码器，对所述第三隐层向量进行解码处理，得到音频合成值；

损失计算模块，用于获取所述语音合成模型的模型损失，其中，所述模型损失至少包括：所述音频合成值和所述音频真实值的线性频谱的绝对值损失，以及，所述标准化流模型的反向流损失，所述反向流损失根据以下第一条件分布和第二条件分布的差值计算得到：给定文本的条件下，所述标准化流模型的反向流输出的第三隐层向量的第一条件分布、给定音频的条件下，所述后验编码器输出的第四隐层向量的第二条件分布；

迭代训练模块，用于以优化所述模型损失为目标，迭代训练所述语音合成模型。

第五方面，本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的语音合成方法和/或语音合成模型训练方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的语音合成方法和/或语音合成模型训练方法的步骤。

本申请实施例公开的语音合成方法，通过对目标文本执行单词到音素的转换处理，得到目标音素；对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量；对所述目标音素进行多头注意力编码处理，得到音素特征向量；对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量；对所述融合向量进行随机时长预测，得到每个所述目标音素的持续时长信息；获取所述融合向量的均值和方差；根据所述均值、所述方差，以及，所述持续时长信息，获取所述目标文本对应的音频数据，通过引入待合成文本的情感和语义信息，提高文本先验分布的复杂程度，拉近先验分布和后验分布距离，最终合成更富有表现力，富有情感的语音。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例公开的语音合成方法流程图；

图2是本申请实施例中采用的语音合成模型结构示意图；

图3是本申请实施例中采用的情感语义特征提取模块结构示意图；

图4是本申请实施例中语音合成模型中局部注意力编码器结构示意图；

图5是图4中局部注意力编码器中局部注意力层的结构示意图；

图6是本申请实施例中公开的语音合成模型训练方法流程图；

图7是本申请实施例公开的语音合成模型训练原理示意图；

图8是本申请实施例公开的语音合成装置结构示意图；

图9是本申请实施例公开的语音合成模型训练装置结构示意图；

图10示意性地示出了用于执行根据本申请的方法的电子设备的框图；以及

图11示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开的一种语音合成方法，应用于语音合成模型，参照图2，所述语音合成模型包括：解码器210、标准化流模型220、随机时长预测器230、局部注意力编码器240、音素转换模块250，以及，情感语义特征提取模块260。其中，所述语音合成模型基于Bert模型和VITS模型搭建，所述解码器210、所述标准化流模型220、所述随机时长预测器230和所述音素转换模块250的具体实施方式可参见现有技术中的VITS模型。

本申请的实施例中，通过改进局部注意力编码器240的结构，并引入所述情感语义特征提取模块260，在文本先验分布中加入基于文本的语义信息和情感信息，进一步提高文本先验分布的表征能力，有助于提升合成语音的表现力和情感色彩，提升合成语音的品质。同时，通过在语音合成模型的训练阶段引入反向流损失，可以降低音频后验分布的复杂度，从而提高训练得到的语音合成模型合成语音的表现力。

所述语音合成模型的各组成部分的结构和模型训练方法参见下文实施例中的描述。

参照图1，本申请实施例公开的一种语音合成方法，包括：步骤110至步骤160。

所述语音合成方法应用于预先训练的语音合成模型，所述语音合成模型的训练损失函数至少包括：所述音频合成值和所述音频真实值的线性频谱的绝对值损失，以及，所述标准化流模型的反向流损失，所述反向流损失根据以下第一条件分布和第二条件分布的差值计算得到：给定文本的条件下，所述标准化流模型的反向流输出的第三隐层向量的第一条件分布、给定音频的条件下，所述后验编码器输出的第四隐层向量的第二条件分布。

下面结合图2所示的语音合成模型的结构，对采用训练得到的语音合成模型执行所述语音合成方法，对目标文本进行语音合成的具体实施方式进行举例说明。

步骤110，对目标文本执行单词到音素的转换处理，得到目标音素。

例如，可以通过语音合成模型中的音素转换模块250对目标文本执行单词到音素的转换处理，得到目标音素。所述音素转换模块250基于分词和查表完成文本到音素的转换过程。例如，首先对指定数据库中的文本进行分词，构建词-音素对，存入词典。然后，在转换阶段，对输入的文本进行分词，如果得到的分词出现在构建的词典中，则用字典中对应的音素作为该词的音素；否则用该词的拼音作为该词的音素。在用该词的拼音作为该词的音素时，还需要按照预设规则对该词的拼音进行声调校正，如：对于连续三声，除了最后一个，前面的三声都发二声，如“旅馆”，拼音校正为“lv2 guan3”；对于“不”和“一”的发音，根据其后接的字来调整它们的声调，如“不行”和“不幸等。以目标文本为中文“艺术”为例，所述音素转换模块250的输入为：“艺术”，输出的目标音素为：“i4 sh u4”。

对目标文本执行单词到音素的转换处理，得到目标音素的具体实施方式参见现有技术，本申请实施例中不再赘述。

步骤120，对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量。

在一些可选的实施例中，可以通过所述情感语义特征提取模块260，对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量。

在一些可选的实施例中，如图3所示，所述情感语义特征提取模块260可以基于Bert模型、一维卷积层和上采样层组成。其中，Bert模型可以采用BERT-base结构。BERT-Base包含：12层编码层(Encoder layers)、12个自注意力头(Attention heads)和768个隐藏层大小(Hidden size)，总共有约110M个参数。

在一些可选的实施例中，对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量，包括：对所述目标文本进行语义情感提取，得到所述目标文本的携带情感信息和语义信息的词级别嵌入向量；基于所述音素特征向量的分布，微调所述词级别嵌入向量的分布，得到微调向量；将所述微调向量对齐至所述目标音素的长度，得到所述目标文本的情感语义特征向量。

例如，可以通过语音合成模型中的Bert模型对目标文本进行语义情感提取，得到所述目标文本的携带情感信息和语义信息的词级别嵌入向量。

在一些可选的实施例中，对所述目标文本进行语义情感提取，得到所述目标文本的携带情感信息和语义信息的词级别嵌入向量，包括：对所述目标文本进行分词处理，得到所述目标文本的子词序列；对所述子词序列添加标记并向量化，得到子词级别的向量序列；对所述向量序列进行多层级语义编码，并对多层级语义编码得到层级编码结果进行自适应加权求和，得到所述编码结果；将添加在所述子词序列起始位置的标记对应的所述编码结果，分别与所述子词序列中各子词的所述编码结果进行融合，得到各子词的向量表示；根据各子词的向量表示，得到所述目标文本的词级别嵌入向量，其中，所述词级别嵌入向量中携带情感信息和语义信息。

下面举例说明Bert模型的数据处理过程。

首先，将输入至模型的句子进行分词。Bert模型使用WordPiece分词器，这种分词器会将一个单词拆解为更小的片段或者字符例如，对于目标文本：“小红帽高高兴兴地回了家”，经过分词处理后，得到的子词序列为:“小”、“红”、“帽”、“高”、“高”、“兴”、“兴”、“地”、“回”、“了”、“家”，其中，每个子词代表一个汉字。又例如，对于目标文本：“Let me turnyour imagination into imagery”，经过分词处理后，得到的子词序列为：“Let”、“me”、“turn”、“your”、“imagi”、“nation”、“into”、“image”、“ry”。对于中文的目标文本，进行分词处理后，得到的每个分词是一个中文字符，而对于英文文本，进行分词处理后得到的每个子词可以为一个英文单词，也可以为一个词根。

通过对目标文本进行分词处理，可以帮助模型处理未在训练语料库中出现过的单词。

其次，添加特殊标记。在输入文本的每个句子起始处添加特殊标记“[CLS]”，在结束处添加特殊标记“[SEP]”。

Bert模型的输出是一个向量表示，对于每个输入的词或者词序列，Bert模型都会生成一个相应的向量。这个向量捕获了输入在上下文中的语义信息。例如，假设目标文本为“艺术”。首先，这句话会被分词并添加特殊标记“[CLS]”和“[SEP]”，变成：“[CLS]”,“艺”,“术”,“[SEP]”。然后，这些子词被转换为对应的嵌入向量(即token)，并输入到Bert模型中。

Bert模型对输入的嵌入向量进行层级编码，每个层级输出相应的隐层向量。本申请的实施例中，将Bert模型每个层级输出相应的隐层向量作为层级编码结果，并对所有层级的层级编码结果，进行自适应加权求和，得到Bert模型最终输出的编码结果。以Bert模型的12层输出分别表示为：

H₁,H₂…H₁₂为例，可以采用如下公式得到Bert模型输出的编码结果：

H＝α₁H₁+α₂H₂+…+α₁₂H₁₂；

其中，α₁,α₂…α₁₂表示每一层的可学习权重参数，α₁+α₂+…+α₁₂＝1。Bert模型不同层的输出可以表示不同级别的信息，本申请通过引入自适应求和的方法，可以灵活融合每一层Bert模型的输出，向文本分布添加了语义，语法，句法等不同级别的信息，从而提高语音合成的质量。

在经过Bert模型之后，每个子词都会有一个新的向量表示。特别地，标记“[CLS]”对应的输出向量通常用作整个句子的聚合表示。

所述Bert模型用于获得目标文本中每个字符的语义以及整句话的情感信息，增加富有情感和语义的文本先验分布的表征能力。

接下来，拆分Bert模型的输出：将首个位置的特殊标记，即标记“[CLS]”对应的编码输出分别添加到每个子词对应的编码输出中，作为目标文本的情感信息；将子词序列中各子词的编码输出作为目标文本的语义信息，摈弃末尾位置的特殊标记“[SEP]”的输出结果，得到各子词的向量表示。仍以目标文本为“艺术”为例，子词级别的token序列2表示token序列长度(即目标文本中的子词数量)，Bert模型的输出长度为其中，4表示Bert模型的输出长度，768表示输出编码向量的维度。在长度为4的输出中，丢弃token系列的第四个位置(即标记“[SEP]”)的输出，把第一个位置(即标记“[CLS]”)的编码结果分别与第二和第三个token(即子词“艺”和“术”)的编码结果相加，把相加后的结果作为目标文本的各子词的向量表示。目标文本的各子词的向量表示的序列，即可作为目标文本的子词级别向量表示。

由前文中描述的分词方法可知，对于目标文本为中文的情况，目标文本中的子词和词相同，因此，目标文本的子词级别向量表示，即为该目标文本的词级别嵌入向量。而对于目标文本为英文的情况，目标文本中的子词和词可能不同，因此，需要对子词级别向量表示进行降采样，以得到该目标文本的词级别嵌入向量。

在一些可选的实施例中，Bert模型可以通过平均池化层将目标文本的子词级别向量表示降采样至词级别的嵌入向量，保证子词和词的一一对应关系。例如，可以采用如下公式1表达的平均池化方法，对子词级别向量表示降采样为词级别向量表示：

其中，i₁到i_k表示第i个词的子词索引，即表示第i个词的第k个子词的嵌入向量，v_i表示第i个词的嵌入向量。

之后，对所述词级别嵌入向量的分布进行微调，得到微调向量，使得微调向量的分布与音素特征向量的分布一致，便于后续进行特征融合。例如，可以将Bert模型输出的所述词级别嵌入向量送入一维卷积层，进行卷积运算，得到微调向量。

预训练的Bert模型是基于文本数据训练的，而本申请实施例中的语音合成模型基于VITS模型构建，其输入为音素数据，对于中文而言，音素数据指拼音，对于英文而言，音素数据指音标。为了更好的融合音素数据和文本数据两种分布，需要对Bert模型输出的数据分布进行微调，使得微调后，文本特征的分布和音素特征一致。

之后，微调向量送入上采样层进行对齐处理，将微调向量对齐到音素长度，方便情感语义特征和音素特征结合。可选的，将所述微调向量对齐至所述目标音素的长度，得到所述目标文本的情感语义特征向量，包括：确定所述目标文本中每个词对应的音素长度和位置；按照所述音素长度复制相应词对应的所述微调向量，并按照所述位置进行拼接，得到所述目标文本的情感语义特征向量。以目标文本为：“艺术”举例，对目标文本进行音素转换处理得到的目标音素为：[i4][sh][u4]，长度为3。Bert模型输出的词级别嵌入向量长度为2，经过微调后，得到的微调向量的长度为2×256。字符“术”的音素为：[sh][u4],所以将微调向量的对应第2个字符的隐变量复制拼接在微调向量之后，得到对齐向量/>得到的对齐向量即为目标文本的情感语义特征向量，本申请的实施例中记为：/>

步骤130，对所述目标音素进行多头注意力编码处理，得到音素特征向量。

进一步的，将所述目标音素输入至局部注意力编码器进行编码处理，得到音素特征向量。

在一些可选的实施例中，所述对所述目标音素进行多头注意力编码处理，得到音素特征向量，包括：采用多头注意力机制对所述目标音素进行编码处理的过程中，获取Q向量和K向量进行点乘操作后得到的第一向量；对所述第一向量进行归一化处理，得到权重矩阵；根据所述权重矩阵与V向量的乘积，得到音素特征向量。

在注意力编码过程中，注意力机制会计算Q向量和K向量中全局位置的字符编码的相似度，从而得到权重矩阵，之后，根据所述权重矩阵与V向量的乘积，得到音素特征向量。

VITS模型使用Transformer结构计算音素先验分布的均值和方差。而Transformer结构中采用堆叠的多头注意力机制的优势是通过多头注意力机制获得全局上下文信息。而在语音合成领域中最基本的问题是音素或者字符序列与音频序列的单调对齐问题，单调对齐问题隐含一个局部相关性的假设：某个音素之与对应连续数个音频帧强相关，与其他音频帧弱相关。也就是说多头注意力机制隐含的全局相关性假设与语音合成的局部相关性假设不匹配。从而导致同一个字符在独立计算时得到的输出分布与在短句中得到的输出分布距离远，最终导致发音错误。具体表现为：单个汉字或者字母会合成错误的语音，而将相同的单个字符置于短句中，该字符会产生正确的语音。

为了解决单字语音合成错误的问题，本申请实施中引入了局部先验知识惩罚，以控制注意力机制提取上下文信息的范围。

在一些可选的实施例中，所述对所述目标音素进行多头注意力编码处理，得到音素特征向量，包括：采用多头注意力机制对所述目标音素进行编码处理的过程中，获取Q向量和K向量进行点乘操作后得到的第一向量；对所述第一向量进行基于相对位置窗口的惩罚处理，以抑制所述第一向量中指定位置窗口以外的信息，得到第二向量；对所述第二向量进行归一化处理，得到权重矩阵；根据所述权重矩阵与V向量的乘积，得到音素特征向量。

参照图4，所述局部注意力编码器包括：局部注意力模块410和情感语义融合模块420，其中，局部注意力模块410用于对目标音素进行多头注意力编码处理，得到音素特征向量，所述情感语义融合模块420用于对所述音素特征向量和所述情感语义特征提取模块260提取的所述情感语义特征向量进行融合处理，得到融合向量。

其中，所述局部注意力模块410进一步包括：局部注意力层和前馈层。所述局部注意力层，用于结合输入的相对位置位置信息，对目标音素进行编码处理。其中，前馈层的具体实施方式、相对位置编码的编码方式的参见现有技术中的多头注意力网络中的相关实施方式，此处不再赘述。

本申请的实施例中，如图5所示，所述局部注意力层的结构中，在Softmax层(即归一化层)之前，增加了指定窗口大小的惩罚。基于语音合成有着局部相关性推理，本申请的实施例中将这个局部相关性推理作为一种先验知识显式加入语音合成模型中，减少注意力学习的成本，避免注意力机制学习错误的可能性。其中，Q,K,V分别表示查询向量，键值向量，实值向量，u,v表示相对位置编码中的可学习参数，R表示相对位置编码。本申请的实施例中，本发明Softmax运算前加入指定窗口大小的惩罚，以抑制局部注意力层编码得到的向量中指定位置窗口以外的信息，从而减少不相关的全局信息对目标文本中字符编码的影响。

在一些可选的实施例中，所述对所述第一向量进行基于相对位置窗口的惩罚处理，以抑制所述第一向量中指定位置窗口以外的信息，得到第二向量，包括：通过对所述第一向量叠加预设先验知识向量，对所述第一向量进行基于相对位置窗口的惩罚处理，得到第二向量，其中，所述预设先验知识向量为L×L的矩阵，所述预设先验知识向量中第i列第j行的元素取值通过如下方法计算：在i和j之间的距离小于或等于指定位置窗口的大小的情况下，元素取值为-(i-j)²/L；在i和j之间的距离大于所述指定位置窗口的大小的情况下，元素取值为1，L为第一向量的长度。

例如，所述预设先验知识向量A_localatt可以通过如下公式2计算得到：

其中，C表示指定位置窗口的大小，L为第一向量的长度；i表示当前列位置，j表示当前行位置。在一些可选的实施例中，C的取值可以设置为4。通过基于相对位置的窗口大小对第一向量进行惩罚处理，能够简单有效的表达窗口内位置的信息，不引入其他参数。

之后，可以将所述预设先验知识向量与所述第一向量叠加，得到第二向量，再通过Softmax运算对第二向量进行层归一化处理，得到权重矩阵。由Softmax运算的原理可知，当两个字符位置接近时(如小于或等于窗口长度)，这两个字符的相关性权重会增大，而当两个字符位置较远(如大于窗口长度)时，这两个字符的相关性权重会减小。这样，将所述权重矩阵与V向量相乘之后，得到音素特征向量中，邻近字符的情感、语义信息被增强，从而提升一句话中单字符语音合成的准确度。

接下来，根据所述权重矩阵与V向量的乘积，得到音素特征向量，本申请的实施例中记为“x_transformer”。

步骤140，对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量。

进一步的，在局部注意力模块中，对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量。

在一些可选的实施例中，所述对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量，包括：对所述情感语义特征向量和所述音素特征向量进行层归一化处理，得到归一化向量；对所述归一化向量进行线性投影，得到融合向量。例如，可以通过层归一化层对对所述情感语义特征向量和所述音素特征向量进行层归一化处理，以限制数据的方差，保证训练稳定。之后，通过线性层对所述归一化向量进行线性投影，得到融合向量。

对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量的方法，可以通过如下公式3表示：

x_duration＝Linear(LayerNorm(x_semantic+x_transformer))；公式3

其中，x_semantic表示所述情感语义特征向量，x_transformer表示所述音素特征向量，LayerNorm()表示层归一化函数，Linear()表示线性投影函数。

在一些可选的实施例中，还可以选择朴素的加法融合、拼接融合、复杂的注意力融合的方式对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量。本申请的实施例中，通过采用加法，结合线性投影的方法进行特征融合。

复杂的特征融合方法多用于不同模态的数据，比如文本和图像，文本和语音等。在本申请的实施例中，所述情感语义特征向量和所述音素特征都是文本模态，采用加法结合线性投影的方法足以实现特征融合，并且融合算法需要的参数量和计算量相对较少。

经过本步骤进行音素特征向量和情感语义特征向量融合处理之后，得到的融合向量有两个用途：预测音素的持续时长，以及，计算分布的方差和均值。

步骤150，对所述融合向量进行随机时长预测，得到每个所述目标音素的持续时长信息。

接下来，将所述融合向量输入至所述随机时长预测器，的待所述随机时长预测器输出每个所述目标音素的持续时长信息。

所述对所述融合向量进行随机时长预测，得到每个所述目标音素的持续时长信息的具体实施方式，可参见现有技术中随机时长预测器对音素的持续时长的预测过程，此处不再赘述。

步骤160，获取所述融合向量的均值和方差。

在一些可选的实施例中，所述获取所述融合向量的均值和方差，包括：对所述融合向量进行线性投影，得到投影向量；从特征维度方向将所述投影向量进行平均划分，得到均值和方差。例如，可以将融合向量输入至线性层，进行线性投影，得到长度翻倍的投影向量；之后，将投影向量从特征维度方向均分，将一半看作是融合特征的均值μ,另一半看作是融合特征的方差σ。以所述融合向量长度为3×256为例，其中，3表示向量维度，经过线性投影之后，可以得到长度为6×256的投影向量。进一步的，将该投影向量的前3个维度的向量数据作为融合特征的均值，将该投影向量的后3个维度的向量数据作为融合特征的方差，得到长度为3×256的均值和方差。

步骤170，根据所述均值、所述方差，以及，所述持续时长信息，获取所述目标文本对应的音频数据。

在一些可选的实施例中，根据所述均值、所述方差，以及，所述持续时长信息，获取所述目标文本对应的音频数据，包括：根据所述均值和所述方差从正态分布中采样得到采样向量；根据所述持续时长对所述采样向量进行复制拼接处理，得到标准化流输入向量；通过所述语音合成模型的标准化流模型对所述标准化流输入向量进行标准化流处理，得到编码向量；将所述编码向量输入至所述语音合成模型的解码器进行解码转换，得到所述目标文本对应的音频数据。

根据所述均值和所述方差从正态分布中采样得到采样向量的具体实施方式参见现有技术，此处不再赘述。

仍以目标文本为“艺术”举例，局部注意力编码器的输出包括两个方向：一个方向为：均值μ，例如表示为：和方差σ，例如表示为：另一个方向为：随机时长预测器，即融合向量，例如表示为：随机时长预测器将根据输入的融合向量x_duration预测目标文本中每个音素的持续时长，并对预测结果向下取整得到了每一个音素的持续时长，例如为：[2][1][2]。之后，根据均值x_{inference_μ}和方差x_{inference_σ}从正态分布中采样得到采样向量，例如记为“x_{inference_sample}”，/>之后，结合持续时长将采样向量x_{inference_sample}复制得到标准化流输入向量，例如记为“x_{inference_flow_input}”，标准化流输入向量/>将标准化流输入向量输入至标准化流模型进行规范化处理后，标准化流模型将输出隐层向量，作为编码向量Z′，/>之后，将编码向量z送入解码器进行解码转换，得到所述语音合成模型的输出，即所述目标文本对应的音频数据。

综上，本申请实施例公开的语音合成方法，通过对目标文本执行单词到音素的转换处理，得到目标音素；对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量；对所述目标音素进行多头注意力编码处理，得到音素特征向量；对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量；对所述融合向量进行随机时长预测，得到每个所述目标音素的持续时长信息；获取所述融合向量的均值和方差；根据所述均值、所述方差，以及，所述持续时长信息，获取所述目标文本对应的音频数据，通过引入待合成文本的情感和语义信息，提高文本先验分布的复杂程度，拉近先验分布和后验分布距离，最终合成更富有表现力，富有情感的语音。

现有技术中，为了提高模型的拟合能力，VITS模型使用正态分布建模音频后验分布，使用正态分布和标准化流模型输出的行列式的点积建模文本先验分布，即通过标准化流模型来提高文本先验分布的复杂度。而音频后验分布和文本先验分布是跨模态的两种数据分布，存在音频后验分布远比文本先验分布复杂的现象，尽管使用标准化流模型增加文本先验分布的表征能力，但是受限于流模型的非线性，这音频后验分布和文本先验分布之间仍然存在差异过大的问题，导致语音合成品质有所损失。本申请实施例中，通过在文本先验分布中加入基于文本的语义信息，情感信息，进一步提高文本先验分布的表征能力，提高文本先验分布的复杂程度，拉近先验分布和后验分布距离，从而提升合成语音的品质。另一方面，通过在语音合成模型的训练阶段引入反向流损失，降低音频后验分布的复杂度，从而提高语音的表现力。

为了实施上述语音合成方法，本申请实施例中公开了一种语音合成模型训练方法，用于训练实施上述语音合成方法的语音合成模型。本申请实施例中，待训练的语音合成模型是对现有技术中的VITS模型进行改进，并结合Bert模型搭建的。

参照图6，待训练的语音合成模型包括：后验编码器610、解码器620、单调对齐搜索模块630、标准化流模型640、随机时长预测器650、局部注意力编码器660、音素转换模块670，以及，情感语义特征提取模块680。其中，所述后验编码器610、解码器620、单调对齐搜索模块630、标准化流模型640、随机时长预测器650，以及所述音素转换模块670的具体结构和实施方式参见现有技术中VITS模型中的相应结构。所述局部注意力编码器660的结构如图4所示，所述情感语义特征提取模块680的结构如图3所示。

参照图7，所述语音合成模型训练方法包括：步骤701至步骤713。

步骤701，针对每条训练样本，通过所述音素转换模块对所述训练样本中的样本文本执行单词到音素的转换处理，得到目标音素。

其中，所述训练样本包括：样本文本和样本标签，所述样本标签为所述样本文本对应的音频真实值。

通过所述音素转换模块670对所述训练样本中的样本文本执行单词到音素的转换处理的具体实施方式，参照前文实施例中的相关描述，此处不再赘述。

步骤702，通过所述局部注意力编码器，对所述目标音素进行多头注意力编码处理，得到音素特征向量。

通过所述局部注意力编码器660，对所述目标音素进行多头注意力编码处理，得到音素特征向量的具体实施方式，参照前文实施例中的相关描述，此处不再赘述。

步骤703，通过所述情感语义特征提取模块，对所述样本文本进行语义情感提取，得到所述样本文本的情感语义特征向量。

通过所述情感语义特征提取模块680，对所述样本文本进行语义情感提取，得到所述样本文本的情感语义特征向量的具体实施方式，参照前文实施例中对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量的相关描述，此处不再赘述。

步骤704，通过所述局部注意力编码器，对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量。

通过所述局部注意力编码器660，对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量的具体实施方式，参照前文实施例中的相关描述，此处不再赘述。

步骤705，通过所述局部注意力编码器，获取所述融合向量的均值和方差。

通过所述局部注意力编码器660，获取所述融合向量的均值和方差的具体实施方式，参照前文实施例中的相关描述，此处不再赘述。

步骤706，通过后验编码器，获取根据所述样本文本对应的音频真实值进行后验编码处理得到的第一隐层向量。

以所述训练样本中样本文本表示为c，音频真实值表示为x_lin举例，可以首先获取音频真实值为x_lin的线性频谱图，之后，通过后验编码器610，对所述线性谱进行编码处理，得到音频真实值为x_lin对应的第一隐层向量，例如记为“Z”。

通过后验编码器610，获取根据所述样本文本对应的音频真实值进行后验编码处理得到的第一隐层向量的具体实施方式，参照现有技术，此处不再赘述。

步骤707，通过所述标准化流模型，对所述第一隐层向量进行处理，得到第二隐层向量。

之后，将第一隐层向量作为正向流输入至所述标准化流模型640，通过所述标准化流模型640的正向流模块，对所述第一隐层向量进行处理，得到第二隐层向量。

通过所述标准化流模型640，对所述第一隐层向量进行处理，得到第二隐层向量的具体实施方式，参照现有技术，此处不再赘述。

步骤708，通过所述单调对齐搜索模块，根据所述均值、所述方差和所述第二隐层向量，搜索得到持续时长信息。

通过所述单调对齐搜索模块630，根据所述均值、所述方差和所述第二隐层向量，搜索得到持续时长信息的具体实施方式，参照现有技术，此处不再赘述。

步骤709，根据所述均值、所述方差，以及，所述持续时长信息，得到标准化流输入向量。

例如，根据所述均值和所述方差从正态分布中采样得到采样向量，之后，根据所述持续时长对所述采样向量进行复制拼接处理，得到标准化流输入向量。

根据所述均值、所述方差，以及，所述持续时长信息，得到标准化流输入向量的具体实施方式参见现有技术，此处不再赘述。

步骤710，将所述标准化流输入向量作为所述标准化流模型的反向流输入，得到所述标准化流模型输出的第三隐层向量。

将所述标准化流输入向量作为所述标准化流模型640的反向流输入，得到所述标准化流模型640输出的第三隐层向量的具体实施方式参见现有技术，此处不再赘述。

步骤711，通过所述解码器，对所述第三隐层向量进行解码处理，得到音频合成值。

通过所述解码器620，对所述第三隐层向量进行解码处理，得到音频合成值的具体实施方式参见现有技术，此处不再赘述。

在一些优选的实施例中，通过所述解码器，对所述第三隐层向量进行解码处理，得到音频合成值，包括：对所述第三隐层向量进行随机切片处理，得到各切片的向量表示；根据各所述切片的向量表示拼接为待解码向量；通过所述解码器，对所述待解码向量进行解码处理，得到音频合成值。例如，可以对所述第三隐层向量随机切片处理，得到预设数量的切片，之后，随机选择其中部分切片的向量表示拼接为待解码向量。

通过对第三隐层向量使用随机切片来减少解码器的输入，在几乎不影响训练效果的情况下，可以降低训练耗时，提升模型训练效率。

步骤712，获取所述语音合成模型的模型损失，其中，所述模型损失至少包括：所述音频合成值和所述音频真实值的线性频谱的绝对值损失，以及，所述标准化流模型的反向流损失，所述反向流损失根据以下第一条件分布和第二条件分布的差值计算得到：给定文本的条件下，所述标准化流模型的反向流输出的第三隐层向量的第一条件分布、给定音频的条件下，所述后验编码器输出的第四隐层向量的第二条件分布。

本申请的实施例中，所述语音合成模型的模型损失在包括现有技术中VITS模型的训练损失函数的基础上，进一步引入了所述标准化流模型的反向流损失。

可选的，所述语音合成模型的模型损失可以通过以下公式4计算：

L_total＝L_recon+L_kl+L_dur+L_adv(G)+L_fm(G)+L_{inf_flow}；公式4

在上述公式5中，L_recon表示重建损失，即音频真实值的线性频谱和音频预测值的线性频谱的绝对值损失；L_kl表示正向流损失，即条件分布q(z|c)和p(z|x_lin)的KL损失；L_dur表示持续时间损失，即音频真实值的音素持续时间和音频预测值的音素持续时间的均方误差损失；L_adv(G)和L_fm(G)表示对抗训练中的鉴别器的预测损失和中间特征图损失；L_{inf_flow}表示反向流损失。

其中，重建损失L_recon、正向流损失L_kl、持续时间损失L_dur、L_adv(G)和L_fm(G)的具体计算方法参见现有技术，此处不再赘述。

其中，所述反向流损失可以通过以下公式5计算：

L_{inf_flow}＝log p(z′|c)-log q(z′|x_lin)；公式5

在上述公式4中，z′表示所述标准化流模型的反向流输出的三隐层向量，c表示样本文本，x_lin表示样本文本c对应的音频真实值。其中，p(z′|c)表示给定文本c的条件下反向流输出z′的条件分布(即第一条件分布)，q(z′|x_lin)表示给定音频条件下，后验编码器输出的条件分布(即第二条件分布)。

步骤713，以优化所述模型损失为目标，迭代训练所述语音合成模型。

之后，使用随机梯度下降的方法更新模型参数，以优化所述模型损失，直到迭代次数达到设置值或所述模型损失收敛，保存模型。之后，对训练得到的模型进行裁剪，得到如图2所示结构的语音合成模型。

综上，本申请实施例公开的语音合成模型训练方法，通过改进语音合成模型的结构，引入情感语义特征提取模块，对输入模型的文本进行语义情感提取，并将提取的情感语义特征向量融合到音素特征向量中，用于获取所述融合向量的均值和方差，以进行编码预测，引入的文本的情感和语义信息，提高了文本先验分布的复杂程度，拉近先验分布和后验分布距离，使得最终合成更富有表现力，富有情感的语音。另一方面，针对音频先验分布和文本后验分布差距过大导致音频不够自然，表现力不够的问题，本申请通过在训练阶段引入反向流损失，将文本先验分布送入反向流模块，计算反向流模块的输出和音频后验分布的KL距离，进一步拉近先验分布和后验分布的差距，相比于正向流损失，反向流损失更侧重降低音频后验分布的复杂。反向流损失无需新增模型参数，只需要在原有模型上新增计算流，可快速实现，优化效果明显。

参照图8，本申请实施例还公开了一种语音合成装置，所述装置包括：

目标音素获取模块810，用于对目标文本执行单词到音素的转换处理，得到目标音素；

情感语义特征向量获取模块820，用于对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量；

音素特征向量获取模块830，用于对所述目标音素进行多头注意力编码处理，得到音素特征向量；

融合向量获取模块840，用于对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量；

持续时长信息获取模块850，用于对所述融合向量进行随机时长预测，得到每个所述目标音素的持续时长信息；

均值和方差获取模块860，用于获取所述融合向量的均值和方差；

音频数据获取模块870，用于根据所述均值、所述方差，以及，所述持续时长信息，获取所述目标文本对应的音频数据。

可选的，所述情感语义特征向量获取模块820，进一步用于：

对所述目标文本进行语义情感提取，得到所述目标文本的携带情感信息和语义信息的词级别嵌入向量；

基于所述音素特征向量的分布，微调所述词级别嵌入向量的分布，得到微调向量；

将所述微调向量对齐至所述目标音素的长度，得到所述目标文本的情感语义特征向量。

可选的，所述对所述目标文本进行语义情感提取，得到所述目标文本的携带情感信息和语义信息的词级别嵌入向量，包括：

对所述目标文本进行分词处理，得到所述目标文本的子词序列；

对所述子词序列添加标记并向量化，得到子词级别的向量序列；

对所述向量序列进行多层级语义编码，并对多层级语义编码得到层级编码结果进行自适应加权求和，得到所述编码结果；

将添加在所述子词序列起始位置的标记对应的所述编码结果，分别与所述子词序列中各子词的所述编码结果进行融合，得到各子词的向量表示；

根据各子词的向量表示，得到所述目标文本的词级别嵌入向量。

可选的，所述音素特征向量获取模块830，进一步用于：

采用多头注意力机制对所述目标音素进行编码处理的过程中，获取Q向量和K向量进行点乘操作后得到的第一向量；

对所述第一向量进行基于相对位置窗口的惩罚处理，以抑制所述第一向量中指定位置窗口以外的信息，得到第二向量；

对所述第二向量进行归一化处理，得到权重矩阵；

根据所述权重矩阵与V向量的乘积，得到音素特征向量。

可选的，所述融合向量获取模块840，进一步用于：

对所述情感语义特征向量和所述音素特征向量进行层归一化处理，得到归一化向量；

对所述归一化向量进行线性投影，得到融合向量。

可选的，所述均值和方差获取模块860，进一步用于：

对所述融合向量进行线性投影，得到投影向量；

从特征维度方向将所述投影向量进行平均划分，得到均值和方差。

本申请实施例公开的语音合成装置，用于实现本申请实施例中所述的语音合成方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的语音合成装置，通过对目标文本执行单词到音素的转换处理，得到目标音素；对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量；对所述目标音素进行多头注意力编码处理，得到音素特征向量；对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量；对所述融合向量进行随机时长预测，得到每个所述目标音素的持续时长信息；获取所述融合向量的均值和方差；根据所述均值、所述方差，以及，所述持续时长信息，获取所述目标文本对应的音频数据，通过引入待合成文本的情感和语义信息，提高文本先验分布的复杂程度，拉近先验分布和后验分布距离，最终合成更富有表现力，富有情感的语音。

参照图9，本申请实施例还公开了一种语音合成模型训练装置，所述语音合成模型包括：后验编码器、解码器、单调对齐搜索模块、标准化流模型、随机时长预测器、局部注意力编码器、音素转换模块，以及，情感语义特征提取模块，所述装置包括：

目标音素获取模块901，用于针对每条训练样本，通过所述音素转换模块对所述训练样本中的样本文本执行单词到音素的转换处理，得到目标音素；

音素特征向量获取模块902，用于通过所述局部注意力编码器，对所述目标音素进行多头注意力编码处理，得到音素特征向量；

情感语义特征向量获取模块903，用于通过所述情感语义特征提取模块，对所述样本文本进行语义情感提取，得到所述样本文本的情感语义特征向量；

融合向量获取模块904，用于通过所述局部注意力编码器，对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量；

均值和方差获取模块905，用于通过所述局部注意力编码器，获取所述融合向量的均值和方差；

第一隐层向量获取模块906，用于通过后验编码器，获取根据所述样本文本对应的音频真实值进行后验编码处理得到的第一隐层向量；

第二隐层向量获取模块907，用于通过所述标准化流模型，对所述第一隐层向量进行处理，得到第二隐层向量；

持续时长信息获取模块908，用于通过所述单调对齐搜索模块，根据所述均值、所述方差和所述第二隐层向量，搜索得到持续时长信息；

标准化流输入向量获取模块909，用于根据所述均值、所述方差，以及，所述持续时长信息，得到标准化流输入向量；

第三隐层向量获取模块910，用于将所述标准化流输入向量作为所述标准化流模型的反向流输入，得到所述标准化流模型输出的第三隐层向量；

音频合成模块911，用于通过所述解码器，对所述第三隐层向量进行解码处理，得到音频合成值；

损失计算模块912，用于获取所述语音合成模型的模型损失，其中，所述模型损失至少包括：所述音频合成值和所述音频真实值的线性频谱的绝对值损失，以及，所述标准化流模型的反向流损失，所述反向流损失根据以下第一条件分布和第二条件分布的差值计算得到：给定文本的条件下，所述标准化流模型的反向流输出的第三隐层向量的第一条件分布、给定音频的条件下，所述后验编码器输出的第四隐层向量的第二条件分布；

迭代训练模块913，用于以优化所述模型损失为目标，迭代训练所述语音合成模型。

本申请实施例公开的语音合成模型训练装置，用于实现本申请实施例中所述的语音合成模型训练方法，装置的各模块的具体实施方式不再赘述，可参见方法实施例相应步骤的具体实施方式。

本申请实施例公开的语音合成模型训练装置，通过改进语音合成模型的结构，引入情感语义特征提取模块，对输入模型的文本进行语义情感提取，并将提取的情感语义特征向量融合到音素特征向量中，用于获取所述融合向量的均值和方差，以进行编码预测，引入的文本的情感和语义信息，提高了文本先验分布的复杂程度，拉近先验分布和后验分布距离，使得最终合成更富有表现力，富有情感的语音。另一方面，针对音频先验分布和文本后验分布差距过大导致音频不够自然，表现力不够的问题，本申请通过在训练阶段引入反向流损失，将文本先验分布送入反向流模块，计算反向流模块的输出和音频后验分布的KL距离，进一步拉近先验分布和后验分布的差距，相比于正向流损失，反向流损失更侧重降低音频后验分布的复杂。反向流损失无需新增模型参数，只需要在原有模型上新增计算流，可快速实现，优化效果明显。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请提供的一种语音合成方法及装置、语音合成模型训练方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图10示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器1010和存储器1020及存储在所述存储器1020上并可在处理器1010上运行的程序代码1030，所述处理器1010执行所述程序代码1030时实现上述实施例中所述的方法。所述存储器1020可以为计算机程序产品或者计算机可读介质。存储器1020可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器1020具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码1030的存储空间10201。例如，用于程序代码1030的存储空间10201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码1030为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码，当所述计算机可读代码在电子设备上运行时，导致所述电子设备执行根据上述实施例的方法。

本申请实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的语音合成方法的步骤。

这样的计算机程序产品可以为计算机可读存储介质，该计算机可读存储介质可以具有与图10所示的电子设备中的存储器1020类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图11所述的便携式或者固定存储单元。通常，存储单元包括计算机可读代码1030’，所述计算机可读代码1030’为由处理器读取的代码，这些代码被处理器执行时，实现上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，其特征在于，应用于语音合成模型，所述方法包括：

对目标文本执行单词到音素的转换处理，得到目标音素；

获取所述融合向量的均值和方差；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标文本进行语义情感提取，得到所述目标文本的情感语义特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标文本进行语义情感提取，得到所述目标文本的携带情感信息和语义信息的词级别嵌入向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述目标音素进行多头注意力编码处理，得到音素特征向量，包括：

对所述第二向量进行归一化处理，得到权重矩阵；

根据所述权重矩阵与V向量的乘积，得到音素特征向量。

5.根据权利要求1所述的方法，其特征在于，所述对所述情感语义特征向量和所述音素特征向量进行融合处理，得到融合向量，包括：

对所述归一化向量进行线性投影，得到融合向量。

6.根据权利要求1所述的方法，其特征在于，所述获取所述融合向量的均值和方差，包括：

对所述融合向量进行线性投影，得到投影向量；

7.一种语音合成模型训练方法，其特征在于，所述语音合成模型包括：后验编码器、解码器、单调对齐搜索模块、标准化流模型、随机时长预测器、局部注意力编码器、音素转换模块，以及，情感语义特征提取模块，所述方法包括：

以优化所述模型损失为目标，迭代训练所述语音合成模型。

8.一种语音合成装置，其特征在于，应用于语音合成模型，所述装置包括：

9.一种语音合成模型训练装置，其特征在于，所述语音合成模型包括：后验编码器、解码器、单调对齐搜索模块、标准化流模型、随机时长预测器、局部注意力编码器、音素转换模块，以及，情感语义特征提取模块，所述装置包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码，其特征在于，所述处理器执行所述程序代码时实现权利要求1至7任意一项所述的方法。

11.一种计算机可读存储介质，其上存储有程序代码，其特征在于，该程序代码被处理器执行时实现权利要求1至7任意一项所述的方法的步骤。