CN116825090A

CN116825090A - 语音合成模型的训练方法、装置及语音合成方法、装置

Info

Publication number: CN116825090A
Application number: CN202311106935.3A
Authority: CN
Inventors: 张青辉; 王英
Original assignee: 4u Beijing Technology Co ltd
Current assignee: 4u Beijing Technology Co ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-09-29
Anticipated expiration: 2043-08-30
Also published as: CN116825090B

Abstract

本申请提供了一种语音合成模型的训练方法、装置及语音合成方法、装置，其中，该训练方法包括：获取与待模仿对象的声音对应的待模仿音频；将待模仿音频输入到预先构建的语音合成模型中，其中，语音合成模型将待模仿音频转换为文本，从文本对应的音素序列中提取声音特征，从待模仿音频中提取高分辨率声学特征，融合高分辨率声学特征和声音特征，并基于融合后的特征生成与文本对应的合成音频；根据合成音频和待模仿音频确定语音合成模型的损失，并基于损失更新语音合成模型的网络参数，以训练语音合成模型。本申请解决了现有的语音合成模型合成出的声音与待模仿对象的声音的相似度不够高的技术问题。

Description

语音合成模型的训练方法、装置及语音合成方法、装置

技术领域

本申请涉及语音合成技术领域，具体而言，涉及一种语音合成模型的训练方法、装置及语音合成方法、装置。

背景技术

目前，现有的语音合成模型主要采用深度学习技术，如循环神经网络（RecurrentNeural Networks，RNN）和变换器模型（Transformer），来实现从文本到语音的转换。这些模型通过训练大量的文本和对应的音频数据，学习文本与音频之间的映射关系，从而生成自然流畅的合成语音。

然而，这些现有模型仍存在一些问题。首先，长期依赖问题会影响生成的语音质量。在语音合成过程中，模型需要捕捉文本中的长期上下文信息，但传统的RNN模型在处理长序列时可能会面临梯度消失或梯度爆炸的问题，导致难以有效捕捉长期依赖。其次，现有模型可能在生成语音的自然度和流畅度方面存在挑战。特别是在处理复杂的韵律、音调和语速变化时，模型可能会出现语音断裂、模糊不清或不自然的情况。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音合成模型的训练方法、装置及语音合成方法、装置，以至少解决现有的语音合成模型合成出的声音与待模仿对象的声音的相似度不够高的技术问题。

根据本申请实施例的一个方面，提供了一种语音合成模型的训练方法，包括：获取与待模仿对象的声音对应的待模仿音频；将所述待模仿音频输入到预先构建的语音合成模型中，其中，所述语音合成模型将所述待模仿音频转换为文本，从所述文本对应的音素序列中提取声音特征，从所述待模仿音频中提取高分辨率声学特征，融合所述高分辨率声学特征和所述声音特征，并基于融合后的特征生成与所述文本对应的合成音频，其中，所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征；根据所述合成音频和所述待模仿音频确定所述语音合成模型的损失，并基于所述损失更新所述语音合成模型的网络参数，以训练所述语音合成模型。

根据本申请实施例的一个方面，提供了一种语音合成方法，包括将所述待处理的文本输入到语音合成模型中，得到与所述待处理的文本对应的目标语音；其中，所述语音合成模型是根据上述训练方法训练得到的。

根据本申请实施例的一个方面，提供了一种语音合成模型的训练装置，包括：样本获取模块，被配置为获取与待模仿对象的声音对应的待模仿音频；训练模块，被配置为：将所述待模仿音频输入到预先构建的语音合成模型中，其中，所述语音合成模型将所述待模仿音频转换为文本，从所述文本对应的音素序列中提取声音特征，从所述待模仿音频中提取高分辨率声学特征，融合所述高分辨率声学特征和所述声音特征，并基于融合后的特征生成与所述文本对应的合成音频，其中，所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征；根据所述合成音频和所述待模仿音频确定所述语音合成模型的损失，并基于所述损失更新所述语音合成模型的网络参数，以训练所述语音合成模型。

根据本申请实施例的一个方面，还提供了一种语音合成装置，包括：文本获取模块，被配置为获取待处理的文本；合成模块，被配置为将所述待处理的文本输入到语音合成模型中，得到与所述待处理的文本对应的目标语音；其中，所述语音合成模型是根据上述训练方法训练得到的。

根据本申请实施例的一个方面，还提供了一种语音合成系统，包括：如上所述的语音合成装置，被配置为生成所述目标语音；虚拟形象渲染设备，被配置为渲染虚拟形象，其中，所述虚拟形象用于播放所述目标语音。

在本申请实施例中，将所述待模仿音频转换为文本，从所述文本对应的音素序列中提取声音特征，从所述待模仿音频中提取高分辨率声学特征，融合所述高分辨率声学特征和所述声音特征，并基于融合后的特征生成与所述文本对应的合成音频，其中，所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征。通过上述方案，解决了现有的语音合成模型合成出的声音与待模仿对象的声音的相似度不够高的技术问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种语音合成模型的训练方法的流程图；

图2是根据本申请实施例的一种语音合成方法的流程图；

图3是根据本申请实施例的一种训练语音合成模型的方法的流程图；

图4是根据本申请实施例的一种语音合成模型调整和优化的流程图；

图5是根据本申请实施例的另一种语音合成方法的流程图；

图6是根据本申请实施例的一种语音合成模型的训练装置的结构示意图；

图7是根据本申请实施例的一种语音合成装置的结构示意图；

图8是根据本申请实施例的一种语音合成系统的结构示意图；

图9示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请实施例提供了一种语音合成模型的训练方法，如图1所示，该方法包括以下步骤：

步骤S102，获取与待模仿对象的声音对应的待模仿音频。

步骤S104，将所述待模仿音频输入到预先构建的语音合成模型中，其中，所述语音合成模型将所述待模仿音频转换为文本，从所述文本对应的音素序列中提取声音特征，从所述待模仿音频中提取高分辨率声学特征，融合所述高分辨率声学特征和所述声音特征，并基于融合后的特征生成与所述文本对应的合成音频，其中，所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征。

首先，融合高分辨率声学特征和声音特征，得到融合后的特征。

在一些实施例中，利用散度来评估所述声音特征中的频谱特征与所述高分辨率声学特征之间的差异，得到所述频谱特征的权重和所述高分辨率声学特征的权重，其中，所述频谱特征包括声谱熵特征和能量特征；基于所述频谱特征的权重和所述高分辨率声学特征的权重，利用谱熵加权来融合所述频谱特征与所述高分辨率声学特征，得到融合后的特征。

通过利用散度来评估声音特征中频谱特征与高分辨率声学特征之间的差异，能够获取频谱特征和高分辨率声学特征的权重信息。通过将频谱特征的权重和高分辨率声学特征的权重结合，产生一个更加综合且信息丰富的特征表示。这样的融合方法能够在音频合成中实现更好的音质和准确性，从而提升合成音频的自然度和逼真感。

在另外一些实施例中，对所述声音特征中的基频特征和所述高分辨率声学特征进行归一化处理；采用频谱梳状变换来调整归一化处理后的所述基频特征和所述高分辨率声学特征的频率轴，以增加归一化处理后的所述基频特征和所述高分辨率声学特征的不同频率成分之间的相互作用；将多项式变换扩展到多个通道，每个通道对应不同阶数的多项式，利用所述不同阶数的多项式将调整后的所述基频特征和所述高分辨率声学特征进行深度组合；捕捉组合后的所述基频特征和所述高分辨率声学特征之间的非线性关系，基于所述非线性关系进行降维处理，得到融合后的特征。

通过对声音特征中的基频特征和高分辨率声学特征进行归一化处理，实现了特征的统一尺度，从而减少了特征之间的差异。随后，通过采用频谱梳状变换来调整归一化处理后的基频特征和高分辨率声学特征的频率轴，增强了这些特征之间的频率成分交互，进一步丰富了特征表示。多项式变换的引入进一步拓展了特征组合的维度，通过多个通道以不同阶数的多项式将调整后的基频特征和高分辨率声学特征深度组合，进一步增强了特征的多样性和表达能力。这样生成的特征不仅能够捕捉基频特征和声学特征之间的复杂关系，还能够更好地反映音频的变化模式。最后，通过捕捉非线性关系并进行降维处理，获得了融合后的特征，这将在音频合成过程中更好地保留重要信息，提升了合成音频的真实感和音质。

在又一些实施例中，还可以将所述声音特征中的声道特征和所述高分辨率声学特征映射到共享的嵌入空间；在所述共享的嵌入空间中预测所述声道特征和所述高分辨率声学特征的自监督任务，以增强所述声道特征和所述高分辨率声学特征之间的对应关系；基于增强后的所述对应关系，来融合所述高分辨率声学特征和所述声道特征，得到融合后的特征。

通过将声音特征中的声道特征和高分辨率声学特征映射到共享的嵌入空间，实现了不同特征之间的联系与转化。在这个共享的嵌入空间中，通过预测声道特征和高分辨率声学特征的自监督任务，进一步加强了它们之间的对应关系，从而提升了特征之间的一致性和相关性。这样的强化对应关系能够更有效地将声道特征和高分辨率声学特征融合在一起，产生更丰富、更准确的融合后特征。通过这个增强的融合过程，合成音频的生成能够更加准确地捕捉原始声音的细节特征，从而提升了合成音频的真实感和音质。

接着，在得到融合后的特征之后，基于融合后的特征生成与所述文本对应的合成音频。

例如，基于融合后的特征，利用正弦和余弦函数的线性组合来确定用于编码所述音素序列中的音素的位置信息的位置编码参数；基于所述位置编码参数，确定位置感知权重矩阵，并利用注意力机制，调整所述位置感知权重矩阵中的位置编码参数的权重；通过调整后的所述位置感知权重矩阵来调整音素序列中的音素的发音参数，生成与所述文本对应的合成音频。

本实施例借助融合后的特征，采用正弦和余弦函数的线性组合，精准地确定用于编码音素序列中每个音素的位置信息的位置编码参数。这种方法充分考虑了音素在序列中的位置关系，有助于模型更好地捕捉音素的语境。基于这些位置编码参数，能够确定位置感知权重矩阵，通过融合位置编码参数和融合后的特征，利用注意力机制调整位置感知权重矩阵的位置编码参数权重。这一精细调节能够准确控制音素序列中每个位置与其他位置之间的关联强度，进而影响合成音频的发音参数。最终，通过调整过的位置感知权重矩阵，能够实现基于文本的合成音频中发音参数的个性化调整，从而生成更具表现力和逼真度的合成音频。

步骤S106，根据所述合成音频和所述待模仿音频确定所述语音合成模型的损失，并基于所述损失更新所述语音合成模型的网络参数，以训练所述语音合成模型。

在这个过程中，基于生成的合成音频与待模仿音频之间的比较，确定了语音合成模型的损失函数，该损失函数旨在量化合成音频与目标音频之间的差异。通过计算这个损失，能够评估模型在音质、音色和语音特征等方面的表现。然后，通过优化算法（例如梯度下降法），在训练数据上迭代地调整模型的网络参数，以最小化损失函数。这个训练过程使得模型逐渐学会更好地捕捉音频的特征，以生成更符合预期的合成音频。

在更新网络参数的过程中，可以采用一些优化技术，如自适应学习率调整、正则化方法和批归一化等，以加速训练过程并提高模型的稳定性。此外，还可以引入一些深度学习技巧，例如残差连接、注意力机制等，以增强模型的表达能力和性能。

整个训练过程是一个反复迭代的过程，模型通过不断地从合成音频与目标音频的差异中学习，逐渐优化自身，使得合成音频与目标音频之间的相似度逐步提高。这样的深度学习训练过程能够使语音合成模型不断进步，最终生成更自然、更逼真的合成音频。

实施例2

本申请实施例提供了一种语音合成方法，如图2所示，该方法包括以下步骤：

步骤S202，获取与待模仿对象的声音对应的待模仿音频。

待模仿音频是源自真实模仿对象的约10分钟时长的语音数据，它直接捕捉了模仿对象的声音特征、语调、情感等信息。通过获取这些待模仿音频，合成系统可以在生成目标语音时参考这些真实的声音特征，从而使合成语音更加自然、逼真，并且更接近模仿对象的声音。

步骤S204，利用待模仿音频训练语音合成模型。

将在下文详细描述如何利用待模仿音频训练语音合成模型，此处不再赘述。

步骤S206，获取待处理的文本。

首先，待处理的文本经过预处理，去除特殊字符、标点符号和其他无关信息，确保文本与语音之间的对应关系清晰。

步骤S208，利用语音合成模型输出与待处理的文本对应的语音。

将待处理的文本输入到训练好的语音合成模型，生成对应的声音特征序列。将声音特征序列转换为声音波形。使用声码器或声音合成引擎，将生成的声音特征序列转换为最终的声音波形。

下面将详细描述如何利用待模仿音频训练语音合成模型，如图3所示，训练语音合成模型的方法包括以下步骤：

步骤S2042，数据预处理。

在数据准备阶段，首先需要将待模拟音频进行拆分，将约10分钟的待模拟音频分成小的时间段，每个时间段即为一个音频帧。这种拆分有助于模型捕捉语音的瞬时特征和变化。

随后，对于每个音频帧，需要将其转录为相应的高分辨率声学特征，例如梅尔频率倒谱系数（MFCC）或倒谱包络系数（MFCC）。这些高分辨率声学特征能够捕捉音频中的频谱信息，有助于模型理解音频的声学特性。

在转录高分辨率声学特征的过程中，可以选择合适的特征提取方法，确保特征能够尽可能准确地表达音频的频谱分布。此外，应该确保特征的维度适中，不过于冗余，以便在模型训练过程中保持高效性能。

通过将每个音频帧与其对应的高分辨率声学特征进行关联，建立起输入音频帧与输出高分辨率声学特征之间的映射关系。这为模型提供了训练数据，使其能够学习如何从文本输入到声音特征输出的转换过程。

本实施例在数据准备阶段，将长音频拆分成音频帧，并将这些帧与相应的高分辨率声学特征进行关联，为语音合成模型提供训练所需的输入输出对应关系。这将确保训练出的模型能够在接收到输入文本后，生成与待模拟音频中声音类似的语音。

步骤S2044，数据标注。

首先，需要对待模拟音频进行文本转录，将音频中所包含的话语内容转换为对应的文本。对于每个音频帧，将其与其对应的文本进行关联。每个音频帧都有一个与之对应的文本标注，用于表示该帧的声音内容。在进行数据标注时，确保标注的文本与音频帧内容相符。这有助于模型理解输入文本与音频特征之间的关系，从而在合成过程中能够生成与输入文本相符的语音。

通过将输入文本与相应的声音特征进行关联标注，建立起输入文本与输出高分辨率声学特征之间的映射关系。这为模型提供了训练数据，使其能够学习如何从输入文本到高分辨率声学特征输出的转换过程。

步骤S2046，模型架构搭建。

构建Transformer模型，Transformer模型由编码器和解码器组成。编码器用于处理输入的音素序列，而解码器则负责生成对应的音频帧序列。具体地，编码器负责将输入的文本对应的音素序列进行嵌入表示，捕捉输入文本的语义信息，而解码器则根据编码器的输出和自身的上下文生成对应的音频帧序列。这样的架构能够确保模型在理解输入文本的基础上生成适合的声音。

在编码器阶段，从待模拟音频对应的文本的音素序列中提取频谱特征，利用散度来评估频谱特征与高分辨率声学特征之间的差异，得到频谱特征与高分辨率声学特征的权重；然后，基于所述权重，利用谱熵加权来融合所述频谱特征与所述高分辨率声学特征，得到融合后的特征。具体地说，将待模拟音频对应的文本的音素序列映射成频谱特征，其中包括声谱熵特征和能量特征。为了确定这些特征的权重，引入了散度，用于评估频谱特征与高分辨率声学特征之间的差异。然后，利用谱熵加权，将频谱特征与高分辨率声学特征进行融合，确保融合后的特征保持合理的比例。

本实施例通过使用散度来评估频谱特征与高分辨率声学特征之间的差异，能够根据实际数据情况，动态调整特征的权重。这样可以在不同情境下确保融合后的特征更好地捕捉源声音和目标声音之间的关系，从而提高合成语音的自然度和逼真度。此外，在特征融合中引入声谱熵特征和能量特征，使得合成的语音能够在声音特征的多个维度上进行调整。这种多样性有助于合成语音在不同场景和情感中都能够更准确地表达模仿对象的声音特征。最后，通过谱熵加权，融合后的特征能够保持原始特征的信息，同时也能够充分利用高分辨率声学特征的细节，以在合成过程中获得更高的质量和准确性。

在解码器阶段，利用融合后的特征来调整音素序列中的音素的音色和动态范围。例如，基于融合后的特征，利用正弦和余弦函数的线性组合来确定用于编码所述音素序列中的音素的位置信息的位置编码参数；基于所述位置编码参数，确定位置感知权重矩阵，并利用注意力机制，调整所述位置感知权重矩阵中的位置编码参数的权重；通过调整后的所述位置感知权重矩阵来调整音素序列中的音素的音色和动态范围。具体地说，本实施例采用了高度精细的位置感知权重矩阵。这个矩阵的每个元素涉及到位置编码参数。这些位置编码参数是经过调整的正弦和余弦函数的线性组合，用于编码位置信息。此外，解码器中还引入了多层自注意力机制，每层都有精心调整的权重参数，用于控制每个位置与其他位置之间的关联强度。这些权重参数确保了整体的自注意力机制在每个层中都能够有效地捕获序列间的上下文信息。另一方面，引入了双曲正切函数的多项式变种作为非线性激活函数。这个多项式变种的每个系数都经过选择，以满足输入输出的范围要求。在解码器的每个层中，这个激活函数都被应用，用于调整生成的音频帧的音色和动态范围。

本实施例引入正弦和余弦函数的线性组合来确定位置编码参数，使得这些参数能够随着位置的变化而自适应调整。这种自适应性有助于在不同位置上对音色和动态范围进行个性化调整，从而更好地捕捉源声音的细微差异。此外，通过基于位置编码参数确定位置感知权重矩阵，并利用注意力机制调整权重矩阵中的位置编码参数的权重，能够实现对不同位置之间的关联强度进行精确控制。这使得在合成过程中能够更有针对性地调整音色和动态范围，以实现更加准确的声音模仿。最后，结合融合后的特征和位置感知权重矩阵的调整，能够在多个方面对音色和动态范围进行调整。这种综合的调整有助于使合成语音在不同位置和情境下都能够保持一致的声音特征，使得合成结果更加连贯和真实。

在一些实施例中，还可以在编码器中采用基频分析技术，从音素序列中提取基频特征。然后，使用特征拼接方法将这些基频特征与高分辨率声学特征结合，例如，对基频特征和高分辨率声学特征进行多项式变换，得到融合后的特征。在解码器端，利用所述融合后的特征来调整音素序列中的共振峰频率和带宽。这样，确保声道特征在不同层次的融合中被充分整合，以达到所需的调整效果。

具体地，对所述声音特征中的基频特征和所述高分辨率声学特征进行归一化处理；采用频谱梳状变换来调整归一化处理后的所述基频特征和所述高分辨率声学特征的频率轴，以增加归一化处理后的所述基频特征和所述高分辨率声学特征的不同频率成分之间的相互作用；将多项式变换扩展到多个通道，每个通道对应不同阶数的多项式，利用所述不同阶数的多项式将调整后的所述基频特征和所述高分辨率声学特征进行深度组合；捕捉组合后的所述基频特征和所述高分辨率声学特征之间的非线性关系，基于所述非线性关系进行降维处理，得到融合后的特征。

在另外一些实施例中，还可以从音素序列中抽取声道特征，随后引入深度递归融合法，以参数形式将这些声道特征与高分辨率声学特征相互融合。通过对多个上述参数进行交叉操作，得到了融合后的特征，融合后的特征具备了在不同频率范围内的丰富信息。在这之后，引入了参数化调整机制，对融合后特征中的各个频率分量进行参数调整，以实现对音素序列中的共振峰频率和带宽的微调。或者，还可以将所述声音特征中的声道特征和所述高分辨率声学特征映射到共享的嵌入空间；在所述共享的嵌入空间中预测所述声道特征和所述高分辨率声学特征的自监督任务，以增强所述声道特征和所述高分辨率声学特征之间的对应关系；基于增强后的所述对应关系，来融合所述高分辨率声学特征和所述声音特征，得到融合后的特征。

在本申请实施例中，在编码器和解码器中，嵌入层将音素序列和音频帧序列转换为连续向量表示。这些嵌入具有较低维度的表示，以便于模型处理。这些向量嵌入将在整个模型中传递，供后续的自注意力机制使用。

Transformer模型通过多层的自注意力机制来建立文本和音频帧之间的联系。编码器的自注意力机制使模型能够在不同层次捕捉音素序列中的上下文信息，解码器的自注意力机制则确保在生成每个音频帧时，模型能够考虑输入文本的相关部分，以获得全局的语境信息。每个注意力层都能将音素序列中的每个位置与音频帧序列中的所有位置建立联系，从而建立全局的上下文联系，提高生成的音频帧的准确性和连贯性。

步骤S2048，使用训练数据集进行训练。

使用训练数据集，将输入的音素序列输入编码器，期望输出为相应的音频帧序列。然后，通过计算生成的音频帧序列与目标音频帧之间的差异（通常使用均方误差损失），进行反向传播，调整模型的权重，以逐步优化模型。

为了确保Transformer模型的训练过程稳定且有效，可以采用学习率调度策略，这有助于平衡训练过程中的收敛速度和震荡问题。学习率调度策略的主要目标是在模型训练的早期阶段使用较大的学习率以加速收敛，然后逐渐减小学习率以避免在训练后期产生震荡或过度拟合。

学习率是控制模型参数更新步长的重要超参数，过大的学习率可能导致训练不稳定，甚至无法收敛，而过小的学习率可能使得训练过程非常缓慢，需要更多的迭代次数才能达到合适的模型性能。

本实施例采用学习率调度策略，通过在训练过程中动态地调整学习率，以在不同阶段实现更好的收敛效果。在训练初始阶段，使用较大的学习率，以便快速接近全局最优点；然后逐渐降低学习率，使模型能够更加精细地搜索损失函数的局部最优点，从而避免训练过程中的震荡。

具体地，在每个训练周期（epoch）结束时，将当前学习率乘以一个小于1的因子，以逐渐降低学习率。这种策略可以在训练初始阶段迅速降低学习率，然后在接近收敛时使学习率变得更小，从而有助于模型更好地收敛。

学习率调度策略能够帮助模型在训练过程中保持稳定的梯度更新，避免在训练后期产生震荡，从而提高模型的训练效率和性能。本实施例可以使模型在相对较少的迭代次数内达到理想的收敛效果，减少训练时间和资源消耗。通过逐渐降低学习率，该策略可以在保持训练稳定性的同时，有效提高模型的收敛速度和性能，使得模型能够更好地适应复杂的任务和数据。

最后，根据验证集评估的结果，可以进行如图4所示的调整和优化，具体包括以下步骤：

步骤S402，超参数调整。

如果验证集评估结果表明模型的性能不佳，可以调整模型的超参数，如学习率、模型层数、隐藏单元数等。这些超参数的调整可以影响模型的收敛速度和性能。

步骤S404，正则化和防止过拟合。

如果验证集评估结果显示模型在训练集上表现较好，但在验证集上表现不佳，可能存在过拟合问题。可以尝试增加正则化技术，如权重衰减、Dropout等，以减轻过拟合问题。

步骤S406，数据增强。

如果验证集评估结果显示模型在某些特定情况下性能不佳，可以进行数据增强。通过对输入的文本进行微小修改，可以生成更多样化的输入，从而提升模型的泛化能力。

步骤S408，模型架构优化。

验证集评估结果可能揭示了模型在特定任务上的不足之处。根据这些发现，可以尝试优化模型的架构，添加更多的注意力机制、增加编码器和解码器层数等。

通过上述步骤，使用Transformer架构的语音合成模型能够充分利用多个音频帧进行训练，实现声音克隆，输出与输入的文本对应的语音。这种模型能够更好地捕捉输入文本与待模拟音频中的声音特征之间的关联，生成更具有逼真度和表现力的合成语音。通过不断迭代优化，训练后的模型能够在输入文本的情况下生成与待模拟音频相符的语音，实现高质量的声音克隆。

实施例3

本申请实施例提供了一种语音合成方法，如图5所示，该方法包括以下步骤：

步骤S502，获取与待处理的文本对应的音素序列以及与待模仿对象的声音对应的待模仿音频。

步骤S504，从所述待模仿音频中提取高分辨率声学特征，并基于所述高分辨率声学特征来对所述音素序列进行处理，得到语音波形片段，其中，所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征。

首先，提取高分辨率声学特征。

将所述待模仿音频分成预设长度的音频帧；对于每个所述音频帧，将该音频帧转换为音频频谱，并从所述音频频谱中提取所述高分辨率声学特征，其中，所述高分辨率声学特征包括以下至少之一：倒谱包络系数、和梅尔频率倒谱系数。

本实施例通过获取文本对应的音素序列和待模仿对象的声音对应的待模仿音频，能够准确地了解待合成语音的文本内容和模仿对象的声音特征，从而提供了关于待合成语音的重要信息，进而使得后续合成的语音更加贴近目标。

接下来，基于所述高分辨率声学特征来对所述音素序列进行处理。

例如，从所述音素序列中提取频谱特征，利用谱熵加权来融合所述频谱特征与所述高分辨率声学特征，得到融合后的特征，其中，所述频谱特征包括声谱熵特征和能量特征；利用所述融合后的特征来调整所述音素序列中的音素的音色和动态范围。

本实施例从音素序列中提取频谱特征，包括声谱熵特征和能量特征，这些特征能够捕捉声音的能量分布和频谱特点。通过将这些频谱特征与高分辨率声学特征进行加权平均融合，生成融合后的特征，可以综合保留原始声音特征和高分辨率细节，从而增强合成语音的声音质量和自然度。此外，声谱熵特征和能量特征能够反映声音的音色特点和音量分布，通过融合后的特征调整，可以使合成语音的音色更加接近待模仿对象的声音，同时实现更广泛的音量变化，从而增加合成语音的表现力和逼真度。

在一些实施例中，可以从所述音素序列中提取基频特征，利用特征拼接法将所述基频特征融入到所述高分辨率声学特征中，得到融合后的特征；利用所述融合后的特征来调整所述音素序列中的音素的音高和音调。本实施例通过将提取的基频特征与高分辨率声学特征进行特征拼接和融合，得到融合后的特征，可以使合成语音的音高和音调更加准确地反映待模仿对象的声音特征。这样，合成语音就能够更精确地模仿待模仿对象的音高和音调变化。

在另一些实施例中，可以从所述音素序列中提取声道特征，利用递归融合法将所述声道特征与所述高分辨率声学特征相融合，得到融合后的特征；利用所述融合后的特征来调整所述音素序列中的音素的共振峰频率和带宽。本实施例通过将从音素序列提取的声道特征与高分辨率声学特征进行递归融合，得到融合后的特征，可以调整合成语音的共振峰频率和带宽，从而实现对音色的调整。此外，声道特征能够表征说话人的独特音色特点，通过融合这些特征，合成语音可以更好地模仿待模仿对象的音色特征，使得合成语音更接近待模仿对象的声音特点。

在另外的一些实施例中，还可以从所述音素序列中提取声音特征，利用因子图来融合所述声音特征和所述高分辨率声学特征，得到融合后的特征；利用所述融合后的特征来调整所述音素序列中的音素，得到所述语音波形片段。例如，确定所述声音特征和所述高分辨率声学特征之间的相互影响；基于所述相互影响，利用所述因子图的推断算法对所述声音特征和所述高分辨率声学特征进行融合，得到所述融合后的特征。

本实施例通过利用因子图来融合声音特征和高分辨率声学特征，能够提升语音合成的质量和逼真度。因子图能够建模声音特征和高分辨率声学特征之间的复杂相互影响关系，从而更全面地考虑它们之间的关联性。通过确定相互影响并建立复杂的因子函数，能够更好地捕捉这些特征之间的非线性关系，使合成语音更加地个性化，从而能够更好地模仿和表达待模仿对象的声音特征。

步骤S506，对所述语音波形片段进行优化处理，并对优化处理后的所述语音波形片段进行重叠和拼接，以合成目标语音。

首先，应用平滑过渡技术，如淡入淡出，以实现相邻波形片段的无缝连接。例如，可以通过逐渐调整音频的振幅来实现，从而减少了不连贯性和突兀感。

接着，通过降噪、去失真和频谱均衡等处理来提升音频质量。降噪算法可以去除背景噪声，使合成语音更加清晰。去失真技术有助于减少音频畸变，提高合成语音的准确性。频谱均衡技术则可以平衡不同频率范围内的声音，使合成语音的音色更加平衡和自然。

最后，在优化处理后，使用重叠和拼接技术来连接经过改进的语音波形片段。通过将相邻的波形片段在适当的位置进行重叠，然后平滑地过渡到下一个片段，以消除不连贯性。这种重叠和拼接方法有助于实现整体语音的连贯性，使得听者在听取合成语音时感觉更加流畅和自然。

本实施例通过采用平滑过渡、音频质量提升以及重叠和拼接技术，有效地提升了合成语音的质量和自然度，使得最终合成目标语音在听觉上更加令人满意，从而能够提供更加逼真和舒适的听觉体验。

实施例4

本申请实施例提供了一种语音合成模型的训练装置，如图6所示，该训练装置包括样本获取模块62和训练模块64。

样本获取模块62被配置为获取与待模仿对象的声音对应的待模仿音频。训练模块64被配置为：将所述待模仿音频输入到预先构建的语音合成模型中，其中，所述语音合成模型将所述待模仿音频转换为文本，从所述文本对应的音素序列中提取声音特征，从所述待模仿音频中提取高分辨率声学特征，融合所述高分辨率声学特征和所述声音特征，并基于融合后的特征生成与所述文本对应的合成音频，其中，所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征；根据所述合成音频和所述待模仿音频确定所述语音合成模型的损失，并基于所述损失更新所述语音合成模型的网络参数，以训练所述语音合成模型。

需要说明的是：上述实施例提供的语音合成模型的训练装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音合成模型的训练装置与语音合成模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

实施例5

本申请实施例提供了一种语音合成装置，如图7所示，该语音合成装置包括：文本获取模块72和合成模块74。

文本获取模块72被配置为获取待处理的文本；合成模块74被配置为将所述待处理的文本输入到语音合成模型中，得到与所述待处理的文本对应的目标语音；其中，所述语音合成模型是根据上述语音模型训练方法训练得到的。

需要说明的是：上述实施例提供的语音合成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音合成装置与语音合成方法实施例属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

实施例6

本申请实施例提供了一种语音合成系统，如图8所示，该语音合成系统包括语音合成装置82和虚拟形象渲染设备84。

语音合成装置82被配置为生成所述目标语音。语音合成装置82的结构和功能和实施例5中的语音合成装置相同，此处不再赘述。

虚拟形象渲染设备84被配置为渲染虚拟形象，其中，所述虚拟形象用于播放所述目标语音。

实施例7

图9示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是，图9示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，该电子设备包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，电子设备还可以包括AI( ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现上述方法实施例的各个步骤等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音合成模型的训练方法，其特征在于，包括：

获取与待模仿对象的声音对应的待模仿音频；

将所述待模仿音频输入到预先构建的语音合成模型中，其中，所述语音合成模型将所述待模仿音频转换为文本，从所述文本对应的音素序列中提取声音特征，从所述待模仿音频中提取高分辨率声学特征，融合所述高分辨率声学特征和所述声音特征，并基于融合后的特征生成与所述文本对应的合成音频，其中，所述高分辨率声学特征为能够反映所述待模仿对象的声音细节的特征；

根据所述合成音频和所述待模仿音频确定所述语音合成模型的损失，并基于所述损失更新所述语音合成模型的网络参数，以训练所述语音合成模型。

2.根据权利要求1所述的方法，其特征在于，融合所述高分辨率声学特征和所述声音特征包括：

利用散度来评估所述声音特征中的频谱特征与所述高分辨率声学特征之间的差异，得到所述频谱特征的权重和所述高分辨率声学特征的权重，其中，所述频谱特征包括声谱熵特征和能量特征；

基于所述频谱特征的权重和所述高分辨率声学特征的权重，利用谱熵加权来融合所述频谱特征与所述高分辨率声学特征，得到所述融合后的特征。

3.根据权利要求1所述的方法，其特征在于，融合所述高分辨率声学特征和所述声音特征包括：

对所述声音特征中的基频特征和所述高分辨率声学特征进行归一化处理；

采用频谱梳状变换来调整归一化处理后的所述基频特征和所述高分辨率声学特征的频率轴，以增加归一化处理后的所述基频特征和所述高分辨率声学特征的不同频率成分之间的相互作用；

将多项式变换扩展到多个通道，每个通道对应不同阶数的多项式，利用所述不同阶数的多项式将调整后的所述基频特征和所述高分辨率声学特征进行深度组合；

捕捉组合后的所述基频特征和所述高分辨率声学特征之间的非线性关系，基于所述非线性关系进行降维处理，得到所述融合后的特征。

4.根据权利要求1所述的方法，其特征在于，融合所述高分辨率声学特征和所述声音特征包括：

将所述声音特征中的声道特征和所述高分辨率声学特征映射到共享的嵌入空间；

在所述共享的嵌入空间中预测所述声道特征和所述高分辨率声学特征的自监督任务，以增强所述声道特征和所述高分辨率声学特征之间的对应关系；

基于增强后的所述对应关系，来融合所述高分辨率声学特征和所述声道特征，得到所述融合后的特征。

5.根据权利要求1至4中任一项所述的方法，其特征在于，基于融合后的特征生成与所述文本对应的合成音频包括：

基于所述融合后的特征，利用正弦和余弦函数的线性组合来确定用于编码所述音素序列中的音素的位置信息的位置编码参数；

基于所述位置编码参数，确定位置感知权重矩阵，并利用注意力机制，调整所述位置感知权重矩阵中的所述位置编码参数的权重；

通过调整后的所述位置感知权重矩阵来调整音素序列中的音素，生成与所述文本对应的所述合成音频。

6.根据权利要求1所述的方法，其特征在于，从所述待模仿音频中提取高分辨率声学特征包括：将所述待模仿音频分成多个音频帧；对于每个所述音频帧，将该音频帧转换为音频频谱，并从所述音频频谱中提取所述高分辨率声学特征。

7.一种语音合成的方法，其特征在于，包括：

获取待处理的文本；

将所述待处理的文本输入到语音合成模型中，得到与所述待处理的文本对应的目标语音；

其中，所述语音合成模型是根据权利要求1至6中任一项所述的方法训练得到的。

8.一种语音合成模型的训练装置，其特征在于，包括：

样本获取模块，被配置为获取与待模仿对象的声音对应的待模仿音频；

训练模块，被配置为：

9.一种语音合成装置，其特征在于，包括：

文本获取模块，被配置为获取待处理的文本；

合成模块，被配置为将所述待处理的文本输入到语音合成模型中，得到与所述待处理的文本对应的目标语音；

10.一种语音合成系统，其特征在于，包括：

如权利要求9所述的语音合成装置，被配置为生成所述目标语音；

虚拟形象渲染设备，被配置为渲染虚拟形象，其中，所述虚拟形象用于播放所述目标语音。