CN117711371A

CN117711371A - 一种语音合成方法、装置、电子设备及存储介质

Info

Publication number: CN117711371A
Application number: CN202311566898.4A
Authority: CN
Inventors: 强春雨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-03-15

Abstract

本公开关于一种语音合成方法、装置、电子设备及存储介质，所述方法包括：将文本信息转换为目标音素序列，并将目标音素序列输入目标音素编码器，得到目标音素编码；将目标音素编码输入语义扩散模型，得到目标语义编码；将提示语音对应的梅尔谱特征输入目标提示编码器，得到目标提示编码；将目标提示编码和目标语义编码输入目标声学扩散模型，预测得到目标梅尔谱特征；将目标梅尔谱特征输入波形扩散模型，得到与文本信息对应的语音。本方案使用少量的有监督的文本数据去训练模型中从文本预测到语义编码预测的过程，进而实现了少监督的文本到语音合成技术，降低了对样本量的依赖度，在少样本的情况下，仍然能够达到很好的语音合成效果。

Description

一种语音合成方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

语音合成(Text-To-Speech，TTS)是智能语音交互的核心技术之一。通过将接收到的文字序列转换为自然逼真的语音波形，反馈传递给用户。语音合成技术直接影响着人机交互的实际使用效果。

随着深度学习的发展，现有的语音合成方法已经取得了较好的效果。传统的语音合成方法通常使用旋律谱图作为中间表示。神经声码器的最新进展促使TTS方法将音频波形转换为离散编码作为中间表示法。这些TTS系统可大致分为自回归框架和非自回归框架两类。这两者都以语音合成为目标。例如，VALL-E是第一个基于语言模型的大规模TTS框架，它具有上下文学习能力，可实现零镜头语音合成。Naturalspeech2是一个基于潜在扩散模型的非自回归TTS框架。

然而，这些方法均为有监督任务方法，依赖于大量标记的文本-语音对。在样本量较少的情况下，这些方法的语音合成效果则不尽如人意。

发明内容

本公开提供一种语音合成方法、装置、电子设备及存储介质，解决了现有语音合成方法在依赖大量标记的文本-语音对的问题。

本公开第一方面提供一种语音合成方法，包括：

获取待处理的文本信息及预设的提示语音；所述提示语音为具有目标语音特征的语音片段；

将所述文本信息转换为目标音素序列，并将所述目标音素序列输入预先训练好的目标音素编码器，进行编码处理得到目标音素编码；

将所述目标音素编码输入语义扩散模型，进行语义编码处理得到所述目标音素编码对应的目标语义编码；

将所述提示语音对应的梅尔谱特征输入目标提示编码器，得到目标提示编码，所述目标提示编码包括所述目标语音特征对应的编码；

将所述目标提示编码和所述目标语义编码输入目标声学扩散模型，预测得到目标梅尔谱特征；

将所述目标梅尔谱特征输入波形扩散模型，得到与所述文本信息对应的语音，所述语音具有所述目标语音特征。

可选地，所述将所述文本信息转换为目标音素序列，包括：

将所述文本信息转换为对应的初始音素序列；

将所述初始音素序列输入时长扩散模型，预测得到所述初始音素序列的第一总发音时长，并根据所述第一总发音时长预测所述初始音素序列中各个音素的发音时间段，得到目标音素序列。

可选地，所述目标音素编码器通过以下方法训练得到：

获取由文本样本和与所述文本样本匹配的语音样本组成的样本对；

将基于所述文本样本得到的样本音素序列输入预设的初始音素编码器进行编码处理，得到样本音素编码；

将所述语音样本对应的梅尔谱特征输入预设的初始语音编码器进行编码处理，得到样本语音编码；

将所述样本音素编码和所述样本语音编码进行对比学习，得到对比损失；

截取所述语音样本中的任意一个语音片段，并将所述语音片段的梅尔谱特征输入初始提示编码器，得到样本提示编码；

将所述样本音素编码、所述样本语音编码和所述样本提示编码输入联合解码器，分别预测得到所述样本音素编码的预测音素梅尔谱特征、所述样本语音编码的预测语音梅尔谱特征；

确定所述预测音素梅尔谱和预设的真实音素梅尔谱之间的损失值，所述预测语音梅尔谱和预设的真实语音梅尔谱之间的损失值，分别得到音素损失和语音损失；

基于所述对比损失、所述音素损失和所述语音损失，训练所述初始音素编码器，得到目标音素编码器。

可选地，所述将基于所述文本样本得到的音素序列输入初始音素编码器，进行编码处理得到所述文本样本的样本音素编码，包括：

将所述文本样本转换为对应的音素序列，得到预样本音素序列；

获取所述语音样本的时长，并根据所述语音样本的时长调整所述预样本音素序列中各个音素的音素时间段，得到样本音素序列；

将所述样本音素序列输入初始音素编码器，进行编码处理得到所述文本样本的样本音素编码。

可选地，所述样本音素编码的时长与所述样本语音编码的长度相同，所述将所述样本音素编码和所述样本语音编码进行对比学习，得到对比损失，包括：

将所述样本音素编码和所述样本语音编码分别重置为二维矩阵，得到二维音素编码矩阵和二维语音编码矩阵；

将所述二维语音编码矩阵中各个位置的语音编码输入所述初始音素编码器，得到多个预测音素编码，并将所述二维音素编码矩阵中各个位置的音素编码输入初始语音编码器，得到多个预测语音编码；

将所述二维音素编码矩阵和所述二维语音编码矩阵中，相同位置处的音素编码和语音编码作为正样本对，根据所述正样本对，获取各个所述预测音素编码对应的真实音素编码、各个所述预测语音编码对应的真实语音编码；

确定所述预测音素编码和所述真实音素编码之间的第一差值、所述预测语音编码和所述真实语音编码之间的第二差值，并将所述第一差值作为训练所述初始音素编码器的对比损失，将所述第二差值作为训练所述初始语音编码器的对比损失。

可选地，所述将所述文本信息转换为目标音素序列，包括：

将所述文本信息转换为对应的初始音素序列；

将所述初始音素序列和多个随机噪声输入时长扩散模型，预测得到所述初始音素序列对应的多个总发音时长；

分别根据各个所述总发音时长预测所述初始音素序列中各个音素的发音时间段，得到多个目标音素序列。

可选地，所述目标声学扩散模型通过以下方法训练得到：

获取提示编码样本和语义编码样本，设置用于扩散训练的时间步长；

设置用于在每个时间步提取随机噪声的目标高斯分布；所述目标高斯分布的波形与标签梅尔谱的波形一致，所述标签梅尔谱为所述提示编码样本和语义编码样本对应的真实梅尔谱；

将所述提示编码样本、所述语义编码样本、所述目标高斯分布和所述时间步长输入初始声学扩散模型，预测得到当前时间步对应的当前预测噪声；

确定所述当前预测噪声和所述当前时间步提取的随机噪声之间的差值；

将所述差值作为损失值，利用所述损失值训练所述声学扩散模型，得到目标声学扩散模型。

本公开第二方面提供一种语音合成装置，包括：

获取模块，被配置为执行获取待处理的文本信息及预设的提示语音；所述提示语音为具有目标语音特征的语音片段；

音素编码生成模块，被配置为执行将所述文本信息转换为目标音素序列，并将所述目标音素序列输入预先训练好的目标音素编码器，进行编码处理得到目标音素编码；

语义编码生成模块，被配置为执行将所述目标音素编码输入语义扩散模型，进行语义编码处理得到所述目标音素编码对应的目标语义编码；

提示编码生成模块，被配置为执行将所述提示语音对应的梅尔谱特征输入目标提示编码器，得到目标提示编码，所述目标提示编码包括所述目标语音特征对应的编码；

预测模块，被配置为执行将所述目标提示编码和所述目标语义编码输入目标声学扩散模型，预测得到目标梅尔谱特征；

语音生成模块，被配置为执行将所述目标梅尔谱特征输入波形扩散模型，得到与所述文本信息对应的语音，所述语音具有所述目标语音特征。

可选地，所述音素编码生成模块具体被配置为执行：

将所述文本信息转换为对应的初始音素序列；

可选地，所述装置还包括目标音素编码器训练模块，所述目标音素编码器训练模块被配置为执行：

可选地，所述目标音素编码器训练模块具体被配置为执行：

可选地，所述音素编码生成模块具体被配置为执行：

将所述文本信息转换为对应的初始音素序列；

可选地，所述装置还包括目标声学扩散模型训练模块，所述目标声学扩散模型训练模块被配置为执行：

根据本公开的第三方面，提供一种电子设备，电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述第一方面中任一种语音合成方法。

根据本公开的第四方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面中任一种可选地语音合成方法。

根据本公开的第五方面，提供一种计算机程序产品，包含指令，当其在电子设备上运行时，使得电子设备执行如第一方面中任一种语音合成方法。

本公开提供的技术方案至少带来以下有益效果：

在本公开实施例中，获取待处理的文本信息及预设的提示语音；所述提示语音为具有目标语音特征的语音片段；将所述文本信息转换为目标音素序列，并将所述目标音素序列输入预先训练好的目标音素编码器，进行编码处理得到目标音素编码；将所述目标音素编码输入语义扩散模型，进行语义编码处理得到所述目标音素编码对应的目标语义编码；将所述提示语音对应的梅尔谱特征输入目标提示编码器，得到目标提示编码，所述目标提示编码包括所述目标语音特征对应的编码；将所述目标提示编码和所述目标语义编码输入目标声学扩散模型，预测得到目标梅尔谱特征；将所述目标梅尔谱特征输入波形扩散模型，得到与所述文本信息对应的语音，所述语音具有所述目标语音特征。本方案先将文本信息转换为目标音素序列，再将目标音素编码转换为目标语义编码，从而将传统的TTS从文本到语音的直接预测，拆分成了先从文本预测到语义编码预测，再从语义编码预测到语音预测的过程。从文本预测到语义编码预测是有监督过程，从语义编码预测到语音预测是无监督过程。这样的架构下可以使用大量的无标注的纯音频数据，去训练从语义编码预测到语音预测的过程，而使用少量的有监督的文本数据去训练从文本预测到语义编码预测，进而实现了少监督的TTS，降低了对样本量的依赖度，在少样本的情况下，仍然能够达到很好的语音合成效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音合成方法的步骤流程图；

图2是根据一示例性实施例示出的一种语音合成方法的模型结构图；

图3是根据一示例性实施例示出的一种目标音素编码器训练方法的步骤流程图；

图4是根据一示例性实施例示出的一种语音合成装置的结构框图；

图5是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

发明人在研究相关技术过程中发现，传统的语音合成方法通常使用旋律谱图作为中间表示。神经声码器的最新进展促使TTS方法将音频波形转换为离散编码作为中间表示法。这些TTS系统可大致分为自回归框架和非自回归框架两类。这两者都以语音合成为目标。例如，VALL-E是第一个基于语言模型的大规模TTS框架，它具有上下文学习能力，可实现零镜头语音合成。Naturalspeech2是一个基于潜在扩散模型的非自回归TTS框架。

此外，传统的语音合成方法通常使用旋律谱图作为中间表示。然而，神经声码器的最新进展促使TTS方法将音频波形转换为离散编码作为中间表示法。这些TTS系统可大致分为自回归框架和非自回归框架两类，这两类都以语音克隆为目标。虽然这些方法可以实现良好的语音克隆效果，但它们依赖于大量标记的文本-语音对。

SPEAR-TTS方法将TTS任务分为文本到语义和语义到语音两个任务，使用离散语义编码(Wav2Vec-BERT)和声学编码(SoundStream)作为中间表征，以实现最小监督训练。然而，离散声学编码依赖神经声码器进行语音波形重建，与传统音频特征相比，在高频细粒度声学细节方面存在信息损失。

语义编码的信息内容有望成为文本和声音信息之间的“桥梁”。语义编码应强调语言内容，而不强调副语言信息，如说话者身份和声音细节。然而，现有模型提取的语义编码存在过度冗余和维度爆炸的问题，导致难以从文本和累积误差中进行预测。此外，自回归框架还存在典型的不稳定性和不可控性问题。

本公开实施例提供一种语音合成方法，先将文本信息转换为目标音素序列，再将目标音素编码转换为目标语义编码，从而将传统的TTS从文本到语音的直接预测，拆分成了先从文本预测到语义编码预测，再从语义编码预测到语音预测的过程。从文本预测到语义编码预测是有监督过程，从语义编码预测到语音预测是无监督过程。这样的架构下可以使用大量的无标注的纯音频数据，去训练从语义编码预测到语音预测的过程，而使用少量的有监督的文本数据去训练从文本预测到语义编码预测，进而实现了少监督的TTS，降低了对样本量的依赖度，在少样本的情况下，仍然能够达到很好的语音合成效果。

图1是根据一示例性实施例示出的一种语音合成方法的步骤流程图，如图1所示，该方法可以包括以下步骤。

在步骤S11中、获取待处理的文本信息及预设的提示语音；所述提示语音为具有目标语音特征的语音片段。

待处理的文本信息是指待转换为语音的文本信息。本方案最终目的是将待处理的文本信息转换为具有目标语音特征、且内容为该文本信息的语音文件。

提示语音为一个语音片段，语音片段中的音色特征、风格特征、情感特征、韵律特征等为该提示语音的目标语音特征。

可以根据需求，获取包含特定语音特征的提示语音。示例性地，若需要将文本信息转换为情感愉悦的年轻女性的语音，则获取具有该音色特征和情感特征的女性语音片段作为提示语音。

提示语音中的语言内容可以包括上述文本信息中的内容，也可以不包括上述文本信息中的内容，本发明实施例对此不做具体限定。

在步骤S12中、将所述文本信息转换为目标音素序列，并将所述目标音素序列输入预先训练好的目标音素编码器，进行编码处理得到目标音素编码。

可以通过字转音模型(Grapheme-to-Phoneme，G2P)，将文本信息转换为音频信息，再将音频信息转换为目标音素序列。目标音素序列中包括：音素及音素的发音时间段。

音素(phoneme)是某种语言中可以表达一定意义的最小单位。例如英语单词“thing”中“th”为一个音素，汉语拼音mei中的m、ei分别为一个音素。根据预设的音素分类方法，对音频信息中包含的音素进行识别，得到音素序列。

将目标音素序列输入目标音素编码器，得到对应的编码后的因素嵌入层，即目标音素编码。

目标音素编码器为预先训练好的权重冻结的音素编码器，权重冻结是指编码器在对音素序列编码过程中，不改变神经网络各层的权重。

在步骤S13中、将所述目标音素编码输入语义扩散模型，进行语义编码处理得到所述目标音素编码对应的目标语义编码。

将目标音素编码输入语义扩散模型(Semantic Diffusion Model)，预测得到语义嵌入，即目标语义编码。这一阶段的操作，由于引入了语义编码，将传统的文本到语音的有监督TTS任务，转换为有监督的文本到语义编码、无监督的语义编码到语音相结合的少监督任务。

语义扩散模型实现了非自回归结构，有效提升了模型的稳定性，解决传统自回归方法中的稳定性可控性差的问题。

在步骤S14中、将所述提示语音对应的梅尔谱特征输入目标提示编码器，得到目标提示编码，所述目标提示编码包括所述目标语音特征对应的编码。

当声音频率线性增大时，频率越高，我们越难听出差别，因此不用线性谱而是对数谱来表示频率变化特征。梅尔刻度是一个对数尺度的对于频率感知线性变化的尺度。梅尔谱(Mel spectrogram)的核心就是梅尔刻度(Mel-scale)。梅尔谱特征具有良好的区分性和鲁棒性，能够提取出语音信号的关键特征，提高模型的准确率和稳定性。同时，梅尔谱特征的提取过程简单、计算量小，适合在嵌入式系统和移动设备中实时应用。

梅尔谱是频率转换为梅尔刻度的频谱。具体地，提示语音对应的梅尔谱特征可通过提示语音的频率转换得到。

目标提示编码器是一个基于VAE(Variational Auto-Encoder，变分编码器)的模型，它从提示语音中提取副语言信息，如音色、风格和韵律等目标语音特征，并对其进行编码。

目标提示编码器包括一个6层的2D卷积网络和一个SE-ResNet(特征压缩与激发网络)模块，它通过建模网络结构之间的相互依赖性来重新校准网络结构特征响应，从而显著提高性能。VAE结构使模型能够获得风格的连续和完整的潜在空间分布，提高提取副语言信息的能力。

在步骤S15中、将所述目标提示编码和所述目标语义编码输入目标声学扩散模型，预测得到目标梅尔谱特征。

目标声学扩散模型采用双向扩散卷积结构，N个残差层分成m个块，每个块包含层。在每个区块内的每一层都进行扩散，将所有残差层中提取的跳跃式连接相加。该模型将语义编码和目标提示编码作为条件信息。语义编码被输入到卷积编码器，由长度调节器上采样，并作为每个残差层中的扩散卷积的偏置项添加。目标提示编码和扩散步长编码在长度上扩散，并作为每个残差层的输入。

具体地，本方案中将目标提示编码和目标语义编码作为条件信息输入声学扩散模型，输出目标梅尔谱特征。

在步骤S16中、将所述目标梅尔谱特征输入波形扩散模型，得到与所述文本信息对应的语音，所述语音具有所述目标语音特征。

扩散模型的目标是通过对数据点在潜在空间中扩散的方式进行建模来学习数据集的潜在结构。本方案中的扩散模型均具有相似的结构，但在输入、扩散步长和条件信息上有所不同。例如，时长扩散模型是以音素序列为条件的。语义扩散模型以音素序列的持续时间上采样为条件。波形扩散模型以帧长上采样的梅尔谱特征为条件。

本方案通过基于扩散模型(Acoustic Diffusion Model)将语义嵌入到梅尔谱中，解决了现有方法的高频波形失真问题。基于扩散模型的声码器模型(Wave DiffusionModel)，解决了传统Transformer声码器结构导致音质降低的问题。

具体地，将目标梅尔谱特征输入波形扩散模型，得到与文本信息对应的语音波形，通过语音波形可得到语音，该语音为具有目标语音特征、语义内容为步骤101中待处理的文本信息的语音文件。

图2是根据一示例性实施例示出的一种语音合成方法的模型结构图。

如图2所示，本方案包括两阶段训练的过程，具体通过a步骤的预训练过程，得到目标音素编码器，然后将传统的TTS从文本到语音的直接预测，拆分成了先从b步骤：文本预测到语义编码预测，再到c步骤：语义编码预测到语音预测的过程。其中，b步骤中的文本预测到语义编码预测，是指将文本信息转换为目标音素序列，再将目标音素编码转换为目标语义编码。C步骤中的语义编码预测到语音预测，是指将目标语义编码转换为目标梅尔谱特征。

在上述过程中，b步骤是需要文本信息和提示语音的，文本信息是标注信息，是有监督信息。c步骤输入的是语义编码，输出是语音，这两个信息都是从语音得到的，不需要文本标注，即c过程是完全的无监督训练。这样，本方案将传统的TTS有监督训练过程，拆分成一个有监督+无监督训练过程。这样的范式下就可以使用大量的无标注的纯音频数据，去训练c步骤，而使用少量的有监督的文本数据去训练b步骤，进而实现了少监督的TTS。

综上，在本发明实施例中，获取待处理的文本信息及预设的提示语音；所述提示语音为具有目标语音特征的语音片段；将所述文本信息转换为目标音素序列，并将所述目标音素序列输入预先训练好的目标音素编码器，进行编码处理得到目标音素编码；将所述目标音素编码输入语义扩散模型，进行语义编码处理得到所述目标音素编码对应的目标语义编码；将所述提示语音对应的梅尔谱特征输入目标提示编码器，得到目标提示编码，所述目标提示编码包括所述目标语音特征对应的编码；将所述目标提示编码和所述目标语义编码输入目标声学扩散模型，预测得到目标梅尔谱特征；将所述目标梅尔谱特征输入波形扩散模型，得到与所述文本信息对应的语音，所述语音具有所述目标语音特征。

本方案先将文本信息转换为目标音素序列，再将目标音素编码转换为目标语义编码，从而将传统的语音合成从文本到语音的直接预测，拆分成了先从文本预测到语义编码预测，再从语义编码预测到语音预测的过程。从文本预测到语义编码预测是有监督过程，从语义编码预测到语音预测是无监督过程。这样的架构下可以使用大量的无标注的纯音频数据，去训练从语义编码预测到语音预测的过程，而使用少量的有监督的文本数据去训练从文本预测到语义编码预测的过程，进而实现了少监督的语音合成，降低了对样本量的依赖度，在少样本的情况下，仍然能够达到很好的语音合成效果。

并且，本方案使用梅尔谱作为声学表征，使得语义表征和声学表征预测都是连续变量回归任务，保证了高频细粒度声学细节方面无信息损失。此外，引入语义扩散模型生成目标语义编码，由目标提示编码器提取目标语音特征对应的目标提示编码，使得语义编码仅包括语言信息，而目标提示编码仅包含副语言信息，提高了语义编码的简洁性，降低了语义编码的维度，提高了语音波形预测的准确性。

在一种可能的实施方式中，步骤S12中将所述文本信息转换为目标音素序列，包括以下步骤S121-步骤S122。

在步骤S121中，将所述文本信息转换为对应的初始音素序列；所述初始音素序列包括：音素及所述音素对应的音素时间段；

在步骤S122中，将所述初始音素序列输入时长扩散模型，预测得到所述初始音素序列的第一总发音时长，并根据所述第一总发音时长预测所述初始音素序列中各个音素的发音时间段，得到目标音素序列。

在步骤S121-步骤S122中，可以通过字转音模型，将文本信息转换为音频信息，再将音频信息转换为初始音素序列。初始音素序列中包括按照顺序排列的多个音素。

将初始音素序列输入时长扩散模型，预测初始音素序列的发音时长。然后，时长扩散模型根据发音时长对初始音素序列进行上采样，确定各个音素的发音时间段，从而得到包括有每个音素的发音时间段的目标音素序列。

时长扩散模型与声学扩散模型有相似的结构，但时长扩散模型是以音素序列为输入的。

时长扩散模型可以预测不同音素的发音时长，实现了多样化的韵律表达，避免了现有技术中赋予各个音素平均时长带来的表达平均化问题。

在一种可能的实施方式中，如图3所示，所述目标音素编码器通过以下方法训练得到：

在步骤S21中，获取由文本样本和与所述文本样本匹配的语音样本组成的样本对。

与文本样本匹配的语音样本，是指语音样本的语义内容与文本样本的内容相同。例如，内容为“今天天气真好”的文本样本，和语义内容为“今天天气很好”的语音样本为一个样本对。

在步骤S22中，将基于所述文本样本得到的样本音素序列输入预设的初始音素编码器进行编码处理，得到样本音素编码，并将所述语音样本对应的梅尔谱特征输入预设的初始语音编码器进行编码处理，得到样本语音编码。

首先将文本样本转换为音频样本，再获取音频样本的音素序列。然后确定语音样本的时长，通过调整各个音素的发音时长，将音素序列的时长调整为与语音样本的时长相同，得到由音素和音素的发音时间段组成的样本音素序列。将该样本音素序列输入初始音素编码器，得到样本音素编码(Phoneme Embedding)。

此外，获取语音样本对应的梅尔谱特征，将语音样本的梅尔谱特征输入初始语音编码器，得到样本语音编码(Speech Embedding)。

在步骤S23中，将所述样本音素编码和所述样本语音编码进行对比学习，得到对比损失。

由于根据语音样本的时长确定初始样本音素序列中各个音素的发音时长，使得第一样本音素序列的时长与语音样本的时长相同，因此，样本音素编码的长度与样本语音编码的长度也相同。这样，相同位置处的音素编码和语音编码互为对方的正样例。

利用初始音素编码器获取样本语音编码对应的预测音素编码，将其和正样例的音素编码进行对比，得到对比损失。利用初始语音编码器获取样本音素编码对应的预测语音编码，将其和正样例的语音编码进行对比，得到对比损失。

这样，通过对比损失，可以使初始语音编码器和初始音素编码器进行对比学习。

在步骤S24中，截取所述语音样本中的任意一个语音片段，并将所述语音片段的梅尔谱特征输入初始提示编码器，得到样本提示编码。

用一个N秒长的窗口随机截取语音样本中的语音片段，将语音片段的梅尔谱特征用作初始提示编码器的输入，得到样本提示编码(Prompt Embedding)。

样本提示编码提供音色、风格、情感信息等。

提示编码器，输出的是一个长度固定的embedding，他提供的并不是语音中的细节信息，而是全局控制的信息，是文本内容之外的信息，包括音色、风格、情感等。

TTS(Text-To-Speech)是从文本到语音的预测，这个过程中是有大量的信息缺失的。例如，一段文本文字映射到语音是有无数个映射的，他可以有无数个音色、无数个风格和抑扬顿挫等，这样就存在一对多关系，就会导致模型的预测不稳定。为了解决这个问题，就要给模型输入更多的信息量，才能使他信息对等，这个额外的信息量本方案是通过提示编码器得到的，提示编码器提供的就是额外的信息量。

在步骤S25中，将所述样本音素编码、所述样本语音编码和所述样本提示编码输入联合解码器，分别预测得到所述样本音素编码的预测音素梅尔谱特征、所述样本语音编码的预测语音梅尔谱特征。

将步骤S22中提取得到的样本音素编码和样本语音编码分别输入联合解码器(Decoder)，同时将步骤S24得到的样本提示编码(Prompt Embedding)作为条件输入。分别预测得到两个梅尔谱，即预测音素梅尔谱特征和预测语音梅尔谱特征。

在语音编解码的预训练当中，如果没有解码器(decoder)，得到的表征就是高维度的表征，而缺少还原所需要的高维特征。也就是说，在音频的编解码这样的预训练范式下，需要解码器将编码后的语音编码和音素编码还原回原模型。若不使用解码器还原，就无法保证提取得到的编码信息包含的信息量是足够将其还原的，那么就无法用TTS(语音合成技术)。因为TTS都是需要还原回原模型的，如果在预训练阶段没有这个表征的话，训练之后得到的编码也是无法还原回原模型的。所以加解码器相当于是给预训练模型加了个限制因素。

在步骤S26中，确定所述预测音素梅尔谱和预设的真实音素梅尔谱之间的损失值，所述预测语音梅尔谱和预设的真实语音梅尔谱之间的损失值，分别得到音素损失和语音损失。

对预测语音梅尔谱和预测音素梅尔谱与真实值计算MSE(mean-square error，均方误差)损失，得到音素损失和语音损失。

在步骤S27中，基于所述对比损失、所述音素损失和所述语音损失，训练所述初始音素编码器，得到目标音素编码器。

具体地，基于对比损失、音素损失和语音损失，对初始音素编码器、初始语音编码器和联合解码器进行联合训练，得到训练好的目标音素编码器、目标语音编码器和目标联合解码器。

步骤S21-步骤S27为整个方案的预训练阶段，在步骤S11-步骤S16的推理应用阶段，只用到了预训练得到的目标音素编码器。

预训练阶段分别涉及了两个编码器(encoder)，即音素编码器和语音编码器，得到了一个介于文本和语音之间的一个中间表征，而这个中间表征分别需要各自模态的编码器来得到。而在语音编解码的预训练当中，如果没有解码器(decoder)，得到的表征就是高维度的表征，而缺少还原所需要的高维特征。因此，本方案的解码器保证了编码信息能够还原回原模型，使得模型训练更为高效，预测结果更为准确。

在一种可能的实施方式中，步骤S22中将基于所述文本样本得到的音素序列输入初始音素编码器，进行编码处理得到所述文本样本的样本音素编码，包括：

在步骤S221中，将所述文本样本转换为对应的音素序列，得到预样本音素序列；

在步骤S222中，获取所述语音样本的时长，并根据所述语音样本的时长调整所述预样本音素序列中各个音素的音素时间段，得到样本音素序列；

在步骤S223中，将所述样本音素序列输入初始音素编码器，得到所述文本样本的样本音素编码。

在步骤S221-步骤S223中，利用字转音模型将文本样本转换为音频样本，再获取音频样本的音素序列，得到预样本音素序列。根据语音样本的时长确定预样本音素序列中各个音素的发音时长，得到由音素和音素的发音时间段组成的样本音素序列。将样本音素序列输入初始音素编码器，得到样本音素编码(Phoneme Embedding)。

由于样本音素序列的时长与语音样本的时长相同，则样本音素编码的长度与样本语音编码的长度相同，这样，方便样本音素编码和样本语音编码进行对比学习，以提高音素编码器和语音编码器的编码准确度。

在一种可能的实施方式中，步骤S23中所述样本音素编码的时长与所述样本语音编码的长度相同，所述将所述样本音素编码和所述样本语音编码进行对比学习，得到对比损失，包括：

在步骤S231中，将所述样本音素编码和所述样本语音编码分别重置为二维矩阵，得到二维音素编码矩阵和二维语音编码矩阵；

在步骤S232中，将所述二维语音编码矩阵中各个位置的语音编码输入所述初始音素编码器，得到多个预测音素编码，并将所述二维音素编码矩阵中各个位置的音素编码输入初始语音编码器，得到多个预测语音编码；

在步骤S233中，将所述二维音素编码矩阵和所述二维语音编码矩阵中，相同位置处的音素编码和语音编码作为正样本对，根据所述正样本对，获取各个所述预测音素编码对应的真实音素编码、各个所述预测语音编码对应的真实语音编码；

在步骤S234中，确定所述预测音素编码和所述真实音素编码之间的第一差值、所述预测语音编码和所述真实语音编码之间的第二差值，并将所述第一差值作为训练所述初始音素编码器的对比损失，将所述第二差值作为训练所述初始语音编码器的对比损失。

在步骤S231-步骤S234中，由于根据语音样本的时长确定初始样本音素序列中各个音素的发音时长，使得第一样本音素序列的时长与语音样本的时长相同，因此，样本音素编码的长度与样本语音编码的长度也相同。

再将样本音素编码和样本语音编码分别重置为二维矩阵，使得样本音素编码和样本语音编码的长度和维度完全一致。这样，相同位置处的音素编码和语音编码互为对方的正样例，而不同位置处的音素编码和语音编码互为负样本例。

利用初始音素编码器获取样本语音编码对应的预测音素编码，将其和正样例的音素编码进行对比，得到第一差值。利用初始语音编码器获取样本音素编码对应的预测语音编码，将其和正样例的语音编码进行对比，得到第二差值。

将第一差值作为对比损失，用来训练初始音素编码器。将第二差值作为对比损失，用来训练初始语音编码器。

利用对比损失对初始语音编码器和初始音素编码器进行对比训练，加快了两个编码器的训练速度，提高了编码器的编码准确度。

在一种可能的实施方式中，步骤S12包括：

在步骤S121中，将所述文本信息转换为对应的初始音素序列；

在步骤S122中，将所述初始音素序列和多个随机噪声输入时长扩散模型，预测得到所述初始音素序列对应的多个第二总发音时长；

在步骤S123中，分别根据各个所述第二总发音时长预测所述初始音素序列中各个音素的发音时间段，得到多个目标音素序列。

在步骤S121-步骤S123中，时长扩散模型的输入除了初始音素序列，还包括多个随机噪声。随机噪声具体可以是一个随机的数值。

由于输入的多个随机噪声数值不同，导致模型的输出产生多样性，即输出多个总发音时长。多个总发音时长各不相同，使得产生了多个不同总发音时长的目标音素序列。这就实现了音素序列时长的多样性。

由于引入了多个随机噪声，一段文本信息，可以对应不同的时长输出。而不同的时长输出，在合成语音的表现上，是不同的韵律表现，而不同的韵律表现，可以带来更好的表现力和多样性。这样，通过增加模型输入的多样性，导致模型输出产生多样性，增加了语音的表现力和多样性。

在一种可能的实施方式中，所述目标声学扩散模型通过以下方法训练得到：

在步骤S21中，获取提示编码样本和语义编码样本，设置用于扩散训练的时间步长；

在步骤S22中，设置用于在每个时间步提取随机噪声的目标高斯分布；所述目标高斯分布的波形与标签梅尔谱的波形一致，所述标签梅尔谱为所述提示编码样本和语义编码样本对应的真实梅尔谱；

在步骤S23中，将所述提示编码样本、所述语义编码样本、所述目标高斯分布和所述时间步长输入初始声学扩散模型，预测得到当前时间步对应的当前预测噪声；

在步骤S24中，确定所述当前预测噪声和所述当前时间步提取的随机噪声之间的差值；

在步骤S25中，将所述差值作为损失值，利用所述损失值训练所述声学扩散模型，得到目标声学扩散模型。

在步骤S21-步骤S25中，通过提示编码样本、语义编码样本、随机噪声以及标签梅尔谱来训练初始声学扩散模型。

为了进行矩阵运算，用于提取随机噪声的目标高斯分布的波形与标签梅尔谱的波形一致，具体的，随机噪声的长度和维度与标签梅尔谱的长度和维度相同。

在每个时间步，从目标高斯分布中随机采样，得到一个随机噪声。将该随机噪声作为该时间步的输入。扩散训练过程，是从一个纯噪声去还原回特征，即还原回梅尔谱的过程，扩散训练每一步的目的是为了减少一定量的噪声，即减少当前预测噪声和当前时间步提取的随机噪声之间的差值，直到噪声越来越少，还原回一个无噪的、干净的梅尔谱。

当还原回一个干净的梅尔谱时，得到目标声学扩散模型。

本方案中的声学扩散模型先通过正向过程将噪声逐渐加入到数据中，然后通过反向过程预测每一步加入的噪声，通过将噪声去掉的方式逐渐还原得到无噪声的梅尔谱。该模型训练方法具有可扩展性、可视化、简单易懂的优点，能提高预测和分析的准确性。

图4是根据一示例性实施例示出的一种语音合成装置的结构框图。参照图4，该语音合成装置应用于电子设备，该语音合成装置30包括：

获取模块31，被配置为执行获取待处理的文本信息及预设的提示语音；所述提示语音为具有目标语音特征的语音片段；

音素编码生成模块32，被配置为执行将所述文本信息转换为目标音素序列，并将所述目标音素序列输入预先训练好的目标音素编码器，进行编码处理得到目标音素编码；

语义编码生成模块33，被配置为执行将所述目标音素编码输入语义扩散模型，进行语义编码处理得到所述目标音素编码对应的目标语义编码；

提示编码生成模块34，被配置为执行将所述提示语音对应的梅尔谱特征输入目标提示编码器，得到目标提示编码，所述目标提示编码包括所述目标语音特征对应的编码；

预测模块35，被配置为执行将所述目标提示编码和所述目标语义编码输入目标声学扩散模型，预测得到目标梅尔谱特征；

语音波形生成模块36，被配置为执行将所述目标梅尔谱特征输入波形扩散模型，得到与所述文本信息对应的语音波形，所述语音波形具有所述目标语音特征。

可选地，所述音素编码生成模块32具体被配置为执行：

将所述文本信息转换为对应的初始音素序列；

可选地，所述目标音素编码器训练模块具体被配置为执行：

可选地，所述音素编码生成模块32具体被配置为执行：

将所述文本信息转换为对应的初始音素序列；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于动画制作的电子设备的框图。其内部结构图可以如图5所示。该服务器或电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该服务器或电子设备的处理器用于提供计算和控制能力。该服务器或电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该服务器或电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的服务器或电子设备的限定，具体的服务器或电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种服务器或电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的语音合成方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该计算机可读存储介质中的指令由服务器或电子设备的处理器执行时，使得服务器或电子设备能够执行本公开实施例中的语音合成方法。计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的语音合成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述文本信息转换为目标音素序列，包括：

将所述文本信息转换为对应的初始音素序列；

3.根据权利要求1所述的方法，其特征在于，所述目标音素编码器通过以下方法训练得到：

将基于所述文本样本得到的样本音素序列输入预设的初始音素编码器进行编码处理，得到样本音素编码，并将所述语音样本对应的梅尔谱特征输入预设的初始语音编码器进行编码处理，得到样本语音编码；

4.根据权利要求3所述的方法，其特征在于，所述将基于所述文本样本得到的音素序列输入初始音素编码器，进行编码处理得到所述文本样本的样本音素编码，包括：

5.根据权利要求3所述的方法，其特征在于，所述样本音素编码的时长与所述样本语音编码的长度相同，所述将所述样本音素编码和所述样本语音编码进行对比学习，得到对比损失，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述文本信息转换为目标音素序列，包括：

将所述文本信息转换为对应的初始音素序列；

7.根据权利要求1所述的方法，其特征在于，所述目标声学扩散模型通过以下方法训练得到：

8.一种语音合成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-7中任一项所述的语音合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-7中任一项所述的语音合成方法。