CN114566141A

CN114566141A - 基于变分自动编码器的跨语句语音合成方法、系统及设备

Info

Publication number: CN114566141A
Application number: CN202210220764.6A
Authority: CN
Inventors: 李阳; 郁程; 孙芳蕾; 田政; 汪军; 张超; 孙广智; 蒋桦
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2022-03-03
Filing date: 2022-03-08
Publication date: 2022-05-31

Abstract

本发明提供一种基于变分自动编码器的跨语句语音合成方法、系统及设备，通过将跨语句信息与用以增强韵律的变分自动编码器有机结合，提出了基于变分自动编码器的跨语句语音合成系统，通过条件化声学特征、说话人信息和当前及周围语句中获得的文本特征，来估计每个音素潜在韵律特征的后验概率分布；该系统包括跨语句表征模块和韵律增强模块，通过使用多头注意力层生成音素级别的跨语句表征，并将跨语句表征模块的输出作为韵律增强模块的特定语句的先验条件，以改进标准变分自动编码器。本申请不仅提升了合成语音的自然度，改善了合成语音的韵律变化，同时解决了推理时系统所采样的标准高斯先验和语音的真实先验之间不一致的问题。

Description

基于变分自动编码器的跨语句语音合成方法、系统及设备

技术领域

本申请涉及语音合成技术领域，特别是涉及一种基于变分自动编码器的跨语句语音合成方法、系统及设备。

背景技术

语音合成技术，是对人类语音的人工制作，目标是将任意输入文本转换为清晰可懂、自然且富有表现力的语音。第一台电子语音合成器诞生于1937年，从那时起语音合成技术经历了各种技术改进。九十年代初，随着基音同步叠加(PSOLA)方法的提出，大幅提高了合成语音的音色和自然度。近年来伴随着深度学习的快速发展，端到端语音合成的出现在简化合成系统的同时，减少了人工干预和对语言学相关背景知识的要求。借助于深度学习模型的强表达能力，端到端语音合成系统可以生成听起来几乎和人类一样自然的语音。然而，基础的端到端语音合成系统由于缺少音调、重音和节奏等韵律信息，对长篇文本(如有声读物或口语对话)的合成语音结果缺乏表现力，因此最近研究者对如何生成韵律、情感更丰富的语音进行了大量的研究。

一些工作使用了风格标记或变分自动编码器(VAEs)来捕获韵律特征，通过提取音素或单词级别的声音特征实现了细粒度的声音建模和声音控制。然而，基于变分自动编码器的语音合成系统在推理过程中从标准的高斯先验进行采样，导致韵律变化不自然并缺乏对韵律变化的有效控制。此外，研究者致力于在输入特征中加入跨语句信息，将预训练的语言模型，如变换器(Transformer)的代表双向编码器(BERT)应用于语音合成系统，依据从语篇或片段中预训练得到的文本表征来估测韵律特征，但现有工作仅对跨语句信息进行简单利用，改善合成语音韵律的效果有限。

随着深度学习的发展，非自回归语音合成系统在高效和保真方面都取得了进展。非自回归语音合成系统将输入文本序列映射为声学特征或波形序列，而不使用输出概率的自回归分解。一些非自回归语音合成系统，如FastSpeech和ParaNet，需要从自回归模型中进行提炼。最新的非自回归式语音合成系统，例如FastPitch、AlignTTS和FastSpeech2，不依赖于任何形式的来自预训练的TTS系统的知识提炼。

基于一个常用的非自回归式的端到端TTS系统FastSpeech2，FastSpeech2在训练时使用了音高轮廓和信号振幅作为标签进行监督，能够从编码器输出中预测包括音高和能量的韵律信息。然而FastSpeech2未对跨语句信息进行建模，且仅从真实语音中提取了音高与能量信息，未能充分利用韵律中丰富的隐式特征，因此合成语音缺少足够的表现力与韵律多样性。

由于韵律信息可以从当前句子和周围语句的语言信息中推断出来，且这种信息通常包含在来自预训练语言模型(如双向编码器BERT)的向量表征中，一些现有研究将单词或子词级别的双向编码器BERT向量表征纳入了自回归语音合成模型，最近的研究使用了双向编码器BERT的分块和成对的句子模式。也有一些研究将双向编码器BERT与其他技术相结合，包括将双向编码器BERT与一个多任务学习技术相结合，以消除普通话中的多音字到音素的转换，以及将双向编码器BERT向量表征作为关系图网络的节点输入，从中提取词级语义表征，从而提高表达能力。CU-Tacotron2使用基于预训练的BERT模型来提取相邻句子的句子嵌入向量，以端到端的方式改进段落每个话语的韵律生成。该方法可以提高合成语音的自然度和表现力，但合成语音韵律表现较差，无法合成具有足够的表现力与韵律多样性的音频。

发明内容

鉴于以上所述现有技术的缺点，本申请的目的在于提供一种基于变分自动编码器的跨语句语音合成方法、系统及设备，用于解决现有技术中合成语音的韵律效果有限、表现力不足，且推理时系统所采样的标准高斯先验和语音的真实先验之间不一致的技术问题。

为实现上述目的及其他相关目的，本申请提供一种基于变分自动编码器的跨语句语音合成方法，所述方法包括：基于音素序列和说话人信息进行编码以得到当前语句的混合编码F_i；通过跨语句表征和多头注意力层对上下文信息进行编码以得到交叉语句向量表征G_i；将所述混合编码F_i和所述交叉语句向量表征G_i连接后通过线性映射层输出含有每个音素的跨语句向量表征H_i；将含有每个音素的跨语句向量表征H_i和获取得到每个音素的预测持续时间D_i连接后输入至条件先验模块以得到特定语句的条件先验z_p；将参考梅尔频谱x_i作为条件后验模块的输入，结合所述条件先验z_p建立近似的条件后验z_i，并将所述条件后验z_i添加到含有每个音素的跨语句向量表征H_i；根据每个音素的预测持续时间D_i扩展输入的参考梅尔频谱的长度；通过并行计算将上下文信息转换为梅尔频谱序列。

于本申请的一实施例中，所述基于音素序列和说话人信息进行编码以得到当前语句的混合编码F_i，包括：将当前语句u_i转换为音素序列P_i＝[p₁，p₂，…，p_T]，并通过变换器对所述音素序列进行编码以得到音素编码；将说话人信息编码到说话人表征s_i中；将所述说话人表征s_i与所述音素编码相加以得到混合编码F_i：F_i＝[f_i(p₁)，f_i(p₂)，…，f_i(p_T)]；其中，T表示音素的数量，f表示每个音素编码和说话人表征s_i相加的结果向量。

于本申请的一实施例中，所述通过跨语句表征和多头注意力层对上下文信息进行编码以得到交叉语句向量表征G_i，包括：1)将2L+1个相邻语句[u_i-L，…，u_i，…，u_i+L]分为2L个交叉语句对，记为C_i：C_i＝[c(u_i-L，u_i-L+1)，…，c(u_i-1，u_i)，…，c(u_i+L-1，u_i+L)]；其中，c(u_k，u_k+1)＝{[CLS]，u_k，[SBP]，u_k+1}，每个语句对的开头有一个特殊标记[CLS]，且每个语句对的两个语句之间有另一个特殊标记[SEP]，以表示原始句式结构；2)分别将2L个交叉语句对送入双向编码器BERT通过捕获交叉语句信息得到2L个BERT向量表征B_i：B_i＝[b_-L，b_-L+1，…，b_L-1]；其中，向量b_k表示交叉语句对c(u_k，u_k+1)的BERT向量表征；3)通过多头注意力层将2L个所述BERT向量表征B_i和所述混合编码F_i合并为一个交叉语句向量表征G_i，以提取每个音素的交叉语句表征：G_i＝MHA(F_iW^Q，B_iW^K，B_iW^V)；其中，MHA(·)表示多头注意力层；WQ、W^K、W^V表示线性投影矩阵；F_i表示当前语句的混合编码序列，在注意力机制中作为查询矩阵；且所述交叉语句向量表征G_i的表达式记为：G_i＝[g₁，g₂，…，g_T]；其中，T表示多头注意力层的长度。

于本申请的一实施例中，所述含有每个音素的跨语句向量表征H_i的表达式为：H_i＝[h₁，h₂，…，h_T]；其中，h_t＝[g_t，f(p_t)]W；W表示一个线性投影矩阵；g_t表示第t个音素的交叉语句向量表征。

于本申请的一实施例中，所述条件先验zp重参数化后表达式为：

其中，μ_p、σ_p表示从条件先验模块中学习的近似先验分布

∈服从标准高斯

分别表示元素加法和乘法操作。

于本申请的一实施例中，所述条件后验z_i重参数化后表达式为：

其中，μ和σ表示条件后验模块估计的近似后验分布

z_p是由学习到的特定语句条件先验采样。

于本申请的一实施例中，所述参考梅尔频谱xi的似然计算表达式为：p_θ(x_i|H_i，D_i)＝∫p_θ(x_i|z_i，H_i，D_i)p_φ(z_i|H_i，D_i)dz；其中，θ、φ分别表示解码器和编码器的模块参数。

于本申请的一实施例中，所述梅尔频谱序列通过将ELBO损失最小化以进行优化：

其中，φ₁、φ₂分别表示编码器的模块参数φ的两部分；条件先验z_p从D_i和H_i中获得，条件后验z_i从x_i和z_p中获得，β₁、β₂表示两个平衡常数，T表示音素的数量，

服从标准高斯

和

对应于第n个音素的潜在表征。

为实现上述目的及其他相关目的，本申请提供一种基于变分自动编码器的跨语句语音合成系统，包括：跨语句表征模块，用于基于音素序列和说话人信息进行编码以得到当前语句的混合编码F_i；通过跨语句表征和多头注意力层对上下文信息进行编码以得到交叉语句向量表征G_i；将所述混合编码F_i和所述交叉语句向量表征G_i连接后通过线性映射层输出含有每个音素的跨语句向量表征H_i；韵律增强模块，还包括：编码器，用于将含有每个音素的跨语句向量表征H_i和获取得到每个音素的预测持续时间D_i连接后输入至条件先验模块以得到特定语句的条件先验z_p；将参考梅尔频谱x_i作为条件后验模块的输入，结合所述条件先验z_p建立近似的条件后验z_i；解码器，用于将所述条件后验z_i添加到含有每个音素的跨语句向量表征H_i；根据每个音素的预测持续时间D_i扩展输入的参考梅尔频谱的长度；通过并行计算将上下文信息转换为梅尔频谱序列。

为实现上述目的及其他相关目的，本申请提供一种计算机设备，包括：存储器和处理器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行如上所述的方法。

综上所述，本申请提供的一种基于变分自动编码器的跨语句语音合成方法、系统及设备，具有以下有益效果：本申请通过使用多头注意力层生成音素级别的跨语句表征，并将跨语句信息作为条件变分自动编码器的先验条件，改善了合成语音的韵律变化，同时解决了推理时系统所采样的标准高斯先验和语音的真实先验之间不一致的问题。本申请将跨语句信息与用以增强韵律的变分自动编码器有机结合，不仅提升了合成语音的自然度，而且进一步增加了韵律多样性。

附图说明

图1显示为本申请于一实施例中的一种基于变分自动编码器的跨语句语音合成方法的流程示意图。

图2显示为本申请于一实施例中的一种基于变分自动编码器的跨语句语音合成方法的场景应用图。

图3显示为本申请于一实施例中的一种基于变分自动编码器的跨语句语音合成系统的模块示意图。

图4显示为本申请于一实施例中的计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本申请的若干实施例。应当理解，还可使用其他实施例，并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的，并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例，而并非旨在限制本申请。空间相关的术语，例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等，可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。

在通篇说明书中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”、“固持”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

如图1所示，展示为本申请于一实施例中的一种基于变分自动编码器的跨语句语音合成方法的流程示意图，所述方法包括以下步骤：

步骤S1：基于音素序列和说话人信息进行编码以得到当前语句的混合编码Fi。

于本申请一实施例中，所述基于音素序列和说话人信息进行编码以得到当前语句的混合编码F_i，具体包括：

步骤S101：将当前语句u_i转换为音素序列P_i＝[p₁，p₂，…，p_T]，并通过变换器对所述音素序列进行编码以得到音素编码。

需说明的是，语句泛指连成句子的话语。音素是最小语音单位，一个发音动作构成一个音素。将所述当前语句u_i通过G2P(Grapheme-to-Phoneme)结合使用循环神经网络RNN和LSTM，可实现从字素到音素的转化，从而将所述当前语句u_i对应的文本信息转换成音素序列P_i＝[p₁，p₂，…，p_T]。

于一些示例中，通过使用Transformer模型对所述音素序列P_i＝[p₁，p₂，…，p_T]进行编码以得到音素编码，以解决Seq2Seq(序列-序列)的问题。

步骤S102：将说话人信息编码到说话人表征s_i中。

需说明的是，所述说话人信息包括说话人的音频、语音、声纹、韵律、言语习惯、发音、语调、语速、音量、方言等信息；所述说话人表征s_i用以表征所述说话人信息的特征。

步骤S103：将所述说话人表征s_i与所述音素编码相加以得到混合编码F_i，且F_i的表达式为：

F_i＝[f_i(p₁)，f_i(p₂)，…，f_i(p_T)]； (1)

其中，T表示音素的数量，f表示每个音素编码和说话人表征s_i相加的结果向量。

步骤S2：通过跨语句表征和多头注意力层对上下文信息进行编码以得到交叉语句向量表征G_i。

需说明的是，被作为文本输入的内容包括：说话人信息、上下文信息；所述上下文信息包括：当前语句u_i、围绕当前语句u_i的前L个语句[u_i-L，…，u_i-1]和后L个语句[u_i+1，…，u_i+L]。

于本申请一实施例中，所述通过跨语句表征和多头注意力层对上下文信息进行编码以得到交叉语句向量表征G_i，具体包括：

1)将2L+1个相邻语句[u_i-L，…，u_i，…，u_i+L]分为2L个交叉语句对，记为C_i：

C_i＝[c(u_i-L，u_i-L+1)，…，c(u_i-1，u_i)，…，c(u_i+L-1，u_i+L)]； (2)

其中，c(u_k，u_k+1)＝{[CLS]，u_k，[SEP]，u_k+1}，每个语句对的开头有一个特殊标记[CLS]，且每个语句对的两个语句之间有另一个特殊标记[SEP]，以表示原始句式结构；

2)分别将2L个交叉语句对送入双向编码器BERT通过捕获交叉语句信息得到2L个BERT向量表征B_i：

B_i＝[b_-L，b_-L+1，…，b_L-1]； (3)

其中，向量b_k表示交叉语句对c(u_k，u_k+1)的BERT向量表征；

需说明的是，双向编码器BERT的本质是用作特征的提取，通过将原始数据映射到一个高维空间，在做下游任务的时候，可以将BERT的输出作为下游任务的输入。例如，本申请中对于每个交叉语句对，将[CLS]标记位置的输出向量投影到768维空间，以得到2L个BERT向量表征B_i。

3)通过多头注意力层将2L个所述BERT向量表征B_i和所述混合编码F_i合并为一个交叉语句向量表征G_i，以提取每个音素的交叉语句表征：

G_i＝MHA(F_iW^Q，B_iW^K，B_iW^V)； (4)

其中，MHA(·)表示多头注意力层；W^Q、W^K、W^V表示线性投影矩阵；F_i表示当前语句的混合编码序列，在注意力机制中作为查询矩阵；

另外，由公式(4)计算可知，所述交叉语句向量表征G_i的表达式还可记为：

G_i＝[g₁，g₂，…，g_T]； (5)

其中，T表示多头注意力层的长度。

步骤S3：将所述混合编码F_i和所述交叉语句向量表征G_i连接后通过线性映射层输出含有每个音素的跨语句向量表征H_i。

于本申请一实施例中，所述含有每个音素的跨语句向量表征H_i的表达式为：

H_i＝[h₁，h₂，…，h_T]； (6)

其中，h_t＝[g_t，f(p_t)]W；W表示一个线性投影矩阵；g_t表示第t个音素的交叉语句向量表征。

具体而言，步骤S1～S3的具体实现原理可结合图2所示的跨语句编码进一步理解。

步骤S4：将含有每个音素的跨语句向量表征H_i和获取得到每个音素的预测持续时间D_i连接后输入至条件先验模块以得到特定语句的条件先验z_p。

需说明的是，增加一个持续时间预测器，通过将含有每个音素的跨语句向量表征H_i作为所述持续时间预测器的输入，以得到每个音素的预测持续时间D_i作为输出。

于本申请一实施例中，所述条件先验z_p重参数化后表达式为：

其中，μ_p、σ_p表示从条件先验模块中学习的近似先验分布

∈服从标准高斯

分别表示元素加法和元素乘法操作。

步骤S5：将参考梅尔频谱x_i作为条件后验模块的输入，结合所述条件先验z_p建立近似的条件后验z_i，并将所述条件后验z_i添加到含有每个音素的跨语句向量表征H_i。

于本申请一实施例中，所述条件后验z_i重参数化后表达式为：

其中，μ和σ表示条件后验模块估计的近似后验分布

z_p是由学习到的特定语句条件先验采样。

将公式(7)代入公式(8)中可得到：

需说明的是，通过增加一个额外的投影层将条件后验z_i投影到高维空间，以便将所述条件后验z_i添加到含有每个音素的跨语句向量表征H_i。

步骤S6：根据每个音素的预测持续时间D_i扩展输入的参考梅尔频谱x_i的长度；通过并行计算将上下文信息转换为梅尔频谱序列。

需说明的是，通过使用长度调节器，根据每个音素的预测持续时间D_i来扩展输入的参考梅尔频谱x_i的长度。由于音素序列的长度通常小于其梅尔频谱序列的长度，即每个音素对应于几个梅尔频谱序列；而每个音素对齐的梅尔频谱序列的长度称为音素持续时间。所述长度调节器通过每个音素的持续时间将音素序列平铺以匹配到梅尔谱序列的长度。不仅可以等比例地延长或者缩短音素的持续时间，用于控制声音速度；还可以通过调整句子中空格字符的持续时间来控制单词之间的停顿，从而调整声音的部分韵律。

具体而言，变分自动编码器已被广泛应用于语音合成系统中，以实现韵律变化的显式建模。变分自动编码器将输入特征投影到低维隐空间中进行重构，从而捕获低维隐空间中的数据变化。变分自动编码器的训练目标是最大化由θ参数化的数据分布p_θ(x)，它可以被视为隐变量z的边际化，如等式(10)所示：

p_θ(x)＝∫p_θ(x|z)p(z)dz； (10)

为了便于计算，使用证据下届ELBO近似边际化：

其中，q_φ(z|x)是由φ参数化的潜在向量的后验分布，β是超参数，D_KL是Kullback-Leibler散度。公式(11)中等号右侧的第一项测量了隐向量的预期重建性能，并根据后验分布通过z的蒙特卡罗采样进行近似，使用重参数化技巧使采样可微；第二项鼓励后验分布接近推理过程中采样的先验分布，β衡量了该项的贡献。

语音合成的大量工作使用了变分自动编码器来捕获和解耦隐空间中各个方面的数据变化，包括分离说话人和音素信息，模拟说话人的讲话风格，以及结合对抗训练分离韵律变化和说话人信息。最近有研究者采用细粒度的变分自动编码器对每个音素或单词的隐空间中的韵律进行建模，或应用量化变分自动编码器于离散持续时间建模。

条件变分自动编码器是变分自动编码器的一个变体，先验分布和后验分布均以附加变量y为条件，生成数据的似然计算的修改如公式(12)所示：

p_θ(x|y)＝∫p_θ(x|z，y)p_φ(z|y)dz； (12)

与变分自动编码器类似，计算可转换为ELBO形式，如公式(13)所示：

为了建立条件先验模型，通常使用密度网络根据条件输入y预测均值和方差。

于本申请一实施例中，所述参考梅尔频谱x_i的似然计算表达式为：

p_θ(x_i|H_i，D_i)＝∫p_θ(x_i|z_i，H_i，D_i)p_φ(z_i|H_i，D_i)dz； (14)

其中，θ、φ分别表示解码器和编码器的模块参数。

于本申请一实施例中，所述梅尔频谱序列通过最小化以下ELBO损失进行优化：

服从标准高斯

和

对应于第n个音素的潜在表征。

具体而言，步骤S4～S6的具体实现原理可结合图2所示的用于韵律增强的编码器和解码器进一步理解。

如图3所示，展示为本申请于一实施例中的一种基于变分自动编码器的跨语句语音合成系统的模块示意图。所述一种基于变分自动编码器的跨语句语音合成系统300包括：

跨语句表征模块310，用于基于音素序列和说话人信息进行编码以得到当前语句的混合编码F_i；通过跨语句表征和多头注意力层对上下文信息进行编码以得到交叉语句向量表征G_i；将所述混合编码F_i和所述交叉语句向量表征G_i连接后通过线性映射层输出含有每个音素的跨语句向量表征H_i；

韵律增强模块320，其条件变分自动编码器还包括：

编码器321，用于将含有每个音素的跨语句向量表征H_i和获取得到每个音素的预测持续时间D_i连接后输入至条件先验模块以得到特定语句的条件先验z_p；将参考梅尔频谱x_i作为条件后验模块的输入，结合所述条件先验z_p建立近似的条件后验z_i；

解码器322，用于将所述条件后验z_i添加到含有每个音素的跨语句向量表征H_i；根据每个音素的预测持续时间D_i扩展输入的参考梅尔频谱的长度；通过并行计算将上下文信息转换为梅尔频谱序列。

于本申请一实施例中，所述系统300能通过定性听力测试和定量测量进行评估。具体而言，通过使用主观人意见评分和词错误率来测量语音的自然度和可懂度。同时，还可通过比较相对基频和能量的标准偏差，以评估从条件先验生成的语音的韵律多样性。

例如，通过抽取11个合成音频进行主观听力测试，召集23名志愿者对语音样本的自然度进行最高为5分的主观意见评分评估，评估结果以95％的置信区间报告。除主观人意见评分外，词错误率与基频和能量的标准偏差均在512个测试样本上进行评估。在单人数据集和多人数据集上的实验结果如表1所示，本申请提出的所述系统200各个指标相较于基线有明显的优势，有效提高了生成音频样本的自然度和韵律多样性。

表1单人和多人数据集的样本定性和定量测试结果

其中，每个数据集测试了三个指标，即主观人意见评分、词错误率和韵律多样性。所述韵律多样性包括音素以赫兹为单位的相对基频和能量的标准偏差。“↑”表示数值越高性能越好，“↓”表示数值越低性能越好。例如，主观人意见评分、韵律多样性的数值越高意味着更好的性能，词错误率则数值越低表示性能越好。

需说明的是，所述跨语句表征模块310通过将说话人信息、当前语句及周围语句的BERT向量表征作为输入，并使用多头注意力层生成音素级别的跨语句表征，其中注意力层的权重来自每个音素的编码器输出以及说话人的信息。所述跨语句表征模块310可以产生更加自然且富有表现力的音频，同时，使用多头注意力层可以具体提取每个音素的交叉语句表征。

需说明的是，所述韵律增强模块320是一个细粒度的变分自动编码器，可以基于声学特征、语句表征和说话人信息来估计每个音素的韵律特征的后验。所述韵律增强模块320可以解决现有FastSpeech2缺乏韵律变化以及基于变分自动编码器的语音合成系统所采样的标准高斯先验分布与语音的真实先验分布之间不一致的问题。

应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，解码器322可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上解码器322的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

如图4所示，展示为本申请于一实施例中的计算机设备400的结构示意图。所述计算机设备400包括：存储器410和处理器420；所述存储器410用于存储计算机指令；所述处理器420运行计算机指令实现如图1所述的方法。

在一些实施例中，所述计算机设备400中的所述存储器410和所述处理器420的数量均可以是一或多个，而图4中均以一个为例。

于本申请一实施例中，所述计算机设备400中的处理器420会按照如图1所述的步骤，将一个或多个以应用程序的进程对应的指令加载到存储器410中，并由处理器420来运行存储在存储器410中的应用程序，从而实现如图1所述的方法。

所述存储器410可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器410存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

所述处理器420可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(ApplicationSpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable GateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在一些具体的应用中，所述计算机设备400的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见，在图4中将各种总线都成为总线系统。

综上所述，本申请提供了一种基于变分自动编码器的跨语句语音合成方法、系统及设备，通过将跨语句信息与用以增强韵律的变分自动编码器有机结合，提出了基于变分自动编码器的跨语句语音合成系统，通过条件化声学特征、说话人信息和当前及周围语句中获得的文本特征，来估计每个音素潜在韵律特征的后验概率分布；该系统包括跨语句表征模块和韵律增强模块，通过使用多头注意力层生成音素级别的跨语句表征，并将跨语句表征模块的输出作为韵律增强模块的特定语句的先验条件，以改进标准变分自动编码器。本申请不仅提升了合成语音的自然度，改善了合成语音的韵律变化，同时解决了推理时系统所采样的标准高斯先验和语音的真实先验之间不一致的问题。

本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于变分自动编码器的跨语句语音合成方法，其特征在于，所述方法包括：

基于音素序列和说话人信息进行编码以得到当前语句的混合编码F_i；

通过跨语句表征和多头注意力层对上下文信息进行编码以得到交叉语句向量表征G_i；

将所述混合编码F_i和所述交叉语句向量表征G_i连接后通过线性映射层输出含有每个音素的跨语句向量表征H_i；

将含有每个音素的跨语句向量表征H_i和获取得到每个音素的预测持续时间D_i连接后输入至条件先验模块以得到特定语句的条件先验z_p；

将参考梅尔频谱x_i作为条件后验模块的输入，结合所述条件先验z_p建立近似的条件后验z_i，并将所述条件后验z_i添加到含有每个音素的跨语句向量表征H_i；

根据每个音素的预测持续时间D_i扩展输入的参考梅尔频谱x_i的长度；通过并行计算将上下文信息转换为梅尔频谱序列。

2.根据权利要求1所述的一种基于变分自动编码器的跨语句语音合成方法，其特征在于，所述基于音素序列和说话人信息进行编码以得到当前语句的混合编码F_i，包括：

将当前语句u_i转换为音素序列P_i＝[p₁，p₂，…，p_T]，并通过变换器对所述音素序列进行编码以得到音素编码；

将说话人信息编码到说话人表征s_i中；

将所述说话人表征s_i与所述音素编码相加以得到混合编码F_i：

F_i＝[f_i(p₁)，f_i(p₂)，…，f_i(p_T)]；

3.根据权利要求2所述的一种基于变分自动编码器的跨语句语音合成方法，其特征在于，所述通过跨语句表征和多头注意力层对上下文信息进行编码以得到交叉语句向量表征G_i，包括：

C_i＝[c(u_i-L，u_i-L+1)，…，c(u_i-1，u_i)，…，c(u_i+L-1，u_i+L)]；

B_i＝[b_-L，b_-L+1，…，b_L-1]；

其中，向量b_k表示交叉语句对c(u_k，u_k+1)的BERT向量表征；

G_i＝MHA(F_iW^Q，B_iW^K，B_iW^V)；

且所述交叉语句向量表征G_i的表达式记为：

G_i＝[g₁，g₂，…，g_T]；

其中，T表示多头注意力层的长度。

4.根据权利要求3所述的一种基于变分自动编码器的跨语句语音合成方法，其特征在于，所述含有每个音素的跨语句向量表征H_i的表达式为：

H_i＝[h₁，h₂，…，h_T]；

5.根据权利要求1所述的一种基于变分自动编码器的跨语句语音合成方法，其特征在于，所述条件先验z_p重参数化后表达式为：

其中，μ_p、σ_p表示从条件先验模块中学习的近似先验分布

∈服从标准高斯

分别表示元素加法和元素乘法操作。

6.根据权利要求5所述的一种基于变分自动编码器的跨语句语音合成方法，其特征在于，所述条件后验z_i重参数化后表达式为：

其中，μ和σ表示条件后验模块估计的近似后验分布

z_p是由学习到的特定语句条件先验采样。

7.根据权利要求6所述的一种基于变分自动编码器的跨语句语音合成方法，其特征在于，所述参考梅尔频谱x_i的似然计算表达式为：

p_θ(x_i|H_i，D_i)＝∫p_θ(x_i|z_i，H_i，D_i)p_φ(z_i|H_i，D_i)dz；

其中，θ、φ分别表示解码器和编码器的模块参数。

8.根据权利要求7所述的一种基于变分自动编码器的跨语句语音合成方法，其特征在于，所述梅尔频谱序列通过将ELBO损失最小化以进行优化：

服从标准高斯

和

对应于第n个音素的潜在表征。

9.一种基于变分自动编码器的跨语句语音合成系统，其特征在于，包括：

跨语句表征模块，用于基于音素序列和说话人信息进行编码以得到当前语句的混合编码F_i；通过跨语句表征和多头注意力层对上下文信息进行编码以得到交叉语句向量表征G_i；将所述混合编码F_i和所述交叉语句向量表征G_i连接后通过线性映射层输出含有每个音素的跨语句向量表征H_i；

韵律增强模块，还包括：

编码器，用于将含有每个音素的跨语句向量表征H_i和获取得到每个音素的预测持续时间D_i连接后输入至条件先验模块以得到特定语句的条件先验z_p；将参考梅尔频谱x_i作为条件后验模块的输入，结合所述条件先验z_p建立近似的条件后验z_i；

解码器，用于将所述条件后验z_i添加到含有每个音素的跨语句向量表征H_i；根据每个音素的预测持续时间D_i扩展输入的参考梅尔频谱的长度；通过并行计算将上下文信息转换为梅尔频谱序列。

10.一种计算机设备，其特征在于，所述设备包括：存储器和处理器；

所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行如权利要求1至8中任意一项所述的方法。