CN115376484A

CN115376484A - 基于多帧预测的轻量级端到端语音合成系统构建方法

Info

Publication number: CN115376484A
Application number: CN202210991094.8A
Authority: CN
Inventors: 王龙标; 刘钰澔; 党建武
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-22

Abstract

本发明属于语音合成领域，涉及基于多帧预测的轻量级端到端语音合成系统构建方法。包括多帧并行生成，基于VAE的快速并行，基于时序信息L‑VAE的快速并行，将全连接层换为一个长短时记忆网络，用它来提取深层信息，并且保证时序性，最后基于知识蒸馏的快速端到端语音合成系统构建。本发明使推理速度得到一个明显的提升而且克服了提升速度带来的音质的衰退，从而保证了其结果的正确以及自然性。

Description

基于多帧预测的轻量级端到端语音合成系统构建方法

技术领域

本发明属于语音合成领域，涉及基于多帧预测的轻量级端到端语音合成系统构建方法，主要是有关提高语音合成中生成速度，为后续可以在低端设备中快速的合成自然语音提供方法。

背景技术

语音合成/(TTS)是一种从文本到语音，旨在使机器产生人造语音的技术。经典的统计参数语音合成(SPSS)系统通常由三个模块组成，包括:前端模块(将文本转换为语言特征)、声学模型(将语言特征映射为声学特征)和声码器(从声学特征生成语音波形)。在过去的几十年里，由于统计参数语音合成人工设计的特性和繁琐的模块间通信，因此在使用过程中十分复杂。但是，近些年来随着深度学习发展，端到端的语音合成用神经网络架构代替传统的模块，简化模型设计同时可以生成清晰度接近人类的发音水平的语音。尽管合成的语音音质很好，但是大量的研究表明，现在的语音合成系统还是存在较慢，在低端的设备无法满足用户的即时需求。

语音合成，通常又称文语转换(TextToSpeech，TTS)，是一种可以将任意输入文本转换成相应的语音的技术，是人机语音交互中不可或缺的模块之一。现代TTS的流程十分复杂。比如，统计参数TTS(statistical parametric TTS)通常具有提取各种语言特征的文本前端、持续时间模型(duration model)、声学特征预测模型和基于复杂信号处理的声码器。这些部分的设计需要不同领域的知识，需要大量精力来设计。它们还需要分别训练，这意味着来自每个组件的错误可能会复合到一起。现代TTS设计的复杂性让我们在构建新系统时需要大量的工作。语音合成系统通常包含前端和后端两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息。对中文合成系统来说，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形。后端模块一般分为基于统计参数建模的语音合成(Statistical Parameter Speech Synthesis，SPSS，以下简称参数合成)，以及基于单元挑选和波形拼接的语音合成(以下简称拼接合成)两条技术主线。

传统的语音合成系统一般采用隐马尔可夫模型来做统计建模。近年来，深度神经网络由于其较高的建模精度，被越来越多地应用到语音合成领域。基于此还出现了端到端的语音合成系统，如Tacotron-2,Deepvoice等。语音合成技术中用到的神经网络模型主要有DNN、RNN、LSTM-RNN等。

端到端语音合成算法也可称为是序列到序列预测模型。然而，不同于机器翻译，序列到序列的预测模型用来解决语音合成问题在设计上要复杂得多。一个明显的问题就是在语音合成中输入和输出的长度有着明显的数量级差别，我们需要将几个单词转换成长度接近1000帧甚至数百帧数千个采样点的语音波形信号。随着深度学习的发展和近年来在计算机硬件方面的研究，将神经网络应用于语音合成系统可以实现用较过去简单得多的流程来实现生成高质量的语音。然而，随着追求模型性能合成音频的质量，神经网络变得越来越大更大，这使得模型运算需要耗费大量的计算资源需要更久的时间。

为了解决这个问题，有多种不同的技术被用来加速语音合成模型的推理速度，其中包括1)并行生成可同时生成多帧；2)重塑模型结构；3)将领域知识和神经网络方法有机结合；4)量化、模型修剪、知识蒸馏等通用方法。想要实现快速高效的预期去重塑模型结构是一个有效的选择，但是这个方法也可能会引入新的问题，比如韵律缺失等等。利用领域知识进行优化例如，LPCNet^[1]被证明是有效的，但它需要许多专业领域知识，且通常更适用于声码器。量化、模型剪枝可作为辅助方法，因为它是一种通用方法，并不是针对语音的时间特征而提出的。多帧并行由于帧非常是相对于音素非常小的单位，并且一个音素往往对应很多帧，这些帧之间有很大的冗余信息。

发明内容

针对语音合成中的预测速度慢的问题，本发明旨在提高语音合成中生成速度，并且保证生成语音的流畅性和自然度，提出一种基于多帧预测的轻量级端到端语音合成系统构建方法。

基于注意力机制的自回归端到端的模型是一种将字符序列作为声学特征梅尔谱图的声学模型，比如Tacotron1/2^[2,3]。Tacotron2已经可以生成人类难以分辨的自然语音，并且大幅度的简化了传统的语音合成流水线复杂程度，通过利用神经网络来预测这些语言学特征和声学特征。一个常规的语音合成系统一般包含三个部分，文本前端模型，声学模型，声码器。而梅尔频谱图，即频谱的非线性变换，是一种常见的声学特征，它不仅是声学模型的结果，而且是神经编码器的输入，例如LPCNET、WaveRnn、WaveGlow.

本发明的技术方案是：基于多帧预测的轻量级端到端语音合成系统构建方法，步骤包括以下四部分：

(1)多帧并行生成方法

无论是Tacotron还是Tacotron2，最耗时的部分是来源于自回归解码器。鉴于这种情况，我们使用了多帧并行生成方法。因为Tacotron2的最浪费时间的是解码器用了两层具有1024个单元的LSTM，我们将选择多帧并行生成，它可以一个时间步生成多个帧(原本是一个时间步生成一帧)。

(2)基于VAE的快速并行方法

变分自编码器(VAE)从概率分布的角度建模隐变量和输入数据的关系，从而完成数据生成的需求。与AE不同的是，AE将数据样本编码为确定的向量，即特征空间中的一个“点”；而VAE将数据样本编码为一个分布，在特征空间中表现为一个“范围”。在这个范围中进行采样，就能恢复成对应的数据样本。我们将VAE引入端到端TTS模型，上述的方法侧重于推理速度，然而不可忽略的一个关键就是语音的质量，在实现并行推理的同时，一些基于连续性表示的信息将会有所损失，所以为了产生尽可能最佳的语音质量，我们利用强大的变分自动编码器(VAE)实现训练和推理，而不是全连接层如图1所示。

(3)基于时序信息L-VAE的快速并行方法

时间序列作为一种很常见的数据结构，它的生成、表征以及预测等问题在金融、语音、语言等领域是非常重要的，但是由于时间序列具有依赖性、不确定性等特点，一些传统的生成模型可能并不适合这类数据。而变分自编码器(Variational Auto-Encoders，VAE)作为一种基于变分贝叶斯推断的生成式网络，它通过潜在随机变量(latent randomvariables)来实现样本的生成，从而有更好的鲁棒性。这篇文章将会介绍一类专门针对于时间序列生成的VAE模型L-VAE。它将原始的VAE拓展到了时间序列上，实现了对于时间序列的表征与生成。多帧并行生成在速度上得到了一个很明显的提升，但音质有所下降，使用了生成模型VAE为生成音频的质量提供保证，但是仍然无法针对语音的特性即时序性去解决音质问题，基于时序信息的VAE则可以解决上述问题，可以更好的将生成音频尽可能的还原人声，尤其是在韵律上有更好的表现。

(4)基于知识蒸馏的快速端到端语音合成系统

知识蒸馏可以有效的进行模型压缩，不同于剪枝和量化，知识蒸馏是通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练这个小模型，以期达到更好的性能和精度，从而优化模型提升生成速度。这个过程需要用到预训练好的一个教师模型，通过知识蒸馏的方法将教师模型的“经验”传给学生模型，从而可以使得学生模型小而精。

具体而言，步骤包括：

(1)多帧并行生成：

①将原本的多个帧做拼接，使得原本的N个帧变成一个加长帧；

②在N个帧中选择中间的一个帧，基于一个假设即语音最小的单元音素对应多个帧，那么这多个帧之间某些信息是存在高度冗余的，舍弃部分冗余帧使得原本的N帧变为现在的一帧，将输入的帧数由N帧变为一帧，经过自回归的解码器将输出在用一个全连接层去还原成N帧，输入给后处理网络；

(2)基于VAE的快速并行:

变分自编码器VAE从概率分布的角度建模隐变量和输入数据的关系，从而完成数据生成的需求；VAE将数据样本编码为一个分布，在特征空间中表现为一个“范围”；在这个范围中进行采样，恢复成对应的数据样本；

(3)基于时序信息L-VAE的快速并行:

将全连接层换为一个长短时记忆网络，用它来提取深层信息，并且保证时序性；

编码器包含一层LSTM，用于在多帧中建模相关性；在L-VAE的编码过程中，每次生成均值μ和方差σ，然后将它们分别连接起来，并利用结果重建隐向量z；

L-VAE的解码器还包含一个用于自回归解码的1层LSTM；

学习潜在语音表示的鲁棒分布，进行多帧的特征提取和重建，保留多帧内部连接损失函数基于知识蒸馏的快速端到端语音合成系统；

(4)基于知识蒸馏的快速端到端语音合成系统构建：

通过构建一个轻量化的小模型，利用性能更好的大模型的监督信息，来训练这个小模型，以期达到更好的性能和精度，从而优化模型提升生成速度；这个过程需要用到预训练好的一个教师模型，通过知识蒸馏的方法将教师模型的“经验”传给学生模型，从而使得学生模型小而精。

进一步，所述步骤(2)变分自编码器(VAE)通常包含一个编码器和一个解码器，编码器负责学会输入数据的分布，然后从分布中采样一个隐向量z，然后解码器将z在还原成输入数据。这个过程需要两个损失函数共同来约束，一个是重构的损失函数即保证输入和输出尽可能的一致，另一个KL损失负责让VAE学习的分布中的方差不会变成零，从而保证VAE不会退化成自动编码器(AE)；

z＝Enc(x)～q(z|x)

L_vae＝L_r+D_KL(q(z|x)||p(z))

其中x为输入，q(z|x)是隐层特征的分布，是用来重建x的并且依赖于p(x|z),Enc(x)是VAE编码器的输出结果，Dec(z)是VAE解码器的输出结果；

合理假设输入Mel频谱在以下情况下会受到一定程度的损坏，VAE很好地捕捉连续语义特征原始VAE模型中的后验概率q(z|x)用于重建语音波形，重新构造隐藏层特征，并确保潜在的向量Z学习足够的信息。

进一步，所述步骤(4)具体是：使用蒸馏主要来进行模型压缩，首先会训练一个参数量更小的学生网络，相比于教师网络来说，这个轻量级的网络不能很好地学习到数据集之前隐藏的潜在关系；相比于one hot的输出，教师网络是将输出的logits进行了softmax，更加平滑的处理了标签，即将数字1输出成了0.6即对1的预测，0.4即对0的预测；然后输入到学生网络中，相比于1来说，这种softmax含有更多的信息；蒸馏的目标是让学生网络学习到教师网络的泛化能力，理论上得到的结果会比单纯拟合训练数据的学生网络要好。

有益效果

这种方法不仅使得推理速度得到一个明显的提升而且克服了提升速度带来的音质的衰退，从而保证了其结果的正确以及自然性。

本发明为之后的语音合成中的快速轻量级端到端模型开拓了一条新的思路，为推动现有的语音合成中的低计算资源合成研究做出了贡献。

附图说明

图1基于变分自编码器的Tacotron2；

图2时序信息L-VAE的快速并行模型；

图3在不同的CPU下的模型生成音频的速度比较；

图4真实音频的梅尔谱和不同的模型生成的梅尔频谱图的可视化图(实线为F0)。

具体实施方式

下面结合实验过程及实验结果对本发明做进一步详细地描述和说明。

本发明在目前通用的声学模型Tacotron2的基本架构上，从快速和轻量级的角度出发，提出了并行多帧生成，并且在此基础上，首次将生成模型VAE和多帧并行预测及知识蒸馏结合，既保证了生成质量又提高了生成速度，具体分为以下四部分：

(1)多帧并行生成方法

Tacotron2是由Google Brain在2017年提出来的一个End-to-End语音合成框架。模型从下到上可以看作由两部分组成：

声学模型：一个Encoder-Attention-Decoder网络，用于将输入的字符序列预测为梅尔频谱的帧序列；

声码器(vocoder)：一个WaveNet的修订版，用于将预测的梅尔频谱帧序列产生时域波形。

多帧并行生成可以很好地提升Tacotron2声学模型的推理速度，Tacotron2几乎可以合成和人类无异的自然语音，但是缺点就是生成速度很慢，由于他的自回归特性可以生成更高质量的音频，也同时带来了很难做到真正的并行这个问题，这就导致了推理速度受限制。为解决这个问题，引入了多帧并行生成方法，这个过程具体实现有两种做法：

①将原本的多个帧做拼接，使得原本的N个帧变成一个加长帧，这样减少自回归的次数，例如，将N个[1,80]的拼接为[1,80*N]的帧，为了尽可能的在保证信息不损失的情况下提升生成速度，拼接N个帧的操作可以保证信息的保留，而且变成一个帧以后可以更大程度上减少自回归的次数提升速度。

②我们在N帧中选择中间的一个帧，该方法基于一个假设即语音最小的单元音素可以对应多个帧，那么这多个帧之间某些信息是存在高度冗余的，所以我们进行了舍弃部分冗余帧使得原本的N帧变为现在的一帧，这样一来可以简单的将输入的帧数由N帧变为一帧，经过自回归的解码器将输出在用一个全连接层去还原成N帧，输入给后处理网络。这样做的好处是可以使得生成速度进一步加快，但是却引入了另一个小缺点就是某些基于连续性信息会受到一定的影响(如韵律)。

(2)基于VAE的快速并行方法

随着生成模型的进一步发展，得到了越来越多的研究人员关注，并且在不同领域越来越多的工作将生成模型主要是变分自编码器和一些经典的方法相结合，比如Glow-WaveGAN^[4],flow-based PortaSpeech^[5],VAE-based style transfer TTS,BVAE-TTS^[6],NaturalSpeech^[7]。

变分自编码器(VAE)通常包含一个编码器和一个解码器，编码器负责学会输入数据的分布，然后从分布中采样一个隐向量z，然后解码器将z在还原成输入数据。这个过程需要两个损失函数共同来约束，一个是重构的损失函数即保证输入和输出尽可能的一致，另一个KL损失负责让VAE学习的分布中的方差不会变成零，从而保证VAE不会退化成自动编码器(AE)。

z＝Enc(x)～q(z|x)

L_vae＝L_r+D_KL(q(z|x)||p(z))

其中x为输入，q(z|x)是隐层特征的分布，是用来重建x的并且依赖于p(x|z),Enc(x)是VAE编码器的输出结果，Dec(z)是VAE解码器的输出结果。

我们合理地假设输入Mel频谱在以下情况下会受到一定程度的损坏，VAE可以很好地捕捉连续语义特征(例如韵律)原始VAE模型中的后验概率q(z|x)用于重建语音波形，因此非常复杂。在我们的工作中，我们使用它重新构造隐藏层特征，并确保潜在的隐向量z学习足够的信息。

此外，它的优点会被放大，因为为了快速推理，并行生成破坏了数据的长期连续性。然而，其缺点将被削弱，后处理网络的真正输入是隐向量z，其中包含多帧之间的连续性信息。模型结构如图1所示。

(3)基于时序信息L-VAE的快速并行方法

由于多帧并行生成会破坏多帧内部的联系，而且原始的Tacotron2模型中的解码器中的线性层显然不能胜任恢复数据联系性这个任务，在这里我们提出了一个多帧内部联系的损失函数用来保证多帧内部的联系性不被抹除，并且用改进的VAE即L-VAE来和解码器结合起来生成音质更加好，更加平滑的语音。

原始的VAE在编码器部分用的全连接层，我们认为全连接层并不能很好地反映出时序信息，而语音恰好对时序信息较为敏感，所以我们将全连接层换为一个长短时记忆网络(LSTM)，用它来提取深层信息，并且保证时序性。

如图2所示，编码器包含一层LSTM，用于在多帧中建模相关性。在L-VAE的编码过程中，每次生成μ和σ，然后将它们分别连接起来，并利用结果重建z。L-VAE的解码器还包含一个用于自回归解码的1层LSTM。为了更好的确保连续性，学习潜在语音表示的鲁棒分布，进行多帧的特征提取和重建，我们也保留了多帧内部连接损失函数。

(4)基于知识蒸馏的快速端到端语音合成系统

我们使用蒸馏主要来进行模型压缩，首先会训练一个参数量更小的学生网络，相比于教师网络来说，这个轻量级的网络不能很好地学习到数据集之前隐藏的潜在关系，相比于one hot的输出，教师网络是将输出的logits进行了softmax，更加平滑的处理了标签，即将数字1输出成了0.6(对1的预测)和0.4(对0的预测)然后输入到学生网络中，相比于1来说，这种softmax含有更多的信息。好模型的目标不是拟合训练数据，而是学习如何泛化到新的数据。所以蒸馏的目标是让学生网络学习到教师网络的泛化能力，理论上得到的结果会比单纯拟合训练数据的学生网络要好。蒸馏损失函数如下：

其中，zi是第i类的逻辑单元值，pi是第i类的类概率以及k表示类别的数量，T为温度系数，用来控制输出概率的软化程度.不难看出，当T＝1时，上述公式表示网络输出Softmax的类概率.当T为正无穷大时，Hinton等人在论文中证明了上述公式此时表示网络输出的逻辑单元.

针对于Tacotron2我们主要对他的解码器进行压缩，即教师网络和学生网络在解码器的输入部分有一个知识蒸馏的损失函数L_KD，其中，u和z分别为教师和学生模型输出的逻辑单元，T为温度系数，pi是第i类的类概率。

将教师模型的解码器和后处理网络通过知识蒸馏的方式进行了压缩，如表1所示。

表1教师模型和学生模型的大小

整体的模型通过多帧预测提升了生成速度，利用生成模型保证了质量的不下降，进一步辅以知识蒸馏使得模型更加轻量级。

如表2是不同大小的模型在不同情况下的一个速度和质量的对比。

表2不同模型的音质和速度对比

图3是在不同的CPU上RTF的一个对比。可以看出我们的方法在硬件环境越差的机器上优化的效果越明显。图4可以通过对比基频以梅尔谱图的细节，得出不同的方法生成的音频和真实音频的一个相似性。

同时我们也将展示客观指标如表3所示。

表3基线模型和我们提出的方法的F0RMSE(HZ)对比

并行程度	解码器大小	T2	VAE_T2	L-VAET2
					3	2x64	47.54	39.15	31.67
3	2x512	38.28	33.34	29.12
					5	2x64	50.24	41.57	32.34
5	2x512	43.57	35.64	30.54

可以明显的观察到，我们所提出的模型还原度是最高的。

参考文献：

[1]Jean-Marc Valin and Jan Skoglund,“Lpcnet:Improving neural speechsynthesis through linear prediction,”in ICASSP 2019-2019IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2019,pp.5891–5895.

[2]Yuxuan Wang,RJ Skerry-Ryan,Daisy Stanton,Yonghui Wu,Ron J Weiss,Navdeep Jaitly,Zongheng Yang,Ying Xiao,Zhifeng Chen,Samy Bengio,et al.,“Tacotron:Towards end-to-end speech synthesis,”arXiv preprint arXiv:1703.10135,2017.

[3]Jonathan Shen,Ruoming Pang,Ron J Weiss,Mike Schuster,NavdeepJaitly,Zongheng Yang,Zhifeng Chen,Yu Zhang,Yuxuan Wang,Rj Skerrv-Ryan,et al.,“Natural tts synthesis by conditioning wavenet on mel spectrogrampredictions,”in 2018IEEE international conference on acoustics,speech andsignal processing(ICASSP).IEEE,2018,pp.4779–4783.

[4]Jian Cong,Shan Yang,Lei Xie,and Dan Su,“Glow-wavegan:Learningspeech representations from gan-based variational auto-encoder for highfidelity flow-based speech synthesis,”arXiv preprint arXiv:2106.10831,2021.

[5]Yi Ren,Jinglin Liu,and Zhou Zhao,“Portaspeech:Portable andhighquality generative text-to-speech,”Advances in Neural InformationProcessing Systems,vol.34,2021.

[6]Yoonhyung Lee,Joongbo Shin,and Kyomin Jung,“Bidirectionalvariational inference for non-autoregressive text-to-speech,”in InternationalConference on Learning Representations,2020.

[7]Xu Tan,Jiawei Chen,Haohe Liu,Jian Cong,Chen Zhang,Yanqing Liu,XiWang,Yichong Leng,Yuanhao Yi,Lei He,et al.,“Naturalspeech:End-to-end text tospeech synthesis withhuman-level quality,”arXiv preprint arXiv:2205.04421.

Claims

1.基于多帧预测的轻量级端到端语音合成系统构建方法，其特征在于，在声学模型Tacotron2的基本架构上，从快速和轻量级的角度出发，提出并行多帧生成，并且在此基础上，首次将生成模型VAE和多帧并行预测及知识蒸馏结合；

具体步骤包括以下四部分：

(1)多帧并行生成：

(2)基于VAE的快速并行:

(3)基于时序信息L-VAE的快速并行:

L-VAE的解码器还包含一个用于自回归解码的1层LSTM；

(4)基于知识蒸馏的快速端到端语音合成系统构建:

2.根据权利要求1所述的构建方法，其特征在于，所述步骤(2)变分自编码器VAE通常包含一个编码器和一个解码器，编码器负责学会输入数据的分布，然后从分布中采样一个隐向量z，然后解码器将z再还原成输入数据；

这个过程需要两个损失函数共同来约束：一个是重构的损失函数即保证输入和输出尽可能的一致；另一个KL损失负责让VAE学习的分布中的方差不会变成零，从而保证VAE不会退化成自动编码器(AE)；

z＝Enc(x)～q(z|x)

L_vae＝L_r+D_KL(q(z|x)||p(z))

其中，x为输入，q(z|x)是隐层特征的分布，是用来重建x的并且依赖于p(x|z),Enc(x)是VAE编码器的输出结果，Dec(z)是VAE解码器的输出结果；

合理假设输入Mel频谱在以下情况下会受到一定程度的损坏，VAE捕捉连续语义特征原始VAE模型中的后验概率q(z|x)用于重建语音波形，重新构造隐藏层特征，并确保潜在的向量Z学习足够的信息。

3.根据权利要求1所述的构建方法，其特征在于，所述步骤(4)具体是：使用蒸馏主要来进行模型压缩，首先会训练一个参数量更小的学生网络，相比于教师网络来说，这个轻量级的网络不能很好地学习到数据集之前隐藏的潜在关系；相比于one hot的输出，教师网络是将输出的logits进行了softmax，更加平滑的处理了标签，即将数字1输出成了0.6即对1的预测，0.4即对0的预测；然后输入到学生网络中，相比于1来说，这种softmax含有更多的信息；蒸馏的目标是让学生网络学习到教师网络的泛化能力，理论上得到的结果会比单纯拟合训练数据的学生网络要好。