CN112133282B

CN112133282B - 轻量级多说话人语音合成系统及电子设备

Info

Publication number: CN112133282B
Application number: CN202011159299.7A
Authority: CN
Inventors: 李琳; 李松; 洪青阳
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2022-07-08
Anticipated expiration: 2040-10-26
Also published as: CN112133282A

Abstract

一种轻量级多说话人语音合成系统及电子设备，该系统包括：文本特征提取和规整模块、说话人特征提取模块、特征融合模块和语音生成模块。文本特征提取和规整模块用于采用轻量级编码器将待处理的文本信息进行编码和特征提取，并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测，以及用于进行长度规整处理，以得到与目标梅尔频谱长度相等的规整的文本特征。说话人特征提取模块用于生成能够表征目标说话人的特征。特征融合模块用于将目标说话人的特征与规整的文本特征进行融合。语音生成模块用于将融合后的特征进行深层特征提取、维度映射、残差整合以及生成语音。该系统支持多说话人语音合成且合成速度快。

Description

轻量级多说话人语音合成系统及电子设备

技术领域

本公开属于语音合成技术领域，涉及一种轻量级多说话人语音合成系统及电子设备。

背景技术

近年来，基于神经网络的端到端语音合成系统在系统架构和生成语音质量方面已经超越了传统的统计参数语音合成系统。端到端语音合成系统，如Tacotron2系统和Transformer text-to-speech系统(简称Transformer TTS系统)直接使用神经网络将文本转换为相对应的语音，不再需要大量复杂的文本前端处理工作、各种语言学特征的提取、以及复杂的领域专家知识。

然而，目前主流的端到端语音合成系统大都采用注意力机制来隐式地学习文本到语音的对齐关系，这带来了巨大计算量，同时也使得语音合成速度较慢。同时，这类语音合成系统采用自回归的语音生成模式，这种模式要求后一语音帧的生成需要以前一语音帧作为输入，有较强的前后依赖关系和时序性，导致语音合成无法并行处理，极大地降低了语音合成速度。

性能较好的神经网络模型通常具有较大的参数，这会带来巨大的计算量和内存消耗。目前主流的端到端语音合成系统都有较大的参数量，所以语音合成模型往往部署在云端，设备端需要通过网络与云端的语音合成系统进行通信，由于网络传输需要时间，网络传输直接影响了用户体验。同时，基于云端的语音合成系统无法对一些无法联网的低资源设备提供语音合成服务，导致语音合成系统不能够在各种设备上进行广泛应用。因此，有必要提出一种参数量小，计算复杂度低，同时还具有良好性能的语音合成模型，使其能够部署于嵌入式系统以及其他移动设备中，这能够促进语音合成系统在边缘人工智能(AI)领域的真正落地。

此外，现有的文本转语音的系统大多只能实现一个说话人的单一风格语音合成，少数可以实现多个说话人合成的语音合成系统存在合成速度慢且需要较大的计算量以及内存消耗的问题。

发明内容

(一)要解决的技术问题

本公开提供了一种轻量级多说话人语音合成系统及电子设备，以至少部分解决以上所提出的技术问题。

(二)技术方案

本公开的一个方面提供了一种轻量级多说话人语音合成系统。上述系统包括：文本特征提取和规整模块、说话人特征提取模块、特征融合模块以及语音生成模块。文本特征提取和规整模块用于采用轻量级编码器将待处理的文本信息进行编码和特征提取，并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测，以及用于进行长度规整处理，以得到与目标梅尔频谱长度相等的规整的文本特征，所述目标梅尔频谱为所述待处理的文本信息所要转化的语音的梅尔频谱。说话人特征提取模块用于基于时延神经网络从目标说话人的语音对应的梅尔频谱中提取出目标说话人的深度特征向量并进行归一化处理，以生成能够表征目标说话人的特征。特征融合模块用于将目标说话人的特征与规整的文本特征进行融合。语音生成模块用于采用轻量级解码器对融合后的特征进行深层特征提取，并用于将提取出的深层特征映射至与目标梅尔频谱相同的维度，基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱，以及将生成的目标梅尔频谱转换为人耳能够听到的语音。

根据本公开的实施例，轻量级编码器和轻量级解码器均包括：多层轻量级前馈网络。每层轻量级前馈网络包括：轻量级卷积或轻量级动态卷积。其中，轻量级卷积的卷积核权重在训练之后是固定的，轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成。轻量级卷积或轻量级动态卷积沿着词向量通道维度划分为不同的组，每组都进行独立的计算，并且组内的卷积核参数是共享的；在每组的计算过程中使用深度可分离卷积，使得每组内词向量各个通道能够并行计算，以减少计算复杂度和卷积网络参数量。

根据本公开的实施例，轻量级编码器和轻量级解码器均包括：多层轻量级前馈网络。每层轻量级前馈网络包括：轻量级卷积或轻量级动态卷积，每层轻量级前馈网络还包括：自注意力神经网络和信息融合模块。轻量级卷积的卷积核权重在训练之后是固定的，轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成。其中，待处理的文本信息以词向量形式输入，基于特征通道掩码将输入的文本信息沿着词向量通道维度分割为两个部分，其中一个部分使用轻量级卷积或轻量级动态卷积提取局部上下文信息，其中另一个部分通过自注意力神经网络提取全局信息；信息融合模块用于将局部上下文信息和全局信息进行融合。

根据本公开的实施例，每层轻量级前馈网络还包括：深度可分离卷积和分组卷积；其中，信息融合模块融合后的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。

根据本公开的实施例，每层轻量级前馈网络还包括：深度可分离卷积和分组卷积；轻量级卷积或轻量级动态卷积输出的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。

根据本公开的实施例，文本特征提取和规整模块包括：轻量级编码器、轻量级时长预测网络、特征长度规整模块以及绝对位置编码层。轻量级编码器用于输入待处理的文本信息，并基于多层轻量级前馈网络对待处理的文本信息进行编码和特征提取。轻量级时长预测网络用于接收轻量级编码器输出的文本深层特征，并基于多层深度可分离卷积网络预测出文本深层特征对应的中每个词或者音素的时长。特征长度规整模块用于根据预测的时长将轻量级编码器输出的文本深层特征的长度进行拓展，使得拓展后的文本深层特征的长度与目标梅尔频谱长度一致。绝对位置编码层用于为每个文本深度特征标注位置信息，使得多层轻量级前馈网络能够利用位置信息来提取更具表征能力的特征。

根据本公开的实施例，语音生成模块包括：轻量级解码器、相对位置编码层、梅尔频谱映射模块、后处理网络、梅尔频谱生成模块以及声码器。轻量级解码器用于接收融合后的特征，并基于该轻量级解码器中的多层轻量级前馈网络进行深层特征提取。相对位置编码层用于对融合后的特征标注相对位置信息，使得轻量级解码器中的多层前馈网络能够利用相对位置信息来增强特征之间的关联性。梅尔频谱映射模块用于将提取出的深层特征映射至与目标梅尔频谱相同的维度。后处理网络用于预测梅尔频谱的残差信息。梅尔频谱生成模块用于基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱。声码器用于将目标梅尔频谱转换为人耳能够听到的语音。

根据本公开的实施例，轻量级多说话人语音合成系统中的参数通过以辅助模型的输出作为标签进行训练获得。其中，所述轻量级多说话人语音合成系统基于训练集进行训练，训练集包括：训练文本、训练文本在辅助模型中得到的训练输出音频对应的梅尔频谱和特定说话人的特征；训练的输入为训练文本和特定说话人的特征，输出为所述训练文本在辅助模型中得到的训练输出音频对应的梅尔频谱。其中，轻量级时长预测网络的参数是通过以辅助模型得到的训练文本中词或者音素对应的时长信息作为标签进行训练获得。辅助模型包括预先训练好的基于注意力机制的自回归语音合成模型，其中所述基于注意力机制的自回归语音合成模型的输入为文本和特定说话人的特征，输出为与输入的文本和特定说话人的特征对应的特定说话人的语音。

根据本公开的实施例，辅助模型中包含音调信息，基于轻量级多说话人语音合成系统的训练过程将音调信息从辅助模型输出的梅尔频谱中隐式地传授给轻量级多说话人语音合成系统。

根据本公开的实施例，上述辅助模型还包括：语音识别模块。语音识别模块用于将基于注意力机制的自回归语音合成模型输出的特定说话人的语音对应的梅尔频谱重构为文本。其中，通过训练辅助模型，使得重构的文本具有最小的重构损失，以确保基于注意力机制的自回归语音合成模型输出的特定说话人的语音为完整准确的语音。根据本公开的实施例，上述辅助模型还包括：基频预处理网络。基频预处理网络用于从训练语音中提取音调信息，并将提取的音调信息输入至基于注意力机制的自回归语音合成模型，使得辅助模型中包含音调信息。其中，训练语音的内容与基于注意力机制的自回归语音合成模型输入的文本的内容是一致的。

根据本公开的实施例，基于注意力机制的自回归语音合成模型包括：第二编码器、第二说话人特征提取模块、第二特征融合模块以及第二解码器。第二编码器用于将输入的文本进行编码和特征提取。第二说话人特征提取模块用于基于时延神经网络从特定说话人的语音对应的梅尔频谱中提取出特定说话人的深度特征向量并进行归一化处理，以生成特定说话人的特征。第二特征融合模块，用于将特定说话人的特征与提取出的文本特征进行融合。基于前馈注意力机制将融合后的特征输入至第二解码器，第二解码器用于基于输入的融合后的特征生成特定说话人的语音。本公开的第二个方面还提供了一种电子设备，上述电子设备包括：如上所述的任一种轻量级多说话人语音合成系统。

上述电子设备为：计算机、智能手机或人工智能设备等。

(三)有益效果

从上述技术方案可以看出，本公开提供的轻量级多说话人语音合成系统及电子设备，具有以下有益效果：

(1)文本特征提取和规整模块采用轻量级编码器和轻量级时长预测网络对文本进行编码和特征提取以及对文本中的词或音素进行时长预测和规整处理，得到规整的文本特征，完成了文本到语音的对齐，不再需要现有技术中普遍使用的注意力机制来隐式地学习上述对齐，使得语音的合成速度大大加快；基于说话人特征提取模块可以根据目标说话人的一段语音(该语音与文本的内容可以没有关联)生成能够表征目标说话人的特征，目标说话人可以是一个或多个(≥2个)说话人，基于目标说话人的特征和规整的文本特征融合之后得到的特征进行深层特征提取以生成目标说话人的语音，采用非自回归的方式生成目标说话人的语音，极大地提升了语音合成的速度，同时可以将待处理的文本快速地转化为多个不同说话人风格的语音。

(2)基于轻量级卷积或轻量级动态卷积的设置，轻量级卷积和轻量级动态卷积结合了深度可分离卷积和分组卷积的优点，减小了模型参数，每个通道都能够并行地计算，使得计算量从现有的自注意力机制的二次方关系变成了线性关系，减小了模型计算复杂度，降低了文本转化语音所需的内存消耗，特别是文本特征提取和规整模块以及语音生成模块的内存消耗和计算复杂度。

(3)通过采用通道掩码技术，将输入的文本信息沿着词向量通道维度分割为两个部分，其中一个部分使用轻量级卷积或轻量级动态卷积提取局部上下文信息，其中另一个部分通过自注意力神经网络提取全局信息，提取特征所需的计算量远小于将完整文本输入至现有的基于自注意力机制的神经网络的计算量，降低了内存消耗，并且还减少了模型参数，加快了推理速度。

(4)通过设置后处理网络来预测梅尔频谱的残差信息，基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱，使得生成的目标梅尔频谱更接近真实语音的梅尔频谱，改善了合成语音的音质。

(5)通过在辅助模型中引入音调信息，使其能够生成自然的、富有韵律感的语音，并且通过先验分布近似技术将音调信息从辅助模型生成的梅尔频谱中隐式地传授给轻量级语音合成系统，使得轻量级语音合成系统不再需要专门用于音调预测的音调预测网络也能合成出自然的、富有韵律感的语音。

(6)通过在辅助模型中设置语音识别模型，基于语音识别模型将生成的特定说话人的语音对应的梅尔频谱重构为文本，通过训练辅助模型，使得重构的文本具有最小的重构损失，能够减少或避免跳字和漏字现象。

(7)本公开的文本转化为语音的系统能够部署在资源受限的嵌入式系统中，极大地提升了语音合成技术的应用范围，使得语音合成技术不仅仅局限于云端，可以搭载于便携式电子设备上。

附图说明

图1为根据本公开一实施例所示的轻量级多说话人语音合成系统的结构框图。

图2为根据本公开一实施例所示的文本特征提取和规整模块的结构框图。

图3为根据本公开一实施例所示的语音生成模块的结构框图。

图4为根据本公开一实施例所示的(a)轻量级卷积，(b)轻量级动态卷积的结构示意图。

图5为根据本公开一实施例所示的一层轻量级前馈网络的结构示意图。

图6为根据公开一实施例所示的轻量级多说话人语音合成系统实现文本到语音转换的过程示例。

图7为根据公开一实施例所示的辅助模型的结构框图。

具体实施方式

发明人在实现本公开技术构思时发现现有技术存在以下技术问题：(1)目前已有的端到端语音合成系统大多都属于基于注意力机制学习文本到语音对齐关系的的自回归生成式模型，语音合成速度较慢，影响了实际落地产品的用户体验。(2)非自回归模型FastSpeech基于自注意力机制(self-attention)进行文本特征提取，该机制的计算复杂度是输入文本总长度的二次方，计算复杂度高，内存资源消耗大。(3)非自回归模型FastSpeech目前只能合成单说话人的语音，并且没有引入任何韵律相关的语音信息，限制了语音合成系统的个性化特性以及语音韵律表现力。(4)目前已有的端到端语音合成系统(包括FastSpeech)，均有较大的模型参数和计算量，导致语音合成系统往往只能部署在云端，这对于无法联网的低资源嵌入式设备十分不友好，限制了语音合成技术的应用领域。

为了对端到端语音合成系统进行加速，研究者大多从语音到文本对齐关系的学习方式以及非自回归语音生成模式两个方面展开研究。Duration Informed AttentionNetwork For Multimodal Synthesis(DurIAN)提出使用语音识别领域常用的强制对齐方法来获得文本到语音的对齐，不再需要注意力机制来学习两者的对齐。但是DurIAN依然采用自回归的语音生成模式，语音合成速度较慢。Parallel Neural Text-to-Speech(ParaNet)首次将非自回归的生成模式引入到语音合成系统中，但是依然采用注意力来学习文本到语音的对齐。DurIAN和ParaNet都没有完全地抛弃使用注意力机制来学习对齐以及使用自回归的生成模式来合成语音，均保留了其中之一，所以语音合成速度提升有限。最近，微软亚洲研究院提出Fast Robust and Controllable Text to Speech(FastSpeech)，它从一个训练好的自回归语音合成模型的注意力矩阵中提取文本的时长信息，并且利用该时长信息训练一个时长预测网络来获得文本到语音的对齐关系，不再需要注意力机制来学习该对齐关系。同时FastSpeech使用前馈Transformer结构，以非自回归的生成模式合成语音，使得语音合成速度大大加快。FastSpeech模型虽然不需要使用注意力机制来学习文本到语音的对齐关系，但是引入了前馈Transformer来提取文本的深度表征，前馈Transformer的核心是自注意力机制，该机制需要对所有的输入特征进行逐帧的相似度计算，导致该机制的计算量是输入特征总长度二次方，计算复杂度高，极其耗费内存资源。

富有表现力的多说话人语音合成一直是一个研究热点。然而，这些模型大都以基于注意力机制的自回归语音合成系统为原型进行设计，这导致这些模型的语音合成速度都比较慢。而基于非自回归机制的FastSpeech模型，目前只能够合成一个说话人的单一风格语音，制约了语音合成的个性化。

有鉴于此，本公开提供了一种轻量级多说话人语音合成系统及电子设备，通过对文本中的词或音素的时长预测以及规整处理，得到规整的文本特征，完成了文本到语音的对齐，使得语音的合成速度大大加快，采用非自回归的方式生成目标说话人的语音，极大地提升了语音合成的速度，同时可以将待处理的文本快速地转化为多个不同说话人风格的语音。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。本公开中，“注意力机制”是学习文本到语音的对齐关系的一种神经网络机制，“自注意力机制”是进行文本的特征提取时的一种神经网络机制。

本公开的第一个示例性实施例提供了一种轻量级多说话人语音合成系统。

参照图1所示，上述轻量级多说话人语音合成系统12包括：文本特征提取和规整模块121、说话人特征提取模块122、特征融合模块123以及语音生成模块124。

文本特征提取和规整模块121用于采用轻量级编码器将待处理的文本信息进行编码和特征提取，并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测，以及用于进行长度规整处理，以得到与目标梅尔频谱长度相等的规整的文本特征，所述目标梅尔频谱为所述待处理的文本信息所要转化的语音的梅尔频谱。

说话人特征提取模块122用于基于时延神经网络从目标说话人的语音对应的梅尔频谱中提取出目标说话人深度特征向量并进行归一化处理，以生成能够表征目标说话人的特征。

特征融合模块123用于将目标说话人的特征与规整的文本特征进行融合。

语音生成模块124用于采用轻量级解码器对融合后的特征进行深层特征提取，并用于将提取出的深层特征映射至与目标梅尔频谱相同的维度，基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱，以及将生成的目标梅尔频谱转换为人耳能够听到的语音。

根据本公开的实施例，参照图2所示，文本特征提取和规整模块121包括：轻量级编码器1211、轻量级时长预测网络1212、特征长度规整模块1213、以及绝对位置编码层1214。

轻量级编码器1211用于输入待处理的文本信息，并基于该轻量级编码器中的多层轻量级前馈网络对待处理的文本信息进行编码和深层特征的提取。示例性的，上述文本信息可以是一段文本或者一个句子或者一个词组。

轻量级时长预测网络1212用于接收轻量级编码器输出的文本深层特征，并基于多层深度可分离卷积网络预测出文本深层特征对应的每个词或者音素的时长。

特征长度规整模块1213用于根据预测的时长将轻量级编码器输出的文本深层特征的长度进行拓展，使得拓展后的文本深层特征的长度与待合成语音的梅尔频谱长度一致。

绝对位置编码层1214用于为每个文本深度特征标注位置信息，使得轻量级编码器中的多层轻量级前馈网络能够利用位置信息来提取更具表征能力的特征。

图3为根据本公开一实施例所示的语音生成模块的结构框图。

根据本公开的实施例，参照图3所示，语音生成模块124包括：轻量级解码器1241、相对位置编码层1242、梅尔频谱映射模块1243、后处理网络1244、梅尔频谱生成模块1245以及声码器1246。

轻量级解码器1241用于接收融合后的特征，并基于该轻量级解码器中的多层轻量级前馈网络进行深层特征提取。

相对位置编码层1242用于对融合后的特征标注相对位置信息，使得轻量级解码器中的多层前馈网络能够利用相对位置信息来增强特征之间的关联性。

梅尔频谱映射模块1243用于将提取出的深层特征映射至与目标梅尔频谱相同的维度。

后处理网络1244用于预测梅尔频谱的残差信息。通过设置后处理网络来预测梅尔频谱的残差信息，基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱，使得生成的目标梅尔频谱更接近真实语音的梅尔频谱，改善了合成语音的音质。

梅尔频谱生成模块1245用于基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱。

声码器1246用于将目标梅尔频谱转换为人耳能够听到的语音。

根据本公开的实施例，文本特征提取和规整模块121以及语音生成模块124均包括：多层轻量级前馈网络。例如在图2中示例的文本特征提取和规整模块121中的轻量级编码器1211包括：多层轻量级前馈网络1211a，在图3中示例的语音生成模块124中的轻量级解码器1241包括：多层轻量级前馈网络1241a。在轻量级编码器和轻量级解码器中采用不同的附图标记示意多层轻量级前馈网络是为了便于描述。

下面参照图4和图5来描述每层轻量级前馈网络的结构。

图4为根据本公开一实施例所示的(a)轻量级卷积，(b)轻量级动态卷积的结构示意图。图5为根据本公开一实施例所示的一层轻量级前馈网络的结构示意图。

为了减小现有技术中自注意力机制的神经网络的计算量和模型参数，本公开提出了两种前馈网络结构。两种前馈网络的结构可以分别参照图5中不含虚线框的结构以及包含虚线框所示。

参照图2、图3和图5中不含虚线框的结构所示，每层轻量级前馈网络包括：轻量级卷积或轻量级动态卷积。

根据本公开的一实施例，每层轻量级前馈网络包括：轻量级卷积或轻量级动态卷积，参照图4中(a)和(b)所示，其中，K表示轻量级卷积或轻量级动态卷积的卷积核大小，d表示文本中词向量的通道维度(通道数)，H表示分组数。轻量级卷积的卷积核权重在训练之后是固定的，如图4中(a)所示；轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成，如图4中(b)的循环箭头所示意。轻量级卷积或轻量级动态卷积沿着词向量通道维度划分为不同的组，每组都进行独立的计算，并且组内的卷积核参数是共享的；在每组的计算过程中使用深度可分离卷积，使得每组内词向量各个通道能够并行计算，以减少计算复杂度和卷积网络参数量。

这种轻量级前馈网络通过使用轻量级卷积和轻量级动态卷积完全替换现有的自注意力机制，仅仅关注有限的上下文信息，轻量级卷积和轻量级动态卷积结合了深度可分离卷积和分组卷积的优点，减小了模型参数，每个通道都能够并行地计算，使得计算量从现有的自注意力机制的二次方关系变成了线性关系，减小了模型计算复杂度，降低了文本转化语音所需的内存消耗，特别是文本特征提取和规整模块和语音生成模块的内存消耗和计算复杂度。

轻量级卷积的卷积核权重在训练后是固定的，而轻量级动态卷积的卷积核权重是动态预测的，能够根据输入的特征进行自适应调整。可以根据实际内存消耗需要、转换速度以及精确度的综合要求进行权衡使用轻量级卷积或轻量级动态卷积。

参照图2、图3和图5中包含虚线框的结构所示，多层轻量级前馈网络1211a和多层轻量级前馈网络1241a中，每层轻量级前馈网络除了包括：轻量级卷积或轻量级动态卷积之外，还包括：自注意力神经网络和信息融合模块。轻量级卷积的卷积核权重在训练之后是固定的，轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成。本实施例中，轻量级卷积或轻量级动态卷积的结构可以参照前面有关图4中(a)和(b)的描述，这里不再赘述。

参照图5所示，待处理的文本信息以词向量形式输入，基于特征通道掩码将输入的文本信息沿着词向量通道维度分割为两个部分。其中一个部分使用轻量级卷积或轻量级动态卷积提取局部上下文信息，其中另一个部分通过自注意力神经网络提取全局信息。信息融合模块用于将局部上下文信息和全局信息进行融合。

参照图5所示，在上述两种前馈网络的结构方案中，每层轻量级前馈网络还包括：深度可分离卷积和分组卷积。在不含虚线框所示例的轻量级前馈网络的结构中，轻量级卷积或轻量级动态卷积输出的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。在包含虚线框所示例的轻量级前馈网络的结构中，信息融合模块融合后的信息经过归一化处理后再经过深度可分离卷积和分组卷积进行深层特征的提取。其中，如果经过轻量级卷积或轻量级动态卷积提取出来的特征的维度与自注意力神经网络提取的特征的维度不相同，那么经过轻量级卷积或轻量级动态卷积提取出来的特征也可以由线性层将其映射为和自注意力神经网络提取的特征一样的维度，以进行信息融合操作，如图5所示。

通过采用通道掩码技术，将输入的文本信息沿着词向量通道维度分割为两个部分，其中一个部分使用轻量级卷积或轻量级动态卷积提取局部上下文信息，其中另一个部分通过自注意力神经网络提取全局信息，提取特征所需的计算量远小于将完整文本输入至现有的基于自注意力机制的神经网络的计算量，降低了内存消耗，并且还减少了模型参数，加快了推理速度。

需要说明的是，图5中，输入至归一化的两个箭头表示将输入的两个部分(一部分是直接输入的，另一个部分是经过处理后输入的)进行加和之后再做归一化处理。

下面参照图6来描述一实例所示的轻量级多说话人语音合成系统12实现文本到语音转换的过程。

参照图6所示，轻量级编码器接收待合成语音对应的文本作为输入，也可以将输入文本描述为：待处理的文本信息，轻量级编码器使用多层轻量级前馈网络对输入文本进行编码和深层特征的提取。轻量级时长预测网络接收轻量级编码器输出的深层文本特征，并基于多层深度可分离卷积网络预测出深层文本特征对应的每个字或者词的时长。特征长度规整模块接收时长预测网络预测的时长信息，并根据该时长信息将轻量级编码器输出的深层文本特征的长度进行拓展，使拓展后的文本深层特征的长度与目标梅尔频谱的长度一致；同时，绝对位置编码层为每个文本深度特征标注位置信息，使得多层轻量级前馈网络能够利用到位置信息来提取更具有表征能力的特征。

为了实现语音克隆或多说话人语音合成，需要一句目标说话人的语音，并转换为梅尔频谱，再使用时延神经网络来提取出目标说话人的深度特征向量，进行归一化操作后生成可以表征目标说话人的特征，将该目标说话人的特征与经过长度规整后的文本特征进行拼接融合。

轻量级解码器端接收融合后的特征，赋予相对位置编码后使用多层轻量级前馈网络进行更深层特征提取。梅尔频谱映射模块接收轻量级解码器输出的深层特征，并将其映射为和目标梅尔频谱一样的维度。基于后处理网络预测残差信息，使得生成的梅尔频谱更加完整。基于声码器将生成的梅尔频谱转换为人耳能够听到的语音。

本实施例的轻量级多说话人语音合成系统中，文本特征提取和规整模块采用轻量级编码器和轻量级时长预测网络对文本进行编码和特征提取以及通过对文本深层特征对应的词或音素的时长预测和规整处理，得到规整的文本特征，完成了文本到语音的对齐，不再需要现有技术中普遍采用的注意力机制来隐式地学习上述对齐，使得语音的合成速度大大加快。基于说话人特征提取模块可以根据目标说话人的一段语音(该语音与文本的内容可以没有关联)提取出目标说话人深度特征向量以生成表征目标说话人的特征，目标说话人可以是一个或多个(≥2个)说话人，基于目标说话人的特征和规整的文本特征融合之后得到的特征进行深层特征提取以生成目标说话人的语音，采用非自回归的方式生成目标说话人的语音，极大地提升了语音合成的速度，同时可以将待处理的文本快速地转化为多个不同说话人风格的语音。

根据本公开的实施例，轻量级多说话人语音合成系统中的参数通过以辅助模型的输出作为标签进行训练获得。其中，所述轻量级多说话人语音合成系统基于训练集进行训练，训练集包括：训练文本、训练文本在辅助模型中得到的训练输出音频对应的梅尔频谱和特定说话人的特征；训练的输入为训练文本和特定说话人的特征，输出为所述训练文本在辅助模型中得到的训练输出音频对应的梅尔频谱。其中，轻量级时长预测网络的参数是通过以辅助模型得到的训练文本中词或者音素对应的时长信息作为标签进行训练获得。辅助模型包括：预先训练好的基于注意力机制的自回归语音合成模型。其中所述基于注意力机制的自回归语音合成模型的输入为文本和特定说话人的特征，输出为与输入的文本和特定说话人的特征对应的特定说话人的语音。

上述轻量级多说话人语音合成系统中的参数通过以辅助模型的输出作为标签进行训练获得的过程采用的为先验分布近似技术，使得轻量级多说话人语音合成系统向着趋近于辅助模型的输入、输出的方向逼近，那么在轻量级多说话人语音合成系统的参数训练过程中，其输出与先验的辅助模型分布趋于一致。

上述辅助模型用来辅助训练轻量级多说话人语音合成系统以得到轻量级多说话人语音合成系统中的各个参数，在训练完成之后，上述辅助模型不再需要，实际使用时，直接采用上述轻量级多说话人语音合成系统实现文本到语音的转换即可。

图7为根据公开一实施例所示的辅助模型的结构框图。为了与前述的轻量级多说话人语音合成系统中的各个模块进行区分，本实施例中，与前述模块可能存在歧义的描述采用“第二”进行修饰。

根据本公开的实施例，基于注意力机制的自回归语音合成模型包括：第二编码器111、第二说话人特征提取模块112、第二特征融合模块113以及第二解码器114。

上述辅助模型11除了包括：预先训练好的基于注意力机制的自回归语音合成模型之外，还包括：语音识别模型116。

第二编码器111用于将输入的文本进行编码和特征提取。

第二说话人特征提取模块112用于基于时延神经网络从特定说话人的语音对应的梅尔频谱中提取出特定说话人深度特征向量并进行归一化处理，以生成能够表征特定说话人的特征。在一实施例中，采用文本无关的方式训练以说话人分类为目标的时延神经网络(TDNN)。

第二特征融合模块113用于将特定说话人的特征与提取出的文本特征进行融合。

基于前馈注意力机制将融合后的特征输入至第二解码器114，第二解码器114用于基于输入的融合后的特征生成特定说话人的语音。

语音识别模块116用于将基于注意力机制的自回归语音合成模型输出的特定说话人的语音对应的梅尔频谱重构为文本。

其中，通过训练辅助模型11，使得重构的文本具有最小的重构损失，以确保基于注意力机制的自回归语音合成模型输出的特定说话人的语音为完整准确的语音。

通过在辅助模型11中设置语音识别模型，基于语音识别模型将生成的特定说话人的语音对应的梅尔频谱重构为文本，通过训练辅助模型，使得重构的文本具有最小的重构损失，能够减少或避免跳字和漏字现象。

示例性的，辅助模型训练的损失函数L_aux的表达式如下：

其中，L_ASR为语音识别的重构损失函数；L_TTS为语音合成的损失函数；

是一个超参数，用来平衡语音识别和语音合成这两个损失函数的权重。

轻量级多说话人语音合成系统的损失函数的表达式如下：

L＝L₁(y，y₁’)+L₁(y，y₂’)+MSE(d，d’) (2)

其中，y₁’是未经过后处理网络的合成梅尔频谱；y₂’是经过后处理网络补充残差信息的合成梅尔频谱；y是辅助模型提供的目标梅尔频谱。d是从辅助模型中提取的字或音素的时长信息，d’是轻量级多说话人语音合成系统的轻量级时长预测网络预测的时长信息；L₁表示平均绝对值损失函数；MSE表示均方误差损失函数。

通过基于先验分布近似技术，使得轻量级多说话人语音合成系统向着趋近于辅助模型的输入、输出的方向逼近，那么在轻量级多说话人语音合成系统的参数训练过程中，其输出与先验的辅助模型分布趋于一致。

根据本公开的实施例，辅助模型11中包含音调信息，基于轻量级多说话人语音合成系统的训练过程将音调信息从辅助模型输出的梅尔频谱中隐式地传授给轻量级多说话人语音合成系统。

参照图7所示，上述辅助模型还包括：基频预处理网络115。基频预处理网络115用于从训练语音中提取音调信息，并将提取的音调信息输入至基于注意力机制的自回归语音合成模型，使得辅助模型11中包含音调信息。其中，训练语音的内容与基于注意力机制的自回归语音合成模型输入的文本的内容是一致的。

参照图7所示，为了将用于提取音调信息的语音与由第二解码器输出的语音进行区分，将用于基频预处理网络115进行处理的语音称为训练语音，采用基频预处理网络从训练语音中可以提取出特定说话人的音调信息，上述训练语音的内容与基于注意力机制的自回归语音合成模型输入的文本的内容是一致的，例如，输入的文本内容为“我非常喜欢中国人”，训练语音的内容也是“我非常喜欢中国人”。

参照图7所示，用于输入至第二说话人特征提取模块112中的说话人的一段语音的梅尔频谱对应的语音内容与输入至第二编码器111的文本的内容是没有关联的，二者可以相同，也可以不同。

通过在辅助模型中引入音调信息，使其能够生成自然的、富有韵律感的语音，并且通过先验分布近似技术将音调信息从辅助模型生成的梅尔频谱中隐式地传授给轻量级多说话人语音合成系统，使得轻量级多说话人语音合成系统不再需要专门用于音调预测的音调预测网络也能合成出自然的、富有韵律感的语音。

本公开的第二个示例性实施例还提供了一种电子设备，上述电子设备包括：如上所述的任一种轻量级多说话人语音合成系统。

上述电子设备可以为：计算机、智能手机或人工智能设备等。

本公开的文本转化为语音的系统能够部署在资源受限的嵌入式系统中，极大地提升了语音合成技术的应用范围，使得语音合成技术不仅仅局限于云端，还可以搭载于便携式电子设备上。

基于上述，前馈的轻量级神经网络架构为包括轻量级卷积或轻量级动态卷积的多层轻量级前馈网络，不再需要注意力机制来学习文本到语音的对齐关系。此外，还可以通过富有表现力的多说话人自回归语音合成模型作为辅助模型来实施轻量级多说话人语音合成系统中参数的训练，并且使用先验分布近似技术，得到一个参数量小，速度快，合成语音质量优的轻量级语音合成模型。

综上所述，本公开提供了一种轻量级多说话人语音合成系统及电子设备，通过轻量级的神经网络架构设计以及非自回归的语音生成模式，极大地提升了了语音合成的速度。通过轻量级卷积技术以及通道掩码技术，减小了模型计算复杂度，降低了所需的内存消耗。轻量级多说话人语音合成系统通过构建说话人特征提取模块，能够实现多说话人的语音合成以及语音克隆。轻量级多说话人语音合成系统通过辅助模型引入语音音调信息，提高了合成语音的韵律感和自然度。本公开的轻量级多说话人语音合成系统参数量较少，能够部署在资源受限的嵌入式系统中，极大地提升了语音合成技术的应用范围，使得语音合成技术不仅仅局限于云端，还可以搭载于便携式电子设备上，极大地拓展了应用范围。

根据本公开的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现，例如文本特征提取和规整模块121、说话人特征提取模块122、特征融合模块123以及语音生成模块124中的两个或多个可以在一个模块实现。根据本公开实施例的模块中的任意一个或多个可以被拆分成多个模块来实现，例如文本特征提取和规整模块121、说话人特征提取模块122、特征融合模块123以及语音生成模块124中的一个或多个可以拆分为多个模块实现。根据本公开实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上所述的具体实施例，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本公开的具体实施例而已，并不用于限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种轻量级多说话人语音合成系统，其特征在于，包括：

文本特征提取和规整模块，用于采用轻量级编码器将待处理的文本信息进行编码和特征提取，并采用轻量级时长预测网络对轻量级编码器输出的文本深层特征对应的每个词或音素进行时长预测，以及用于进行长度规整处理，以得到与目标梅尔频谱长度相等的规整的文本特征，所述目标梅尔频谱为所述待处理的文本信息所要转化的语音的梅尔频谱；

说话人特征提取模块，用于基于时延神经网络从目标说话人的语音对应的梅尔频谱中提取出目标说话人的深度特征向量并进行归一化处理，以生成能够表征目标说话人的特征；

特征融合模块，用于将目标说话人的特征与规整的文本特征进行融合；以及

语音生成模块，用于采用轻量级解码器对融合后的特征进行深层特征提取，并用于将提取出的深层特征映射至与目标梅尔频谱相同的维度，基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱，以及将生成的目标梅尔频谱转换为人耳能够听到的语音。

2.根据权利要求1所述的轻量级多说话人语音合成系统，其特征在于，所述轻量级编码器和所述轻量级解码器包括：多层轻量级前馈网络，每层轻量级前馈网络包括：轻量级卷积或轻量级动态卷积，

其中，所述轻量级卷积的卷积核权重在训练之后是固定的，所述轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成；

所述轻量级卷积或轻量级动态卷积沿着词向量通道维度划分为不同的组，每组都进行独立的计算，并且组内的卷积核参数是共享的；在每组的计算过程中使用深度可分离卷积，使得每组内词向量各个通道能够并行计算。

3.根据权利要求1所述的轻量级多说话人语音合成系统，其特征在于，所述轻量级编码器和所述轻量级解码器包括：多层轻量级前馈网络，每层轻量级前馈网络包括：轻量级卷积或轻量级动态卷积，所述轻量级卷积的卷积核权重在训练之后是固定的，所述轻量级动态卷积的卷积核权重根据当前输入的词或音素的嵌入特征动态生成；每层轻量级前馈网络还包括：自注意力神经网络和信息融合模块；

其中，待处理的文本信息以词向量形式输入，基于特征通道掩码将所述输入的文本信息沿着词向量通道维度分割为两个部分，其中一个部分使用轻量级卷积或轻量级动态卷积提取局部上下文信息，其中另一个部分通过自注意力神经网络提取全局信息；所述信息融合模块用于将所述局部上下文信息和所述全局信息进行融合。

4.根据权利要求3所述的轻量级多说话人语音合成系统，其特征在于，每层轻量级前馈网络还包括：深度可分离卷积和分组卷积；其中，信息融合模块融合后的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。

5.根据权利要求2所述的轻量级多说话人语音合成系统，其特征在于，每层轻量级前馈网络还包括：深度可分离卷积和分组卷积；其中，轻量级卷积或轻量级动态卷积输出的信息经过归一化处理后再经过所述深度可分离卷积和所述分组卷积进行深层文本特征的提取。

6.根据权利要求2-5中任一项所述的轻量级多说话人语音合成系统，其特征在于，所述文本特征提取和规整模块包括：所述轻量级编码器、所述轻量级时长预测网络、特征长度规整模块以及绝对位置编码层；

其中，所述轻量级时长预测网络用于接收轻量级编码器输出的文本深层特征，并基于多层深度可分离卷积网络预测出文本深层特征对应的每个词或者音素的时长；

所述特征长度规整模块用于根据预测的时长将轻量级编码器输出的文本深层特征的长度进行拓展，使得拓展后的文本深层特征的长度与目标梅尔频谱的长度一致；

所述绝对位置编码层用于为每个文本深度特征标注位置信息，使得轻量级编码器中的多层轻量级前馈网络能够利用所述位置信息来提取更具表征能力的特征。

7.根据权利要求2-5中任一项所述的轻量级多说话人语音合成系统，其特征在于，所述语音生成模块包括：所述轻量级解码器、相对位置编码层、梅尔频谱映射模块、后处理网络、梅尔频谱生成模块以及声码器；

所述相对位置编码层用于对融合后的特征标注相对位置信息，使得解码器中的多层前馈网络能够利用所述相对位置信息来增强特征之间的关联性；

所述梅尔频谱映射模块用于将提取出的深层特征映射至与目标梅尔频谱相同的维度；

所述后处理网络用于预测梅尔频谱的残差信息；

所述梅尔频谱生成模块用于基于预测的残差信息和映射后的深层特征生成待处理的文本对应的目标梅尔频谱；

所述声码器用于将目标梅尔频谱转换为人耳能够听到的语音。

8.根据权利要求1所述的轻量级多说话人语音合成系统，其特征在于，所述轻量级多说话人语音合成系统中的参数通过以辅助模型的输出作为标签进行训练获得；

其中，所述轻量级多说话人语音合成系统基于训练集进行训练，训练集包括：训练文本、训练文本在辅助模型中得到的训练输出音频对应的梅尔频谱和特定说话人的深度特征向量；训练的输入为训练文本和特定说话人的特征，输出为所述训练文本在辅助模型中得到的训练输出音频对应的梅尔频谱；

其中，轻量级时长预测网络的参数是通过以辅助模型得到的训练文本中词或者音素对应的时长信息作为标签进行训练获得；

所述辅助模型包括预先训练好的基于注意力机制的自回归语音合成模型，所述基于注意力机制的自回归语音合成模型的输入为文本和特定说话人的深度特征向量，输出为与输入的文本和特定说话人的特征对应的特定说话人的语音。

9.根据权利要求8所述的轻量级多说话人语音合成系统，其特征在于，所述辅助模型中包含音调信息，基于轻量级多说话人语音合成系统的训练过程将音调信息从辅助模型输出的梅尔频谱中隐式地传授给轻量级多说话人语音合成系统。

10.根据权利要求9所述的轻量级多说话人语音合成系统，其特征在于，所述辅助模型还包括：

语音识别模块，用于将所述基于注意力机制的自回归语音合成模型输出的特定说话人的语音对应的梅尔频谱重构为文本；

其中，通过训练所述辅助模型，使得重构的文本具有最小的重构损失，以确保所述基于注意力机制的自回归语音合成模型输出的所述特定说话人的语音为完整准确的语音。

11.根据权利要求10所述的轻量级多说话人语音合成系统，其特征在于，所述辅助模型还包括：

基频预处理网络，用于从训练语音中提取音调信息，并将所述音调信息输入至所述基于注意力机制的自回归语音合成模型，使得所述辅助模型中包含音调信息；其中，所述训练语音的内容与所述基于注意力机制的自回归语音合成模型输入的文本的内容是一致的。

12.一种电子设备，其特征在于，包括：权利要求1-11中任一项所述的轻量级多说话人语音合成系统。