CN114267329A

CN114267329A - 基于概率生成和非自回归模型的多说话人语音合成方法

Info

Publication number: CN114267329A
Application number: CN202111601179.2A
Authority: CN
Inventors: 李琳; 欧阳贝贝; 洪青阳
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-01

Abstract

本发明提出了一种基于概率生成和非自回归模型的多说话人语音合成方法，包括：S1、说话人个性化编码器和概率生成编码器接收目标梅尔频谱并分别提取说话人个性化向量和概率生成向量；S2、基于深度网络的编码器对拼接融合的输入向量进行编码得到音素级深层特征；S3、音素时长预测器接收拼接融合的融合特征并预测音素时长序列；S4、长度规整网络接收音素时长序列并对融合特征进行扩展，得到帧级特征；S5、基于深度网络的解码器接收帧级特征并映射为预测梅尔频谱，后处理网络补充预测梅尔频谱的残差信息；S6、声码器将补充了残差信息的预测梅尔频谱映射为声音波形，得到合成语音。本发明能够提高多说话人语音合成系统的泛化性和合成语音的相似性。

Description

基于概率生成和非自回归模型的多说话人语音合成方法

技术领域

本发明涉及语音合成的技术领域，具体涉及一种基于概率生成和非自回归模型的多说话人语音合成方法。

背景技术

语音合成(Text To Speech，TTS)是指可以将任意文字转换为音频的技术，近年来，基于深度学习的端到端单说话人语音合成模型已经能合成清晰且自然的语音，随着语音合成技术的进一步发展，其应用场景逐渐增多，对多说话人语音合成技术也有了一定的需求，如：音库快速定制、有声小说等。

传统的多说话人语音合成(multi-speaker TTS)系统以独热向量来表示说话人身份，并通过改变独热向量以合成特定说话人的语音，但是独热向量只是一种离散的表示，本身不包含说话人信息，只能表示数据集中出现的说话人。

针对集外样本的场景，主流的多说话人语音合成系统独立训练说话人识别系统与语音合成系统，为多说话人语音合成模型提供预训练的说话人个性化编码器，再将说话人个性化编码器引入到语音合成系统中，使用其编码的说话人嵌入向量表示说话人身份，说话人嵌入向量包含了目标说话人的特征信息。相比于传统的多说话人语音合成系统，该系统可以对数据集外的说话人进行建模，且可以从语音合成训练数据之外的数据中获益。但是，该系统对于集外说话人的语音合成具有泛化性不足、相似度较低的缺陷。

此外，常见的多说话人语音合成模型基于单说话人模型的声学特征合成框架进行拓展，大多使用自回归模型，无法并行解码导致合成语音较慢；少数使用非自回归模型的多说话人语音合成系统存在对集外说话人的合成语音泛化性的问题。

因此，本申请提供一种基于概率生成和非自回归模型的多说话人语音合成方法，以实现能够提取出更具有泛化性的说话人特征，且提高集外说话人语音合成相似度。

发明内容

为了解决现有技术中的多说话人语音合成系统针对数据集外说话人具有的泛化性不足、相似度较低的技术问题，本发明提出了一种基于概率生成和非自回归模型的多说话人语音合成方法，用于解决上述技术问题以实现。

本申请提出了一种基于概率生成和非自回归模型的多说话人语音合成方法，包括：

S1、多说话人语音合成系统接收文本向量和目标说话人语音转换成的目标梅尔频谱作为输入，说话人个性化编码器和概率生成器接收所述目标梅尔频谱，并分别提取出说话人个性化向量和概率生成向量；

S2、基于深度网络的编码器接收由所述说话人个性化向量和所述文本向量拼接融合后的输入向量，对所述输入向量进行编码并提取深层次的特征得到音素级深层特征；

S3、利用音素时长预测器接收由所述音素级深层特征和所述概率生成向量拼接融合后的融合特征，并预测出音素时长序列；

S4、利用长度规整网络接收所述音素时长序列并对所述融合特征进行扩展，使得所述融合特征的长度与所述目标梅尔频谱的时间长度相等，从而得到帧级特征；

S5、基于深度网络的解码器接收所述帧级特征并映射为与所述目标梅尔频谱相同维度的预测梅尔频谱，利用后处理网络补充所述预测梅尔频谱的残差信息；

S6、利用声码器将补充了残差信息的所述预测梅尔频谱映射为声音波形，得到合成语音。

通过上述技术方案，以单句目标说话人语音转换成的梅尔频谱作为输入，通过说话人编码器和概率生成编码器分别提取出说话人个性化向量和概率生成向量并联合成输入向量，基于深度网络的编码器对输入向量进行编码得到音素级深层特征，然后通过音素时长预测器接收由音素级深层特征和概率生成向量拼接融合的融合特征并预测出音素时长序列，再通过长度规整网络对融合特征进行规整得到帧级特征，基于深度网络的解码器将帧级特征映射为预测梅尔频谱，通过后处理网络补充残差信息，最后经由声码器映射为声音波形，从而合成语音。本发明能够提取出更具有泛化性的说话人特征，满足对集外说话人语音合成的应用需求，可用于非自回归的多说话人语音合成的模型构建中，提高多说话人语音合成系统的泛化性和合成语音的相似性。

优选的，所述概率生成编码器与所述多说话人语音合成系统通过优化损失函数进行联合优化，从而从所述目标梅尔频谱中提取出所述概率生成向量。

概率生成向量包含了句子级别的说话人个性化信息和文本信息，文本信息在基于深度网络的编码器中已经被捕获，说话人个性化信息可以对说话人个性向量中缺失的说话人表征进行弥补。

优选的，所述优化损失函数具体为：

其中，L为多说话人语音合成系统的优化损失函数，MAE为绝对误差，MSE为均方误差，x为目标梅尔频谱，

为未经过后处理网络的预测梅尔频谱，

为经过后处理网络的预测梅尔频谱，d为通过预训练的语音识别模型提取的真实音素时长序列，

为音素时长预测器预测的音素时长序列，KL表示概率生成编码器估计出的z的分布q_φ(z|x)和预先假设的z的先验分布p_θ(z)之间的距离，p_θ(z)为标准正态分布。

优选的，所述概率生成编码器包括二维卷积神经网络、门控循环单元和第一全连接层，所述概率生成向量的获取步骤具体包括：

利用变分自编码器接收所述目标梅尔频谱，输出固定长度的向量；

所述向量经过所述二维卷积神经网络，所述二维卷积神经网络中的卷积层提取出所述目标说话人语音中的局部特征，得到输出序列；

所述输出序列经过所述门控循环单元建立时序相关性；

所述门控循环单元的最后一个时间步的最后一个状态输入至第一全连接层，所述第一全连接层输出得到概率分布的均值和标准差，对所述概率分布的均值和标准差进行采样，从而获取所述概率生成向量。

优选的，所述说话人个性化编码器采用的是x-vector模型，所述x-vector模型是通过对文本无关的说话人识别任务进行预训练，再固定相关参数得到的，所述x-vector模型包括帧级别学习层、统计池化层和段级别学习层，所述说话人个性化向量的获取步骤具体包括：

所述帧级别学习层接收所述目标梅尔频谱，获取深层次的说话人特征并输入至所述统计池化层；

所述统计池化层计算所述目标说话人语音中每句话的均值和标准差并输入至所述段级别学习层；

所述段级别学习层包含两层第二全连接层，选取第一层所述第二全连接层提取出所述说话人个性化向量。

进一步优选的，在所述二维卷积神经网络中的每一层卷积层后均加入批量归一化层。

通过在二维卷积神经网络中的每一层卷积层后均加入批量归一化层，使得网络在各层的中间输出的值更为稳定。

进一步优选的，所述帧级别学习层采用分解时延神经网络，所述分解时延神经网络将每一层时延神经网络拆分成两个低秩矩阵的乘积，并对第一个所述低秩矩阵进行半正交化。

通过采用分解时延神经网络，保证信息从高维到低维没有流失，这样能在相同建模能力下具有更少的参数量，且分解时延神经网络使用了跳连接的结构，有助于构建更深的网络模型，获取到更抽象的说话人表征。

优选的，所述多说话人语音合成系统是通过多组原始语音训练得到的，在训练所述多说话人语音合成系统之前还包括：对所述原始语音进行数据预处理，其中，所述数据预处理包括静音处理、音量归一化、提取梅尔频谱作为声学特征和声学特征均值方差归一化。

静音处理可以在训练时加快数据加载的过程，减少占用的资源；音量归一化可以保证合成语音过程中音量的一致性；提取梅尔频谱作为声学特征和声学特征均值方差归一化有助于模型更好地拟合特征分布。

进一步优选的，所述静音处理具体包括：裁剪掉所述原始语音中开头和结尾较长时间的静音。

进一步优选的，所述声学特征均值方差归一化的公式具体为：

其中，X为当前声学特征值，X_mean为训练集中声学特征的均值，σ为训练集中声学特征的标准差，X_scale为归一化后的声学特征值。

本申请提出了一种基于概率生成和非自回归模型的多说话人语音合成方法，以单句目标说话人语音转换成的梅尔频谱作为输入，再通过说话人编码器和概率生成编码器分别提取出说话人个性化向量和概率生成向量以联合提取目标说话人表征；其中概率生成编码器与整个多说话人语音合成系统联合优化，其提取的概率生成向量包含了句子级别的说话人个性化信息和文本信息，文本信息在基于深度网络的编码器中已经被捕获，说话人个性化信息可以对说话人个性向量中缺失的说话人表征进行弥补。本申请能够提取出更具有泛化性的说话人特征，满足对集外说话人语音合成的应用需求，可用于非自回归的多说话人语音合成的模型构建中，提高多说话人语音合成的泛化性和合成语音的相似性。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。

图1是根据本发明实施例的基于概率生成和非自回归模型的多说话人语音合成方法的流程图；

图2是根据本发明一个具体实施例的概率生成编码器的结构图；

图3是根据本发明一个具体实施例的x-vector模型的结构图；

图4是根据本发明一个具体实施例的基于概率生成和非自回归模型的多说话人语音合成网络结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括.....”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了根据本发明实施例的基于概率生成和非自回归模型的多说话人语音合成方法的流程图，如图1所示，该语音合成方法包括以下步骤：

S1、多说话人语音合成系统接收文本向量和目标说话人语音转换成的目标梅尔频谱作为输入，说话人个性化编码器和概率生成器接收目标梅尔频谱，并分别提取出说话人个性化向量和概率生成向量。

在具体的实施例中，文本向量作为多说话人语音合成系统的输入，文本向量中包含了多说话人语音合成系统所需的文本信息，同时输入的目标梅尔频谱也携带有文本信息。多说话人语音合成系统是通过多组原始语音训练得到的，在训练多说话人语音合成系统之前，对原始语音进行数据预处理，其中，数据预处理具体包括：静音处理、音量归一化、提取梅尔频谱作为声学特征和声学特征均值方差归一化。

具体的，静音处理具体包括：

裁剪掉所述原始语音中开头和结尾较长时间的静音。静音处理可以在训练时加快数据加载的过程，减少占用的资源。

音量归一化则可以保证合成语音过程中音量的一致性。

提取梅尔频谱作为声学特征具体包括：

利用Librosa语音处理包对原始语音进行处理生成80维的梅尔频谱特征，将梅尔频谱特征作为所述声学特征。

声学特征均值方差归一化的公式具体为：

其中，X为当前声学特征值，X_mean为训练集中声学特征的均值，σ为训练集中声学特征的标准差，X_scale为归一化后的声学特征值。通过声学特征均值方差归一化，有助于模型更好地拟合特征分布。

图2示出了根据本发明一个具体实施例的概率生成编码器的结构图，如图2所示，在具体的实施例中，概率生成编码器包括6层卷积核大小为3×3步长为22的二维卷积神经网络、门控循环单元和第一全连接层。在其它实施方式中，可根据不同的需求调节二维卷积神经网络的参数。概率生成向量的提取过程如下：

本实施例中，采用变分自编码器接收目标梅尔频谱，输出固定长度的向量，该向量表示目标说话人的状态表征。向量经过二维卷积神经网络，二维卷积神经网络的卷积层采用相同补零的方法(Same Padding)，卷积核数量分别为32，32，64，64，128，128，卷积层提取出目标说话人语音中的局部特征，得到一个输出序列。由于输出序列是可变长度的序列，且包含了大量的时序信息，因此将输出序列加入到门控循环单元(Gate Recurrent Unit，GRU)网络建立时序相关性；门控循环单元的最后一个时间步的最后一个状态作为第一全连接层的输入，第一全连接层输出得到概率分布的均值(μ)和标准差(σ)；假设真实分布为标准正态分布，均值和标准差设置为0和1；为了使目标说话人状态空间具有边界，第一全连接层的激活函数设置为Tanh激活函数，对均值和标准差并采样获得概率生成向量。

在优选的实施例中，为了使得网络在各层的中间输出的值更为稳定，在二维卷积神经网络中的每一层卷积层后均加入批量归一化层(由于该操作常使用于卷积层后，因此在图中不体现)。

图3示出了根据本发明一个具体实施例的x-vector模型的结构图，如图3所示，在具体的实施例中，说话人个性化编码器采用的是x-vector模型，x-vector模型是通过对文本无关的说话人识别任务进行预训练，再固定相关参数得到的，x-vector模型包括帧级别学习层、统计池化层和段级别学习层。说话人个性化向量的提取过程如下：

帧级别学习层接收目标梅尔频谱，帧级别学习层在学习中使用了分解时延神经网络(Factorized Time Delay Neural Network，FTDNN)，相比于时延神经网络(Time DelayNeural Network,TDNN)，FTDNN将每一层TDNN拆成两个低秩矩阵的乘积，通过半正交化第一个低秩矩阵，保证信息从高维到低维没有流失，这样能在相同建模能力下具有更少的参数量，且FTDNN使用了跳连接的结构，有助于构建更深的网络模型，获取到深层次的说话人表征。统计池化层接收深层次的说话人表征，统计池化层可以计算目标说话人语音中每句话的均值和标准差，拼接后作为段级别学习层的输入。段级别学习层包含了两层第二全连接层，本实施例中使用其中的第一层来提取说话人嵌入向量，也就是说话人个性化向量，而第二层则是提取说话人标签。

继续参照图1，在步骤S1之后，

S2、基于深度网络的编码器接收由说话人个性化向量和文本向量拼接融合后的输入向量，对输入向量进行编码并提取深层次的特征得到音素级深层特征。

图4示出了根据本发明一个具体实施例的基于概率生成和非自回归模型的多说话人语音合成网络结构图，如图4所示，在具体的实施例中，概率生成编码器与多说话人语音合成系统通过优化损失函数进行联合优化，从而从目标梅尔频谱中提取出概率生成向量。概率生成向量包含了句子级别的说话人个性化信息和文本信息，文本信息在基于深度网络的编码器中已经被捕获，说话人个性化信息可以对说话人个性向量中缺失的说话人表征进行弥补，为多说话人语音合成系统提供更全面的说话人信息。其中，优化损失函数的表达式具体为：

z＝f_vae(x)

其中，z为概率生成向量，t为输入的文本信息，s为说话人个性化编码器提取的说话人个性化向量，d为通过预训练的语音识别模型提取的真实音素时长序列，

为音素时长预测器预测的音素时长序列，x为目标梅尔频谱，

为未经过后处理网络的预测梅尔频谱，

为经过后处理网络的预测梅尔频谱，L为多说话人语音合成系统的优化损失函数，f_vae为概率生成编码器，f_enc为基于深度网络的编码器，f_dur为音素时长预测器，f_len为长度规整网络，f_dec为基于深度网络的解码器；MAE为绝对误差，MSE为均方误差，KL表示概率生成编码器估计出的z的分布q_φ(z|x)和预先假设的z的先验分布p_θ(z)之间的距离，p_θ(z)为标准正态分布。

继续参照图1和图4，在步骤S2之后，

S3、利用音素时长预测器接收由音素级深层特征和概率生成向量拼接融合后的融合特征，并预测出音素时长序列。

S4、利用长度规整网络接收音素时长序列并对融合特征进行扩展，使得融合特征的长度与目标梅尔频谱的时间长度相等，从而得到帧级特征。

在具体的实施例中，融合特征的每个元素根据音素时长序列中对应的数值进行倍数扩展。

S5、基于深度网络的解码器接收帧级特征并映射为与目标梅尔频谱相同维度的预测梅尔频谱，利用后处理网络补充预测梅尔频谱的残差信息。

S6、利用声码器将补充了残差信息的预测梅尔频谱映射为声音波形，得到合成语音。

本发明提出了一种基于概率生成和非自回归模型的多说话人语音合成方法，以单句目标说话人语音转换成的梅尔频谱作为输入，通过说话人编码器和概率生成编码器分别提取出说话人个性化向量和概率生成向量并联合成输入向量，基于深度网络的编码器对输入向量进行编码得到音素级深层特征，然后通过音素时长预测器接收由音素级深层特征和概率生成向量拼接融合的融合特征并预测出音素时长序列，再通过长度规整网络规整得到帧级特征，基于深度网络的解码器将帧级特征映射为预测梅尔频谱，通过后处理网络补充残差信息，最后经由声码器映射为声音波形，从而合成语音。

本发明引入的概率生成编码器以真实梅尔频谱为声学特征进行高斯分布概率建模，该生成过程不受限于训练集的数据，具备对真实数据较强的表征力，提高了对集外数据的泛化能力；概率生成编码器可以准确建模潜在空间分布，从真实梅尔频谱中推断出句子级别的全局特征，其中包含的目标说话人信息可以弥补预训的说话人个性化编码器由于任务不同而未关注到的目标说话人表征，提高了合成语音与目标语音的说话人特征的相似度。此外，概率生成编码器与多说话人语音合成系统联合优化，能更好地适配多说话人语音合成任务。综上，本发明能够提取出更具有泛化性的说话人特征，满足对集外说话人语音合成的应用需求，可用于非自回归的多说话人语音合成的模型构建中，提高多说话人语音合成的泛化性和合成语音的相似性。

在本申请实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置/系统/方法实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本领域技术人员在不偏离本发明的精神和范围的情况下可以作出对本发明的实施例的各种修改和改变。以该方式，如果这些修改和改变处于本发明的权利要求及其等同形式的范围内，则本发明还旨在涵盖这些修改和改变。词语“包括”不排除未在权利要求中列出的其它元件或步骤的存在。某些措施记载在相互不同的从属权利要求中的简单事实不表明这些措施的组合不能被用于获利。权利要求中的任何附图标记不应当被认为限制范围。

Claims

1.一种基于概率生成和非自回归模型的多说话人语音合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述概率生成编码器与所述多说话人语音合成系统通过优化损失函数进行联合优化，从而从所述目标梅尔频谱中提取出所述概率生成向量。

3.根据权利要求2所述的方法，其特征在于，所述优化损失函数具体为：

为未经过后处理网络的预测梅尔频谱，

4.根据权利要求1所述的方法，其特征在于，所述概率生成编码器包括二维卷积神经网络、门控循环单元和第一全连接层，所述概率生成向量的获取步骤具体包括：

所述输出序列经过所述门控循环单元建立时序相关性；

5.根据权利要求1所述的方法，其特征在于，所述说话人个性化编码器采用的是x-vector模型，所述x-vector模型是通过对文本无关的说话人识别任务进行预训练，再固定相关参数得到的，所述x-vector模型包括帧级别学习层、统计池化层和段级别学习层，所述说话人个性化向量的获取步骤具体包括：

6.根据权利要求4所述的方法，其特征在于，在所述二维卷积神经网络中的每一层卷积层后均加入批量归一化层。

7.根据权利要求5所述的方法，其特征在于，所述帧级别学习层采用分解时延神经网络，所述分解时延神经网络将每一层时延神经网络拆分成两个低秩矩阵的乘积，并对第一个所述低秩矩阵进行半正交化。

8.根据权利要求1所述的方法，其特征在于，所述多说话人语音合成系统是通过多组原始语音训练得到的，在训练所述多说话人语音合成系统之前还包括：对所述原始语音进行数据预处理，其中，所述数据预处理包括静音处理、音量归一化、提取梅尔频谱作为声学特征和声学特征均值方差归一化。

9.根据权利要求8所述的方法，其特征在于，所述静音处理具体包括：裁剪掉所述原始语音中开头和结尾较长时间的静音。

10.根据权利要求8所述的方法，其特征在于，所述声学特征均值方差归一化的公式具体为：