CN113299268A

CN113299268A - 一种基于流生成模型的语音合成方法

Info

Publication number: CN113299268A
Application number: CN202110855783.1A
Authority: CN
Inventors: 陈佩云; 曹艳艳; 高君效
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-08-24

Abstract

一种基于流生成模型的语音合成方法，训练过程包括以下步骤：S11.将训练音频文本输入编码器网络，得到当前分布参数、当前隐向量、当前对齐矩阵；S12.对时长模型进行训练更新；S13.完成解码器网络和编码器网络更新；S14利用更新后的编码器网络和解码器网络；重复步骤S11至S13，直至时长模型、编码器网络和解码器网络均达到收敛。本发明利用流生成模型动态规划的特性，可自行搜索文本和语音之间的潜在表示的最有可能的单调对齐以实现高鲁棒性的语音合成，克服了在合成时可能出现的多字漏字的情况，并且能够扩展到长语音的合成。同时,利用基于流的并行生成模型可以实现快速，可控的语音合成。

Description

一种基于流生成模型的语音合成方法

技术领域

本发明属于人工智能语音合成技术领域，具体涉及一种基于流生成模型的语音合成方法。

背景技术

近年来人工智能迅速发展，人机交互也走进生活，一种自然、优美、高效的语音合成技术备受关注。语音合成技术也称为文本转换语音技术（Text To Speech，TTS），在人机交互的过程中可以充当机器的嘴巴，将想要表达的意思通过语音表达。

目前语音合成技术已经能够满足大部分场景的需求，基于端到端网络的语音合成技术的出现，克服了传统基于参数的语音合成的自然度不足，机械感重的问题，把语音合成推向新的高度。虽然目前主流的端到端网络综合合成质量很高，但端到端的语音合成技术由于采用了自回归网路在实时服务器上部署是很大的难题。另一方面，大部分的自回归模型都缺乏鲁棒性，具体表现在当输入文本过长，或者是文本包含重复的词时，自回归模型可能会产生严重的注意错误，导致合成语音出现漏读、重复读现象。虽然目前有一些非自回归的端到端模型，但在训练时需要依赖其他自回归模型做限制大幅增加训练难度。因此一种能够部署在实时服务器上，以及合成稳定性高，训练难度低的语音合成系统是一种迫切的需求。

发明内容

为克服现有技术存在的技术缺陷，本发明公开了一种基于流生成模型的语音合成方法。

本发明所述基于流生成模型的语音合成方法，包括训练过程和合成过程，所述训练过程包括以下步骤：

S10.采集训练音频和对应文本，提取音频梅尔特征，搭建初始状态的编码器网络、基于流生成模型的解码器网络和时长模型；

S11.将训练音频文本输入编码器网络，得到当前分布参数θ* ；将训练音频的梅尔特征输入基于流生成模型的解码器网络，输出当前隐向量HS；并在单调对齐规则下采用维特比算法得到当前对齐矩阵M*；

S12.利用当前对齐矩阵M*和当前分布参数θ*，根据单调对齐方式得到拟隐向量H*；

以当前分布参数θ*作为时长模型输入，以当前对齐矩阵M*作为训练目标，对时长模型进行训练更新；

S13.对基于流生成模型的解码器网络输出的当前隐向量HS与拟隐向量H*，计算出二者的均方差，作为损失函数传递给解码器网络完成解码器网络更新；

更新后的解码器网络输出中间隐向量HA，利用中间隐向量HA反推出中间对齐矩阵MA，利用中间对齐矩阵MA得到中间分布参数θA，将当前分布参数θ*与中间分布参数θA的均方差作为损失函数传递到编码器网络，更新编码器网络；从而完成一次解码器网络和编码器网络的更新；

S14利用更新后的编码器网络和解码器网络；重复步骤S11至S13，直至时长模型、编码器网络和解码器网络均达到收敛；

所述合成过程利用上述训练过程结束后得到的时长模型、编码器网络和解码器网络进行语音合成；包括以下步骤：

S21.将待合成文本信息编码，输入编码器网络生成分布参数θ。

S22.将分布参数θ输入时长模型，得到每个参数对应的时长信息；

S23.结合时长信息以及分布参数θ计算出隐向量H；

S24.将隐向量H输入解码器网络做逆运算得到梅尔特征；

S25.将梅尔特征输入声码器，得到合成音频。

优选的，所述声码器为hifi-gan声码器。

优选的，所述编码器网络包括多个首尾顺序连接的基础编码结构，每个基础编码结构包括顺序连接的多段注意力机制网络、残差网络、第一正则化模块、第一一维卷积层、Relu函数、第二一维卷积层、第二正则化模块；最后一个基础编码结构的第二正则化模块连接全连接模块。

优选的，所述解码器网络包括多个首尾顺序连接的流单元，第一个流单元输入端还连接有维度变换模块，每个流单元包含顺序连接的归一化结构、反卷积网络、仿射耦合层，最后一个流单元输出端还连接有维度反变换模块。

优选的，所述时长模型包括多个首尾顺序连接的一维卷积层，每个一维卷积层包含顺序连接的一维卷积模块、Relu激活函数、归一化模块及dropout层；最后一个一维卷积层接全连接层。

优选的，所述步骤S21具体为：

S211.对英文文本将字母、数字、常用标点、常用符号用固定且不同的编号进行编码；对中文文本先将汉字转拼音后，再采用和英文一样的方式进行编码；

S212.将每个编码转化为标准化词向量，具体计算公式如下：

其中X_k是输入的第k个字符的编码，F_emb表示词向量模型函数，h是输出的词向量维度，Y_k是第k个编码X_k得到的标准化词向量。

S213.编码器网络以标准化词向量Y_k为输入得到分布参数θ。

本发明利用流生成模型动态规划的特性，可自行搜索文本和语音之间的潜在表示的最有可能的单调对齐以实现高鲁棒性的语音合成，克服了在合成时可能出现的多字漏字的情况，并且能够扩展到长语音的合成。同时,利用基于流的并行生成模型可以实现快速，可控的语音合成。

附图说明

图1为本发明所述训练过程的一个具体实施方式的流程示意图；

图2为本发明所述合成过程的一个具体实施方式的流程示意图；

图3为本发明所述编码器网络的一个具体实施方式示意图；

图4为本发明所述解码器网络的一个具体实施方式的流程示意图；

图5为本发明所述时长模型的一个具体实施方式的流程示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述基于流生成模型的语音合成方法，包括训练过程和合成过程，所述训练过程如图1所示,包括以下步骤：

S14利用更新后的编码器网络和解码器网络；重复步骤S11至S13，直至时长模型、编码器网络和解码器网络均达到收敛。

语音合成中通常需要先将待合成文本转化为梅尔特征，再将梅尔特征转换为音频，本发明主要涉及将待合成文本转化为梅尔特征方面的改进。

本发明通过搭建解码器网络和编码器网络，对二者利用训练音频的梅尔特征进行训练。训练过程为梅尔特征作为解码器网络的逆向输入，将梅尔特征映射到隐向量H；所述隐向量H符合高斯分布，并由分布参数θ来表现；

利用编码器网络得到决定分布参数θ的第一统计参数向量α与第二统计参数向量μ；

隐向量H通过对齐矩阵M对应到所述α与μ；

首先对本发明的理论基础进行讨论，具体公式推导如下：

对P_y（y|t）建模，P_y（y|t）表示在文本序列t的条件下得到梅尔特征y的概率。

由于直接建模计算困难，引入隐向量H，可先利用基于流的解码器网络实现梅尔特征y到隐向量H的映射,

计算基于流的生成模型的对数似然为：

-----（1）

其中abs为取绝对值，det为求行列式，f_d为解码器函数，

表示解码器函数的反函数关于梅尔特征y的一阶偏导数，log表示对数运算， P_H（H|t）表示在文本序列t的条件下得到中间隐向量H的概率，P_y（y|t）表示在文本序列t的条件下得到梅尔特征y的概率。

式（1）给出P_H（H|t）与P_y（y|t）的关系。

H是根据解码器将y进行逆向计算获得。

根据式（1），可以通过计算P_H（H|t），在文本序列t条件下得到最大概率的隐向量H，等价于得到最大概率的梅尔特征y。

编码器网络将文本序列t编码对应到第一统计参数向量α与第二统计参数向量μ，编码方式并不是对文本t进行整体编码，而是将t分段后再编码。

例如将t分段后，得到t=[t₁, t₂..... t_n]，t₁, t₁,..... t_n表示n段子文本；

分布参数θ包含第一统计参数向量α与第二统计参数向量μ，第一统计参数向量α与第二统计参数向量μ分段后得到第一统计参数向量α=[α₁, α₂..... α_n], 第二统计参数μ向量=[μ₁, μ₂..... μ_n]，分段子文本根据下标1、2…n与统计参数向量中的各个向量元素一一对应。

对齐矩阵M是确定隐向量H=[H₁, H₂,..... H_K]中每个向量元素与第一统计参数向量α与第二统计参数向量μ中各个向量元素的对应关系,K为隐向量长度；由于文本t是按照单个字母进行分段，而梅尔特征是按音频帧数分段提取，音频帧数的数量远大于文本的字符数量，因此K通常远大于分段数n。

其中对齐为单调对齐，即每个H_j仅对应一个α_i与μ_i，且H_j+1只能对应α_i与μ_i或者是α_i+1与μ_i+1，

例如对H=[H₁, H₂, H₃, H₄, H₅]，α=[α₁, α₂，α₃]；

一个单调对齐方式可以为： H₁与α₁对应， H₂、H₃与α₂对应，H₄、H₅与α₃对应。

定义分布参数θ=（α，μ），则有

-----（2）

其中K为隐向量H的长度；

P_H（H|t, θ,M）表示在θ,M已知的情况下，在t条件下生成H的概率，

N（H_j,α_M（j）,μ_M（j））表示H_j服从于α_M（j）,μ_M（j）下的正态分布；

解码器网络和编码器网络训练目标是要找到分布参数θ与对齐矩阵M，使得通过以上公式（2）得到的似然概率值logP_H（H|t, θ,M）最大。利用公式（2）可以在单调对齐规则下根据隐向量和分布参数θ得到对齐矩阵。

具体的训练策略如下：

S11. 将训练音频对应文本输入编码器网络，得到当前分布参数θ* ；将训练音频的梅尔特征输入基于流生成模型的解码器网络，输出当前隐向量HS；并在单调对齐规则下采用维特比算法得到当前对齐矩阵M*；

训练音频可以通过采集单个说话人高质量音频，每条音频包含对应的文本；音频的梅尔特征计算为本领域现有技术，在此不再赘述。第一次训练时，编码器网络和解码器网络均为初始设定。

S13.对基于流生成模型的解码器网络输出的当前隐向量HS与拟隐向量H*，计算出二者的均方差，作为损失函数传递给解码器网络完成解码器网络更新；更新后的解码器网络输出中间隐向量HA，利用中间隐向量HA反推出中间对齐矩阵MA及中间分布参数θA，将当前分布参数θ*与中间分布参数θA的均方差作为损失函数传递到编码器网络，更新编码器网络。从而完成一次解码器网络和编码器网络的更新；

S14利用更新后的编码器网络和解码器网络，在步骤S11中更新当前分布参数θ*、当前隐向量HS和当前对齐矩阵M*；重复步骤S12至S13，直至编码器网络和解码器网络均达到收敛后完成更新；

训练目标是让编码器网络的当前分布参数θ*与解码器网络得到的分布参数尽可能相似，但由于梅尔特征的维度远多于词向量的维度，不能做到一一对应，因此加入对齐矩阵M，使隐向量H维度对应词向量维度，且采用没有跳跃缺失的单调对齐方式。

解码器网络和编码器网络的训练只是为了得到解码器与编码器的网络参数，而在进行语音合成时不会用到维特比算法去搜索对齐矩阵M，而是通过训练时长模型来做预测。

时长模型的训练策略如下：

编码器网络和解码器网络的每一次更新，都会得到一个当前对齐矩阵M*，利用当前对齐矩阵的输出结果作为时长模型的训练目标，来更新时长模型；

时长模型以编码器网络的当前分布参数θ*作为输入，以当前对齐矩阵M*作为训练目标，对时长模型进行训练更新。

其中，为加快推理速度，编码器网络可采用非自回归结构的序列到序列模型，让后一个时刻的输入不依赖与前一个时刻的输出实现真正的并行化运算。该模型采用Transformer的编码器模型结构，

编码器网络一个典型结构如图3所示，编码器网络由8个基础编码结构组成，每个编码结构现将输入利用多段注意力机制网络进行编码，目的是提取出词间的联系，再接残差网络防止网络太深导致梯度消失，再接正则化结构将每一层的神经元的均方差转换为同一均方差有利于模型收敛，最后接两层一维卷积层，第一层一维卷积用Relu函数激活，第二层不加激活函数，在正则化之后输入下一个编码结构，每一个编码结构的输入与输出维度完全一样。最后一个编码结构输出后接全连接网络得到分布参数θ。

基于流生成模型的解码器网络一个典型结构如图4所示。解码器由12个流单元构成，在隐向量H输入第一个流单元前先做维度变换，具体做法为将两维向量拼接为一维向量。每个流单元包含归一化结构，先将输入做归一化处理，再输入1*1的反卷积网络，最后接仿射耦合层。将仿射耦合层的输入传入下一个流单元。将最后一个流单元的输出做维度反变换，将一个维度分割为两个维度，得到梅尔特征。

时长模型的实质是为了实现对齐矩阵M，由于对齐矩阵M在推理过程中无法通过搜索的方式得到，所以需要训练时长模型来替代。时长模型用于预测每个词向量分布参数θ对应多少个梅尔特征的隐向量H。具体训练步骤如下：

以编码器得到的分布参数θ作为时长输入，每一轮迭代得到的对齐矩阵M*作为目标。

对齐矩阵M*的具体含义就是每一维分布参数θ对应多少维隐向量H。

时长模型的一个典型结构如图5所示，时长模型采用三个Relu激活函数的一维卷积层构成，每个一维卷积后都加入归一化以及dropout层（抛弃部分网络节点层），在最后一层卷积后输出接全连接层。

在模型训练的过程增加单调对齐的过程，实际上就是文本与音频的单调对齐，保证了每一个文本总有一段对应的音频，不会存在遗漏，或者是重复。

由于整个编码器网络和解码器网络架构可以实现并行运算，相比较于以往的自回归端到端模型在合成速度有数量级的提升，针对于可控的语音合成主要是体现在语速可控，如果想改变合成音频的语速可以将时长模型的结果乘相应的系数以控制语速。

通过上述训练过程完成解码器网络、编码器网络和时常模型的训练后，具体的语音合成过程如图2所示如下：

S23.结合时长信息以及分布参数θ计算出隐向量H；

S24.将隐向量H输入解码器网络做逆运算得到梅尔特征。

S25.将梅尔特征输入声码器，得到合成音频。

其中声码器可使用hifi-gan声码器。

步骤S21的一个具体过程可以为：

S211.英文文本可将字母、数字、常用标点、常用符号用固定且不同的编号进行编码。例如：字母a标注编码为100，b标注编码为101等。中文文本可先将汉字转拼音后，再采用和英文一样的方式进行编码。

S212.再使用词向量模型将每个编码转化为标准化词向量，对词向量做标准化处理得到标准化词向量，有利于后期模型训练收敛。具体计算公式如下：

；

其中X_k是输入的第k个字符的编码，F_emb是词向量模型的函数表示，h是输出的词向量维度，把词向量的维度h开方后作为标准化系数,即标准化系数为

，Y_k是第k个编码X_k得到的标准化词向量。

S213.编码器网络以标准化词向量Y_k为输入得到分布参数θ的统计参数向量α与μ，每一个标准化词向量对应一组统计参数向量α与μ。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于流生成模型的语音合成方法，包括训练过程和合成过程，其特征在于,所述训练过程包括以下步骤：

S21.将待合成文本信息编码，输入编码器网络生成分布参数θ；

S23.结合时长信息以及分布参数θ计算出隐向量H；

S24.将隐向量H输入解码器网络做逆运算得到梅尔特征；

S25.将梅尔特征输入声码器，得到合成音频。

2.如权利要求1所述基于流生成模型的语音合成方法，其特征在于，所述声码器为hifi-gan声码器。

3.如权利要求1所述基于流生成模型的语音合成方法，其特征在于，所述编码器网络包括多个首尾顺序连接的基础编码结构，每个基础编码结构包括顺序连接的多段注意力机制网络、残差网络、第一正则化模块、第一一维卷积层、Relu函数、第二一维卷积层、第二正则化模块；最后一个基础编码结构的第二正则化模块连接全连接模块。

4.如权利要求1所述基于流生成模型的语音合成方法，其特征在于，所述解码器网络包括多个首尾顺序连接的流单元，第一个流单元输入端还连接有维度变换模块，每个流单元包含顺序连接的归一化结构、反卷积网络、仿射耦合层，最后一个流单元输出端还连接有维度反变换模块。

5.如权利要求1所述基于流生成模型的语音合成方法，其特征在于，所述时长模型包括多个首尾顺序连接的一维卷积层，每个一维卷积层包含顺序连接的一维卷积模块、Relu激活函数、归一化模块及dropout层；最后一个一维卷积层接全连接层。

6.如权利要求1所述基于流生成模型的语音合成方法，其特征在于，

所述步骤S21具体为：

S212.将每个编码转化为标准化词向量，具体计算公式如下：

其中X_k是输入的第k个字符的编码，F_emb表示词向量模型函数，h是输出的词向量维度，Y_k是第k个编码X_k得到的标准化词向量；

S213.编码器网络以标准化词向量Y_k为输入得到分布参数θ。