CN114464159A

CN114464159A - 一种基于半流模型的声码器语音合成方法

Info

Publication number: CN114464159A
Application number: CN202210054963.4A
Authority: CN
Inventors: 沈莹; 李宇涵; 张�林; 赵生捷
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-05-10

Abstract

本发明涉及一种基于半流模型的声码器语音合成方法，包括：获取待合成的原始音频数据，并载入预先构建并训练好的基于半流模型的声码器中，获取合成的语音波形；所述基于半流模型的声码器包括基于半流的基本模型，该基于半流的基本模型包括多个依次拼接的Flow层，每个Flow层均包括依次连接的半流模型层和卷积网络层，所述半流模型层由自回归流算法和规范化流算法结合构成。与现有技术相比，本发明能够在一定程度上提高合成语音的质量，同时加快合成语音的速度和训练时的收敛速度，并减少一定的计算资源。

Description

一种基于半流模型的声码器语音合成方法

技术领域

本发明涉及语音合成技术领域，尤其是涉及一种基于半流模型的声码器语音合成方法。

背景技术

随着人类与机器的语音交互日益频繁，如何高效率的合成高质量语音越来越得到人们的重视。语音质量或延迟的微小变化对用户体验有着极大影响。然而，高质量的实时语音合成仍然是一项具有挑战性的任务。语音合成需要生成具有高度长期依赖性的高维音频样本。人类对音频样本中的这种依赖型是十分敏感的。除了质量挑战之外，实时语音合成还面临着生成速度和计算资源受限等诸多问题。当音频采样率小于16kHz时，感知语音质量会发生显著下降，更高的采样率会产生更高质量的语音。然而大多数情况下用户要求合成速率比16kHz快得多的音频。例如，在远程服务器上合成语音时，严格的交互性要求意味着必须以远远超过实时要求的采样率快速合成语音。

目前，最先进的语音合成模型都是基于神经网络的。文本到语音合成通常分为两个步骤：第一步将文本转换为时间对齐的特征，如梅尔谱图、F0特征或其他语言特征。第二步则是将这些时间对齐的特征转换为音频样本。在第二步中所使用的神经网络模型通常被称为声码器，在计算上具有挑战性，对合成语音的质量也有很大影响。目前大多数基于神经网络的声码器都是自回归的，这意味着它们将未来的音频样本置于以前的样本之上，以建立长期相关性模型。这些方法的实现和训练都相对简单。然而，它们本质上是串行的，因此不能充分利用GPU或TPU等并行处理器。这种自回归模型通常难以在不牺牲合成音频质量的情况下以超过16kHz的速度进行语音合成。

因此相关的替代技术被研发了出来。目前，有三种基于神经网络的模型可以以非自回归的方法合成语音：并行WaveNet、Clarinet以及用于谱图反演的MCNN。这些技术可以在GPU上以超过500kHz的速度合成音频。然而，这些模型相比自回归模型更难以训练和实现。同时这三种方法都需要复合损耗功能来改善音频质量或解决模式崩溃问题。此外，并行WaveNet和Clarinet需要两个网络：一个学生网络和一个教师网络。它们的学生网络使用逆自回归流。虽然逆自回归流网络可以在推理时并行运行，但其本身的自回归特性使得模型的计算效率低下。为了克服这一缺点，这些网络使用教师网络来训练学生网络，使其合成的语音具有很高的真实性。但是这些方法很难复制和部署，因为在训练时它们很难达到收敛。

在之后的研究中人们逐渐采用基于流的模型来构建声码器，基于流的模型在RealNVP和Glow中提出来，可以用于图像生成、语音合成等生成式任务。WaveGlow最早将基于流的模型应用在语音合成任务当中，它易于实现和训练，仅使用单个网络和似然损失函数进行训练。此外该模型可以在不损失音频质量的情况下在NVIDIA V100 GPU上以超过500kHz的频率合成语音。但是该模型参数量较大，因此需要大量的计算资源，同时在训练时收敛缓慢，需要大量的时间才能达到收敛。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于半流模型的声码器语音合成方法，其解决了传统流模型计算能力不足，传统基于流的声码器收敛速度慢、模型参数较多、合成速度较慢以及生成质量欠佳的缺点，满足实际语音合成应用对神经声码器的要求。

本发明的目的可以通过以下技术方案来实现：

一种基于半流模型的声码器语音合成方法，包括：获取待合成的原始音频数据，并载入预先构建并训练好的基于半流模型的声码器中，获取合成的语音波形；

所述基于半流模型的声码器包括基于半流的基本模型，该基于半流的基本模型包括多个依次拼接的Flow层，每个Flow层均包括依次连接的半流模型层和卷积网络层，所述半流模型层由自回归流算法和规范化流算法结合构成。

进一步地，所述半流模型层中高维输入向量x和高维输入向量y之间的映射关系为：

x＝(x₁,x₂),y₀＝0

(s₁,t₁)＝g(m(x₁,y₀))

y₁＝s₁⊙x₁+t₁

(s₂,t₂)＝g(m(x₂,y₁))

y₂＝s₂⊙x₂+t₂

y＝(y₁,y₂)

式中，x₁和x₂代表了x的前后两半部分，y₀为常向量0，g和m为函数或者神经网络，m和g可以是任意变换，s₁,s₂,u₁,u₂为仿射因子，⊙代表哈达玛积，y₁和y₂代表了y的前后两半部分。

进一步地，四个所述Flow层构成一个Scale层，所述基于半流的基本模型包括多个Scale层，Scale层选取一半维度的向量直接作为输出、另一半输入到下一个Scale层。

进一步地，所述Flow层的数量为12个，所述卷积网络层为1×1卷积网络。

进一步地，所述基于半流模型的声码器的训练过程包括：

在基于半流的基本模型前设置预处理模块，该预处理模块用于将输入的音频数据转换为梅尔频谱；

获取训练集和测试集，将所述训练集载入基于半流的基本模型中，通过所述预处理模块转换为梅尔频谱，然后经过所述基于半流的基本模型合成语音波形，从而进行模型训练；

将训练后的基于半流的基本模型逆置，将测试集中的数据转换为梅尔频谱，然后载入逆置后的基于半流的基本模型中还原为语音波形，从而评估合成的语音的质量，用于判断所述基于半流的基本模型是否训练完成。

进一步地，所述预处理模块包括傅里叶变换子模块，该傅里叶变换子模块采用短时傅里叶变换将音频数据转换为梅尔频谱。

进一步地，所述预处理模块还包括预加重子模块，该预加重子模块用于对音频的高频部分能量进行加重，所述预加重子模块的输出端接入所述傅里叶变换子模块；

所述预加重子模块的处理表达式为：

y(n)＝x(n)-αy(n-1)

式中，x(n)为原始音频的第n个采样点，y(n)为预加重后的音频的第n个采样点，α为预加重系数，α的取值在0.9到1.0之间。

进一步地，进行模型训练过程中的损失函数为：

式中，y为模型训练时的输入数据，x(y)为模型训练时从y到x的函数，σ²为高斯分布的假设方差，#coupling为模型所包含的半流层数，s_j1为第j层半流中的第一个仿射因子，s_j2为第j层半流中的第二个仿射因子，#conv为模型所包含的1×1卷积网络数，W_k为第k层1×1卷积网络的权重矩阵。

进一步地，合成语音质量的评估指标包括PESQ、MOS、STOI和MCD中的一个或多个。

进一步地，所述训练集和测试集中的数据均从语音合成数据集中获取，该语音合成数据集包括LibriSpeech、AiShell-3、CSMSC和LJSpeech中的一个或多个。

与现有技术相比，本发明具有以下优点：

(1)本发明提出了结合规范化流和自回归流优点的半流模型，在半流中后半部分输出与前半部分输出和输入都关联了起来，同时前半部分输出也通过前半部分输入进行仿射变换而得到，从而提高了模型的计算性能；使用基于半流的深度神经网络模型对说话人的声音特征进行建模，从而将相应的梅尔频谱还原为近似于人类真实声音的语音波形。本方法能够在一定程度上提高合成语音的质量，同时加快合成语音的速度和训练时的收敛速度，并减少一定的计算资源。

(2)本发明基于半流的基本模型中，由四个Flow层构成一个Scale层，包括多个Scale层，Scale层选取一半维度的向量直接作为输出、另一半输入到下一个Scale层；多尺度架构可以及早的提取相关特征，并提升模型的计算效率。

附图说明

图1为本发明实施例中提供的一种基于半流模型的声码器语音合成方法的算法流程图；

图2为本发明实施例中提供的一种基于半流模型的声码器语音合成方法的模型架构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

实施例1

本实施例提供一种基于半流模型的声码器语音合成方法，包括：获取待合成的原始音频数据，并载入预先构建并训练好的基于半流模型的声码器中，获取合成的语音波形；

基于半流模型的声码器包括基于半流的基本模型，该基于半流的基本模型包括多个依次拼接的Flow层，每个Flow层均包括依次连接的半流模型层和卷积网络层，半流模型层由自回归流算法和规范化流算法结合构成。

基于半流模型的声码器的训练过程包括：

获取训练集和测试集，将训练集载入基于半流的基本模型中，通过预处理模块转换为梅尔频谱，然后经过基于半流的基本模型合成语音波形，从而进行模型训练；

将训练后的基于半流的基本模型逆置，将测试集中的数据转换为梅尔频谱，然后载入逆置后的基于半流的基本模型中还原为语音波形，从而评估合成的语音的质量，用于判断基于半流的基本模型是否训练完成。

下面对本实施例中的模型构建、训练和测试过程进行具体描述。

(1)将自回归流算法F_AR和规范化流算法F_Norm结合起来，得到半流模型F_Semi，使之兼具自回归流的高计算性能和规范化流的简便性：

(1-1)在自回归流算法F_AR中，高维输入向量x通过自回归变换得到高维输出向量y，二者之间的映射关系如下所示：

x＝(x₁,x₂,x₃...x_i...

(s_i,u_i)＝g(x_1:-1)

y_i＝s_ix_i+u_i

y＝(y₁,y₂,y₃...y_i...

其中x_i和y_i分别代表了x和y的第i个元素，g可以为任意函数或者神经网络，用于计算s_i和u_i这两个仿射因子。不难看出在自回归流中第i个输出元素与前i-1个输入元素有关。类似的如果使第i个输出元素与前i-1个输出元素有关，便可得到逆自回归流算法F_IAR,此时仿射因子的计算方式改变为(s_i,u_i)＝g(y_1:i-1)；

(1-2)在规范化流算法F_Norm中，高维输入向量x和高维输入向量y之间的映射关系如下所示：

x＝(x₁,x₂)

y₁＝x₁

(s,u)＝g(x₁)

y₂＝s⊙x₂+u

y＝(y₁,y₂)

其中x₁和x₂代表了x的前后两半部分，y₁和y₂代表了y的前后两半部分，g可以为任意函数或者神经网络，用于计算s和u这两个仿射因子，⊙代表哈达玛积。输入的前半部分直接作为输出，后半部分输入则通过仿射变换得到另一部分输出。这种结构也称作仿射耦合层；

(1-3)通过结合(逆)自回归流和规范化流算法得到半流算法F_Semi，在F_semi中高维输入向量x和高维输入向量y之间的映射关系如下所示：

x＝(x₁,x₂),y₀＝0

(s₁,t₁)＝g(m(x₁,y₀))

y₁＝s₁⊙x₁+t₁

(s₂,_t2)＝g(m(x₂,y₁))

y₂＝s₂⊙x₂+t₂

y＝(y₁,y₂)

其中x₁和x₂代表了x的前后两半部分，y₀为常向量0，m和g可以是任意变换，s₁,s₂,u₁,u₂为仿射因子，⊙代表哈达玛积，y₁和y₂代表了y的前后两半部分。在半流中后半部分输出与前半部分输出和输入都关联了起来，同时前半部分输出也通过前半部分输入进行仿射变换而得到，从而提高了模型的计算性能。

(2)半流算法可以作为神经网络中单独的一个网络层，通过将其与1×1卷积网络层结合起来，可以得到基于半流的声码器的基本模型：

(2-1)在基于半流的声码器中，为了提升计算效率，m被定义为简单的加法变换，g被定义为类似于WaveNet的神经网络，其隐藏层数为8，通道大小为128，卷积核大小为3，其计算公式如下：

z＝tanh(W_f,k*x)⊙σ(W_g,k*x)

其中x和z分别代表该网络层的输入和输出，*代表卷积操作，⊙代表哈达玛积，σ代表sigmoid函数，k是层数索引，f和g代表滤波器和门，W是可学习的卷积滤波器。半流中的仿射因子通过此式而得到；

(2-2)基于半流的声码器的基本模型由12个Flow层组成，在每个Flow层中包含一个半流算法层和一个1×1卷积网络层，且卷积网络层在半流算法层之后。卷积网络层用于打乱中间过程向量的通道顺序；

(2-3)四个Flow层为一组构成一个Scale层，同一个Scale层中的Flow层具有相同的结构，不同Scale层以多尺度架构结合起来。多尺度架构可以及早的提取相关特征，并提升模型的计算效率；

表1

(2-4)总共包含三个Scale层，在第一个Scale层中输入以及中间过程的向量的维度为12，之后每经过一个Scale层选取一半维度的向量直接作为输出，另一半输入到下一个Scale层。即第一个Scale层中的向量维度为12，第二个Scale层中的向量维度为6，第三个Scale层中的向量维度为4，如表1所示。

(3)在基于半流的声码器的基本模型前添加预处理模块，可以得到基于半流的声码器。预处理模块共包含预加重和傅里叶变换两部分：

(3-1)在训练音频输入基于半流的声码器后，首先会通过预加重模块。在该模块中，音频的高频部分能量会得到加重，采用差分方程进行处理：

y(n)＝x(n)-αy(n-1)

其中x(n)代表原始音频的第n个采样点，y(n)代表预加重后的音频的第n个采样点，α为预加重系数，可取值在0.9到1.0之间，优选值为0.95。预加重模块可以提升模型合成音频的质量；

(3-2)在预加重后，音频首先会通过窗口大小为1024、帧移为256、滤波器数目为1024的傅里叶变换转换成声谱图。然后这些通过声谱图与80个梅尔滤波器点乘得到梅尔频谱。梅尔频谱是在梅尔标度下的谱图，梅尔标度与赫兹的转换公式为：

(4)预处理模块和基于半流的声码器的基本模型共同构成基于半流的声码器，在训练模型时预处理模块得到使用，在生成音频时不使用预处理模块，直接使用训练好的基于半流的声码器的基本模型来生成音频：

(4-1)在训练基于半流的声码器时首先需要对已有的数据集进行处理。选取CSMSC中文标准女声语音库数据作为训练的基本数据库，由其组成45组小样本数据集。每组数据集均包含一个训练集和一个测试集，每组训练集包含50个从CSMSC中随机抽取的音频数据，总时长约5分钟左右，每组测试集包含5000个从CSMSC中随机抽取的音频数据。不同小样本的训练集所包含的音频互不重复，每个训练集内的音频只出现该训练集之中；

(4-2)在训练基于半流的声码器时需要使用45组小样本数据集训练45组模型，对于每组训练，在训练时batch大小设置为6，迭代次数为3000。初始学习率设置为4e^-4，之后采用自适应调整学习率策略，每1000次迭代后学习率减少为原来的四分之一；

(4-3)在训练时基于半流的声码器会将训练数据集中的音频转换为梅尔频谱，初始输入的音频采样率为22050Hz，在输入模型后，每个音频会被截为固定长度的向量，段长可取不超过音频长度的任意值，优选值为16384。接下来音频会被输入到预处理模块，得到预处理后的输入向量，然后该向量会被输入到神经网络模型之中；

(4-4)在训练时预处理后的输入向量x′和输出向量y的似然函数关系为：

其中p_θ代表了概率密度，J代表雅可比行列式f_i代表模型中的第i层网络。通过求极大似然或者最小化负似然对数来训练神经网络。

在训练时假设y服从零均值球面高斯分布，即

因此y的概率密度为

对于半流层，其雅可比行列式s₁和s₂的绝对值有关，其如下所示：

对于1×1卷积网络层，其计算公式为：

其中W代表权重矩阵，因此1×1卷积网络层的雅可比行列式仅与W有关，如下所示：

综上，基于半流的声码器的似然函数为：

此函数可作为训练时的损失函数；

(4-5)在测试基于半流的声码器时测试音频的梅尔频谱被还原为语音波形，并测量合成音频的MOS值以评估质量。

(4-5-1)采用(3-2)中所述的方法将测试集中的音频转换为梅尔频谱；

(4-5-2)由于基于半流的声码器中的每一层网络都是可逆的，因此对于45组数据集中的每组数据集，在测试时每个训练好的模型都会被逆置，并将由测试集转换得到的梅尔频谱输入，从而将其还原为语音波形；

使用短时傅里叶变换将45组小样本数据集的测试集转换为80维度的梅尔频谱，采样率为22050Hz，滤波器长度为1024，窗口大小为1024。然后使用训练好的模型将生成的梅尔频谱还原为波形以进行测试，并使用评估指标对结果进行打分。可选的评估指标有PESQ、MOS、STOI、MCD，优选MOS，即平均主观意见分。MOS可由人工或者神经网络评价得到，神经网络包含MOSNet、MTL-MOSNet等(4-5-3)MOS值为平均主观意见分，通常用于评估语音质量，由人工进行打分。MOSNet是一种可以自动测量MOS值的深度神经网络，可以解决传统MOS评估方法耗费人力以及时间资源的问题。使用预训练好的MOSNet评估所合成的语音MOS值。

以下通过具体实验对本发明进一步说明：

实验条件与评分标准：本实验采用中文标准女声音库Chinese StandardMandarin Speech Copus，表2列举了这个数据库的主要信息。测量指标主要有音频质量、合成速度以及收敛速度。音频质量采用Mean Opinion Score(MOS)即平均主观意见分来测量，取值范围在0-5，分数越高质量越好。合成速度采用samples/s来测量，即每秒所能合成的样本数。收敛速度采用达到收敛所需的迭代数来测量，当相邻样本间的变化率小于一定阈值时则代表模型已经收敛。

表2数据库主要信息

实验1：评估合成音频的质量。在本实验中首先使用45组数据集训练了45个基于半流的模型，然后分别为每组数据集的测试集合成了相应的音频。接下来使用MOSNet对每个音频评估其MOS值，然后使用95％的置信区间来展示音频质量。作为对比试验，自回归流模型和规范化流模型作为了对比模型，此外基准音频也在结果中进行了展示。实验结果如表3所示。可以看见基于半流的模型具有最高的MOS值。

表3音频质量评估

Model	MOS
		Ground Truth	3.754±0.007
F<sub>Norm</sub>	3.324±0.001
		F<sub>AR</sub>	2.785±0.001
F<sub>Semi</sub>	3.416±0.001

实验2：音频合成速度评估。采用实验1中训练的45个模型中的第一个模型进行测试，合成第一个数据集中的5000个测试样本，并记下所需的总时间。然后使用“音频总时长×采样率/合成总时长”来计算每秒所合成的样本数。本实验分别在具有一块2080Ti的工作站上和树莓派4b上进行。作为对比试验，自回归流模型和规范化流模型作为了对比模型。实验结果如表4所示。可以看见在两个设备上基于半流的模型均具有最快的合成速度值。

表4音频合成速度评估

Model	Workstation	Raspberry pi 4B
			F<sub>Norm</sub>	405k	4.4k
F<sub>AR</sub>	139k	failed
			F<sub>Semi</sub>	522k	5.1k

实验3：评估模型的收敛速度。采用实验1中训练的45个模型中的第一个模型进行测试，记录训练过程中loss的变化曲线，并计算相邻点的loss变化率。当变化率小于阈值时则认为该模型已经收敛。作为对比试验，自回归流模型和规范化流模型作为了对比模型。实验结果如表5所示。可以看见基于半流的模型均具有最快的收敛速度。

表5音频合成速度评估

Model	Step
		F<sub>Norm</sub>	7778
F<sub>AR</sub>	3826
		F<sub>Semi</sub>	3700

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于半流模型的声码器语音合成方法，其特征在于，包括：获取待合成的原始音频数据，并载入预先构建并训练好的基于半流模型的声码器中，获取合成的语音波形；

2.根据权利要求1所述的一种基于半流模型的声码器语音合成方法，其特征在于，所述半流模型层中高维输入向量x和高维输入向量y之间的映射关系为：

x＝(x₁，x₂)，y₀＝0

(s₁，t₁)＝g(m(x₁，y₀))

y₁＝s₁⊙x₁+t₁

(s₂，t₂)＝g(m(x₂，y₁))

y₂＝s₂⊙x₂+t₂

y＝(y₁，y₂)

式中，x₁和x₂代表了x的前后两半部分，y₀为常向量0，g和m为函数或者神经网络，m和g可以是任意变换，s₁，s₂，u₁，u₂为仿射因子，⊙代表哈达玛积，y₁和y₂代表了y的前后两半部分。

3.根据权利要求1所述的一种基于半流模型的声码器语音合成方法，其特征在于，四个所述Flow层构成一个Scale层，所述基于半流的基本模型包括多个Scale层，Scale层选取一半维度的向量直接作为输出、另一半输入到下一个Scale层。

4.根据权利要求3所述的一种基于半流模型的声码器语音合成方法，其特征在于，所述Flow层的数量为12个，所述卷积网络层为1×1卷积网络。

5.根据权利要求1所述的一种基于半流模型的声码器语音合成方法，其特征在于，所述基于半流模型的声码器的训练过程包括：

6.根据权利要求5所述的一种基于半流模型的声码器语音合成方法，其特征在于，所述预处理模块包括傅里叶变换子模块，该傅里叶变换子模块采用短时傅里叶变换将音频数据转换为梅尔频谱。

7.根据权利要求6所述的一种基于半流模型的声码器语音合成方法，其特征在于，所述预处理模块还包括预加重子模块，该预加重子模块用于对音频的高频部分能量进行加重，所述预加重子模块的输出端接入所述傅里叶变换子模块；

所述预加重子模块的处理表达式为：

y(n)＝x(n)-αy(n-1)

8.根据权利要求7所述的一种基于半流模型的声码器语音合成方法，其特征在于，进行模型训练过程中的损失函数为：

9.根据权利要求5所述的一种基于半流模型的声码器语音合成方法，其特征在于，合成语音质量的评估指标包括PESQ、MOS、STOI和MCD中的一个或多个。

10.根据权利要求5所述的一种基于半流模型的声码器语音合成方法，其特征在于，所述训练集和测试集中的数据均从语音合成数据集中获取，该语音合成数据集包括LibriSpeech、AiShell-3、CSMSC和LJSpeech中的一个或多个。