CN112802448A

CN112802448A - 一种新音色生成的语音合成方法和系统

Info

Publication number: CN112802448A
Application number: CN202110007023.5A
Authority: CN
Inventors: 盛乐园
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2021-01-05
Filing date: 2021-01-05
Publication date: 2021-05-14
Anticipated expiration: 2041-01-05
Also published as: CN112802448B

Abstract

本发明公开了一种新音色生成的语音合成方法和系统，属于语音合成领域。首先从文本和音频中提取音素发音的时长和梅尔频谱作为训练集，学习出与梅尔频谱长度对齐的文本编码表示；同时将说话人标签经过Embedding嵌入层生成说话人编码表示；再对说话人编码和文本编码表示进行组合，经过解码器输出合成的梅尔频谱，最后由声码器合成出语音。本发明对说话人编码信息进行线性组合能够得到多样性的新的说话人编码，从而合成出新音色的语音。节约了录制语音训练数据库的周期和成本，能够实现对新生成的音色进行调控；并且降低了模型的复杂度，使加入了音色生成功能的语音合成模型可以布置在低计算资源的硬件上，有利于在更多场景上的广泛应用。

Description

一种新音色生成的语音合成方法和系统

技术领域

本发明属于语音合成领域，涉及音色生成的语音合成方法及其系统。

背景技术

近年来随着深度学习的发展，语音合成技术也得到了很大程度上的提高。语音合成从传统的参数法和拼接法走向了端到端的方式。通常采用编码器-注意力-解码器(Encoder-Attention-Decoder)机制进行自回归生成：要生成当前数据点，必须生成时间序列里前面的所有数据点作为模型输入，像Taoctron，Taoctron 2，Deep voice 3，Clarinet，Tansformer TTS。尽管自回归的模型能够生成令人满意的结果，但是如果Attention产生的注意力不够好，则可能会导致合成的语音中有重复或者漏字的现象。

语音合成技术发展的同时，人们对音色的多样化需求也越来越多，一方面目前语音合成模型由于其复杂的网络结构，对计算资源的要求较高，不能在低计算资源的硬件上使用，而具备多说话人的语音合成模型相比普通的语音合成网络复杂度更大。另一方面是，新音色的产生一般要依赖于音库，但定制新的发音人音库工序较为复杂，存在周期长、费用高的问题，花费的人力和资源都比较多，现有技术中存在一些为了避免制定新音库而设计的对传统神经网络进行分批训练、组合声学参数的方式，由于传统神经网络对声学特征的提取信息十分有限，简单叠加声学参数来对音色的调控是不精确的，并且训练过程极其复杂，并未克服传统语音合成模型的缺陷。

发明内容

本发明的目的在于解决现有技术中针对多说话人的语音合成模型复杂度高，且对对语音合成的数据音色进行操作生成的方法过于依赖音库的问题，本发明提供了一种新音色生成的语音合成方法和系统，通过调控语音合成模型中的少量说话人向量，可以生成更多新的音色，十分方便对合成语音的音色进行控制。此外，本发明优化了语音合成模型的结构，降低了传统复杂的语音模型对计算资源的要求，克服了自回归网络结构的缺陷，提高了语音合成的自然度。

为了实现上述目的，本发明所采用的具体技术方案是：

本发明的一个目的在于提供一种新音色生成的语音合成方法，包括以下步骤：

1)获取样本文本及对应的真实语音音频、说话人标签，将真实语音音频转化为真实梅尔频谱，将样本文本处理得到音素序列，并提取文本对应音素的发音时长；

2)构建新音色生成的语音合成模型，包括说话人Embedding嵌入层、神经网络编码器、时长预测模块和解码器，所述的神经网络编码器由音素Embedding嵌入层、CBHG模块构成；

3)采用音素序列和说话人标签对构建的新音色生成的语音合成模型进行训练，具体为：

3.1)将说话人标签经过说话人Embedding嵌入层后得到说话人向量；

3.2)将音素序列依次经过音素Embedding嵌入层和CBHG模块处理后得到文本编码信息，所述文本编码信息经过时长预测模块获得预测发音时长；

3.3)针对文本编码信息及预测的发音时长信息，经过时长调节后和说话人编码信息一起作为解码器的输入，得到预测梅尔频谱；

3.4)根据预测的发音时长和真实的发音时长计算时长的损失，根据预测的梅尔频谱和真实的梅尔频谱计算梅尔频谱的损失；多种损失函数结合对新音色生成的语音合成模型进行端到端训练；

4)针对待合成的文本，经预处理后和指定的说话人标签一起作为训练好的新音色生成的语音合成模型的输入，得到预测梅尔频谱，再经声码器合成语音输出。

本发明的另一个目的在于提供一种用于实现上述方法的语音合成系统，包括：

文本预处理模块：用于将文本转化为音素序列，并且在语音合成系统处于训练模式时，还要根据文本对应的真实语音音频输出梅尔频谱和时长；

神经网络编码器：用于对音素序列进行编码，编码器内部配置有音素Embedding嵌入层、CBHG模块；

说话人标签库：存储有样本文本对应的真实语音音频的说话人标签；

说话人信息调控模块：用于从说话人标签库中选择说话人标签并转化为说话人向量，其中在训练模式下，将样本文本对应的真实语音音频的说话人标签作为对象；在预测模式下，从说话人标签库中选择指定的说话人标签、或者对若干个指定的说话人标签进行加权组合形成新的标签作为对象；

时长预测模块：用于对神经网络编码器输出的文本编码信息进行时长预测，输出预测时长；

对齐模块：将神经网络编码器输出的文本编码信息通过预测时长进行对齐，在训练模式下，需要达到和真实梅尔频谱的长度一致；在预测模式下，根据训练好的时长预测模块输出每一个单词的预测时长，根据预测时长对每一个单词进行长度扩充，扩充后得到经过时长调节后的文本编码信息；

解码器：用于对经过时长调节后的文本编码信息和说话人向量进行组合，并对组合后的编码信息进行解码，获得预测梅尔频谱；

声码器：在混合语音合成系统处于语音合成模式时开启，自动读取解码器输出的预测梅尔频谱，并转化为声音信号进行语音播放。

与现有技术相比，本发明具备的有益效果是：

(1)相对于传统的新音色合成模型需要将语音模型和音色控制模型分开构造和训练的方法，本发明能够直接从说话人标签经过说话人Embedding嵌入层后得到说话人向量，并将说话人向量组合到编码器生成的编码信息中再进行共同解码，将说话人向量引入到了模型的端对端训练中，通过调节说话人向量即可实现音色的控制。

(2)本发明的对新音色的生成采用已有音色的线性组合运算，生成新音色的方式灵活多样，还可以通过改变组合音色加权的权重系数实现音色的精确调控。

(3)本发明通过引入时长预测模块，简化了语音合成模型训练的复杂度，由于传统的端到端语音合成模型采用注意力模块动态对齐文本和音频的过程需要大量的计算资源消耗以及时间消耗，而本发明避免了通过自回归注意力的形式进行文本和音频的对齐过程，从而降低了对计算资源的要求，节约了模型的计算成本，这样使得加入了音色生成功能的语音合成模型依然可以布置在低计算资源的硬件上，快速对目标语音进行合成，提高了该模型的应用前景。

附图说明

图1是本发明的一种新音色生成的语音合成方法的示意图；

图2是本发明的时长预测模块的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

本发明针对于文本和从音频中提取的音素发音的时长和梅尔频谱作为训练集，相比于一般的新音色生成的语音合成解决方案，本发明利用说话人Embedding来实现新音色生成，不需要对多个说话人分阶段进行训练。

如图1所示，本发明的一种新音色生成的语音合成方法包括如下步骤：

步骤一、获取样本文本及对应的真实语音音频、说话人标签，将真实语音音频转化为真实梅尔频谱，将样本文本处理得到音素序列，并提取文本对应音素的发音时长；

步骤二、构建新音色生成的语音合成模型，包括说话人Embedding嵌入层、神经网络编码器、时长预测模块和解码器，所述的神经网络编码器由音素Embedding嵌入层、CBHG模块构成；

步骤三、采用音素序列和说话人标签对构建的新音色生成的语音合成模型进行训练；

步骤四、针对待合成的文本，经预处理后和指定的说话人标签一起作为训练好的新音色生成的语音合成模型的输入，得到预测梅尔频谱，再经声码器合成语音输出。

在本发明的一项具体实施中，本发明采用的新音色生成的语音合成模型首先利用神经网络编码器、时长预测模块对文本进行处理，再利用说话人Embedding嵌入层对说话人信息进行处理，将文本结果和说话信息组合后通过解码器进行解码。所述的神经网络编码器由音素Embedding嵌入层、CBHG模块。

输入的文本在新音色生成的模型的传输和处理过程为：

1)构建音素字典，针对文本转成对应的发音音素，采用音素字典将音素映射到序列化数据，得到音素序列w₁，w₂，…，w_U，其中U为文本的长度，w_i表示文本中的第i个单词对应的音素信息。

2)针对说话人标签构建说话人标签库，用于存储说话人标签s₁，s₂，…，s_k，其中k为说话人的个数。说话人标签经过说话人Embedding嵌入层转化为说话人向量序列S_i；

3)对于序列化的文本数据(音素序列w₁，w₂，…，w_U)经过音素Embedding嵌入层转化为音素向量序列x₁，x₂，…，x_U。

x₁，x₂，…，x_U＝Embedding(w₁，w₂，…，w_U)；

x_i表示文本中的第i个单词对应的音素向量，Embedding(·)表示嵌入处理。

4)对于转化的音素向量序列x₁，x₂，…，x_U输入到CBHG模块，产生的结果经过时长预测模块生成预测的时长；本实施例采用的CBHG模块包含一个一维卷积滤波器组，这些卷积核对当前以及上下文信息有效建模。后接一个多层高速公路网络，用以提取更高级别的特征。最后通过一个双向门控循环单元GRU、循环神经网络RNN，用于提取序列的上下文特征。

通过公式表示为：

t₁，t₂，…，t_U＝CBHG(x₁，x₂，…，x_u)

其中，t_i为文本中第i个音素的编码信息；

5)将文本编码信息t₁，t₂，…，t_U结合时长预测模块进行长度扩充，长度扩充的标准为：在训练阶段，需要达到和真实梅尔频谱的长度一致；在预测阶段，根据训练好的时长预测模块输出每一个音素的预测时长，根据预测时长对每一个音素进行长度扩充；扩充后得到经过时长调节后的文本编码信息t₁，t₂，…，t_T，T为提取的真实梅尔频谱的帧数。

时长预测模块的网络结构：三个一维卷积层和正则化层用于特征分离；一个双向的GRU学习前后音素特征之间的关系；最后经过一个线性仿射变换对时长进行预测。

t₁，t₂，…，t_T＝State_Expand(t₁，t₂，…，t_u，)

6)对说话人向量序列S_i与文本编码信息t₁，t₂，…，t_T进行组合文本编码特征E₁，E₂，…，E_T；

E₁，E₂，…，E_T＝t₁，t₂，…，t_T+S_i

其中，E₁，E₂，…，E_T为组合后的文本编码信息，t₁，t₂，…，t_T为经过时长调节后的文本编码信息，在模型的训练阶段，S_i为训练集中某个说话人的向量序列，在模型的推理阶段生成新的说话人向量，

n为说话人数量，w_k是S_k的权重。

7)针对文本编码特征E₁，E₂，…，E_T进行解码，生成预测的梅尔频谱；

最后生成的梅尔频谱经过一般的声码器合成出音色可控的语音。

在本发明的一项具体实施中，如图2所示，所述时长预测模块由三个一维卷积层和正则化层、一个双向门控循环单元GRU和一个线性仿射变换构成。

相比于传统的将多种数据分开进行训练的方法，本发明采用直接从文本到声学特征的方式，采用端到端的训练方式，根据根据预测时长和真实时长计算时长损失，根据预测梅尔频谱和真实梅尔频谱计算梅尔频谱损失；结合多种损失值对模型进行端到端训。

本发明还公开了一种新音色生成的语音合成系统，包括：

文本预处理模块(前端)：用于将文本转化为音素序列，并且在系统处于训练模式时，还要根据文本对应的标准语音音频输出真实梅尔频谱和真实时长。

神经网络编码器：用于对音素序列进行编码，编码器内部配置有音素Embedding嵌入层、CBHG模块。

说话人信息调控模块：用于从说话人标签库中选择说话人标签并转化为说话人向量，其中在训练模式下，将样本文本对应的真实语音音频的说话人标签作为对象；在预测模式下，从说话人标签库中选择指定的说话人标签、或者对若干个指定的说话人标签进行加权组合形成新的标签作为对象。

时长预测模块：用于对神经网络编码器输出的文本编码信息进行时长预测，输出预测时长。该模块的引入避免了通过自回归注意力的形式进行文本和音频的对齐过程，从而降低了对计算资源的要求，节约了模型的计算成本，使得加入了音色生成功能的语音合成模型依然可以布置在低计算资源的硬件上，快速实现目标音色下语音的合成。

对齐模块：将编码器输出的文本编码信息通过预测时长进行对齐，在训练阶段，需要达到和真实梅尔频谱的长度一致；在预测阶段，根据训练好的时长预测模块输出每一个音素的预测时长，根据预测时长对每一个音素进行长度扩充；扩充后得到经过时长调节后的文本编码信息t₁，t₂，…，t_T，T为提取的真实梅尔频谱的帧数。

解码器：用于对经过时长调节后的文本编码信息和说话人向量进行组合，并对组合后的编码信息进行解码，获得语音梅尔频谱；

声码器：在混合语音合成系统处于语音合成模式时开启，自动读取解码器输出的语音梅尔频谱，并转化为声音信号进行语音播放。

所述的新音色生成的语音合成系统在使用之前需要先完成训练，训练过程需要根据预测时长和真实时长计算时长损失，根据预测梅尔频谱和真实梅尔频谱计算梅尔频谱损失；结合多种损失值对模型进行端到端训练。

具体的，文本预处理模块(前端)主要功能是接收文本数据，并对文本进行规范化，解析XML标签，将规范文本利用音素字典将音素映射到序列化数据，得到音素序列w₁，w₂，…，w_U，其中U为文本的长度。

具体的，编码器的主要功能是训练学习出当前样本的音素序列的文本特征，从而能够将音素序列转化为能够代表文本特征的固定维度向量。

具体的，所述的时长预测模块和对齐模块用于将编码器输出的编码信息进行长度扩充，时长预测模块的引入简化了语音合成模型训练的复杂度。

具体的，所述的解码器相比于传统的解码器结构简单，仅由一个双向的LSTM和一个线性仿射变换组成，大大提高了解码速度。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在包含了8个说话人46500条音频和相应的文本数据集上进行测试。本发明对于数据集进行如下预处理：

1)提取音素文件与相应的音频，利用开源工具Montreal-forced-aligner对音素的发音时长进行提取。

2)对于每一个音频提取梅尔频谱，其中窗口大小为50毫秒，帧移的大小为12.5毫秒，维度为80维。

3)对于从音频中提取出的梅尔频谱进行在维度上的求和得到梅尔频谱的能量。

在对模型进行训练的过程中，将文本信息作为神经网络编码器的输入进行编码，将该文本对应的音频说话人标签作为说话人Embedding嵌入层的输入，将说话人向量和时长调节后的文本编码信息拼接，共同作为解码器的输入，以标准梅尔频谱为目标进行训练。通过将说话人向量引入到了模型的端对端训练中，得到了音色可控的语音合成模型。在模型处于预测模式下时，通过调节说话人向量即可实现音色的控制，在本实施例中，通过将8个说话人标签进行加权组合，通过改变组合音色加权的权重系数来精确调控合成语音的实现，生成新音色的方式灵活多样，不在依赖于原始音库。

本发明的新音色生成的系统实现了语音合成过程的说话人音色的可控操作；除了支持多个已有的说话人外；实现了新的说话人的生成，有利于语音合成系统在更多场景的广泛应用。

以上实施例的各种技术特征可以任意组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行详细的描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种新音色生成的语音合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种新音色生成的语音合成方法，其特征在于，步骤1)所述的将样本文本处理得到音素序列，具体为：构建音素字典，将文本转成对应的发音音素；采用音素字典将音素映射到序列化数据，得到音素序列w₁，w₂，…，w_U，其中U为文本的长度。

3.根据权利要求1所述的一种新音色生成的语音合成方法，其特征在于，所述的步骤3.1)具体为：对于说话人标签s_i，i＝1，2，3，...，经过说话人Embedding嵌入层转化为说话人向量S_i。

4.根据权利要求1所述的一种新音色生成的语音合成方法，其特征在于，所述的步骤3.2)具体为：

3.2.1)对于音素序列w₁，w₂，…，w_U，经过音素Embedding嵌入层转化为音素向量序列x₁，x₂，…，x_U；

3.2.2)将转化的音素向量序列作为CBHG模块的输入，生成文本编码信息t₁，t₂，…，t_U，将CBHG模块的输出结果经过时长预测模块生成预测的发音时长。

5.根据权利要求4所述的一种新音色生成的语音合成方法，其特征在于，步骤3.3)所述的时长调节具体为：将文本编码信息t₁，t₂，…，t_U结合时长预测模块进行长度扩充，长度扩充的标准为：在训练阶段，需要达到和真实梅尔频谱的长度一致；在预测阶段，根据训练好的时长预测模块输出每一个音素的预测时长，根据预测时长对每一个音素进行长度扩充；扩充后得到经过时长调节后的文本编码信息t₁，t₂，…，t_T，T为提取的真实梅尔频谱的帧数。

6.根据权利要求5所述的一种新音色生成的语音合成方法，其特征在于，将时长调节后的文本编码信息t₁，t₂，…，t_T和说话人向量S_i进行拼接，拼接后作为步骤3.3)中的解码器的输入。

7.根据权利要求1所述的一种新音色生成的语音合成方法，其特征在于，所述解码器由一个双向的LSTM和一个线性仿射变换组成。

8.根据权利要求1所述的一种新音色生成的语音合成方法，其特征在于，所述时长预测模块由三个一维卷积层和正则化层、一个双向门控循环单元GRU和一个线性仿射变换构成。

9.根据权利要求1所述的一种新音色生成的语音合成方法，其特征在于，步骤4)所述的指定的说话人标签为训练数据中的其中一个说话人标签，或者是训练数据中的若干个说话人标签加权组合而成的标签。

10.一种基于权利要求1所述新音色生成的语音合成方法的语音合成系统，其特征在于，包括：