CN114999447A

CN114999447A - 一种基于对抗生成网络的语音合成模型及训练方法

Info

Publication number: CN114999447A
Application number: CN202210849698.9A
Authority: CN
Inventors: 司马华鹏; 毛志强
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-09-02
Anticipated expiration: 2042-07-20
Also published as: CN115424604B; CN115424604A; CN114999447B; US11817079B1

Abstract

本申请提供一种基于对抗生成网络的语音合成模型及训练方法和语音合成方法。所述语音合成方法通过获取待转换文本，将待转换文本转换为文本音素，再将文本音素进行数字化处理得到文本数据，将文本数据转换为文本向量输入至语音合成模型中，得到待转换文本所对应的目标音频。在使用训练好的生成器生成目标梅尔频谱时，所生成的目标梅尔频谱的精度是能够达到标准梅尔频谱的精度。通过生成器和判别器之间的不断的对抗以及训练，减小目标梅尔频谱的损失，而根据目标梅尔频谱生成的目标音频的损失也会减小，进而提高语音合成音频的精度。

Description

一种基于对抗生成网络的语音合成模型及训练方法

技术领域

本申请涉及语音合成技术领域，尤其涉及一种基于对抗生成网络的语音合成模型及训练方法。

背景技术

随着人工智能的发展，在一些软件产品中，例如地图导航软件、有声小说软件或语言翻译软件等，都需要将文本转换成语音，人们对于将文本自动转换成语音的需求越来越大。

目前，将文本转换成语音主要依赖语音合成技术。而使用语音合成技术时，需要使用到声学模型与声码器。而要达到文本所合成的语音与人声相似，需要对语音合成技术中所使用的声学模型与声码器分别进行训练。

声学模型和声码器分别进行训练的过程中，声学模型部分会存在一定的损失，从而导致所合成语音的音质存在损失。现有的声学模型都是基于均方误差损失或平均绝对误差损失进行训练，从而导致声学模型在后期使用中会存在很大的偏差。这部分偏差进而导致声学模型在训练过程中，产生的损失越来越大。而且如果声学模型部分的损失过大，声码器部分在训练过程中同样会受到相应的影响，就会造成合成语音的音质无法到达与人声相似的精度。相关技术中，无法解决声学模型训练中所存在的损失，所以依然存在声学模型训练的精度不理想的问题。

发明内容

为了解决声学模型训练中所存在的损失，存在声学模型训练的精度不理想的问题，第一方面，本申请实施例提供了一种基于对抗生成网络的语音合成模型，其特征在于，包括：生成器和声码器，其中：

所述生成器包括：

特征编码层，配置为根据文本向量得到文本特征，其中，所述文本向量由待转换文本经过处理得到；

注意力机制层，配置为根据所述文本特征的序列顺序，计算当前位置的文本特征与预设范围内的音频特征之间的关联性，确定每一文本特征相对于预设范围内不同音频特征的贡献值；所述音频特征用于指示所述生成器预设的发音对象所对应的音频特征；

特征解码层，配置为根据所述贡献值，匹配所述文本特征所对应的音频特征，并通过音频特征输出目标梅尔频谱；

其中，所述生成器根据第一判别损失与第二判别损失训练得到；其中，所述第一判别损失用于指示所述生成器的判别损失，所述第二判别损失用于指示所述生成器与预设的判别器之间的均方误差；

所述声码器，配置为将所述目标梅尔频谱合成为所述待转换文本对应的目标音频。

在本申请的一个实施例中，所述生成器采用自循环或非自循环结构。

在本申请的一个实施例中，所述模型执行语音合成方法时被配置为：

获取待转换文本；

根据所述待转换文本的拼音将所述待转换文本转换为文本音素；

将所述文本音素进行数字化处理，得到文本数据；

将所述文本数据转换为文本向量；

将所述文本向量处理为所述待转换文本对应的目标音频。

进一步的，所述模型执行根据所述待转换文本的拼音将所述待转换文本转换为文本音素时，被配置为：

对所述待转换文本进行韵律预测，得到编码文本；

将所述编码文本转换为拼音编码；所述拼音编码包括所述编码文本的拼音和音节数字；

根据所述编码文本的拼音发音，将所述拼音编码转换为所述文本音素。

更近一步的，所述模型执行将所述文本音素进行数字化处理，得到文本数据时，被配置为：

根据字符编码将所述文本音素进行数字化处理；所述字符编码为所述文本音素中的拼音字母和音节数字所对应的字符。

在本申请的一个实施例中，所述模型执行将所述编码文本转换为拼音编码前，还被配置为：

在所述编码文本中的停顿标点符号位置插入停顿字符；所述停顿字符用于根据所述待转换文本的停顿标点符号，分割所述待转换文本；

在所述编码文本中的结束标点符号位置插入结束字符；所述结束字符用于根据所述待转换文本的结束标点符号，确定所述待转换文本的结束位置；

将所述编码文本转换为拼音编码时，根据所述停顿字符和所述结束字符，对所述编码文本分段转换。

第二方面，本申请实施例提供了一种基于对抗生成网络的语音合成方法，包括：

获取待转换文本；

将所述文本音素进行数字化处理，得到文本数据；

将所述文本数据转换为文本向量；

将所述文本向量输入至所述语音合成模型中，得到所述待转换文本对应的目标音频。

第三方面，本申请实施例提供了一种基于对抗生成网络的语音合成模型的训练方法，包括：

S1，将样本文本输入至生成器中，以得到第一梅尔频谱；

S2，根据所述第一梅尔频谱与第二梅尔频谱，对第一判别损失进行训练；其中，所述第二梅尔频谱是用于指示所述样本文本对应标注的音频标签的梅尔频谱；

S3，将所述第一梅尔频谱输入至判别器中，以得到第一判别特征，并根据所述第一判别特征对第二判别损失进行训练；

S4，根据所述第一梅尔频谱、所述第二梅尔频谱以及所述第一梅尔频谱和所述第二梅尔频谱的判别结果对第三判别损失进行训练；其中，所述第三判别损失用于指示所述判别器的判别损失；所述判别结果用于指示所述第一梅尔频谱与所述第二梅尔频谱之间的关联；

交替执行上述S2至S4，直至所述第一判别损失、所述第二判别损失、所述第三判别损失收敛，得到训练后的所述生成器。

在本申请的一个实施例中，所述判别器包括：

训练模块，被配置为根据所述判别特征对第二判别损失进行训练，以及根据所述第一梅尔频谱、所述第二梅尔频谱以及所述判别结果对第三判别损失进行训练；

判别模块，被配置为根据所述第一梅尔频谱与所述第二梅尔频谱的关联性，得到所述第一梅尔频谱与所述第二梅尔频谱的判别结果。

在本申请的一个实施例中，所述方法还包括：

当所述第一梅尔频谱与所述第二梅尔频谱之间的关联度大于预设值时，停止对所述第一判别损失、所述第二判别损失和所述第三判别损失训练，得到训练后的所述生成器。

在本申请的一个实施例中，获取所述第三判别损失的步骤，包括：

将所述第二梅尔频谱输入至判别器，得到第二判别特征；

计算所述第一判别特征与1的第一均方误差和所述第二判别特征与0的第二均方误差，得到第一均方误差结果和第二均方误差结果。

由上述方案可知，本申请提供一种基于对抗生成网络的语音合成模型及训练方法和语音合成方法。所述语音合成方法通过获取待转换文本，将待转换文本转换为文本音素，再将文本音素进行数字化处理得到文本数据，将文本数据转换为文本向量输入至语音合成模型中，得到待转换文本所对应的目标音频。所述语音合成模型的训练方法是将样本文本输入至生成器中，由生成器生成第一梅尔频谱，并将第一梅尔频谱和第二梅尔频谱输入至判别器中，在判别的过程中不断对生成器和判别器的第一判别损失、第二判别损失和第三判别损失进行训练，直至收敛，得到训练好的生成器。在使用训练好的生成器生成目标梅尔频谱时，所生成的目标梅尔频谱的精度是能够达到标准梅尔频谱的精度。通过生成器和判别器之间的不断的对抗以及训练，减小目标梅尔频谱的损失，而根据目标梅尔频谱生成的目标音频的损失也会减小，进而提高语音合成音频的精度。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于对抗生成网络的语音合成模型结构示意图；

图2为本申请实施例提供的一种基于对抗生成网络的语音合成模型的工作流程示意图；

图3为本申请一种实施例中语音合成模型执行的语音合成方法流程图；

图4为本申请实施例提供的一种基于对抗生成网络的语音合成模型的训练方法的流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

近年来，随着人工智能的发展，在很多场景中，都需要将文本转换成语音，人们对于将文本转换成语音的需求越来越大。而将文本转换成语音依赖于语音合成技术，现有的语音合成技术在将文本转换成语音的过程中，需要对声学模型和声码器进行训练。在声学模型的训练过程中，会产生损失，进而造成声学模型部分的训练精度不理想，导致合成的语音音质较差。

为了解决声学模型的训练过程中，会产生损失，进而造成声学模型部分的训练精度不理想，导致合成的语音音质较差的问题，第一方面，参见图1，本申请公开了一种基于对抗生成网络的语音合成模型，包括：生成器和声码器，其中：

所述生成器包括：

在本实施例中，语音合成模型的生成器在模型中的作用是，根据由待转换文本处理得到的文本向量，生成目标梅尔频谱。生成器中的特征编码层配置为根据文本向量得到文本特征，文本特征包括：词性特征、当前词特性、前缀后缀等。示例性的，词性特征包括名词、冠词、动词或者形容词等。当前词特性包括：当前词的词语中包含的字的数量，是否包含其他字符等。前缀后缀通常用于英文或字母文字中，也可以在汉字中获取。

注意力机制层会根据所获取的文本特征，计算文本特征与音频特征之间的关联性，确定文本特征与音频特征之间的贡献值。

特征解码层会根据文本特征与音频特征之间的贡献值，匹配对应于文本特征的音频特征，并将音频特征输出为目标梅尔频谱，目标梅尔频谱中包含有待转换文本的全部音频特征。最后，声码器根据目标梅尔频谱中的波形，在频域中对目标梅尔频谱进行分析，区分出清音、浊音、原音、辅音等，并结合目标梅尔频谱中的波形，合成目标音频。通过对梅尔频谱的分析，结合目标梅尔频谱中的波形，提高合成的目标梅尔频谱的精度，减少合成时产生的声学损失。

需要说明的是，上述特征编码器包括卷积滤波单元，公路网络单元，双向循环网络单元。其中，卷积滤波单元包括一系列一维卷积滤波器组；公路网络单元包括多个highway层，双向循环网络单元由两个用于双向计算的GRU网络构成。上述特征编码层中，卷积滤波单元用于对文本向量进行进行卷积滤波处理。卷积滤波处理过程中，卷积滤波单元的输出由多个卷积滤波器组的输出堆叠而成，并沿时间序列对每一个时间步的输出进行进行池化处理，以此保障在计算过程中增加当前信息不变性。

上述公路网络单元用于对文本序列进一步提取更高级别的特征，上述双向循环网络单元用于对公路网络单元的输出进行双向循环计算，以此在公路网络单元所提取特征的基础上，进一步提取上下文特征，并形成最终的文本特征以输出。

上述特征解码层可采用自回归结构，特征解码层包括信息瓶颈单元与长短期记忆网络单元。其中，信息瓶颈单元包括两个全连接层，用于对文本特征进行瓶颈处理，信息瓶颈单元的输出与上述注意力机制层的输出，即贡献值进行拼接，并将拼接后的输出送入至长短期记忆网络单元中。

长短期记忆网络单元包括多个记忆子单元，通常包括1024个记忆细胞子单元，每一个记忆子单元进一步由胞状态、输入门、输出门、遗忘门四个部件构成。长短期记忆网络单元用于在信息瓶颈层输出的基础上，进一步结合上下文信息以更为准确的预测目标梅尔频谱。上述长短期记忆网络单元的输出再次与上述注意力机制层的输出，即贡献值进行拼接，对拼接后的输出进行线性投影处理，处理后即可得到目标梅尔频谱。

在一些实施例中，声码器可以是通道式声码器、共振峰声码器、图案声码器、线性预测声码器、相关声码器、正交函数声码器中的任意一种。

如图2所示，该语音合成模型的工作流程为将文本向量输入至语音合成模型中，语音合成模型中的生成器对文本向量进行处理，得到目标梅尔频谱，再由声码器将目标梅尔频谱合成为与待转换文本对应的目标音频。

在一些实施例中，所述生成器采用自循环或非自循环结构。

当生成器采用自循环结构时，生成器需要严格按照文本特征的序列顺序，将音频特征逐帧输出目标梅尔频谱，目标梅尔频谱的前一帧的输出是后一帧的输入。

当生成器采用非自循环结构时，生成器可根据音频特征并行输出目标梅尔频谱，梅尔频谱的每帧同时输出。

在本实施例中，生成器可以根据文本的类型，选择相适应的输出结构，对于不需要保序的文本，就采用非自循环结构的生成器；对于需要保序的文本，就采用自循环结构的生成器。针对不同类型的文本，提高对应的合成效率，减少时间成本。

在一些实施例中，参见图3，所述模型执行语音合成方法时被配置为：

S101:获取待转换文本；

待转换文本是即将转换为文本音频的文本。

在一些实施例中，待转换文本可以是一个汉字、一个短句、一个完整的句子或多个完整的句子组成的段落。

在一些实施例中，待转换文本可以是由汉语、英语、日语、法语等多国语言之中的一种，也可以是上述多种语言交替组成的句子或词语。示例性的，待转换文本可以为“我是中国人。”，也可以为“你好，我来自中国，请多关照。”，还可以为“Hello，好久不见。”等。在本实施例中，待转换文本不止为一种语言，也可以是多种语言混合，待转换文本的语言多样化，能够适用于的待转换文本范围大，种类多。

S102:根据所述待转换文本的拼音将所述待转换文本转换为文本音素；

因为待转换文本不能直接代入到本申请提供的语音合成模型中合成目标音频，所以需要对待转换文本进行处理，转换为文本音素，再带入至语音合成模型中进行合成。

进一步的，在一些实施例中，所述模型执行根据所述待转换文本的拼音将所述待转换文本转换为文本音素时，上述S102步骤可以演变为：

S1021:对所述待转换文本进行韵律预测，得到编码文本；

将所述编码文本转换为拼音编码；所述拼音编码包括所述编码文本的拼音和音节数字；编码文本是将一个文本语句里的内容，根据人们阅读待转换文本时的停顿、音高、音强等，对待转换文本的内容进行分割。

示例性的，待转换文本为“我是中国人。”对待转换文本进行韵律预测后，得到“我#1是#2中国人。”在示例中，使用“#”对待转换文本进行分割。在其他实施例中，可以使用任意区别于数字或字母的文本符号的一种，例如“@”、“*”、“￥”、“&”等符号的其中一种，对待转换文本进行分割。

在本实施例中，进行韵律预测后，输出的目标音频在语音情感上会更接近真人说话时的情感，说话时会产生抑扬顿挫的语调，而不是机械地朗读待转换文本的内容。

在一些实施例中，韵律预测还包括数字的预测以及多音字预测。示例性的，数字“123”在阅读时可以有一种以上的阅读方式，例如“一百二十三”或“一二三”。此时需要根据待转换文本，结合数字“123”的语境，确定数字“123”的读法。并以此读法继续对待转换文本进行处理。多音字与上述方式构思相同，一个汉字可能存在两种或以上的读音，通过语境判断多音字的读法，在此不做重复阐述。

在本实施例中，输出的目标音频不会因为待转换文本中存在数字或多音字而造成错误的转换，提高待转换文本转换后的正确性。

S1022:将编码文本转换为拼音编码。拼音编码包括编码文本的拼音和音节数字。例如，文本编码为“我#1是#2中国人。”转换为拼音编码后，得到“wo3 #1 shi3 #2 zhong1guo2 ren2。”拼音后的编码为音节数字，表示单个汉字在该句子中的拼音音节。

S1023:根据编码文本的拼音发音，将拼音编码转换为文本音素。拼音编码为“wo3#1 shi3 #2 zhong1 guo2 ren2。”，根据拼音的发音将拼音编码转换为文本音素后得到“uuuo3 #1 shix4 #2 zhong1 guo2 ren2 @”。

S103:将所述文本音素进行数字化处理，得到文本数据；在一些实施例中，将所述文本音素进行数字化处理，得到文本数据，包括：

根据字符编码将所述文本音素进行数字化处理；所述字符编码为所述文本音素中的拼音字母和音节数字所对应的字符。示例性的，将“uuuo3 #1 shix 4#2 zhong1 guo2ren2 @”根据字符编码进行数字化处理。字符编码中，字符对应的数字为u=1、o=2、s=3、h=4、i=5、x=6、z=7、n=8、g=9、r=10、e=11。经过处理后，得到“1112 3#1 34564 #2 74289 1 912 210118 2”。需要说明的是，以上字符编码仅用作示例性说明，并非对其限制，可根据实际情况制定便于区分不同的拼音字母的字节编码即可。

在一些实施例中，将编码文本转换为拼音编码前，还包括：

在编码文本中的停顿标点符号位置插入停顿字符。停顿字符用于根据待转换文本的停顿标点符号，分割待转换文本。

在编码文本中的结束标点符号位置插入结束字符；结束字符用于根据待转换文本的结束标点符号，确定待转换文本的结束位置；

将编码文本转换为拼音编码时，根据停顿字符和结束字符，对编码文本分段转换。

在本实施例中，在待转换文本为长文本句是，通常长文本句之间会穿插多个标点符号，而不同的标点符号对于语句的作用不同。例如，“，”、“；”、“：”等标点符号，表示句子的停顿，例如，“。”、“！”、“

”等标点符号，表示句子的结束。在将编码文本转换为拼音编码前根据待转换文本中的标点符号，插入对应的字符，对于表示停顿的标点符号，插入停顿字符，对于表示结束的标点符号，插入结束字符。根据不同的字符，分割编码文本。在转换拼音编码的过程中，能够以停顿字符为节点进行转换，也能够以结束字符为节点进行转换。在本实施例中，经过转换后的编码文本是根据待转换文本中的标点符号，也就是对应的字符进行分割，在合成目标音频后，目标音频会根据相应字符进行预设时间的停顿，使其更接近真人说话的自然状态，提高用户收听目标音频的舒适感。

S104:将所述文本数据转换为文本向量；文本向量可以为矩阵向量，其中包括行向量和列向量。还可以为数字向量等。将文本数据转换为文本向量便于语音合成模型提取文本数据中的文本特征，并计算文本特征与预设范围内的音频特征的贡献值，根据贡献值匹配与文本特征对应的音频特征，进而输出目标梅尔频谱。

S105：将所述文本向量处理为所述待转换文本对应的目标音频。

在本实施例中，将文本向量输入至本申请提供的语音合成模型中，执行生成器中特征编码层、注意力机制层和特征解码层的处理，输出目标梅尔频谱。得到目标梅尔频谱后，声码器根据目标梅尔频谱合成目标音频。

第二方面，本申请提供了一种基于对抗生成网络的语音合成方法，应用于上述基于对抗生成网络的语音合成模型中，所述方法包括：

S201：获取待转换文本；

S202：根据所述待转换文本的拼音将所述待转换文本转换为文本音素；

S203：将所述文本音素进行数字化处理，得到文本数据；

S204：将所述文本数据转换为文本向量；

其中，S201-S204的步骤与上述语音合成模型执行语音合成方法的步骤相同，但执行主体不是上述语音合成模型。执行S201-S204的步骤的可以是计算机、软件或者其他可以将待转换文本处理为文本向量的系统等。

S205：将所述文本向量输入至所述语音合成模型中，得到所述待转换文本对应的目标音频。

在本实施例中，文本向量由待转换文本处理得到，将待转换文本直接输入至上述语音合成模型中，语音合成模型将文本向量经过生成器和声码器的处理，输出待转换文本对应的目标音频。

第三方面，本申请提供了一种基于对抗生成网络的语音合成模型的训练方法，参见图4，所述方法包括：

S1，将样本文本输入至生成器中，以得到第一梅尔频谱；

样本文本是用于训练生成器的文本，为了能够更好的训练生成器，通常需要准备大量的样本文本来训练生成器。其中，第一梅尔频谱是将某一样本文本输入至未训练的生成器中所得到的梅尔频谱。因为未训练的生成器在训练的过程中会造成较大损失，所以第一梅尔频谱也会存在较大的损失。

第一判别损失用于表征生成器在训练过程中所造成的频谱损失。未训练好的生成器在不断生成第一梅尔频谱的过程中会出现大量的频谱损失，但是随着输入的样本文本越来越多，频谱损失会随着多次的训练逐渐减小，直至收敛。

第二判别损失是以第二梅尔频谱作为参照频谱，用于判断第一梅尔频谱的频谱损失，当生成器生成的第一梅尔频谱的频谱损失与第二梅尔频谱的频谱损失的差距过大时，说明第一梅尔频谱的损失精度较低，此时第一判别特征判断第一梅尔频谱不符合输出的精度标准，会对第二判别损失继续训练。当第一梅尔频谱的频谱损失与第二梅尔频谱的频谱损失的差距相近或差距为0时，说明第一梅尔频谱的精度达到第二梅尔频谱的精度。

在一些实施例中，所述判别器包括：

训练模块，被配置为根据所述判别特征对第二判别损失进行训练，以及根据所述第一梅尔频谱、所述第二梅尔频谱以及所述判别结果对第三判别损失进行训练。

在本实施例中，判别器会对所述第一梅尔频谱和所述第二梅尔频谱进行判别，并输出判别结果，当第一梅尔频谱的频谱损失与第二梅尔频谱的频谱损失的差距大于预设值，此时判别器输出的判别结果为“假”，此时说明所述第一梅尔频谱与所述第二梅尔频谱之间的关联性较小。

当第一梅尔频谱的频谱损失与第二梅尔频谱的频谱损失的差别小于预设值，此时判别器输出的判别结果为“真”，此时说明所述第一梅尔频谱与所述第二梅尔频谱之间的关联性较大。第一梅尔频谱的精度达到第二梅尔频谱的精度，此时生成器输出的第一梅尔频谱即为目标梅尔频谱。

需要说明的是，上述判别结果为“真”或“假”仅为本实施例的示例性说明，在实际的训练过程中，判别器可以使用任意两个不同的标识或判别结果来代表结果为“真”或结果为“假”。

在一些实施例中，判别器还包括：

在本实施例中，当判别器输出的判别结果为“真”时，即为所述第一判别损失、所述第二判别损失、所述第三判别损失收敛，生成器完成训练，得到训练后的生成器。

在训练的过程中，为了逐步提高第一梅尔频谱的精度，通常完成一次生成器的训练后，再进行一次判别器的训练。在判别器得到判别结果后，再进行一次生成器的训练。交替训练生成器和判别器，直至第一判别损失、第二判别损失、第三判别损失收敛。第一判别损失、第二判别损失、第三判别损失收敛时，判别结果为真，此时生成器完成训练，使用上述生成器所合成的梅尔频谱精度达到第二梅尔频谱的精度。

在本实施例中，通过生成器和判别器的不断对抗和训练，逐渐减小生成器在合成语音时所产生的声学损失，在对抗的过程中，生成器和判别器交互训练，相互提高各自的精度，通过此方法得到的生成器所合成的语音音频精度更高，不会产生较大的声学损失。

在一些实施例中，所述方法还包括：

在本实施例中，当所述第一梅尔频谱与所述第二梅尔频谱之间的关联度小于预设值时，说明判别器依然可以区别生成器生成的第一梅尔频谱与第二梅尔频谱，此时生成器的训练精度不足，需要再次进行训练。直至当所述第一梅尔频谱与所述第二梅尔频谱之间的关联度大于预设值时，说明此时判别器无法区别生成器生成的第一梅尔频谱与第二梅尔频谱，此时第一梅尔频谱的精度达到可以输出的精度，生成器与判别器停止训练。

在一些实施例中，获取所述第三判别损失的步骤，包括：

将所述第二梅尔频谱输入至判别器，得到第二判别特征；

在本实施例中，第三判别损失是由两部分损失组成。第一部分是将第一梅尔频谱输入至判别器中，得到的第一判别特征，并将第一判别特征与1计算第一均方误差，得到第一均方误差结果，即得到第一部分损失。第二部分是将第二梅尔频谱输入至判别器中，得到第二判别特征，并将第二判别特征与0计算第一均方误差，得到第二均方误差结果，即得到第二部分损失。

由上述方案可知，第一方面，本申请提供一种基于对抗生成网络的语音合成方法。所述语音合成方法通过获取待转换文本，将待转换文本转换为文本音素，再将文本音素进行数字化处理得到文本数据，将文本数据转换为文本向量输入至语音合成模型中，得到待转换文本所对应的目标音频。第二方面，本申请提供了一种基于对抗生成网络的语音合成模型的训练方法，所述语音合成模型的训练方法是将样本文本输入至生成器中，由生成器生成第一梅尔频谱，并将第一梅尔频谱和第二梅尔频谱输入至用于判别第一梅尔频谱精度的判别器中，在判别的过程中不断对生成器和判别器的第一判别损失、第二判别损失和第三判别损失进行训练，直至收敛，得到训练好的生成器。第三方面，本申请提供了一种基于对抗生成网络的语音合成模型，包括生成器和判别器，通过生成器将待转换文本处理成目标梅尔频谱，再由声码器将目标梅尔频谱转换成待转换文本所对应的目标语音。本申请在使用训练好的生成器生成目标梅尔频谱时，所生成的目标梅尔频谱的精度是能够达到标准梅尔频谱的精度。通过生成器和判别器之间的不断的对抗以及训练，减小目标梅尔频谱的声学损失，而根据目标梅尔频谱生成的目标音频的声学损失也会减小，进而提高语音合成音频的精度。

本说明书中通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等，意味着结合该实施例描述的具体特征，部件或特性包括在至少一个实施例中，因此，本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等，并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、结构或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、结构或特性可全部或部分地与一个或多个其他实施例的特征、结构或特性进行组合。这种修改和变型旨在包括早本申请的范围之内。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于对抗生成网络的语音合成模型，其特征在于，包括：生成器和声码器，其中：

所述生成器包括：

特征编码层，被配置为根据文本向量得到文本特征，其中，所述文本向量由待转换文本经过处理得到；

注意力机制层，被配置为根据所述文本特征的序列顺序，计算当前位置的文本特征与预设范围内的音频特征之间的关联性，确定每一文本特征相对于预设范围内不同音频特征的贡献值；所述音频特征用于指示所述生成器预设的发音对象所对应的音频特征；

特征解码层，被配置为根据所述贡献值，匹配所述文本特征所对应的音频特征，并通过音频特征输出目标梅尔频谱；

所述声码器，被配置为将所述目标梅尔频谱合成为所述待转换文本对应的目标音频。

2.根据权利要求1所述的基于对抗生成网络的语音合成模型，其特征在于，所述生成器采用自循环或非自循环结构。

3.根据权利要求1所述的基于对抗生成网络的语音合成模型，其特征在于，所述模型执行语音合成方法时被配置为：

获取待转换文本；

将所述文本音素进行数字化处理，得到文本数据；

将所述文本数据转换为文本向量；

将所述文本向量处理为所述待转换文本对应的目标音频。

4.根据权利要求3所述的基于对抗生成网络的语音合成模型，其特征在于，所述模型执行根据所述待转换文本的拼音将所述待转换文本转换为文本音素时，被配置为：

对所述待转换文本进行韵律预测，得到编码文本；

5.根据权利要求4所述的基于对抗生成网络的语音合成模型，其特征在于，所述模型执行将所述文本音素进行数字化处理，得到文本数据时，被配置为：

6.根据权利要求5所述的基于对抗生成网络的语音合成模型，其特征在于，所述模型执行将所述编码文本转换为拼音编码前，还被配置为：

7.一种基于对抗生成网络的语音合成方法，应用于权利要求1-6任意一项所述的语音合成模型，其特征在于，包括：

获取待转换文本；

将所述文本音素进行数字化处理，得到文本数据；

将所述文本数据转换为文本向量；

8.一种基于对抗生成网络的语音合成模型的训练方法，其特征在于，包括：

S1，将样本文本输入至生成器中，以得到第一梅尔频谱；

9.根据权利要求8所述的基于对抗生成网络的语音合成模型的训练方法，其特征在于，所述判别器包括：

10.根据权利要求8所述的基于对抗生成网络的语音合成模型的训练方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的基于对抗生成网络的语音合成模型的训练方法，其特征在于，获取所述第三判别损失的步骤，包括：

将所述第二梅尔频谱输入至判别器，得到第二判别特征；