CN116092474A

CN116092474A - 一种语音合成方法、装置

Info

Publication number: CN116092474A
Application number: CN202310364584.XA
Authority: CN
Inventors: 钟雨崎; 艾国; 杨作兴
Original assignee: Beijing Bianfeng Information Technology Co ltd
Current assignee: Beijing Bianfeng Information Technology Co ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-05-09
Anticipated expiration: 2043-04-07
Also published as: CN116092474B

Abstract

本申请公开了一种语音合成方法、装置，包括：获取目标描述文本，目标描述文本包括：设定的至少一个目标控制信息，利用训练后的第一语音合成模型，按照目标描述文本，生成符合目标控制信息的目标合成语音，用于训练第一语音合成模型的第一训练数据按照至少如下方式之一构建：方式一，基于样本语音以及其样本控制信息，构建第一训练数据，方式二，利用每类样本控制信息对应的训练后的第二语音合成模型，按照第二样本描述文本，生成第一样本合成语音，方式三，利用训练后的音色转换模型，按照输入该模型的第三样本描述文本，生成第二样本合成语音，以构建第一训练数据。本申请改变了提高了语音合成的可控性和便利性，降低了样本语音数据采集的要求。

Description

一种语音合成方法、装置

技术领域

本发明涉及语音处理领域，特别地，涉及一种语音合成方法。

背景技术

随着人工智能的发展，越来越多的语音合成通过神经网络模型来实现。目前基于神经网络模型的语音合成技术中，想要合成期望的发音人、情感、语速、停顿、语气等指定需求的语音数据，较为困难。

其主要的问题在于，目前语音合成技术中，每条训练数据的所有控制信息需与期望指定需求一一对应。例如，期望语音中包括语音内容、发音人、情感、速度、语气的指定需求，则一条训练数据需包含：用于描述语音内容的文本信息、发音人信息、每个字情感信息或者整句的情感信息、每个字的语速信息或者整句的语速信息、每个字的语气信息或者整句的语气信息等控制信息，也就是说，期望i个指定需求，每条训练数据就需要包括i个控制信息。

如此多的控制信息导致难以收集到满足指定需求的数据，并且，控制信息之间可能存在冲突，例如语速和文本长度有冲突，另外，如此多的控制信息也导致对收集到的数据难以进行标注，例如，在对训练数据进行发音音素标注过程中，利用工具所进行的发音音素标注无法实现同一字不同情感间的发音边界，利用人工标注又存在工作量巨大、标注标准不一致的缺陷。这些因素直接影响到语音模型的训练，故而，当前的语音合成方法一般只能兼顾少量的控制信息，例如，1~3个控制信息。

发明内容

本发明提供了一种语音合成方法，以不受控制信息数量的限制而合成满足指定需求的期望语音数据。

本申请实施例第一方面提供一种语音合成方法，该方法包括：

获取目标描述文本，所述目标描述文本包括：设定的至少一个目标控制信息，

利用训练后的第一语音合成模型，按照目标描述文本，生成符合目标控制信息的目标合成语音，

其中，用于训练第一语音合成模型的第一训练数据按照至少如下方式之一构建：

方式一，基于样本语音以及其样本控制信息，构建第一训练数据，该第一训练数据包括：用于描述样本控制信息的第一样本描述文本，以及样本语音的关联特征，

方式二，对于每类样本控制信息，基于该类样本控制信息随机生成第二样本描述文本，利用该类样本控制信息对应的训练后的第二语音合成模型，按照第二样本描述文本，生成符合第二样本描述文本的第一样本合成语音，以构建第一训练数据，该第一训练数据包括第二样本描述文本，以及第一样本合成语音的关联特征，

方式三，利用训练后的音色转换模型，按照输入该模型的第三样本描述文本，生成符合第三样本描述文本的第二样本合成语音，以构建第一训练数据，该第一训练数据包括第三样本描述文本，以及第二样本合成语音的关联特征；

所述关联特征根据第一语音合成模型的输出确定。

较佳地，所述第一语音合成模型包括：

用于提取目标描述文本的描述文本特征的第一编码器、用于对拼接特征以及第一编码器输出描述文本特征进行解码的第一解码器、用于将第一解码器输出的解码结果生成当前合成语音的生成器、以及用于对第一解码器输出的解码结果进行停止预测的停止预测器，

所述拼接特征由起始向量与生成器输出的当前合成语音频域特征拼接而成，

停止预测器输出的停止预测结果用于控制第一解码器、生成器、停止预测器循环工作次数，当停止预测结果达到期望停止结果时，生成器输出的当前合成语音为所述目标合成语音，所述期望停止结果根据目标控制信息中所包含的目标合成频域特征长度确定；

所述关联特征包括：频域特征、以及停止长度，其中，频域特征的长度作为停止长度。

较佳地，所述第一训练数据被构建之前包括：

收集具有预设至少一个样本控制信息的样本语音，

对样本语音进行样本控制信息标注，得到样本控制信息，

按照样本控制信息，对样本语音进行分类，得到每类样本控制信息对应的样本语音，

所述方式一包括：

基于样本语音所标注的样本控制信息，构建第一样本描述文本，该第一样本描述文本包括：样本控制信息，

提取样本语音的频域特征，得到第一样本频域特征，

将第一样本频域特征长度作为第一样本停止长度，

将第一样本描述文本、第一样本频域特征、第一样本停止长度作为一条第一训练数据；

所述方式二包括：

对于每类样本控制信息，基于该类样本控制信息随机生成第二样本描述文本，

利用训练后的第二语音合成模型对第二样本描述文本进行处理，得到第一样本合成语音，

提取第一样本合成语音的频域特征，得到第二样本频域特征，

将第二频域特征长度作为第二样本停止长度，

将第二样本描述文本、第二样本频域特征、第二样本停止长度作为一条第一训练数据，其中，第二语音合成模型为与该类样本控制信息对应的语音合成模型；

所述方式三包括：

将第一样本描述文本和/或第二样本描述文本中的音色信息进行变更，得到变更后的第三样本描述文本，

利用训练后的音色转换模型对第三样本描述文本进行处理，得到具有变更后音色的第二样本合成语音，

提取第二样本合成语音的频域特征，得到第三样本频域特征，

将第三样本频域特征长度作为第三样本停止长度，

将第三样本描述文本、第三样本频域特征、第三样本停止长度作为一条第一训练数据。

较佳地，所述第一语音合成模型以如下方式进行训练：

获取第一训练数据，其中，每条第一训练数据包括样本描述文本、样本语音的频域特征、以及样本停止长度，

根据样本停止长度，构建期望停止结果，

将样本描述文本输入至第一语音合成模型中的第一编码器，

累计当前循环次数，

在当前循环次数未达到样本停止长度的情形下，将起始向量与生成器输出的当前样本合成语音的频域特征所拼接的样本拼接特征输入至第一解码器，并将第一编码器输出的样本描述文本特征输入至第一解码器，返回执行累计当前循环次数，

在当前循环次数达到样本停止长度的情形下，计算生成器输出的样本合成语音的频域特征与期望合成频域特征的第一损失函数值，计算停止预测器输出的当前样本停止预测结果与期望停止结果的第二损失函数值，

根据第一损失函数值、第二损失函数值，调整第一编码器、第一解码器、生成器、停止预测器的模型参数，

当第一损失函数值、第二损失函数值达到预期时停止训练。

较佳地，所述第二语音合成模型包括：

用于对输入的文本发音音素进行音素特征提取的音素编码器、用于音素扩展的长度调节操作单元、用于音素时长预测的时长预测器、用于对输入的音色信息进行音色特征提取的第一音色编码器、以及用于音素解码的音素解码器，

其中，

音素编码器输出的音色特征输入至时长预测器，所述音色特征还与音色编码器输出的音色特征相加后输入至时长预测器，

时长预测器输出的时长预测结果输入至长度调节操作单元，

长度调节操作单元输出的扩展音素与第一音色编码器输出的音色特征相加后输入至音素解码器，

音素解码器输出合成语音，该合成语音以输入的文本发音音素为内容、并具有输入的音色信息的音色。

较佳地，所述第二语音合成模型以如下方式进行训练：

对于每一类样本控制信息：

基于该类样本控制信息对应的每一样本语音，提取该样本语音的频域特征，得到第四样本频域特征，将该样本语音所标注的样本控制信息中的内容信息转换为样本文本发音音素，将第四样本频域特征与样本文本发音音素进行音素对齐，得到每个音素的样本音素发音边界，将样本文本发音音素、样本音素发音边界、第四样本频域特征、以及样本控制信息中的样本音色信息作为一条第二训练数据，

利用第二训练数据，对第二语音合成模型进行第一训练，该训练用于第二语音合成模型中的时长模型训练；

利用第二训练数据，对第二语音合成模型进行第二训练，该训练用于第二语音合成模型中的声学模型训练，得到该类样本控制信息对应的训练后的第二语音合成模型。

较佳地，所述利用第二训练数据，对第二语音合成模型进行第一训练，包括：

将样本文本发音音素输入至第二语音合成模型中的音素编码器，

将样本音色信息输入至第二语音合成模型中的第一音色编码器，

将样本音素发音边界换算为目标时长，其中，目标时长为：音素的发音时长所包括的设定单位时长的数量，音素的发音时长由该音素对应的发音边界确定，

拾取第二语音合成模型中时长预测器的输出结果，得到每个音素的发音时长预测结果，

计算每个音素的发音时长预测结果与该音素的目标时长的第三损失函数值，

根据第三损失函数值，调整第二语音合成模型的模型参数，

反复训练，直至第三损失函数值达到预期。

将样本音素发音边界所对应的音素时长进行换算，得到换算后的音素时长，换算后的音素时长为：该音素的发音时长所包括的设定单位时长的数量，

将换算后的音素时长输入至第二语音合成模型中的长度调节操作单元，

计算音素解码器输出的合成频域特征和期望频域特征的第四损失函数值，

根据第四损失函数值，调整第二语音合成模型的模型参数，

反复训练，直至第四损失函数值达到预期。

较佳地，所述音色转换模型包括：

用于提取目标音色信息的音色特征的第二音色编码器，

用于基于第二音色编码器输入的音色特征将待转换语音的频域特征转换为目标音色频域特征的转换器，

用于对转换器输出的目标音色频域特征进行评估的判决器。

较佳地，所述音色转换模型以如下方式进行训练：

收集第二数量无标注的样本语音，提取每条样本语音的频域特征，得到用于待转换样本语音的第五样本频域特征，将第五样本频域特征作为第三训练数据，

将第五样本频域特征输入至转换器，

将设定的第一样本目标音色信息输入至第二音色编码器，

将转换器输出的第一样本目标音色频域特征输入至判决器，

根据判决器输出的用于表征第一样本目标音色频域特征其得分的第一评估结果，计算第一评估结果与设定的第一期望结果的第五损失函数值，

将第一样本目标音色频域特征输入至转换器，将第二样本目标音色信息输入至第二音色编码器，其中，第二样本目标音色信息为第五样本频域特征对应样本语音的音色信息，

计算转换器输出的第二样本目标音色频域特征与第五样本频域特征的第六损失函数值，

累加第五损失函数值和第六损失函数值，得到累加后的损失函数值，

根据累加后的损失函数值，调整转换器和第二音色编码器的模型参数，

将第一样本目标音色频域特征与期望音色频域特征输入至判决器，分别得到第二评估结果和第三评估结果，

计算第二评估结果与设定的第二期望结果的第七损失函数值，

计算第三评估结果与设定的第三期望结果的第八损失函数值，

累加第七损失函数值和第八损失函数值，

根据累加后的损失函数值，调整判决器的模型参数，

反复执行，直至累加后的损失函数值达到预期。

本申请实施例第二方面提供一种用于训练第一语音合成模型的第一训练数据的构建方法，该方法包括：

按照至少如下方式之一构建第一训练数据：

其中，关联特征根据第一语音合成模型的输出确定。

本申请实施例第三方面提供一种语音合成装置，该装置包括：

获取模块，用于获取目标描述文本，所述目标描述文本包括：设定的至少一个目标控制信息，

语音合成模块，用于利用训练后的第一语音合成模型，按照目标描述文本，生成符合目标控制信息的目标合成语音，

其中，

第一语音合成模型包括：

用于提取目标描述文本的描述文本特征的第一编码器、

用于对拼接特征以及第一编码器输出描述文本特征进行解码的第一解码器、

用于将第一解码器输出的解码结果生成当前合成语音的生成器、以及

用于对第一解码器输出的解码结果进行停止预测的停止预测器，

停止预测器输出的停止预测结果用于控制第一解码器、生成器、停止预测器循环工作次数，当停止预测结果达到期望停止结果时，生成器输出的当前合成语音为所述目标合成语音；

所述期望停止结果根据目标控制信息中所包含的目标合成频域特征长度确定。

本申请实施例第四方面提供一种用于训练第一语音合成模型的第一训练数据的构建装置，该装置包括至少如下构件模块之一：

第一构建模块，用于基于样本语音以及其样本控制信息，构建第一训练数据，该第一训练数据包括：用于描述样本控制信息的第一样本描述文本，以及样本语音的关联特征，

第二构建模块，对于每类样本控制信息，基于该类样本控制信息随机生成第二样本描述文本，利用该类样本控制信息对应的训练后的第二语音合成模型，按照第二样本描述文本，生成符合第二样本描述文本的第一样本合成语音，以构建第一训练数据，该第一训练数据包括第二样本描述文本，以及第一样本合成语音的关联特征，

第三构建模块，利用训练后的音色转换模型，按照输入该模型的第三样本描述文本，生成符合第三样本描述文本的第二样本合成语音，以构建第一训练数据，该第一训练数据包括第三样本描述文本，以及第二样本合成语音的关联特征；

其中，关联特征根据第一语音合成模型的输出确定。

本申请第五方面提供一种语音合成模型，该模型包括：

用于将输入的描述文本提取出描述文本特征的第一编码器、

其中，

停止预测器输出的停止预测结果用于控制第一解码器、生成器、停止预测器循环工作次数，当停止预测结果达到期望停止结果时，生成器输出的当前合成语音为所述目标合成语音，

所述期望停止结果根据描述文本中所包含的目标合成频域特征长度确定。

本发明实施例提供的一种语音合成方法，以包含目标控制信息的目标描述文本作为第一语音合成模型的输入数据，改变了传统的语音合成的输入，提高了语音合成的可控性和便利性，通过各种方式所构建的用于训练第一语音合成模型的第一训练数据，提高了训练数据的样本多样性和丰富性，大大降低了样本语音数据采集的要求，使得利用第一训练数据所训练的第一语音合成模型可不受控制数量的限制。

附图说明

图1为本申请实施例语音合成方法的一种流程示意图。

图2为本申请实施例训练后的第一语音合成模型的一种示意图。

图3 为收集数据的一种流程示意图。

图4a为Fast Speech模型的一种示意图。

图4b为FFT模块的一种示意图。

图4c为长度调节器的一种示意图。

图4d为时长预测器一种示意图。

图5为第二语音合成模型的一种示意图。

图6为对第二语音合成模型进行训练的一种示意图。

图7为音素对齐的一种示意图。

图8为对第二语音合成模型进行第一训练的一种示意图。

图9为对第二语音合成模型进行第二训练的一种示意图。

图10为音色转换模型的一种示意图。

图11为转换器的一种示意图。

图12为转换器中下采样器的一种示意图。

图13为转换器中上采样器的一种示意图。

图14为判决器的一种示意图。

图15为对音色转换模型中的转换器和第二音色编码器进行训练的一种示意图。

图16为对音色转换模型中的判决器进行训练的一种示意图。

图17为训练第一语音合成模型的一种示意图。

图18为本申请实施例语音合成装置的一种示意图。

图19为本申请实施例用于训练第一语音合成模型的第一训练数据的构建装置的一种示意图。

图20为本申请实施例第一训练数据的构建装置、或语音合成装置的另一种示意图。

实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

申请人发现，在语音识别应用中，对于关键词语音识别任务，想要达到一个比较好的识别准确率，同时又要对应的语音识别模型轻量化，需要包含关键词的语音数据来训练语音识别模型。

获得语音识别模型一般步骤是：

1. 确定待识别的关键词；

2. 收集包含关键词的语音片段；

3. 对步骤2收集的语音片段进行标注；

4. 训练识别模型；

5. 验证训练后的语音识别模型；

6. 利用待部署终端收集小规模的包含关键词的语音片段；

7. 在步骤4得到的语音识别模型基础上进行参数微调，以适配待部署的终端特性；

8. 将步骤7得到的语音识别模型部署到终端。

其步骤2和步骤3极费时间和人力，周期一般在数个月，增加了步骤4~步骤5的时间成本。同样地，因步骤6也需要收集语音片段来作为样本，从而也增加步骤8的时间成本。并且，一旦关键词改变，则需要重复上述8个步骤。

由此而言，想要实现关键词语音识别功能，但无法快速收集数据来验证模型的现象是行业中的痛点。本申请实施例能快速解决步骤2、步骤3、步骤6、步骤7而带来的问题，极大地压缩语音识别模型的获取时间和工作量。

为便于理解本申请，以下对本申请所涉及的技术术语予以说明。

音素：区分单词的最小语音单位，例如，英语sip中包括[s]、[i]、[p]三个音素，sip中的[s]和zip中的[z]是两个不同的音素，

描述文本：输入语音合成模型的数据，该数据为文本形式，至少包括期望合成语音的控制信息。

本申请实施例基于训练后的第一语音合成模型来合成满足指定需求的目标语音数据。参见图1所示，图1为本申请实施例语音合成方法的一种流程示意图。该方法包括：

步骤101，获取用于期望合成语音的目标描述文本，所述目标描述文本包括：设定的至少一个目标控制信息，

其中，目标控制信息包括且不限于发音人信息、语音内容信息、重读信息、语速信息、情感信息、语音内容所涉及的领域信息等。

步骤102，利用训练后的第一语音合成模型，按照目标描述文本，生成符合目标控制信息的目标合成语音。

其中，

用于训练第一语音合成模型的第一训练数据按照至少如下方式之一构建：

方式一，基于样本语音以及其样本控制信息，构建第一训练数据，该第一训练数据包括：用于描述样本控制信息的第一样本描述文本，以及样本语音的关联特征，该方式可获得样本源语音数据；

方式二，对于每类样本控制信息，基于该类样本控制信息随机生成第二样本描述文本，利用该类样本控制信息对应的训练后的第二语音合成模型，按照第二样本描述文本，生成符合第二样本描述文本的第一样本合成语音，以构建第一训练数据，该第一训练数据包括第二样本描述文本，以及第一样本合成语音的关联特征，该方式可用于对样本源语音数据进行合成，有利于减少样本源语音数据的采集量，丰富了第一训练数据。

方式三，利用训练后的音色转换模型，按照输入该模型的第三样本描述文本，生成符合第三样本描述文本的第二样本合成语音，以构建第一训练数据，该第一训练数据包括第三样本描述文本，以及第二样本合成语音的关联特征，该方式可用于对样本源语音数据进行音色转换，扩充了第一训练数据的数据量，有利于减少样本源语音数据的采集量；

关联特征根据第一语音合成模型的输出确定，即，根据第一语音合成模型输出结果所表征的物理意义确定；

样本语音可以为语音片段。

通过第一训练数据的构建，只需采集满足有限控制信息的样本源语音数据，便可获得满足无限控制信息的样本语音数据，降低了样本源语音数据的采集要求，减少了数据采集的工作量，通过第一训练数据来对第一语音合成模型进行训练，使得训练后的第一语音合成模型可不受控制信息数量约束而合成满足多控制信息数量的语音数据。

为便于理解本申请，以下结合模型结构来说明，所应理解的是，本申请不限于本实施例的第一语音合成模型，任何用于语音合成的其他模型均可适用。

作为一种示例，参见图2所示，图2为本申请实施例训练后的第一语音合成模型的一种示意图。包括：

用于提取输入的目标描述文本的描述文本特征的第一编码器，其中，目标描述文本包括设定的至少一个目标控制信息，

用于将第一编码器输出的描述文本特征、以及拼接特征进行解码的第一解码器，其中，拼接特征由当前合成语音频域特征与起始向量特征进行拼接得到，起始向量为一个N维度的可训练向量，

用于将第一解码器的输出结果生成当前合成语音的生成器，当前合成语音对应有合成语音频域特征，

用于对第一解码器的输出结果进行停止预测的停止预测器，

其中，第一解码器、生成器、停止预测器根据停止预测器输出的停止预测结果而控制循环解码、频域特征的循环合成、循环停止预测的循环次数，也就是说，当停止预测结果达到期望停止结果时则达到了循环工作次数，这时第一解码器和生成器、停止预测器停止工作，生成器输出的当前合成语音为符合目标控制信息的目标合成语音。作为一种示例，期望停止结果根据目标控制信息中所包含的目标合成频域特征长度确定。

作为一种示例，第一编码器（encoder）包括第一特征转译（Transformer）结构，第一解码器（decoder）包括第二Transformer结构，利用两个全连接层分别作为生成器、停止预测器，第一Transformer结构、第二Transformer结构、两个全连接层构成了第一语音合成模型的神经网络部分。

基于训练后的第一语音合成模型，可方便地将输入的目标描述文本合成为目标语音数据。

例如，目标语音数据是某语音片段中内容信息的更改，则更改该语音片段对应的描述文本中的内容信息，通过训练后的第一语音合成模型，便可得目标语音数据。比如，描述文本1包括：内容信息为“我喜欢苹果”，领域信息为领域1，发音人信息为发音人1，情感信息为“平和”；若将描述文本1中的内容信息修改为“他爱好和平”，其他信息保持不变，则修改后的描述文本1通过训练后的第一语音合成模型，可输出内容为“他爱好和平”的语音片段，而该语音片段对应的发音人、情感等保持不变。

又例如，描述文本2包括：内容信息为“文本B”，领域信息为“领域B”，发音人信息为“发音人C”，“XX”二字重读，语音长度信息为“2秒”，情感信息为“高兴”，通过训练后的第一语音合成模型，则会生成发音人C于领域B的文本B内容的语音片段，该语音片段时间长度为2秒，其中的“XX”两字是重读的，听起来的情感是高兴的状态。

本实施例通过训练后的第一语音合成模型，可基于输入的目标描述文本，合成符合目标描述文本中所包括的目标控制信息的语音片段，其中，目标描述文本的控制信息数量可不受约束。

以下说明训练第一语音合成模型的过程。

为训练第一语音合成模型，需要收集数据以便构建用于训练第一语音合成模型的第一训练数据。

参见图3所示，图3为收集数据的一种流程示意图。包括：

步骤301，收集包含预先设置控制信息的若干样本语音片段，

例如，收集第一数量的样本语音片段；各样本语音片段至少包含一个样本控制信息，也可以包含多个样本控制信息，样本控制信息可以包括，样本语音片段中内容所涉及的领域信息，发音音色信息、情感信息、重读信息等。

步骤302，对样本语音片段进行样本控制信息标注，其中，样本控制信息标注包括：文本标注、情感标注、特殊读法标注（如某字重读、某字发音拖尾，儿化音等），发音人标注、领域标注中的至少之一。

步骤303，按照样本控制信息中的发音人信息，对样本语音片段进行语音归类，得到各发音人的样本语音片段集，例如，发音人A的语音片段集、发音人B的语音片段集。

步骤304，对每个发音人的样本语音片段集所包含的样本语音片段进行控制信息归类，将包含相同控制信息的语音片段归于同一类，得到样本控制信息分类子集。

通过上述步骤301~304，所收集的样本语音片段数据包括至少一个以上发音人的样本语音片段集，每个样本语音片段集中包括至少一个以上样本控制信息分类子集，以用于第二语音合成模型的训练，形成与每个发音人所包括的样本控制信息分类对应的第二语音合成模型。

上述步骤303、304还可以是，直接按照样本控制信息，对样本语音片段进行分类，得到每类样本控制信息对应的样本语音片段，以用于第二语音合成模型的训练，形成与样本控制信息分类对应第二语音合成模型。

步骤305，利用每个发音人的所有样本控制信息分类子集中的数据，对第二语音合成模型进行训练，得到与样本控制信息分类对应的语音合成模型，以用于构建用于训练第一语音合成模型的第一训练数据。如此一来，每一类样本控制信息分别对应有训练后的第二语音合成模型。

第二语音合成模型为非自回归的语音合成模型，作为一种示例，以Fast Speech模型为基础，增加一个全连接层作为第一音色编码器。参见图4a所示，图4a为Fast Speech模型的一种示意图。该模型为前向反馈特征转译结构（feed-forward transformer），包括依次连接的音素合并模块、第一FFT（feed-forward transformer）模块、长度调节器、第二FFT模块、第一线性层，其中，音素合并模块、第一FFT模块相当于音素编码器，第二FFT模块、第一线性层相当于音素解码器，输入的音素数据依次从音素合并模块、第一FFT模块、长度调节器（length regulator）、第二FFT模块、线性层模块处理后，得到合成语音数据。

参见图4b所示，图4b为FFT模块的一种示意图。该模块包括依次连接的多头注意力（multi-head attention）层、第一残差和归一化(add&norm) 层、一维操作的卷积层、第二add&norm层，其中，多头注意力（multi-head attention）层的输入数据还输入至第一add&norm层，第一add&norm层的输出还输入至第二add&norm层。

参见图4c所示，图4c为长度调节器的一种示意图。该长度调节器包括用于音素时长预测的时长预测器（duration predictor）、以及用于音素扩展的长度调节操作单元（LR），来自第一FFT模块隐藏层的音素数据经时长预测器预测后，根据时长预测结果对该音素数据进行长度调节操作，得到音素扩展结果，即扩展音素，例如，来自第一FFT模块隐藏层的音素数据包括4个不同的音素1~音素4，时长预测器对音素1~音素4进行预测，输出的时长预测结果D=[2，2，3，1]，则音素1的时长预测结果为2个，音素2的时长预测结果为2个，音素3的时长预测结果为3个，音素4的时长预测结果为1个，长度调节操作单元按照设定系数α扩展，例如，α取值为1.0，则得到音素扩展结果为：2个音素1，2个音素2，3个音素3，1个音素4。

参见图4d所示，图4d为时长预测器一种示意图。该时长预测器包括依次连接的第一卷积及归一化层、第二卷积及归一化层、第二线性层，其中，第一卷积及归一化层、第二卷积及归一化层中的卷积均为一维卷积。

参见图5所示，图5为第二语音合成模型的一种示意图。该模型包括依次连接的音素编码器、长度调节器、音素解码器所组成的FastSpeech模型，还包括第一音色编码器，其中，

音素编码器用于对输入的文本发音音素进行音素特征提取，

长度调节器包括用于音素扩展的长度调节操作单元、用于音素时长预测的时长预测器，

音素解码器用于音素解码以输出合成语音，

第一音色编码器用于对输入的音色信息进行音色特征提取，

音素编码器输出的音素特征输入至长度调节器中的长度调节操作单元，还与第一音色编码器输出的音色特征合并，得到第一合并结果，该第一合并结果输入至长度调节器中的时长预测器，

第一音色编码器输出的音色特征还与长度调节操作单元输出的扩展音素合并，得到第二合并结果，该第二合并结果输入至音素解码器，

长度调节器中，时长预测器对第一合并结果进行预测，输出时长预测结果至长度调节操作单元，长度调节操作单元根据时长预测结果对音素编码器输出的音素特征进行扩展，得到扩展音素，作为长度调节器的输出结果。

参见图6所示，图6为对第二语音合成模型进行训练的一种示意图。该训练方法包括：

步骤3501，获取用于训练第二语音合成模型的第二训练数据，

作为一种示例，基于每个发音人的所有样本控制信息分类子集中的任一样本语音数据，提取该样本语音音频的频域特征（第四样本频域特征），例如，设置频域特征提取算法短时傅里叶变化（STFT）的步长为10ms，如此则1秒音频将有100帧频域特征；

作为另一示例，对于每一类样本控制信息，基于该类样本控制信息对应的每一样本语音片段，提取该样本语音片段的频域特征，得到第四样本频域特征。

将该样本语音数据中标注的样本语音内容转换为样本文本发音音素；利用音素强制对齐工具，将所提取的频域特征（第四样本频域特征）与样本文本发音音素进行音素对齐，得到每个音素的发音边界，参见图7所示，图7为音素对齐的一种示意图。其中，语音内容为“这是一个例子” 样本语音片段被提取频域特征，样本标注文本中语音内容转换为样本文本发音音素，通过音素强制对齐工具，得到该频域特征中每个音素的发音边界，其中，音素对应的发音边界可确定该音素的时长。

将所得到样本文本发音音素、样本音素发音边界、第四样本频域特征以及样本控制信息中的样本音色信息作为一条第二训练数据。其中，样本音色信息可以为音色编号，其取决于发音人信息，即不同的发音人信息，对应不同的音色编号。

步骤502，利用第二训练数据，对第二语音合成模型进行第一训练，以使得长度调节器中的时长预测器完成训练。

参见图8所示，图8为对第二语音合成模型进行第一训练的一种示意图。将一条第二训练数据中的样本音素发音边界送入时长换算模块，得到每个音素的目标时长，其中，时长换算模块将每个音素的发音时长换算成所具有的设定单位时长的数量，例如，设定单位时长为10ms，某音素发音时长为200ms，该发音时长包含了20个10ms，则换算成20；将该第二训练数据中的样本文本发音音素送入第二语音合成模型中的音素编码器，将该第二训练数据中的音色编号送入第二语音合成模型中的第一音色编码器，拾取第二语音合成模型中的时长预测器的输出结果，以得到每个音素的时长预测结果，计算每个音素的时长预测结果与该音素的目标时长的第三损失函数值，根据第三损失函数值调整第二语音合成模型的模型参数，作为一种示例，可调整时长预测器的模型参数。

反复训练，直至第三损失函数值达到预期时停止训练，从而完成第二语音合成模型中时长预测模型的训练。

步骤3503，利用第二训练数据，对第二语音合成模型进行第二训练，以完成第二语音合成模型中所包括的声学模型的训练。

参见图9所示，图9为对第二语音合成模型进行第二训练的一种示意图。将一条第二训练数据中的样本音素发音边界送入时长换算模块，得到换算后的音素时长，将第二训练数据中的样本文本发音音素送入第二语音合成模型中的音素编码器，将音素编码器得到的音素特征和换算后的音素时长送入长度调节操作单元，得到扩展音素特征，将第二训练数据中的音色编号送入第一音色编码器，得到音色特征，将扩展音素特征和音色特征送入第二语音合成模型中的音素解码器，从音素解码器的输出结果中得到合成频域特征，计算合成频域特征与期望频域特征的第四损失函数值，根据第四损失函数值调整第二语音合成模型的模型参数，作为一种示例，可调整除音素编码器之外的音素解码器、长度调节操作单元的模型参数。

反复训练，直至第四损失函数值达到预期时停止训练。

步骤306，利用每个发音人的所有样本控制信息分类子集中的数据，对用于音色转换的音色转换模型进行训练，得到训练后的音色转换模型，以扩充用于第一语音合成模型训练的第一训练数据。

鉴于训练后的第二语音合成模型解决了用于第一语音合成模型训练的训练数据从无到有的问题，通过训练后的音色转换模型，可使得用于第一语音合成模型训练的训练数据更为丰富。

参见图10所示，图10为音色转换模型的一种示意图。作为一种示例，音色转换模型为对抗生成网络模型。包括：U-NET构建的转换器、以及判决器、由一个全连接层构建的第二音色编码器，其中，

第二音色编码器用于提取目标音色信息的音色特征，

转换器用于基于第二音色编码器输入的音色特征将待转换语音的频域特征转换为目标音色频域特征，

用于对转换器输出的目标音色频域特征进行评估的判决器；

目标音色信息输入至第二音色编码器，第二音色编码器生成的目标音色特征输入至转换器，待转换音色音频的频域特征输入至转换器，转换器按照目标音色特征，将待转换音色音频的频域特征转换为目标音色频域特征，并输入至判决器，判决器对目标音色频域特征进行判决，如果目标音色频域特征符合设定的要求，则输出该目标音色频域特征。

参见图11所示，图11为转换器的一种示意图。转换器包括第三音色编码器、第三音色解码器，第三音色编码器由3个下采样器（DownSampler）组成，第三音色解码器由3个上采样器（UpSampler）组成，第一下采样器DownSampler1的输出和第二上采样器UpSampler2的输出相加后再送入第三上采样器UpSampler3，第二下采样器DownSampler2的输出和第一上采样器UpSampler1的输出相加后再送入第二上采样器UpSampler2，第三下采样器DownSampler3的输出与第二音色编码器的输出相加后输入至第一上采样器UpSampler1，整个结构如同一个U字型，所以称之为U-Net。

每个下采样器如图12所示，下采样器由1层第一CNN层、leakyRelu激活函数、1层第二CNN层依次相连组成，并且，下采样器具有残差结构，即第一CNN层的输出和第二CNN层的输出相加后输出。每个上采样器如图13所示，由1层反卷积(CNN-T)层、leakyRelu激活函数、1层第三CNN层组成，同样地，也是一个残差结构，即，反卷积(CNN-T)层的输出与第三CNN层的输出相加后输出。

判决器（discriminator）为图像分类模型VGG16，其结构如图14所示，该结构由3个相同的模块串联而成，最后模块输出至第一全连接层，第一全连接层输出至第二全连接层，该第二全连接层作为得分器，其输出反应了当前样本与目标之间的距离。

参见图15所示，图15为对音色转换模型中的转换器和第二音色编码器进行训练的一种示意图。收集第二数量（若干）无标注的样本语音数据，提取每条样本语音的频域特征，得到用于待转换样本语音片段的第五样本频域特征，作为第三训练数据。将第五样本频域特征作为待转换音色源数据输入至转换器，将设定的第一样本目标音色信息输入至第二音色编码器，转换器生成第一样本目标音色频域特征，并输入至判决器，判决器对第一样本目标音色频域特征进行评估，得到用于表征第一样本目标音色频域特征其得分的第一评估结果，计算判决器输出的第一评分结果与设定的第一期望结果的距离，得到第五损失函数值L1；将第一样本目标音色频域特征作为另一待转换音色源数据输入至转换器，将第五样本频域特征所对应的第二样本目标音色信息输入至第二音色编码器，转换器生成第二目标样本频域特征，计算第二目标样本频域特征与第五样本频域特征的损失函数值（例如，平均均方差，MSE），得到第六损失函数值L2，累加第五损失函数值L1和第六损失函数值L2，根据累加后的损失函数值调整转换器和第二音色编码器的模型参数，从而完成本次转换器和第二音色编码器的训练；

如图16所示，将本次训练过程中得到的第一样本目标音色频域特征、期望音色频域特征分别输入判决器，判决器对第一样本目标音色频域特征进行评估，得到第二评估结果，对期望音色频域特征进行评估，得到第三评估结果，计算第二评估结果与设定的第二期望结果的第七损失函数值，计算第三评估结果与设定的第三期望结果的第八损失函数值，累加第七损失函数值和第八损失函数值，根据累加后的损失函数值调整判决器的模型参数，完成本次判决器的训练。如此一来，转换器和第二音色编码器的训练、判决器的训练一前一后地进行训练，当累加后的损失函数值达到预期时停止训练。

其中，作为一种示例，第二期望结果取值为0.0，第三期望结果取值为1.0，第二评估结果越趋于0.0，说明第一样本目标音色频域特征与期望越接近，音色转换模型的性能越好，第三评估结果越趋于1.0，说明第二样本目标音色频域特征与期望越接近，判决器的性能越好。

步骤305-306可以没有严格的先后次序，可并行执行。

步骤307，对所收集的数据按下述方式进行重构：

基于样本语音片段及其标注信息，构建第一样本描述文本，该第一样本描述文本包括：基于标注信息所构建的样本控制信息；为区分相同模型结构所实现的功能，该第一样本描述文本还包括用于模型功能的描述，例如，“生成音频”或“生成一段音频”的描述。

作为一种示例，提取样本语音片段的频域特征，得到第一样本频域特征，将第一样本频域特征长度作为第一样本时长停止长度，

将第一样本描述文本、第一样本频域特征、第一样本停止长度作为一条第一训练数据。

例如：

语音片段①，其标注为：领域A，文本信息A，发音人A，情感B，无特殊读法，

那么，构建的描述文本①包括：生成一段音频，内容信息为“文本A”，领域信息为“领域A”，发音人信息为“发音人A”，情感信息为“情感B”。

提取语音片段①的频域特征①，将频域特征长度作为停止长度①

如此，描述文本①、频域特征①和停止长度①作为本发明一条第一训练数据。

所应理解的是，步骤307与步骤305、306可以无严格的先后次序。

步骤308，基于每类样本控制信息，随机生成第二描述文本，选取与该类控制信息对应的训练后的第二语音合成模型，按照第二描述文本，生成符合第二样本描述文本的第一样本合成语音，利用第一样本合成语音，生成用于训练第一语音合成模型的第一训练数据，

作为一种示例，提取第一样本合成语音的频域特征，得到第二样本频域特征，

将第二频域特征长度作为第二样本停止长度，

将第二样本描述文本、第二样本频域特征、第二样本停止长度作为一条第一训练数据；

例如：

描述文本②包括：生成一段音频，内容信息为“文本B”，领域信息为“领域B”，发音人信息为“发音人B”，“XX”二字重读。

则选取训练的领域B、发音人B并且拥有重读控制功能的第二语音合成模型，来合成文本B对应的语音，并且对XX二字进行重读合成，得到合成音频②。

提取合成音频②的频域特征②，将频域特征长度作为停止长度②，

最终，描述文本②、特征②、停止长度②形成一条第一训练数据。

步骤309，利用训练后的音色转换模型，按照输入至该模型的第三样本描述文本，生成符合第三样本描述文本的第二样本合成语音，利用第二样本合成语音，生成用于训练第一语音合成模型的第一训练数据。

作为一种示例，将第一样本描述文本和/或第二样本描述文本中的音色信息进行变更，得到变更后的第三样本描述文本，

将第三样本频域特征长度作为第三样本停止长度，

作为另一种示例，对合成音频中的发音人信息进行音色转换，以进行第一训练数据扩充。

例如将描述文本②中“发音人B”变为“发音人C”，以作为描述文本③。

利用音色转换模型将合成音频②在内容保持不变的情况下，转换为“发音人C”的合成音频③，

提取合成音频③的频域特征③，将频域特征长度作为停止长度③

最终，描述文本③、特征③、停止长度③形成一条第一训练数据。

本实施例第一训练数据的获取方式，无需收集所有发音人所有语音内容的语音数据，只需收集若干发音人部分语音内容的语音数据，大大降低了数据收集的难度。

上述步骤307-309可以没有严格的先后次序，可并行执行。

参见图17所示，图17为训练第一语音合成模型的一种示意图。作为一种示例，设置循环器包括第一解码器、生成器、停止预测器、起始向量。生成器、停止预测器输出分别存储于用于存储生成器的结果池、以及停止预测器输出结果的结果池。

将一条第一训练数据中的样本停止长度作为循环器的循环次数，并且根据样本停止长度构建期望停止结果，如：样本停止长度为100，则期望停止结果为99个0和1个1组成。

将该第一训练数据中的样本描述文本送入第一编码器得到描述文本特征，将描述文本特征和循环次数送入循环器，

循环器计算完毕后，将结果池中的当前样本合成频域特征与期望合成频域特征进行损失函数计算，例如，MSE损失值计算，得到第一损失函数值，将停止预测器结果与期望停止结果进行损失函数计算，例如，交叉熵损失值计算，得到第二损失函数值，根据两损失值调整第一编码器、第一解码器、生成器、停止预测器的模型参数以及起始向量，直至第一损失函数值、第二损失函数值到达预期时停止训练。

所应理解的是，循环器可以是一个逻辑执行单元，用于循环地将起始向量和样本合成频域特征拼接起来，以得到样本拼接特征，样本拼接特征与样本描述文本特征一并送入第一解码器进行解码，最终根据停止预测器的输出结果进行逻辑判断是否停止；结果池为寄存单元，用于存储生成器生成的结果和停止预测器生成的结果，分别有合成频域结果池寄存单元和停止预测结果池寄存单元。

作为另一种示例，将第一训练数据中的任一条训练数据的样本停止长度作为循环次数，并且根据样本停止长度构建期望停止结果。

将训练数据中的样本描述文本送入第一编码器，得到样本描述文本特征；

累加当前循环次数，

判断当前循环次数是否达到设定的循环次数，其中，设定的循环次数等于样本停止长度，

如果未达到，则将样本描述文本特征、以及样本拼接特征输入至第一解码器，并返回执行累加当前循环次数的步骤，

否则，将生成器输出的样本合成频域特征和期望合成频域特征进行第一损失值计算，将停止预测器输出的停止预测结果与期望停止结果进行第二损失值计算，根据第一损失函数值、第二损失函数值调整第一编码器、第一解码器、生成器、停止预测器的模型参数以及起始向量，

反复执行，直至第一损失函数值、第二损失函数值到达预期时停止训练。

参见图18所示，图18为本申请实施例语音合成装置的一种示意图，该装置包括：

语音合成模块，用于利用训练后的第一语音合成模型，按照目标描述文本，生成符合目标控制信息的目标合成语音。

参见图19所示，图19为本申请实施例用于训练第一语音合成模型的第一训练数据的构建装置的一种示意图，该构建装置包括：

至少如下构件模块之一：

第一构建模块，用于基于样本语音片段以及其样本控制信息，构建第一训练数据，该第一训练数据包括：用于描述样本控制信息的第一样本描述文本，以及样本语音片段的关联特征，

其中，关联特征根据第一语音合成模型的输出确定。

参见图20所示，图20为本申请实施例第一训练数据的构建装置、或语音合成装置的另一种示意图。该装置包括处理器和存储器，所述存储器存储有计算机程序，所述处理器被配置为执行所述计算机程序以实现本申请实施例所述训练数据构建方法的步骤和/或语音合成装置的步骤。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessing，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现所述训练数据构建方法的步骤和/或语音合成装置的步骤。

对于装置/网络侧设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音合成方法，其特征在于，该方法包括：

所述关联特征根据第一语音合成模型的输出确定。

2.如权利要求1所述的方法，其特征在于，所述第一语音合成模型包括：

3.如权利要求2所述的方法，其特征在于，所述第一训练数据被构建之前包括：

收集具有预设至少一个样本控制信息的样本语音，

对样本语音进行样本控制信息标注，得到样本控制信息，

所述方式一包括：

提取样本语音的频域特征，得到第一样本频域特征，

将第一样本频域特征长度作为第一样本停止长度，

所述方式二包括：

将第二频域特征长度作为第二样本停止长度，

所述方式三包括：

将第三样本频域特征长度作为第三样本停止长度，

4.如权利要求3所述的方法，其特征在于，所述第一语音合成模型以如下方式进行训练：

根据样本停止长度，构建期望停止结果，

将样本描述文本输入至第一语音合成模型中的第一编码器，

累计当前循环次数，

当第一损失函数值、第二损失函数值达到预期时停止训练。

5.如权利要求1所述的方法，其特征在于，所述第二语音合成模型包括：

其中，

时长预测器输出的时长预测结果输入至长度调节操作单元，

6.如权利要求5所述的方法，其特征在于，所述第二语音合成模型以如下方式进行训练：

对于每一类样本控制信息：

7.如权利要求6所述的方法，其特征在于，所述利用第二训练数据，对第二语音合成模型进行第一训练，包括：

根据第三损失函数值，调整第二语音合成模型的模型参数，

反复训练，直至第三损失函数值达到预期。

8.如权利要求6所述的方法，其特征在于，所述利用第二训练数据，对第二语音合成模型进行第一训练，包括：

根据第四损失函数值，调整第二语音合成模型的模型参数，

反复训练，直至第四损失函数值达到预期。

9.如权利要求1所述的方法，其特征在于，所述音色转换模型包括：

用于提取目标音色信息的音色特征的第二音色编码器，

用于对转换器输出的目标音色频域特征进行评估的判决器。

10.如权利要求9所述的方法，其特征在于，所述音色转换模型以如下方式进行训练：

将第五样本频域特征输入至转换器，

将设定的第一样本目标音色信息输入至第二音色编码器，

将转换器输出的第一样本目标音色频域特征输入至判决器，

累加第七损失函数值和第八损失函数值，

根据累加后的损失函数值，调整判决器的模型参数，

反复执行，直至累加后的损失函数值达到预期。

11.一种用于训练第一语音合成模型的第一训练数据的构建方法，其特征在于，该方法包括：

按照至少如下方式之一构建第一训练数据：

其中，关联特征根据第一语音合成模型的输出确定。

12.一种语音合成装置，其特征在于，该装置包括：

其中，

第一语音合成模型包括：

用于提取目标描述文本的描述文本特征的第一编码器、

13.一种用于训练第一语音合成模型的第一训练数据的构建装置，其特征在于，该装置包括至少如下构件模块之一：

其中，关联特征根据第一语音合成模型的输出确定。

14.一种语音合成模型，其特征在于，该模型包括：

用于将输入的描述文本提取出描述文本特征的第一编码器、

其中，