CN112951200B

CN112951200B - 语音合成模型的训练方法、装置、计算机设备及存储介质

Info

Publication number: CN112951200B
Application number: CN202110120425.6A
Authority: CN
Inventors: 王振宇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2024-03-12
Anticipated expiration: 2041-01-28
Also published as: CN112951200A

Abstract

本公开关于一种语音合成模型的训练方法、装置、计算机设备及计算机可读存储介质，属于计算机技术领域。通过先应用大规模的第一样本集，训练得到性能稳定的第一模型，再基于第一模型进行复制的得到第二模型，应用用户提供的第二样本集，对第二模型进行个性化训练，在个性化训练阶段基于第一模型和第二模型之间的参数误差、输出结果误差，对第二模型的参数进行修正，在用户所提供的训练数据质量不稳定的情况下，避免第二模型的参数受到极端训练数据的影响，确保第二模型训练结果的稳定性，确保语音合成质量。

Description

语音合成模型的训练方法、装置、计算机设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及语音合成模型的训练方法、装置、计算机设备及存储介质。

背景技术

语音合成技术是通过机械的、电子的方法产生人造语音的技术，随着语音合成技术的发展，越来越多的应用程序能够为用户提供个性化定制服务器，也即是，基于用户自己提供的语音素材进行语音合成，以满足用户的个性化需求。在这一过程中，通常是先基于语音素材库中大量的语音素材，训练出一个基础的语音合成模型，然后基于用户提供的语音素材对语音合成模型进行个性化训练，使语音合成模型学习到用户的语音特征，最后应用个性化训练后的语音合成模型，将用户提供的文本转换为一段语音。

但是，由于用户提供的语音素材质量不稳定，且数量往往也较少，导致个性化训练阶段，模型训练容易受到极端训练数据的影响，语音合成模型的训练效果不稳定，进而导致合成的语音的效果也较差。

发明内容

本公开提供一种语音合成模型的训练方法、装置、计算机设备及存储介质，以至少解决相关技术中语音合成模型的训练效果不稳定的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音合成模型的训练方法，包括

获取用于进行语音合成的第一模型和第二模型，该第一模型基于第一样本集训练得到，该第二模型的模型结构和参数与该第一模型相同；

获取目标用户账号对应的第二样本集，该第二样本集中的一个第二训练样本包括第二文本数据以及对应的第二语音数据；

基于该第二样本集对该第二模型进行迭代训练，在任一次迭代过程中，将第二训练样本分别输入该第一模型和该第二模型，得到第一误差和第二误差，该第一误差用于表示该第二模型输出的第一语音特征与该第二训练样本中第二语音数据的语音特征之间的误差，该第二误差包括该第一模型与该第二模型中对应运算层的参数之间的误差、对应运算层的输出结果之间的误差中的至少一项；

基于该第一误差以及该第二误差更新该第二模型的参数，直至满足第一参考条件，得到训练完成的第二模型。

在一种可能实现方式中，该获取用于进行语音合成的第一模型和第二模型包括：

获取未训练的该第一模型；

基于该第一样本集对该第一模型进行迭代训练，直至满足第二参考条件，得到训练完成的该第一模型；

对训练完成的该第一模型进行复制，得到该第二模型。

在一种可能实现方式中，该基于该第一样本集对该第一模型进行迭代训练，直至满足第二参考条件，得到训练完成的该第一模型，包括：

在任一次迭代过程中，将该第一样本集中的第一训练样本输入该第一模型，得到该第一模型输出的第二语音特征，该第一训练样本包括第一文本数据以及对应的第一语音数据；

获取该第二语音特征与该第一语音数据的语音特征之间的第三误差；

基于该第三误差更新该第一模型的参数，直至满足该第二参考条件，得到训练完成的该第一模型。

在一种可能实现方式中，该第一模型包括风格确定网络以及语音合成网络；

该在任一次迭代过程中，将该第一样本集中的第一训练样本输入该第一模型，得到该第一模型输出的第二语音特征，包括：

将该第一训练数据中的该第一语音数据输入该风格确定网络，通过该风格确定网络确定该第一训练数据中的该第一语音数据对应的第一风格特征；

通过该语音合成网络，基于该第一训练数据中的该第一文本数据以及该第一风格特征进行语音合成，得到该第二语音特征。

在一种可能实现方式中，该将该第一训练数据中的该第一语音数据输入该风格确定网络，通过该风格确定网络确定该第一训练数据中的该第一语音数据对应的第一风格特征，包括：

将该第一训练数据中的该第一语音数据输入该风格确定网络，通过该风格确定网络确定该第一语音数据对应的第一权重向量，该第一权重向量中的一个元素用于指示该第一语音数据的语音风格与一个参考风格特征之间的匹配度；

基于该第一权重向量对各个参考风格特征进行加权求和，得到该第一语音数据对应的该第一风格特征。

在一种可能实现方式中，该第一语音数据携带噪声标签，该噪声标签用于指示该第一语音数据中所添加噪声的信息。

在一种可能实现方式中，该第一权重向量中的目标位置的元素用于指示该第一语音数据的语音风格与噪声风格特征之间的匹配度；

该将该第一训练数据中的该第一语音数据输入该风格确定网络，通过该风格确定网络确定该第一语音数据对应的第一权重向量之后，该方法还包括：

基于该目标位置的元素与该第一语音数据的噪声标签的匹配信息，确定第四误差；

基于该第四误差更新该风格确定网络的参数。

在一种可能实现方式中，该获取该第二误差的方法包括下述至少一项：

获取该第一模型中目标运算层参数与该第二模型中目标运算层的参数之间的参数误差；

获取该第一模型中目标运算层的第一输出结果，获取该第二模型中目标运算层的第二输出结果，获取该第一输出结果与该第二输出结果之间的输出结果误差。

在一种可能实现方式中，该基于该第一误差以及该第二误差更新该第二模型的参数，直至满足第一参考条件，得到训练完成的第二模型之后，该方法还包括：

响应于该第二模型训练完成，将该目标用户账号对应的目标文本数据输入该第二模型，获取该第二模型输出的目标语音特征；

基于该目标语音特征合成与该目标文本数据相对应的目标语音数据。

在一种可能实现方式中，该响应于该第二模型训练完成，将该目标用户账号对应的目标文本数据输入该第二模型，获取该第二模型输出的目标语音特征，包括：

响应于该第二模型训练完成，在该第二训练数据集中，获取目标第二语音数据；

将该目标文本数据以及该目标第二语音数据，输入该第二模型；

通过该第二模型中的风格确定网络基于该目标第二语音数据，输出目标风格特征；

通过该第二模型中的语音合成网络，基于该目标文本数据以及该目标风格特征，输出该目标语音特征。

在一种可能实现方式中，该通过该第二模型中的风格确定网络基于该目标第二语音数据，输出目标风格特征，包括：

通过该风格确定网络确定该目标第二语音数据对应的第二权重向量，该第二权重向量中的一个元素用于指示该目标第二语音数据与一个参考风格特征之间的匹配度，该第二权重向量中的目标位置的元素用于指示该目标第二语音数据的语音风格与噪声风格特征之间的匹配度；

将该第二权重向量中目标位置的元素的数值置零；

基于更新后的第二权重向量对各个参考风格特征进行加权运算乘，得到该目标风格特征。

根据本公开实施例的第二方面，提供一种语音合成模型的训练装置，包括：

模型获取单元，被配置为获取用于进行语音合成的第一模型和第二模型，该第一模型基于第一样本集训练得到，该第二模型的模型结构和参数与该第一模型相同；

样本获取单元，被配置为获取目标用户账号对应的第二样本集，该第二样本集中的一个第二训练样本包括第二文本数据以及对应的第二语音数据；

误差获取单元，被配置为基于该第二样本集对该第二模型进行迭代训练，在任一次迭代过程中，将第二训练样本分别输入该第一模型和该第二模型，得到第一误差和第二误差，该第一误差用于表示该第二模型输出的第一语音特征与该第二训练样本中第二语音数据的语音特征之间的误差，该第二误差包括该第一模型与该第二模型中对应运算层的参数之间的误差、对应运算层的输出结果之间的误差中的至少一项；

参数更新单元，被配置为基于该第一误差以及该第二误差更新该第二模型的参数，直至满足第一参考条件，得到训练完成的第二模型。

在一种可能实现方式中，该模型获取单元包括：

第一获取子单元，被配置为获取未训练的该第一模型；

训练子单元，被配置为基于该第一样本集对该第一模型进行迭代训练，直至满足第二参考条件，得到训练完成的该第一模型；

第二获取子单元，被配置为对训练完成的该第一模型进行复制，得到该第二模型。

在一种可能实现方式中，该训练子单元，包括：

特征获取子模块，被配置为在任一次迭代过程中，将该第一样本集中的第一训练样本输入该第一模型，得到该第一模型输出的第二语音特征，该第一训练样本包括第一文本数据以及对应的第一语音数据；

误差获取子模块，被配置为获取该第二语音特征与该第一语音数据的语音特征之间的第三误差；

参数更新子模块，被配置为基于该第三误差更新该第一模型的参数，直至满足该第二参考条件，得到训练完成的该第一模型。

该特征获取子模块，被配置为将该第一训练数据中的该第一语音数据输入该风格确定网络，通过该风格确定网络确定该第一训练数据中的该第一语音数据对应的第一风格特征；通过该语音合成网络，基于该第一训练数据中的该第一文本数据以及该第一风格特征进行语音合成，得到该第二语音特征。

在一种可能实现方式中，该特征获取子模块，被配置为：

该误差获取单元，被配置为基于该目标位置的元素与该第一语音数据的噪声标签的匹配信息，确定第四误差；

该参数更新单元，被配置为基于该第四误差更新该风格确定网络的参数。

在一种可能实现方式中，该误差获取单元被配置为执行下述至少一项：

在一种可能实现方式中，该装置还包括：

特征获取单元，被配置为响应于该第二模型训练完成，将该目标用户账号对应的目标文本数据输入该第二模型，获取该第二模型输出的目标语音特征；

合成单元，被配置为基于该目标语音特征合成与该目标文本数据相对应的目标语音数据。

在一种可能实现方式中，该特征获取单元包括：

数据获取子单元，被配置为响应于该第二模型训练完成，在该第二训练数据集中，获取目标第二语音数据；

输入子单元，被配置为将该目标文本数据以及该目标第二语音数据，输入该第二模型；

风格特征输出子单元，被配置为通过该第二模型中的风格确定网络基于该目标第二语音数据，输出目标风格特征；

语音特征输出子单元，被配置为通过该第二模型中的语音合成网络，基于该目标文本数据以及该目标风格特征，输出该目标语音特征。

在一种可能实现方式中，该风格特征输出子单元，被配置为：

将该第二权重向量中目标位置的元素的数值置零；

根据本公开实施例的第三方面，提供一种计算机设备，包括：

处理器；

用于存储该处理器可执行指令的存储器；

其中，该处理器被配置为执行该指令，以实现如上述任一项语音合成模型的训练方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当该计算机可读存储介质中的指令由计算机设备的处理器执行时，使得该计算机设备能够执行如上述任一项语音合成模型的训练方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括可执行指令，当该计算机程序产品中的指令由计算机设备的处理器执行时，使得该计算机设备能够执行如上述任一项语音合成模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过先应用大规模的第一样本集，训练得到性能稳定的第一模型，再基于第一模型进行复制的得到第二模型，应用用户提供的第二样本集，对第二模型进行个性化训练，在个性化训练阶段基于第一模型和第二模型之间的参数误差、输出结果误差，对第二模型的参数进行修正，在用户所提供的训练数据质量不稳定的情况下，避免第二模型的参数受到极端训练数据的影响，确保第二模型训练结果的稳定性，确保语音合成效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开实施例提供的一种语音合成模型的训练方法的实施环境示意图；

图2是根据一示例性实施例示出的一种语音合成模型的训练方法的流程图；

图3为根据一示例性实施例示出的第一模型的训练方法的流程图；

图4为根据一示例性实施例示出的第一模型的示意图；

图5为根据一示例性实施例示出的参考风格特征的示意图；

图6为根据一示例性实施例示出的第二模型的训练和应用方法的流程图；

图7是根据一示例性实施例示出的一种语音合成模型的训练装置框图；

图8是根据一示例性实施例示出的一种计算机设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是本公开实施例提供的一种语音合成模型的训练方法的实施环境示意图，参见图1，该实施环境包括：终端110和服务器120。

其中，终端110安装和运行有支持语音合成的应用程序，例如，社交类应用程序、音频处理类应用程序等。示例性的，终端110是用户侧设备，也可以是开发侧设备，终端110中运行的应用程序内登录有用户账号。可选的，该终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

服务器120用于为支持语音合成的应用程序提供后台服务，示例性的，该服务器120搭载有语音合成模型，该服务器能够对语音合成模型进行训练，通过训练好的语音合成模型，将文本数据转换为语音数据。可选的，该服务器120可以为一台服务器、多台服务器、云服务器、云计算平台或者虚拟化中心等，但并不局限于此。

上述终端110与服务器120可以通过有线或无线通信方式进行直接或间接地连接，本公开实施例对此不作限定。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本公开实施例对终端的数量和设备类型不加以限定。

图2是根据一示例性实施例示出的一种语音合成模型的训练方法的流程图，该方法可以应用于服务器或终端，以下结合图2，以服务器为执行主体对该语音合成模型的训练方法进行简要说明，在一种可能实现方式中，该实施例包括以下步骤：

在步骤201中，获取用于进行语音合成的第一模型和第二模型，该第一模型基于第一样本集训练得到，该第二模型的模型结构和参数与该第一模型相同。

在步骤202中，获取目标用户账号对应的第二样本集，该第二样本集中的一个第二训练样本包括第二文本数据以及对应的第二语音数据。

在步骤203中，基于该第二样本集对该第二模型进行迭代训练，在任一次迭代过程中，将第二训练样本分别输入该第一模型和该第二模型，得到第一误差和第二误差，该第一误差用于表示该第二模型输出的第一语音特征与该第二训练样本中第二语音数据的语音特征之间的误差，该第二误差包括该第一模型与该第二模型中对应运算层的参数之间的误差、对应运算层的输出结果之间的误差中的至少一项。

在步骤204中，基于该第一误差以及该第二误差更新该第二模型的参数，直至满足第一参考条件，得到训练完成的第二模型。

本公开实施例提供的技术方案，通过先应用大规模的第一样本集，训练得到性能稳定的第一模型，再基于第一模型进行复制的得到第二模型，应用用户提供的第二样本集，对第二模型进行个性化训练，在个性化训练阶段基于第一模型和第二模型之间的参数误差、输出结果误差，对第二模型的参数进行修正，在用户所提供的训练数据质量不稳定的情况下，避免第二模型的参数受到极端训练数据的影响，确保第二模型训练结果的稳定性，确保语音合成效果。

获取未训练的该第一模型；

对训练完成的该第一模型进行复制，得到该第二模型。

基于该第四误差更新该风格确定网络的参数。

将该第二权重向量中目标位置的元素的数值置零；

基于更新后的第二权重向量对各个参考风格特征进行加权运算，得到该目标风格特征。

上述实施例仅是本公开的实施方式的一个简要介绍以及各种可能实现方式的简要介绍，在本公开实施例中，在对第二模型进行训练之前，服务器先获取训练完成的第一模型，图3为根据一示例性实施例示出的第一模型的训练方法的流程图，参见图3，在一种可能实现方式中，该实施例包括以下步骤：

在步骤301中，服务器获取未训练的第一模型以及第一样本集。

在一种可能实现方式中，服务器响应于第一模型训练指令，获取该未训练的第一模型和第一样本集，其中，该第一模型训练指令可以由开发侧终端发送。

在本公开实施例中，第一模型包括风格确定网络以及语音合成网络。其中，该风格确定网络用于确定语音数据的风格特征，也即是，将语音数据的语调风格表示为一个特征向量；该语音合成网络用于基于文本数据以及风格特征，输出与该文本数据相对应的语音特征，该语音特征能够用于进行后续的语音合成。图4为根据一示例性实施例示出的第一模型的示意图，该第一模型包括风格确定网络401和语音合成网络402，如图4所示，该风格确定网络401可以是基于GST(Global Style Token，全局风格令牌)模块构建的网络，该风格确定网络401包括语音输入模块403、参考编码器(reference encoder)404、参考注意力机制模块(reference attention)405以及风格嵌入模块(style enbed)406。其中，该参考编码器用于将语音输入模块所输入的语音数据，映射为一个定长的向量，即初始语音特征，该参考注意力模块用于确定该初始语音特征与预设的参考风格特征之间的相似度，由风格嵌入模块该相似度以及各个参考风格特征，对输入语音数据的语调风格进行建模，表示为向量的形式，即得到输入语音数据对应的风格特征。该语音合成网络402可以是基于Tacotron(一种端到端的深度学习模型)构建的网络，该语音合成网络402包括文本输入模块407、编码器(encoder)408、注意力模块(attention)409以及解码器(decoder)410。其中，编码器用于将文本输入模块所输入的语音数据转换为文本特征，注意力模块用于将文本特征和风格确定网络输出的参考风格特征进行拼接，由解码器基于拼接后的特征进行信号重建，得到输入文本数据所对应的语音特征。需要说明的是，上述对第一模型的模型结构的说明，仅是一种示例性说明，本公开实施例对此不作限定。

在本公开实施例中，该第一样本集包括多个第一训练样本，一个第一训练样本包括一个第一文本数据以及对应的第一语音数据。示例性的，用于训练该第一模型的第一样本集提取自多说话人语音库，即该第一样本集包括多种风格、特征不同的语音数据。其中，该第一文本数据为已标注的数据，例如，该第一文本数据标注有音素索引、音调、儿化音标记等。

在一种可能实现方式中，服务器在基于该第一样本集进行模型训练之前，可以对该第一样本集中的数据添加噪声。示例性的，对于任一第一训练样本中的第一语音数据，服务器为该第一语音数据添加不同强度的噪声，例如，为该第一语音数据分别添加信噪比为-5db、0db、5db、10db的等梯度噪声。在本公开实施例中，服务器还可以为第一语音数据添加噪声标签，该噪声标签用于指示该第一语音数据中所添加噪声的信息，通过该噪声标签对噪声语音数据与干净语音数据进行区分。例如，该噪声标签能够用于指示语音数据中是否添加有噪声，可选的，还包括添加噪声的强度的信息，例如，-5db、0db、5db、10db等。在本公开实施例中，通过预先在训练预料中引入噪声，基于有噪声的训练样本对第一模型进行训练，使第一模型学习到噪声风格的特征，提高第一模型的抗噪声性能。

在步骤302中，在任一次迭代过程中，服务器将该第一训练数据中的该第一语音数据输入该第一模型的风格确定网络，通过该风格确定网络确定该第一训练数据中的第一语音数据对应的第一风格特征。

在本公开实施例中，该风格确定网络预设有目标数量的参考风格特征(token)，通过对各个参考风格特征进行加权组合，能够表示出任一语音数据的风格特征，例如，语音数据的副语言信息、语调、重音等。其中，该目标数量由开发人员进行设置，通常情况下该目标数量设为10。

在一种可能实现方式中，服务器将该第一训练数据中的该第一语音数据输入该风格确定网络，通过该风格确定网络确定该第一语音数据对应的第一权重向量。其中，该第一权重向量中的一个元素用于指示该第一语音数据的语音风格与一个参考风格特征之间的匹配度。以下结合图4所示的第一模型，对该第一权重向量的获取过程进行说明，在一种可能实现方式中，该过程可以包括以下步骤：

步骤一、服务器通过风格确定网络中的语音输入模块，对第一语音数据进行数据处理，得到该第一语音数据对应的频谱特征。

在一种可能实现方式中，首先，服务器对该第一语音数据进行预处理，例如，对第一语音数据进行预加重、分帧、加窗等，本公开实施例对此不作限定。对于预处理后的第一语音数据，服务器对第一语音数据中的各个语音帧进行快速傅里叶变换，得到各个语音帧对应的频谱；然后，基于该频谱确定各个语音帧对应的功率谱，将各个语音帧对应的功率谱输入滤波器，得到各个语音帧对应的对数能量；最后，服务器对各个对数能量进行离散余弦变换，得到该第一语音数据对应的梅尔频率倒谱系数，将该梅尔频率倒谱系数确定为该第一语音数据对应的频谱特征。需要说明的是，上述对频谱特征获取方法的说明，仅是一种可能实现方式的示例性说明，本公开实施例对具体采用哪种方法获取该频谱特征不作限定。

步骤二、服务器将该第一语音数据对应的频谱特征输入参考编码器，得到该第一语音数据对应的初始语音特征。

其中，该参考编码器包括多个卷积层，服务器通过该参考编码器中的多个卷积层，对该第一语音数据对应的频谱特征进行编码，将该频谱特征映射为一个定长向量，由该定长向量来表示第一语音数据的初始语音特征。需要说明的是，本公开实施例对参考编码器的具体工作原理不作限定。

步骤三、服务器通过参考注意力模块，基于该初始语音特征与各个参考风格特征之间的匹配度，确定该第一权重向量。

在一种可能实现方式中，参考风格特征可以表示为向量的形式，该参考风格特征的维度与该初始语音特征的维度相同。

在一种可能实现方式中，该参考注意力模块可以是添加了注意力机制的RNN网络，该参考注意力模块可以基于content-based attention(基于内容的注意力机制)来确定该初始语音特征与各个参考风格特征之间的匹配度，从而得到该第一权重向量。以该风格确定网络中预设有10种参考风格特征为例，则能够获取到10维的第一权重向量，该第一权重向量中的一个元素为该初始语音特征与各个参考风格特征之间的匹配度，在一种可能实现方式中，该第一权重向量中各个元素之和为1，例如，该第一权重向量表示为(0.1，0.07，0.06，0.13，0.15，0.05，0.14，0.1，0.09，0.11)，则0.07用于表示该初始语音特征与第二个参考风格特征之间的匹配度。需要说明的是，上述对第一权重向量获取方法的说明，仅是一种可能实现方式的示例性说明，例如，服务器可以基于其他注意力机制对初始语音特征和参考风格特征进行相似度度量，本公开实施例对此不作限定。

在本公开实施例中，服务器获取到第一权重向量后，基于该第一权重向量以及各个参考风格特征对该第一语音数据的风格特征进行建模，示例性的，服务器基于该第一权重向量对各个参考风格特征进行加权求和，也即是，将该第一权重向量与各个参考风格特征所构成的特征矩阵相乘，得到该第一语音数据对应的第一风格特征。

在本公开实施例中，输入该风格确定网络的部分第一语音数据中添加了噪声，为使风格确定网络能够学习到噪声特征，对噪声语音数据和干净语音数据进行区分，在一种可能实现方式中，可以将某一参考风格特征指定为噪声风格特征(token noise)，例如，将第目标个参考风格特征指定为噪声风格特征，则获取到的第一权重向量中，若该第目标个参考风格特征所对应的元素，即目标位置的元素的数值为0时，表示当前输入的第一语音数据中未添加噪声，该第一权重向量中目标位置的元素的数值不为0时，表示当前输入的第一语音数据中添加有噪声。图5为根据一示例性实施例示出的参考风格特征的示意图，以四个参考风格特征为例，将排在第一位的参考风格特征501指定为噪声风格特征，在基于该四个参考风格特征所确定的第一权重向量中，排在第一位的元素502用于表示初始语音特征与该噪声风格特征之间的匹配度，例如，元素502的数值不为0，则表示当前输入的语音数据中添加了噪声。在一种可能实现方式中，以第一权重向量中的目标位置的元素表示第一语音数据的语音风格与噪声风格特征之间的匹配度为例，服务器可以基于该目标位置的元素与该第一语音数据的噪声标签的匹配信息，确定第四误差。示例性的，服务器基于该目标位置的元素对输入的第一语音数据进行分类，分为添加噪声和未添加噪声两类，服务器可以基于第一语音数据的分类结果与其携带的噪声标签的匹配信息，确定该第四误差，例如，若第一语音数据的分类结果与其携带的噪声标签一致，该第四误差为0，若不一致，该第四误差为1。在本公开实施例中，服务器可以基于该第四误差更新该风格确定网络的参数，使该风格确定网络能够学习到噪声特征。

在步骤303中，服务器通过该第一模型的语音合成网络，基于第一训练数据中的第一文本数据以及该第一风格特征，确定第二语音特征。

在一种可能实现方式中，首先，服务器通过该语音合成网络中的编码器对输入的第一文本数据进行编码，得到该第一文本数据对应的文本特征。其中，该编码器可以是基于RNN(Recurrent Neural Network，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)等构建的，本公开实施例对此不作限定。该编码器可以对第一文本数据所包含的各个音素进行编码，得到该文本特征，该文本特征可以表示为一个T*M维的矩阵，其中，T、M均为正整数。需要说明的是，本公开实施例对编码器的具体编码方式不作限定。然后，服务器将该文本特征以及第一风格特征输入该语音合成网络中的注意力模块，由该注意力模块对该文本特征以及第一风格特征进行拼接，得到拼接特征，再基于注意力机制对拼接特征进行进一步特征提取，输出上下文权重矩阵。在一种可能实现方式中，由于文本特征与第一风格特征的维度不同，服务器可以先将文本特征和第一风格特征处理为相同维度，示例性的，文本特征为T*M维的矩阵，第一风格特征为1*N维的向量，则服务器可以对第一风格特征进行复制，构造出T*N维的第一风格矩阵，将该文本特征与该第一风格矩阵进行拼接，得到T*(M+N)维的拼接特征。在本公开实施例中，该注意力模块可以基于Location-sensitiveattention(位置敏感的注意力机制)，将该拼接特征映射为一个上下文权重矩阵，该上下文权重矩阵可以包括输入的第一文本数据中各个词的上下文信息。最后，该语音合成网络中的解码器基于该上下文权重矩阵进行信号重建，输出该第二语音特征。

需要说明的是，上述对第二语音特征获取方法的说明，仅是一种可能实现方式的示例性说明，本公开实施例对此不作限定。

需要说明的是，上述步骤302和步骤303，是在任一次迭代过程中，将该第一样本集中的第一训练样本输入该第一模型，得到该第一模型输出的第二语音特征的步骤。在本公开实施例中，在预测第二语音特征的过程中，引入了语音的风格特征，尤其是噪声风格特征，能够有效提高模型的鲁棒性。

在步骤304中，服务器获取该第二语音特征与该第一语音数据的语音特征之间的第三误差。

在一种可能实现方式中，该第一语音数据的语音特征为第一语音数据的频谱特征，服务器基于损失函数，获取该第一模型的输出结果与正确结果之间的第三误差，也即是，获取第二语音特征与该第一语音数据的频谱特征之间的第三误差。需要说明的是，本公开实施例对该第三误差的具体计算方式不作限定。

在步骤305中，服务器基于该第三误差更新该第一模型的参数，直至满足该第二参考条件，得到训练完成的该第一模型。

在一种可能实现方式中，若该第三误差大于或等于第三误差阈值，服务器将该第三误差反向传播至该第一模型，求解该第一模型中各个运算层的参数，再继续读取下一个第一训练样本输入该第一模型，重新执行上述步骤302至步骤304；若该第三误差小于该第三误差阈值，则服务直接读取下一个第一训练样本输入该第一模型，执行上述步骤302至步骤304。

在第一模型的迭代训练满足第二参考条件时，得到训练完成的第一模型。其中，该第二参考条件由开发人员进行设置。例如，该第二参考条件包括迭代次数阈值，响应于第一模型的迭代训练次数达到该迭代次数阈值，停止模型训练。或者，该第二参考条件包括对第一模型输出结果的限制信息，在该第一模型的输出结果满足该限制信息时，停止模型训练，本公开实施例对该第二参考条件的具体内容不作限定。

在本公开实施例中，通过大量的第一训练样本对第一模型进行训练，能够得到性能稳定的第一模型，而且，预先对第一训练样本中的第一语音数据添加不同强度的噪声以及噪声标签，应用包含噪声的第一语音数据对风格确定网络进行训练，使风格确定网络能够学习到噪声特征，对包含噪声的语音数据进行区分，从而提高模型的抗噪声性能，提高模型的鲁棒性。

上述实施例介绍了对第一模型进行训练的过程，在上述过程中，基于大规模的第一训练样本训练得到一个性能稳定的基础模型，即第一模型，在本公开实施例中，通过对第一模型进行复制，得到第二模型，基于目标用户提供的训练数据对第二模型进行个性化训练，使第二模型能够学习到个性化的语音特征，从而确保合成的语音数据更契合用户需求。图6为根据一示例性实施例示出的第二模型的训练和应用方法的流程图，参见图6，在一种可能实现方式中，该实施例包括以下步骤：

在步骤601中，服务器获取第二模型以及目标用户账号对应的第二样本集。

在一种可能实现方式中，服务器响应于第二模型训练指令，获取第二模型和第二样本集。其中，该第二模型的模型结构和参数与该第一模型相同，该第二样本集中的一个第二训练样本包括第二文本数据以及对应的第二语音数据。在一种可能实现方式中，该第二模型训练指令由目标用户所使用的终端发送，该第二模型训练指令可以携带该目标用户的目标用户账号。在一种可能实现方式中，响应于该第二模型训练指令，服务器可以对第一模型进行复制，得到第二模型，获取携带该目标用户账号的第二样本集。

在一种可能实现方式中，该第二样本集中的第二训练样本由目标用户预先存储在服务器中，例如，该目标用户预先录制了多段语音数据，将该多段语音数据以及对应的文本数据上传至服务器，作为第二训练样本，该目标用户所上传的语音数据和文本数据携带目标用户账号。可选的，该多段语音数据也可以是该目标用户从网络中下载的，本公开实施例对此不作限定。在一种可能实现方式中，该第二样本集可以是目标用户在训练第二模型时上传的。示例性的，终端响应于目标用户触发了第二模型训练指令，显示训练样本上传界面，目标用户在该训练样本上传界面上传多段语音数据以及对应的文本数据，作为第二训练样本，该第二训练样本携带该目标用户账号。

需要说明的是，上述对第二训练样本获取方式的说明，仅是一种示例性说明，本公开实施例对具体采用哪种方法获取第二训练样本不作限定。在本公开实施例中，对第二样本集所包括的第二训练样本的数目不作限定，为确保第二模型的训练效率，降低用户提供第二训练样本的难度，该第二样本集所包括第二训练样本的数目可以设置为10个。

在步骤602中，服务器基于该第二样本集对该第二模型进行迭代训练，在任一次迭代过程中，将第二训练样本分别输入该第一模型和该第二模型，得到第一误差和第二误差。

在一种可能实现方式中，服务器将第二样本集中的各个第二训练样本分别输入第一模型和第二模型，由第一模型和第二模型对第二训练样本中的第二语音数据和第二文本数据进行数据处理，得到第二文本数据对应的语音特征。需要说明的是，上述第一模型和第二模型对第二训练样本进行数据处理，得到语音特征的过程与上述步骤302至步骤303同理，在此不作赘述。

在本公开实施例中，该第一误差用于表示该第二模型输出的第一语音特征与该第二训练样本中第二语音数据的语音特征之间的误差。需要说明的是，该第一误差的获取方式与上述步骤304中第三误差的获取方式同理，在此不作赘述。

在本公开实施例中，该第二误差包括该第一模型与该第二模型中对应运算层的参数之间的误差、对应运算层的输出结果之间的误差中的至少一项。示例性的，由于在模型个性化训练阶段，仅对第二模型的参数进行更新，第一模型的参数保持不变，则每次迭代训练后，第二模型的参数与第一模型的参数会产生差异，服务器可以获取该第一模型中目标运算层参数与该第二模型中目标运算层的参数之间的参数误差，将该参数误差作为该第二误差。其中，该目标运算层由开发人员进行设置，本公开实施例对此不作限定，以图4所示的模型结构为例，该目标运算层可以包括语音合成网络中的编码器、注意力模块以及解码器，则服务器可以获取第一模型和第二模型中编码器的参数误差、注意力模块的参数误差、解码器的参数误差。示例性的，由于在迭代训练过程中，第二模型的参数发生变化，则第二模型中各个运算层的输出结果与该第一模型中相应运算层的输出结果也不同，服务器可以获取该第一模型中目标运算层的第一输出结果，获取该第二模型中目标运算层的第二输出结果，再基于损失函数确定该第一输出结果与该第二输出结果之间的输出结果误差，将该输出结果误差作为该第二误差。以图4所示的模型结构为例，服务器可以获取第一模型和第二模型中编码器输出结果之间的误差、注意力模块输出结果之间的误差、解码器输出结果之间的误差。需要说明的是，上述对第二误差获取方式的说明，仅是一种示例性说明，本公开实施例对此不作限定。

在步骤603中，服务器基于该第一误差以及该第二误差更新该第二模型的参数，直至满足第一参考条件，得到训练完成的第二模型。

以服务器先基于第一误差更新第二模型的参数，再基于第二误差更新第二模型的参数为例，在一种可能实现方式中，若该第一误差大于或等于第一误差阈值，服务器将该第一误差反向传播至该第二模型，重新求解该第二模型中各个运算层的参数，若该第一误差小于该第一误差阈值，则无需基于第一误差调整第二模型的参数。服务器判断该第二误差是否处于参考误差区间内，若该第二误差处于参考误差区间外，则将该第二误差反向传播至该第二模型，重新求解该第二模型中各个运算层的参数，若该第二误差处于该参考误差区间内，则继续读取下一个第二训练样本分别输入该第一模型和第二模型，执行上述步骤602。需要说明的是，服务器也可以先基于第二误差对第二模型的参数进行更新，再基于第一误差对第二模型的参数进行更新，获取同时基于第一误差和第二误差对第二模型的参数进行更新，本公开实施例对此不作限定。

在第二模型的迭代训练满足第一参考条件时，得到训练完成的第二模型。其中，该第一参考条件由开发人员进行设置。例如，该第一参考条件包括模型迭代训练的迭代次数限制信息，或者，该第一参考条件设置为对第二样本集中的第二训练样本遍历完成，本公开实施例对该第一参考条件的具体内容不作限定。

在本公开实施例中，通过获取第一模型和第二模型之间的第二误差，应用第二误差对第二模型的参数进行修正，确保第二模型中的参数不会因为风格强烈的用户数据受到过度影，而响造成模型性能不稳定，确保第二模型在训练中的稳定性，同时也能够很好地还原出用户的语音风格。

在步骤604中，服务器响应于该第二模型训练完成，将该目标用户账号对应的目标文本数据输入该第二模型，获取该第二模型输出的目标语音特征。

在一种可能实现方式中，响应于第二模型训练完成，服务器向目标用户所使用的终端发送第一提示信息，该第一提示信息用于提示用户第二模型已训练完成，用户可以应用该第二模型进行语音合成。在一种可能实现方式中，终端响应于目标用户的语音合成指令，获取目标文本数据，将该目标文本数据发送至服务器。示例性的，终端响应于语音合成指令，显示文本输入界面，获取目标用户在该文本输入界面所输入的文本数据作为该目标文本数据。

在一种可能实现方式中，在应用训练完成的第二模型进行语音合成时，为使合成出的语音数据的语音风格契合目标用户的需求，服务器可以在该目标用户所提供的第二训练数据集中，获取目标第二语音数据，该目标第二训练数据可以为任一第二训练数据。服务器将该目标文本数据以及该目标第二语音数据，输入该第二模型，通过该第二模型中的风格确定网络基于该目标第二语音数据，输出目标风格特征，再通过该第二模型中的语音合成网络，基于该目标文本数据以及该目标风格特征，输出该目标语音特征。需要说明的是，该获取目标语音特征的过程与上述步骤302至步骤303同理，在此不作赘述。在上述实施例中，仅以基于一个目标语音数据来确定目标风格特征为例进行说明，在一些实施例中，也可以基于第二样本集中的各个第二语音数据分别确定中间风格特征，再对各个中间风格特征取平均，得到该目标风格特征。这种通过多个第二语音数据确定目标风格特征的方法，能够避免获取到极端数据，避免对目标风格特征的准确性造成影响。

在本公开实施例中，在确定目标风格特征的过程中，该风格确定网络能够确定出该目标第二语音数据对应的第二权重向量，其中，该第二权重向量中的一个元素用于指示该目标第二语音数据与一个参考风格特征之间的匹配度。在本公开实施例中，由于引入了噪声风格特征，即将各个参考风格特征中，目标位置的参考风格特征指定为噪声风格特征，则该第二权重向量中的目标位置的元素能够指示该目标第二语音数据的语音风格与噪声风格特征之间的匹配度。在一种可能实现方式中，为降低噪声对合成语音数据的影响，服务器可以将该第二权重向量中目标位置的元素的数值置零，基于更新后的第二权重向量对各个参考风格特征进行加权运算，得到该目标风格特征。在本公开实施例中，通过将噪声风格特征所对应的权重元素的数值置零，使得到的目标风格特征中不包括噪声风格特征，从而消除噪声对后续语音合成的影响，确保合成的语音数据的质量。

在步骤605中，服务器基于该目标语音特征合成与该目标文本数据相对应的目标语音数据。

在一种可能实现方式中，服务器可以通过声码器将目标语音特征转换为可播放的目标语音数据。其中，该声码器可以为Griffin-Lim(一种基于频谱重建语音的算法)声码器或者WaveGlow(一种依靠流的合成高质量语音的网络)声码器等，本公开实施例对此不作限定。需要说明的是，本公开实施例对声码器基于语音特征生成语音数据的具体方法不作限定。

本公开实施例提供的技术方案，通过先应用大规模的第一样本集，训练得到性能稳定的第一模型，再基于第一模型进行复制的得到第二模型，应用用户提供的第二样本集，对第二模型进行个性化训练，在个性化训练阶段基于第一模型和第二模型之间的参数误差、输出结果误差，对第二模型的参数进行修正，在用户所提供的训练数据质量不稳定的情况下，避免第二模型的参数受到极端训练数据的影响，确保第二模型训练结果的稳定性，确保语音合成效果。本公开实施例中，通过对模型进行基础训练和个性化训练，一方面，使第二模型能够稳定支持仅有少量训练语料场景的用户个性化语音合成，不仅支持正常的文案朗读风格，也能支持较为夸张、变声等角色扮演的风格还原，另一方面，能够极大降低对用户录音环境的苛刻要求，降低用户参与难度。

图7是根据一示例性实施例示出的一种语音合成模型的训练装置框图。参照图7，该装置包括：

模型获取单元701，被配置为获取用于进行语音合成的第一模型和第二模型，该第一模型基于第一样本集训练得到，该第二模型的模型结构和参数与该第一模型相同；

样本获取单元702，被配置为获取目标用户账号对应的第二样本集，该第二样本集中的一个第二训练样本包括第二文本数据以及对应的第二语音数据；

误差获取单元703，被配置为基于该第二样本集对该第二模型进行迭代训练，在任一次迭代过程中，将第二训练样本分别输入该第一模型和该第二模型，得到第一误差和第二误差，该第一误差用于表示该第二模型输出的第一语音特征与该第二训练样本中第二语音数据的语音特征之间的误差，该第二误差包括该第一模型与该第二模型中对应运算层的参数之间的误差、对应运算层的输出结果之间的误差中的至少一项；

参数更新单元704，被配置为基于该第一误差以及该第二误差更新该第二模型的参数，直至满足第一参考条件，得到训练完成的第二模型。

在一种可能实现方式中，该模型获取单元包括：

第一获取子单元，被配置为获取未训练的该第一模型；

在一种可能实现方式中，该训练子单元，包括：

在一种可能实现方式中，该特征获取子模块，被配置为：

在一种可能实现方式中，该装置还包括：

在一种可能实现方式中，该特征获取单元包括：

将该第二权重向量中目标位置的元素的数值置零；

本公开实施例提供的装置，通过先应用大规模的第一样本集，训练得到性能稳定的第一模型，再基于第一模型进行复制的得到第二模型，应用用户提供的第二样本集，对第二模型进行个性化训练，在个性化训练阶段基于第一模型和第二模型之间的参数误差、输出结果误差，对第二模型的参数进行修正，在用户所提供的训练数据质量不稳定的情况下，避免第二模型的参数受到极端训练数据的影响，确保第二模型训练结果的稳定性，确保语音合成效果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述终端和服务器均可以实现为一种计算机设备，图8是根据一示例性实施例示出的一种计算机设备的框图。该计算机设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)801和一个或一个以上的存储器802，其中，该存储器802中存储有至少一条指令，该至少一条指令由该处理器801加载并执行以实现上述各个方法实施例提供的语音合成模型的训练方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由计算机设备的处理器执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音合成模型的训练方法，其特征在于，包括：

获取用于进行语音合成的第一模型和第二模型，所述第一模型基于第一样本集训练得到，所述第二模型的模型结构和参数与所述第一模型相同；

获取目标用户账号对应的第二样本集，所述第二样本集中的一个第二训练样本包括第二文本数据以及对应的第二语音数据；

基于所述第二样本集对所述第二模型进行迭代训练，在任一次迭代过程中，将第二训练样本分别输入所述第一模型和所述第二模型，得到第一误差和第二误差，所述第一误差用于表示所述第二模型输出的第一语音特征与所述第二训练样本中第二语音数据的语音特征之间的误差，所述第二误差包括所述第一模型与所述第二模型中对应运算层的参数之间的误差、对应运算层的输出结果之间的误差中的至少一项；

基于所述第一误差以及所述第二误差更新所述第二模型的参数，直至满足第一参考条件，得到训练完成的第二模型；

响应于所述第二模型训练完成，在所述第二样本集中，获取目标第二语音数据；

将所述目标用户账号对应的目标文本数据以及所述目标第二语音数据，输入所述第二模型；

通过所述第二模型中的风格确定网络确定所述目标第二语音数据对应的第二权重向量，所述第二权重向量中的目标位置的元素用于指示所述目标第二语音数据的语音风格与噪声风格特征之间的匹配度；

将所述第二权重向量中目标位置的元素的数值置零；

基于更新后的第二权重向量对各个参考风格特征进行加权运算乘，得到目标风格特征；

通过所述第二模型中的语音合成网络，基于所述目标文本数据以及所述目标风格特征，输出目标语音特征；

基于所述目标语音特征合成与所述目标文本数据相对应的目标语音数据。

2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述获取用于进行语音合成的第一模型和第二模型包括：

获取未训练的所述第一模型；

基于所述第一样本集对所述第一模型进行迭代训练，直至满足第二参考条件，得到训练完成的所述第一模型；

对训练完成的所述第一模型进行复制，得到所述第二模型。

3.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述基于所述第一样本集对所述第一模型进行迭代训练，直至满足第二参考条件，得到训练完成的所述第一模型，包括：

在任一次迭代过程中，将所述第一样本集中的第一训练样本输入所述第一模型，得到所述第一模型输出的第二语音特征，所述第一训练样本包括第一文本数据以及对应的第一语音数据；

获取所述第二语音特征与所述第一语音数据的语音特征之间的第三误差；

基于所述第三误差更新所述第一模型的参数，直至满足所述第二参考条件，得到训练完成的所述第一模型。

4.根据权利要求3所述的语音合成模型的训练方法，其特征在于，所述第一模型包括风格确定网络以及语音合成网络；

所述在任一次迭代过程中，将所述第一样本集中的第一训练样本输入所述第一模型，得到所述第一模型输出的第二语音特征，包括：

将所述第一样本集中的所述第一语音数据输入所述风格确定网络，通过所述风格确定网络确定所述第一样本集中的所述第一语音数据对应的第一风格特征；

通过所述语音合成网络，基于所述第一样本集中的所述第一文本数据以及所述第一风格特征进行语音合成，得到所述第二语音特征。

5.根据权利要求4所述的语音合成模型的训练方法，其特征在于，所述将所述第一样本集中的所述第一语音数据输入所述风格确定网络，通过所述风格确定网络确定所述第一样本集中的所述第一语音数据对应的第一风格特征，包括：

将所述第一样本集中的所述第一语音数据输入所述风格确定网络，通过所述风格确定网络确定所述第一语音数据对应的第一权重向量，所述第一权重向量中的一个元素用于指示所述第一语音数据的语音风格与一个参考风格特征之间的匹配度；

基于所述第一权重向量对各个参考风格特征进行加权求和，得到所述第一语音数据对应的所述第一风格特征。

6.根据权利要求5所述的语音合成模型的训练方法，其特征在于，所述第一语音数据携带噪声标签，所述噪声标签用于指示所述第一语音数据中所添加噪声的信息。

7.根据权利要求6所述的语音合成模型的训练方法，其特征在于，所述第一权重向量中的目标位置的元素用于指示所述第一语音数据的语音风格与噪声风格特征之间的匹配度；

所述将所述第一样本集中的所述第一语音数据输入所述风格确定网络，通过所述风格确定网络确定所述第一语音数据对应的第一权重向量之后，所述方法还包括：

基于所述目标位置的元素与所述第一语音数据的噪声标签的匹配信息，确定第四误差；

基于所述第四误差更新所述风格确定网络的参数。

8.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所第二误差的获取方法包括下述至少一项：

获取所述第一模型中目标运算层参数与所述第二模型中目标运算层的参数之间的参数误差；

获取所述第一模型中目标运算层的第一输出结果，获取所述第二模型中目标运算层的第二输出结果，获取所述第一输出结果与所述第二输出结果之间的输出结果误差。

9.一种语音合成模型的训练装置，其特征在于，包括：

模型获取单元，被配置为获取用于进行语音合成的第一模型和第二模型，所述第一模型基于第一样本集训练得到，所述第二模型的模型结构和参数与所述第一模型相同；

样本获取单元，被配置为获取目标用户账号对应的第二样本集，所述第二样本集中的一个第二训练样本包括第二文本数据以及对应的第二语音数据；

误差获取单元，被配置为基于所述第二样本集对所述第二模型进行迭代训练，在任一次迭代过程中，将第二训练样本分别输入所述第一模型和所述第二模型，得到第一误差和第二误差，所述第一误差用于表示所述第二模型输出的第一语音特征与所述第二训练样本中第二语音数据的语音特征之间的误差，所述第二误差包括所述第一模型与所述第二模型中对应运算层的参数之间的误差、对应运算层的输出结果之间的误差中的至少一项；

参数更新单元，被配置为基于所述第一误差以及所述第二误差更新所述第二模型的参数，直至满足第一参考条件，得到训练完成的第二模型；

特征获取单元，被配置为响应于所述第二模型训练完成，在所述第二样本集中，获取目标第二语音数据；将所述目标用户账号对应的目标文本数据以及所述目标第二语音数据，输入所述第二模型；通过所述第二模型中的风格确定网络确定所述目标第二语音数据对应的第二权重向量，所述第二权重向量中的目标位置的元素用于指示所述目标第二语音数据的语音风格与噪声风格特征之间的匹配度；将所述第二权重向量中目标位置的元素的数值置零；基于更新后的第二权重向量对各个参考风格特征进行加权运算乘，得到目标风格特征；通过所述第二模型中的语音合成网络，基于所述目标文本数据以及所述目标风格特征，输出目标语音特征；

合成单元，被配置为基于所述目标语音特征合成与所述目标文本数据相对应的目标语音数据。

10.根据权利要求9所述的语音合成模型的训练装置，其特征在于，所述模型获取单元包括：

第一获取子单元，被配置为获取未训练的所述第一模型；

训练子单元，被配置为基于所述第一样本集对所述第一模型进行迭代训练，直至满足第二参考条件，得到训练完成的所述第一模型；

第二获取子单元，被配置为对训练完成的所述第一模型进行复制，得到所述第二模型。

11.根据权利要求10所述的语音合成模型的训练装置，其特征在于，所述训练子单元，包括：

特征获取子模块，被配置为在任一次迭代过程中，将所述第一样本集中的第一训练样本输入所述第一模型，得到所述第一模型输出的第二语音特征，所述第一训练样本包括第一文本数据以及对应的第一语音数据；

误差获取子模块，被配置为获取所述第二语音特征与所述第一语音数据的语音特征之间的第三误差；

参数更新子模块，被配置为基于所述第三误差更新所述第一模型的参数，直至满足所述第二参考条件，得到训练完成的所述第一模型。

12.根据权利要求11所述的语音合成模型的训练装置，其特征在于，所述第一模型包括风格确定网络以及语音合成网络；

所述特征获取子模块，被配置为将所述第一样本集中的所述第一语音数据输入所述风格确定网络，通过所述风格确定网络确定所述第一样本集中的所述第一语音数据对应的第一风格特征；通过所述语音合成网络，基于所述第一样本集中的所述第一文本数据以及所述第一风格特征进行语音合成，得到所述第二语音特征。

13.根据权利要求12所述的语音合成模型的训练装置，其特征在于，所述特征获取子模块，被配置为：

14.根据权利要求13所述的语音合成模型的训练装置，其特征在于，所述第一语音数据携带噪声标签，所述噪声标签用于指示所述第一语音数据中所添加噪声的信息。

15.根据权利要求14所述的语音合成模型的训练装置，其特征在于，所述第一权重向量中的目标位置的元素用于指示所述第一语音数据的语音风格与噪声风格特征之间的匹配度；

所述误差获取单元，被配置为基于所述目标位置的元素与所述第一语音数据的噪声标签的匹配信息，确定第四误差；

所述参数更新单元，被配置为基于所述第四误差更新所述风格确定网络的参数。

16.根据权利要求9所述的语音合成模型的训练装置，其特征在于，所述误差获取单元被配置为执行下述至少一项：

17.一种计算机设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的语音合成模型的训练方法。

18.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由计算机设备的处理器执行时，使得所述计算机设备能够执行如权利要求1至8中任一项所述的语音合成模型的训练方法。