CN112037760A

CN112037760A - 语音频谱生成模型的训练方法、装置及电子设备

Info

Publication number: CN112037760A
Application number: CN202010858104.1A
Authority: CN
Inventors: 陈志杰; 孙涛; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-12-04
Anticipated expiration: 2040-08-24
Also published as: KR20210038470A; CN112037760B; KR102488010B1; US11488578B2; JP7146991B2; US20210201887A1; EP3816992A3; JP2021119381A; EP3816992A2

Abstract

本申请公开了一种语音频谱生成模型的训练方法、装置及电子设备，涉及语音合成和深度学习技术领域。具体实现方案为：将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值；将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值，所述对抗损失函数模型为生成对抗网络模型；根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。所述对抗损失函数模型可基于生成对抗网络学习一个损失函数，并与预设损失函数结合训练所述语音频谱生成模型，使所述语音频谱生成模型生成的频谱序列更加清晰。

Description

语音频谱生成模型的训练方法、装置及电子设备

技术领域

本申请涉及数据处理技术领域，尤其涉及语音合成和深度学习技术领域，具体涉及一种语音频谱生成模型的训练方法、装置及电子设备。

背景技术

频谱生成技术是语音合成中非常重要的技术，频谱作为桥梁，将输入的文字序列和最终合成的音频联系起来。

现有技术中，语音频谱生成模型利用均方误差(Mean Square Error，MSE)损失函数反馈所生成频谱的误差，但基于MSE损失函数进行建模不能反映频谱的本质，而导致生成的频谱非常的模糊。当声码器是用真实的清晰频谱进行训练时，将上述模糊的频谱输入声码器中，会导致声码器在训练和判断上的不一致，严重影响声码器的稳定性，影响最终合成音频的音质。

发明内容

本公开提供了一种用于语音频谱生成模型的训练方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种语音频谱生成模型的训练方法，包括：

将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值；

将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值，所述对抗损失函数模型为生成对抗网络模型；

根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。

根据本公开的另一方面，提供了一种语音频谱生成模型的训练装置，包括：

第一获取模块，将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值；

第二获取模块，用于将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值，所述对抗损失函数模型为生成对抗网络模型；

第一训练模块，用于根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。

根据本申请的技术可使所述语音频谱生成模型生成的频谱序列更加清晰，更加接近真实频谱序列的分布。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的一种语音频谱生成模型的训练方法的流程示意图；

图2是根据本申请第一实施例的一种语音频谱生成模型生成频谱序列的原理示意图；

图3是根据本申请第二实施例的一种语音频谱生成模型的训练方法的流程示意图；

图4是根据本申请第二实施例的一种对抗损失函数模型对频谱序列下采样的示意图；

图5是根据本申请第二实施例的一种对抗损失函数模型的结构示意图；

图6是根据本申请第三实施例的一种语音频谱生成模型的训练装置的框图之一；

图7是根据本申请第三实施例的一种语音频谱生成模型的训练装置的框图之二；

图8是可以实现本申请实施例的语音频谱生成模型的训练方法的场景图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

频谱生成技术是语音合成技术中非常重要的一环，实现从文字序列到频谱序列的转换，以频谱序列作为桥梁，将输入的文字序列和最终合成的音频联系起来。

现有技术中的频谱生成技术通常使用Tacotron模型，Tacotron模型以文字序列作为输入，频谱序列作为输出，基于Attention技术实现端到端的语音合成建模，并采用MSE函数作为损失函数。然而，MSE损失函数通过逐点比较的方法计算损失值，由于生成的频谱序列有着多模态的属性，上述计算方法并不能从本质去刻画一段频谱序列，进而不能准确的反映频谱的真假，使得Tacotron模型生成的频谱序列比较模糊，与真实的频谱序列之间存在较大差异，而导致最终合成的音频音质较差。

若存在一种损失函数能够从本质反映频谱序列的特征，进而准确的判别频谱序列的真假，那么以这样的损失函数对频谱生成模型进行训练，即能够生成更加真实清晰的频谱序列。

本申请基于神经网络的通用近似定理，利用神经网络模型表征上述期望的损失函数进行逼近，并基于生成对抗网络进行训练，以使其能够准确的判别频谱序列的真假，进而反馈至频谱生成模型，使语音频谱生成模型生成的频谱序列更加接近真实的分布。

具体的，根据本申请的实施例，本申请提供了一种语音频谱生成模型的训练方法。

请参见图1，图1是本申请的实施例提供的一种语音频谱生成模型的训练方法的流程图，所述方法包括：

S101、将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值。

其中，所述第一文字序列作为所述语音频谱生成模型的训练样本，可以是一段文字序列，也可以是多段文字序列的集合，这样，通过大量的训练样本可以准确的反映当前所述语音频谱生成模型所生成的频谱序列与真实频谱之间的差距，所述第一文字序列对应的真实频谱序列可直接从音库中获取。

所述语音频谱生成模型可以是Tacotron模型，也可以是其他从文本到语音(TextTo Speech，TTS)模型。为方便描述和理解，在此以Tacotron模型为例对本申请的实施例进行说明，并不作具体限定。

所述预设损失函数可以是MSE损失函数，MSE损失函数的损失值表征Tacotron模型生成的频谱序列与真实频谱序列之差平方的期望值，可负责训练所述语音频谱生成模型生成的频谱序列的可懂度；当然的，所述预设损失函数也可以是其他损失函数，为方便描述和理解，在此以MSE损失函数为例对本申请的实施例进行说明，并不作具体限定。

本步骤中，如图2所示，将文字序列输入Tacotron模型，在训练初期，基于随机初始化参数，Tacotron模型可生成文字序列对应的模拟频谱序列，模拟频谱序列区别于文字序列对应的真实频谱序列。根据MSE损失函数，可计算得到模拟频谱序列对应的第一损失值，所述第一损失值可表征模拟频谱序列在可懂度上相对于真实频谱序列的损失。

S102、将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值，所述对抗损失函数模型为生成对抗网络模型。

根据神经网络的通用近似定理，所述对抗损失函数模型可以逼近一个损失函数，其本质是生成对抗网络的深度学习模型，可基于对抗学习的方式进行训练以表征一个损失函数，该损失函数可以从本质刻画频谱序列的特征，可负责训练所述语音频谱生成模型生成的频谱序列的清晰度。

本步骤中，如图2所示，将S101生成的模拟频谱序列输入对抗损失函数模型，可输出第二损失值，所述第二损失值表征模拟频谱序列在清晰度上相对于真实频谱序列的损失。

S103、根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。

由上述可知，所述预设损失函数，以MSE损失函数为例可负责训练所述语音频谱生成模型生成的频谱序列的可懂度，所述对抗损失函数模型可负责训练所述语音频谱生成模型生成的频谱序列的清晰度。本步骤中，可将所述第一损失值和所述第二损失值按照预设比例反馈至所述语音频谱生成模型，使所述语音频谱生成模型基于损失值自学习，以优化参数。

其中，所述预设比例可具体根据不同音库中发音人的特点进行确定，本申请并不作具体限定。所述将所述第一损失值和所述第二损失值按照预设比例反馈至所述语音频谱生成模型，可以理解为，将所述第一损失值和所述第二损失值按照所述预设比例的权重，反馈至所述语音频谱生成模型。

这样，将上述两个损失函数结合，共同反馈至所述语音频谱生成模型，相比使用预设损失函数单独训练，可进一步优化所述语音频谱生成模型的参数，使得训练后的所述语音频谱生成模型所生成的频谱序列，在保证可懂度的基础上，清晰度进一步提高。

本申请的上述实施例具有如下优点或有益效果：将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值；将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值；根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。所述对抗损失函数模型基于生成对抗网络学习一个损失函数，并与预设损失函数联合训练所述语音频谱生成模型，可使所述语音频谱生成模型生成的频谱序列更加清晰，进而提高后续音频转换时的稳定性，提升最终合成音频的音质。

请参见图3，图3是本申请的实施例提供的另一种语音频谱生成模型的训练方法的流程图，所述方法包括：

S301、将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值。

本步骤的具体实施方式可参见如图1所示实施例中S101的具体说明，为避免重复，在此不再赘述。

S302、获取第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，所述第二文字序列对应的模拟频谱序列由所述语音频谱生成模型生成。

其中，所述第二文字序列可以是一段文字序列，也可以是多段文字序列的集合，此外，所述第二文字序列可以是与所述第一文字序列完全相同的文字序列集合，也可以是与所述第一文字序列部分相同的文字序列集合，还可以是与所述第一文字序列完全不相同的文字序列集合，本申请并不作具体限定。

所述第二文字序列对应的真实频谱序列可从音库中直接获取，所述第二文字序列对应的模拟频谱序列由所述语音频谱生成模型生成。

S303、根据所述第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，对所述对抗损失函数模型进行训练。

其中，所述第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列可以理解为所述对抗损失函数模型的训练样本。

本申请的实施例中，由于所述对抗损失函数模型是基于生成对抗网络的深度学习模型，通过大量同一文字序列的真实频谱序列和模拟频谱序列的样本数据，所述对抗损失函数模型可基于生成对抗的方式进行自学习，以使其表征的损失函数能够更加准确的反映频谱序列的本质，更加准确的反映真实频谱序列和模拟频谱序列之间的差异。

可选的，所述根据所述第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，对所述对抗损失函数模型进行训练，包括：

将所述第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列分别输入所述对抗损失函数模型，获取第三损失值；

根据所述第三损失值，对所述对抗损失函数模型训练；

其中，所述第三损失值表征所述第二文字序列对应的模拟频谱序列相对于所述第二文字序列对应的真实频谱序列的损失。

本申请的实施例中，可将所述第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，即同一文字序列的真实频谱序列和模拟频谱序列分别输入所述对抗损失函数模型，所述对抗损失函数模型可分别对所述真实频谱序列和模拟频谱序列进行特征提取和分析。

其中，所述频谱序列的输出值越大，表示所述频谱序列越接近真实的频谱序列，所述频谱序列的输出值越小，表示所述频谱序列与真实的频谱序列之间的差异较大，针对输出值，可根据所述对抗损失函数模型自身的损失函数，计算第三损失值。

本申请的上述实施例具有如下优点或有益效果：通过将同一文字序列的真实频谱序列和模拟频谱序列输入所述对抗损失函数模型，使所述对抗损失函数模型可以对比学习所述真实频谱序列和模拟频谱序列的特征之间的差异，以使所述对抗损失函数模型所表征的损失函数能够更加准确的反映频谱序列的真假。

需要说明的是，本实施例中的技术方案同样适用于如图1所示实施例，且能达到相同有益效果，为避免重复，在此不再赘述。

S304、将所述第一文字序列对应的模拟频谱序列输入训练后的所述对抗损失函数模型，获取第二损失值。

在S303对所述对抗损失函数模型进行训练后，所述对抗损失函数模型的参数获得更新，此时的对抗损失函数模型相比于初始化时的对抗损失函数模型将更逼近期望的损失函数。

本步骤中，将所述第一文字序列对应的模拟频谱序列输入训练后的所述对抗损失函数模型，所获取的第二损失值结合所述第一损失值反馈至所述语音频谱生成模型，可使所述语音频谱生成模型基于新的损失值进行再一次的训练，所述语音频谱生成模型的参数将进一步优化。

可选的，所述将所述第一文字序列对应的模拟频谱序列输入训练后的所述对抗损失函数模型，获取第二损失值，包括：

将所述第一文字序列对应的模拟频谱序列输入所述对抗损失函数模型，获取原始损失值；

对所述第一文字序列对应的模拟频谱序列进行N次下采样，获取每一次下采样的模拟频谱序列；

将所述每一次下采样的模拟频谱序列分别输入所述对抗损失函数模型，获取所述每一次下采样的模拟频谱序列对应的损失值；

根据所有下采样的模拟频谱序列对应的损失值和所述原始损失值，获取所述第二损失值。

由于频谱序列具有多模态的属性，需要多角度、多尺度的对其进行特征提取和分析。本申请的实施例中，所述对抗损失函数模型可对输入其中的频谱序列进行若干次下采样，对每一次下采样的频谱序列均输入所述对抗损失函数模型进行特征提取和分析，以进行判别。

具体的，如图4所示，首先对所述第一文字序列对应的原始模拟频谱序列进行n次下采样，并获取每一次下采样的频谱序列；之后，将上述每一次下采样的频谱序列均输入所述对抗损失函数模型进行特征提取和分析，所述原始模拟频谱序列可对应输出原始损失值，以及每一次下采样的频谱序列均可对应输出一个子损失值；

下采样的频谱序列所对应的损失值均需要反馈至所述对抗损失函数模型。具体的，将第i次下采样的频谱序列对应的第i子损失值反馈至所述对抗损失函数模型，进而反馈至所述第i次下采样的频谱序列，之后将每一次下采样对应的子损失值逐层回传至原始模拟频谱序列上，得到所述第二损失值。

这样，所述对抗损失函数模型可从不同尺度对输入的频谱进行特征提取和分析，在高维空间上达到判别频谱真假的作用。

在一种实施方式中，对所述第一文字序列对应的模拟频谱序列进行下采样可以这样实现：假设所述第一文字序列对应的模拟频谱序列可以表示为100帧×80维的特征矩阵，可将相邻两帧的数据取平均值，即可下采样为50帧×80维的特征矩阵，以此类推。可以理解的是，所述下采样的实现形式并不限于此，本申请的实施例不作具体限定。

需要说明的是，在使用同一文字序列的真实频谱序列和模拟频谱序列对所述对抗损失函数模型进行训练时，将输入所述对抗损失函数模型的真实频谱序列和模拟频谱序列均可如上述的进行多次的下采样，以从多尺度训练所述对抗损失函数模型的特征提取能力和判别能力。

本申请的上述实施例具有如下优点或有益效果：在将所述第一文字序列对应的模拟频谱序列输入所述对抗损失函数模型后，所述对抗损失函数模型可对频谱序列进行若干次下采样，可从不同尺度对输入的频谱进行特征提取和分析，使得所述对抗损失函数对所述频谱序列真假的判别更加的准确。

可选的，所述对抗损失函数模型采用深度卷积神经网络模型。

本申请的实施例中，如图5所示，所述对抗损失函数模型采用多层的深度卷积神经网络模型，通过多层卷积层可以多角度的提取频谱序列的特征，例如第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征，且卷积神经网络在对频谱进行抽象时，可以保留频谱序列的上下文信息，使得特征提取更加全面和准确，其中，卷积层的层数可以根据需求确定，本申请的实施例不作具体限定。

S305、根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。

本步骤的具体实施方式可参见如图1所示实施例中S103的具体说明，为避免重复，在此不再赘述。

本申请的实施例中，所述语音频谱生成模型和所述对抗损失函数模型存在交替循环训练的过程，可以这样理解：

S401、在语音频谱生成模型处于初始化状态时，可随机初始化参数，并根据输入的第二文字序列生成对应的模拟频谱序列；

S402、将上述生成的所述第二文字序列对应的模拟频谱序列与所述第二文字序列对应的真实频谱序列，输入初始化的对抗损失函数模型中，对所述对抗损失函数模型进行一次训练；

S403、将第一文字序列输入初始化的语音频谱生成模型，以生成所述第一文字序列对应的模拟频谱序列，并将训练后的对抗损失函数模型作为语音频谱生成模型的损失函数，结合预设损失函数共同对语音频谱生成模型进行一次训练，至此为一个训练周期；

之后，以训练后的语音频谱生成模型生成的模拟频谱序列，重复S402至S403的步骤，对所述语音频谱生成模型和所述对抗损失函数模型依次循环交替训练。

在本申请的实施例中，所述语音频谱生成模型和所述对抗损失函数模型可交替循环训练，在二者相互对抗学习训练的过程中，使得所述对抗损失函数模型逐渐逼近期望的损失函数，进而使得所述语音频谱生成模型生成的频谱序列逐渐靠近真实的频谱序列。

本申请的实施例中的图数据处理方法，在图1所示实施例的基础上增加了很多可选的实施方案，均可以进一步使所生成的频谱序列更加清晰。

本申请还提供了一种语音频谱生成模型的训练装置。

如图6所示，语音频谱生成模型的训练装置600包括：

第一获取模块601，用于将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值；

第二获取模块602，用于将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值，所述对抗损失函数模型为生成对抗网络模型；

第一训练模块603，用于根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。

可选的，如图7所示，语音频谱生成模型的训练装置600还包括：

第三获取模块604，用于获取第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，所述第二文字序列对应的模拟频谱序列由所述语音频谱生成模型生成；

第二训练模块605，用于根据所述第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，对所述对抗损失函数模型进行训练；

第二获取模块602，具体用于：

将所述第一文字序列对应的模拟频谱序列输入训练后的所述对抗损失函数模型，获取第二损失值。

可选的，第二训练模块605包括：

第一获取单元，用于将所述第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列分别输入所述对抗损失函数模型，获取第三损失值；

训练单元，用于根据所述第三损失值，对所述对抗损失函数模型训练；

可选的，第二获取模块602包括：

第二获取单元，用于将所述第一文字序列对应的模拟频谱序列输入所述对抗损失函数模型，获取原始损失值；

下采样单元，用于对所述第一文字序列对应的模拟频谱序列进行N次下采样，获取每一次下采样的模拟频谱序列；

第三获取单元，用于将所述每一次下采样的模拟频谱序列分别输入所述对抗损失函数模型，获取所述每一次下采样的模拟频谱序列对应的损失值；

第四获取单元，用于根据所有下采样的模拟频谱序列对应的损失值和所述原始损失值，获取所述第二损失值。

本申请的上述实施例中，语音频谱生成模型的训练装置600可实现图1和图3所示的方法实施例中实现的各个过程，且可以达到相同有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的语音频谱生成模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音频谱生成模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音频谱生成模型的训练方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音频谱生成模型的训练方法对应的程序指令/模块(例如，附图6所示的第一获取模块601、第二获取模块602和第一训练模块603)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音频谱生成模型的训练方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音频谱生成模型的训练方法的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至语音频谱生成模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音频谱生成模型的训练方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与语音频谱生成模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值；将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值；根据所述第一损失值和所述第二损失值，对所述语音频谱生成模型进行训练。所述对抗损失函数模型基于生成对抗网络学习一个损失函数，并将所述对抗损失函数与预设损失函数联合训练所述语音频谱生成模型，可使所述语音频谱生成模型生成的频谱序列更加清晰，更加接近真实频谱序列的分布，进而提高后续音频转换时的稳定性，提升最终合成音频的音质。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音频谱生成模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，在所述将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值之前，所述方法还包括：

获取第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，所述第二文字序列对应的模拟频谱序列由所述语音频谱生成模型生成；

根据所述第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，对所述对抗损失函数模型进行训练；

所述将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值，包括：

3.根据权利要求2所述的方法，其中，所述根据所述第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，对所述对抗损失函数模型进行训练，包括：

根据所述第三损失值，对所述对抗损失函数模型训练；

4.根据权利要求1所述的方法，其中，所述将所述第一文字序列对应的模拟频谱序列输入对抗损失函数模型，获取所述模拟频谱序列的第二损失值，包括：

5.根据权利要求1所述的方法，其中，所述对抗损失函数模型采用深度卷积神经网络模型。

6.一种语音频谱生成模型的训练装置，包括：

第一获取模块，用于将第一文字序列输入语音频谱生成模型，生成所述第一文字序列对应的模拟频谱序列，并根据预设损失函数，获取所述模拟频谱序列的第一损失值；

7.根据权利要求6所述的装置，其中，所述装置还包括：

第三获取模块，用于获取第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，所述第二文字序列对应的模拟频谱序列由所述语音频谱生成模型生成；

第二训练模块，用于根据所述第二文字序列对应的真实频谱序列和所述第二文字序列对应的模拟频谱序列，对所述对抗损失函数模型进行训练；

所述第二获取模块，具体用于：

8.根据权利要求7所述的装置，其中，所述第二训练模块包括：

9.根据权利要求6所述的装置，其中，所述第二获取模块包括：

10.根据权利要求6所述的装置，其中，所述对抗损失函数模型采用深度卷积神经网络模型。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。