CN114420083A

CN114420083A - 音频生成方法以及相关模型的训练方法和相关装置

Info

Publication number: CN114420083A
Application number: CN202111491439.5A
Authority: CN
Inventors: 陈梦楠; 高丽; 祖漪清; 江源
Original assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Current assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-04-29

Abstract

本申请公开了一种音频生成方法以及相关模型的训练方法和相关装置、设备，其中，该音频生成方法包括：对目标文本进行目标口音的文本编码，得到目标口音的目标文本编码向量；对目标文本编码向量与目标音色对应的目标音色向量进行解码处理，以得到与目标音色对应的若干时刻的目标子频谱；对若干时刻的目标子频谱进行合成处理，得到目标文本对应的目标合成频谱。通过上述方式，能够利用文本实现生成指定音色和指定口音的音频。另外，还可以利用音色判别器对基于目标文本生成目标口音、目标音色的音频的频谱的转换模型进行训练，能够使得经训练的转换模型生成的合成频谱的音色与指定音色趋向一致，提高模型转换的准确性。

Description

音频生成方法以及相关模型的训练方法和相关装置

技术领域

本申请涉及音频处理技术领域，特别是涉及音频生成方法以及相关模型的训练方法和相关装置。

背景技术

人的语音能够反映发音人的音色，音色是发音人本身的特性，可以用于区分不同的发音人，语音还能够反映发音人的口音，口音是使用同一语种的不同人群的普遍发音特点，例如，英语的美式口音和英式口音，中文的普通话和四川话等。

现有的音频生成方法通常是对原始音频进行特定转换以生成新的音频。然而，本申请的申请人在长期的研发过程中，发现现有的音频生成方法在对生成音频时，由于原始音频具有发音人的口音和音素，故在指定了音色后，合成的音频即具有该音色的发音人的口音，不能够转变为其他口音，相应地，在指定口音后，合成的音频即具有该口音的发音人的音色，不能转变为其他音色，音色和口音耦合，导致难以生成任意音色和口音的音频。

发明内容

本申请主要解决的技术问题是提供一种音频生成方法以及相关模型的训练方法和相关装置，能够生成指定音色和指定口音对应的音频。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种转换模型的训练方法，该方法包括以下步骤，以对转换模型进行训练：将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与样本口音和样本音色对应的样本合成频谱；利用音色判别器对样本合成频谱进行音色判别，以得到第一预测音色；基于样本音色和第一预测音色，调整转换模型的参数。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种音频生成方法，该方法包括：对目标文本进行目标口音的文本编码，得到目标口音的目标文本编码向量；对目标文本编码向量与目标音色对应的目标音色向量进行解码处理，以得到与目标音色对应的若干时刻的目标子频谱；对若干时刻的目标子频谱进行合成处理，得到目标文本对应的目标合成频谱。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种转换模型的训练装置，该装置包括输入模块、音色判别模块和模型调整模块，其中，输入模块用于将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与样本口音和样本音色对应的样本合成频谱；音色判别模块用于利用音色判别器对样本合成频谱进行音色判别，以得到第一预测音色；模型调整模块用于基于样本音色和第一预测音色，调整转换模型的参数。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种音频生成装置，该装置包括文本编码模块、解码模块和合成模块，其中，文本编码模块用于对目标文本进行目标口音的文本编码，得到目标口音的目标文本编码向量；解码模块用于对目标文本编码向量与目标音色对应的目标音色向量进行解码处理，以得到与目标音色对应的若干时刻的目标子频谱；合成模块用于对若干时刻的目标子频谱进行合成处理，得到目标文本对应的目标合成频谱。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该设备包括处理器和存储器，存储器用于存储程序数据，处理器用于执行程序数据以实现上述转换模型的训练方法或音频生成方法。

在上述方案中，通过对目标文本进行文本编码得到所述目标口音的目标文本编码向量，并对目标文本编码向量与目标音色进行解码处理，目标文本对应的频谱，因此，无需依赖原始音频，直接依赖文本得到内容为目标文本、且具有目标口音和目标音色的音频的频谱，故能够利用文本实现生成指定音色和指定口音的音频，而且由于无需依赖原始音频，故可以避免生成的音频携带原始音频的口音或音色的问题，提高特定口音和特定音色的音频生成的准确性。

另外，上述方案，还可以将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与样本口音和样本音色对应的样本合成频谱，利用音色判别器训练对样本合成频谱的音色进行判别，基于样本音色和第一预测音色对转换模型进行参数调整，得到能够生成与指定音色和指定口音对应的转换模型，利用转换模型对目标文本进行目标口音的文本编码，而后对得到的目标文本编码向量与目标音色对应的目标音色向量进行解码处理，将得到的若干时刻的目标子频谱进行合成处理，能够得到与目标文本、目标音色和目标口音对应的目标合成频谱，通过上述方式，利用音色判别器辅助模型进行训练，能够使得转换模型生成的合成频谱的音色与指定音色趋向一致，提高模型转换的准确性，并且最终转换模型能够生成任意指定音色和任意指定口音的目标合成频谱。

附图说明

图1是本申请音频生成方法一实施例的流程示意图；

图2是本申请音频生成方法另一实施例的流程示意图；

图3是本申请步骤S220另一实施例的流程示意图；

图4是本申请中层归一化处理一实施例的流程示意图；

图5是本申请步骤S230另一实施例的流程示意图；

图6是本申请音频生成方法又一实施例的流程示意图；

图7是本申请转换模型的训练方法一实施例的流程示意图；

图8是本申请步骤S730另一实施例的流程示意图；

图9是本申请步骤S833另一实施例的流程示意图；

图10是本申请步骤S740另一实施例的流程示意图；

图11是本申请转换模型的训练装置一实施例的框架示意图；

图12是本申请音频生成装置一实施例的框架示意图；

图13是本申请电子设备一实施例的框架示意图；

图14是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

可以理解的是，本申请方法可以包含任一个下述方法实施例以及任意不冲突的下述方法实施例的组合所提供的方法。

可以理解的是，本申请中的音频生成方法可以由一电子设备执行，该电子设备也可以简称为设备，该设备可以为具有执行能力的任意设备，例如，手机、计算机、平板电脑等。

请参阅图1，图1是本申请音频生成方法一实施例的流程示意图，该方法包括：

步骤S110：对目标文本进行目标口音的文本编码，得到目标口音的目标文本编码向量。

需要说明的是，一段人的语音能够反映发音人需要表达的文本内容，还能够反映发音人的音色和口音，其中，音色是发音人本身的特性，可以用于区分不同的发音人，而口音是使用同一语种的不同人群的普遍发音特点，例如，英语中的英式口音和美式口音，中文中的四川话和普通话等。

本申请中提供了一种可以指定文本内容、口音以及语音的音频生成方法，在用户确定了目标文本、目标口音和目标音色之后，采用本申请中的音频生成方法生成的目标合成频谱对应的音频即为以目标口音和目标音色表达目标文本的音频。

需要说明的是，上述生成目标合成频谱的过程可以但不限于利用预先训练完成的转换模型实现，具体来说，生成目标合成频谱的过程可以分为两个阶段，首先基于目标文本和目标口音得到目标文本编码向量，该阶段得到的目标文本编码向量不包含音色信息，而后基于目标音色和目标文本编码向量得到目标合成频谱。

目标文本可以是用户输入的文本，目标文本的长度以及语种不受限制，通常来说目标文本可以是一句话，例如“我爱中国”、“你好世界”等。

步骤S120：对目标文本编码向量与目标音色对应的目标音色向量进行解码处理，以得到与所述目标音色对应的若干时刻的目标子频谱。

本实施例中，目标合成频谱可以分为若干时刻的目标子频谱，具体举例来说，若目标文本包含6个音素，这6个音素对应的目标合成频谱可以划分为60个时刻的目标子频谱，此处划分得到的数量可以依据用户的实际需要调整，通过依赖于目标文本编码向量与目标音色对应的目标音色向量进行相关解码处理，即可得到该60个时刻的目标子频谱。可以理解的，该解码处理可以循环若干次，每循环一次即可得到一个时刻的目标子频谱，通过若干次解码操作也就能够得到与目标音色对应的若干时刻的目标子频谱。

步骤S130：对若干时刻的目标子频谱进行合成处理，得到目标文本对应的目标合成频谱。

在得到若干时刻的目标子频谱之后，对所有目标子频谱进行合成，例如，可以将若干时刻的目标子频谱依次拼接起来，也就能够得到目标文本对应的目标合成频谱。

在上述方案中，利用转换模型对目标文本进行目标口音的文本编码，而后对得到的目标文本编码向量与目标音色对应的目标音色向量进行解码处理，将得到的若干时刻的目标子频谱进行合成处理，能够得到与目标文本、目标音色和目标口音对应的目标合成频谱，通过上述方式，转换模型能够生成任意指定音色和任意指定口音的目标合成频谱。

请参阅图2，图2是本申请音频生成方法另一实施例的流程示意图，该方法包括：

步骤S210：将目标文本转换为若干音素。

其中，音素(phone)是根据语音的自然属性划分的，构成音节的最小语音单位或最小的语音片段，依据音节里的发音动作来分析，一个发音动作构成一个音素。具体举例说明，汉语音节啊(ā)只有一个音素，爱(ài)有两个音素，代(dài)有三个音素。需要说明的是，不同语种采用的音素体系不同，并且同个语种中不同口音对应的音素也可能有所差异，例如，英语和中文采用的音素体系不同，中文中粤语和普通话对应的音素也有所差异。

因此，将目标文本转换为若干音素是依照目标文本的语种和口音进行的，对同一目标文本来说，若目标口音不同，得到的若干音素也可能是不同的，具体来说，设备可以通过对应的词典将目标文本转换为若干音素。

步骤S220：对目标文本进行目标口音的文本编码，得到目标口音的目标文本编码向量。

本实施例中，设备可以预存有训练完成的转换模型，转换模型可用于实现本实施例中的音频生成方法，具体可以包括解码器和若干文本编码器，一个文本编码器对应一个口音。在确定了目标口音后，就可以确定音频生成过程中需要使用的文本编码器，而不涉及其他文本编码器的使用。

可以理解的是，设备预存的若干文本编码器的训练过程可以包括，依照口音对语料(也就是训练样本)进行分类，分别利用每一类样本对应训练一个文本编码器，也就得到了若干与不同口音分别对应的文本编码器。

具体地，设备可以基于用户选择的目标口音的口音标识，从若干文本编码器中选出目标口音对应的文本编码器，例如，选择与目标口音的口音标识关联的文本编码器。由于音频生成过程中仅涉及目标口音对应的文本编码器，而不使用其他的文本编码器，为了简化说明以及便于理解，在后续音频生成的步骤中目标口音对应的文本编码器简称为文本编码器。

具体地，设备将目标文本转换得到的若干音素输入文本编码器，利用文本编码器对若干音素进行目标口音的文本编码，得到若干音素对应的目标文本编码向量，每个音素对应一个目标文本编码向量。

请结合参阅图2和图3，图3是本申请步骤S220另一实施例的流程示意图，步骤S220包括：

步骤S321：获取目标文本对应的若干音素的第一原始音素向量。

其中，每个音素对应一个第一原始音素向量，第一原始音素向量能够表征对应的音素的特征。

在一些实施例中，文本编码器包括词嵌入层、全连接层和第一循环网络层，其中，词嵌入层可以用于将音素转换为音素向量。

那么步骤S321可以通过文本编码器的词嵌入层实现，具体可以包括：利用词嵌入层获取若干音素的第二原始音素向量，利用文本编码器的全连接层对第二原始音素向量进行处理，得到各音素的第一原始音素向量。

步骤S322：对各音素的第一原始音素向量进行去音色处理，得到各音素的目标音素向量。

需要说明的是，不同发音人的音频带有的音色信息存在差异，同一发音人的音频带有的音色信息具有相对稳定的特征，通过音频带有的音色信息的特征可以辨别音频的发音人，去音色处理即为将属于该发音人的音色信息的特征除去，使得音色信息处于平均状态，该平均状态可以是标准正态分布，而并非是去除所有的音色信息，经过去音色处理的音频的音色信息中不包含属于任意发音人的音色信息的特征，也就不能够辨别发音人，那么可以说该条音频不带有特征音色信息。在步骤S220中去音色处理的目的在于，使得最终得到的目标子频谱的音色信息的特征仅由步骤S230中的目标音色向量控制，有利于使得目标子频谱的音色贴近目标音色。

具体地，步骤S322可以为，将第一原始音素向量作为待处理向量，对待处理向量进行层归一化处理，得到目标音素向量也就是目标向量，其中，去音色处理通过层归一化处理实现。需要说明的是，由全连接层输出每个音素对应第一原始音素向量，将每个音素的第一原始音素向量作为待处理向量，均分别进行层归一化处理，以下以对一个音素的第一原始音素向量进行处理为例进行说明。

请结合参阅图2、图3和图4，图4是本申请中层归一化处理一实施例的流程示意图，层归一化处理包括：

步骤S410：获取待处理向量的第一统计值和第二统计值。

其中，第一统计值用于反映待处理向量中各元素的集中趋势，例如为平均值。第二统计值用于反映待处理向量中各元素的离散程度，例如为方差。

具体地，步骤S410具体可以通过以下公式实现：

其中，a为待处理向量，a_i为待处理向量的元素，H为待处理向量中的元素数量，1≤i≤H，μ为第一统计值，通过公式1计算得来，也就是待处理向量中的元素的平均值，σ为第二统计值，通过公式2计算得来，也就是待处理向量中的元素的方差。

此处的待处理向量为一个音素对应的第一原始音素向量，第一原始音素向量是经由全连接层处理输出的，那么第一原始音素向量中的元素数量决定于全连接层中节点数量H，即第一原始音素向量中的元素数量与全连接层中节点数量H相同。简单举例说明，若第一原始音素向量a为(1,2,3)，那么H＝3，a₁＝1,a₂＝2,a₃＝3,μ即为a_i的平均值，σ即为a_i的方差。

步骤S420：利用待处理向量、第一统计值和第二统计值得到中间向量，并利用激活函数对中间向量进行激活处理，得到目标向量。

具体地，步骤S420具体可以通过以下公式实现：

其中，h为目标向量，f为激活函数，a为待处理向量，μ为第一统计值，σ为第二统计值，g和b为模型参数，为在模型训练过程中确定的值，φ为极小值，φ的目的在于防止在方差等于0时产生除0错误。

对于一个待处理向量来说，经过步骤S410和步骤S420，得到一个目标向量，目标向量即为对待处理向量去音色处理之后得到的结果，对去音色处理之后得到的目标向量进行编码，能够使得编码结果也就是目标文本编码向量对应的音频的音色信息不具有属于任意发音人的特征音色信息。

步骤S323：对若干音素的目标音素向量进行编码，得到目标口音的目标文本编码向量。

需要说明的是，即便是同一文本内容，对应的合成频谱也可能有所区别，这是由于频谱合成时还受上文也就是历史合成信息的影响，简单举例说明，目标文本分别为“好事”和“事情”，其中均包含“事”这一文本内容，但是这两个目标文本对应的目标合成频谱中，“事”这一文本内容对应的频谱也是有所区别的，这就是音频受上文的影响造成的。步骤S323中为依次对每个目标音素向量进行编码生成一个目标文本编码向量，最终得到的目标口音的目标文本编码向量包含目标文本的若干音素对应的所有目标文本编码向量，在生成每个目标文本编码向量时，均需要考虑已经生成的历史目标文本编码向量的影响。

由于循环网络层在进行处理的过程中能够保留一定历史处理的信息到后续的处理过程中，故而其适用于对音频进行处理，步骤S323可以通过文本编码器的第一循环网络层实现，其中，第一循环网络层可以依次对若干音素的目标音素向量进行编码，并依次输出若干音素对应的目标文本编码向量，最终得到目标口音的目标文本编码向量。

步骤S230：对目标文本编码向量与目标音色对应的目标音色向量进行解码处理，以得到与所述目标音色对应的若干时刻的目标子频谱。

需要说明的是，步骤S230可以通过解码器实现，通过不断循环解码操作能够得到每个时刻的目标子频谱，从而得到目标文本对应的若干时刻的目标子频谱。

在生成当前时刻的目标子频谱的过程中，同样需要考虑上一时刻目标子频谱的影响，故而解码器的工作是基于上一时刻的目标子频谱、目标文本编码向量和目标音色的。

在一具体实施场景中，解码器为自回归的解码器，解码器具体包括一维卷积神经网络层、音色嵌入层和第二循环网络层，其中第二循环网络层为位置敏感注意力和解码器循环网络层。

请结合参阅图2和图5，图5是本申请步骤S230另一实施例的流程示意图，步骤S230包括：

步骤S531：对上一时刻的目标子频谱进行特征提取，得到第二频谱特征向量。

具体来说，步骤S531可以通过解码器的一维卷积神经网络层实现，将上一时刻的目标子频谱输入一维卷积神经网络层，输出第二频谱特征向量，第二频谱特征可以用于表征目标子频谱的特征。

步骤S532：对第二频谱特征向量进行去音色处理，得到第一频谱特征向量。

步骤S532的处理过程与步骤S322的处理过程类似，步骤S532的相关描述可以参考前述关于步骤S322的相关内容。

具体地，步骤S532可以为，将第二频谱特征向量作为待处理向量，对待处理向量进行层归一化处理，得到第一频谱特征向量也就是目标向量，其中，去音色处理通过层归一化处理实现。

请结合参阅图2、图4和图5，图4是本申请中层归一化处理一实施例的流程示意图，层归一化处理包括：

步骤S410：获取待处理向量的第一统计值和第二统计值。

具体地，步骤S410具体可以通过以下公式实现：

其中，a为待处理向量，a_i为待处理向量的元素，H为待处理向量中的元素数量，1≤i≤H，μ为第一统计值，若通过公式1计算得来，也就是待处理向量中的元素的平均值，σ为第二统计值，若通过公式2计算得来，也就是待处理向量中的元素的方差。

此处的待处理向量为上一时刻的目标子频谱的第二频谱特征向量，第二频谱特征向量是经由一维卷积神经网络层处理输出的。

具体地，步骤S420具体可以通过以下公式实现：

其中，h为目标向量，f为激活函数，a为待处理向量，μ为第一统计值，通过公式1计算得来，σ为第二统计值，通过公式2计算得来，g和b为模型参数，φ为极小值，φ的目的在于防止在方差等于0时产生除0错误。

对于一个待处理向量来说，经过步骤S410和步骤S420，得到一个目标向量，目标向量即为对待处理向量去音色处理之后得到的结果，此处目标向量即为第一频谱特征向量，第一频谱特征向量为不带有任意发音人的音色信息的上一时刻目标子频谱的特征向量。此处的去音色处理能够使得在生成当前时刻的目标子频谱时不受上一时刻目标子频谱中的音色信息的影响，也就是说当前时刻的目标子频谱的音色信息的特征仅由目标音色向量控制，从而能够使得目标子频谱的音色更贴近目标音色。

在经过步骤S531和步骤S352处理之后，得到了不带有任意发音人的特征音色信息的上一时刻目标子频谱的特征向量，能够用于后续对当前时刻的目标子频谱的解码过程中。

步骤S533：对上一时刻的目标子频谱对应的第一频谱特征向量和目标音色的目标音色向量进行融合处理，得到第一融合向量。

若当前时刻为开始解码之后的第一时刻，那么上一时刻的频谱中的所有频率均默认为0，那么得到的第一频谱特征向量和第二频谱特征向量均为零向量。

可以理解的是，在用户指定了目标音色之后，设备可以依据目标音色标识转换得到目标音色向量，上述转换过程可以利用解码器的音色嵌入层实现。

在一些实施例中，上述融合处理可以为元素加处理。

步骤S534：利用第一融合向量和目标文本编码向量，得到当前时刻的目标子频谱。

步骤S534可以通过解码器的第二循环网络层实现，该第二循环网络层具体可以为位置敏感注意力和解码器循环网络层，其中，输入解码器的位置敏感注意力和解码器循环网络层的目标文本编码向量为目标文本的若干音素对应的所有目标文本编码向量，通过位置敏感注意力处理，将所有的目标文本编码向量进行加权求和，能够确定当前解码操作中所有的目标文本编码向量的权重，而后依据该权重进行解码。

若当前时刻为t₀，执行完毕步骤S531-步骤S534之后，得到了当前时刻的目标子频谱之后，则可以进行下一时刻也就是t₁时刻的目标子频谱的生成，那么t₀时刻对应的目标子频谱则作为t₁时刻的上一时刻的目标子频谱，设备则可以再次执行步骤S531-步骤S534，进行t₁时刻的目标子频谱的生成，不断循环往复，直到将所有目标文本编码向量处理完成为止，从而也就得到了若干时刻的目标子频谱。

步骤S240：对若干时刻的目标子频谱进行合成处理，得到目标文本对应的目标合成频谱。

具体地，对若干时刻的目标子频谱进行合成处理可以是，将若干时刻的目标子频谱依次拼接起来，从而得到目标合成频谱。

步骤S250：基于目标合成频谱生成具有目标口音和目标音色的目标音频。

设备可以预存有声码器，通过声码器可以基于目标合成频谱生成目标音频，目标音频为以目标口音和目标音色表达目标文本的音频。

在上述方案中，利用转换模型对目标文本进行目标口音的文本编码，而后对得到的目标文本编码向量与目标音色对应的目标音色向量进行解码处理，将得到的若干时刻的目标子频谱进行合成处理，能够得到与目标文本、目标音色和目标口音对应的目标合成频谱，利用目标合成频谱得到目标音频，通过上述方式，转换模型能够生成任意指定音色和任意指定口音的目标合成频谱，最后得到目标音频。

请参阅图6，图6是本申请音频生成方法又一实施例的流程示意图，该方法包括：

步骤S610：对目标文本进行目标口音的文本编码，得到目标口音的目标文本编码向量。

步骤S610的相关描述可以参考前述关于步骤S220的相关内容，在此不做赘述。

步骤S620：对目标文本编码向量进行变分自编码处理，得到目标句子级编码向量。

本实施例中的转换模型还包括变分自编码器，步骤S620可以通过转换模型的变分自编码器实现。目标文本可能包括若干音素，故而若干音素对应有若干目标文本编码向量，将所有目标文本编码向量输入转换模型的变分自编码器，能够得到该目标文本对应的一个句子级编码向量。

需要说明的是，模型训练的过程中使用的语料可能带有发音人的一些其他特征信息，例如，情感、语速、韵律、重音等，为了使得合成音频不带有发音人的其他特征，故而在合成音频的过程中还需要考虑排除上述其他特征信息的扰动。步骤S620即是为了实现排除扰动，其中目标句子级编码向量则是表征扰动的特征，在后续生成频谱的过程中，用于排除扰动，从而使得目标音频不包含扰动信息。由于目标句子级编码向量是基于目标文本编码向量得来的，那么目标句子级编码向量可以理解为合成的扰动特征。

在一些实施例中，步骤S620可以具体包括，对目标文本编码向量进行点乘自注意力处理得到目标隐向量，而后利用目标隐向量得到目标句子级编码向量，例如，将目标隐向量经过均值、方差网络层和重采样，生成该目标句子级编码向量。其中，目标文本对应的目标文本编码向量的数量是不定的，而对于目标文本仅生成一个目标句子级编码向量，通过点乘自注意力处理即能够实现上述转换。

步骤S630：对上一时刻的目标子频谱对应的第一频谱特征向量和目标音色的目标音色向量进行融合处理，得到第一融合向量。

步骤S630的相关描述可以参考前述关于步骤S533的相关内容，在此不做赘述。

步骤S640：利用第一融合向量、目标句子级编码向量和目标文本编码向量，得到当前时刻的目标子频谱。

步骤S640的相关描述可以参考前述关于步骤S534的相关内容，具体地，步骤S640可以包括，融合第一融合向量、目标句子级编码向量得到第二融合向量，利用解码器的第二循环网络层对第二融合向量和目标文本编码向量进行处理得到当前时刻的目标子频谱。其中，此处的目标文本编码向量为目标样本对应的所有目标文本编码向量。

在上述方案中，利用转换模型对目标文本进行目标口音的文本编码，而后对得到的目标文本编码向量与目标音色对应的目标音色向量进行解码处理，将得到的若干时刻的目标子频谱进行合成处理，能够得到与目标文本、目标音色和目标口音对应的目标合成频谱，其中，还利用了变分自编码器用于剔除扰动，进而提高音频生成的准确度。

请参阅图7，图7是本申请转换模型的训练方法一实施例的流程示意图。

需要说明的是，本申请中提供一转换模型和一音色判别器，其中，转换模型用于生成合成频谱，音色判别器用于判别输入的频谱的音色，音色判别器可以用于判别合成频谱的音色。转换模型和音色判别器对抗训练，音色判别器仅用于辅助转换模型进行训练，在转换模型应用时，不需要用到音色判别器。

该转换模型的训练方法的步骤可以分为对音色判别器进行训练的步骤和对转换模型进行训练的步骤。需要说明的是，本申请实施例中以一次训练的步骤为例进行说明，设备可以进行多次训练，最终得到训练完成的转换模型和/或音色判别器。音色判别器和转换模型可以采用先后训练或者交叉训练的方式进行训练，不管采用先后训练还是交叉训练的方式，音色判别器以及转换模型进行一次训练步骤是不会变化的，不同的训练方式改变的是多次训练的顺序。

若采用先后训练的方式，整个训练的过程包括多次训练，多次训练又可以分为两个阶段，第一阶段的训练对象为音色判别器，该训练阶段可以为执行对音色判别器的多次迭代训练的步骤，在音色判别器训练完成之后进入第二阶段，第二阶段的训练对象为转换模型，该训练过程可以为执行对转换模型的多次迭代训练的步骤。那么在转换模型开始训练时，就可以利用音色判别器准确判断合成频谱的音色。

若采用音色判别器与转换模型进行交叉训练的方式，整个训练的过程包括多次训练，每次训练对从音色判别器和转换模型中的一者进行训练，与先后训练的方式的区别在于，每次训练的样本以及对象可以是随机选择的，相邻的两次训练的对象可以是相同的或不同的，一次训练仅会对该次的训练对象进行参数调整。那么设备可以选择样本文本和/或样本真实频谱作为本次训练样本，若本次训练样本包括样本文本，那么可以确定本次训练的对象为转换模型，则利用样本文本对转换模型进行训练，若本次训练样本不包括样本文本，那么可以确定本次训练的对象为音色判别器，利用样本真实频谱对音色判别器进行训练。需要说明的是，利用样本文本对转换模型进行一次训练时，训练的步骤也可以包括使用音色判别器对样本合成频谱进行音色判别，从而利用判别结果和样本音色对转换模型的参数进行调整，而由于本次训练的对象为转换模型，对于音色判别器则不进行参数调整。另外，在对音色判别器与转换模型进行交叉训练之前，可利用样本真实频谱对音色判别器进行预训练，以得到有一定音色判别准确度的音色判别器。

下面以在对转换模型训练之前已训练完成音色判别器为例进行说明，其中，步骤S710和步骤S720为对音色判别器进行一次训练的步骤，步骤S730-步骤S750为对转换模型进行一次训练的步骤。该方法包括：

步骤S710：利用音色判别器对样本真实频谱进行音色判别，以得到第二预测音色。

设备中可以预存有真实频谱以及与真实频谱对应的文本作为模型训练的样本。其中，真实频谱是在现实中采集得到的，由发音人发出的音频转换而来，并且样本真实频谱的实际音色以及口音是已知的。

具体地，将样本真实频谱输入音色判别器中，音色判别器输出第二预测音色作为判别结果。

步骤S720：基于样本真实频谱的实际音色与第二预测音色，调整音色判别器的参数。

样本真实频谱的实际音色是已知的，那么在得到音色判别器输出的第二预测音色之后，若第二预测音色与实际音色有所区别，那么可以利用损失函数对音色判别器的参数进行调整。具体地，音色判别器的损失函数可以通过下述公式计算得到：

L_D＝-E_x(y_xlogD(x))(公式4)

其中，L_D是音色判别器的损失函数，D表示音色判别器，x为样本真实频谱，y_x为样本真实频谱对应的实际音色的音色类别。

通过对音色判别器中的参数进行调整，能够使得音色判别器更准确地对输入其中的频谱进行音色判断。设备可以多次执行步骤S710和步骤S720，到音色判别器的判别准确率大于预设值之后，可以认为音色判别器的训练完成，那么可以将音色判别器用于判断转换模型生成的样本合成频谱与样本音色是否一致。

步骤S730：将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与样本口音和样本音色对应的样本合成频谱。

其中，样本文本、样本口音和样本音色可以为与同一真实频谱对应的文本、口音和音色。转换模型包括文本编码器和解码器，步骤S730可以通过转换模型的文本编码器和解码器实现，步骤S730的相关内容可以参考前述音频生成方法实施例的相关描述。

请结合参阅图7和图8，图8是本申请步骤S730另一实施例的流程示意图，步骤S730包括：

步骤S831：利用转换模型的文本编码器对样本文本进行样本口音的文本编码，得到样本口音的样本文本编码向量。

步骤S831的相关描述可以参考前述关于步骤S220的相关内容，在此不做赘述。

需要说明的是，模型训练的过程中使用的样本可能带有发音人的一些其他特征信息，例如，情感、语速、韵律、重音等，不同的样本包含的其他特征信息可能是矛盾的，例如，一些样本带有愤怒的情感，一些样本带有兴奋的情感，那么利用存在互相矛盾的特征的样本对转换模型进行训练会导致转换模型不能够确定输出的频谱应该带有矛盾特征中的何种特征，那么会导致转换模型出错或者崩溃，为了避免上述问题，本申请中提供了变分自编码器，通过变分自编码器能够提取出输入的频谱/文本编码向量中的其他特征信息，也就是真实扰动特征/合成扰动特征，在而后的解码过程中可以将提取到的扰动特征去除，从而能够使得在训练的过程中模型的输出不被可能存在的矛盾的其他特征信息影响，降低了模型出错或崩溃的可能，使得模型更加稳定。

需要说明的是，步骤S832-步骤S833是可选的，若转换模型还包括参考变分自编码器和转换模型的变分自编码器，那么则可以执行步骤S832-步骤S834以解决上述模型不稳定的问题。

步骤S832：利用转换模型的变分自编码器对样本文本编码向量进行变分自编码，得到样本句子级编码向量。

需要说明的是，步骤S832中的样本句子级编码向量与音频生成过程中的目标句子级编码向量的生成过程一致。

步骤S832具体可以包括，利用转换模型的变分自编码器对样本文本编码向量进行点乘自注意力处理得到第一隐向量，而后基于第一隐向量得到样本句子级编码向量。

步骤S832和步骤S833的顺序是可以调换的，步骤S835和步骤S835可以在步骤S833执行完毕后再执行。

步骤S833：利用参考变分自编码器对与样本文本对应的真实频谱进行变分自编码，得到参考句子级编码向量。

将样本文本、样本口音和样本音色对应的真实频谱输入参考变分自编码器得到的参考句子级编码向量，能够反映真实频谱中的扰动的特征。从而在后续的生成过程中，剔除真实频谱中的扰动的特征，使得转换模型的输出不受扰动的特征的影响，输出更加平稳。

请结合参阅图7、图8和图9，图9是本申请步骤S833另一实施例的流程示意图，步骤S833包括：

步骤S9331：利用参考变分自编码器的若干第二卷积组分别对真实频谱进行特征提取，得到各第二卷积组对应的特征向量序列。

需要说明的是，参考变分自编码器包括若干第二卷积组、全连接层以及均值、方差网络层，其中，第二卷积组包括依序连接的一个一维卷积层、ReLU激活函数和批规范化层，其中，ReLU激活函数和批规范化层用于提升模型稳定性。

其中，若干第二卷积组为平行关系，均用于对进入参考变分自编码器的真实频谱进行特征提取，以一第二卷积组为例进行说明，真实频谱包括若干时刻的子频谱，利用该组第二卷积组依次对若干子频谱进行特征提取，以得到真实频谱各时刻对应的特征向量，也就是该第二卷积组对应的特征向量序列。每个第二卷积组的处理过程类似，从而能够得到每个第二卷积组对应的特征向量序列。

以真实频谱包括两个时刻的子频谱为例进行简单说明，一第二卷积组对这两个时刻的子频谱依次进行特征提取，分别得到第一时刻子频谱的特征向量a(a₁，a₂，a₃)和第二时刻子频谱的特征向量b(b₁，b₂，b₃)，向量a和向量b组成了该第二卷积组对应的特征向量序列。

步骤S9332：统计特征向量序列中的各特征向量，得到第一统计向量和第二统计向量。

可以理解的是，步骤S9332中的操作是对于一个第二卷积组对应的特征向量序列中的所有特征向量一并进行统计，一个特征向量序列中的所有特征向量的通道是对应相同的，对该序列中的所有特征向量的同一通道的元素值进行统计，得到第一统计向量和第二统计向量，第一统计向量中包含的元素为每个通道对应的第一统计值，第二统计向量中包含的元素为每个通道对应的第二统计值，其中，第一统计值能够反映每个通道的元素值的集中趋势，第二统计值能够反映每个通道的元素值的离散程度。

继续以上述真实频谱包括两个时刻的子频谱为例进行说明，第一统计值为平均值，第二统计值为方差，其中，a₁和b₁对应同一通道，a₂和b₂对应同一通道，a₃和b₃对应同一通道，分别统计a₁和b₁、a₂和b₂、a₃和b₃的第一统计值，也就得到了三个通道对应的三个平均值，这三个平均值组成了第一统计向量，分别统计a₁和b₁、a₂和b₂、a₃和b₃的第二统计值也就是方差，也就得到了三个通道对应的三个方差，这三个方差组成了第二统计向量。

步骤S9333：对第一统计向量和第二统计向量进行拼接，得到拼接向量。

需要说明的是，由于不同真实频谱对应的时长不同，那么不同的真实频谱包含的子频谱数量不同，通过上述方式对真实频谱的特征进行处理，能够使得无论向参考变分自编码器中输入何种时长的真实频谱，得到的输出结果均为一个句子级编码向量，也就能够将不同时间长度的频谱的特征进行了尺寸的统一。

步骤S9334：对拼接向量进行降维处理，得到第二隐向量。

需要说明的是，步骤S9334可以通过参考变分自编码器的全连接层实现。

步骤S9335：基于第二隐向量，得到参考句子级编码向量。

需要说明的是，参考变分自编码器和转换模型的变分自编码器对隐向量进行处理得到参考句子级编码向量的操作可以是一致的，均是通过均值、方差网络层实现。

步骤S834：利用转换模型的解码器对样本文本编码向量和样本音色对应的样本音色向量进行解码处理，以得到与样本音色对应的若干时刻的样本子频谱。需要说明的是，由于扰动的特征是由真实频谱带来的，在训练过程中，为了使得模型更加准确生成无扰动的样本合成频谱，采用参考变分自编码器输出的样本句子级编码向量代替转换模型的变分自编码器输出的样本句子级编码向量，也就是在解码时剔除真实的扰动特征而非合成的扰动特征。

也就是在转换模型包含变分自编码器的情况下，步骤S834具体可以为，利用转换模型的解码器对样本文本编码向量、参考句子级编码向量和样本音色向量进行解码处理，以得到与样本音色对应的若干时刻的样本子频谱。

而在使用转换模型生成目标合成频谱时，此时没有可以用作参考的真实频谱，但是仍然需要对转换模型输出的频谱剔除扰动特征，那么只能使用转换模型的变分自编码向量输出的目标句子级编码向量进行，也就是利用合成的扰动特征代替真实的扰动特征，从而实现剔除扰动特征的目的。

需要说明的是，进行解码得到当前时刻的子频谱的过程中还包括对上一时刻的子频谱进行处理，这一部分的相关描述可以参考前述音频生成的实施例中的相关内容。在前述利用转换模型生成目标子频谱的实施例中，输入解码器的是上一时刻的目标子频谱。在对转换模型进行训练时，由于样本频谱对应有已知的真实频谱，进行解码得到当前时刻的样本子频谱过程中，输入解码器的可以是上一时刻的真实频谱，也可以是上一时刻的样本子频谱。

步骤S835：利用转换模型对若干时刻的样本子频谱进行合成处理，得到样本文本对应的样本合成频谱。

其中，合成处理可以为将若干时刻的样本子频谱依次拼接。

步骤S740：利用音色判别器对样本合成频谱进行音色判别，以得到第一预测音色。

需要说明的是，利用音色判别器对样本真实频谱进行音色判别的过程与对样本合成频谱进行音色判别的过程一致，此处以对样本合成频谱进行音色判别为例进行说明。

请结合参阅图7和图10，图10是本申请步骤S740另一实施例的流程示意图，步骤S740包括：

步骤S1041：利用音色判别器的若干第一卷积组分别对样本合成频谱进行特征提取，得到各第一卷积组对应的频谱特征。

需要说明的是，音色判别器包括若干第一卷积组、循环网络层和Softmax层。其中，每个第一卷积组包括依序连接的一个二维卷积层、ReLU激活函数和批规范化层。若干第一卷积组为平行关系，均对输入音色判别器的频谱进行特征提取，每个第一卷积组均对应得到频谱特征。

步骤S1042：利用音色判别器的循环网络层对频谱特征进行处理，以得到预测结果。

需要说明的是，音色判别器的循环网络层会依次对各时刻的样本子频谱进行处理，以得到预测结果，预测结果包括样本合成频谱中各时刻的样本子频谱属于各预设音色的第一概率。

步骤S1043：对各时刻的样本子频谱属于各预设音色的第一概率进行统计，确定样本合成频谱属于各预设音色的第二概率。

由于循环网络层保留历史处理信息的特性，可以认为循环网络层输出的最后一个时刻对应的预测结果也就代表各时刻的样本子频谱属于各预设音色的第一概率，从而可以利用Softmax层确定样本合成频谱属于各预设音色的第二概率。具体地，Softmax层可以将循环网络层的实数空间映射为概率空间，从而确定样本合成频谱属于各预设音色的第二概率。

步骤S1044：选出第二概率满足预设条件的预设音色作为第一预测音色。

预设条件可以是第二概率最高，也就说明输入音色判别器的频谱为该预设音色的可能性最大，那么也就可以将该预设音色作为本次音色判别的结果，也就是第一预测音色，具体地，由Softmax层输出概率值最高的音色。

步骤S750：基于样本音色和第一预测音色，调整转换模型的参数。

可以理解的是，若样本音色与第一预测音色存在差异，那么可以利用损失函数对转换模型的参数进行调整，此处进行调整的转换模型的参数可以包括文本编码器和解码器的参数，还可以包括参考变分自编码器和转换模型的变分自编码器的参数。

其中，步骤S750中的损失函数可以通过以下公式计算得到：

其中，

表示转换模型额外的音色错误损失，D表示音色判别器，x'是根据样本音色生成的样本合成频谱，y_x'为样本音色对应的音色类别。

在一些实施例中，在对转换模型进行训练的过程中，还可以基于样本合成频谱与样本文本、样本口音以及样本音色对应的真实频谱的差异，也就是重建损失，对转换模型的参数进行调整。

步骤S760：利用样本句子级编码向量与参考句子级编码向量之间的差异，调整变分自编码器的参数。

需要说明的是，步骤S760是可选步骤，若转换模型包括变分自编码器，那么则执行步骤S760，若转换模型不包括变分自编码器，那么无需执行步骤S760。

在一些实施例中，变分自编码器可以作为解码器的一部分，从而步骤S750和步骤S760可以作为一个步骤一并执行。

在训练转换模型时，利用转换模型生成样本合成频谱的过程中并没有使用转换模型的变分自编码器输出的样本句子级编码向量，而在使用转换模型生成目标合成频谱的过程中只能够使用转换模型的变分自编码器输出的目标句子级编码向量。为了使得后续使用转换模型生成目标合成频谱的过程中，转换模型的变分自编码器输出的目标句子级编码向量与真实的扰动特征贴近，在训练过程中，可以利用样本句子级编码向量与参考句子级编码向量之间的差异，调整参考变分自编码器和转换模型的变分自编码器的参数。使得对于同一样本来说，样本句子级编码向量与参考句子级编码向量趋于一致，也就是通过转换模型的变分自编码器得到的合成扰动特征与通过参考变分自编码器得到的真实频谱的真实扰动特征趋于一致。

设备可以多次执行步骤S730-步骤S760，从而完成对转换模型的训练。

在一些实施例中，音色判别器与转换模型进行交叉训练，可以理解的是，训练过程可以分为多轮，在开始的若干轮训练中，采用样本文本对转换模型进行训练，采用样本真实频谱以及样本真实频谱的实际音色对音色判别器进行训练，若音色判别器对样本真实频谱的音色判别错误，利用损失函数予以纠正。在若干轮训练过后，采用样本真实频谱和利用转换模型得到的样本合成频谱对音色判别器进行交叉训练，在这个过程中，若对样本合成频谱的音色判别错误，则将损失施加到音色转换模型上，若对样本真实频谱的音色判别错误，则将损失施加到音色判别器上。也就是对于开始的若干轮训练来说，每轮训练执行对音色判别器进行一轮训练的步骤，也就是步骤S710和步骤S720，在完成若干轮训练之后，每轮训练执行步骤S710和步骤S720或者步骤S740-步骤S760，直到转换模型训练完成为止。

在完成对转换模型的训练之后，则可以利用转换模型生成目标合成音频，生成目标合成音频的相关步骤可以参考前述音频生成方法的相关实施例，在此不做赘述。

在上述方案中，将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与样本口音和样本音色对应的样本合成频谱，利用音色判别器训练对样本合成频谱的音色进行判别，基于样本音色和第一预测音色对转换模型进行参数调整，得到能够生成与指定音色和指定口音对应的转换模型，利用转换模型对目标文本进行目标口音的文本编码，而后对得到的目标文本编码向量与目标音色对应的目标音色向量进行解码处理，将得到的若干时刻的目标子频谱进行合成处理，能够得到与目标文本、目标音色和目标口音对应的目标合成频谱，其中，还利用了变分自编码器剔除扰动，通过上述方式，利用音色判别器辅助模型进行训练，能够使得转换模型生成的合成频谱的音色与指定音色一致，提高模型的准确性，并且最终转换模型能够生成任意指定音色和任意指定口音的目标合成频谱，并且利用变分自编码器能够排除样本的其他特征信息对模型的影响，提高模型的稳定性。

请结合参阅图11，图11是本申请转换模型的训练装置一实施例的框架示意图。

本实施例中，转换模型的训练装置110包括输入模块111、音色判别模块112和模型调整模块113。其中，输入模块111用于将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与样本口音和样本音色对应的样本合成频谱。音色判别模块112用于利用音色判别器对样本合成频谱进行音色判别，以得到第一预测音色。模型调整模块113用于基于样本音色和第一预测音色，调整转换模型的参数。

在上述方案中，将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与样本口音和样本音色对应的样本合成频谱，利用音色判别器训练对样本合成频谱的音色进行判别，基于样本音色和第一预测音色对转换模型进行参数调整，得到能够生成与指定音色和指定口音对应的转换模型，通过上述方式，利用音色判别器辅助模型进行训练，能够使得转换模型生成的合成频谱的音色与指定音色一致，提高模型的准确性。

请结合参阅图12，图12是本申请音频生成装置一实施例的框架示意图。

本实施例中，音频生成装置120包括文本编码模块121、解码模块122和合成模块123。其中，文本编码模块121用于对目标文本进行目标口音的文本编码，得到目标口音的目标文本编码向量。解码模块122用于对目标文本编码向量与目标音色对应的目标音色向量进行解码处理，以得到与目标音色对应的若干时刻的目标子频谱。合成模块123用于对若干时刻的目标子频谱进行合成处理，得到目标文本对应的目标合成频谱。

在上述方案中，将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与样本口音和样本音色对应的样本合成频谱，利用音色判别器训练对样本合成频谱的音色进行判别，基于样本音色和第一预测音色对转换模型进行参数调整，得到能够生成与指定音色和指定口音对应的转换模型，利用转换模型对目标文本进行目标口音的文本编码，而后对得到的目标文本编码向量与目标音色对应的目标音色向量进行解码处理，将得到的若干时刻的目标子频谱进行合成处理，能够得到与目标文本、目标音色和目标口音对应的目标合成频谱，通过上述方式，利用音色判别器辅助模型进行训练，能够使得转换模型生成的合成频谱的音色与指定音色一致，提高模型的准确性，并且最终转换模型能够生成任意指定音色和任意指定口音的目标合成频谱。

请参阅图13，图13是本申请电子设备一实施例的框架示意图。

本实施例中，电子设备130包括存储器131、处理器132，其中存储器131耦接处理器132。具体地，电子设备130的各个组件可通过总线耦合在一起，或者电子设备130的处理器132分别与其他组件一一连接。该电子设备130可以为具有处理能力的任意设备，例如计算机、平板电脑、手机等。

存储器131用于存储处理器132执行的程序数据以及处理器132在处理过程中的数据等。例如，转换模型、目标文本、目标音色等。其中，该存储器131包括非易失性存储部分，用于存储上述程序数据。

处理器132控制电子设备130的操作，处理器132还可以称为为CPU(CentralProcessing Unit，中央处理单元)。处理器132可能是一种集成电路芯片，具有信号的处理能力。处理器132还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器132可以由多个成电路芯片共同实现。

处理器132通过调用存储器131存储的程序数据，用于执行指令以实现上述任一转换模型的训练方法或任一音频生成方法。

例如，处理器132可以对目标文本进行目标口音的文本编码得到目标文本编码向量，对目标文本编码向量与目标音色向量进行解码处理，得到目标音色对应的若干时刻的目标子频谱。

请参阅图14，图14是本申请计算机可读存储介质一实施例的框架示意图。

本实施例中，该计算机可读存储介质140存储有处理器可运行的程序数据141，该程序数据能够被执行，用以实现上述任一转换模型的训练方法或任一音频生成方法。

该计算机可读存储介质140具体可以为U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序数据的介质，或者也可以为存储有该程序数据的服务器，该服务器可将存储的程序数据发送给其他设备运行，或者也可以自运行该存储的程序数据。

在一些实施例中，计算机可读存储介质140还可以为如图13所示的存储器。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种转换模型的训练方法，其特征在于，包括以下步骤，以对所述转换模型进行训练：

将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与所述样本口音和样本音色对应的样本合成频谱；

利用音色判别器对所述样本合成频谱进行音色判别，以得到第一预测音色；

基于所述样本音色和所述第一预测音色，调整所述转换模型的参数。

2.根据权利要求1所述的方法，其特征在于，所述音色判别器是在对所述转换模型训练之前已训练完成；或者，所述音色判别器与所述转换模型进行交叉训练。

3.根据权利要求2所述的方法，其特征在于，所述音色判别器与所述转换模型进行交叉训练，所述方法包括：

选择所述样本文本和/或样本真实频谱作为本次训练样本；

若所述本次训练样本包括所述样本文本，则利用所述样本文本执行所述对所述转换模型进行训练；

若所述本次训练样本不包括所述样本文本，则利用所述样本真实频谱对所述音色判别器进行训练。

4.根据权利要求2或3所述的方法，其特征在于，对所述音色判别器的训练步骤包括：

利用所述音色判别器对样本真实频谱进行音色判别，以得到第二预测音色；

基于所述样本真实频谱的实际音色与所述第二预测音色，调整所述音色判别器的参数。

5.根据权利要求1所述的方法，其特征在于，所述利用音色判别器对所述样本合成频谱进行音色判别，以得到第一预测音色，包括：

利用所述音色判别器的若干第一卷积组分别对所述样本合成频谱进行特征提取，得到各所述第一卷积组对应频谱特征；

将所述音色判别器的循环网络层对所述频谱特征进行处理，以得到预测结果，其中，所述预测结果包括所述样本合成频谱中各时刻的样本子频谱属于各预设音色的第一概率；

对所述各时刻的样本子频谱属于各预设音色的第一概率进行统计，确定所述样本合成频谱属于各所述预设音色的第二概率；

选出所述第二概率满足预设条件的所述预设音色作为所述第一预测音色。

6.根据权利要求1所述的方法，其特征在于，所述将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与所述样本口音和样本音色对应的样本合成频谱，包括：

利用所述转换模型的文本编码器对样本文本进行样本口音的文本编码，得到所述样本口音的样本文本编码向量；

利用所述转换模型的解码器对所述样本文本编码向量和所述样本音色对应的样本音色向量进行解码处理，以得到与所述样本音色对应的若干时刻的样本子频谱；

利用所述转换模型对所述若干时刻的样本子频谱进行合成处理，得到所述样本文本对应的样本合成频谱。

7.根据权利要求6所述的方法，其特征在于，所述将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与所述样本口音和样本音色对应的样本合成频谱，还包括：

利用所述转换模型的变分自编码器对所述样本文本编码向量进行变分自编码，得到样本句子级编码向量；

利用参考变分自编码器对与所述样本文本对应的样本真实频谱进行变分自编码，得到参考句子级编码向量；

所述利用所述转换模型的解码器对所述样本文本编码向量和所述样本音色对应的样本音色向量进行解码处理，以得到与所述样本音色对应的若干时刻的样本子频谱，还包括：

利用所述转换模型的解码器对所述样本文本编码向量、所述参考句子级编码向量和所述样本音色向量进行解码处理，以得到与所述样本音色对应的若干时刻的样本子频谱；

所述方法还包括：

利用所述样本句子级编码向量与所述参考句子级编码向量之间的差异，调整所述转换模型的变分自编码器和所述参考变分自编码器的参数。

8.根据权利要求7所述的方法，其特征在于，所述利用所述转换模型的变分自编码器对所述样本文本编码向量进行变分自编码，得到样本句子级编码向量，包括：

利用所述转换模型的变分自编码器对所述样本文本编码向量进行点乘自注意力处理，得到第一隐向量；

基于所述第一隐向量，得到所述样本句子级编码向量；

和/或，所述利用所述参考变分自编码器对与所述样本文本对应的真实频谱进行变分自编码，得到参考句子级编码向量，包括：

利用所述参考变分自编码器的若干第二卷积组分别对所述真实频谱进行特征提取，得到各所述第二卷积组对应的特征向量序列，每个所述特征向量序列包括所述真实频谱各时刻对应的特征向量；

统计所述特征向量序列中的各特征向量，得到第一统计向量和第二统计向量；

对所述第一统计向量和第二统计向量进行拼接，得到拼接向量；

对所述拼接向量进行降维处理，得到第二隐向量；

基于所述第二隐向量，得到所述参考句子级编码向量。

9.一种音频生成方法，其特征在于，包括：

对目标文本进行目标口音的文本编码，得到所述目标口音的目标文本编码向量；

对所述目标文本编码向量与所述目标音色对应的目标音色向量进行解码处理，以得到与所述目标音色对应的若干时刻的目标子频谱；

对所述若干时刻的目标子频谱进行合成处理，得到所述目标文本对应的目标合成频谱。

10.根据权利要求9所述的方法，其特征在于，所述对目标文本进行目标口音的文本编码，得到所述目标口音的目标文本编码向量，包括：

基于所述目标口音的口音标识，选出所述目标口音对应的文本编码器；

利用所述目标口音对应的文本编码器对所述目标文本进行目标口音的文本编码，得到所述目标口音的目标文本编码向量。

11.根据权利要求9或10所述的方法，其特征在于，所述对所述目标文本进行目标口音的文本编码，得到所述目标口音的目标文本编码向量，包括：

获取所述目标文本对应的若干音素的第一原始音素向量；

对各所述音素的第一原始音素向量进行去音色处理，得到各所述音素的目标音素向量；

对所述若干音素的目标音素向量进行编码，得到所述目标口音的目标文本编码向量。

12.根据权利要求11所述的方法，其特征在于，

在所述获取所述目标文本对应的若干音素的第一原始音素向量之前，所述方法还包括：

将所述目标文本转换为若干音素；

所述获取所述目标文本对应的若干音素的第一原始音素向量，包括：

利用文本编码器的词嵌入层获取所述若干音素的第二原始音素向量；

利用所述文本编码器的全连接层对各所述音素的第二原始音素向量进行处理，得到所述各所述音素的第一原始音素向量；

所述对所述若干音素的目标音素向量进行编码，得到所述目标口音的目标文本编码向量，包括：

利用所述文本编码器的第一循环网络层对所述若干音素的目标音素向量进行编码处理，得到所述目标口音的目标文本编码向量。

13.根据权利要求9所述的方法，其特征在于，所述对所述目标文本编码向量与所述目标音色对应的目标音色向量进行解码处理，以得到与所述目标音色对应的若干时刻的目标子频谱，包括：

对上一时刻的目标子频谱对应的第一频谱特征向量和所述目标音色向量进行融合处理，得到第一融合向量；

利用所述第一融合向量和所述目标文本编码向量，得到当前时刻的目标子频谱。

14.根据权利要求13所述的方法，其特征在于，所述融合处理为元素加处理；和/或，

所述对所述目标文本编码向量与所述目标音色对应的目标音色向量进行解码处理，以得到与所述目标音色对应的若干时刻的目标子频谱，还包括：

对所述上一时刻的目标子频谱进行特征提取，得到第二频谱特征向量；

对所述第二频谱特征向量进行去音色处理，得到所述第一频谱特征向量。

15.根据权利要求14所述的方法，其特征在于，所述对各所述音素的第一原始音素向量进行去音色处理，得到各所述音素的目标音素向量，或，对所述第二频谱特征向量进行去音色处理，得到所述第一频谱特征向量，包括：

将所述第一原始音素向量作为待处理向量、目标音素向量作为目标向量，或者，将所述第二频谱特征向量作为所述待处理向量、所第一频谱特征向量作为目标向量；

对所述待处理向量进行层归一化处理，得到所述目标向量。

16.根据权利要求15所述的方法，其特征在于，所述对所述待处理向量进行层归一化处理，得到所述目标向量，包括：

获取所述待处理向量的第一统计值和第二统计值，其中，所述第一统计值用于反映所述待处理向量中各元素的集中趋势，所述第二统计值用于反映所述待处理向量中各元素的离散程度；

利用所述待处理向量、所述第一统计值和所述第二统计值得到中间向量，并利用激活函数对所述中间向量进行激活处理，得到所述目标向量。

17.根据权利要求13所述的方法，其特征在于，在所述对目标文本进行目标口音的文本编码，得到所述目标口音的目标文本编码向量之后，所述方法还包括：

对所述目标文本编码向量进行变分自编码处理，得到目标句子级编码向量；

所述利用所述第一融合向量和所述目标文本编码向量，得到当前时刻的目标子频谱，包括：

利用所述第一融合向量、所述目标句子级编码向量和所述目标文本编码向量，得到当前时刻的目标子频谱。

18.根据权利要求17所述的方法，其特征在于，所述对所述目标文本编码向量进行变分自编码处理，得到目标句子级编码向量，包括：

对所述目标文本编码向量进行点乘自注意力处理，得到目标隐向量；

利用所述目标隐向量，得到所述目标句子级编码向量；

和/或，所述利用所述第一融合向量、所述目标句子级编码向量和所述目标文本编码向量，得到当前时刻的目标频谱，包括：

融合所述第一融合向量和所述目标句子级编码向量，得到第二融合向量；

利用解码器的第二循环网络层对所述第二融合向量和所述目标文本编码向量进行处理，得到所述当前时刻的目标子频谱。

19.根据权利要求9所述的方法，其特征在于，所述对所述若干时刻的目标子频谱进行合成处理，得到所述目标文本对应的目标合成频谱，包括：

对所述若干时刻的目标子频谱进行拼接，得到所述目标合成频谱；

和/或，在所述对所述若干时刻的目标子频谱进行合成处理，得到所述目标文本对应的目标合成频谱之后，所述方法还包括：

基于所述目标合成频谱，生成具有所述目标口音和目标音色的目标音频。

20.根据权利要求9所述的方法，其特征在于，所述对目标文本进行目标口音的文本编码，得到所述目标口音的目标文本编码向量至所述对所述若干时刻的目标频谱进行合成处理，得到所述目标文本对应的目标合成频谱的步骤，是由转换模型执行的；

所述方法还包括：利用权利要求1至8任一项方法训练得到所述转换模型。

21.一种转换模型的训练装置，其特征在于，包括：

输入模块，用于将样本文本、样本口音的标识、样本音色的标识输入转换模型，得到与所述样本口音和样本音色对应的样本合成频谱；

音色判别模块，用于利用音色判别器对所述样本合成频谱进行音色判别，以得到第一预测音色；

模型调整模块，用于基于所述样本音色和所述第一预测音色，调整所述转换模型的参数。

22.一种音频生成装置，其特征在于，包括：

文本编码模块，用于对目标文本进行目标口音的文本编码，得到所述目标口音的目标文本编码向量；

解码模块，用于对所述目标文本编码向量与所述目标音色对应的目标音色向量进行解码处理，以得到与所述目标音色对应的若干时刻的目标子频谱；

合成模块，用于对所述若干时刻的目标子频谱进行合成处理，得到所述目标文本对应的目标合成频谱。

23.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现如权利要求1-8或权利要求9-20中任一项所述的方法。

24.一种计算机可读存储介质，存储有能够被处理器运行的程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1-8或权利要求9-20中任一项所述的方法。