CN113066472A

CN113066472A - 合成语音处理方法及相关装置

Info

Publication number: CN113066472A
Application number: CN201911297777.8A
Authority: CN
Inventors: 伍宏传; 江源; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2021-07-02
Anticipated expiration: 2039-12-13

Abstract

本申请实施例公开了一种合成语音处理方法及相关装置，方法包括：获取针对第一用户的原始合成语音；提取所述原始合成语音的幅度谱和相位谱，所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱；通过预先训练好的正向生成器模型处理所述其他维幅度谱，得到对应的增强幅度谱；根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。本申请提供的合成语音处理方法，能够改善合成语音的自然度、相似度，使之更接近自然语音，提升用户的交互体验。

Description

合成语音处理方法及相关装置

技术领域

本申请涉及电子设备技术领域，具体涉及一种合成语音处理方法及相关装置。

背景技术

语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。近年来，随着人工智能技术的发展落地，人机交互变得越来越频繁，以语音为媒介的交互方式逐渐成为人机交互领域的主流形式，语音合成技术在其中的重要性也变得越来越凸显。

发明内容

本申请实施例提供了一种合成语音处理方法及相关装置，以期改善合成语音的自然度和相似度，使之更接近自然录音。

第一方面，本申请实施例提供一种合成语音处理方法，包括：获取针对第一用户的原始合成语音；

提取所述原始合成语音的幅度谱和相位谱，所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱；

通过预先训练好的正向生成器模型处理所述其他维幅度谱，得到对应的增强幅度谱；

根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。

第二方面，本申请实施例提供一种合成语音处理装置，包括处理单元和通信单元，其中，

所述处理单元，用于通过所述通信单元获取针对第一用户的原始合成语音；以及用于提取所述原始合成语音的幅度谱和相位谱，所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱；以及用于通过预先训练好的正向生成器模型处理所述其他维幅度谱，得到对应的增强幅度谱；以及用于根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例中，首先获取针对第一用户的原始合成语音；然后提取所述原始合成语音的幅度谱和相位谱，所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱；再然后通过预先训练好的正向生成器模型处理所述其他维幅度谱，得到对应的增强幅度谱；最后根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。可见，本申请提供的合成语音处理方法，能够改善合成语音的自然度、相似度，使之更接近自然语音，提升用户的交互体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种合成语音处理系统的示意图；

图2a是本申请实施例提供的一种合成语音处理方法的流程示意图；

图2b是本申请实施例提供的一种生成器模型架构示意图；

图3a是本申请实施例提供的一种正向训练模型的结构示意图；

图3b是本申请实施例提供的一种全向训练模型的结构示意图

图3c本申请实施例提供的一种循环一致性损失计算流程示意图；

图4本申请实施例提供的一种电子设备的结构示意图；

图5本申请实施例提供的一种合成语音处理装置的功能单元组成框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

目前，对于合成语音的增强处理，现有技术一般采用前馈神经网络对幅度谱建模，将合成语音的幅度谱映射到自然语音幅度谱，计算两者的最小均方误差(Minimum MeanSquare Error,MMSE)作为损失函数，训练幅度谱增强模型，由于没有考虑幅度谱的时频相关性，因此模型精度不够，且模型增强的幅度谱存在一定的过平滑效应，增强后的语音存在模糊现象，音质不够清脆自然。

针对上述问题，本申请实施例提供了一种合成语音处理方法及相关装置，下面结合附图对本实施例进行详细介绍。

如图1所示，图1是本申请实施例提供的一种合成语音处理系统的示意图，该合成语音处理系统100包括模型训练设备110和模型应用设备120，所述模型训练设备110用于全向训练模型或者正向训练模型的模型训练，该模型训练设备110可以是服务器、分布式数据处理系统等数据处理设备，此处不做唯一限定。所述模型应用设备120内置有预先训练好的正向生成器模型，该模型应用设备120可以是移动终端、笔记本等电子设备，此处不做唯一限定。所述模型训练设备110与所述模型应用设备120通信连接，模型训练设备110根据样本数据训练模型得到训练好的正向生成器模型，并将正向生成器模型下发给模型应用设备120进行应用。

此外，模型训练设备和模型应用设备也有可能集成为一体式设备，该一体式设备的具体设备形态不做唯一限定。

请参阅图2a，图2a是本申请实施例提供的一种合成语音处理方法的流程示意图，该合成语音处理方法应用于如图1所示的合成语音处理系统，如图所示，本合成语音处理方法包括如下步骤。

S201，获取针对第一用户的原始合成语音。

其中，第一用户为本次语音合成事件中希望合成语音能够尽可能接近自然语音状态的发音人。

S202，提取所述原始合成语音的幅度谱和相位谱，所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱。

其中，在获得合成语音后，需要对相应的语音数据进行规整，根据短时傅里叶分析(Short Time Fourier Transform,STFT)提取出合成语音的幅度谱，例如将FFT点数设为512，则得到的幅度谱为N×257，其中N为语音帧数。在得到幅度谱后，可以计算数据集幅度谱的均值方差，将幅度谱数据规整到零均值方差，该幅度谱包括能量维幅度谱。

S203，通过预先训练好的正向生成器模型处理所述其他维幅度谱，得到对应的增强幅度谱。

其中，对于提取的幅度谱中的能量维幅度谱可以不做处理，直接保留，仅通过正向生成器模型处理幅度谱中的其他维幅度谱。

S204，根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。

其中，幅度谱中主要包含了与发音相关的信息，相位谱则反映的是波形的时间特性，因此包含了与听感相关的细节信息。将保留的能量维和增强幅度谱拼起来作为新的幅度谱，再与相位谱相乘得到完整的STFT谱，对其做逆傅里叶变换得到增强后的合成语音。

在一个可能的实例中，所述获取针对第一用户的原始合成语音，包括：获取待合成的文本；根据所述待合成的文本生成针对所述第一用户的原始合成语音。

具体实现中，设备可以将待合成的文本输入已经构建好的第一用户的常规声学特征预测模型中，得到第一用户的预测声学特征，再将这些声学特征送入声码器生成原始合成语音，这里的预测声学特征包括但不限于频谱、基频、非周期谐波成份特征。

可见，本示例中，根据获取的待合成的文本生产原始合成语音，可以快速高效的获得合成语音，便于后续对合成的幅度谱进行改善，以便提升合成语音的自然度。

在一个可能的实例中，所述获取针对第一用户的原始合成语音，包括：获取第二用户的原始自然语音；根据预先训练好的音色转换模型处理所述原始自然语音，得到针对所述第一用户的原始合成语音。

其中，想要获取针对第一用户的原始合成语音，可以先获取第二用户的原始自然语音，再根据音色转换模型提取原始自然语音的声学特征，包括频谱、基频、非周期谐波成分等内容，再通过声码器获得原始合成语音。

例如，针对需要变音的应用场景，第二用户可以通过设备录入自己的原始自然语音，有设备根据用户选择的需要变音的目标用户的音色转换模型，如选择第一用户的音色转换模型，则可以通过该音色转换模型将第二用户的原始自然语音转换为第一用户的原始合成语音。

可见，本示例中，根据原始自然语音，然后通过音色转换模型获得原始合成语音，可以快速高效的获得合成语音，便于后续对合成的幅度谱进行改善，以便提升合成语音的自然度。

在一个可能的实例中，所述正向生成器模型包括输入层、隐层、输出层；所述隐层包括顺序连接的下采样层、残差连接块、上采样层；所述输入层连接所述下采样层，所述上采样层连接所述输出层；所述输入层还连接所述输出层。

其中，该正向生成器模型的输入可以是由合成系统得到的合成语音提取的幅度谱，该模型的输出可以是自然语音数据作STFT分析后得到的幅度谱。如图2b所示，图2b是本申请实施例提供的一种生成器模型架构示意图，该模型的输入的是256×256大小的图片，正向生成器模型的卷积层可以包括带孔卷积层，可以在不增加模型复杂度情况下提高卷积层的接受野。隐层中的下采样层可以由两层步长为2的2D卷积层构成，使得输入的图片变为原来的1/16，残差连接块由带有残差连接的步长为1的卷积层构成，可以保持图片尺寸不变，上采样层由两层步长为2的2D反卷积层构成，使得图片尺寸为输入的图片尺寸的16倍，输出的图片尺寸为原始尺寸。为了将幅度谱原始的时频信息传递给较深的卷积层，可以在下采样层的输入增加跳跃连接到输出层，以此保证恢复幅度谱的精度。

可见，本示例中，正向生成器模型包括输入层、隐层、输出层，隐层还包括顺序连接的下采样层、残差连接块和上采样层，输入层连接下采样层，上采样层连接输出层，输入层还连接输出层，这样将可以幅度谱原始的时频信息传递给较深的卷积层，还能保证恢复的幅度谱的精度。

在一个可能的示例中，所述正向生成器模型的训练模型包括以下任意一种：全向训练模型，所述全向训练模型包括正向训练模型和反向训练模型；以及，所述正向训练模型；其中，所述正向训练模型和所述反向训练模型均采用对抗训练机制。

其中，为了使得转换后的合成语音的幅度谱与自然语音数据的幅度谱更加接近，从而达到改善合语音音质的目的，需要构建训练模型通过训练得到具备上述性能的正向生成器模型，该训练模型包括正向生成器模型，用以对正向生成器模型进行训练。

其中的对抗训练机制指的是在模型的训练过程中构建对抗样本并将对抗样本和原始样本混合一起训练模型的方法，换句话说就是在模型训练的过程中对模型进行对抗攻击从而提升模型对于对抗攻击的鲁棒性(也称为防御能力)。

具体实现中，训练模型为了学习第一用户的合成语音幅度谱和自然语音幅度谱的转换关系，模型训练设备需要收集一定量的第一用户的合成语音和自然语音作为样本数据。例如各自至少收集两个小时的语音数据。

对于自然语音，模型训练设备直接收集第一用户的干净自然语音，然后根据STFT分析得到其幅度谱即可。

对于合成语音，模型训练设备采用声码器合成语音，同样根据STFT分析提取出其对应的幅度谱即可。声码器具有从语音中提取声学特征以及利用声学特征合成语音的功能。合成系统通常对声码器提取的声学特征建模，并将预测的声学特征送入声码器合成语音。不同的声码器基于不同的设计算法得到，例如STRAIGHT、WORLD声码器等。

其中，基于声码器合成语音时声学特征的来源，包括以下两种获取方式：

方式一：采用声码器提取自然语音的声学特征合成语音。首先采用声码器对收集到的自然语音做特征分析，得到自然语音的声学特征，包括频谱、基频、非周期谐波成分，然后将这些声学特征再送入声码器，合成语音。

方式二：采用声学特征预测模型输出的声学特征合成语音。具体方法是将文本输入已构建好的声学特征预测模型，得到预测的声学特征，包括频谱、基频、非周期谐波成份特征。然后将这些预测的声学特征送入声码器合成语音。这里输入的文本可以是与搜集到的自然语音相同的文本，也可以是不同的文本。如果采用相同的文本，在预测声学特征时，声学特征预测模型可以采用对应的自然语音中的时长信息，也可以采用声学特征预测模型中经过时长模型预测的时长信息。如果采用的是不同的文本，该文本可以是任意的文本，例如可以从网络上抓取得到，但需要保证音素覆盖率。所述声学特征预测模型可以采用多种方法构建，例如可以采用收集到的第一用户的干净自然语音和对应的文本数据，基于深度神经网络训练得到，在这里不做特别限定。

其中，由于语音中的静音部分对于训练没有帮助，因此可以根据文本标签去除静音段，只保留有声段幅度谱数据用作训练。获得相应幅度谱数据后，需要对数据做规整，计算数据集幅度谱的均值方差，将幅度谱数据规整到零均值一方差。幅度谱的能量维(第一维)不需要预测，直接保留；考虑到训练时硬件内存限制，每次可以从有声段幅度谱中随机截取256帧的小块，这样所有的幅度谱都切成256×256大小图片输入模型训练。

可见，本示例中，正向生成器模型的训练模型可以包括正向训练模型和反向训练模型，也可以仅包括正向训练模型，且正向训练模型和反向训练模型都采用的是对抗训练机制，这样可以改善合成语音的自然度、相似度，使之更接近自然语音。

在一个可能的实例中，所述正向生成器模型的训练模型包括所述全向训练模型；所述正向训练模型包括所述正向生成器模型和正向判别器模型；所述反向训练模型包括反向生成器模型和反向判别器模型。

其中，正向训练模型和反向训练模型都采用对抗训练机制，因此这两个训练模型都可以包括生成器和判别器两部分，也就是说，正向训练模型包括正向生成器模型和正向判别器模型，反向训练模型包括反向生成器模型和反向判别器模型。对于生成器模型和判别器模型的构建可以是基于深度神经网络(Deep Neural Network)、递归神经网络(Recurrent Neural Network，RNN)以及卷积神经网络(Convolution Neural Network，CNN)等神经网络中的一种或几种组合的实现。

可见，本示例中，训练模型采用判别器加生成器的架构，实现对抗训练，可以改善合成语音的自然度、相似度，使之更接近自然语音。

在一个可能的实例中，所述正向生成器模型用于对合成语音波形进行转换，来期望获得与自然语音波形更加接近的转换语音波形；所述正向判别器模型用于判断输入的语音波形是否是真的自然语音波形；所述反向生成器模型用于对输入的自然语音波形进行转换，来期望生成与合成语音波形接近的波形；所述反向判别器模型用于判断输入的语音波形是否是真的合成语音波形。

具体实现中，判别器主要由下采样层构成，使用步长为2的2D卷积层对幅度谱图进行下采样，对输入幅度谱图的每一块区域计算输出这块区域为真实幅度谱的概率，概率越大说明输入的幅度谱与目标越相似，概率越小说明输入的幅度谱与目标差异越大。

可见，本示例中，根据生成器模型来生成接近的自然语音或合成语音，用判别器模型来判断输入的语音是真的合成语音或自然语音的概率，可以改善合成语音的自然度、相似度，使之更接近自然语音。

在一个可能的实例中，所述正向判别器模型和所述反向判别器模型为多维度判别器模型；所述正向判别器模型包括梅尔域幅度谱正向判别器模型和线性幅度谱正向判别器模型；所述反向判别器模型包括梅尔域幅度谱反向判别器模型和线性幅度谱反向判别器模型。

其中，线性幅度谱判别器用于分辨生成的合成语音的幅度谱与自然语音幅度谱，梅尔域幅度谱更符合人耳听觉系统，可以使得生成幅度谱在听觉感知角度更接近自然幅度谱，使得合成语音增强后自然度、音质均有提升。

可见，本示例中，判别器模型包括线性幅度谱判别器和梅尔域幅度谱判别器，这样可以更好恢复幅度谱精细结构以及使得生成幅度谱在听觉感知角度更接近自然幅度谱，使得合成语音增强后自然度和音质均能提升。

在一个可能的实例中，所述全向训练模型的损失函数包含梅尔域幅度谱的信息。

其中，所述全向训练模型的损失函数包括正向对抗训练损失函数和反向对抗训练损失函数；所述正向对抗训练损失函数由所述正向生成器模型和所述正向判别器模型构建；所述反向对抗训练损失函数由所述反向生成器模型和所述反向判别器模型构建。

可见，全向训练模型的损失函数包含梅尔域幅度谱的信息，可以使得生成幅度谱在听觉感知角度更接近自然幅度谱，使得合成语音增强后自然度和音质均能提升。

下面举例说明一下。

如图3a所示，图3a是本申请实施例提供的一种正向训练模型的结构示意图，x为合成语音幅度谱，y为自然语音幅度谱，正向生成器模型由G_X->Y表示，正向判别器模型由D_Y表示，D_Y包含了一个梅尔域幅度谱正向判别器模型D_{y_mel}和一个线性幅度谱正向判别器模型D_{y_linear}，生成器G_x→y输入合成语音幅度谱生成自然语音幅度谱，判别器D_{y_linear}区分G_x→y生成的幅度谱在线性域是否为自然语音幅度谱。根据生存对抗机制，对生成器模型和判别器模型进行交替训练，当训练判别器D_{y_linear},D_{y_mel}时，G_X->Y模型固定不变，同样，当在训练生成器网络G_X->Y时，D_{y_linear},D_{y_mel}固定不动。正向生成器和正向判别器相互对抗，生成器G_x→y试图生成更逼真的自然语音幅度谱欺骗判别器D_{y_linear},D_{y_mel}，而判别器则试图将生成的幅度谱和自然语音幅度谱区分开来；这种生成对抗模式达到平衡后，D_{y_linear},D_{y_mel}将无法区分两者，这时G_x→y就生成了和自然幅度谱非常相似的幅度谱。

如图3b所示，图3b是本申请实施例提供的一种全向训练模型的结构示意图，x为合成语音幅度谱，y为自然语音幅度谱，正向生成器模型由G_X->Y表示，反向生成器模型由G_X->Y表示，正向判别器模型由D_Y表示，反向判别器模型由D_X表示，D_Y包含了一个梅尔域幅度谱正向判别器模型D_{y_mel}和一个线性幅度谱正向判别器模型D_{y_linear}，D_X包含了一个梅尔域幅度谱反向判别器模型D_{x_mel}和一个线性幅度谱反向判别器模型D_{x_linear}，对于反向生成器和反向判别器的训练过程与图3a所示的正向生成器和正向判别器的方式相同，在此不再赘述。

此外，在采用生存对抗机制训练模型时，还引入循环一致性损失避免模式坍塌问题，即输入幅度谱经过生成器生成预测的目标幅度谱，能够经过另一生成器重构回自己，如图3c所示，图3c本申请实施例提供的一种循环一致性损失计算流程示意图，使用了循环一致性损失，分别从前向计算和后向计算两个方向保证模型生成的幅度谱一致性。如图所示，输入给定合成语音幅度谱x，为了保证G_x→y生成对应的自然幅度谱，因此需要G_x→y生成的幅度谱

经过G_y→x能够重构出合成语音幅度谱

即前向一致性，类似的，对于输入自然语音幅度谱y，经过G_y→x生成合成语音幅度谱，再经过G_x→y能重构出自然幅度谱

即后向一致性。循环一致性损失函数为两个计算方向重构幅度谱的误差绝对值的期望之和：

前向一致性：x→G_x→y(x)→G_y→x(G_x→y(x))≈x

后向一致性：y→G_y→x(y)→G_x→y(G_y→x(y))≈y

L_cycle(G_X→Y,G_Y→X)＝E_x～X[||G_y→x(G_x→y(x))-x||₁]+E_y～Y[||G_x→y(G_y→x(y))-y||₁]

其中，梅尔域判别器构建时，先将输入幅度谱与三角窗滤波器系数矩阵W_mel相乘得到梅尔域幅度谱y_mel，再将其输入判别器D_{y_mel}得到梅尔域自然语音幅度谱判别损失函数L_GAN(D_{y_mel})如下式所示：

Mel域转换：y_mel＝W_mel*y

L_GAN(D_{y_mel})＝E_y～Y[(1-D_{y_mel}(y_mel))²]+E_x～X[D_{y_mel} ²(W_mel*G_x→y(x))]

其中L_GAN(D_{y_mel})由两项之和组成：第一项E_y～Y[(1-D_{y_mel}(y_mel))²]是输入自然语音梅尔域幅度谱，判别器输出概率与标签1(1表示真实样本)之间的均方误差；第二项E_x～X[D_{y_mel} ²(W_mel*G_x→y(x))]是输入合成语音生成梅尔域幅度谱，判别器输出概率与标签0(0表示生成样本)之间的均方误差。类似的可以得到线性域自然语音幅度谱判别器的损失函数L_GAN(D_{y_linear})，将两个判别器损失函数相加得到自然语音幅度谱的判别损失函数L_GAN(D_y)(线性域自然语音幅度谱判别损失函数+梅尔域自然语音幅度谱判别损失函数)，如下式所示：

L_GAN(D_{y_linear})＝E_y～Y[(1-D_{y_linear}(y))²]+E_x～X[D_{y_linear} ²(G_x→y(x))]

L_GAN(D_y)＝L_GAN(D_{y_linear})+L_GAN(D_{y_mel})

最小化损失函数L_GAN(D_y)优化自然语音幅度谱判别器，损失函数越小，输入自然语音幅度谱概率越接近1，输入生成幅度谱概率越接近0，判别器就能很好地区分自然语音幅度谱与生成幅度谱。在区分G_y→x生成幅度谱是否为合成语音幅度谱，类似的引入多维度判别器D_x：线性合成语音幅度谱判别器D_{x_linear}和梅尔域合成语音幅度谱判别器D_{x_mel}；从而得到合成语音幅度谱的判别损失函数L_GAN(D_x)(线性域合成语音幅度谱判别损失函数+梅尔域合成语音幅度谱判别损失函数)，将自然语音两个判别损失函数和合成语音判别损失函数相加，可得整个模型的区分损失函数：

L_D(D_x,D_y)＝L_GAN(D_x)+L_GAN(D_y)

生成器G_x→y则努力生成更逼真的自然幅度谱欺骗判别器，它的对抗损失等于线性幅度谱和梅尔幅度谱两部分对抗损失之和，如下式所示：

L_ADV(G_x→y)＝E_x～X[(1-D_{y_linear}(G_x→y(x)))²]+E_x～X[(1-D_{y_mel}(W_mel*G_x→y(x)))²]

其中第一项E_x～X[(1-D_{y_linear}(G_x→y(x)))²]是生成幅度谱输入判别器D_{y_linear}得到概率与标签1之间的均方误差，第二项E_x～X[(1-D_{y_mel}(W_mel*G_x→y(x)))²]是生成幅度谱输入判别器D_{y_mel}得到概率与标签1之间的均方误差。生成器G_y→x的对抗损失函数L_ADV(G_y→x)同理可得。将循环一致性损失和对抗损失结合可得两个生成器的损失函数：

L_G(G_x→y,G_y→x)＝L_ADV(G_x→y)+L_ADV(G_y→x)+λL_cycle(G_x→y,G_y→x)

具体模型训练步骤如下：

1、随机初始化模型参数；

2、固定判别器参数，最小化损失函数L_G(G_x→y,G_y→x)，利用其梯度更新生成器G_x→y,G_y→x；

3、固定生成器参数，最小化区分损失函数L_D(D_x,D_y)，利用其梯度更新判别器D_x,D_y；

4、回到2，交替训练生成器和判别器，直到模型收敛。

与上述图2a所示的实施例一致的，请参阅图4，图4是本申请实施例提供的一种电子设备的结构示意图，如图所示，所述电子设备400包括应用处理器410、存储器420、通信接口430以及一个或多个程序421，其中，所述一个或多个程序421被存储在上述存储器420中，且被配置由上述应用处理器410执行，所述一个或多个程序421包括用于执行上述方法实施例中任一步骤的指令。

在一个可能的实例中，所述程序421中的指令用于执行以下操作：获取针对第一用户的原始合成语音；提取所述原始合成语音的幅度谱和相位谱，所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱；通过预先训练好的正向生成器模型处理所述其他维幅度谱，得到对应的增强幅度谱；根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。

在一个可能的实例中，在所述获取针对第一用户的原始合成语音方面，所述程序421中的指令具体用以执行以下操作：获取待合成的文本；根据所述待合成的文本生成针对所述第一用户的原始合成语音。

在一个可能的实例中，在所述获取针对第一用户的原始合成语音方面，所述程序421中的指令具体用以执行以下操作：获取第二用户的原始自然语音；根据预先训练好的音色转换模型处理所述原始自然语音，得到针对所述第一用户的原始合成语音。

在一个可能的实例中，所述正向生成器模型的训练模型包括以下任意一种：全向训练模型，所述全向训练模型包括正向训练模型和反向训练模型；以及，所述正向训练模型；其中，所述正向训练模型和所述反向训练模型均采用对抗训练机制。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述各个步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图5是本申请实施例提供的一种合成语音处理装置的功能单元组成框图。合成语音处理装置500应用于电子设备，具体包括：处理单元501和通信单元502。处理单元501用于对电子设备的动作进行控制管理，通信单元502用于支持电子设备与其他设备的通信。终端还可以包括存储单元503，用于存储终端的程序代码和数据。其中，处理单元501可以是处理器或控制器，例如可以是中央处理器(Central Processing Unit，CPU)，通用处理器，数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-SpecificIntegrated Circuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信单元502可以是通信接口、收发器、收发电路等，存储单元503可以是存储器。

具体实现时，所述处理单元501用于执行如上述方法实施例中由电子设备执行的任一步骤，且在执行诸如发送等数据传输时，可选择的调用所述通信单元502来完成相应操作。下面进行详细说明。

所述处理单元501，用于通过所述通信单元获取针对第一用户的原始合成语音；以及用于提取所述原始合成语音的幅度谱和相位谱，所述幅度谱包括能量维幅度谱和除所述能量维幅度谱之外的其他维幅度谱；以及用于通过预先训练好的正向生成器模型处理所述其他维幅度谱，得到对应的增强幅度谱；以及用于根据所述能量维幅度谱、所述增强幅度谱以及所述相位谱生成针对所述第一用户的目标合成语音。

在一个可能的实例中，在所述获取针对第一用户的原始合成语音方面，所述处理单元501具体包括第一获取单元和第一生成单元，所述第一获取单元，用于获取待合成的文本；所述第一生成单元，用于根据所述待合成的文本生成针对所述第一用户的原始合成语音。

在一个可能的实例中，在所述获取针对第一用户的原始合成语音方面，所述处理单元501具体包括第二获取单元和第二生成单元，所述第二获取单元，用于获取第二用户的原始自然语音；所述第二生成单元，用于根据预先训练好的音色转换模型处理所述原始自然语音，得到针对所述第一用户的原始合成语音。

可以理解的是，由于方法实施例与装置实施例为相同技术构思的不同呈现形式，因此，本申请中方法实施例部分的内容应同步适配于装置实施例部分，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种合成语音处理方法，其特征在于，包括：

获取针对第一用户的原始合成语音；

2.根据权利要求1所述的方法，其特征在于，所述获取针对第一用户的原始合成语音，包括：

获取待合成的文本；

根据所述待合成的文本生成针对所述第一用户的原始合成语音。

3.根据权利要求1所述的方法，其特征在于，所述获取针对第一用户的原始合成语音，包括：

获取第二用户的原始自然语音；

根据预先训练好的音色转换模型处理所述原始自然语音，得到针对所述第一用户的原始合成语音。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述正向生成器模型包括输入层、隐层、输出层；所述隐层包括顺序连接的下采样层、残差连接块、上采样层；

所述输入层连接所述下采样层，所述上采样层连接所述输出层；

所述输入层还连接所述输出层。

5.根据权利要求4所述的方法，其特征在于，所述正向生成器模型的训练模型包括以下任意一种：

全向训练模型，所述全向训练模型包括正向训练模型和反向训练模型；以及，

所述正向训练模型；

其中，所述正向训练模型和所述反向训练模型均采用对抗训练机制。

6.根据权利要5所述的方法，其特征在于，所述正向生成器模型的训练模型包括所述全向训练模型；

所述正向训练模型包括所述正向生成器模型和正向判别器模型；

所述反向训练模型包括反向生成器模型和反向判别器模型。

7.根据权利要6所述的方法，其特征在于，所述正向生成器模型用于对合成语音波形进行转换，来期望获得与自然语音波形更加接近的转换语音波形；所述正向判别器模型用于判断输入的语音波形是否是真的自然语音波形；

所述反向生成器模型用于对输入的自然语音波形进行转换，来期望生成与合成语音波形接近的波形；所述反向判别器模型用于判断输入的语音波形是否是真的合成语音波形。

8.根据权利要6或7所述的方法，其特征在于，所述正向判别器模型和所述反向判别器模型为多维度判别器模型；

所述正向判别器模型包括梅尔域幅度谱正向判别器模型和线性幅度谱正向判别器模型；

所述反向判别器模型包括梅尔域幅度谱反向判别器模型和线性幅度谱反向判别器模型。

9.根据权利要8所述的方法，其特征在于，所述全向训练模型的损失函数包含梅尔域幅度谱的信息。

10.一种合成语音处理装置，其特征在于，包括处理单元和通信单元，其中，

11.一种电子设备，其特征在于，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-9任一项所述的方法中的步骤的指令。