CN110246488A

CN110246488A - 半优化CycleGAN模型的语音转换方法及装置

Info

Publication number: CN110246488A
Application number: CN201910515510.5A
Authority: CN
Inventors: 俞凯; 吴松泽; 陈博; 陈宽
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-09-17
Anticipated expiration: 2039-06-14
Also published as: CN110246488B

Abstract

本发明公开半优化CycleGAN模型的语音转换方法和装置，其中，半优化CycleGAN模型的语音转换方法，包括：从待转换音频中提取梅尔频谱和基频；将基频作为辅助特征与梅尔频谱进行拼接；将拼接后的特征同时作为输入和输出对半优化CycleGAN模型进行训练，其中，半优化CycleGAN模型，包括两个生成器、cycle‑consistenty损失函数，其中：在cycle‑consistenty损失函数的每一个周期的梯度回传阶段，保持前一个生成器不变，仅对后一个生成器进行梯度计算和更新；提取训练后的半优化CycleGAN模型输出中的梅尔频谱；基于输出中的梅尔频谱生成待转换音频的波形。

Description

半优化CycleGAN模型的语音转换方法及装置

技术领域

本发明属于语音转换技术领域，尤其涉及半优化CycleGAN模型的语音转换方法及装置。

背景技术

相关技术中,非平行语料指原始说话人和目标说话人训练数据中的语义内容是非平行的，不相同的。现有技术提供的一种语音转换系统的构造如下：

首先，使用声码器从音频中提取梅尔倒谱系数、基频作为声学特征。

然后，使用标准CycleGAN网络来作为语音转换模型，对梅尔倒谱系数以片段为单位进行转换。

其次，对基频使用线性方法进行转换。

最后，将转换后的梅尔倒谱系数和基频放入声码器合成转换后的声音。

其中,CycleGAN(Cycle Consistent Adversarial Networks)是一种可以用于在非平行训练数据下进行无监督训练的生成模型，最初用于图像风格转换。WaveNet是一种自回归生成神经网络模型，可用于波形生成和声码器。

发明人在实现本申请的过程中发现，现有技术中的上述方案的主要缺陷是无法合成具有较高相似度和自然度的转换语音，并且基频的转换方法导致了其基频转换效果和真实目标有较大差距。

发明内容

本发明实施例提供一种半优化CycleGAN模型的语音转换方法及装置，用于至少解决上述技术问题之一。

第一方面,本发明实施例提供一种半优化CycleGAN模型，包括两个生成器、两个判别器、判别损失函数、身份损失函数和循环一致性损失函数，其中：在循环一致性损失函数的每一个周期的梯度回传阶段，对级联的两个生成器，保持前一个生成器不变，仅对后一个生成器进行计算和更新。

第二方面，本发明实施例提供一种半优化CycleGAN模型的语音转换方法，包括：从待转换音频中提取梅尔频谱和基频；将所述基频作为辅助特征与所述梅尔频谱进行拼接；将拼接后的特征同时作为输入和输出对根据第一方面所述的半优化CycleGAN模型进行训练；提取训练后的半优化 CycleGAN模型输出中的梅尔频谱；基于所述输出中的梅尔频谱生成待转换音频的波形。

第三方面，本发明实施例提供一种半优化CycleGAN模型的语音转换装置，包括：第一提取模块，配置为从待转换音频中提取梅尔频谱和基频；拼接模块，配置为将所述基频作为辅助特征与所述梅尔频谱进行拼接；训练模块，配置为将拼接后的特征同时作为输入和输出对根据第一方面所述的半优化CycleGAN模型进行训练；第二提取模块，配置为提取训练后的半优化CycleGAN模型输出中的梅尔频谱；以及生成模块，配置为基于所述输出中的梅尔频谱生成待转换音频的波形。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的半优化CycleGAN模型的语音转换方法的步骤。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的半优化CycleGAN模型的语音转换方法的步骤。

本申请的方法和装置提供的方案通过对非平行语料下的语音转换，有效地提高了转换语音的自然度和相似度。本方案亦可用于平行语料的训练，在对齐不精准的情况下，亦能达到较好的转换效果。同时，本方案对于传统CycleGAN模型进行了改进，可以显著降低噪音并提高语音相似度和自然度，该改进亦可扩展到其他使用CycleGAN模型的任务中。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为传统CycleGAN中生成器GX→Y的数据流；

图1b为传统CycleGAN和本申请一实施例提供的半优化CycleGAN 之间的周期一致性损失比较；

图2为本发明一实施例提供的一种半优化CycleGAN模型的语音转换方法的流程图；

图3为本发明一实施例提供的具体示例的整个系统的架构图；

图4a和图4b为本发明一实施例提供的具体示例中的训练期间传统 CycleGAN和半优化CycleGAN之间Msp距离的比较；

图5为本发明一实施例提供的具体示例中的转换语音中F0的分布；

图6为本发明一实施例提供的具体示例中的F0轨迹的比较(女性与男性)；

图7a和图7b为本发明一实施例提供的具体示例中的转换语音自然度打分对比；

图8a、图8b、图8c和图8d为本发明一实施例提供的具体示例中的四个说话人对中与目标说话人的相似性的比较；

图9为本发明一实施例提供的一种定制化产品语言模型的识别装置的框图；

图10是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先，请参考图1a和图1b，其中，图1a示出了传统CycleGAN中生成器GX→Y的数据流，图1b示出了传统CycleGAN和本申请一实施例提供的半优化CycleGAN之间的周期一致性损失比较。

如图1a所示，传统的CycleGAN中，同时学习两个映射GX→Y和 GY→X。X和Y分别是源域和目标域。使用两个损失来学习每个映射，即对抗性损失和循环一致性(cycle-consistenty)损失。对于循环一致性丢失，来自域X的每个x可以通过循环恢复到x。

如图1b所示，在传统的CycleGAN的基础上，我们提出了一种半优化CycleGAN模型，包括两个生成器、两个判别生成器、identity损失函数、 Adversarial损失函数和cycle-consistenty(循环一致性)损失函数，其中：在循环一致性损失函数的每一个周期的梯度回传阶段，对级联的两个生成器，保持前一个生成器不变，仅对后一个生成器进行计算和更新。

通过后续的实验表明，半优化CycleGAN可以显著降低噪音并提高语音相似度和自然度。

请参考图2，其示出了本申请的半优化CycleGAN模型的语音转换方法一实施例的流程图，本实施例的半优化CycleGAN模型的语音转换方法可以适用于具备智能语音转换功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的支持语音转换的智能终端等。

如图2所示，在步骤201中，从待转换音频中提取梅尔频谱和基频；

在步骤202中，将基频作为辅助特征与梅尔频谱进行拼接；

在步骤203中，将拼接后的特征同时作为输入和输出标签对根据权利要求1的半优化CycleGAN模型进行训练；

在步骤204中，提取训练后的半优化CycleGAN模型输出中的梅尔频谱；

在步骤205中，基于输出中的梅尔频谱生成待转换音频的波形。

在本实施例中，对于步骤101，半优化CycleGAN模型的语音转换装置首先从待转换音频中提取梅尔频谱和基频，然后，对于步骤202，将基频与梅尔频谱特征进行拼接，其中基频作为辅助特征。之后，对于步骤203，将拼接后的特征同时作为输入以及输出标签对半优化CycleGAN模型进行训练，之后，对于步骤204，半优化CycleGAN模型的语音转换装置单独提取训练后的半优化CycleGAN模型输出中的梅尔频谱，最后对于步骤 205，基于该输出中的梅尔频谱生成待转换音频的波形。

本实施例的方案通过将基频和梅尔频谱拼接，引入半优化CycleGAN，在自然性和相似性方面均优于传统的CycleGAN和传统声码器。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现了，现有技术中该系统的缺陷主要是由于标准CycleGAN网络中，cycle-consistent损失函数的训练机制会为模型训练带来噪声，影响训练。该系统的缺陷也与特征选取以及声码器的选择有关。

发明人对现有技术进行仔细研究后发现，本领域技术人员为了解决上述缺陷，可能会采用以下方案：

针对音质和自然度不够高的问题，除了增大训练数据量或者使用平行语料训练平行语音转换系统外，之前的研究往往着重于如何使用转换能力更强的模型作为转换模型，而没有对当前系统的设计进行深入考虑。

本申请的方案提出了一种半优化CycleGAN模型的语音转换装置，发明实现本申请的过程如下：发明人对标准CycleGAN网络进行深入研究，对其进行修改，提出了半优化CycleGAN。除此之外，我们使用了基频作为辅助特征，来帮助模型更好地学习音调表示及其转换。

请参考图3，其示出了本申请一实施例提供的具体示例的系统架构流程图。其中，Adversarial loss是判别损失，Cycle Consistency loss是循环一致性损失，Identityloss是身份损失，mel-spectrogram是梅尔频谱， WaveNet Vocoder是WaveNet声码器。

如图3所示，整个系统主要分为两个模块：

其一，半优化CycleGAN网络，相对于传统的CycleGAN网络，我们对其cycle-consistenty损失函数进行了改进，在每一个周期的梯度回传阶段，只对第二个生成器进行计算和更新，而保持第一个生成器不变。我们使用基频作为辅助特征，和梅尔频谱进行拼接，同时作为输入和输出对转换模型进行训练。在测试阶段，只有输出中的梅尔频谱被用来生成波形。

其二，基于梅尔频谱的WaveNet网络被用来作为波形生成器。

本方案主要是针对非平行语料下的语音转换，有效地提高了转换语音的自然度和相似度。本方案亦可用于平行语料的训练，在对齐不精准的情况下，亦能达到较好的转换效果。同时，本方案对于传统CycleGAN模型的改进，亦可扩展到其他使用CycleGAN模型的任务中。

下面对发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

近年来，语音转换(VC)引起了越来越多研究的关注。已经提出了许多成功的方法来改善VC性能。VC可以根据数据条件分为两个任务，平行VC和非平行VC。

平行VC技术专注于使用平行数据开发映射函数。在传统的VC方法中，使用动态时间规整(DTW)算法对源话语和目标话语进行对齐。使用不同的声学模型学习源和目标话语之间的映射关系，如高斯混合模型 (GMM)，人工神经网络(ANNs)，深度神经网络(DNNs)，递归神经网络(RNNs)，DMDN和序列到序列(Seq2Seq)。最近还提出了没有 DTW对齐的方法。

由于这种平行数据并不总是在实际应用中可用，因此已经开发了一些方法来实现非平行VC，例如循环一致性对抗网络(CycleGAN)，变分自动编码器(VAE)，基于音素后验概率(PPG)的方法，基于参考说话人的方法和Sequence-to-Sequence(Seq2Seq)。其中，CycleGAN-VC同时学习两个语音转换模型。这些方法显著改善了非平行VC任务的自然性和相似性。

尽管有上述进步，但现有的无监督非平行语音转换方法的转换语音质量还不够令人满意。最近的研究表明，Mel-spectrogram(Msp，梅尔频谱) 声学特征和基于Mel-spectrogram的WaveNet声码器可以在文本到语音 (TTS)和平行VC中生成高质量的语音，这表明了Msp在声学表示中相比Mel广义倒谱(Mgc)的优越性。然而，作为包含比Mgc更多信息的频谱特征，Msp的抗噪声性还尚未研究。特别是在无监督学习中，并没有对应的标签来准确描述目标特征，有噪声的Msp可能对WaveNet性能产生不利影响，这对特征建模提出了更高的要求。

在本文中，我们提出基于Msp的半优化循环一致性对抗网络(半优化 CycleGAN)用于非平行VC的无监督学习。在半优化的CycleGAN中，两个生成器没有一致优化，每个周期只更新一个模型。该方法通过去除部分优化过程来提高转换性能，我们发现该过程对于带有噪声标签的模型学习是有害的。由于最近的研究，我们使用Msp而不是Mgc作为声学特征。基于Msp的Wavenet用作声码器。为了提高模型对音高建模和转换的能力，我们在输入和标签中使用基频(F0)作为Msp的辅助特征。客观和主观实验表明，我们提出的方法不仅能够用Msp和WaveNet声码器生成高质量的转换语音，而且能够转换比线性变换更精确的音高曲线。

CycleGAN和WaveNet声码器

周期一致的对抗网络(CycleGAN)

周期一致的对抗网络(CycleGAN)适用于许多任务，如图像到图像转换，图像生成和语音转换。这些任务通常具有主要任务和相应的对偶任务。

在CycleGAN中，同时学习两个映射GX→Y和GY→X。X和Y分别是源域和目标域。使用两个损失来学习每个映射，即对抗性损失和循环一致性损失。对于循环一致性丢失，来自域X的每个x可以通过循环恢复到 x。这种损失函数可表示为：

循环一致性损失显著减少了可能的映射函数的空间，并使模型更容易训练。在训练阶段，在前几次迭代中使用身份映射损失来缩小映射函数的空间。当将Mgc特征转换为声学特征时，它还有助于保留语言信息。

WaveNet声码器

WaveNet是一种直接在原始波形上运行的自回归和概率生成模型。该模型预测了以前所有音频样本为条件的每个音频样本的分布。应用因果扩张卷积层和门控激活单元以实现长期依赖性。给定一个额外的输入， WaveNet可以为给定此输入的音频的条件分布建模。WaveNet声码器来源于带有局部条件的WaveNet模型，其中每层的计算是：

其中y，z是输入和输出向量，k表示层索引，f和g分别代表滤波器和门，W_f，k，W_g，k，和是可训练的权重矩阵，*表示卷积运算符，⊙是元素乘法运算符，σ()表示sigmoid函数，h表示局部条件特征向量。在WaveNet声码器中，局部条件h是声学特征，例如Mgc， F0，Aperiodic和Msp。Msp是语音波形的低级声学表示。最近，基于Msp 的WaveNet声码器在平行VC任务和TTS中获得了令人满意的性能。

传统CycleGAN中最不可或缺的部分是循环一致性损失，这使得两个生成器模型更容易训练。在训练阶段，循环一致性沿两个生成器先后传递，这两个生成器的参数同时更新。在这种设置中，我们发现转换后的波形通常包含噪声和低说话人相似性，从而导致低语音质量。我们解决这个问题如下。

继续参考图1a和图1b，图1a示出了传统CycleGAN中生成器GX→Y 的数据流。图1b示出了传统CycleGAN和半优化CycleGAN之间的周期一致性损失比较。

在图1a中，我们可以看到传统CycleGAN中每个生成器有四个数据流。在四个数据流中，(a)和(b)都来自循环一致性损失。(c)和(d) 分别来自对抗性损失和身份损失。这里我们考虑一个单一的生成器(例如 GX→Y)。从这个角度来看，我们可以注意到，在(b)和(d)中，生成器的输出都有一个真实标签来计算损失；然而，在(a)和(c)中，没有用于生成器输出的真实标签，并且输出损失是沿着数据流从下一个模型间接计算的。对于数据流(c)，鉴别器以对抗方式进行训练，其中鉴别器计算梯度以将y转换为接近真实样本。因此，y的真实标签由鉴别器近似生成。然而，与(c)不同，在数据流(a)中难以通过GY→X获得y的真实标签。一方面，GY→X是一种生成模型，无法计算梯度来更新接近真实样本的假输入。另一方面，身份损失训练(d)可能误导GY→X使y接近x，这对GX→Y训练有害。与其益处相比，数据流(a)将给生成器带来更多负面影响。因此，我们修改周期一致性损失以消除数据流(a)的影响，如图1b所示。这里，两个生成器都沿着每个周期前进，而只有第二个生成器是计算梯度和优化的，我们称之为半优化。在我们的实验中，我们发现这可以显著降低噪音并提高语音相似度和自然度。

Mel谱图和辅助特征

与传统的VC中常用的Mgc不同,Msp不仅包含语言特征和说话人身份信息，还包含音调信息。音高与语音的可懂度密切相关。因此，模型不容易隐式地转换音高。在我们之前的实验中，转换后的Msp语音通常会出现音调错误问题，特别是对于男性对男性的说话人。为了解决这个问题，我们使用辅助特征作为第二个任务来帮助模型学习音高关系。Msp和连续对数基频(lf0)都是从源波形和目标波形中提取的。我们将两个声学特征连接在一起，然后将它们提供给生成器以同时转换这两个特征。在转换阶段，从源语音分析这两个特征，然后一起转换。但是，只有转换的Msp 用作WaveNet的条件才能生成波形。在我们的实验中，F0辅助特征显著缓解了音调错误问题。

实验

实验设置

这些实验是在四位专业普通话人的普通话语音数据集上进行的。其中两个是男性，另外两个是女性。每个发言者的语音数据分为训练集，开发集和测试集，每个都有2000个句子。每两个发言者的训练集是不平行的。波形以16kHz采样。对数F0由WORLD声码器提取。80维度Mel频谱特征用5ms帧移提取。注意，在分析Msp时，Tacotron2和平行VC使用12.5ms 帧移。我们发现此设置会导致我们的实验中出现发音丢失问题。转换语音中的一些短语或音素发音不完整。在我们的实验中，我们将Msp帧移设置为5ms，这显著改善了这个问题。

在我们的实验中，首先根据每个说话人的训练数据训练与说话人相关的WaveNet声码器。该模型有24层，分为4层。残差连接和门控层的隐藏单元为512，输出层的跳过连接为256。对于半优化的CycleGAN，我们构建了基于网络架构的模型。由于Msp相比Mgc更高的维度，我们将生成器中残差块的数量和所有卷积层的通道加倍。为了平衡生成器和鉴别器之间的对抗训练，我们修改了四个降采样卷积层的通道,从 128,256,512,1024到64,64,64,64，我们发现它们具有更好的性能。为了提高模型的鲁棒性，我们使用了从训练数据中随机裁剪128帧的策略。使用批量大小为4的Adam优化器训练网络。生成器和鉴别器的初始学习率分别为0.01和0.005，并且不使用学习速率调度器。我们以350k的迭代次数训练了我们的模型。身份丢失仅在前10k次迭代中使用。在转换阶段，我们重叠采样128帧片段并进行转换,每个转换段的中间用于最终拼接。

客观评价

在这些实验中，我们首先关注半优化CycleGAN的Mel谱图。为了估计半优化机制对模型训练阶段的影响，我们在CycleGAN训练期间记录了转换特征与相应平行目标特征之间的Mel谱图距离(msd)。在计算msd 之前，应用DTW来对齐20个平行的话语。我们将半优化的CycleGAN与传统的CycleGAN进行了对比。实验结果如图4a和图4b所示。图4a和图4b示出了训练期间传统CycleGAN和半优化CycleGAN之间Msp距离的比较。我们可以看到由所提出的模型转换的Mel谱图最接近目标特征，这证实了所提出方法的有效性。

图5示出了转换语音中F0的分布。

对于F0评估，我们将我们提出的方法与传统的线性变换进行了比较。在我们的实验中，原始的F0轨迹和我们提出的方法都由WORLD提取。对于线性变换，根据训练数据计算平均值和标准方差。我们在图5中显示了F0轨迹样本。图4显示了源，目标，提出的方法和线性变换方法之间的F0分布的比较。表1显示了均方误差(MSE)，目标F0和转换F0之间的平均值和标准差的比较。这些结果表明，与线性变换方法相比，通过我们的方法获得的基频轮廓最接近目标。我们期望这是因为(1)Msp通过学习源Msp和目标Msp之间的内部映射来实现F0隐式转换，这可以提供比线性变换更精确和复杂的F0转换，以及(2)辅助特征可以帮助学习隐式表示F0，进一步提高了音高转换能力。

图6示出了F0轨迹的比较(女性与男性)。

表1：MSE，目标和转换的F0之间的平均值和标准偏差的比较。M， S，T，L和P分别表示方法，源F0，目标F0，线性变换转换F0和所提出系统转换F0。

主观评价

我们进行了听音测试以评估转换语音的性能。所有听音测试均在同性别和跨性别进行。测试集中的10个句子用于听力测试。在每次测试中，每个句子都会呈现给至少6名听众。听众都是普通话母语人士。我们将我们提出的方法与不同的系统进行了比较。实验集列表如下：

·N：自然语言

·Re：自然Mel-spectrogram+WaveNet

·B：Mel-cepstrum+传统的CycleGAN+World

(基线)

·P：Mel-spectrumogram+F0辅助特征+半优化CycleGAN+WaveNet

·P w/o SoCycleGAN：Mel-spectrumogram+F0辅助特征+传统的 CycleGAN+WaveNet

·P w/o F0：Mel-spectrumogram+半优化Cycle-GAN+WaveNet

为了测量自然度，我们进行了平均主观得分(MOS)测试。N和Re 分别用作我们系统的参考和上界。此外，我们还使用相同的实验配置，使用所提出的模型测量了500,200,100个句子的小训练数据集的性能。为了衡量说话人的相似性，我们进行了相同/不同的测试。不同系统的转换语音以随机顺序与来自目标说话人的自然语音一起提供给听众。

图7a和图7b显示了MOS测试的结果。将P与P w/o SeCycleGAN 进行比较，可以确定半优化CycleGAN的自然度改善；我们还可以看到比较P的F0辅助特征的自然性改善。

图8a、图8b、图8c和图8d示出了四个说话人对中与目标说话人的相似性的比较。

和P w/o F0，特别是在男性对男性的说话人中，它具有最严重的音调误差问题。图7a和图7b显示了在不同的训练数据量限制下所提出的方法的性能。我们可以看到，所提出的方法可以在至少500个句子非平行数据集上获得转换语音的高自然性。相似性测试的结果如图8a、图8b、图 8c和图8d所示。我们可以看到，在四个说话人对中，所提出的方法与基线系统相比具有更好的相似性。

结论

本文介绍了半优化的CycleGAN，它允许在非平行VC任务中使用基于Mel谱图的WaveNet生成高质量的语音。辅助特征F0用作转换模型的第二个任务。实验表明，所提出的方法在自然性和相似性方面均优于传统的CycleGAN和传统声码器。在未来的工作中，我们计划将此架构应用于更复杂的VC任务，例如富有表现力的VC和跨语言VC。

音频示例网站：

“https://softrime.github.io/High-quality-Non-parallel-Voice-Conversion -Using-Mel-spectrogram-based-Semi-optimized-CycleGAN/index.html”

请参考图9，其示出了本发明一实施例提供的半优化CycleGAN模型的语音转换装置的框图。

如图9所示，半优化CycleGAN模型的语音转换装置900，包括第一提取模块910、拼接模块920、训练模块930、第二提取模块940和生成模块950。

其中，第一提取模块910，配置为从待转换音频中提取梅尔频谱和基频；拼接模块920，配置为将所述基频作为辅助特征与所述梅尔频谱进行拼接；训练模块930，配置为将拼接后的特征同时作为输入和输出对根据权利要求1所述的半优化CycleGAN模型进行训练；第二提取模块940，配置为提取训练后的半优化CycleGAN模型输出中的梅尔频谱；以及生成模块950，配置为基于所述输出中的梅尔频谱生成待转换音频的波形。

应当理解，图9中记载的诸模块与参考图中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图9中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如模板生成模块可以描述为对每个字对应的语音段分别提取高斯后验特征，并基于每个语音段的高斯后验特征生成整个注册语音的特征模板的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如苏模板生成模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的半优化CycleGAN模型的语音转换方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

从待转换音频中提取梅尔频谱和基频；

将所述基频作为辅助特征与所述梅尔频谱进行拼接；

将拼接后的特征同时作为输入和输出标签对根据权利要求1所述的半优化CycleGAN模型进行训练；

提取训练后的半优化CycleGAN模型输出中的梅尔频谱；

基于所述输出中的梅尔频谱生成待转换音频的波形。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据半优化CycleGAN模型的语音转换装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至半优化CycleGAN模型的语音转换装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项半优化 CycleGAN模型的语音转换方法。

图10是本发明实施例提供的电子设备的结构示意图，如图10所示，该设备包括：一个或多个处理器1010以及存储器1020，图10中以一个处理器1010为例。半优化CycleGAN模型的语音转换方法的设备还可以包括：输入装置1030和输出装置1040。处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接，图10中以通过总线连接为例。存储器1020为上述的非易失性计算机可读存储介质。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例半优化CycleGAN模型的语音转换方法。输入装置1030可接收输入的数字或字符信息，以及产生与半优化CycleGAN模型的语音转换装置的用户设置以及功能控制有关的键信号输入。输出装置1040可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于半优化CycleGAN模型的语音转换装置中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

从待转换音频中提取梅尔频谱和基频；

将所述基频作为辅助特征与所述梅尔频谱进行拼接；

提取训练后的半优化CycleGAN模型输出中的梅尔频谱；

基于所述输出中的梅尔频谱生成待转换音频的波形。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和 UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种半优化CycleGAN模型，包括两个生成器、两个判别器、判别损失函数、身份损失函数和循环一致性损失函数，其中：

在循环一致性损失函数的每一个周期的梯度回传阶段，对级联的两个生成器，保持前一个生成器不变，仅对后一个生成器进行计算和更新。

2.一种半优化CycleGAN模型的语音转换方法，包括：

从待转换音频中提取梅尔频谱和基频；

将所述基频作为辅助特征与所述梅尔频谱进行拼接；

提取训练后的半优化CycleGAN模型输出中的梅尔频谱；

基于所述输出中的梅尔频谱生成待转换音频的波形。

3.根据权利要求2所述的方法，其中，所述基于所述输出中的梅尔频谱生成待转换音频的波形包括：

使用梅尔频谱训练WaveNet波形生成器；

仅提取所述训练后的半优化CycleGAN模型的输出中的梅尔频谱输入至训练后的WaveNet波形生成器生成波形。

4.根据权利要求3所述的方法，其中，所述WaveNet波形生成器每层的计算公式如下：

其中，x，z是输入和输出向量，k表示层索引，f和g分别代表滤波器和门，W_f，k，W_g，k，和是可训练的权重矩阵，*表示卷积运算符，⊙是元素乘法运算符，σ()表示sigmoid函数，h表示局部条件特征向量。

5.根据权利要求4所述的方法，其中，h是声学特征，包括Mgc，F0，Aperiodic和Msp其中任一。

6.一种半优化CycleGAN模型的语音转换装置，包括：

第一提取模块，配置为从待转换音频中提取梅尔频谱和基频；

拼接模块，配置为将所述基频作为辅助特征与所述梅尔频谱进行拼接；

训练模块，配置为将拼接后的特征同时作为输入和输出对根据权利要求1所述的半优化CycleGAN模型进行训练；

第二提取模块，配置为提取训练后的半优化CycleGAN模型输出中的梅尔频谱；

生成模块，配置为基于所述输出中的梅尔频谱生成待转换音频的波形。

7.根据权利要求6所述的装置，其中，所述生成模块配置为：

使用梅尔频谱训练WaveNet波形生成器；

8.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。