CN110459232A

CN110459232A - 一种基于循环生成对抗网络的语音转换方法

Info

Publication number: CN110459232A
Application number: CN201910669055.4A
Authority: CN
Inventors: 吴哲夫; 陈明达
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-11-15

Abstract

一种基于循环生成对抗网络的语音转换方法，获取源说话人与目标说话人的语料库并将所有的音频统一为固定比特；按照设定的比例分成训练集、测试集和验证集；使用WORLD模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp；将sp送入到CycleGAN模型中训练；模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp，并对f0做线性变换，ap不做任何处理，sp传入训练好的CycleGAN模型当中转换并输出；合成语音转换后的音频。本发明改善先前技术中语音转换的质量，并且无需并行数据集就可以实现高质量的语音转换。

Description

一种基于循环生成对抗网络的语音转换方法

技术领域

本发明涉及语音转换技术，特别是一种基于循环生成对抗网络的语音转换方法。

背景技术

语音转换是一种用于修改源说话者语音信号以匹配目标说话者语音信号的技术，使之具有目标说话人的语音特征但同时保持语音信息不变。语音转换的主要任务包括提取代表说话人个性的特征参数并进行转换，然后将转换之后的参数重构成语音。这一过程既要保证转换后语音的清晰度，又要保证转换后语音特征的相似度。

语音转换的目标是找到源说话人和目标说话人的语音特征之间的映射。矢量量化，高斯混合模型和人工神经网络都是典型的语音转换方法。但是包括上述方法在内的很多方法都需要使用源和目标说话人的时间对齐的并行数据作为训练数据。但是对齐的过程也耗费了时间，并且对齐也不是完全正确的，在对齐的过程中可能还会引入别的错误。

在非并行的语音数据中，训练数据由不同的语言内容组成，因为不共享语言特征，因此自动匹配两个说话人的语音特征便更加困难。

发明内容

为了克服已有语音转换方法的质量较低的不足,本发明提供了一种基于循环生成对抗网络的语音转换方法，目的是改善先前技术中语音转换的质量，并且无需并行数据集就可以实现高质量的语音转换。

本发明解决其技术问题所采用的技术方案是：

一种基于循环生成对抗网络的语音转换方法，包括以下步骤：

步骤1：获取源说话人与目标说话人的语料库并将所有的音频统一为固定比特；

步骤2：按照设定的比例分别将源说话人与目标说话人的数据集分成训练集、测试集和验证集；

步骤3：使用WORLD模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp；

步骤4：将源说话者和目标说话者的功率谱参数sp送入到CycleGAN模型中训练；

步骤5：模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp，并对f0做线性变换，ap不做任何处理，sp传入训练好的CycleGAN模型当中转换并输出；

步骤6：使用WORLD将步骤5中的f0、ap和sp合成语音转换后的音频，若转换效果良好，音质清晰，则保存训练好的CycleGAN模型；

步骤7：使用WORLD提取源说话人测试集语音的基频信息f0、非周期分量 ap和平滑功率谱参数sp。对f0做与步骤5相同的线性变换，ap不做任何处理， sp传入步骤6保存好的CycleGAN模型中进行转换；

步骤8：使用WORLD将步骤7中的f0、ap和sp合成语音并输出。

进一步，所述步骤4中，功率谱参数送入CycleGAN之前，需要使用WORLD 对其进行编码，降低维度之后再传入网络模型。

再进一步，所述步骤5中,sp传入训练好的CycleGAN网络模型进行转换输出之后，要对sp进行解码操作，以恢复之前的维度。

所述步骤5中，f0的线性变换，其变换公式为：

f0_new表示线性变换后的基频信息，f0_x、μ_x和分别表示源说话人基频信息、源说话人基频信息的均值与方差，μ_y和分别表示目标说话人基频信息的均值与方差。

更进一步，所述步骤5中，所述的CycleGAN模型的训练指标由CycleGAN 损失函数决定；其中CycleGAN的损失函数由三部分构成，分别是对抗性损失、循环一致性损失和身份映射损失；对抗性损失表示为：

其中，表示期望,x表示源说话人语音数据，y表示目标说话人语音数据， x～P_Data(x)和y～P_Data(y)分别表示x和y来自源说话人数据集P_Data(x)和目标说话人数据集P_Data(y)。G_X→Y为生成器，表示从源说话人到目标说话人的的映射关系，输入源说话人语音数据，生成的具有目标说话人特征的源说话人语音数据，D_Y表示鉴别器，用于判断输入的数据真实的y还是由生成器生成的虚假的数据；生成器 G_X→Y试图通过最小化对抗性损失来生成假数据，使得D_Y无法鉴别，而D_Y试图通过最大化该损失而不被生成器G_X→Y欺骗。

循环一致性损失的表示为:

其中，表示期望，||·||₁为L1正则化，G_X→Y为生成器，表示从源说话人到目标说话人的的映射关系，输入源说话人语音数据，生成的具有目标说话人特征的源说话人语音数据，G_Y→X为另一个生成器，表示从目标说话人到源说话人的映射关系，输入目标说话人语音数据，生成具有源说话人特征的语音数据。

身份映射损失的表示为:

本发明中，提高非并行语音转换性能的一种潜在方法就是使用循环生成对抗网络(CycleGAN)。CycleGAN可以学习从源说话人到目标说话人以及目标说话人到源说话人的双向映射，而且不依赖并行数据，相比于传统语音转换方法还避免了过渡平滑的情况。CycleGAN使用对抗性损失和循环一致性损失同时学习正向映射和反向映射，并且对抗性损失有助于减少转换后特征序列的过度平滑现象，同时加入了身份映射损失，尽可能的保留语言信息。

本发明的有益效果主要表现在：1.相比传统的语音转换方法，特征转换效果更好，转换后的语音质量更佳；2.因为循环生成对抗网络的特性，一次训练便可以实现从源说话人到目标话人的特征转换和从目标说话人到源说话人的转换；3. 不用依赖并行数据集便可以实现高质量的语音转换。

附图说明

图1是本发明涉及的系统的训练部分流程图；

图2是本发明涉及的系统的转换部分流程图；

图3是本发明的循环生成对抗网络的系统框图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于循环生成对抗网络的语音转换方法，具体步骤如下：

步骤1：获取源说话人与目标说话人的语料库，这里采用了vcc2016(voiceconversion challenge2016)提供的开源语料库，并将所有的音频统一为64比特；

步骤2：按照6:2:2的比例分别将源说话人与目标说话人的数据集分成训练集、测试集和验证集；

步骤3：确定采样频率与平滑功率谱参数的维度数等参数之后使用WORLD 模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp；

步骤4：对源说话者和目标说话者的功率谱参数sp做降维处理之后送入到CycleGAN模型中训练；

步骤5：模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp，并对f0做线性变换，ap不做任何处理，sp传入训练好的CycleGAN模型当中转换并输出，输出的sp做解码处理以恢复之前的维度；

步骤6：使用WORLD步骤5中的f0、ap和sp合成语音转换后的音频，若转换效果良好，音质清晰，则保存训练好的CycleGAN模型；

步骤7：CycleGAN一次训练可以实现源到目标说话人和目标到源说话人的双向转换，所以先确定语音转换方向，默认设置为源到目标的转换。使用WORLD 提取源说话人测试集语音的基频信息f0、非周期分量ap和平滑功率谱参数sp，对f0做与步骤5相同的线性变换，ap不做任何处理，sp传入步骤6保存好的 CycleGAN模型中进行转换；

步骤8：使用WORLD将步骤7中的f0、ap和sp合成语音并输出。

所述步骤5中，f0的线性变换，其变换公式为：

更进一步，所述步骤5中，所述的CycleGAN模型的训练指标由CycleGAN 损失函数决定；参照图3，其中CycleGAN的损失函数由三部分构成，分别是对抗性损失、循环一致性损失和身份映射损失；对抗性损失表示为：

其中，表示期望,x表示源说话人语音数据，y表示目标说话人语音数据， x～P_Data(x)和y～P_Data(y)分别表示x和y来自源说话人数据集P_Data(x)和目标说话人数据集P_Data(y)。G_X→Y为生成器，表示从源说话人到目标说话人的的映射关系，输入源说话人语音数据，生成的具有目标说话人特征的源说话人语音数据，D_Y表示鉴别器，用于判断输入的数据真实的y还是由生成器生成的虚假的数据；生成器 G_X→Y试图通过最小化对抗性损失来生成假数据，使得D_Y无法鉴别，而D_Y试图通过最大化该损失而不被生成器G_X→Y欺骗；

仅优化对抗性损失不一定能保证x和G_X→Y(x)的上下文信息是一致的。这是因为对抗性损失只告诉我们G_X→Y(x)是否遵循目标数据分布但是对保留x的上下文信息没有帮助，所以引入了循环一致性损失。循环一致性损失的表示为:

其中，表示期望，||·||₁为L1正则化，G_X→Y为生成器，表示从源说话人到目标说话人的的映射关系，输入源说话人语音数据，生成的具有目标说话人特征的源说话人语音数据，G_Y→X为另一个生成器，表示从目标说话人到源说话人的映射关系，输入目标说话人语音数据，生成具有源说话人特征的语音数据。对于 G_Y→X(G_X→Y(x)),生成器G_Y→X接受的数据是G_X→Y(x)，其是来自生成器G_X→Y生成的具有目标说话人特征的源说话人语音数据，G_Y→X再利用这个虚假的数据生成具有源说话人特征的语音数据，对于G_X→Y(G_Y→X(y))同理。

更进一步，尽管循环一致性损失会对网络结构起到约束的作用，但其并不足以保证映射关系始终能够保留语言信息。为了使语言信息保存而不依赖额外的模块且可以是CycleGAN的语音转换不依赖于并行数据集，这里引入了身份映射损失。身份映射损失的表示为:

针对本发明使用的CycleGAN网络模型，待训练迭代次数达到35万次以上时，损失函数基本下降到最低或者是无明显变化，此时标志着模型训练完成，可以验证训练效果。验证结果之后如果转换效果明显，音质清晰便保存模型。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理.凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于循环生成对抗网络的语音转换方法，其特征在于，所述方法包括以下步骤：

步骤7：使用WORLD提取源说话人测试集语音的基频信息f0、非周期分量ap和平滑功率谱参数sp，对f0做与步骤5相同的线性变换，ap不做任何处理，sp传入步骤6保存好的CycleGAN模型中进行转换；

步骤8：使用WORLD将步骤7中的f0、ap和sp合成语音并输出。

2.如权利要求1所述的一种基于循环生成对抗网络的语音转换方法，其特征在于，所述步骤4中，功率谱参数送入CycleGAN之前，需要使用WORLD对其进行编码，降低维度之后再传入网络模型。

3.如权利要求1或2所述的一种基于循环生成对抗网络的语音转换方法，其特征在于，所述步骤5中,sp传入训练好的CycleGAN网络模型进行转换输出之后，要对sp进行解码操作，以恢复之前的维度。

4.如权利要求1或2所述的一种基于循环生成对抗网络的语音转换方法，其特征在于，所述步骤5中，f0的线性变换，其变换公式为：

5.如权利要求1或2所述的一种基于循环生成对抗网络的语音转换方法，其特征在于，所述步骤5中，所述的CycleGAN模型的训练指标由CycleGAN损失函数决定；其中CycleGAN的损失函数由三部分构成，分别是对抗性损失、循环一致性损失和身份映射损失；对抗性损失表示为：

其中，表示期望,x表示源说话人语音数据，y表示目标说话人语音数据，x～P_Data(x)和y～P_Data(y)分别表示x和y来自源说话人数据集P_Data(x)和目标说话人数据集P_Data(y)。G_X→Y为生成器，表示从源说话人到目标说话人的的映射关系，输入源说话人语音数据，生成的具有目标说话人特征的源说话人语音数据，D_Y表示鉴别器，用于判断输入的数据真实的y还是由生成器生成的虚假的数据；生成器G_X→Y试图通过最小化对抗性损失来生成假数据，使得D_Y无法鉴别，而D_Y试图通过最大化该损失而不被生成器G_X→Y欺骗；

循环一致性损失的表示为:

身份映射损失的表示为: