CN112037757A

CN112037757A - 一种歌声合成方法、设备及计算机可读存储介质

Info

Publication number: CN112037757A
Application number: CN202010920722.4A
Authority: CN
Inventors: 庄晓滨
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-12-04
Anticipated expiration: 2040-09-04
Also published as: CN112037757B

Abstract

本申请公开了一种歌声合成方法、设备及计算机介质，获取待合成的目标歌声的目标文本信息；获取目标歌声对应的参考歌声信息；在参考歌声信息中提取出目标基频信息；将目标文本信息转化为目标音素序列；确定目标音素序列中各个音素的位置信息，得到目标位置序列；将目标音素序列及目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数；基于目标基频信息、目标频谱包络参数和目标非周期参数合成目标歌声。本申请中，合成目标歌声时应用的参数少，合成效率高；此外，目标频率包络参数和目标非周期参数反映了声学特征，目标基频信息反映了真实的发音信息，可以使得合成歌声更加真实、自然，歌声合成质量高。

Description

一种歌声合成方法、设备及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，更具体地说，涉及一种歌声合成方法、设备及计算机可读存储介质。

背景技术

随着信息技术的发展，语音合成的应用场景也越来越广泛，比如利用语音合成技术合成机器人的语言、合成人工AI(Artificial Intelligence，人工智能)的语言等，随着深度学习技术的快速发展，语音合成技术得到了长足发展，合成的语音和音质和自然度上趋于真实人发音的水平。但歌声合成技术的发展比较缓慢，比如基于语音拼接来合成歌声，此外，发明人发现采用语音拼接来合成歌声的话，至少存在如下问题：需要大量的语料库，歌声合成效率及质量较低。

综上所述，如何提高歌声合成的效率及质量是目前本领域技术人员亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种歌声合成方法、装置、电子设备及计算机可读存储介质，能够有效提高歌声合成的效率及质量。其具体方案如下：

第一方面，本申请公开了一种歌声合成方法，包括：

获取待合成的目标歌声的目标文本信息；

获取所述目标歌声对应的参考歌声信息；

在所述参考歌声信息中提取出目标基频信息；

将所述目标文本信息转化为目标音素序列；

确定所述目标音素序列中各个音素的位置信息，得到目标位置序列；

将所述目标音素序列及所述目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数；

基于所述目标基频信息、所述目标频谱包络参数和所述目标非周期参数合成所述目标歌声。

可选的，所述将所述目标音素序列及所述目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数之前，还包括：

获取训练歌声及所述训练歌声的训练文本信息；

对所述训练歌声进行声学参数提取，得到训练频谱包络参数和训练非周期参数；

将所述训练文本信息转化为训练音素序列；

确定所述训练音素序列中各个音素的位置信息，得到训练位置序列；

将所述训练音素序列和所述训练位置序列作为所述声学参数预测模型的输入，将所述训练频谱包络参数和所述训练非周期参数作为所述声学参数预测模型的输出，对所述声学参数预测模型进行训练，得到训练好的所述声学参数预测模型。

可选的，所述对所述训练歌声进行声学参数提取，得到训练频谱包络参数和训练非周期参数，包括：

对所述训练歌声进行分帧，得到分帧信号；

对所述分帧信号进行声学参数提取，得到所述训练频谱包络参数和所述训练周期参数。

可选的，所述将所述训练文本信息转化为训练音素序列，包括：

对所述训练文本信息的发音信息进行音素转换，得到第一音素序列；

对所述第一音素序列中的音素进行拓展，得到音素与所述分帧信号中的声学特征一一对应的所述训练音素序列。

可选的，所述将所述目标文本信息转化为目标音素序列，包括：

对所述目标文本信息的发音信息进行音素转换，得到第二音素序列；

调整所述参考歌声信息中的发音长度，得到音频和所述第二音素序列中的音素相对应的调整歌声信息；

对所述第二音素序列中的音素进行拓展，得到音素与所述调整歌声信息中的声学特征一一对应的所述目标音素序列。

可选的，所述确定所述训练音素序列中各个音素的位置信息，包括：

判断所述训练音素序列中的待确定音素是否为连续重复音素；

若所述待确定音素为连续重复音素，则确定所述待确定音素的连续重复总次数及实时连续重复次数，将所述实时连续重复次数与所述连续重复总次数的比值确定为所述待确定音素的位置信息；

若所述待确定音素并非连续重复音素，则将所述待确定音素的实时连续重复次数作为所述待确定音素的位置信息。

可选的，所述将所述训练音素序列和所述训练位置序列作为所述声学参数预测模型的输入，包括：

对所述训练音素序列中的音素进行向量转换，得到训练向量序列；

将所述训练向量序列和所述训练位置序列进行拼接，得到训练条件序列；

将所述训练条件序列作为所述声学参数预测模型的输入。

可选的，所述对所述训练音素序列中的音素进行向量转换，得到训练向量序列，包括：

基于词嵌入方法，对所述训练音素序列中的音素进行向量转换，得到所述训练向量序列。

可选的，所述在所述参考歌声信息中提取出目标基频信息，包括：

在所述参考歌声信息中，确定基频准确度高于预设值的参考干声；

对所述参考干声进行基频提取，得到所述目标基频信息。

可选的，所述基于所述目标基频信息、所述目标频谱包络参数和所述目标非周期参数合成所述目标歌声，包括：

基于所述目标基频信息、所述目标频谱包络参数、所述目标非周期参数和声码器模型合成所述目标歌声。

第二方面，本申请公开了一种歌声合成装置，包括：

目标文本信息获取模块，用于获取待合成的目标歌声的目标文本信息；

参考歌声信息获取模块，用于获取所述目标歌声对应的参考歌声信息；

目标基频信息获取模块，用于在所述参考歌声信息中提取出目标基频信息；

目标音素序列转换模块，用于将所述目标文本信息转化为目标音素序列；

目标位置序列确定模块，用于确定所述目标音素序列中各个音素的位置信息，得到目标位置序列；

声学参数获取模块，用于将所述目标音素序列及所述目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数；

歌声合成模块，用于基于所述目标基频信息、所述目标频谱包络参数和所述目标非周期参数合成所述目标歌声。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一所述歌声合成方法。

第四方面，本申请公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述歌声合成方法。

本申请提供的一种歌声合成方法，获取待合成的目标歌声的目标文本信息；获取目标歌声对应的参考歌声信息；在参考歌声信息中提取出目标基频信息；将目标文本信息转化为目标音素序列；确定目标音素序列中各个音素的位置信息，得到目标位置序列；将目标音素序列及目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数；基于目标基频信息、目标频谱包络参数和目标非周期参数合成目标歌声。本申请中，只需借助目标基频信息、目标频谱包络参数和目标非周期参数即可合成目标歌声，合成目标歌声时应用的参数少，可以提高合成效率；此外，由于目标音素序列表征了音素自身信息，目标位置序列表征了音素的位置信息，所以借助目标音素序列和目标位置序列可以详细表征目标歌声的音素信息，并且可以借助声学参数预测模型将目标音素序列和目标位置序列转换为目标歌声的声学参数，也即转换为目标频率包络参数和目标非周期参数，再者，因为目标基频信息是从参考歌声信息中提取出来的，所以目标基频信息可以反映真实的发音信息，进而可以使得合成歌声更加真实、自然，歌声合成质量高。本申请提供的一种歌声合成装置、电子设备及计算机可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的异常显示检测方案所适用的系统框架示意图；

图2为本申请实施例提供的一种歌声合成方法流程图；

图3为频谱包络的示意图；

图4为本申请歌声合成方法中声学参数预测模型的训练流程图；

图5为声学参数预测模型的结构示意图；

图6为本申请歌声合成方法中声学参数预测模型的另一训练流程图；

图7为本申请歌声合成方法的另一流程图；

图8为本申请歌声合成方法中声学参数预测模型的另一训练流程图；

图9为本申请歌声合成方法中声学参数预测模型的另一训练流程图；

图10为本申请提供的一种歌声合成装置结构示意图；

图11为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着信息技术的发展，语音合成的应用场景也越来越广泛，比如利用语音合成技术合成机器人的语言、合成人工AI(Artificial Intelligence，人工智能)的语言等，随着深度学习技术的快速发展，语音合成技术得到了长足发展，合成的语音和音质和自然度上趋于真实人发音的水平。但歌声合成技术的发展比较缓慢，比如基于语音拼接来合成歌声，此外，发明人发现采用语音拼接来合成歌声的话，至少存在如下问题：需要大量的语料库，歌声合成效率及质量较低。为了克服上述技术问题，本申请提供了一种歌声合成方法，能够提高歌声合成的效率及质量。

本申请的歌声合成方案中，采用的系统框架具体可以参见图1所示，具体可以包括：后台服务器01和与后台服务器01建立通信连接的若干数量的用户端02。

本申请中，后台服务器01用于执行歌声合成方法步骤，包括获取待合成的目标歌声的目标文本信息；获取目标歌声对应的参考歌声信息；在参考歌声信息中提取出目标基频信息；将目标文本信息转化为目标音素序列；确定目标音素序列中各个音素的位置信息，得到目标位置序列；将目标音素序列及目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数；基于目标基频信息、目标频谱包络参数和目标非周期参数合成目标歌声。

进一步的，后台服务器01中还可以设有文本信息数据库、歌声数据库、基频信息数据库以及声学特征数据库。其中，文本信息数据库用于保存各种歌声文本信息，如歌声合成过程中生成的目标文本信息，用于声学参数预测模型训练的训练文本信息等。歌声数据库中具体可以用于保存各种歌声，比如歌声合成过程中应用的参考歌声信息、用于声学参数预测模型训练的训练歌声信息、合成的目标歌声等。基频信息数据库中具体用于保存歌声合成过程中提取出的基频信息。声学特征数据库用于保存声学特征参数，比如频谱包络参数和非周期参数等，具体的，比如歌声合成过程中应用的目标频谱包络参数、目标非周期参数，声学参数预测模型训练过程中应用的训练频谱包络参数、训练非周期参数。可以理解的是，经过本申请的歌声合成方案生成的目标歌声、及目标歌声的目标文本信息等可以用于声学参数预测模型的训练。这样一来，当后台服务器01接收到用户端02针对声学参数预测模型的训练请求之后，可以借助历史生成的目标歌声及目标歌声的相应信息对声学参数预测模型进行训练。

当然，本申请也可以将上述文本信息数据库等数据库设置在第三方的业务服务器中，通过上述业务服务器可以专门收集业务端上传的文本信息等数据。如此一来，当后台服务器01需要使用数据库时，可以通过向上述业务服务器发起相应的数据库调用请求的方式来获取相应的数据。

本申请中，后台服务器01可以对一个或多个用户端02的歌声合成请求进行响应，可以理解的是，本申请不同的用户端02所发起的歌声合成请求，可以是针对同一个歌声的合成请求，也可以是针对不同歌声发起的合成请求。当后台服务器01接收到用户端02发起的一个特定合成请求，则可以先确定出与该特定合成请求对应的目标文本信息以及相应的参考歌声信息，然后利用该目标文本信息及参考歌声信息生成目标歌声。

图2为本申请实施例提供的一种歌声合成方法流程图。参见图2所示，该歌声合成方法可以包括：

步骤S11：获取待合成的目标歌声的目标文本信息。

本实施例中，在歌声合成过程中，需要由用户指定所合成歌声的文本信息，所需可以先获取待合成的目标歌声的目标文本信息。目标歌声指的是需要合成的歌声，目标文本信息指的是目标歌声的歌词文本信息，目标文本信息的内容及类型可以根据实际需要确定，比如目标文本信息可以为中文类型的文本信息、英文类型的文本信息等。

步骤S12：获取目标歌声对应的参考歌声信息。

步骤S13：在参考歌声信息中提取出目标基频信息。

本实施例中，因为歌声不仅包括歌词内容还包括曲调、音色等特征，如果单纯应用目标文本信息来合成目标歌声的话，只能满足目标歌声的歌词需要，而无法满足目标歌声的曲调、音色等需求，这样，目标歌声在质量方面便难以保证，为了提高目标歌声的质量，可以获取目标歌声对应的参考歌声信息，参考歌声信息也即与目标歌声的歌词、曲调、音色等相对应的歌声，比如目标歌声为音乐《后来》，则参考歌声信息可以为用户指定的某个已完成的音乐《后来》，比如某歌手演唱的《后来》等；并且在参考歌声信息中提取出目标基频信息，以便后续基于目标基频信息合成目标歌声，基频也即语音频谱的第一个峰的频率，目标基频信息也即参考歌声信息中满足要求的基频信息，由于参考歌声信息是真实的歌声信息，所以目标基频信息可以反映真实的发音效果，目标基频信息可以包含真实的颤音、滑音等信息。

应当指出的是，在参考歌声信息中提取出目标基频信息的过程中，为了保证提取的基频信息的准确度，在参考歌声信息中，可以先确定基频准确度高于预设值的参考干声；再对参考干声进行基频提取，得到目标基频信息。且提取基频信息的方法可以为harvest，DIO和YIN等方法。

步骤S14：将目标文本信息转化为目标音素序列。

本实施例中，因为目标文本信息反映的是歌曲的文本信息，文本信息的类型多为汉字、英文等，而汉字、英文等并不能表征歌曲的发音情况，所以需要将目标文本信息转化为能够反映发音情况的目标音素序列，目标音素序列也即与目标文本信息中的各个文本对应的音素序列。

应当指出，在将目标文本信息转换为目标音素序列的过程中，以汉字为例，如果目标文本信息的类型为汉字，因为汉字不能反映发音信息，所以可以将目标文本信息先转换为拼音形式的文本信息，但是转换为拼音形式的文本信息之后，因为拼音并不能直接对应发音情况，比如拼音中的yu和wu，y和w都是不发音的，所以需要进一步将拼音形式的文本信息转换成音素形式的目标音素序列。在此过程中，目标音素序列中音素的类型可以为国际音素等。

步骤S15：确定目标音素序列中各个音素的位置信息，得到目标位置序列。

本实施例中，在将文本信息转换为目标音素序列之后，只能得到排列好的与文本相对应的音素信息，但在歌声中，由于歌唱技巧的影响，一个歌词对应的音素可能并不唯一，因此为了准确反映歌声的音素信息，需要确定目标音素序列中各个音素的位置信息，得到目标位置序列，借助目标位置序列来准确反映音素信息。

步骤S16：将目标音素序列及目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数。

本实施例中，在得到目标音素序列及目标位置序列之后，便可以提取目标歌声的声学参数，在此过程中，本申请借助声学参数预测模型来根据目标音素序列及目标位置序列提取目标频谱包络参数和目标非周期参数，比如将目标音素序列和目标位置序列输入至预先训练好的声学参数预测模型，再获取声学参数预测模型输出的目标频谱包络参数和目标非周期参数等。

应当指出，在发声过程中，声带振动产生的声波通过由口腔、鼻腔等构成的声道时将产生共振，共振的结果会使频谱的某些区域得到加强，形成峰，频谱上有多个峰，频谱上每个峰的高度是不一样的，这些峰的高度之比决定了音色(timbre)，如果将这些峰值通过平滑的曲线连接起来就是频谱包络，频谱包络的示意图可以参阅图3。而歌声是由周期信号和非周期信号组成，周期信号的频谱有包络线，非周期信号没有包络线，所以频谱包络可以反映歌声的周期信号，但是只有结合非周期参数和非周期参数，才能完美地合成歌声，所以本申请需要将目标频谱包络参数和目标非周期参数一同作为目标歌声的声学参数。此外，本申请中声学参数预测模型的类型可以根据实际需要确定，比如为神经网络模型等。

步骤S17：基于目标基频信息、目标频谱包络参数和目标非周期参数合成目标歌声。

本实施例中，在获得目标基频信息、目标频谱包络参数和目标非周期参数之后，便可以基于目标基频信息、目标频谱包络参数和目标非周期参数合成目标歌声。

实际应用中，为了提高歌声合成的便捷性及效率，在基于目标基频信息、目标频谱包络参数和目标非周期参数合成目标歌声的过程中，可以基于目标基频信息、目标频谱包络参数、目标非周期参数和声码器模型合成目标歌声。

本申请提供的一种歌声合成方法，获取待合成的目标歌声的目标文本信息；获取目标歌声对应的参考歌声信息；在参考歌声信息中提取出目标基频信息；将目标文本信息转化为目标音素序列；确定目标音素序列中各个音素的位置信息，得到目标位置序列；将目标音素序列及目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数；基于目标基频信息、目标频谱包络参数和目标非周期参数合成目标歌声。本申请中，只需借助目标基频信息、目标频谱包络参数和目标非周期参数即可合成目标歌声，合成目标歌声时应用的参数少，可以提高合成效率；此外，由于目标音素序列表征了音素自身信息，目标位置序列表征了音素的位置信息，所以借助目标音素序列和目标位置序列可以详细表征目标歌声的音素信息，并且可以借助声学参数预测模型将目标音素序列和目标位置序列转换为目标歌声的声学参数，也即转换为目标频率包络参数和目标非周期参数，再者，因为目标基频信息是从参考歌声信息中提取出来的，所以目标基频信息可以反映真实的发音信息，进而可以使得合成歌声更加真实、自然，歌声合成质量高。

请参阅图4，图4为本申请歌声合成方法中声学参数预测模型的训练流程图。

本申请实施例提供的一种歌声合成方法中，将目标音素序列及目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数之前，还可以包括以下步骤：

步骤S21：获取训练歌声及训练歌声的训练文本信息。

本实施例中，在声学参数预测模型的过程中，需要先获取训练歌声以及训练歌声的训练文本信息，训练歌声也即用于模型训练的歌声，训练文本信息也即用于模型训练的文本信息，训练歌声和训练文本信息的类型可以根据实际需要确定。

步骤S22：对训练歌声进行声学参数提取，得到训练频谱包络参数和训练非周期参数。

本实施例中，在获取训练歌声及训练歌声的训练文本信息之后，需要直接对训练歌声进行声学参数提取，得到训练频谱包络参数和训练非周期参数，以便后续根据训练频谱包络参数和训练非周期参数对声学参数预测模型进行训练。

应当指出，对训练歌声进行声学参数提取的过程可以参阅现有技术，比如可以对训练歌声进行傅里叶变换得到线性频谱，对线性频谱求绝对值得到功率谱，对功率谱进行对数变换后进行反傅里叶变化得到功率谱的倒谱，最后对倒谱作低通处理，得到训练频谱包络参数。训练频谱包络参数为训练歌声的周期成分，从训练歌声中除去周期成分则为非周期成分，具体做法是，先根据训练频谱包络参数以及训练歌声的基频信息，拟合出正弦波信号，然后将上述的训练歌声的功率谱中每个频带的功率减去拟合得到的正弦波每个频带的功率，可以得到每个频带的非周期功率，对非周期功率先对数变换然后进行反傅里叶变换，可以得到训练非周期参数。

步骤S23：将训练文本信息转化为训练音素序列。

步骤S24：确定训练音素序列中各个音素的位置信息，得到训练位置序列。

本实施例中，在得到训练频谱包络参数和训练非周期参数之后，还需要将训练文本信息转化为训练音素序列，确定训练音素序列中各个音素的位置信息，得到训练位置序列。

步骤S25：将训练音素序列和训练位置序列作为声学参数预测模型的输入，将训练频谱包络参数和训练非周期参数作为声学参数预测模型的输出，对声学参数预测模型进行训练，得到训练好的声学参数预测模型。

本实施例中，在得到训练音素序列和训练位置序列之后，便可以将训练音素序列和训练位置序列作为声学参数预测模型的输入，将训练频谱包络参数和训练非周期参数作为声学参数预测模型的输出，对声学参数预测模型进行训练，得到训练好的声学参数预测模型。

应当指出，声学参数预测模型的训练参数可以根据实际需要灵活确定，比如声学参数预测模型训练过程中的损失函数可以为最小均分误差函数，优化器可以为Adam，学习率可以为1e^-5等；此外，声学参数预测模型的结构及通道数可以根据实际需要灵活确定，比如声学参数预测模型可以为“沙漏”型的深度神经网络模型，则假设声学参数预测模型输出的声学参数为64维，其中频谱包络参数60维，非周期参数4维，则声学参数预测模型的结构可以如图5所示，其中，Conditioning Vector表示声学参数预测模型的输入，GeneratedSample表示声学参数预测模型的输出，Conv Layer表示转换层，size表示相应层的大小，stride表示相应层的步长，Upsample and Conv Layer表示上采样和转换层，64、32、128、256、512等表示相应层的通道数。

也即本实施例中，只需借助音素序列、位置序列、频谱包络参数和非周期参数便可以完成声学参数预测模型的训练，声学参数预测模型训练所应用的参数少，可以提高声学参数预测模型的训练效率，进而可以提高歌声合成的效率。

请参阅图6，图6为本申请歌声合成方法中声学参数预测模型的另一训练流程图。声学参数预测模型的训练过程可以包括以下步骤：

步骤S31：获取训练歌声及训练歌声的训练文本信息。

步骤S32：对训练歌声进行分帧，得到分帧信号。

本实施例中，为了便于获取训练歌声中的声学参数，可以先对训练歌声进行分帧，得到相应的分帧信号，后续再对分帧信号进行声学参数提取，得到训练频谱包络参数和训练周期参数。

应当指出，对训练歌声进行分帧的步骤可以根据实际需要进行设定，比如可以对训练歌声进行分帧加窗处理，得到一系列的分帧信号，且分帧信号的帧长可以为8-16毫秒，分帧信号之间的重叠可以为帧长的3/4长度，窗函数可以选择汉宁窗等。

步骤S33：对分帧信号进行声学参数提取，得到训练频谱包络参数和训练周期参数。

步骤S34：将训练文本信息转化为训练音素序列。

步骤S35：确定训练音素序列中各个音素的位置信息，得到训练位置序列。

步骤S36：将训练音素序列和训练位置序列作为声学参数预测模型的输入，将训练频谱包络参数和训练非周期参数作为声学参数预测模型的输出，对声学参数预测模型进行训练，得到训练好的声学参数预测模型。

也即本实施例中，通过对训练歌声进行分帧，可以将训练歌声拆分为更小粒度的分帧信号，后续再对分帧信号进行声学参数提取的话，便于从分帧信号中提取到声学参数，提高了声学参数的提取效率。

请参阅图7，图7为本申请歌声合成方法的另一流程图。本申请的歌声合成方法可以包括以下步骤：

步骤S401：获取训练歌声及训练歌声的训练文本信息。

步骤S402：对训练歌声进行分帧，得到分帧信号，对分帧信号进行声学参数提取，得到训练频谱包络参数和训练周期参数。

步骤S403：对训练文本信息的发音信息进行音素转换，得到第一音素序列。

步骤S404：对第一音素序列中的音素进行拓展，得到音素与分帧信号中的声学特征一一对应的训练音素序列。

本实施例中，在将训练文本信息转化为训练音素序列的过程中，可能存在音素与声学特征不一一对应的情况，比如一个音素对应了3帧的声学特征，这样，只将将训练文本信息转换为训练音素序列的话，会使得训练音素序列难以准确表征训练歌声中的声学特征，进而使得声学参数预测模型难以输出准确的频谱包络参数和非周期参数，影响最终合成歌声的质量，为了避免此种情况，可以对训练文本信息的发音信息进行音素转换，得到第一音素序列；对第一音素序列中的音素进行拓展，得到音素与分帧信号中的声学特征一一对应的训练音素序列，具体的，可以按照一帧声学特征对应一个音素来对第一音素序列中的音素进行扩展。

步骤S405：确定训练音素序列中各个音素的位置信息，得到训练位置序列。

步骤S406：将训练音素序列和训练位置序列作为声学参数预测模型的输入，将训练频谱包络参数和训练非周期参数作为声学参数预测模型的输出，对声学参数预测模型进行训练，得到训练好的声学参数预测模型。

步骤S407：获取待合成的目标歌声的目标文本信息，获取目标歌声对应的参考歌声信息。

步骤S408：在参考歌声信息中提取出目标基频信息。

步骤S409：对目标文本信息的发音信息进行音素转换，得到第二音素序列。

步骤S410：调整参考歌声信息中的发音长度，得到音频和第二音素序列中的音素相对应的调整歌声信息。

步骤S411：对第二音素序列中的音素进行拓展，得到音素与调整歌声信息中的声学特征一一对应的目标音素序列。

本实施例中，在将目标文本信息转化为目标音素序列的过程中，与通过扩展得到训练音素序列的原理相同，为了使得目标音素序列可以反映目标歌声中的声学特征，保证最终合成的目标歌声的质量，也需要通过音素扩展的方式得到音素与参考歌声信息中的声学特征一一对应的目标音素序列，也即需要对目标文本信息的发音信息进行音素转换，得到第二音素序列，调整参考歌声信息中的发音长度，得到音频和第二音素序列中的音素相对应的调整歌声信息，对第二音素序列中的音素进行拓展，得到音素与调整歌声信息中的声学特征一一对应的目标音素序列。

应当指出，得到目标音素序列的过程中，可能存在参考歌声中的发音长度与用户预期的发音长度不相符的情况，进而使得最终合成的目标歌声与用户需求不相符，为了避免此种情况，需要使得参考歌声更加符合用户需求，也即可以根据用户需求，调整参考歌声信息中的发音长度，得到音频和第二音素序列中的音素相对应的调整歌声信息。

步骤S412：确定目标音素序列中各个音素的位置信息，得到目标位置序列。

步骤S413：将目标音素序列及目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数。

步骤S414：基于目标基频信息、目标频谱包络参数和目标非周期参数合成目标歌声。

本实施例中，在声学参数预测模型的训练过程中，通过音素扩展的方式，得到音素与分帧信号中的声学特征一一对应的训练音素序列，使得训练音素序列可以准确表征训练歌声中的声学特征，进而使得声学参数预测模型可以输出准确的频谱包络参数和非周期参数；此外，在基于声学参数预测模型合成歌声的过程中，通过音素扩展得到音素与调整歌声信息中的声学特征一一对应的目标音素序列，使得声学参数预测模型可以输出准确的目标频谱包络参数及非周期参数，并且在此过程中，调整参考歌声信息中的发音长度，得到音频和第二音素序列中的音素相对应的调整歌声信息，保证了合成歌声的质量。

请参阅图8，图8为本申请歌声合成方法中声学参数预测模型的另一训练流程图。声学参数预测模型的训练过程可以包括以下步骤：

步骤S51：获取训练歌声及训练歌声的训练文本信息。

步骤S52：对训练歌声进行声学参数提取，得到训练频谱包络参数和训练非周期参数。

步骤S53：将训练文本信息转化为训练音素序列。

步骤S54：判断训练音素序列中的待确定音素是否为连续重复音素；若待确定音素为连续重复音素，则执行步骤S55；若待确定音素并非连续重复音素，则执行步骤S56。

步骤S55：确定待确定音素的连续重复总次数及实时连续重复次数，将实时连续重复次数与连续重复总次数的比值确定为待确定音素的位置信息；执行步骤S57。

步骤S56：将待确定音素的实时连续重复次数作为待确定音素的位置信息，执行步骤S57。

本实施例中，在确定训练音素序列中各个音素的位置信息的过程中，可以以各个音素在训练音素序列中的位置来确定各个音素的位置信息，但是训练音素序列中的音素数量很多，会使得越处于训练音素序列末尾的音素的位置信息值越大，不利于训练位置序列的生成，为了便于生成训练位置序列，可以判断训练音素序列中的待确定音素是否为连续重复音素；若待确定音素为连续重复音素，则确定待确定音素的连续重复总次数及实时连续重复次数，将实时连续重复次数与连续重复总次数的比值确定为待确定音素的位置信息，比如某个音素连续重复了N次，则这N个音素的位置信息可以为[1/N，2/N，3/N，…，N/N]；若待确定音素并非连续重复音素，则将待确定音素的实时连续重复次数作为待确定音素的位置信息，比如将1作为该音素的位置信息等。

步骤S57：根据训练音素序列中音素的位置信息生成训练位置序列。

步骤S58：将训练音素序列和训练位置序列作为声学参数预测模型的输入，将训练频谱包络参数和训练非周期参数作为声学参数预测模型的输出，对声学参数预测模型进行训练，得到训练好的声学参数预测模型。

也即本申请中，可以根据音素的实时连续重复次数与连续重复总次数确定出音素的位置信息，避免在训练音素序列的数据量很大的情况下，单个音素的位置信息难以简便表达的情况，可以简化位置信息的表达方式，便于生成训练位置序列，最终提高歌声合成方法的效率。

请参阅图9，图9为本申请歌声合成方法中声学参数预测模型的另一训练流程图。声学参数预测模型的训练过程可以包括以下步骤：

步骤S61：获取训练歌声及训练歌声的训练文本信息。

步骤S62：对训练歌声进行声学参数提取，得到训练频谱包络参数和训练非周期参数。

步骤S63：将训练文本信息转化为训练音素序列。

步骤S64：确定训练音素序列中各个音素的位置信息，得到训练位置序列。

步骤S65：对训练音素序列中的音素进行向量转换，得到训练向量序列。

本申请中，在将训练音素序列和训练位置序列作为声学参数预测模型的输入的过程中，为了便于表示训练音素序列，且便于声学参数预测模型处理训练音素序列，可以对训练音素序列中的音素进行向量转换，得到训练向量序列。

且实际应用中，在对训练音素序列中的音素进行向量转换，得到训练向量序列的过程中，为了提高训练向量序列的生成效率，可以基于词嵌入方法，对训练音素序列中的音素进行向量转换，得到训练向量序列。

步骤S66：将训练向量序列和训练位置序列进行拼接，得到训练条件序列。

本申请中，在将训练音素序列和训练位置序列作为声学参数预测模型的输入的过程中，为了便于声学参数预测模型处理训练音素序列和训练位置序列，可以将训练向量序列和训练位置序列进行拼接，得到训练条件序列，后续将训练条件序列作为声学参数预测模型的输入来对声学参数预测模型进行训练。

应当指出，在应用声学参数预测模型合成歌声的过程中，也可以对目标音素序列中的音素进行向量转换，得到目标向量序列，将目标向量序列和目标位置序列进行拼接，得到目标条件序列，再将目标条件序列作为声学参数预测模型的输入来得到目标频谱包络参数和目标非周期参数等。

步骤S67：将训练条件序列作为声学参数预测模型的输入，将训练频谱包络参数和训练非周期参数作为声学参数预测模型的输出，对声学参数预测模型进行训练，得到训练好的声学参数预测模型。

本申请中，通过对训练音素序列进行向量转换，得到训练向量序列，并将训练向量序列和训练位置序列进行拼接，得到训练条件序列，最后基于训练条件序列对声学参数预测模型进行训练，便于表示训练音素序列及训练位置序列，且便于声学参数预测模型处理训练音素序列和训练位置序列，可以提高声学参数预测模型的训练效率。

下面以某款音乐客户端APP的歌声播放过程为例，对本申请中的技术方案进行说明。假设这款音乐客户端APP所需合成的歌声为音乐《凉凉》，则后台服务器可以执行以下步骤：

获取《凉凉》的目标文本信息；

获取《凉凉》的参考歌声信息，比如用户之前演唱的歌声信息；

在参考歌声信息中提取出目标基频信息；

将目标文本信息转化为目标音素序列；

确定目标音素序列中各个音素的位置信息，得到目标位置序列；

基于预先训练好的声学参数预测模型、目标音素序列及目标位置序列，确定目标频谱包络参数和目标非周期参数；

基于目标基频信息、目标频谱包络参数和目标非周期参数合成目标歌声。

参见图10所示，本申请实施例还相应公开的一种歌声合成装置，应用于后台服务器，可以包括：

目标文本信息获取模块11，用于获取待合成的目标歌声的目标文本信息；

参考歌声信息获取模块12，用于获取目标歌声对应的参考歌声信息；

目标基频信息获取模块13，用于在参考歌声信息中提取出目标基频信息；

目标音素序列转换模块14，用于将目标文本信息转化为目标音素序列；

目标位置序列确定模块15，用于确定目标音素序列中各个音素的位置信息，得到目标位置序列；

声学参数获取模块16，用于将目标音素序列及目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数；

歌声合成模块17，用于基于目标基频信息、目标频谱包络参数和目标非周期参数合成目标歌声。

在一些具体实施例中，所述歌声合成装置还可以包括：

训练文本信息获取模块，用于声学参数获取模块将目标音素序列及目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数之前，获取训练歌声及训练歌声的训练文本信息；

训练参数获取模块，用于对训练歌声进行声学参数提取，得到训练频谱包络参数和训练非周期参数；

训练音素序列获取模块，用于将训练文本信息转化为训练音素序列；

训练位置序列获取模块，用于确定训练音素序列中各个音素的位置信息，得到训练位置序列；

声学参数预测模型训练模块，用于将训练音素序列和训练位置序列作为声学参数预测模型的输入，将训练频谱包络参数和训练非周期参数作为声学参数预测模型的输出，对声学参数预测模型进行训练，得到训练好的声学参数预测模型。

在一些具体实施例中，训练参数获取模块，可以包括：

分帧单元，用于对训练歌声进行分帧，得到分帧信号；

提取单元，用于对分帧信号进行声学参数提取，得到训练频谱包络参数和训练周期参数。

在一些实施例中，训练音素序列获取模块可以包括：

训练音素转换单元，用于对训练文本信息的发音信息进行音素转换，得到第一音素序列；

训练音素拓展单元，用于对第一音素序列中的音素进行拓展，得到音素与分帧信号中的声学特征一一对应的训练音素序列。

在一些实施例中，目标音素序列获取模块，可以包括：

目标音素序列转换单元，用于对目标文本信息的发音信息进行音素转换，得到第二音素序列；

发音长度调整单元，用于调整参考歌声信息中的发音长度，得到音频和第二音素序列中的音素相对应的调整歌声信息；

目标音素序列扩展单元，用于对第二音素序列中的音素进行拓展，得到音素与调整歌声信息中的声学特征一一对应的目标音素序列。

在一些具体实施例中，训练位置序列获取模块可以包括：

判断单元，用于判断训练音素序列中的待确定音素是否为连续重复音素；若待确定音素为连续重复音素，则确定待确定音素的连续重复总次数及实时连续重复次数，将实时连续重复次数与连续重复总次数的比值确定为待确定音素的位置信息；若待确定音素并非连续重复音素，则将待确定音素的实时连续重复次数作为待确定音素的位置信息。

在一些具体实施例中，声学参数预测模型训练模块可以包括：

训练向量序列获取单元，用于对训练音素序列中的音素进行向量转换，得到训练向量序列；

训练条件序列单元，用于将训练向量序列和训练位置序列进行拼接，得到训练条件序列；

输入单元，用于将训练条件序列作为声学参数预测模型的输入。

在一些具体实施例中，训练向量序列获取单元，具体可以用于：基于词嵌入方法，对训练音素序列中的音素进行向量转换，得到训练向量序列。

在一些具体实施例中，目标基频信息获取模块可以包括：

参考干声确定单元，用于在参考歌声信息中，确定基频准确度高于预设值的参考干声；

目标基频信息获取单元，用于对参考干声进行基频提取，得到目标基频信息。

在一些具体实施例中，目标歌声合成模块，可以包括：

目标歌声合成单元，用于基于目标基频信息、目标频谱包络参数、目标非周期参数和声码器模型合成目标歌声。

进一步的，本申请实施例还提供了一种电子设备。图11是根据一示例性实施例示出的电子设备20结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图11为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的歌声合成方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及视频数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量视频数据223的运算与处理，其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的歌声合成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的各种视频数据。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的歌声合成方法步骤。

本申请所涉及的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本申请实施例提供的歌声合成装置、电子设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的歌声合成方法中对应部分的详细说明，在此不再赘述。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种歌声合成方法，其特征在于，包括：

获取待合成的目标歌声的目标文本信息；

获取所述目标歌声对应的参考歌声信息；

在所述参考歌声信息中提取出目标基频信息；

将所述目标文本信息转化为目标音素序列；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标音素序列及所述目标位置序列输入预先训练好的声学参数预测模型中，生成目标频谱包络参数和目标非周期参数之前，还包括：

获取训练歌声及所述训练歌声的训练文本信息；

将所述训练文本信息转化为训练音素序列；

3.根据权利要求2所述的方法，其特征在于，所述对所述训练歌声进行声学参数提取，得到训练频谱包络参数和训练非周期参数，包括：

对所述训练歌声进行分帧，得到分帧信号；

4.根据权利要求3所述的方法，其特征在于，所述将所述训练文本信息转化为训练音素序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述目标文本信息转化为目标音素序列，包括：

6.根据权利要求2所述的方法，其特征在于，所述确定所述训练音素序列中各个音素的位置信息，包括：

7.根据权利要求2所述的方法，其特征在于，所述将所述训练音素序列和所述训练位置序列作为所述声学参数预测模型的输入，包括：

将所述训练条件序列作为所述声学参数预测模型的输入。

8.根据权利要求7所述的方法，其特征在于，所述对所述训练音素序列中的音素进行向量转换，得到训练向量序列，包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，所述在所述参考歌声信息中提取出目标基频信息，包括：

对所述参考干声进行基频提取，得到所述目标基频信息。

10.根据权利要求1至8任一项所述的方法，其特征在于，所述基于所述目标基频信息、所述目标频谱包络参数和所述目标非周期参数合成所述目标歌声，包括：

11.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至10任一项所述歌声合成方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述歌声合成方法。