CN116486765A

CN116486765A - 歌声生成方法、计算机设备和存储介质

Info

Publication number: CN116486765A
Application number: CN202310479257.9A
Authority: CN
Inventors: 陈梦; 张超鹏; 宗旋
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-07-25

Abstract

本申请涉及一种歌声生成方法、计算机设备和存储介质。所述方法包括：获取目标曲谱的音节信息、音符信息和连音符信息；根据音节信息、音符信息和连音符信息，确定目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频；根据曲谱音素编码特征、曲谱音素时长和音素级别基频，生成目标曲谱的曲谱音频；获取曲谱音频对应的帧级别基频和目标曲谱对应的曲谱音素信息，根据帧级别基频和曲谱音素信息，生成目标歌声音频。采用本方法能够通过解析曲谱确定曲谱信息，根据曲谱信息确定曲谱特征，根据曲谱特征生成目标曲谱的曲谱音频，基于曲谱音频和目标曲谱的音素信息，生成以预设音色演唱目标曲谱的歌声，提高合成歌声的自然度。

Description

歌声生成方法、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种歌声生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，在音乐领域出现了歌声合成技术，歌声合成技术可根据歌词和曲谱合成音频。

传统技术中的歌声合成方法可基于现有音频来制作曲谱，其中，基频来自于音频中的人声部分，音素则通过强制对齐算法从音频中获得。

然而，传统技术中的歌声合成方法对歌曲原唱的依赖度较高，且合成得到的歌声与曲谱之间的契合度较差，不利于提高生成歌声的自然度。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高生成歌声自然度的歌声生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种歌声生成方法，所述方法包括：

获取目标曲谱的音节信息、音符信息和连音符信息；

根据所述音节信息、所述音符信息和所述连音符信息，确定所述目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频；

根据所述曲谱音素编码特征、所述曲谱音素时长和所述音素级别基频，生成所述目标曲谱对应的曲谱音频；

获取所述曲谱音频对应的帧级别基频和所述目标曲谱对应的曲谱音素信息，根据所述帧级别基频和所述曲谱音素信息，生成目标歌声音频。

在其中一个实施例中，所述根据所述音节信息、所述音符信息和所述连音符信息，确定所述目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，包括：

将所述音节信息、所述音符信息和所述连音符信息输入至预训练的曲谱向量转化模型，得到所述目标曲谱的曲谱特征向量；

将所述曲谱特征向量输入至预训练的曲谱特征确定模型，得到所述目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频。

在其中一个实施例中，所述曲谱特征确定模型包括预训练的曲谱合成编码器、音素时长确定模型和基频确定模型，所述将所述曲谱特征向量输入至预训练的曲谱特征确定模型，得到所述目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，包括：

将所述曲谱特征向量输入至所述曲谱合成编码器，得到所述目标曲谱的曲谱编码特征；

将所述曲谱编码特征输入至所述音素时长确定模型，得到所述曲谱音素时长，将所述曲谱编码特征输入至所述基频确定模型，得到所述音素级别基频。

在其中一个实施例中，所述根据所述曲谱音素编码特征、所述曲谱音素时长和所述音素级别基频，生成所述目标曲谱对应的曲谱音频，包括：

将所述曲谱音素编码特征、所述曲谱音素时长和所述音素级别基频输入至预训练的曲谱合成解码器，得到所述目标曲谱对应的曲谱声学特征；

将所述曲谱声学特征输入至声码器，得到所述目标曲谱对应的曲谱音频。

在其中一个实施例中，所述获取所述曲谱音频对应的帧级别基频和曲谱音素信息的步骤之前，所述方法还包括：

确定所述曲谱音频的基频偏离信息；所述基频偏离信息用于表征所述曲谱音频中的基频信息与所述目标曲谱的基频信息之间的偏离程度；

在根据所述基频偏离信息确定所述曲谱音频存在跑调现象的情况下，根据所述基频偏离信息，对所述曲谱音频进行修音处理，得到修音后的曲谱音频，作为新的所述曲谱音频。

在其中一个实施例中，所述确定所述曲谱音频的基频偏离信息，包括：

将所述音素级别基频输入至滑动平均滤波器，得到所述音素级别基频的音素内基频均值；

确定所述音素内基频均值和所述目标曲谱的标准音高之间的基频偏离度；

将所述基频偏离度作为所述基频偏离信息。

在其中一个实施例中，所述根据所述基频偏离信息，对所述曲谱音频进行修音处理，得到修音后的曲谱音频，包括：

根据所述基频偏离信息，确定针对所述曲谱音频的音高补偿值；

根据所述音高补偿值对所述曲谱音频的帧级别基频进行修正，得到修正后的帧级别基频；

根据所述修正后的帧级别基频，确定所述修音后的曲谱音频。

在其中一个实施例中，所述根据所述修正后的帧级别基频，确定所述修音后的曲谱音频，包括：

确定所述修正后的帧级别基频在曲谱基频序列中的基频修正位置；

确定所述基频修正位置对应的基频衔接节点；

对所述基频衔接节点进行过渡处理，得到过渡处理后的基频序列；

根据所述过渡处理后的基频序列，生成所述修音后的曲谱音频。

在其中一个实施例中，所述方法还包括：

获取修改后的曲谱信息；所述修改后的曲谱信息为响应于针对所述目标曲谱的更改操作确定的；所述修改后的曲谱信息包括歌词或旋律中的至少一种；

根据所述修改后的曲谱信息，更新所述目标曲谱，得到更新后的目标曲谱，作为新的所述目标曲谱。

在其中一个实施例中，所述方法还包括：

获取目标对象对应的音色信息；

根据所述帧级别基频、所述曲谱音素信息和所述音色信息，生成所述目标对象对应的目标歌声音频。

第二方面，本申请还提供了一种歌声生成装置，所述装置包括：

信息获取模块，用于获取目标曲谱的音节信息、音符信息和连音符信息；

特征确定模块，用于根据所述音节信息、所述音符信息和所述连音符信息，确定所述目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频；

音频生成模块，用于根据所述曲谱音素编码特征、所述曲谱音素时长和所述音素级别基频，生成所述目标曲谱对应的曲谱音频；

歌声合成模块，用于获取所述曲谱音频对应的帧级别基频和所述目标曲谱对应的曲谱音素信息，根据所述帧级别基频和所述曲谱音素信息，生成目标歌声音频。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

上述歌声生成方法、装置、计算机设备、存储介质和计算机程序产品，通过获取目标曲谱的音节信息、音符信息和连音符信息，从而得到解析曲谱后的曲谱信息，根据音节信息、音符信息和连音符信息，确定目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，从而确定曲谱的音素特征、音素时长特征和音素级别基频特征，根据曲谱音素编码特征、曲谱音素时长和音素级别基频，生成目标曲谱对应的曲谱音频，从而生成基于目标曲谱的音频，获取曲谱音频对应的帧级别基频和目标曲谱对应的曲谱音素信息，根据帧级别基频和曲谱音素信息，生成目标歌声音频，实现了通过解析曲谱确定曲谱的音节信息、音符信息和连音符信息，根据解析得到的曲谱信息确定曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，并根据曲谱特征生成目标曲谱的曲谱音频，基于曲谱音频的基频特征和目标曲谱的音素信息，生成以预设音色演唱目标曲谱的歌声，得到与目标曲谱契合度高的歌声，提高合成歌声的自然度。

附图说明

图1为一个实施例中一种歌声生成方法的流程示意图；

图2为一个实施例中一种曲谱信息的示意图；

图3为一个实施例中一种曲谱合成系统的示意图；

图4为一个实施例中一种音准检测系统的示意图；

图5为一个实施例中一种音素内基频曲线的示意图；

图6为一个实施例中一种歌声合成系统的示意图；

图7为另一个实施例中一种歌声生成方法的流程示意图；

图8为一个实施例中一种歌声生成装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

在一些实施例中，如图1所示，提供了一种歌声生成方法，本实施例以该方法应用于电子设备进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，电子设备可以是终端。本实施例中，该方法包括以下步骤：

步骤S102，获取目标曲谱的音节信息、音符信息和连音符信息。

其中，目标曲谱可以是指生成歌声所需曲谱信息对应的曲谱，实际应用中，目标曲谱可以包括曲谱信息未经修改的原始曲谱、修改歌词和/或修改旋律后的修改后曲谱，常见的曲谱格式可以包括midi、musicxml，目标曲谱中可以包含歌词和音高信息。

其中，音节信息可以是指曲谱中由音素(包括辅音和元音)组合发音的语音单位，例如：“好”字的音节为hao，实际应用中，音节信息可以包括音节和音节对应的时间，start，end，syl。

其中，音符信息可以是指音高信息，例如：C4，D4等，实际应用中，音符信息可以包括音符和音符对应的时间。

其中，连音符信息可以是指节奏划分的特殊形式，实际应用中，连音符可将音符的时值自由均分，其数量与基本划分不一致。

作为一种示例，电子设备获取到目标曲谱后，电子设备对目标曲谱进行解析，得到目标曲谱的音节信息、音符信息和连音符信息；例如，图2提出了一种曲谱信息的示意图，如图2所示，电子设备对目标曲谱进行解析后，电子设备得到的解析后曲谱可包括若干个曲谱单元，每个曲谱单元的组合形式可表示为：字_音节_音高，解析后曲谱的格式便于解析程序对曲谱进行解析。

步骤S104，根据音节信息、音符信息和连音符信息，确定目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频。

其中，曲谱音素编码特征可以是指对曲谱进行特征提取时，由编码器输出的表征曲谱音素特征的编码。

其中，曲谱音素时长可以是指对曲谱进行特征提取时，由音素时长预测模块输出的表征曲谱中各音素对应的持续时长的信息。

其中，音素级别基频可以是指基于基频提取技术对曲谱进行特征提取时，由基频预测模块输出的曲谱中各音素对应的音素级别基频。

作为一种示例，电子设备将音节信息、音符信息和连音符信息输入曲谱向量转化模型，得到曲谱特征向量，电子设备将曲谱特征向量输入预训练的编码器，电子设备将编码器的输出结果输入音素时长预测模块，得到曲谱音素时长，电子设备将编码器的输出结果输入预训练的基频预测模块，得到音素级别基频，其中，编码器的输出结果可作为曲谱音素编码特征。

步骤S106，根据曲谱音素编码特征、曲谱音素时长和音素级别基频，生成目标曲谱对应的曲谱音频。

其中，曲谱音频可以是指基于目标曲谱通过曲谱合成系统得到的音频。

作为一种示例，在编码器的输出结果为曲谱音素编码特征的情况下，电子设备对编码器的输出结果、曲谱音素时长和音素级别基频进行展开操作后，得到展开结果，电子设备将展开结果输入解码器，得到解码结果，电子设备将解码结果输入线性层，得到目标曲谱的声学特征，电子设备将目标曲谱的声学特征输入至声码器，得到目标曲谱对应的曲谱音频。

步骤S108，获取曲谱音频对应的帧级别基频和目标曲谱对应的曲谱音素信息，根据帧级别基频和曲谱音素信息，生成目标歌声音频。

其中，帧级别基频可以是指基于基频提取技术，对曲谱音频进行基频的逐帧提取后得到的基频，实际应用中，音频信号处理时，可将音频分为ms级别的帧进行基频的检测，一般来说每帧长度为256或者512个采样点，结合采样频率，时长＝帧长/采样率。

其中，曲谱音素信息可以是指目标曲谱中根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，例如：“好”字包含两个音素，“h”和“ao”，实际应用中，曲谱音素信息可以包括音素和音素对应的时间。

其中，目标歌声音频可以是指歌声合成系统输出的以系统预设音色演唱目标曲谱的音频。

作为一种示例，电子设备对曲谱音频进行基频的逐帧提取，得到曲谱音频对应的帧级别基频，电子设备解析曲谱音频或目标曲谱，得到曲谱音素信息，电子设备将帧级别基频和曲谱音素信息输入歌声合成系统，得到以目标预设音色演唱目标曲谱的音频。

上述歌声生成方法中，通过获取目标曲谱的音节信息、音符信息和连音符信息，从而得到解析曲谱后的曲谱信息，根据音节信息、音符信息和连音符信息，确定目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，从而确定曲谱的音素特征、音素时长特征和音素级别基频特征，根据曲谱音素编码特征、曲谱音素时长和音素级别基频，生成目标曲谱对应的曲谱音频，从而生成基于目标曲谱的音频，获取曲谱音频对应的帧级别基频和目标曲谱对应的曲谱音素信息，根据帧级别基频和曲谱音素信息，生成目标歌声音频，实现了通过解析曲谱确定曲谱的音节信息、音符信息和连音符信息，根据解析得到的曲谱信息确定曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，并根据曲谱特征生成目标曲谱的曲谱音频，基于曲谱音频的基频特征和目标曲谱的音素信息，生成以预设音色演唱目标曲谱的歌声，得到与目标曲谱契合度高的歌声，提高合成歌声的自然度。

在一些实施例中，根据音节信息、音符信息和连音符信息，确定目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，包括：将音节信息、音符信息和连音符信息输入至预训练的曲谱向量转化模型，得到目标曲谱的曲谱特征向量；将曲谱特征向量输入至预训练的曲谱特征确定模型，得到目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频。

其中，曲谱向量转化模型可以是指用于将离散变量转为连续向量表示的一种方式，实际应用中，在神经网络中可采用embedding来将离散变量转为连续向量，embedding不仅可以减少离散变量的空间维数，还可以有意义地表示变量。

其中，曲谱特征向量可以是指曲谱向量转化模型输出的、用于表征曲谱在音节、音符、连音符、音素、基频等方面的曲谱特征的向量。

其中，曲谱特征确定模型可以是指用于从曲谱特征向量中提取曲谱音素、基频等方面特征的模型，实际应用中，曲谱特征确定模型可以包括编码器、音素时长预测模块和基频预测模块。

作为一种示例，电子设备将解析目标曲谱得到的音节信息、音符信息和连音符信息输入至预训练的曲谱向量转化模型，电子设备将曲谱向量转化模型的输出结果作为目标曲谱的曲谱特征向量，电子设备将曲谱特征向量输入至预训练的曲谱特征确定模型，曲谱特征确定模型的输出结果可分别表示目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频。

本实施例中，通过将音节信息、音符信息和连音符信息输入至预训练的曲谱向量转化模型，得到目标曲谱的曲谱特征向量；将曲谱特征向量输入至预训练的曲谱特征确定模型，得到目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，能够对解析曲谱得到的曲谱信息进行特征提取，获取曲谱关键特征，去除无关信息对曲谱特征的影响，提高曲谱特征的准确率。

在一些实施例中，曲谱特征确定模型包括预训练的曲谱合成编码器、音素时长确定模型和基频确定模型，将曲谱特征向量输入至预训练的曲谱特征确定模型，得到目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，包括：将曲谱特征向量输入至曲谱合成编码器，得到目标曲谱的曲谱编码特征；将曲谱编码特征输入至音素时长确定模型，得到曲谱音素时长；将曲谱编码特征输入至基频确定模型，得到音素级别基频。

其中，曲谱合成编码器可以是指将信号(如比特流)或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备，实际应用中，曲谱合成编码器可根据曲谱合成系统中的曲谱特征向量，确定曲谱的曲谱音素编码特征。

其中，音素时长确定模型可以是指用于预测曲谱中每个音素应该分配的帧数的模型，例如：输入的音节为“jin tian hao”，每个音节对应的帧数为5、5、8，音素时长确定模型可将上述音节拆开为音素“j in t ian h ao”，则每个音素分配的帧长可以为2、3、2、3、3、5。

其中，基频确定模型可以是指对曲谱进行基频提取或基频检测的模型，实际应用中，基频确定模型可预测音素级别的基频，即每个音素对应一个音高。

作为一种示例，图3提出了一种曲谱合成系统，如图3所示，电子设备将音节信息、音符信息和连音符信息输入至预训练的曲谱向量转化模型(embedding)，电子设备将曲谱向量转化模型的输出结果作为曲谱特征向量，电子设备将曲谱特征向量输入至预训练的曲谱合成编码器，得到目标曲谱的曲谱编码特征，电子设备将曲谱编码特征输入至音素时长确定模型(音素时长预测模块)，电子设备将音素时长确定模型的输出结果作为曲谱音素时长，电子设备将曲谱编码特征输入至基频确定模型(基频预测模块)，电子设备将基频确定模型的输出结果作为音素级别基频，其中，曲谱合成系统将基频预测模块放在展开之前，预测的是音素级别的基频，也就是说每个音素对应一个音高，这样可以在保证音素整体音高的准确性的同时，给到音素内帧级别基频一定的宽容度。

本实施例中，通过将曲谱特征向量输入至曲谱合成编码器，得到目标曲谱的曲谱编码特征；将曲谱编码特征输入至音素时长确定模型，得到曲谱音素时长；将曲谱编码特征输入至基频确定模型，得到音素级别基频，能够基于预训练的模块对曲谱编码特征进行处理，得到曲谱音素时长和音素级别基频，提高音素时长和音素级别基频的准确率。

在一些实施例中，根据曲谱音素编码特征、曲谱音素时长和音素级别基频，生成目标曲谱对应的曲谱音频，包括：将曲谱音素编码特征、曲谱音素时长和音素级别基频输入至预训练的曲谱合成解码器，得到目标曲谱对应的曲谱声学特征；将曲谱声学特征输入至声码器，得到目标曲谱对应的曲谱音频。

其中，曲谱合成解码器可以是指将数字视音频数据流解码还原成模拟视音频信号的硬件/软件设备。

其中，曲谱声学特征可以是指表征曲谱的声学特性的物理量。

其中，声码器可以是指将声学特征转成可播放的语音波形的系统。

作为一种示例，如图3所示，电子设备将曲谱音素编码特征、曲谱音素时长和音素级别基频进行展开处理，电子设备将展开处理后的曲谱音素编码特征、曲谱音素时长和音素级别基频输入至预训练的曲谱合成解码器，电子设备将曲谱合成解码器的解码结果输入线性层，得到目标曲谱的曲谱声学特征，电子设备通过声码器将曲谱声学特征转化为目标曲谱对应的曲谱音频。

本实施例中，通过将曲谱音素编码特征、曲谱音素时长和音素级别基频输入至预训练的曲谱合成解码器，得到目标曲谱对应的曲谱声学特征；将曲谱声学特征输入至声码器，得到目标曲谱对应的曲谱音频，能够基于曲谱信息确定的曲谱声学特征，通过声码器生成目标曲谱对应的曲谱音频，提高曲谱音频与曲谱之间的契合度。

在一些实施例中，获取曲谱音频对应的帧级别基频和曲谱音素信息的步骤之前，上述方法还包括：确定曲谱音频的基频偏离信息；在根据基频偏离信息确定曲谱音频存在跑调现象的情况下，根据基频偏离信息，对曲谱音频进行修音处理，得到修音后的曲谱音频，作为新的曲谱音频。

其中，基频偏离信息用于表征曲谱音频中的基频信息与目标曲谱的基频信息之间的偏离程度。

作为一种示例，图4提出了一种音准检测系统，如图4所示，电子设备对曲谱音频进行帧级别的基频检测，得到曲谱音频的帧级别基频，电子设备根据目标曲谱的音节、音符信息和曲谱音频的帧级别基频，进行曲谱音频的音准偏离度估计，确定曲谱音频的基频偏离信息，电子设备根据基频偏离信息判断曲谱音频是否离调，当电子设备根据基频偏离信息确定曲谱音频存在跑调现象的情况下，电子设备根据基频偏离信息对曲谱音频进行音准修正处理，得到修音后的曲谱音频，电子设备将修音后的曲谱音频作为新的曲谱音频，修音后的曲谱音频包括修音后的帧级别基频，电子设备根据修音后的曲谱音频、曲谱音素信息和目标对象的音色信息生成目标对象的歌声；当电子设备根据基频偏离信息确定曲谱音频不存在跑调现象的情况下，直接输出帧级别基频，电子设备根据曲谱音频的帧级别基频、曲谱音素信息和目标对象的音色信息生成目标对象的歌声。

本实施例中，通过确定曲谱音频的基频偏离信息；在根据基频偏离信息确定曲谱音频存在跑调现象的情况下，根据基频偏离信息，对曲谱音频进行修音处理，得到修音后的曲谱音频，作为新的曲谱音频，能够基于曲谱对曲谱音频进行音准检测和修正，提高曲谱音频的准确率。

在一些实施例中，确定所述曲谱音频的基频偏离信息，包括：将音素级别基频输入至滑动平均滤波器，得到音素级别基频的音素内基频均值；确定音素内基频均值和目标曲谱的标准音高之间的基频偏离度；将基频偏离度作为基频偏离信息。

其中，滑动平均滤波器可以是指一种数字滤波器，实际应用中，滑动平均滤波器可以有效地抑制噪声，平滑输入信号的变化，从而提高信号的信噪比。

其中，音素内基频均值可以是指基频曲线中表征音素音高的数值，实际应用中，音素内基频均值可表示为note_hat，音素内基频均值可以包括音素内基频的平均值。

其中，基频偏离度可以是指曲谱音频中的音素内基频均值与目标曲谱的标准音高之间的偏离程度。

作为一种示例，图5提出了一种音素内基频曲线的示意图，如图5所示，以音素“ai”为例，电子设备将曲谱的音素级别基频输入滑动平均滤波器，得到音素内基频均值(note_hat)，曲谱中标记的标准音高可表示为note_ori＝56，电子设备根据音素内基频均值和曲谱中对应的音素的标准音高，确定音素内基频均值和目标曲谱的标准音高之间的基频偏离度，电子设备将基频偏离度作为基频偏离信息，则音素“ai”的基频偏离度可表示为note_diff＝note_hat-note_ori，一般来说，note_diff<0.5则认为没有跑调，0.5是指半个半音，一个半音＝100音分，0.5个半音则是50音分，50音分是一个容忍阈值，音素内基频均值可以通过滑动平均滤波器来计算，也可以简单的使用均值来计算，音素内基频均值可以表征音频实际的基频值，音频实际的基频值和模型内部预测的音素级别的基频不可等价。

本实施例中，通过将音素级别基频输入至滑动平均滤波器，得到音素级别基频的音素内基频均值；确定音素内基频均值和目标曲谱的标准音高之间的基频偏离度；将基频偏离度作为基频偏离信息，能够基于音素级别基频确定音素内基频均值，避免极端基频值对基频偏离度的影响，提高基频偏离信息的准确度。

在一些实施例中，根据基频偏离信息，对曲谱音频进行修音处理，得到修音后的曲谱音频，包括：根据基频偏离信息，确定针对曲谱音频的音高补偿值；根据音高补偿值对曲谱音频的帧级别基频进行修正，得到修正后的帧级别基频；根据修正后的帧级别基频，确定修音后的曲谱音频。

其中，音高补偿值可以是指当曲谱音频需要进行修音时，针对帧级别基频的修改值，实际应用中，音高补偿值可以提高和/或降低基频。

作为一种示例，电子设备如果发现音素内音高有跑调现象，电子设备根据基频偏离信息，确定针对曲谱音频的音高补偿值，电子设备根据音高补偿值对曲谱音频的帧级别基频进行修正，将离调的音高拉回调内，得到修正后的帧级别基频，电子设备根据修正后的帧级别基频，确定修音后的曲谱音频；例如，帧级别基频可表示为frame_note，音高补偿值可表示为note_diff，则修正后的帧级别基频可表示为new_note＝frame_note+note_diff，电子设备根据音高补偿值note_diff，对帧级别基频frame_note做整体的平移操作，得到修正后的帧级别基频new_note，即可获得一组新的基频序列，这组新的基频序列满足目标曲谱的音高要求。

本实施例中，通过根据基频偏离信息，确定针对曲谱音频的音高补偿值；根据音高补偿值对曲谱音频的帧级别基频进行修正，得到修正后的帧级别基频；根据修正后的帧级别基频，确定修音后的曲谱音频，能够基于基频偏离信息确定精确的音高补偿值，从而提高对曲谱音频的帧级别基频的准确度。

在一些实施例中，根据修正后的帧级别基频，确定修音后的曲谱音频，包括：确定修正后的帧级别基频在曲谱基频序列中的基频修正位置；确定基频修正位置对应的基频衔接节点；对基频衔接节点进行过渡处理，得到过渡处理后的基频序列；根据过渡处理后的基频序列，生成修音后的曲谱音频。

其中，曲谱基频序列可以是指曲谱的帧级别基频组成的序列。

其中，基频修正位置可以是指修正后的帧级别基频在曲谱基频序列中的位置。

其中，基频衔接节点可以是指与修正后的帧级别基频衔接的基频在曲谱基频序列中的位置。

作为一种示例，电子设备在对帧级别基频进行修正后，电子设备确定修正后的帧级别基频在曲谱基频序列中的位置，电子设备将修正后的帧级别基频在曲谱基频序列中的位置作为基频修正位置，电子设备检测基频修正位置前后是否有基频衔接，当电子设备检测到基频修正位置前后有基频衔接的情况下，电子设备确定基频修正位置对应的基频衔接节点，电子设备对基频衔接节点进行过渡处理，得到过渡处理后的基频序列，电子设备根据过渡处理后的基频序列，生成修音后的曲谱音频。

本实施例中，通过确定修正后的帧级别基频在曲谱基频序列中的基频修正位置；确定基频修正位置对应的基频衔接节点；对基频衔接节点进行过渡处理，得到过渡处理后的基频序列；根据过渡处理后的基频序列，生成修音后的曲谱音频，能够对修正后的帧级别基频前后的基频衔接点进行过渡处理，提高曲谱音频的自然度。

在一些实施例中，上述方法还包括：获取修改后的曲谱信息；根据修改后的曲谱信息，更新目标曲谱，得到更新后的目标曲谱，作为新的目标曲谱。

其中，修改后的曲谱信息为响应于针对目标曲谱的更改操作确定的；修改后的曲谱信息包括歌词或旋律中的至少一种。

作为一种示例，在曲谱信息需要进行修改的情况下，电子设备获取修改后的曲谱信息，电子设备根据修改后的曲谱信息，对目标曲谱中的歌词信息和/或旋律信息进行修改和更新，得到更新后的目标曲谱，电子设备将更新后的目标曲谱作为新的目标曲谱，例如：如图2所示，电子设备对目标曲谱进行解析后，电子设备得到的解析后曲谱可包括若干个曲谱单元，每个曲谱单元的组合形式可表示为：字_音节_音高，解析后曲谱的格式便于解析程序对曲谱进行解析，当需要对曲谱中的歌词进行修改时，电子设备将字和音节这两个位置的信息替换为新的字和音节，当需要对曲谱中的旋律进行修改时，电子设备将音高位置的信息替换为新的音高。

本实施例中，通过获取修改后的曲谱信息；根据修改后的曲谱信息，更新目标曲谱，得到更新后的目标曲谱，作为新的目标曲谱，能够基于修改后的曲谱信息，及时且便捷地将修改后的曲谱信息更新至原始曲谱，提高曲谱更新效率。

在一些实施例中，上述方法还包括：获取目标对象对应的音色信息；根据帧级别基频、曲谱音素信息和音色信息，生成目标对象对应的目标歌声音频。

其中，目标对象可以是指歌声合成时歌声音色对应的演唱者。

其中，音色信息可以是指表征演唱者歌声特点的信息，实际应用中，由于不同声音表现在波形方面有与众不同的特性，每位演唱者的音色可以是不同的。

其中，目标对象对应的目标歌声音频可以是指歌声合成系统输出的以目标对象的音色演唱目标曲谱的音频。

作为一种示例，电子设备获取作为目标对象的演唱者的歌手身份标识，电子设备根据歌手身份标识，确定目标对象的音色信息，电子设备将目标对象的音色信息、帧级别基频和曲谱音素信息输入至歌声合成系统，生成以目标对象的音色演唱目标曲谱的歌声音频。

本实施例中，通过获取目标对象对应的音色信息；根据帧级别基频、曲谱音素信息和音色信息，生成目标对象对应的目标歌声音频，能够结合目标对象的音色信息，生成以目标对象的音色演唱目标曲谱的歌声音频，实现了对歌声音频的音色修改，提高了歌声合成的灵活性。

为了便于本领域技术人员理解，图6示例性地提出了一种歌声合成系统，如图6所示，电子设备获取曲谱音频对应的帧级别基频、曲谱音素信息和目标对象的身份标识(singer ID)，电子设备根据目标对象的身份标识确定目标对象的音色信息，电子设备将曲谱音频对应的帧级别基频、曲谱音素信息和目标对象的音色信息输入至歌声向量转化模型(embedding)，得到歌声特征向量，电子设备将歌声特征向量输入至歌声合成编码器，得到歌声编码特征，电子设备将歌声编码特征输入至歌声合成解码器，并将歌声合成解码器的输出结果输入至线性层，得到目标歌声的歌声声学特征，电子设备将歌声声学特征输入至声码器，得到目标对象的目标歌声音频，目标歌声音频可表征以目标对象的音色演唱目标曲谱的音频，其中，帧级别基频和曲谱音素信息可作为一种模板，在确定目标对象的音色后，电子设备可基于帧级别基频和曲谱音素信息组成的模板，生成以目标对象的音色演唱目标曲谱的音频。

作为一种示例，图7提出了一种歌声生成方法的流程示意图，如图7所示，电子设备获取目标曲谱的音节信息、音符信息和连音符信息，电子设备将音节信息、音符信息和连音符信息输入曲谱合成系统，电子设备将曲谱合成系统的输出结果输入音准检测系统进行音准检测和修音，得到帧级别信息和音素信息，电子设备将帧级别信息和音素信息输入至歌声合成系统，得到目标对象的目标歌声音频。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的歌声生成方法的歌声生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个歌声生成装置实施例中的具体限定可以参见上文中对于歌声生成方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种歌声生成装置，包括：信息获取模块802、特征确定模块804、音频生成模块806和歌声合成模块808，其中：

信息获取模块802，用于获取目标曲谱的音节信息、音符信息和连音符信息；

特征确定模块804，用于根据所述音节信息、所述音符信息和所述连音符信息，确定所述目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频；

音频生成模块806，用于根据所述曲谱音素编码特征、所述曲谱音素时长和所述音素级别基频，生成所述目标曲谱对应的曲谱音频；

歌声合成模块808，用于获取所述曲谱音频对应的帧级别基频和所述目标曲谱对应的曲谱音素信息，根据所述帧级别基频和所述曲谱音素信息，生成目标歌声音频。

在一个示例性实施例中，上述特征确定模块804具体还用于将所述音节信息、所述音符信息和所述连音符信息输入至预训练的曲谱向量转化模型，得到所述目标曲谱的曲谱特征向量；将所述曲谱特征向量输入至预训练的曲谱特征确定模型，得到所述目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频。

在一个示例性实施例中，所述曲谱特征确定模型包括预训练的曲谱合成编码器、音素时长确定模型和基频确定模型，上述特征确定模块804具体还用于将所述曲谱特征向量输入至所述曲谱合成编码器，得到所述目标曲谱的曲谱编码特征；将所述曲谱编码特征输入至所述音素时长确定模型，得到所述曲谱音素时长，将所述曲谱编码特征输入至所述基频确定模型，得到所述音素级别基频。

在一个示例性实施例中，上述音频生成模块806具体还用于将所述曲谱音素编码特征、所述曲谱音素时长和所述音素级别基频输入至预训练的曲谱合成解码器，得到所述目标曲谱对应的曲谱声学特征；将所述曲谱声学特征输入至声码器，得到所述目标曲谱对应的曲谱音频。

在一个示例性实施例中，上述装置还包括修音模块，该修音模块具体用于确定所述曲谱音频的基频偏离信息；所述基频偏离信息用于表征所述曲谱音频中的基频信息与所述目标曲谱的基频信息之间的偏离程度；在根据所述基频偏离信息确定所述曲谱音频存在跑调现象的情况下，根据所述基频偏离信息，对所述曲谱音频进行修音处理，得到修音后的曲谱音频，作为新的所述曲谱音频。

在一个示例性实施例中，上述修音模块具体还用于将所述音素级别基频输入至滑动平均滤波器，得到所述音素级别基频的音素内基频均值；确定所述音素内基频均值和所述目标曲谱的标准音高之间的基频偏离度；将所述基频偏离度作为所述基频偏离信息。

在一个示例性实施例中，上述修音模块具体还用于根据所述基频偏离信息，确定针对所述曲谱音频的音高补偿值；根据所述音高补偿值对所述曲谱音频的帧级别基频进行修正，得到修正后的帧级别基频；根据所述修正后的帧级别基频，确定所述修音后的曲谱音频。

在一个示例性实施例中，上述修音模块具体还用于确定所述修正后的帧级别基频在曲谱基频序列中的基频修正位置；确定所述基频修正位置对应的基频衔接节点；对所述基频衔接节点进行过渡处理，得到过渡处理后的基频序列；根据所述过渡处理后的基频序列，生成所述修音后的曲谱音频。

在一个示例性实施例中，上述装置还包括曲谱更新模块，该曲谱更新模块具体用于获取修改后的曲谱信息；所述修改后的曲谱信息为响应于针对所述目标曲谱的更改操作确定的；所述修改后的曲谱信息包括歌词或旋律中的至少一种；根据所述修改后的曲谱信息，更新所述目标曲谱，得到更新后的目标曲谱，作为新的所述目标曲谱。

在一个示例性实施例中，上述装置还包括音色融合模块，该音色融合模块具体用于获取目标对象对应的音色信息；根据所述帧级别基频、所述曲谱音素信息和所述音色信息，生成所述目标对象对应的目标歌声音频。

上述歌声生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种歌声生成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种歌声生成方法，其特征在于，所述方法包括：

获取目标曲谱的音节信息、音符信息和连音符信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述音节信息、所述音符信息和所述连音符信息，确定所述目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，包括：

3.根据权利要求2所述的方法，其特征在于，所述曲谱特征确定模型包括预训练的曲谱合成编码器、音素时长确定模型和基频确定模型，所述将所述曲谱特征向量输入至预训练的曲谱特征确定模型，得到所述目标曲谱的曲谱音素编码特征、曲谱音素时长和音素级别基频，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述曲谱音素编码特征、所述曲谱音素时长和所述音素级别基频，生成所述目标曲谱对应的曲谱音频，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取所述曲谱音频对应的帧级别基频和曲谱音素信息的步骤之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述曲谱音频的基频偏离信息，包括：

将所述基频偏离度作为所述基频偏离信息。

7.根据权利要求5所述的方法，其特征在于，所述根据所述基频偏离信息，对所述曲谱音频进行修音处理，得到修音后的曲谱音频，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述修正后的帧级别基频，确定所述修音后的曲谱音频，包括：

确定所述基频修正位置对应的基频衔接节点；

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标对象对应的音色信息；

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。