CN112185343B

CN112185343B - 一种合成歌声音频的方法以及装置

Info

Publication number: CN112185343B
Application number: CN202011013513.8A
Authority: CN
Inventors: 卢迪
Original assignee: Changchun Disheng Software Co ltd
Current assignee: Changchun Disheng Software Co ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2022-07-22
Anticipated expiration: 2040-09-24
Also published as: CN112185343A

Abstract

本公开是关于一种合成歌声音频的方法以及装置，属于音频处理领域。所述方法包括：获取预存的平均歌声模型；获取目标歌声数据的目标特征值文本以及目标声学参数；根据所述目标特征值文本以及所述目标声学参数，确定所述目标发音人的特征值文本与声学参数的特征对应表；基于所述目标特征值文本以及所述目标声学参数，对所述平均歌声模型进行训练，得到目标歌声模型；当接收到待合成曲谱时，提取所述待合成曲谱的特征值文本，基于所述待合成曲谱的特征值文本、所述目标歌声模型以及所述特征对应表，得到所述待合成曲谱对应的目标歌声音频。采用本公开，可以提高歌声合成的效率。

Description

一种合成歌声音频的方法以及装置

技术领域

本公开涉及音频处理领域，尤其涉及一种合成歌声音频的方法以及装置。

背景技术

随着音频技术的发展，歌声合成技术也随着越见成熟。歌声合成的目的是让计算机像人类一样唱歌，是一种计算机与音乐艺术的交叉学科问题。目前，基于合成的质量以及多样性考虑，传统的歌声合成的方式通常是采用样本对歌声合成模型进行训练，歌声合成模型可以是HMM(Hidden Markov Model，隐含马尔柯夫模型)等，使用歌声合成模型前，需要对歌声合成模型进行训练，为了达到歌声合成模型的准确率，需要准备大量的样本对初始模型进行训练，训练的过程计算量巨大，耗时较长，导致训练效率较低，进而使得歌声合成的效率较低。

发明内容

本公开提供一种合成歌声音频的方法以及装置，可以解决歌声合成效率低的问题。

根据本公开实施例的第一方面，提供一种合成歌声音频的方法，包括：

获取预存的平均歌声模型；

获取目标歌声数据的目标特征值文本以及目标声学参数；

根据所述目标特征值文本以及所述目标声学参数，确定所述目标发音人的特征值文本与声学参数的特征对应表；

基于所述目标特征值文本以及所述目标声学参数，对所述平均歌声模型进行训练，得到目标歌声模型；

当接收到待合成曲谱时，提取所述待合成曲谱的特征值文本，基于所述待合成曲谱的特征值文本、所述目标歌声模型以及所述特征对应表，得到所述待合成曲谱对应的目标歌声音频。

可选地，所述获取预存的平均歌声模型，包括：

获取多个样本发音人的样本歌声数据；

提取所述样本歌声数据的样本特征值文本以及样本声学参数；

基于所述样本特征值文本以及所述样本声学参数，对初始歌声模型进行训练，得到平均歌声模型。

可选地，所述根据所述目标特征值文本以及所述目标声学参数，确定所述目标发音人的特征值文本与声学参数的特征对应表，包括：

截取所述目标歌声数据的每个子音以及每个母音对应的声学参数，将每个子音以及每个母音对应的声学参数的对应关系确定为所述目标发音人的特征值文本与声学参数的特征对应表。

可选地，所述基于所述目标特征值文本以及所述目标声学参数，对所述平均歌声模型进行训练，得到目标歌声模型，包括：

将所述目标特征值文本输入所述平均歌声模型，得到输出的预测声学参数；

基于所述预测声学参数与所述目标声学参数的对比，对所述平均歌声模型内的模型参数进行调整，直到所述预测声学参数与所述目标声学参数的误差值小于或等于预设误差值为止，将最后一次调整后的模型参数确定为目标歌声模型的模型参数，得到目标歌声模型。

可选地，所述待合成曲谱的特征值文本包括子音音符对应的特征值文本、母音音符对应的特征值文本以及过渡音符对应的特征值文本，

所述基于所述待合成曲谱的特征值文本、所述目标歌声模型以及所述特征对应表，得到所述待合成曲谱对应的目标歌声音频，包括：

将所述子音音符对应的特征值文本以及过渡音符对应的特征值文本输入所诉目标歌声模型中，得到子音音符对应的声学参数以及过渡音符对应的声学参数；

在所述特征对应表中，将所述母音音符对应的特征值文本对应的声学参数，确定为母音音符对应的声学参数；

将所述子音音符对应的声学参数、过渡音符对应的声学参数以及母音音符对应的声学参数进行混合处理，得到待合成曲谱对应的声学参数；

将所述待合成曲谱对应的声学参数合成为待合成曲谱对应的目标歌声音频。

根据本公开实施例的第二方面，提供一种合成歌声音频的装置，包括：

获取单元，用于获取预存的平均歌声模型；

获取单元，用于获取目标歌声数据的目标特征值文本以及目标声学参数；

确定单元，用于根据所述目标特征值文本以及所述目标声学参数，确定所述目标发音人的特征值文本与声学参数的特征对应表；

训练单元，用于基于所述目标特征值文本以及所述目标声学参数，对所述平均歌声模型进行训练，得到目标歌声模型；

合成单元，用于当接收到待合成曲谱时，提取所述待合成曲谱的特征值文本，基于所述待合成曲谱的特征值文本、所述目标歌声模型以及所述特征对应表，得到所述待合成曲谱对应的目标歌声音频。

可选地，所述获取单元，用于：

获取多个样本发音人的样本歌声数据；

可选地，所述确定单元，用于：

可选地，所述训练单元，用于：

可选地，所述合成单元，用于：

所述待合成曲谱的特征值文本包括子音音符对应的特征值文本、母音音符对应的特征值文本以及过渡音符对应的特征值文本；

本发明至少存在下述有益效果：

使用样本特征值文本以及样本声学参数训练得到平均歌声模型，在用户输入一段曲谱后，电子设备先将其转化为特征值文本，然后将子音音符对应的特征值文本以及过渡音符对应的特征值文本输入到平均歌声模型中，得到子音音符以及过渡音符对应的声学参数，根据母音音符对应的特征值文本，在目标发音人的特征值文本与声学参数的特征对应表中，获取每个母音音符对应的声学参数。将上述两种声学参数进行混合，得到最终的声学参数。最后将声学参数放入合成器，得到最终歌声音频。根据上述步骤论述的方法训练歌声模型，仅需要采用传统训练方法中样本的10％左右的样本，即可训练得到音质更好、自然度更高、更贴近目标发音人的歌声模型，减少了模型的训练量，提高了模型训练的效率，进而提高了合成歌声音频的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种合成歌声音频的方法流程图。

图2是根据一示例性实施例示出的一种合成歌声音频的方法流程图。

图3是根据一示例性实施例示出的一种合成歌声音频的方法过程示意图。

图4是根据一示例性实施例示出的一种合成歌声音频的方法过程示意图。

图5是根据一示例性实施例示出的一种合成歌声音频的装置框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种合成歌声音频的方法的流程图，如图1所示，该方法用于电子设备中，该电子设备可以是终端或者服务器，包括以下步骤。

步骤101、获取预存的平均歌声模型；

步骤102、获取目标歌声数据的目标特征值文本以及目标声学参数；

步骤103、根据所述目标特征值文本以及所述目标声学参数，确定所述目标发音人的特征值文本与声学参数的特征对应表；

步骤104、基于所述目标特征值文本以及所述目标声学参数，对所述平均歌声模型进行训练，得到目标歌声模型；

步骤105、当接收到待合成曲谱时，提取所述待合成曲谱的特征值文本，基于所述待合成曲谱的特征值文本、所述目标歌声模型以及所述特征对应表，得到所述待合成曲谱对应的目标歌声音频。

可选地，所述获取预存的平均歌声模型，包括：

获取多个样本发音人的样本歌声数据；

本实施例将结合具体的实施方式，对合成歌声音频的方法进行介绍。该方法可以由电子设备实现，该电子设备可以是终端，也可以是服务器。电子设备至少包括合成器。如图2所示的合成歌声音频的方法的流程图，该方法的处理流程可以包括如下的步骤：

步骤201、获取多个样本发音人的样本歌声数据。

需要说明的是，样本发音人的数量不需要太多，通常5-10个即可，每个样本发音人准备多个样本歌声数据，通常每个样本发音人准备80-120个样本歌声数据即可，这样，无需搜集大量的样本发音人的样本歌声数据即可对模型进行训练。样本歌声数据可以是完整的歌曲，也可以是歌曲片段，对此不做限定。

步骤202、提取样本歌声数据的样本特征值文本以及样本声学参数。

其中，样本特征值文本包括但不限于样本歌声数据中每个子音(也可称为声母)的发音内容(也可称为音素)、起始时间、结束时间、音高、音长以及是否为句子的起始，以及每个母音(也可称为韵母)的发音内容(也可称为音素)、起始时间、结束时间、音高、音长以及是否为句子的起始等特征。样本声学参数可以包括但不限于每个子音以及每个母音的频谱、非周期索引以及基频等。提取样本歌声数据的样本特征值文本以及样本声学参数可以采用现有技术中的提取算法，本发明对此不做限定。

样本特征值文本与样本声学参数是一一对应的，每个子音的样本特征值文本对应着该子音的样本声学参数，每个母音的样本特征值文本对应着该母音的样本声学参数。

步骤203、基于样本特征值文本以及样本声学参数，对初始歌声模型进行训练，得到平均歌声模型。

一种可行的实施方式中，初始歌声模型为模型参数均为预设值的模型，该模型可以是目前常用的用于合成歌声的神经网络模型，如HMM(Hidden Markov Model，隐含马尔柯夫模型)、CNN(Convolutional Neural Networks，卷积神经网络)模型等，本发明对此不做限定。需要通过样本训练调整该模型中的模型参数以得到平均歌声模型，训练时，将样本特征值文本输入到初始歌声模型中，初始歌声模型输出预测声学参数，将样本特征值文本对应的样本声学参数与预测声学参数进行对比，计算样本声学参数与预测声学参数之间的误差值，当误差值大于预设误差值时，调整初始歌声模型的参数，使得预测声学参数靠近样本声学参数，当误差值小于或等于预设误差值时，即初始歌声模型收敛时，确定当前模型训练完成，将最后一次调整后得到的模型参数作为平均歌声模型的参数。平均歌声模型根据多个发音人的数据训练得到，仅符合多数发音人基本的发音方式，不能够与目标发音人的发音方式很贴切。

步骤204、获取目标歌声数据的目标特征值文本以及目标声学参数。

一种可行的实施方式中，预先准备目标发音人的歌声数据，通常准备目标发音人的15-30个歌曲即可，准备的歌曲中最好尽可能包含更多音高和音长的目标语言的音素。

步骤205、根据目标特征值文本以及目标声学参数，确定目标发音人的特征值文本与声学参数的特征对应表。

一种可行的实施方式中，截取目标歌声数据的每个子音以及每个母音对应的声学参数，将每个子音以及每个母音对应的声学参数的对应关系确定为目标发音人的特征值文本与声学参数的特征对应表。

步骤206、基于目标特征值文本以及目标声学参数，对平均歌声模型进行训练，得到目标歌声模型。

一种可行的实施方式中，为了在平均歌声模型的基础上，可以得到更接近目标发音人的发音方式，还需要使用目标发音人的目标特征值文本以及目标声学参数对平均歌声模型进行训练，训练的步骤可以包括下述步骤2061-2062：

2061、将目标特征值文本输入平均歌声模型，得到输出的预测声学参数。

2062、基于预测声学参数与目标声学参数的对比，对平均歌声模型内的模型参数进行调整，直到预测声学参数与目标声学参数的误差值小于或等于预设误差值为止，将最后一次调整后的模型参数确定为目标歌声模型的模型参数，得到目标歌声模型。

步骤207、当接收到待合成曲谱时，提取待合成曲谱的特征值文本。

步骤208、基于待合成曲谱的特征值文本、目标歌声模型以及特征对应表，得到待合成曲谱对应的目标歌声音频。

一种可行的实施方式中，该步骤可以包括步骤2081-2084：

步骤2081、将子音音符对应的特征值文本以及过渡音符对应的特征值文本输入所诉目标歌声模型中，得到子音音符对应的声学参数以及过渡音符对应的声学参数。

步骤2082、在特征对应表中，将母音音符对应的特征值文本对应的声学参数，确定为母音音符对应的声学参数。

一种可行的实施方式中，在歌声合成的过程中，每个歌词的发音都有曲谱指定的音高和音长两个属性，所以每个歌词的发音要比语音合成技术中的说话发音更长，对音高的要求更精确，仅靠少量的追加数据，对一些超出平均模型音域或音长范围的发音，很难得到好的合成效果，因此，可以将最终合成的目标歌声音频中的每一个音符，如图3所示，分为5个部分：

①子音起始部分，与前一个母音的过渡发音部分

②子音的发音主体

③子音与母音的过渡发音部分

④母音的发音主体

⑤母音结束部分，与后一个子音的过渡发音部分

其中，①③⑤为过渡发音，可以统称为过渡音符，其特点是发音时长短，但直接决定了歌声的连贯自然度，所以这部分可以采用得到的目标歌声模型进行合成。

④是母音音符(也可称为韵母音符)的发音，是每个歌词的发音主体，一段歌声中的绝大部分时间都是④的发音，所以其合成质量直接决定了最终的歌声合成质量。这里使用目标发音人的相似发音部分进行替换，如图4所示。

②是子音音符(也可称为声母音符)的发音，其时长基本不会出现特别长的情况，这里可以直接采用得到的目标歌声模型进行合成，也可以采用使用目标发音人的相似发音部分进行替换，两种方法均可，本发明选择采用目标歌声模型进行合成的方法进行说明。

步骤2083、将子音音符对应的声学参数、过渡音符对应的声学参数以及母音音符对应的声学参数进行混合处理，得到待合成曲谱对应的声学参数。

一种可行的实施方式中，通过上述步骤得到子音音符对应的声学参数、过渡音符对应的声学参数以及母音音符对应的声学参数后，将子音音符对应的声学参数、过渡音符对应的声学参数以及母音音符对应的声学参数进行混合处理，得到待合成曲谱对应的声学参数。

步骤2084、将待合成曲谱对应的声学参数合成为待合成曲谱对应的目标歌声音频。

一种可行的实施方式中，将待合成曲谱对应的声学参数放入合成器中，即可通过合成器合成待合成曲谱对应的目标歌声音频。

这样，使用样本特征值文本以及样本声学参数训练得到平均歌声模型，在用户输入一段曲谱后，电子设备先将其转化为特征值文本，然后将子音音符对应的特征值文本以及过渡音符对应的特征值文本输入到平均歌声模型中，得到子音音符以及过渡音符对应的声学参数，根据母音音符对应的特征值文本，在目标发音人的特征值文本与声学参数的特征对应表中，获取每个母音音符对应的声学参数。将上述两种声学参数进行混合，得到最终的声学参数。最后将声学参数放入合成器，得到最终歌声音频。根据上述步骤论述的方法训练歌声模型，仅需要采用传统训练方法中样本的10％左右的样本，即可训练得到音质更好、自然度更高、更贴近目标发音人的歌声模型，减少了模型的训练量，提高了模型训练的效率，进而提高了合成歌声音频的效率。

图5是根据一示例性实施例示出的一种合成歌声音频的装置框图。参照图5，该装置包括获取单元510，确定单元520、训练单元530和合成单元540。

获取单元510，用于获取预存的平均歌声模型；

获取单元510，用于获取目标歌声数据的目标特征值文本以及目标声学参数；

确定单元520，用于根据所述目标特征值文本以及所述目标声学参数，确定所述目标发音人的特征值文本与声学参数的特征对应表；

训练单元530，用于基于所述目标特征值文本以及所述目标声学参数，对所述平均歌声模型进行训练，得到目标歌声模型；

合成单元540，用于当接收到待合成曲谱时，提取所述待合成曲谱的特征值文本，基于所述待合成曲谱的特征值文本、所述目标歌声模型以及所述特征对应表，得到所述待合成曲谱对应的目标歌声音频。

可选地，所述获取单元510，用于：

获取多个样本发音人的样本歌声数据；

可选地，所述确定单元520，用于：

可选地，所述训练单元530，用于：

可选地，所述合成单元540，用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种合成歌声音频的方法，其特征在于，所述方法包括：

获取预存的平均歌声模型；

获取目标歌声数据的目标特征值文本以及目标声学参数；

2.根据权利要求1所述的合成歌声音频的方法，其特征在于，所述获取预存的平均歌声模型，包括：

获取多个样本发音人的样本歌声数据；

3.根据权利要求1所述的合成歌声音频的方法，其特征在于，所述根据所述目标特征值文本以及所述目标声学参数，确定所述目标发音人的特征值文本与声学参数的特征对应表，包括：

4.根据权利要求1所述的合成歌声音频的方法，其特征在于，所述基于所述目标特征值文本以及所述目标声学参数，对所述平均歌声模型进行训练，得到目标歌声模型，包括：

5.根据权利要求1所述的合成歌声音频的方法，其特征在于，所述待合成曲谱的特征值文本包括子音音符对应的特征值文本、母音音符对应的特征值文本以及过渡音符对应的特征值文本，

6.一种合成歌声音频的装置，其特征在于，包括：

获取单元，用于获取预存的平均歌声模型；

7.根据权利要求6所述的合成歌声音频的装置，其特征在于，所述获取单元，用于：

获取多个样本发音人的样本歌声数据；

8.根据权利要求6所述的合成歌声音频的装置，其特征在于，所述确定单元，用于：

9.根据权利要求6所述的合成歌声音频的装置，其特征在于，所述训练单元，用于：

10.根据权利要求6所述的合成歌声音频的装置，其特征在于，所述合成单元，用于：