CN114724539A

CN114724539A - 一种生成个性化音色的歌唱合成方法、装置及存储介质

Info

Publication number: CN114724539A
Application number: CN202210434225.2A
Authority: CN
Inventors: 尹学渊; 肖钦引; 刘鑫忠
Original assignee: Chengdu Long Mobile Technology Co ltd; Chengdu Potential Artificial Intelligence Technology Co ltd
Current assignee: Chengdu Long Mobile Technology Co ltd; Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-07-08

Abstract

本发明涉及语音信号处理及人工智能技术领域，具体而言，涉及一种生成个性化音色的歌唱合成方法、装置及存储介质，该方法的步骤包括：获取历史声学特征数据，建立声学特征训练模型，通过历史声学特征数据对声学特征训练模型进行训练，得到完成训练的声学特征训练模型；输入设定声学特征数据，经预处理后，得到音素数据序列，根据音素的持续时间对音素进行扩充，形成音素扩充序列，对音素扩充序列进行处理，使其与设定声学特征数据的长度一致，之后整合并输入至完成训练的声学特征训练模型内进行计算，得到声谱图，通过声码器对声谱图进行合成，完成个性化音色的生成，其中，音素数据序列包括各个音素的持续时间与音高。

Description

一种生成个性化音色的歌唱合成方法、装置及存储介质

技术领域

本发明涉及语音信号处理及人工智能技术领域，具体而言，涉及一种生成个性化音色的歌唱合成方法、装置及存储介质。

背景技术

近年来随着人工智能的不断发展，其技术应用在各个领域上。人工智能在娱乐、教育上的应用场景越来越多，歌唱合成就是人工智能应用在歌唱领域，不仅可以降低音乐创作和音乐教育等的成本，而且还能提高效率，从而促进歌唱产业的发展。在现有技术中，歌唱合成技术是通过大批量的数据，合成一个或多个较为清晰的歌唱音色，然而这样会存在一系列问题，一方面，想完成音色定制需要用大批量数据重新训练出一个新模型，但新模型不能获取声学特征的细粒度信息，导致模型泛化能力较弱，增加了定制方的成本；另一方面，新模型训练时间较长，没有很好的手段在参数和声音质量之间找到平衡，从而造成了服务方的内存存储和服务成本的增加。针对上述问题，我们设计了一种生成个性化音色的歌唱合成方法、装置及存储介质。

发明内容

本发明的目的在于提供一种生成个性化音色的歌唱合成方法、装置及存储介质，其用于解决上述技术问题。

本发明的实施例通过以下技术方案实现：

一种生成个性化音色的歌唱合成方法，包括如下内容：

获取历史声学特征数据，建立声学特征训练模型，通过历史声学特征数据对声学特征训练模型进行训练，得到完成训练的声学特征训练模型；

输入设定声学特征数据，经预处理后，得到音素数据序列，根据音素的持续时间对音素进行扩充，形成音素扩充序列，对音素扩充序列进行处理，使其与设定声学特征数据的长度一致，之后整合并输入至完成训练的声学特征训练模型内进行计算，得到声谱图，通过声码器对声谱图进行合成，完成个性化音色的生成，其中，音素数据序列包括各个音素的持续时间与音高。

可选的，所述历史声学特征数据包括歌唱音频、重音、韵律、持续时间以及环境噪声。

可选的，所述声学特征训练模型具体为Transformer结构模型，且所述Transformer结构模型中的各个Transformer块中均包括一个自注意网络和一个前馈网络。

可选的，所述声学特征训练模型预设有speaker embedding模块，所述speakerembedding模块用于获取声学特征内的细粒度数据。

可选的，所述声学特征训练模型还引入有条件归一化单元，其计算公式如下所示：

其中，

与

均为矩阵，E^s为speaker embedding模块；

通过条件归一化单元对自注意网络与前馈网络进行归一化应用，完成对Transformer结构模型的微调。

可选的，所述设定声学特征数据的预处理过程具体为：将设定声学特征数据嵌入到相同维度的稠密向量中得到向量序列，再将所述向量序列与位置编码进行运算叠加，经多个一维卷积网络后，得到音素数据序列。

一种生成个性化音色的歌唱合成装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。

本发明实施例的技术方案至少具有如下优点和有益效果：

本发明设计合理、结构简单，通过加入speaker embedding模块和在decoder的部分中引入条件归一化层来微调部分参数，达到生成个性化音色的目的。

附图说明

图1为本发明提供的一种生成个性化音色的歌唱合成方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

在本发明中，声学特征分为两个维度：一是歌唱音频；二是音素水平的声学条件分别的进行建模，包括重音、韵律和时间环境噪声等，因为运用小批量数据定制个性化音色歌唱，对于一些特征会造成过拟合和模型泛化能力不够。所以要先用大批量歌唱数据训练出声学模型，以便于解码器可以根据这些声学信息对不同声学条件下的歌声进行预测音色。

另外，在本发明中，实际还包括乐谱编码器：将乐谱的音素、持续时间和音高作为输入，将位置编码与音乐数据嵌入一起经过多个Transformer层得到了编码器的输出结果。

方差适配器：将结果输入由多层CNN、Linear等组成的持续时间处理器中，得到每个音素的隐藏序列提供包括持续时间、音高和能量在内的方差信息，根据其信息扩展编码器向量序列。

梅尔频谱图解码器：将扩展过后的向量序列输入解码器中，将位置编码与输入的向量序列一起再经过多个Transformer层和Linear层得到输入声码器的梅尔频谱图，最后使用声码器合成歌唱。

如图1所示，本发明提供了其中一种实施例，具体内容如下所示：

乐谱通常包括音素、持续时间、音高等元素是歌唱必需输入元素。将歌曲转换为音素序列，歌唱中的每个字被分解成多个音素，音高按照乐理知识的标准转换音高值。持续时间是每个音素的帧数。

把这三个输入因素分别嵌入到相同维度的稠密向量，与位置编码运算叠加在一起，经过多个一维卷积网络得到编码。

由于输入定制歌唱者音色缺乏足够的数据，音色、韵律和录音环境来预测目标音色，在模型适应过程中泛化能力较差，所以通过对speaker embedding来捕获适配声音中的丰富声学特征,从不同粒度的声学特征中训练模型中部分参数，在训练阶段提升模型的泛化能力，使用大批量的数据先训练一个歌唱者的声学模型，歌唱者维度训练音素上的重音、韵律和时间环境噪声等条件的模型，以确保能对少批量数据的歌唱音色的推断。声学模型分别对歌唱音频和音素水平的声学条件的进行建模。作为梅尔谱图解码器的输入，以便于解码器可以根据这些声学信息对不同声学条件下的歌唱音色进行预测。

上述所述的不同粒度表示为：歌声水平，说话人每句歌声中所呈现的细粒度的声学条件，音素水平，一句歌声中每个音素中较细粒度的声学条件，需要通过speakembedding模块去建立。

获取音素的隐藏序列，音素的隐藏序列内隐藏了每个音素的持续时间、音高。根据每个音素的持续时间对音素序列进行扩充(比如：如果一个音素持续三秒，我们将复制三次这个音素，以达到扩充音素序列的目的)，音高元素也形成了一个与扩充音素序列相对应的序列。之后，整合输出的是和音素特征序列对齐的序列特征(其长度一致)，所以需要预先将声学特征与音素序列进行对齐，然后将音素对应的声学特征进行取均值，方便转换成对应的声谱图。

该模型基本建立在Transformer的结构上，在每个Transformer块中都有一个自注意网络和一个前馈网络。而在编码器中对自注意网络和前馈网络应用归一化后，可学习的scaleγ和biasβ能够有效影响隐藏激活和最终预测结果。小的条件网络根据相应的说话者特征确定层归一化中的尺度和偏置向量，对这个条件网络进行微调。条件网络由两个简单的线性层

与

组成，E^s为speaker embedding模块，这样我们只微调两个矩阵

与

在解码器和歌唱者嵌入的每个条件层归一化，根据如下计算公式：

计算每个尺度，得到scaleγ和biasβ，通过一个小的条件网络来决定归一化的scale和bias向量，并输入对应说话人的声学特征。只用到两个简单的线性层，输入是speaker embedding，输出预测γ和β。通过改变decoder中归一化操作的参数，可以间接调整模型，从而实现以小批量数据来定制个性化歌唱的目的，可学习的scaleγ和biasβ能够有效影响隐藏激活和最终预测结果。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生成个性化音色的歌唱合成方法，其特征在于，包括如下内容：

2.根据权利要求1所述的方法，其特征在于，所述历史声学特征数据包括歌唱音频、重音、韵律、持续时间以及环境噪声。

3.根据权利要求1所述的方法，其特征在于，所述声学特征训练模型具体为Transformer结构模型，且所述Transformer结构模型中的各个Transformer块中均包括一个自注意网络和一个前馈网络。

4.根据权利要求3所述的方法，其特征在于，所述声学特征训练模型预设有speakerembedding模块，所述speaker embedding模块用于获取声学特征内的细粒度数据。

5.根据权利要求4所述的方法，其特征在于，所述声学特征训练模型还引入有条件归一化单元，其计算公式如下所示：

其中，

与

均为矩阵，E^s为speaker embedding模块；

6.根据权利要求1所述的方法，其特征在于，所述设定声学特征数据的预处理过程具体为：将设定声学特征数据嵌入到相同维度的稠密向量中得到向量序列，再将所述向量序列与位置编码进行运算叠加，经多个一维卷积网络后，得到音素数据序列。

7.一种生成个性化音色的歌唱合成装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-6任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6任意一项所述的一种生成个性化音色的歌唱合成方法的步骤。