CN112767914B

CN112767914B - 歌唱语音合成方法及合成设备、计算机存储介质

Info

Publication number: CN112767914B
Application number: CN202011627562.0A
Authority: CN
Inventors: 殷锋; 胡亚军
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-04-30
Anticipated expiration: 2040-12-31
Also published as: CN112767914A

Abstract

本申请公开了一种歌唱语音合成方法及合成设备、计算机存储介质，该合成方法包括：获取乐谱信息；对乐谱信息进行特征提取，以获得乐谱特征；对乐谱特征进行基频特征预测，以获得基频特征；结合基频特征对乐谱特征进行声学特征预测，以获得声学特征；根据声学特征得到合成后的歌唱语音数据。本申请所提供的合成方法能够提高歌唱语音合成的准确性以及自然度。

Description

歌唱语音合成方法及合成设备、计算机存储介质

技术领域

本申请涉及语音合成技术领域，特别是涉及一种歌唱语音合成方法及合成设备、计算机存储介质。

背景技术

语音合成(Text To Speech，TTS)是一种将文字转换为语音的技术，近年来由于深度学习等工具的发展，取得了较大进步并被广泛应用，从而导致歌唱语音合成(SingingVoice Synthesis，SVS)随之受到更多关注，并逐渐成为虚拟偶像、语音助手以及诸多智能设备重要的功能之一。同时，歌唱语音合成很容易与其他人工智能技术结合，比如机器作曲、自动填词等，形成广阔的应用空间。随着多模态技术的进步，人工智能歌手越来越得到大众的欢迎。

基于计算机的歌唱语音合成研究始于1950年代，传统的歌唱语音合成方法包括单元拼接和统计参数合成方法。目前一些广泛流行的歌唱语音合成方法仍然采用了有上下文依赖的隐马尔可夫模型，但是这些模型面临较严重的过平滑效应，且对于统计参数的建模能力有限，因此生成的歌唱语音在音色和自然度上相比真实歌唱效果大大折扣。

发明内容

本申请主要解决的技术问题是提供一种歌唱语音合成方法及合成设备、计算机存储介质，能够提高歌唱语音合成的准确性以及自然度。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种歌唱语音合成方法，所述方法包括：获取乐谱信息；对所述乐谱信息进行特征提取，以获得乐谱特征；对所述乐谱特征进行基频特征预测，以获得基频特征；结合所述基频特征对所述乐谱特征进行声学特征预测，以获得声学特征；根据所述声学特征得到合成后的歌唱语音数据。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种歌唱语音合成设备，所述歌唱语音合成设备包括处理器、存储器以及通信电路，所述处理器分别耦接所述存储器、所述通信电路，所述存储器中存储有程序数据，所述处理器通过执行所述存储器内的所述程序数据以实现上述方法中的步骤。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序能够被处理器执行以实现上述方法中的步骤。

本申请的有益效果是：本申请的歌唱语音合成方法首先对乐谱特征进行预测得到基频特征，然后结合基频特征对乐谱特征进行预测得到声学特征，最后根据声学特征得到歌唱语音数据，其中在预测声学特征时，结合了基频特征对乐谱特征进行预测，能够保证最终合成的歌唱语音数据的准确率和自然度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请歌唱语音合成方法一实施方式的流程示意图；

图2是一应用场景中对应图1的框架流程图；

图3是图2中基频模型的框架示意图；

图4是图2中声学模型的框架示意图；

图5是图2中基频模型和声学模型的训练过程的流程示意图；

图6是本申请歌唱合成设备一实施方式的结构示意图；

图7是本申请计算机存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先需要说明的是，本申请的歌唱语音合成方法由歌唱语音合成设备执行，该歌唱语音合成设备可以是手机、电脑、智能手表等任一项具有信息处理能力的设备，当用户将乐谱信息输入该歌唱语音合成设备后，歌唱语音合成设备输出对应的歌唱语音数据，即对用户来说，其将乐谱信息输入歌唱语音合成设备后，能够听到对应的歌唱语音，相当于歌唱语音合成设备按照乐谱信息进行了“歌唱”。

参阅图1和图2，图1是本申请歌唱语音合成方法一实施方式的流程示意图，图2是一应用场景中对应图1的框架流程图，该方法包括：

S110：获取乐谱信息。

具体地，乐谱信息可以是歌唱语音合成设备直接获得的，即用户直接将乐谱信息输入到歌唱语音合成设备，也可以是歌唱语音合成设备间接获得的，例如，接收到另一电子设备转发的乐谱信息。

S120：对乐谱信息进行特征提取，以获得乐谱特征。

具体地，提取到的乐谱特征可以是音素特征、音高特征以及时长特征(即曲速特征，表征每一个音素所持续的时长)中的一种或几种的组合。

在一应用场景中，步骤S120具体包括：

S121：对乐谱信息进行特征提取，以获得乐谱信息的音素特征、音高特征以及时长特征。

S122：将音素特征、音高特征以及时长特征进行合并，以获得乐谱特征。

具体地，合并得到的乐谱特征能够同时表征乐谱信息的音素特征、音高特征以及时长特征。

在一应用场景中，采用三个固定维度的向量(这三个向量的维度可以不同，也可以相同)分别表示乐谱信息中的每一个音素的音素特征、音高特征以及时长特征，然后将各个音素所对应的音素特征向量进行横向合并得到一特征矩阵，该特征矩阵表征乐谱信息的音素特征；将各个音素所对应的音高特征向量进行横向合并得到另一特征矩阵，该特征矩阵表征乐谱信息的音高特征；将各个音素所对应的时长特征向量进行横向合并得到又一特征矩阵，该特征矩阵表征乐谱信息的时长特征。可以理解的是，三个特征矩阵的行数相等，均等于乐谱信息中音素的个数。

在得到上述三个特征矩阵后，将三个特征矩阵纵向合并，得到一个新的特征矩阵，即表征乐谱信息的乐谱特征，可以理解的是，此时合并得到的特征矩阵的行数也等于乐谱信息中音素的个数，其列数等于上述三个特征矩阵的列数之和。

例如，假设采用A维的向量表示每一个音素的音素特征，B维的向量表示每一个音素的音高特征，C维的向量表示每一个音素的时长特征，同时假设乐谱信息中音素的个数为L，则乐谱信息的音素特征所对应的特征矩阵大小为L*A，音高特征所对应的特征矩阵大小为L*B，时长特征所对应的特征矩阵大小为L*C，然后将三个特征矩阵进行纵向合并，得到的新的特征矩阵大小为L*(A+B+C)。在一应用场景中，A等于128，B等于1，C等于3。

其中，针对乐谱信息中的每一个音素，可以采用one-hot编码的向量表示对应的音素特征，针对乐谱信息中的每一个音素，可以采用量化的MIDI数值表示对应的音高特征(即此时音素对应的音高特征向量为1维，也即上述的B等于1)。

需要说明的是，在其他应用场景中，也可以将各个音素所对应的音素特征向量进行纵向合并得到一特征矩阵，将各个音素所对应的音高特征向量进行纵向合并得到另一特征矩阵，将各个音素所对应的时长特征向量进行纵向合并得到又一特征矩阵，三个特征矩阵的列数相等，均等于乐谱信息中音素的个数。而后在合并时，将三个特征矩阵进行横向合并，得到对应乐谱特征的新的特征矩阵，该新的特征矩阵的列数等于乐谱信息中音素的个数，行数等于合并的三个特征矩阵的行数之和。

上述对于提取乐谱特征的过程进行了具体介绍，继续参阅图1，下面介绍步骤S120之后的步骤。

S130：对乐谱特征进行基频特征预测，以获得基频特征。

具体地，对乐谱特征进行预测，可以获得乐谱信息所对应的语音数据的基频特征。

在一应用场景中，为了提高步骤S130的处理速度，如图2所示，将乐谱特征输入预设的基频模型进行预测，以获得基频特征。其中，基频模型预先训练完毕并达到收敛，其接收乐谱特征，输出对应的基频特征。

参阅图3，在一应用场景中，基频模型为混合高斯模型(GMM)，包括第一编码模块以及第二编码模块，第一编码模块对输入的乐谱特征进行编码，以获得乐谱特征的第一编码特征；第一解码模块对第一编码特征进行解码，以预测每个高斯分布的参数，得到每个高斯分布的密度函数，然后将所有高斯分布的密度函数相加(按照一定的权重相加)得到基频分布密度函数，而后根据基频分布密度函数得到基频特征。

具体地，基频模型采用GMM-MDN算法进行预测，其包括的第一解码模块用于预测混合高斯模型参数，具体为，将接收到的第一编码特征映射成每个高斯分布的参数(权重、均值和方差)，从而得到基频分布密度函数其中，w_n，μ_n，/>分别为每个高斯分布的权重、均值和方差，N为高斯分布的个数(例如，N为8，表示有8个单高斯)，N()为高斯分布函数标志。

同时第一解码器在得到基频分布密度函数后，就可以得到基频特征，而后基频模型输出该基频特征。具体地，第一解码器在得到基频分布密封函数后，对该基频分布密封函数进行随机采样，从而得到基频特征。

在一应用场景中，第一解码模块的结构为自回归RNN的结构，其通过自回归的方式预测每个高斯分布的参数。

同时如图3所示，基频模型的主体可以采用Seq2Seq的框架，且第一编码模块可以主要由多层双向LSTM构成。

同时第一编码模块在输出第一编码特征后，第一编码特征还会按照乐谱信息中每个音素所对应的时长信息被帧级展开(第一编码特征在经过帧级展开后，其表征的音素的个数与乐谱信息所对应的语音的帧数相等)，而后展开后的第一编码特征被送入第一解码模块进行预测。

其中，基频模型包括的Prenet模块属于现有技术，在此不做具体介绍。

S140：结合基频特征对乐谱特征进行声学特征预测，以获得声学特征。

具体地，结合基频特征对乐谱特征进行预测，可以获得乐谱信息所对应的语音数据的声学特征，此时在预测得到声学特征时，结合了基频特征，而不是单独对乐谱特征进行预测，可以保证预测出的声学特征更加准确，从而保证后续得到的歌唱语音数据的准确性以及自然度。

其中，声学特征可以是频谱特征，其具体可以为80维梅尔频谱。

其中，步骤S140具体可以包括：将基频特征和乐谱特征进行融合处理，得到融合特征；对融合特征进行声学特征预测，以获得声学特征。

具体地，将基频特征和乐谱特征进行融合处理得到的融合特征既包含了乐谱中的信息，也包括基频信息，能够保证后续歌唱语音数据的准确性以及自然度。

其中融合的具体过程可以是将基频特征对应的参数表征和乐谱特征对应的参数表征通过计算融合成一个新的参数表征，而后根据该新的参数表征进行声学特征预测，例如，参数表征是特征矩阵，则将基频特征对应的特征矩阵和乐谱特征对应的特征矩阵进行拼接，得到一个新的特征矩阵，该新的特征矩阵即为融合特征的特征矩阵，而后基于该融合特征的特征矩阵进行后续步骤。

在一应用场景中，为了提高步骤S140的处理速度，结合图2，在步骤S130预测得到基频特征后，将乐谱特征和基频特征一起输入声学模型进行预测，以获得声学特征。

参阅图4，在一应用场景中，声学模型包括第二编码模块以及第二解码模块，第二编码模块对输入的乐谱特征进行编码，以获得乐谱特征的第二编码特征，第二解码模块对第二编码特征和基频特征进行合并后的合并特征进行解码，以获得声学特征，即第二解码模块的输入为第二编码特征和基频特征进行合并后的合并特征，输出为声学特征。

同时如图4所示，声学模型主体的框架与基频模型主体的框架不同，且此时采用CBHG模块作为第二编码模块，其包括一个卷积bank，高速网络(Highway Network)以及双向GRU构成的RNN。

与上述基频模型相同，第二解码模块的结构也为自回归RNN的结构。

与上述基频模型不同的是，乐谱特征按照乐谱信息中每个音素对应的时长信息被帧级展开后送入声学模型(乐谱特征在被帧级展开后，其所表征的音素的个数与乐谱信息所对应的语音的帧数相等)，当然乐谱特征也可以在送入声学模型后按照时长信息被帧级展开，在此不做限制。

其中，将第二编码特征和基频特征进行合并的过程指的是，将第二编码特征对应的特征矩阵和基频特征对应的特征矩阵进行矩阵拼接得到一个新的特征矩阵，该新的特征矩阵对应合并特征。其中矩阵拼接可以是两个矩阵横向拼接、纵向拼接或者进行相加、相减等计算。

同时为了提高处理速度，可以设置第二解码模块在进行预测时，一次预测多帧(例如2～4帧，其中多帧是相对乐谱信息对应的语音而言)的声学特征，为了达到与第二解码器相同的时间步，继续参阅图4，声学模型进一步包括下采样模块，该下采样模块对第二编码特征和基频特征进行合并后的合并特征进行下采样，以获得下采样后的下采样特征，而后第二解码模块对下采样特征进行解码，以获得声学特征。

需要说明的是，基频模型也可以包括下采样模块，用于对第一编码特征进行下采样，而后第一解码模块对下采样得到的下采样特征进行解码。

其中，声学模型包括的Prenet模块属于现有技术，在此不再赘述。

S150：根据声学特征得到合成后的歌唱语音数据。

具体地，得到的歌唱语音数据即为乐谱信息对应的语音数据，即对用户而言，其能够听到歌唱语音合成设备将乐谱信息“唱了出来”。

在一应用场景中，结合图2，为了提高步骤S150的处理速度，在步骤S140预测得到声学特征后，将该声学特征输入预设的声码器后，得到歌唱语音数据。

在一应用场景中，声码器基于WaveNet、WaveRNN等神经网络预先训练并达到收敛。

本实施方式由于在预测得到声学特征时，同时结合了乐谱特征和基频特征，因此最终得到的歌唱语音数据中能够包含专业歌手的“颤音”、“转调”等技巧，最终提升歌唱语音合成的准确性、鲁棒性、专业性以及自然度。

在本实施方式中，在获取乐谱信息之前，还会对基频模型、声学模型进行训练：获取训练数据，训练数据包括样本语音数据和对应的样本乐谱信息；以样本乐谱信息为输入，样本语音数据为真值标签分别对基频模型、声学模型进行训练，结合图5，其具体训练过程如下：

S101：获取训练数据，训练数据包括样本语音数据和对应的样本乐谱信息。

具体地，样本语音数据和样本乐谱信息对应指的是样本语音数据是样本乐谱信息的录音数据，两者包含相同的信息。

其中，样本语音数据在训练过程中起到监督作用。

S102：对样本语音数据进行特征提取，以获得样本基频特征以及样本声学特征。

具体地，提取到的基频特征和样本声学特征在后续模型训练过程中起到监督作用。

其中，在本实施方式中，样本声学特征为样本频谱特征，且具体为80维梅尔频谱。

S103：对样本乐谱信息进行特征提取，以获得样本乐谱特征。

具体地，对样本乐谱信息进行特征提取的过程与上述步骤S120对乐谱信息进行特征提取的过程相同，具体可参见上述实施方式，在此不再赘述。

S104：以样本乐谱特征作为输入，并以样本基频特征作为真值标签对基频模型进行训练。

具体地，首先构建基频模型的基本框架，然后将样本乐谱特征输入该框架，以样本基频特征作为监督数据进行训练。

在一应用场景中，基频模型的结构如图3所示，其具体结构介绍可参见上述相关内容，在此不再赘述。

同时在训练过程中，可以使用负对数似然函数作为损失函数，具体公式为：

其中，/>为训练过程中基频模型预测得到的基频分布密度函数，其中，通过梯度下降使该损失函数最小化，从而使基频模型达到收敛。

其中在训练时，基频模型的预测处理过程与上述基频模型的预测过程相同，只需要将上述输入的乐谱特征替换为此处的样本乐谱特征即可，具体可参见上述相关内容，在此不再赘述。

S105：以样本乐谱特征和样本基频特征作为输入，并以样本声学特征为真值标签对声学模型进行训练。

具体地，首先构建声学模型的基本框架，然后将样本乐谱特征和样本基频特征输入该框架，以样本声学特征作为监督数据进行训练。

在一应用场景中，声学模型的结构如图4所示，其具体结构介绍可参见上述相关内容，在此不再赘述。

同时在训练过程中，可以使用均方误差(MSE)作为声学模型的损失函数，其中，通过梯度下降使该损失函数最小化，从而使声学模型达到收敛。

其中在训练时，声学模型的预测处理过程与上述声学模型的预测过程相同，只要将上述输入的乐谱特征替换为此处的样本乐谱特征以及输入的基频特征替换为此处的样本基频特征即可，具体可参见上述相关内容，在此不再赘述。

在一应用场景中，考虑到歌曲流派多变、歌手的个人风格等多种因素影响，很难保证样本语音数据是完全按照样本乐谱信息演唱的，也就是会存在样本语音数据和对应的样本乐谱信息相差很大的情况，因此在对基频模型和声学模型进行训练之前，还会根据样本语音数据对样本乐谱信息进行修正，而后基于修正后的样本乐谱信息执行后续步骤。

具体地，以样本语音数据为标准对样本乐谱信息进行修正，使得样本乐谱信息中音素的时长与样本语音数据中对应音素的时长保持一致(即同一音素的时长保持一致)，和/或，样本乐谱信息中音素的音高与样本语音数据中对应音素的音高保持一致(即同一音素的音高保持一致)。

在一应用场景中，同时修正样本乐谱信息中的时长和音高，即，根据样本语音数据中音素的时长修正样本乐谱信息中对应音素的时长；以及，根据样本语音数据中音素的音高修正样本乐谱信息中对应音素的音高。

其中，对时长修正的过程包括：对样本语音数据进行划分，以获得语音数据中每个音素的时长；将样本乐谱特征中每个音素的时长修正为与样本语音数据中对应音素的时长相同。

具体地，将样本语音数据进行划分得到文本和时长信息，即样本语音数据所包括的各个音素以及各个音素对应的时长，然后对应修正样本乐谱信息中的时长，使得样本语音数据和样本乐谱信息中同一音素的时长保持相等。其中，可以使用传统基于隐马尔可夫模型(HMM)的划分方法对样本语音数据进行划分。

其中，对音高修正的过程包括：计算样本语音数据中每个音素在所持续时间内对应的基频均值，并将基频均值转换为音高pitch数值；将样本乐谱信息中每个音素的音高修正为样本语音数据中对应音素所对应的音高pitch数值。

具体地，可以采用如下公式将基频均值转换为音高pitch数值：其中，p为音高pitch数值，f为基频均值。

在一应用场景中，考虑到采用上述公式得到的音高pitch数值是非整数，因此在将基频均值转换为音高pitch数值后，还会进行量化处理，即四舍五入处理，从而得到最终的音高pitch数值。

在一应用场景中，在计算每个音素在所持续时间内对应的基频均值时，计算每个音素在所持续时间内中间段(例如，60～80％或者40～60％等)所对应的基频均值，当然也可以计算每个音素在所持续时间内全程的基频均值，在此不做限制。

现有技术中，通常构建精细标注的歌唱数据集进行模型训练，此做法的前提是请专业歌手进行录制，这样的做法存在两个问题，一个是请专业歌手进行录制成本高，另一个是录制时严格按照乐谱几乎是不可能实现的，不同的歌曲流派和伴奏，以及不同歌手的演唱风格往往会使录音中的音高、时长与乐谱发生偏差，而本实施方式以样本语音数据为标准对样本乐谱信息进行修正，而后基于修正后的样本乐谱信息进行训练，一方面可以无需请专业歌手进行录制，能够节省成本，另一方面在经过修正后，样本语音数据和样本乐谱信息在音高、时长方面保持一致或基本保持一致，能够保证训练出的模型的预测准确性。

另外本申请在修正时以样本语音数据修正样本乐谱信息，而不是以样本乐谱信息修正样本语音数据，能够避免修正后的样本语音数据与实际演唱的效果偏离较大，通俗地讲，若修正样本语音数据，修正后的样本语音数据听上去可能不像是人演唱的。

可以理解的是，当只使用基频模型进行基频特征预测，而不使用声学模型进行声学特征预测时，上述模型的训练过程可以不包括步骤S105，且不需要提取样本语音数据的样本声学特征，当只使用声学模型进行声学特征预测，而不使用基频模型进行基频特征预测时，上述模型的训练过程可以不包括步骤S104。

参阅图6，图6是本申请歌唱语音合成设备一实施方式的结构示意图，该歌唱语音合成设备200包括处理器210、存储器220以及通信电路230，处理器210分别耦接存储器220、通信电路230，存储器220中存储有程序数据，处理器210通过执行存储器220内的程序数据以实现上述任一项实施方式中歌唱语音合成方法的步骤，其中详细的步骤可参见上述实施方式，在此不再赘述。

其中，歌唱语音合成设备200可以是手机、电脑、智能手表等任一项具有信息处理能力的设备，而具体为何种设备，在此不做赘述。

参阅图7，图7是本申请计算机存储介质一实施方式的结构示意图。该计算机存储介质300存储有计算机程序310，计算机程序310能够被处理器执行以实现上述任一项方法中的步骤。

其中，计算机存储介质300具体可以为U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储计算机程序310的装置，或者也可以为存储有该计算机程序310的服务器，该服务器可将存储的计算机程序310发送给其他设备运行，或者也可以自运行该存储的计算机程序310。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种歌唱语音合成方法，其特征在于，所述方法包括：

获取乐谱信息；

对所述乐谱信息进行特征提取，以获得乐谱特征；

对所述乐谱特征进行基频特征预测，以获得基频特征；

结合所述基频特征对所述乐谱特征进行声学特征预测，以获得声学特征；

根据所述声学特征得到合成后的歌唱语音数据；

所述结合所述基频特征对所述乐谱特征进行声学特征预测，以获得声学特征的步骤，包括：将所述乐谱特征和所述基频特征输入预设的声学模型进行预测，以获得所述声学特征；其中，预设的所述声学模型包括第二编码模块以及第二解码模块；

所述第二编码模块对输入的所述乐谱特征进行编码，以获得所述乐谱特征的第二编码特征；

所述第二解码模块对所述第二编码特征和所述基频特征进行合并后的合并特征进行解码，以获得所述声学特征；

预设的所述声学模型进一步包括下采样模块；

所述下采样模块对所述第二编码特征和所述基频特征进行合并后的所述合并特征进行下采样，以获得下采样后的下采样特征，而后所述第二解码模块对所述下采样特征进行解码，以获得所述声学特征。

2.根据权利要求1所述的方法，其特征在于，所述结合所述基频特征对所述乐谱特征进行声学特征预测，以获得声学特征的步骤，包括：

将所述基频特征和所述乐谱特征进行融合处理，得到融合特征；

对所述融合特征进行声学特征预测，以获得所述声学特征。

3.根据权利要求1所述的方法，其特征在于，所述对所述乐谱特征进行基频特征预测，以获得基频特征的步骤，包括：

将所述乐谱特征输入预设的基频模型进行预测，以获得所述基频特征。

4.根据权利要求3所述的方法，其特征在于，预设的所述基频模型是混合高斯模型，包括第一编码模块以及第一解码模块；

所述第一编码模块对输入的所述乐谱特征进行编码，以获得所述乐谱特征的第一编码特征；

所述第一解码模块对所述第一编码特征进行解码，以预测每个高斯分布的参数，得到每个所述高斯分布的密度函数，然后将所有所述高斯分布的密度函数相加得到基频分布密度函数，而后根据所述基频分布密度函数得到所述基频特征。

5.根据权利要求3所述的方法，其特征在于，在所述获取乐谱信息的步骤之前，还包括：

获取训练数据，所述训练数据包括样本语音数据和对应的样本乐谱信息；

对所述样本语音数据进行特征提取，以获得样本基频特征；

对所述样本乐谱信息进行特征提取，以获得样本乐谱特征；

以所述样本乐谱特征作为输入，并以所述样本基频特征作为真值标签对所述基频模型进行训练。

6.根据权利要求1所述的方法，其特征在于，在所述获取乐谱信息的步骤之前，进一步包括：

对所述样本语音数据进行特征提取，以获得样本基频特征以及样本声学特征；

对所述样本乐谱信息进行特征提取，以获得样本乐谱特征；

以所述样本乐谱特征和所述样本基频特征作为输入，并以所述样本声学特征为真值标签对所述声学模型进行训练。

7.根据权利要求5或6所述的方法，其特征在于，在所述对所述样本乐谱信息进行特征提取，以获得样本乐谱特征的步骤之前，还包括：

根据所述样本语音数据对所述样本乐谱信息进行修正，而后基于修正后的所述样本乐谱信息执行后续步骤。

8.根据权利要求7所述的方法，其特征在于，所述根据所述样本语音数据对所述样本乐谱信息进行修正的步骤，包括：

根据所述样本语音数据中音素的时长修正所述样本乐谱信息中对应音素的时长；以及，

根据所述样本语音数据中音素的音高修正所述样本乐谱信息中对应音素的音高。

9.根据权利要求8所述的方法，其特征在于，所述根据所述样本语音数据中音素的时长修正所述样本乐谱信息中对应音素的时长的步骤，包括：

对所述样本语音数据进行划分，以获得所述语音数据中每个音素的时长；

将所述样本乐谱特征中每个音素的时长修正为与所述样本语音数据中对应音素的时长相同。

10.根据权利要求8所述的方法，其特征在于，所述根据所述样本语音数据中音素的音高修正所述样本乐谱信息中对应音素的音高的步骤，包括：

计算所述样本语音数据中每个音素在所持续时间内对应的基频均值，并将所述基频均值转换为音高pitch数值；

将所述样本乐谱信息中每个音素的音高修正为所述样本语音数据中对应音素所对应的所述音高pitch数值。

11.根据权利要求1所述的方法，其特征在于，所述对所述乐谱信息进行特征提取，以获得乐谱特征的步骤，包括：

对所述乐谱信息进行特征提取，以获得所述乐谱信息的音素特征、音高特征以及时长特征；

将所述音素特征、所述音高特征以及所述时长特征进行合并，以获得所述乐谱特征。

12.根据权利要求1所述的方法，其特征在于，所述根据所述声学特征得到合成后的歌唱语音数据的步骤，包括：

将所述声学特征输入预设的声码器，以获得合成后的所述歌唱语音数据。

13.一种歌唱语音合成设备，其特征在于，所述歌唱语音合成设备包括处理器、存储器以及通信电路，所述处理器分别耦接所述存储器、所述通信电路，所述存储器中存储有程序数据，所述处理器通过执行所述存储器内的所述程序数据以实现如权利要求1-12任一项所述方法中的步骤。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-12任一项所述方法中的步骤。