CN111429877A

CN111429877A - 歌曲处理方法及装置

Info

Publication number: CN111429877A
Application number: CN202010140669.6A
Authority: CN
Inventors: 孙见青
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-07-17
Anticipated expiration: 2040-03-03
Also published as: CN111429877B

Abstract

本发明是关于歌曲处理方法及装置。该方法包括：获取歌曲的简谱信息；确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征；根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长；根据所述目标音素时长对所述歌曲的文本进行语音合成。通过本发明的技术方案，在歌曲合成时，利用理论音频特征以及音素时长模型对音素时长以及合成音高进行控制，进而提高歌唱合成的准确性和自然度。

Description

歌曲处理方法及装置

技术领域

本发明涉及歌曲处理技术领域，尤其涉及歌曲处理方法及装置。

背景技术

目前，很多场景下都需要对歌曲的文本进行语音合成，而现有技术在对歌曲的文本进行语音合成时，语音合成可控性较差，很可能出现合成节奏和音高不能控制等问题，从而导致歌唱合成自然度较低的问题。

发明内容

本发明实施例提供了歌曲处理方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供一种歌曲处理方法，包括：

获取歌曲的简谱信息；

确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征；

根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长；

根据所述目标音素时长对所述歌曲的文本进行语音合成。

在一个实施例中，所述理论音频特征包括理论音节时长和理论基频值；

所述根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长，包括：

将所述当前音素特征输入至所述音素时长模型，得到当前音素时长；

根据所述理论音节时长，对所述当前音素时长进行调整，获得所述目标音素时长。

在一个实施例中，所述根据所述目标音素时长对所述歌曲的文本进行语音合成，包括：

根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展，获得帧扩展后的文本的目标音素特征；

将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数；

根据所述歌曲的声学参数，重构所述歌曲的文本对应的目标语音。

在一个实施例中，帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同；

所述声学参数包括基频以及频谱参数。

在一个实施例中，所述确定所述简谱信息的理论音频特征，包括：

通过第一预设公式，确定所述简谱信息的所述理论音节时长d_i(单位为秒)，其中，第一预设公式如下：

(第一预设公式)

tmpo为所述简谱信息中的节奏，即每分钟含有的节拍数，dnote_i为当前音节i的节拍；

通过第二预设公式，确定所述简谱信息的所述理论基频值f0，其中，第二预设公式如下：

440表示中央C上A音符发出的频率(单位为HZ)，p为简谱信息中标注的音高与中央C上A音符的距离，单位为半音。

根据本发明实施例的第二方面，提供一种歌曲处理装置，包括：

获取模块，用于获取歌曲的简谱信息；

第一确定模块，用于确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征；

第二确定模块，用于根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长；

合成模块，用于根据所述目标音素时长对所述歌曲的文本进行语音合成。

所述第二确定模块包括：

输入子模块，用于将所述当前音素特征输入至所述音素时长模型，得到当前音素时长；

调整子模块，用于根据所述理论音节时长，对所述当前音素时长进行调整，获得所述目标音素时长。

在一个实施例中，所述合成模块包括：

扩展子模块，用于根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展，获得帧扩展后的文本的目标音素特征；

预测子模块，用于将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数；

重构子模块，用于根据所述歌曲的声学参数，重构所述歌曲的文本对应的目标语音。

所述声学参数包括基频以及频谱参数。

在一个实施例中，所述第一确定模块包括：

第一确定子模块，用于通过第一预设公式，确定所述简谱信息的所述理论音节时长d_i(单位为秒)，其中，第一预设公式如下：

(第一预设公式)

第二确定子模块，用于通过第二预设公式，确定所述简谱信息的所述理论基频值f0，其中，第二预设公式如下：

本发明的实施例提供的技术方案可以包括以下有益效果：

在根据歌曲的简谱信息确定理论音频特征以及歌曲的文本的当前音素特征之后，可根据当前音素特征、理论音频特征以及音素时长模型，自动确定歌曲的目标音素时长，从而利用目标音素时长对歌曲的文本进行语音合成，以实现在歌曲合成时，利用理论音频特征以及音素时长模型对音素时长以及合成音高进行控制，进而提高歌唱合成的准确性和自然度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种歌曲处理方法的流程图。

图2是根据一示例性实施例示出的一种歌曲处理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为了解决上述技术问题，本发明实施例提供了一种歌曲处理方法，该方法可用于歌曲处理程序、系统或装置中，且该方法对应的执行主体可以是终端或服务器，如图1所示，该方法包括步骤S101至步骤S104：

在步骤S101中，获取歌曲的简谱信息；

在步骤S102中，确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征；

在步骤S103中，根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长；

音素时长模型用于预测文本的音素的时长。

在步骤S104中，根据所述目标音素时长对所述歌曲的文本进行语音合成。

当前音素特征即该歌曲的简谱信息的当前音素表征。

通过将当前音素特征输入至音素时长模型，可获得当前音素时长，然后利用简谱信息中的理论音节时长对当前音素时长进行拉升或压缩，以获得目标音素时长，从而融入简谱中的节奏和音高等信息对歌曲的文本的音素进行调整，以控制歌唱合成时的音高，提高歌唱合成自然度。

根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展，获得帧扩展后的文本的目标音素特征；目标音素时长为目标音素特征所占用的时长。

将所述理论基频值和所述目标音素特征输入至基于DNN(Deep Neural Networks，深度神经网络)的端到端语音合成模型以预测出所述歌曲的声学参数；

端到端语音合成模型训练过程如下：

需要录制一定量的歌唱音库，得到<文本、语音>对；

训练时，以文本对应的音素表征作为输入，输入至端到端模型中，而语音对应的声学参数(基频、谱参数)作为输出，具体如下：为了控制合成语音的节奏，对文本和语音进行force alignment(强制对齐)，根据force alignment结果，对文本的音素进行帧扩展(即为文本的音素补充音素，以增加音素数目)，保证输入和输出的帧数一致。当然，为了控制合成语音的音高，输入中不但包括音素表征信息、还包括基频信息，输出为语音对应的声学参数信息，训练端到端模型。

为了控制合成语音的节奏，可根据目标音素时长对歌曲的文本的音素进行帧扩展，以获得帧扩展后的文本的目标音素特征，进而将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数，即预测出歌曲的谱参数，该谱参数用于表征音色、发音内容等参数，然后根据歌曲的声学参数，重构所述歌曲的文本对应的目标语音，从而在歌曲合成时，利用声学参数调整语音合成中的音高、音色以确保音色前后的一致性、音高的合适性，提高歌唱合成自然度。

其次，现有技术中的端到端语音合成模型一般不可对韵律进行精确控制，而本发明通过结合简谱信息可对音素时长进行调整，进而对端到端语音合成模型合成的歌曲的韵律进行精确控制。

另外，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。

在重构目标语音时，可将歌曲的声学参数输入至声码器，然后利用声码器重构目标语音。声码器可以是griffin-Lim、WaveNet或LPCNet等。

所述声学参数包括基频以及频谱参数。

在进行帧扩展后，可确保帧扩展后的文本的音素数目与目标语音的帧数的数目相同，从而使得文本和目标语音是对齐的。音素数目即文本的音素的数目。

(第一预设公式)

通过利用上述第一预设公式确定出理论音节时长d_i以及上述第二预设公式确定出理论基频值f0，可对歌曲合成时的音高、节拍、节奏进行控制，以提高所合成的目标语音的准确性和自然度。

最后，需要明确的是：本领域技术人员可根据实际需求，将上述多个实施例进行自由组合。

对应本发明实施例提供的上述歌曲处理方法，本发明实施例还提供一种歌曲处理装置，如图2所示，该装置包括：

获取模块201，用于获取歌曲的简谱信息；

第一确定模块202，用于确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征；

第二确定模块203，用于根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长；

合成模块204，用于根据所述目标音素时长对所述歌曲的文本进行语音合成。

所述第二确定模块包括：

在一个实施例中，所述合成模块包括：

所述声学参数包括基频以及频谱参数。

在一个实施例中，所述第一确定模块包括：

(第一预设公式)

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种歌曲处理方法，其特征在于，包括：

获取歌曲的简谱信息；

根据所述目标音素时长对所述歌曲的文本进行语音合成。

2.根据权利要求1所述的方法，其特征在于，

所述理论音频特征包括理论音节时长和理论基频值；

3.根据权利要求2所述的方法，其特征在于，

所述根据所述目标音素时长对所述歌曲的文本进行语音合成，包括：

4.根据权利要求3所述的方法，其特征在于，

帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同；

所述声学参数包括基频以及频谱参数。

5.根据权利要求2所述的方法，其特征在于，

所述确定所述简谱信息的理论音频特征，包括：

(第一预设公式)

6.一种歌曲处理装置，其特征在于，包括：

获取模块，用于获取歌曲的简谱信息；

7.根据权利要求6所述的装置，其特征在于，

所述理论音频特征包括理论音节时长和理论基频值；

所述第二确定模块包括：

8.根据权利要求7所述的装置，其特征在于，

所述合成模块包括：

9.根据权利要求8所述的装置，其特征在于，

所述声学参数包括基频以及频谱参数。

10.根据权利要求7所述的装置，其特征在于，

所述第一确定模块包括：

(第一预设公式)