CN113066459A

CN113066459A - 基于旋律的歌曲信息合成方法、装置、设备及存储介质

Info

Publication number: CN113066459A
Application number: CN202110311417.XA
Authority: CN
Inventors: 刘奡智; 陈政培; 韩宝强; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-02
Anticipated expiration: 2041-03-24
Also published as: CN113066459B

Abstract

本发明涉及人工智能技术领域，提供一种基于旋律的歌曲信息合成方法、装置、设备及存储介质，用于提高对歌曲信息合成的普适性。基于旋律的歌曲信息合成方法包括：获取包括对数幅度谱的预处理语音信息和目标旋律信息，通过目标歌唱合成模型中的编码器，分别对对数幅度谱和目标旋律轮廓进行音素编码处理，得到语音音素和旋律音素；通过目标歌唱合成模型中的跳跃连接网络，将语音音素和旋律音素传递至目标歌唱合成模型中的解码器，解码器包括转置的一维卷积核的上采样层；通过解码器，对语音音素和旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息。此外，本发明还涉及区块链技术，预处理语音信息和目标旋律信息可存储于区块链中。

Description

基于旋律的歌曲信息合成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能的语言信号处理领域，尤其涉及一种基于旋律的歌曲信息合成方法、装置、设备及存储介质。

背景技术

对于音乐作曲家，较为希望的是能够听到同一句歌词的多种旋律变化，以探索音频中的变化规律，因而随着计算机技术和人工智能的发展，如何将语音转换为歌唱旋律成为了一个发展和关注方向。

目前，将语音转换为歌唱旋律的方式一般为基于模型的转换方式和基于模板的转换方式。基于模型的方式为：输入语音、乐谱和手动分割音素，通过同步信息和手动设计的模型，将语音和乐谱合成并输出歌唱旋律。基于模板的转换方式：输入语音和歌唱模板，将语音和歌唱模板进行匹配，提取语音和匹配的歌唱模板的特征，根据特征估算对齐语音合成的参数，根据参数输出歌唱旋律。

但是，由于基于模型的转换方式中的手动分割音素，需要人工进行分割以及将每个音素与相应的音符关联，歌唱的输出需要音素同步信息，基于模板的转换方式中的歌唱模板对于质量的要求较大，且需要人工来创建，因而，基于模型的转换方式和基于模板的转换方式均需要额外的高质量的输入，其适用性非常受限，导致了在无额外高质量的输入的情况下，不能合成保留原语音的内容、音色和遵循了目标旋律轮廓的歌唱旋律的问题，进而导致了对歌曲信息合成的普适性较低。

发明内容

本发明提供一种基于旋律的歌曲信息合成方法、装置、设备及存储介质，用于提高对歌曲信息合成的普适性。

本发明第一方面提供了一种基于旋律的歌曲信息合成方法，包括：

获取预处理语音信息和目标旋律信息，所述预处理语音信息包括时域语音信号对应的对数幅度谱，所述目标旋律信息包括目标旋律轮廓；

通过预置的目标歌唱合成模型中的编码器，分别对所述对数幅度谱和所述目标旋律轮廓进行音素编码处理，得到语音音素和旋律音素，所述编码器包括一维卷积的下采样层和基于门控循环单元的递归层；

通过所述目标歌唱合成模型中的跳跃连接网络，将所述语音音素和所述旋律音素传递至所述目标歌唱合成模型中的解码器，其中，所述解码器中的上采样层的卷积核为转置的一维卷积核；

通过所述解码器，对所述语音音素和所述旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息。

可选的，在本发明第一方面的第一种实现方式中，所述获取预处理语音信息和目标旋律信息，包括：

获取时域语音信号，以及从预置数据库中匹配与所述时域语音信号对应的目标旋律轮廓，得到目标旋律信息；

对所述时域语音信号进行无声帧移除，得到候选语音信号；

对所述候选语音信号进行对数幅度谱转换，得到预处理语音信息。

可选的，在本发明第一方面的第二种实现方式中，所述对所述时域语音信号进行无声帧移除，得到候选语音信号，包括：

对所述时域语音信号进行固定量的基音偏移处理，得到初始语音信号；

对所述初始语音信号依次进行声音能量判断、无声帧标记和无声帧移除，得到候选语音信号。

可选的，在本发明第一方面的第三种实现方式中，所述对所述候选语音信号进行对数幅度谱转换，得到预处理语音信息，包括：

通过预置相位声码器，将所述候选语音信号的时长与所述目标旋律信息的旋律时长进行对齐处理，得到对齐时域语音信号；

通过预置转换函数，将所述对齐时域语音信号转换为对数幅度谱，得到预处理语音信号。

可选的，在本发明第一方面的第四种实现方式中，所述通过所述解码器，对所述语音音素和所述旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息，包括：

通过所述解码器中的上采样层，分别对所述语音音素和所述旋律音素进行基于转置的一维卷积核的卷积处理，得到语音采样音素和旋律采样音素；

将所述语音采样音素和所述旋律采样音素进行组合，得到组合音素；

通过预置音素字典，从所述组合音素中匹配对应的目标音素，并对所述目标音素进行解码，得到目标歌曲信息。

可选的，在本发明第一方面的第五种实现方式中，所述获取预处理语音信息和目标旋律信息之前，还包括：

获取经过预处理的训练语音信息和训练旋律信息，所述训练语音信息包括训练时域语音信号对应的训练对数幅度谱，所述训练旋律信息包括训练旋律轮廓；

通过预置的初始歌唱合成模型中的编码器-解码器网络，对所述训练对数幅度谱和所述训练旋律轮廓依次进行音素编码和解码处理，得到预测幅度谱和预测歌曲信息，所述编码器-解码器网络包括音素编码器、音素解码器和音素字典对应的解码器；

通过预置的基于多任务学习的目标损失函数，计算所述预测幅度谱和所述预测歌曲信息的目标损失函数值，所述基于多任务学习的目标损失函数包括均方误差损失函数和平均交叉熵损失函数；

根据所述目标损失函数值，对所述初始歌唱合成模型进行迭代更新，直至所述目标损失函数值收敛，得到目标歌唱合成模型。

可选的，在本发明第一方面的第六种实现方式中，所述根据所述目标损失函数值，对所述初始歌唱合成模型进行迭代更新，直至所述目标损失函数值收敛，得到目标歌唱合成模型，包括：

根据所述目标损失函数值，对所述初始歌唱合成模型的模型参数进行迭代更新，直至所述目标损失函数值收敛，得到候选歌唱合成模型，所述模型参数用于指示所述音素编码器、所述音素解码器和所述音素字典对应的解码器的输出；

获取所述候选歌唱合成模型的听力测试投票分数；

根据所述听力测试投票分数，对所述候选歌唱合成模型的多个预设指标进行检测，所述多个预设指标包括所述预测歌曲信息的歌词音素可懂程度、自然度，所述预测歌曲信息与目标旋律的相似性，以及所述预测歌曲信息与所述训练语音信息的音色相似度；

将检测通过的候选歌唱合成模型确定为目标歌唱合成模型。

本发明第二方面提供了一种基于旋律的歌曲信息合成装置，包括：

第一获取模块，用于获取预处理语音信息和目标旋律信息，所述预处理语音信息包括时域语音信号对应的对数幅度谱，所述目标旋律信息包括目标旋律轮廓；

编码模块，用于通过预置的目标歌唱合成模型中的编码器，分别对所述对数幅度谱和所述目标旋律轮廓进行音素编码处理，得到语音音素和旋律音素，所述编码器包括一维卷积的下采样层和基于门控循环单元的递归层；

传送模块，用于通过所述目标歌唱合成模型中的跳跃连接网络，将所述语音音素和所述旋律音素传递至所述目标歌唱合成模型中的解码器，其中，所述解码器中的上采样层的卷积核为转置的一维卷积核；

解码模块，用于通过所述解码器，对所述语音音素和所述旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息。

可选的，在本发明第二方面的第一种实现方式中，所述第一获取模块包括：

获取单元，用于获取时域语音信号，以及从预置数据库中匹配与所述时域语音信号对应的目标旋律轮廓，得到目标旋律信息；

移除单元，用于对所述时域语音信号进行无声帧移除，得到候选语音信号；

转换单元，用于对所述候选语音信号进行对数幅度谱转换，得到预处理语音信息。

可选的，在本发明第二方面的第二种实现方式中，所述移除单元具体用于：

可选的，在本发明第二方面的第三种实现方式中，所述转换单元具体用于：

可选的，在本发明第二方面的第四种实现方式中，所述解码模块具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述基于旋律的歌曲信息合成装置，还包括：

第二获取模块，用于获取经过预处理的训练语音信息和训练旋律信息，所述训练语音信息包括训练时域语音信号对应的训练对数幅度谱，所述训练旋律信息包括训练旋律轮廓；

编解码模块，用于通过预置的初始歌唱合成模型中的编码器-解码器网络，对所述训练对数幅度谱和所述训练旋律轮廓依次进行音素编码和解码处理，得到预测幅度谱和预测歌曲信息，所述编码器-解码器网络包括音素编码器、音素解码器和音素字典对应的解码器；

计算模块，用于通过预置的基于多任务学习的目标损失函数，计算所述预测幅度谱和所述预测歌曲信息的目标损失函数值，所述基于多任务学习的目标损失函数包括均方误差损失函数和平均交叉熵损失函数；

更新模块，用于根据所述目标损失函数值，对所述初始歌唱合成模型进行迭代更新，直至所述目标损失函数值收敛，得到目标歌唱合成模型。

可选的，在本发明第二方面的第六种实现方式中，所述更新模块具体用于：

获取所述候选歌唱合成模型的听力测试投票分数；

将检测通过的候选歌唱合成模型确定为目标歌唱合成模型。

本发明第三方面提供了一种基于旋律的歌曲信息合成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于旋律的歌曲信息合成设备执行上述的基于旋律的歌曲信息合成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于旋律的歌曲信息合成方法。

本发明提供的技术方案中，获取预处理语音信息和目标旋律信息，预处理语音信息包括时域语音信号对应的对数幅度谱，目标旋律信息包括目标旋律轮廓；通过预置的目标歌唱合成模型中的编码器，分别对对数幅度谱和目标旋律轮廓进行音素编码处理，得到语音音素和旋律音素，编码器包括一维卷积的下采样层和基于门控循环单元的递归层；通过目标歌唱合成模型中的跳跃连接网络，将语音音素和旋律音素传递至目标歌唱合成模型中的解码器，其中，解码器中的上采样层的卷积核为转置的一维卷积核；通过解码器，对语音音素和旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息。本发明实施例中，通过采用包括一维卷积的下采样层和基于门控循环单元的递归层的编码器，对对数幅度谱和目标旋律轮廓进行音素编码处理，能够灵活处理多样的可变长度的输入语音信息，克服了特定输入的依赖；通过跳跃连接网络，将语音音素和旋律音素传递至目标歌唱合成模型中的解码器，避免了梯度消失的问题，能够对目标歌唱合成模型的训练简化且更深层次；通过解码器，对语音音素和旋律音素依次进行合成、音素筛选和解码处理，不需要高质量的歌唱模板、手动切割的音素以及音符同步信息，能够在仅仅给定预处理语音信息和目标旋律信息的情况下，合成保留原语音内容、音色和遵循了目标旋律信息的歌唱，且合成步骤较便捷，进而提高了歌曲信息合成的普适性。

附图说明

图1为本发明实施例中基于旋律的歌曲信息合成方法的一个实施例示意图；

图2为本发明实施例中基于旋律的歌曲信息合成方法的另一个实施例示意图；

图3为本发明实施例中基于旋律的歌曲信息合成装置的一个实施例示意图；

图4为本发明实施例中基于旋律的歌曲信息合成装置的另一个实施例示意图；

图5为本发明实施例中基于旋律的歌曲信息合成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于旋律的歌曲信息合成方法、装置、设备及存储介质，提高了歌曲信息合成的普适性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于旋律的歌曲信息合成方法的一个实施例包括：

101、获取预处理语音信息和目标旋律信息，预处理语音信息包括时域语音信号对应的对数幅度谱，目标旋律信息包括目标旋律轮廓。

可以理解的是，本发明的执行主体可以为基于旋律的歌曲信息合成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

通过语音采集器或语音录入终端，获取语音输入者输入的初始语音信息，并将该初始语音信息发送至服务器，服务器接收到该初始语音信息后，对该初始语音信息进行数据清洗、数据集成和数据转换，得到候选语音信息，将候选语音信息转换为初始语音信号，对初始语音信号进行时域分析和信号提取，得到符合预设能量的候选语音信号，对候选语音信号进行噪声处理和无声帧移除，得到目标语音信号，将目标语音信号转换为对数幅度谱，从而得到处理语音信息，其中，该初始语音信息可为语音输入者的哼唱语音信息和/或口语信息，也可为除语音采集器或语音录入终端之外的终端输出的哼唱语音信息；服务器也可直接接收语音处理端发送的预处理语音信息。

语音输入者可在预置界面上点击选择对应的目标旋律轮廓，预置界面将选中的目标旋律轮廓发送至服务器，服务器接收到预置界面发送的目标旋律轮廓，从而得到目标旋律信息。服务器也可通过创建预处理语音信息的目标键，根据目标键对预置的旋律散列表进行键值对匹配，得到对应的目标旋律轮廓，从而得到目标旋律信息，该预置的旋律散列表为：服务器预先创建各语音信息和可以与之合成的旋律轮廓信息之间的对应关系，根据该对应关系生成的散列表。

102、通过预置的目标歌唱合成模型中的编码器，分别对对数幅度谱和目标旋律轮廓进行音素编码处理，得到语音音素和旋律音素，编码器包括一维卷积的下采样层和基于门控循环单元的递归层。

其中，编码器为音素编码器，用于对对数幅度谱和目标旋律轮廓进行音素编码处理。目标歌唱合成模型为人工智能的神经网络，包括基于语义分割网络U-net的编码器-解码器网络，用于对预处理语音信息和目标旋律信息进行目标歌曲信息合成。服务器通过预置的目标歌唱合成模型中编码器的卷积层，分别对对数幅度谱和目标旋律轮廓进行特征提取，得到语音特征和旋律特征，编码器包括卷积层、一维卷积的下采样层和基于门控循环单元的递归层；通过一维卷积的下采样层，分别对语音特征和旋律特征进行卷积核为1*1的卷积采样处理，得到语音采样特征和旋律采样特征；通过基于门控循环单元的递归层，分别对语音采样特征和旋律采样特征进行实例正则化处理，得到语音特征矩阵和旋律特征矩阵，分别将语音特征矩阵和旋律特征矩阵转换为音素，从而得到语音音素和旋律音素。

103、通过目标歌唱合成模型中的跳跃连接网络，将语音音素和旋律音素传递至目标歌唱合成模型中的解码器，其中，解码器中的上采样层的卷积核为转置的一维卷积核。

基于语义分割函数U-net的编码器-解码器网络中的解码器和编码器之间使用了跳跃连接网络skip connection，对解码器和编码器之间的信息进行跳跃式传递，跳跃连接网络skip connection能够控制梯度消失问题，并简化更深层次目标歌唱合成模型和基于语义分割函数U-net的编码器-解码器网络的训练。服务器通过目标歌唱合成模型中的跳跃连接网络将语音音素和旋律音素传递至目标歌唱合成模型中的解码器，能够使得在每一级的上采样过程中，将编码器对应位置的语音音素和旋律音素分别对应的特征图在通道上进行融合。通过底层特征与高层特征的融合，网络能够保留更多高层特征图蕴含的高分辨率细节信息，从而提高了语音音素和旋律音素的精度。

104、通过解码器，对语音音素和旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息。

通过目标歌唱合成模型中解码器的转置一维卷积的上采样层，对语音音素和旋律音素进行卷积核为1*1的转置卷积采样处理，得到上采样语音音素和上采样旋律音素，解码器包括转置一维卷积的上采样层、注意力机制网络、深度卷积网络和循环神经网络；通过注意力机制网络，将上采样语音音素和上采样旋律音素进行注意力机制合成，得到初始合成音素；通过预置音素字典对融合音素中的音素进行匹配和筛选，得到目标合成音素；通过深度卷积网络和循环神经网络，对目标合成音素进行幅度谱解码，得到初始歌曲信息，该初始歌曲信息包括目标合成音素对应的对数幅度谱；通过声码器将初始歌曲信息中的对数幅度谱转换为音频，将音频转换为音律，得到目标歌曲信息，或者将音频转换为语音信号，根据音律从预置数据库中匹配对应的声学特征，将声学特征，根据声学特征对语音信号进行时域音频变换，得到目标歌曲信息。

本发明实施例中，采用包括一维卷积的下采样层和基于门控循环单元的递归层的编码器，对对数幅度谱和目标旋律轮廓进行音素编码处理，能够灵活处理多样的可变长度的输入语音信息，克服了特定输入的依赖；通过跳跃连接网络，将语音音素和旋律音素传递至目标歌唱合成模型中的解码器，避免了梯度消失的问题，能够对目标歌唱合成模型的训练简化且更深层次；通过解码器，对语音音素和旋律音素依次进行合成、音素筛选和解码处理，不需要高质量的歌唱模板、手动切割的音素以及音符同步信息，能够在仅仅给定预处理语音信息和目标旋律信息的情况下，合成保留原语音内容、音色和遵循了目标旋律信息的歌唱，且合成步骤较便捷，进而提高了歌曲信息合成的普适性。

请参阅图2，本发明实施例中基于旋律的歌曲信息合成方法的另一个实施例包括：

201、获取时域语音信号，以及从预置数据库中匹配与时域语音信号对应的目标旋律轮廓，得到目标旋律信息。

服务器获得输入的初始语音信息时，将初始语音信息进行信号处理，得到处理语音信号，对处理语音信号依次进行短时能量处理、短时幅值处理、短时过零率处理、短时自相关处理和短时平均幅差处理，得到时域语音信号。服务器预先创建各时域语音信号对应的旋律轮廓树，并将旋律轮廓树存储至预置数据库，服务器根据时域语音信号，对各时域语音信号对应的旋律轮廓树进行遍历，得到对应的目标旋律轮廓，从而，得到目标旋律信息。

具体地，服务器获取时域语音信号，以及从预置数据库中匹配与时域语音信号对应的目标旋律轮廓，得到目标旋律信息之前，获取经过预处理的训练语音信息和训练旋律信息，训练语音信息包括训练时域语音信号对应的训练对数幅度谱，训练旋律信息包括训练旋律轮廓；通过预置的初始歌唱合成模型中的编码器-解码器网络，对训练对数幅度谱和训练旋律轮廓依次进行音素编码和解码处理，得到预测幅度谱和预测歌曲信息，编码器-解码器网络包括音素编码器、音素解码器和音素字典对应的解码器；通过预置的基于多任务学习的目标损失函数，计算预测幅度谱和预测歌曲信息的目标损失函数值，基于多任务学习的目标损失函数包括均方误差损失函数和平均交叉熵损失函数；根据目标损失函数值，对初始歌唱合成模型进行迭代更新，直至目标损失函数值收敛，得到目标歌唱合成模型。

服务器通过步骤101和步骤201-203的执行过程获取经过预处理的训练语音信息和训练旋律信息。将经过预处理的训练语音信息和训练旋律信息，输入值预置的初始歌唱合成模型中，通过经过预处理的训练语音信息和训练旋律信息，通过初始歌唱合成模型中基于语义分割网络U-net的编码器-解码器网络中的音素编码器包括第一音素编码器和第二音素编码器，第一音素编码器，对训练对数幅度谱进行音素编码得到第一音素，通过第二音素编码器对训练旋律轮廓进行音素编码得到第二音素，将第一音素和第二音素合并，得到组合音素，通过音素解码器对组合音素进行解码，得到预测幅度谱，通过预置音素字典对组合音素进行音素匹配和筛选，得到目标音素，通过音素字典对应的解码器对目标音素进行解码处理，得到预测歌曲信息。

服务器获取组合音素的真实的对数谱图，并通过均方误差损失函数中的计算公式，计算预测幅度谱与真实的对数谱图之间的均方误差值，均方误差损失函数的计算公式具体如下：

其中，

表示均方误差值，Y表示真实的对数谱图，D表示音素解码器的输出，即预测幅度谱，ε1表示第一音素编码器，ε2表示第二音素编码器，X表示训练对数幅度谱，C表示训练旋律轮廓。

服务器通过平均交叉熵损失函数中的计算公式，计算预测歌曲信息的平均交叉熵损失值，平均交叉熵损失函数中的计算公式具体如下：

其中，L_CE表示平均交叉熵损失值，

表示音素字典对应的解码器的输出，即预测歌曲信息，c_t表示预测歌曲信息对应的正确音素，c_t∈p，t表示非正则化音素的概率，m表示某一个音素，P表示整个音素字典。

服务器通过预置的基于多任务学习(multi-task learning，MTL)的目标损失函数中的计算公式、均方误差值和平均交叉熵损失值，计算预测幅度谱和预测歌曲信息的目标损失函数值，基于多任务学习(multi-task leaming，MTL)的目标损失函数中的计算公式具体如下：

其中，L_MTL表示目标损失函数值，

表示均方误差值，

表示平均交叉熵损失值，入表示超参数，T表示预测对数幅度谱的总时长，t表示非正则化音素的概率。

服务器根据目标损失函数值，对初始歌唱合成模型中音素编码器、音素解码器和音素字典对应的解码器的输出进行迭代更新，直至目标损失函数值收敛，得到目标歌唱合成模型。

具体地，服务器根据目标损失函数值，对初始歌唱合成模型的模型参数进行迭代更新，直至目标损失函数值收敛，得到候选歌唱合成模型，模型参数用于指示音素编码器、音素解码器和音素字典对应的解码器的输出；获取候选歌唱合成模型的听力测试投票分数；根据听力测试投票分数，对候选歌唱合成模型的多个预设指标进行检测，多个预设指标包括预测歌曲信息的歌词音素可懂程度、自然度，预测歌曲信息与目标旋律的相似性，以及预测歌曲信息与训练语音信息的音色相似度；将检测通过的候选歌唱合成模型确定为目标歌唱合成模型。

例如，服务器根据目标损失函数值，对初始歌唱合成模型中音素编码器、音素解码器和音素字典对应的解码器的输出进行迭代更新，直至目标损失函数值收敛，得到候选歌唱合成模型。服务器获取测试时域语音信号集和测试旋律，通过目标歌唱转换模型，对测试时域语音信号集和测试旋律进行歌唱转换，得到多个初始测试转换样本，对多个初始测试转换样本进行随机选取，得到多个目标测试转换样本，本实施例中，目标测试转换样本的数量优选为5个，多个预设指标包括预测歌曲信息的歌词音素可懂程度Q1、自然度Q2，预测歌曲信息与目标旋律的相似性Q3，以及预测歌曲信息与训练语音信息的音色相似度Q4，Q1代表其是否符合人耳理解的好听，Q2代表人类是否会一下子分辨出这不是人类创造的音乐，Q3代表是否和参考的乐句旋律过度相似没有达到机器生成的效果，Q4代表说话人可识别度；

由11名听力正常的受试者对5个目标测试转换样本进行偏好听力测试，每个参与者首先要熟悉输入语音和目标歌唱，然后对Q1、Q2、Q3和Q4给出不同属性的偏好，每个属性上都有一个投票分数，服务器将偏好和投票分数对预置的评估结果信息进行匹配，得到对应的评估结果，根据偏好、投票分数和评估结果生成最终的报告，并根据最终的报告中的评估结果确定候选歌唱合成模型是否检测通过，若评估结果为检测通过，则将候选歌唱合成模型确定为目标歌唱合成模型，若否，则继续对候选歌唱合成模型进行优化和检测，直至评估结果为检测通过。

202、对时域语音信号进行无声帧移除，得到候选语音信号。

具体地，服务器对时域语音信号进行固定量的基音偏移处理，得到初始语音信号；对初始语音信号依次进行声音能量判断、无声帧标记和无声帧移除，得到候选语音信号。

服务器将时域语音信号映射为[-1，1]的半音信号，通过预置的随机函数从半音信号[-1，1]中随机选取一个数值，通过预置的音频处理软件或者音频处理库函数，根据数值对时域语音信号进行整体的音调偏移处理，得到初始语音信号。服务器将初始语音信号转换为对数幅度谱图，对数幅度谱图上的纵轴为能量，以分贝为单位从初始语音信号对应的对数幅度谱图中获取最大能量值，计算对数幅度谱图上每个能量值与最大能量值的差值，判断该差值是否大于或等于预设分贝，本实施例中，预设分贝优选为40分贝，若是，则不对能量点对应的初始语音信号进行任何处理，若否，则将能量点对应的初始语音信号标记为无声帧，得到标记初始语音信号，对标记初始语音信号进行线性的遍历，判断标记初始语音信号上的无声帧标记是否符合预设规则，该预设规则为3个或以上的连续无声帧，若是，则将该无声帧对应的标记初始语音信号删除，若否，则不进行处理，从而得到候选语音信息。

203、对候选语音信号进行对数幅度谱转换，得到预处理语音信息。

具体地，服务器通过预置相位声码器，将候选语音信号的时长与目标旋律信息的旋律时长进行对齐处理，得到对齐时域语音信号；通过预置转换函数，将对齐时域语音信号转换为对数幅度谱，得到预处理语音信号。

服务器通过预置相位声码器中的算法，将候选时域语音信号的时长拉伸到目标旋律信息的旋律时长，以将候选时域语音信号的时长与目标旋律信息的旋律时长进行对齐处理，得到对齐时域语音信号。服务器通过将最小相位系统的对数幅度函数与相位函数构成一个希尔伯特变换对函数，通过预置转换函数的转换编码和希尔伯特变换对函数，将将对齐时域语音信号转换为对数幅度谱，得到预处理语音信号。提高了预处理语音信息的准确性，以及便于后续对预处理语音信息的编解码，进而提高了对歌曲信息合成的普适性。

204、通过预置的目标歌唱合成模型中的编码器，分别对对数幅度谱和目标旋律轮廓进行音素编码处理，得到语音音素和旋律音素，编码器包括一维卷积的下采样层和基于门控循环单元的递归层。

预置的目标歌唱合成模型将对数幅度谱和目标旋律轮廓的两个编码器结合使用。预置的目标歌唱合成模型包括基于语义分割函数U-net的编码器-解码器网络，基于语义分割函数U-net的编码器-解码器网络中的编码器的下采样层选用1维(dimension，D)卷积的1D卷积层以增加使用递归层的灵活性，通过对1D卷积层对对数幅度谱和目标旋律轮廓进行下采样，将对数幅度谱的特征层的元素和目标旋律轮廓的特征层的元素进行复制，以扩充对数幅度谱的特征图谱feature map和目标旋律轮廓的特征图谱feature map。编码器中的递归层都选用门控循环单元(gate recurrent unit，GRU)单元，以此适应输入的可变长度的语音信号。递归层GRU使用了实例正则化层(instance normalization layer，IN)，因为正则化输入更适合激活函数tanh的作用范围。

另一实施例中，服务器可通过预置的目标歌唱合成模型中的编码器，分别对对数幅度谱和目标旋律轮廓进行下采样、递归处理和音素编码处理，得到语音音素和旋律音素，其中，通过一维卷积的下采样层，分别对对数幅度谱和目标旋律轮廓进行下采样，通过基于门控循环单元的递归层，对下采样后的对数幅度谱和目标旋律轮廓进行特征维度信息的循环读取和正则化处理，通过预置的音素分类器，对正则化处理后的对数幅度谱和目标旋律轮廓进行音素分类，得到语音音素和旋律音素。

205、通过目标歌唱合成模型中的跳跃连接网络，将语音音素和旋律音素传递至目标歌唱合成模型中的解码器，其中，解码器中的上采样层的卷积核为转置的一维卷积核。

206、通过解码器，对语音音素和旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息。

具体地，服务器通过解码器中的上采样层，分别对语音音素和旋律音素进行基于转置的一维卷积核的卷积处理，得到语音采样音素和旋律采样音素；将语音采样音素和旋律采样音素进行组合，得到组合音素；通过预置音素字典，从组合音素中匹配对应的目标音素，并对目标音素进行解码，得到目标歌曲信息。

其中，解码器包括音素解码器和音素字典对应的解码器，解码器中的上采样层采用了转置的1D卷积层，服务器通过解码器中的1D卷积层，分别对语音音素和旋律音素进行卷积处理，得到语音采样音素和旋律采样音素。服务器将语音采样音素和旋律采样音素进行矩阵相加，或者，服务器将语音采样音素和旋律采样音素进行矩阵相加，或者，服务器将语音采样音素映射为对应的旋律采样音素，从而得到组合音素。服务器可通过音素解码器，对组合音素进行解码，得到预测幅度谱。服务器计算组合音素中各音素与预置音素字典中的音素之间的相似度，判断该相似度是否大于预置的目标值，若是，则将组合音素中该相似度对应的音素确定为目标音素，若否，则剔除组合音素中该相似度对应的音素，并通过音素字典对应的解码器将目标音素进行解码，得到目标歌曲信息，该目标歌曲信息可为幅度谱图，即歌曲旋律，其中，该相似度可为语义相似度或形状相似度，该相似度也可为语义相似度和形状相似度的加权和值。

上面对本发明实施例中基于旋律的歌曲信息合成方法进行了描述，下面对本发明实施例中基于旋律的歌曲信息合成装置进行描述，请参阅图3，本发明实施例中基于旋律的歌曲信息合成装置一个实施例包括：

第一获取模块301，用于获取预处理语音信息和目标旋律信息，预处理语音信息包括时域语音信号对应的对数幅度谱，目标旋律信息包括目标旋律轮廓；

编码模块302，用于通过预置的目标歌唱合成模型中的编码器，分别对对数幅度谱和目标旋律轮廓进行音素编码处理，得到语音音素和旋律音素，编码器包括一维卷积的下采样层和基于门控循环单元的递归层；

传送模块303，用于通过目标歌唱合成模型中的跳跃连接网络，将语音音素和旋律音素传递至目标歌唱合成模型中的解码器，其中，解码器中的上采样层的卷积核为转置的一维卷积核；

解码模块304，用于通过解码器，对语音音素和旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息。

上述基于旋律的歌曲信息合成装置中各个模块的功能实现与上述基于旋律的歌曲信息合成方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

请参阅图4，本发明实施例中基于旋律的歌曲信息合成装置的另一个实施例包括：

其中，第一获取模块301具体包括：

获取单元3011，用于获取时域语音信号，以及从预置数据库中匹配与时域语音信号对应的目标旋律轮廓，得到目标旋律信息；

移除单元3012，用于对时域语音信号进行无声帧移除，得到候选语音信号；

转换单元3013，用于对候选语音信号进行对数幅度谱转换，得到预处理语音信息；

可选的，移除单元3012还可以具体用于：

对时域语音信号进行固定量的基音偏移处理，得到初始语音信号；

对初始语音信号依次进行声音能量判断、无声帧标记和无声帧移除，得到候选语音信号。

可选的，转换单元3013还可以具体用于：

通过预置相位声码器，将候选语音信号的时长与目标旋律信息的旋律时长进行对齐处理，得到对齐时域语音信号；

通过预置转换函数，将对齐时域语音信号转换为对数幅度谱，得到预处理语音信号。

可选的，解码模块304还可以具体用于：

通过解码器中的上采样层，分别对语音音素和旋律音素进行基于转置的一维卷积核的卷积处理，得到语音采样音素和旋律采样音素；

将语音采样音素和旋律采样音素进行组合，得到组合音素；

通过预置音素字典，从组合音素中匹配对应的目标音素，并对目标音素进行解码，得到目标歌曲信息。

可选的，基于旋律的歌曲信息合成装置，还包括：

第二获取模块305，用于获取经过预处理的训练语音信息和训练旋律信息，训练语音信息包括训练时域语音信号对应的训练对数幅度谱，训练旋律信息包括训练旋律轮廓；

编解码模块306，用于通过预置的初始歌唱合成模型中的编码器-解码器网络，对训练对数幅度谱和训练旋律轮廓依次进行音素编码和解码处理，得到预测幅度谱和预测歌曲信息，编码器-解码器网络包括音素编码器、音素解码器和音素字典对应的解码器；

计算模块307，用于通过预置的基于多任务学习的目标损失函数，计算预测幅度谱和预测歌曲信息的目标损失函数值，基于多任务学习的目标损失函数包括均方误差损失函数和平均交叉熵损失函数；

更新模块308，用于根据目标损失函数值，对初始歌唱合成模型进行迭代更新，直至目标损失函数值收敛，得到目标歌唱合成模型。

可选的，更新模块308还可以具体用于：

根据目标损失函数值，对初始歌唱合成模型的模型参数进行迭代更新，直至目标损失函数值收敛，得到候选歌唱合成模型，模型参数用于指示音素编码器、音素解码器和音素字典对应的解码器的输出；

获取候选歌唱合成模型的听力测试投票分数；

根据听力测试投票分数，对候选歌唱合成模型的多个预设指标进行检测，多个预设指标包括预测歌曲信息的歌词音素可懂程度、自然度，预测歌曲信息与目标旋律的相似性，以及预测歌曲信息与训练语音信息的音色相似度；

将检测通过的候选歌唱合成模型确定为目标歌唱合成模型。

上述基于旋律的歌曲信息合成装置中各模块和各单元的功能实现与上述基于旋律的歌曲信息合成方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于旋律的歌曲信息合成装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于旋律的歌曲信息合成设备进行详细描述。

图5是本发明实施例提供的一种基于旋律的歌曲信息合成设备的结构示意图，该基于旋律的歌曲信息合成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于旋律的歌曲信息合成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在基于旋律的歌曲信息合成设备500上执行存储介质530中的一系列指令操作。

基于旋律的歌曲信息合成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的基于旋律的歌曲信息合成设备结构并不构成对基于旋律的歌曲信息合成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行基于旋律的歌曲信息合成方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于旋律的歌曲信息合成方法，其特征在于，所述基于旋律的歌曲信息合成方法包括：

2.根据权利要求1所述的基于旋律的歌曲信息合成方法，其特征在于，所述获取预处理语音信息和目标旋律信息，包括：

对所述时域语音信号进行无声帧移除，得到候选语音信号；

3.根据权利要求2所述的基于旋律的歌曲信息合成方法，其特征在于，所述对所述时域语音信号进行无声帧移除，得到候选语音信号，包括：

4.根据权利要求2所述的基于旋律的歌曲信息合成方法，其特征在于，所述对所述候选语音信号进行对数幅度谱转换，得到预处理语音信息，包括：

5.根据权利要求1所述的基于旋律的歌曲信息合成方法，其特征在于，所述通过所述解码器，对所述语音音素和所述旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息，包括：

6.根据权利要求1-5中任一项所述的基于旋律的歌曲信息合成方法，其特征在于，所述获取预处理语音信息和目标旋律信息之前，还包括：

7.根据权利要求6所述的基于旋律的歌曲信息合成方法，其特征在于，所述根据所述目标损失函数值，对所述初始歌唱合成模型进行迭代更新，直至所述目标损失函数值收敛，得到目标歌唱合成模型，包括：

获取所述候选歌唱合成模型的听力测试投票分数；

将检测通过的候选歌唱合成模型确定为目标歌唱合成模型。

8.一种基于旋律的歌曲信息合成装置，其特征在于，所述基于旋律的歌曲信息合成装置包括：

9.一种基于旋律的歌曲信息合成设备，其特征在于，所述基于旋律的歌曲信息合成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于旋律的歌曲信息合成设备执行如权利要求1-7中任意一项所述的基于旋律的歌曲信息合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述基于旋律的歌曲信息合成方法。