CN112906872B

CN112906872B - 乐谱转化为声谱的生成方法、装置、设备及存储介质

Info

Publication number: CN112906872B
Application number: CN202110322919.2A
Authority: CN
Inventors: 刘奡智; 韩宝强; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-08-15
Anticipated expiration: 2041-03-26
Also published as: CN112906872A

Abstract

本发明涉及人工智能领域，公开了乐谱转化为声谱的生成方法、装置、设备及存储介质，用于用于提高乐谱转化为声谱的准确率以及转化效率。乐谱转化为声谱的生成方法包括：获取待转化乐谱图片，并将待转化乐谱图片输入乐谱编码器中，通过乐谱编码器对待转化乐谱图片进行编码，得到编码图；将编码图传输至U型网络中，利用U型网络对编码图进行拆分，生成拆分图；通过哑变量构成的开关确定拆分图中的停顿特征向量，并利用乐谱解码器对确定停顿特征向量后的拆分图进行解码，得到解码图；将解码图输入至文本卷积网络中，利用文本卷积网络中的条件码对解码图进行细化处理，生成声谱图。此外，本发明还涉及区块链技术，待转化乐谱图片可存储于区块链中。

Description

乐谱转化为声谱的生成方法、装置、设备及存储介质

技术领域

本发明涉及语音处理领域，尤其涉及一种乐谱转化为声谱的生成方法、装置、设备及存储介质。

背景技术

随着人工智能领域的迅速普及，在音乐领域中智能作曲取得了重要发展，例如根据音乐自动生成对应的乐谱，或根据乐谱自动生成音乐。所谓乐谱是一种以印刷或手写制作，用符号来记录音乐的方法，在将乐谱自动转化为音乐之前需要将乐谱转化为用来描述声音中所包含成份及音色中声学能量的分配模式的声谱，再由声谱转化为对应的音乐。

现有利用机器学习算法生成乐谱对应的声谱的方法，在生成乐谱的过程中需要进行大量的计算，导致乐谱转化为声谱的准确率以及转化效率低下。

发明内容

本发明提供了一种乐谱转化为声谱的生成方法、装置、设备及存储介质，用于提高乐谱转化为声谱的准确率以及转化效率。

本发明第一方面提供了一种乐谱转化为声谱的生成方法，包括：获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，通过所述乐谱编码器对所述待转化乐谱图片进行编码，得到编码图；将所述编码图传输至U型网络中，利用所述U型网络对所述编码图进行拆分，生成拆分图；通过哑变量构成的开关确定所述拆分图中的停顿特征向量，并利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图；将所述解码图输入至文本卷积网络中，利用所述文本卷积网络中的条件码对所述解码图进行细化处理，生成声谱图。

可选的，在本发明第一方面的第一种实现方式中，所述获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，通过所述乐谱编码器对所述待转化乐谱图片进行编码，得到编码图包括：获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，提取所述待转化乐谱图片中的初始向量；通过所述乐谱编码器生成所述初始向量对应的潜在变量；利用损失函数计算所述潜在变量的损失向量；将所述潜在变量与所述损失向量进行整合，得到编码向量，将所述编码向量构成的图谱确定为编码图。

可选的，在本发明第一方面的第二种实现方式中，所述利用损失函数计算所述潜在变量的损失向量包括：利用损失函数分别计算所述潜在变量的均值和标准差，分别得到均值向量和标准差向量；对所述标准差向量进行采样，得到采样向量，并将所述采样向量与对应的所述均值量向进行叠加，生成所述潜在变量的损失向量。

可选的，在本发明第一方面的第三种实现方式中，所述将所述编码图传输至U型网络中，利用所述U型网络对所述编码图进行拆分，生成拆分图包括：将所述编码图传输至U型网络中，利用所述U型网络中的全卷积网络对所述编码图进行卷积计算，并利用最大池化层对卷积计算后的结果进行池化处理，得到降采样特征图；通过所述U型网络中的反卷积网络对所述降采样特征图进行卷积计算，生成扩展特征图；根据所述扩展特征图的尺寸对所述降采样特征图进行剪裁，并将裁剪后得到特征图与所述扩展特征图进行归一化处理，生成拆分图。

可选的，在本发明第一方面的第四种实现方式中，所述通过哑变量构成的开关确定所述拆分图中的停顿特征向量，并利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图包括：获取所述拆分图中的多个音频特征向量，并获取相邻两个音频特征向量之间的停顿间隔，得到多个停顿间隔；将所述停顿间隔大于间隔阈值的停顿间隔确定为目标间隔，利用哑变量构成的开关对所述目标间隔进行赋值，得到第一赋值特征向量，并将所述第一赋值特征向量确定为停顿特征向量；将所述停顿间隔小于或等于所述间隔阈值的停顿间隔确定为其他间隔，利用所述哑变量构成的开关对所述其他间隔进行赋值，得到第二赋值特征向量，并将所述第二赋值特征向量确定为连续特征向量；利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图。

可选的，在本发明第一方面的第五种实现方式中，所述将所述解码图输入至文本卷积网络中，利用条件码对所述解码图进行细化处理，生成声谱图包括：将所述解码图输入至文本卷积网络中，并获取所述解码图中的解码特征向量；通过条件码对所述解码特征向量进行条件约束，将符合所述条件约束的解码特征向量确定为第一特征向量，将不符合所述条件约束的解码特征向量确定为第二特征向量；利用所述文本卷积网络中的卷积层分别对所述第一特征向量和所述第二特征向量进行卷积计算，分别生成第一细化向量和第二细化向量；将所述第一细化向量和所述第二细化向量构成的图谱确定为声谱图。

可选的，在本发明第一方面的第六种实现方式中，在所述将所述解码图输入至文本卷积网络中，利用条件码对所述解码图进行细化处理，生成声谱图之后，所述乐谱转化为声谱的生成方法还包括：利用播放系统对声谱图进行播放，播放对应的音频数据。

本发明第二方面提供了一种乐谱转化为声谱的生成装置，包括：编码模块，用于获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，通过所述乐谱编码器对所述待转化乐谱图片进行编码，得到编码图；拆分模块，用于将所述编码图传输至U型网络中，利用所述U型网络对所述编码图进行拆分，生成拆分图；解码模块，用于通过哑变量构成的开关确定所述拆分图中的停顿特征向量，并利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图；生成模块，用于将所述解码图输入至文本卷积网络中，利用所述文本卷积网络中的条件码对所述解码图进行细化处理，生成声谱图。

可选的，在本发明第二方面的第一种实现方式中，所述编码模块包括：提取单元，用于获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，提取所述待转化乐谱图片中的初始向量；生成单元，用于通过所述乐谱编码器生成所述初始向量对应的潜在变量；计算单元，用于利用损失函数计算所述潜在变量的损失向量；确定单元，用于将所述潜在变量与所述损失向量进行整合，得到编码向量，将所述编码向量构成的图谱确定为编码图。

可选的，在本发明第二方面的第二种实现方式中，所述计算单元具体用于：利用损失函数分别计算所述潜在变量的均值和标准差，分别得到均值向量和标准差向量；对所述标准差向量进行采样，得到采样向量，并将所述采样向量与对应的所述均值量向进行叠加，生成所述潜在变量的损失向量。

可选的，在本发明第二方面的第三种实现方式中，所述拆分模块具体用于：将所述编码图传输至U型网络中，利用所述U型网络中的全卷积网络对所述编码图进行卷积计算，并利用最大池化层对卷积计算后的结果进行池化处理，得到降采样特征图；通过所述U型网络中的反卷积网络对所述降采样特征图进行卷积计算，生成扩展特征图；根据所述扩展特征图的尺寸对所述降采样特征图进行剪裁，并将裁剪后得到特征图与所述扩展特征图进行归一化处理，生成拆分图。

可选的，在本发明第二方面的第四种实现方式中，所述解码模块具体用于：获取所述拆分图中的多个音频特征向量，并获取相邻两个音频特征向量之间的停顿间隔，得到多个停顿间隔；将所述停顿间隔大于间隔阈值的停顿间隔确定为目标间隔，利用哑变量构成的开关对所述目标间隔进行赋值，得到第一赋值特征向量，并将所述第一赋值特征向量确定为停顿特征向量；将所述停顿间隔小于或等于所述间隔阈值的停顿间隔确定为其他间隔，利用所述哑变量构成的开关对所述其他间隔进行赋值，得到第二赋值特征向量，并将所述第二赋值特征向量确定为连续特征向量；利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图。

可选的，在本发明第二方面的第五种实现方式中，所述生成模块具体用于：将所述解码图输入至文本卷积网络中，并获取所述解码图中的解码特征向量；通过条件码对所述解码特征向量进行条件约束，将符合所述条件约束的解码特征向量确定为第一特征向量，将不符合所述条件约束的解码特征向量确定为第二特征向量；利用所述文本卷积网络中的卷积层分别对所述第一特征向量和所述第二特征向量进行卷积计算，分别生成第一细化向量和第二细化向量；将所述第一细化向量和所述第二细化向量构成的图谱确定为声谱图。

可选的，在本发明第二方面的第六种实现方式中，所述乐谱转化为声谱的生成装置还包括：播放模块，用于利用播放系统对声谱图进行播放，播放对应的音频数据。

本发明第三方面提供了一种乐谱转化为声谱的生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述乐谱转化为声谱的生成设备执行上述的乐谱转化为声谱的生成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的乐谱转化为声谱的生成方法。

本发明提供的技术方案中，获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，通过所述乐谱编码器对所述待转化乐谱图片进行编码，得到编码图；将所述编码图传输至U型网络中，利用所述U型网络对所述编码图进行拆分，生成拆分图；通过哑变量构成的开关确定所述拆分图中的停顿特征向量，并利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图；将所述解码图输入至文本卷积网络中，利用所述文本卷积网络中的条件码对所述解码图进行细化处理，生成声谱图。本发明实施例中，通过乐谱编码器对待转化乐谱图片进行编码生成编码图，其次分别利用U型网络和哑变量构成的开关对编码图进行拆分与确定停顿特征向量，并利用乐谱解码器对其进行解码生成解码图，最后利用文本卷积网络对解码图进行细化处理，生成声谱图。提高了乐谱转化为声谱的准确率以及转化效率。

附图说明

图1为本发明实施例中乐谱转化为声谱的生成方法的一个实施例示意图；

图2为本发明实施例中乐谱转化为声谱的生成方法的另一个实施例示意图；

图3为本发明实施例中乐谱转化为声谱的生成装置的一个实施例示意图；

图4为本发明实施例中乐谱转化为声谱的生成装置的另一个实施例示意图；

图5为本发明实施例中乐谱转化为声谱的生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种乐谱转化为声谱的生成方法、装置、设备及存储介质，用于提高乐谱转化为声谱的准确率以及转化效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中乐谱转化为声谱的生成方法的一个实施例包括：

101、获取待转化乐谱图片，并将待转化乐谱图片输入乐谱编码器中，通过乐谱编码器对待转化乐谱图片进行编码，得到编码图；

可以理解的是，本发明的执行主体可以为乐谱转化为声谱的生成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

实现将乐谱转化为音频的过程，即为将钢琴条形窗口(乐谱图)转化为声谱图(用于生成音频)的过程。服务器首先获取待转化乐谱图片，该待转化乐谱图片的内容用于指示待转化的乐谱，且待转化的乐谱的内容形式为钢琴条形窗口存储的乐谱。具体的，待转化乐谱图片的格式可以为BMP格式、JPEG格式、TIFF格式、SVG格式、PNG格式或PSD格式等，在本申请中并不对待转化乐谱图片的格式进行限定。此外，本申请也不对待转化乐谱图片的分辨率进行限定，一般的，待转化乐谱图片的分辨率为320×448PPI或480×640PPI。

进一步说明的是，服务器获取到待转化乐谱图片之后，需要将待转化乐谱图片输入至乐谱编码器中，这里的乐谱编码器指的是音乐可变自动编码器(music variationalauto-encoder，Music VAE)，其是将大量真实的乐谱样本通过编码器网络变换成一个理想的数据分布，然后在将这个数据分布传递给一个解码器网络，得到大量的生成乐谱样本，若生成乐谱样本与真实乐谱样本足够接近，则训练出了一个音乐自编码器模型。乐谱编码器可以将诸如音乐作品之类的东西建模(编码)为潜在变量的分布，然后利用对应的乐谱解码器可以将编码乐谱的潜变量的分布(潜变量在编码器之外无意义)可以解码回为乐谱。在这里服务器利用乐谱编码器将乐谱图片进行编码是为了后续对乐谱进行校准、细化等操作，使得最终得到的声谱图根据有音乐性。

需要强调的是，为进一步保证上述待转化乐谱图片的私密和安全性，上述待转化乐谱图片还可以存储于一区块链的节点中。

102、将编码图传输至U型网络中，利用U型网络对编码图进行拆分，生成拆分图；

服务器在得到编码图之后，将编码图传输至U型网络中，这里的U型网络是利用全卷积网络进行语义分割的算法之一，通过U型网络可以将输入的编码图进行压缩路径处理和扩展路径处理，压缩路径处理即为对输入的编码图进行卷积计算，对编码图进行压缩处理，例如可以将572×572尺寸的特征图转化为32×32尺寸的特征图；扩展路径处理即为将压缩后的特征图进行反卷积计算，对压缩后的特征图进行扩展处理，例如将上述32×32尺寸的特征图转化为388×388尺寸的特征图。这样的U型网络会将编码图以每次二倍的速率拆分成更小的数据结构，这样不仅保证了数据传输的质量，也因为数据数量的增加解决了钢琴条形窗口和声谱图大小不匹配的问题。

103、通过哑变量构成的开关确定拆分图中的停顿特征向量，并利用乐谱解码器对确定停顿特征向量后的拆分图进行解码，得到解码图；

由于得到的拆分图对应生成的是连续发声的音频音乐，而具有节奏感的音频音乐之间需要存在音符之间的停顿，因此在这里服务器利用哑变量构成的开关生成拆分图中的停顿特征向量。哑变量也称为虚拟变量(dummy variable)，是一种将多分类变量转换为二分变量的一种形式，这里利用哑变量对拆分图中的多个音频特征向量进行赋值，即可确定哪些音频特征向量为停顿特征向量。

在确定了停顿特征向量之后，服务器直接利用乐谱解码器对确定停顿特征向量后的拆分图进行解码，即可生成一个可以用于生成音频的声谱(解码图)。

104、将解码图输入至文本卷积网络中，利用文本卷积网络中的条件码对解码图进行细化处理，生成声谱图。

由于经过上述处理后得到的声谱(解码图)十分简单，在音色、情感表达和音质上的表现均不符合要求，因此还需要服务器利用文本卷积网络对解码图进行进一步处理。具体的，通过文本卷积网络中的条件码对解码图中的解码特征向量进行条件约束，再对条件约束后的向量进行卷积计算，最后生成最终的声谱图，经过文本卷积网络处理后的解码图可以提高对应音频音乐的音色和音质。

本发明实施例中，通过乐谱编码器对待转化乐谱图片进行编码生成编码图，其次分别利用U型网络和哑变量构成的开关对编码图进行拆分与确定停顿特征向量，并利用乐谱解码器对其进行解码生成解码图，最后利用文本卷积网络对解码图进行细化处理，生成声谱图。提高了乐谱转化为声谱的准确率以及转化效率。

请参阅图2，本发明实施例中乐谱转化为声谱的生成方法的另一个实施例包括：

201、获取待转化乐谱图片，并将待转化乐谱图片输入乐谱编码器中，通过乐谱编码器对待转化乐谱图片进行编码，得到编码图；

具体的，服务器首先获取待转化乐谱图片，并将待转化乐谱图片输入乐谱编码器中，提取待转化乐谱图片中的初始向量；其次服务器通过乐谱编码器生成初始向量对应的潜在变量；然后服务器利用损失函数计算潜在变量的损失向量；最后服务器将潜在变量与损失向量进行整合，得到编码向量，将编码向量构成的图谱确定为编码图。

实现将乐谱转化为音频的过程，即为将钢琴条形窗口(乐谱图)转化为声谱图(用于生成音频)的过程。服务器首先获取待转化乐谱图片，该待转化乐谱图片的内容用于指示待转化的乐谱，且待转化的乐谱的内容形式为钢琴条形窗口存储的乐谱。

服务器首先获取需要转化成声谱的待转化乐谱图片，将待转化乐谱图片输入乐谱编码器中，提取待转化乐谱图片中的初始向量，这里的初始向量指的是待转化乐谱图片中的像素特征向量，将待转化乐谱图片输入至乐谱编码器后可以生成待转化乐谱的潜在变量(真实样本也就是初始向量的分布)和损失向量(随机噪音码)，这里的损失向量用于控制噪音的权重，使得编码后得到的图谱更加准确、清晰。其中利用乐谱编码器中生成初始向量对应的潜在变量，也就是生成初始向量对应的真实分布，然后再利用损失函数对初始向量进行计算，得到初始向量的损失向量，最后将潜在向量与损失向量进行整合，得到最终的编码向量，并将通过编码向量构成的图谱确定为编码图。

具体的，服务器在利用损失函数计算潜在变量的损失向量的过程如下：服务器利用损失函数分别计算潜在变量的均值和标准差，分别得到均值向量和标准差向量；服务器对标准差向量进行采样，得到采样向量，并将采样向量与对应的均值量向进行叠加，生成潜在变量的损失向量。

在利用乐谱编码器对待转化乐谱图片进行编码时，不免会生成损失，因此为了平衡真实样本与损失误差，服务器通过损失函数计算潜在变量的均值和标准差进一步调整真实样本。这里潜在变量的均值用于度量待转化乐谱图片的重构误差，潜在变量的标准差用于度量潜在变量的分布和单位高斯分布之间的差异。服务器计算完潜在变量的均值和标准差之后，得到均值向量和标准差向量，然后服务器对标准差向量进行采样处理，得到采样向量，将采样向量与对应的均值向量进行叠加，生成潜在变量的损失向量。需要说明的是，这里采样向量与均值向量是一一对应的关系，也就是说均值向量与采样向量在待转化乐谱图片中的位置是对应的。

202、将编码图传输至U型网络中，利用U型网络对编码图进行拆分，生成拆分图；

具体的，服务器首先将编码图传输至U型网络中，利用U型网络中的全卷积网络对编码图进行卷积计算，并利用最大池化层对卷积计算后的结果进行池化处理，得到降采样特征图；然后服务器通过U型网络中的反卷积网络对降采样特征图进行卷积计算，生成扩展特征图；最后服务器根据扩展特征图的尺寸对降采样特征图进行剪裁，并将裁剪后得到特征图与扩展特征图进行归一化处理，生成拆分图。

编码图输入至U型网络中后，U型网络首先对编码图进行压缩路径操作处理，举例说明：已知编码图的尺寸为572×572，将编码图输入至U型网络中后，利用U型网络中的全卷积网络对编码图进行卷积计算，然后利用最大池化层对卷积计算后的结果进行池化处理，得到降采样特征图。需要说明的是，这里的压缩路径操作处理中包括四个数据块，每个数据块中包括2个3×3的卷积层和1个2×2最大池化层(用于降采样)，由此，编码图的尺寸572×572经过降采样之后变成了32×32，得到了降采样特征图。

在经过压缩路径操作处理之后，U型网络会对降采样特征图进行扩展路径处理，同样的，扩展路径操作处理中包括四个数据块，每个数据块中包括1个2×2的卷积层和1个3×3的卷积层，并且每一步的扩展路径处理都会叠加来自相对应收缩路径处理后的特征图。需要说明的是，由于收缩路径处理后的特征图尺寸与扩展路径处理后的特征图尺寸并不相同，因此需要根据扩展特征图的尺寸对降采样特征图进行剪裁之后，在将裁剪后的特征图与扩展特征图进行归一化处理，生成拆分图。举例说明：尺寸为572×572的编码图，经过压缩路径处理后得到尺寸为32×32的降采样特征图，再经过扩展路径处理后得到尺寸为388×388的拆分图。

203、通过哑变量构成的开关确定拆分图中的停顿特征向量，并利用乐谱解码器对确定停顿特征向量后的拆分图进行解码，得到解码图；

具体的，服务器首先获取拆分图中的多个音频特征向量，并获取相邻两个音频特征向量之间的停顿间隔，得到多个停顿间隔；其次服务器将停顿间隔大于间隔阈值的停顿间隔确定为目标间隔，利用哑变量构成的开关对目标间隔进行赋值，得到第一赋值特征向量，并将第一赋值特征向量确定为停顿特征向量；然后服务器将停顿间隔小于或等于间隔阈值的停顿间隔确定为其他间隔，利用哑变量构成的开关对其他间隔进行赋值，得到第二赋值特征向量，并将第二赋值特征向量确定为连续特征向量；最后服务器利用乐谱解码器对确定停顿特征向量后的拆分图进行解码，得到解码图。

这里的哑变量也称为虚拟变量(dummy variable)，是一种将多分类变量转换为二分变量的一种形式，这里利用哑变量对拆分图中的多个音频特征向量进行赋值，即可确定哪些音频特征向量为停顿特征向量。首先服务器获取拆分图中的多个音频特征向量，并获取相邻两个音频特征向量之间的停顿间隔，这里的停顿间隔指的是相邻两个音乐节拍之间的间隔时间，当停顿间隔大于间隔阈值时，说明该间隔时间对应的音频应该为停顿节拍，利用哑变量构成的开关对停顿间隔大于间隔阈值的停顿间隔赋值为1，得到第一赋值特征向量，并将第一赋值特征向量确定为停顿特征向量；当停顿间隔小于或等于间隔阈值时，说明该间隔时间对应的音频应该为连续节拍，利用哑变量构成的开关对停顿间隔小于或等于间隔阈值的停顿间隔赋值为0，得到第二赋值特征向量，并将第二赋值特征向量确定为连续特征向量。最后服务器利用乐谱解码器对确定停顿特征向量后的拆分图进行解码，得到解码图。需要说明的是，这里乐谱解码器对拆分图进行解码的过程与乐谱编码器对待转化乐谱图片进行编码的过程正好相反。

204、将解码图输入至文本卷积网络中，利用条件码对解码图进行细化处理，生成声谱图；

具体的，服务器首先将解码图输入至文本卷积网络中，并获取解码图中的解码特征向量；其次服务器通过条件码对解码特征向量进行条件约束，将符合条件约束的解码特征向量确定为第一特征向量，将不符合条件约束的解码特征向量确定为第二特征向量；然后服务器利用文本卷积网络中的卷积层分别对第一特征向量和第二特征向量进行卷积计算，分别生成第一细化向量和第二细化向量；最后服务器将第一细化向量和第二细化向量构成的图谱确定为声谱图。

由于经过上述处理后得到的声谱(解码图)十分简单，在音色、情感表达和音质上的表现均不符合要求，因此还需要服务器利用文本卷积网络对解码图进行进一步处理。具体的，通过文本卷积网络中的条件码对解码图中的解码特征向量进行条件约束，这里的条件约束可以为对解码特征向量的数值约束，也可以为对解码特征向量取值范围的约束，本申请并不对条件约束的条件进行限定，可以根据实际情况设定约束条件。服务器将符合条件约束的解码特征向量确定为第一特征向量，将不符合条件约束的解码特征向量确定为第二特征向量，然后分别利用文本卷积网络中的卷积层分别对第一特征向量和第二特征向量进行卷积计算，生成对应的第一细化向量和第二细化向量，需要说明的是，这里的卷积计算是对第一特征向量和第二特征向量进行细化处理的过程，计算几次卷积相当于细化拆分几次，具体卷积的次数可以根据实际情况进行设定，最终将由第一细化向量和第二细化向量构成的图谱确定为声谱图，得到一个在音色、自然性、音质和情感各方面均表现优秀的声谱图。

205、利用播放系统对声谱图进行播放，播放对应的音频数据。

在得到待转化乐谱图片转化后的声谱图之后，服务器直接利用播放系统对声谱图进行播放，播放声谱图对应的音频数据。

上面对本发明实施例中乐谱转化为声谱的生成方法进行了描述，下面对本发明实施例中乐谱转化为声谱的生成装置进行描述，请参阅图3，本发明实施例中乐谱转化为声谱的生成装置一个实施例包括：

编码模块301，用于获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，通过所述乐谱编码器对所述待转化乐谱图片进行编码，得到编码图；

拆分模块302，用于将所述编码图传输至U型网络中，利用所述U型网络对所述编码图进行拆分，生成拆分图；

解码模块303，用于通过哑变量构成的开关确定所述拆分图中的停顿特征向量，并利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图；

生成模块304，用于将所述解码图输入至文本卷积网络中，利用所述文本卷积网络中的条件码对所述解码图进行细化处理，生成声谱图。

请参阅图4，本发明实施例中乐谱转化为声谱的生成装置的另一个实施例包括：

可选的，编码模块301包括：

提取单元3011，用于获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，提取所述待转化乐谱图片中的初始向量；

生成单元3012，用于通过所述乐谱编码器生成所述初始向量对应的潜在变量；

计算单元3013，用于利用损失函数计算所述潜在变量的损失向量；

确定单元3014，用于将所述潜在变量与所述损失向量进行整合，得到编码向量，将所述编码向量构成的图谱确定为编码图。

可选的，计算单元3013具体用于：

利用损失函数分别计算所述潜在变量的均值和标准差，分别得到均值向量和标准差向量；

对所述标准差向量进行采样，得到采样向量，并将所述采样向量与对应的所述均值量向进行叠加，生成所述潜在变量的损失向量。

可选的，拆分模块302具体用于：

将所述编码图传输至U型网络中，利用所述U型网络中的全卷积网络对所述编码图进行卷积计算，并利用最大池化层对卷积计算后的结果进行池化处理，得到降采样特征图；

通过所述U型网络中的反卷积网络对所述降采样特征图进行卷积计算，生成扩展特征图；

根据所述扩展特征图的尺寸对所述降采样特征图进行剪裁，并将裁剪后得到特征图与所述扩展特征图进行归一化处理，生成拆分图。

可选的，解码模块303具体用于：

获取所述拆分图中的多个音频特征向量，并获取相邻两个音频特征向量之间的停顿间隔，得到多个停顿间隔；

将所述停顿间隔大于间隔阈值的停顿间隔确定为目标间隔，利用哑变量构成的开关对所述目标间隔进行赋值，得到第一赋值特征向量，并将所述第一赋值特征向量确定为停顿特征向量；

将所述停顿间隔小于或等于所述间隔阈值的停顿间隔确定为其他间隔，利用所述哑变量构成的开关对所述其他间隔进行赋值，得到第二赋值特征向量，并将所述第二赋值特征向量确定为连续特征向量；

利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图。

可选的，生成模块304具体用于：

将所述解码图输入至文本卷积网络中，并获取所述解码图中的解码特征向量；

通过条件码对所述解码特征向量进行条件约束，将符合所述条件约束的解码特征向量确定为第一特征向量，将不符合所述条件约束的解码特征向量确定为第二特征向量；

利用所述文本卷积网络中的卷积层分别对所述第一特征向量和所述第二特征向量进行卷积计算，分别生成第一细化向量和第二细化向量；

将所述第一细化向量和所述第二细化向量构成的图谱确定为声谱图。

可选的，乐谱转化为声谱的生成装置还包括：

播放模块305，用于利用播放系统对声谱图进行播放，播放对应的音频数据。

上面图3和图4从模块化功能实体的角度对本发明实施例中的乐谱转化为声谱的生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中乐谱转化为声谱的生成设备进行详细描述。

图5是本发明实施例提供的一种乐谱转化为声谱的生成设备的结构示意图，该乐谱转化为声谱的生成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对乐谱转化为声谱的生成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在乐谱转化为声谱的生成设备500上执行存储介质530中的一系列指令操作。

乐谱转化为声谱的生成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的乐谱转化为声谱的生成设备结构并不构成对乐谱转化为声谱的生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种乐谱转化为声谱的生成设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述乐谱转化为声谱的生成方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述乐谱转化为声谱的生成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种乐谱转化为声谱的生成方法，其特征在于，所述乐谱转化为声谱的生成方法包括：

获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，通过所述乐谱编码器对所述待转化乐谱图片进行编码，得到编码图；

将所述编码图传输至U型网络中，利用所述U型网络对所述编码图进行拆分，生成拆分图；

通过哑变量构成的开关确定所述拆分图中的停顿特征向量，并利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图；

将所述解码图输入至文本卷积网络中，利用所述文本卷积网络中的条件码对所述解码图进行细化处理，生成声谱图；

所述通过哑变量构成的开关确定所述拆分图中的停顿特征向量，包括：

所述利用所述文本卷积网络中的条件码对所述解码图进行细化处理，生成声谱图包括：

通过所述文本卷积网络中的条件码对所述解码图中的解码特征向量进行条件约束，得到条件约束后的向量；

对所述条件约束后的向量进行卷积计算并生成声谱图。

2.根据权利要求1所述的乐谱转化为声谱的生成方法，其特征在于，所述获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，通过所述乐谱编码器对所述待转化乐谱图片进行编码，得到编码图包括：

获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，提取所述待转化乐谱图片中的初始向量；

通过所述乐谱编码器生成所述初始向量对应的潜在变量；

利用损失函数计算所述潜在变量的损失向量；

将所述潜在变量与所述损失向量进行整合，得到编码向量，将所述编码向量构成的图谱确定为编码图。

3.根据权利要求2所述的乐谱转化为声谱的生成方法，其特征在于，所述利用损失函数计算所述潜在变量的损失向量包括：

对所述标准差向量进行采样，得到采样向量，并将所述采样向量与对应的所述均值向量进行叠加，生成所述潜在变量的损失向量。

4.根据权利要求1所述的乐谱转化为声谱的生成方法，其特征在于，所述将所述编码图传输至U型网络中，利用所述U型网络对所述编码图进行拆分，生成拆分图包括：

5.根据权利要求1所述的乐谱转化为声谱的生成方法，其特征在于，所述通过哑变量构成的开关确定所述拆分图中的停顿特征向量，并利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图还包括：

6.根据权利要求1所述的乐谱转化为声谱的生成方法，其特征在于，所述将所述解码图输入至文本卷积网络中，利用条件码对所述解码图进行细化处理，生成声谱图包括：

7.根据权利要求1-6中任一项所述的乐谱转化为声谱的生成方法，其特征在于，在所述将所述解码图输入至文本卷积网络中，利用条件码对所述解码图进行细化处理，生成声谱图之后，所述乐谱转化为声谱的生成方法还包括：

利用播放系统对声谱图进行播放，播放对应的音频数据。

8.一种乐谱转化为声谱的生成装置，其特征在于，所述乐谱转化为声谱的生成装置执行如权利要求1-所述乐谱转化为声谱的生成方法，所述乐谱转化为声谱的生成装置包括：

编码模块，用于获取待转化乐谱图片，并将所述待转化乐谱图片输入乐谱编码器中，通过所述乐谱编码器对所述待转化乐谱图片进行编码，得到编码图；

拆分模块，用于将所述编码图传输至U型网络中，利用所述U型网络对所述编码图进行拆分，生成拆分图；

解码模块，用于通过哑变量构成的开关确定所述拆分图中的停顿特征向量，并利用乐谱解码器对确定所述停顿特征向量后的拆分图进行解码，得到解码图；

生成模块，用于将所述解码图输入至文本卷积网络中，利用所述文本卷积网络中的条件码对所述解码图进行细化处理，生成声谱图。

9.一种乐谱转化为声谱的生成设备，其特征在于，所述乐谱转化为声谱的生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述乐谱转化为声谱的生成设备执行如权利要求1-7中任意一项所述的乐谱转化为声谱的生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述乐谱转化为声谱的生成方法。