CN114036341B

CN114036341B - 音乐标签的预测方法、相关设备

Info

Publication number: CN114036341B
Application number: CN202210023532.1A
Authority: CN
Inventors: 彭博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-03-29
Anticipated expiration: 2042-01-10
Also published as: CN114036341A

Abstract

本申请实施例提供了一种音乐标签的预测方法、相关设备，其中方法包括按照目标采样率加载目标音乐，目标音乐对应多个加载采样率，目标采样率是多个加载采样率中的其中一个；在通过加载目标音乐得到目标音频数据后，根据目标采样率动态计算目标音频数据对应的傅里叶变换参数；基于计算出的傅里叶变换参数对目标音频数据进行变采样离散傅里叶变换，得到目标频谱图；根据目标频谱图对目标音乐的类别进行预测，得到目标音乐的类别预测标签。本申请具有较高的适用性，可以提升标签预测的处理效率，以及节省标签预测所需的成本。

Description

音乐标签的预测方法、相关设备

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音乐标签的预测方法、相关设备。

背景技术

近年来，随着数字音乐行业的迅速发展，用户可以通过各类音乐播放平台对海量的音乐进行收听。音乐播放平台可以预先对音乐设定语种、风格等类别标签，以便用户可以在进行音乐检索时利用这些类别标签，查找到满足个性化需求的资源。目前，在对预测不同音乐的类别标签时，通常需先按照一个固定采样率对不同音乐进行数据插分处理，以将不同音乐统一成标准格式的采样数据，再基于标准格式的采样数据对各个音乐进行类别标签的预测。然而，数据插分处理这一操作会消耗大量的处理时间和处理资源，这样会导致标签预测的处理效率较低，且标签预测所需的成本较高。

发明内容

本申请实施例提供一种音乐标签的预测方法、相关设备，具有较高的适用性，可以提升标签预测的处理效率，以及节省标签预测所需的成本。

一方面，本申请实施例提供了一种音乐标签的预测方法，该方法包括：

按照目标采样率加载目标音乐，所述目标音乐对应多个加载采样率，所述目标采样率是所述多个加载采样率中的其中一个；

在通过加载所述目标音乐得到目标音频数据后，根据所述目标采样率动态计算所述目标音频数据对应的傅里叶变换参数；

基于计算出的傅里叶变换参数对所述目标音频数据进行变采样离散傅里叶变换，得到目标频谱图；

根据所述目标频谱图对所述目标音乐的类别进行预测，得到所述目标音乐的类别预测标签。

另一方面，本申请实施例提供了一种音乐标签预测装置，该装置包括：

加载单元，用于按照目标采样率加载目标音乐，所述目标音乐对应多个加载采样率，所述目标采样率是所述多个加载采样率中的其中一个；

处理单元，用于在通过加载所述目标音乐得到目标音频数据后，根据所述目标采样率动态计算所述目标音频数据对应的傅里叶变换参数；

所述处理单元，还用于基于计算出的傅里叶变换参数对所述目标音频数据进行变采样离散傅里叶变换，得到目标频谱图；

预测单元，用于根据所述目标频谱图对所述目标音乐的类别进行预测，得到所述目标音乐的类别预测标签。

再一方面，本申请实施例提供了一种计算机设备，包括输入接口和输出接口，所述计算机设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

再一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质中存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行上述所提及的音乐标签的预测方法。

再一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，所述计算机程序被处理器执行时，实现上述所提及的音乐标签的预测方法。

本申请实施例可在加载目标音乐得到目标音频数据后，根据音乐加载时所使用目标采样率来动态计算傅里叶变换系数，从而基于动态计算得到的傅里叶变换系数来对目标音频数据进行变采样离散傅里叶变换，来得到目标频谱图，进而基于该目标频谱图来预测得到目标音乐的类别预测标签。由此可见，在整个音乐标签的预测过程中，频谱图的生成与加载音乐时所采用的采样率相关，这样可使得本申请实施例针对采用任一采样率所得到的音频数据，均可对其进行傅里叶变换，使得本申请实施例具有较高的适用性。并且，通过参考音乐加载时所采用的采样率来进行变采样傅里叶变换，可使得在加载目标音乐得到目标音频数据的过程中，无需对目标音乐进行数据插分等处理，这样不仅可减少处理过程的耗时，提高了处理效率，还可有效节省标签预测所需的成本。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种音乐标签预测方案的流程示意图；

图2a是本申请实施例提供的一种由终端和服务器共同执行音乐标签预测方案的示意图；

图2b是本申请实施例提供的又一种由终端和服务器共同执行音乐标签预测方案的示意图；

图3是本申请实施例提供的一种音乐标签的预测方法的流程示意图；

图4是本申请实施例提供的一种音频数据分帧原理示意图；

图5是本申请实施例提供的一种分类模型的训练方法的流程示意图；

图6是本申请实施例提供的一种相同音乐采取不同加载采样率得到的对数梅尔频谱示意图；

图7是本申请实施例提供的一种用于预测类别标签的卷积神经网络模型架构示意图；

图8是本申请实施例提供的一种音乐标签预测装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及人工智能（artificial intelligence，AI），所谓的AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，其主要通过了解智能的实质，生产出一种新的能以人类智能相似的方式做出反应的智能机器，使得智能机器具有感知、推理与决策等多种功能。

具体的，AI技术可包括但不限于机器学习（machine learning，ML）技术；所谓的机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

基于AI技术中的机器学习技术，本申请实施例提出了一种基于神经网络模型的音乐标签预测方案；此处的神经网络模型是指具有预测音乐的类别标签这一能力的模型，后续可称为分类模型。具体的，该方案主要包括模型优化过程和模型推理过程（即模型的实际应用过程）；并且，各过程的大致原理如下：

在模型优化过程中，可对分类模型的样本音乐随机选取采样率进行加载，以得到样本音频数据；然后，可按照针对样本音乐所采用的采样率，对样本音频数据进行变采样离散傅里叶变换，以将该样本音频数据映射到频谱空间得到相应的频谱图，从而调用分类模型基于该频谱图预测得到样本音乐的类别预测标签，进而便可根据该类别预测标签和样本音乐的类别标注标签，优化分类模型的模型参数。进一步，可通过迭代上述步骤，迭代优化分类模型的模型参数，从而最终确定出一个目标模型（即优化后的分类模型），以便于后续通过该目标模型对实际应用过程中所涉及的任意音乐进行类别标签的预测。

在模型推理过程中，对于输入的任一音乐，可先基于该任一音乐的存储方式确定用于加载该任一音乐的采样率，并基于确定的采样率对其进行加载得到相应的音频数据，然后按照该确定的采样率对该相应的音频数据进行变采样离散傅里叶变换，以将该相应的音频数据映射到频谱空间得到相应的频谱图，从而调用目标模型（即优化后的分类模型）基于该频谱图预测得到该任一音乐的类别预测标签。

其中，在上述调用分类模型（或目标模型）基于任一频谱图预测得到相应音乐的类别预测标签时，一种具体实施方式可以是：直接将任一频谱图输入分类模型（或目标模型）中，使得分类模型（或目标模型）对该任一频谱图进行特征提取，从而基于提取出的特征来预测出相应音乐的类别预测标签。或者，参见图1所示，另一种具体实施方式可以是：先将任一频谱图经过梅尔滤波得到梅尔谱图，再将梅尔谱图输入分类模型（或目标模型）中，使得分类模型（或目标模型）对该梅尔谱图进行特征提取，从而基于提取出的特征来预测出相应音乐的类别预测标签。

由此可见，采用本申请提供的音乐预测方案可以对不同加载采样率（音乐的原始采样率）的音乐进行类别标签预测，避免按照固定采样率采样带来的数据插分环节，减少了处理过程的耗时，提高了处理效率。

在具体实现中，上述所提及的音乐标签预测方案可由一个或多个计算机设备执行，该计算机设备可以是终端或服务器。此处所提及的终端可以包括但不限于移动终端(mobile terminal，MT)、接入终端设备、车载终端设备、工业控制终端设备、用户体验（userexperience，UE）单元、UE站、移动站、远方站、远程终端设备、移动设备、UE终端设备、无线通信设备、UE代理或UE装置等中的任意一种或多种。终端设备可以是固定的或者移动的。需要说明的是，终端设备可以支持至少一种无线通信技术，例如长期演进（long termevolution，LTE）网络、新空口（new radio，NR）等。例如，终端设备可以是手机(mobilephone)、平板电脑(pad)、台式机、笔记本电脑等。此外，终端设备还可以是具有收发功能的装置，例如芯片系统。其中，芯片系统可以包括芯片，还可以包括其它分立器件，本申请实施例对此并不限定。此处所提及的服务器可以包括但不限于独立的物理服务器、多个物理服务器构成的服务器集群或者分布式系统或者提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（content deliverynetwork，CDN）及大数据和人工智能平台等基础云计算服务的云服务器。

可选的，上述所提及的音乐标签预测方案也可由终端和服务器共同执行；例如，参见图2a所示：可由服务器202负责模型的优化，并将优化得到的目标模型下发至终端设备201，由终端设备201可以在模型推理过程中利用目标模型对任意输入音乐确定其对应的类别预测标签；又如，参见图2b所示：可由终端设备201对模型优化过程中的样本音乐进行加载得到样本音频数据，将样本音频数据上传至服务器202，由服务器202利用样本音乐的样本音频数据优化分类模型，以得到目标模型；相应的，终端设备201还可对模型推理过程中的任一音乐进行加载得到相应的音频数据，将相应的音频数据上传至服务器202，服务器202调用优化后的分类模型（即目标模型）对相应的音频数据进行处理，确定任一音乐的类别预测标签，最后，该类别预测标签可以由服务器202返回至终端设备201。总之，当上述所提及的音乐标签预测方案由终端和服务器共同执行时，可以将方案的各个步骤进行解耦，解耦后的步骤可分配给终端或服务器执行，本申请对终端或服务器具体执行的解耦步骤不作限制。

基于上述所提及的音频标签预测方案，本申请实施例提出了一种音频标签的预测方法。该方法可由上述所提及的计算机设备（如终端或服务器）执行，也可以由终端和服务器共同执行；为便于阐述，后续均以计算机设备执行该方法为例进行说明。并且，本申请实施例所提出的音频标签的预测方法可应用在模型优化过程中，也可以运用在模型推理过程中，对此不作限定。参见图3所示，该音频标签的预测方法可包括步骤S301~步骤S304：

S301、按照目标采样率加载目标音乐，目标音乐对应多个加载采样率，目标采样率是多个加载采样率中的其中一个。

在本申请实施例中，此处所提及的目标音乐可以是模型优化过程中所涉及的样本音乐，也可以是模型推理过程中所涉及的需进行类别预测的任一音乐。

当目标音乐是模型推理过程中所涉及的需进行类别预测的任一音乐时，加载采样率是指终端设备存储目标音乐时所使用的采样率，上述按照目标采样率加载目标音乐的具体方式为：响应于多个终端设备中的目标终端设备上传目标音乐的请求，从请求中解析出目标终端设备对应的加载采样率；将解析出的加载采样率确定为目标采样率，按照目标采样率加载目标音乐。

在该种情况下，目标音乐为实际应用中需要进行类别预测的音乐，且存储于用户的终端设备中，目标音乐可以为一段完整的音乐或者一段完整音乐中按照固定时长截取的音乐片段又或者一段完整音乐中截取的音乐精华（高潮）片段。对于不同的用户，目标音乐存储于用户所对应的终端设备时，可能采取不同的加载采样率。可选的，目标终端设备上传目标音乐的请求中包括目标音乐和目标音乐的存储信息，存储信息中包括目标音乐在目标终端设备上的加载采样率，该加载采样率可用于计算机设备读取目标音乐中的点位数（采样样本数目）。

示例性地，用户A和用户B分别采取加载采样率1、加载采样率2对目标音乐进行存储。当用户A需要对目标音乐进行类别预测时，通过用户A所在的终端设备对计算机设备发起请求，计算机设备从该请求中解析出目标音乐的加载采样率1，将加载采样率1作为目标采样率对目标音乐进行采样加载；同理，当用户B需要对目标音乐进行类别预测时，通过用户B所在的终端设备对计算机设备发起请求，计算机设备从该请求中解析出目标音乐的加载采样率2，将加载采样率2作为目标采样率对目标音乐进行采样加载。由此可见，计算机设备即使对于不同加载采样率的相同目标音乐，在对目标音乐进行加载时，也只是读取了对应加载采样率下目标音乐所包含的点位数，而不需要对目标音乐所包含的点位数进行插值预测或者抽取，从而减少了处理过程的耗时，提高了处理效率。

当目标音乐是模型优化过程中所涉及的样本音乐时，加载采样率可以为分类模型的训练过程所预设的采样率，或者终端设备存储目标音乐时所使用的采样率，对此不作限定。进一步的，当加载采样率为终端设备存储目标音乐时所使用的采样率时，目标采样率的确定方式可参见上述模型推理过程中所涉及的相关描述。当加载采样率为分类模型的训练过程所预设的采样率时，目标采样率的确定方式可以为：从目标音乐所对应的多个加载采样率中，随机选取一个加载采样率作为目标采样率。示例性地，若多个加载采样率包括加载采样率1、加载采样率2、加载采样率3，则在训练过程中包括：首先将加载采样率1作为目标采样率加载目标音乐进行第一次训练更新，再将加载采样率2作为目标采样率加载目标音乐进行第二次训练更新，再将加载采样率3作为目标采样率加载目标音乐进行第三次训练更新，等等，则至少经过三次训练更新，可以使得目标音乐的数据形式包括所有加载采样率加载后的形式，增加了训练时数据的多样性。

S302、在通过加载目标音乐得到目标音频数据后，根据目标采样率动态计算目标音频数据对应的傅里叶变换参数。

在一种可能实施方式中，根据目标采样率动态计算目标音频数据对应的傅里叶变换参数，包括：根据目标采样率，对目标音频数据进行变采样离散傅里叶变换时所需的帧移参数进行动态计算，得到目标帧移参数；确定目标音乐的音乐时长，并基于音乐时长、目标帧移参数以及目标采样率计算目标音频数据对应的分帧数；将目标帧移参数和分帧数，添加至目标音频数据对应的傅里叶变换参数中。

其中，通过步骤S301得到的目标音频数据为一维音频数据，为方便后续对音频中所包含的音频特征进行提取，需要将一维音频数据经过离散傅里叶变换处理得到二维音频数据（频谱图组）。对于按照固定采样率加载得到的一维音频数据，该一维音频数据所包括的点位数相同，按照固定的傅里叶变换参数对其进行变换后得到的频谱图组也具有相同的时间维度；而在本方案中，按照不同目标采样率加载得到的一维音频数据所包括的点位数不同，若按照固定的傅里叶变换参数对其进行变换，得到频谱图组的时间维度会因目标采样率的不同而有所区别。为保证不同目标采样率对应的频谱图组可以得到相同的时间维度表示，需要对傅里叶变换的参数进行动态调整。

可选地，根据目标采样率，对目标音频数据进行变采样离散傅里叶变换时所需的帧移参数进行动态计算，得到目标帧移参数，包括：确定基准帧移参数，以及基准帧移参数所对应的固定采样率；其中，基准帧移参数是指任一音频数据进行离散傅里叶变换时所需的帧移参数；计算目标采样率和固定采样率之间的比例，并根据计算得到的比例对基准帧移参数进行动态缩放处理，得到目标音频数据在进行变采样离散傅里叶变换时所需的目标帧移参数。其中，基础帧移参数和目标帧移参数为基础帧移和目标帧移中所包含的点位数。示例性地，对于固定采样率为16kHz的音频数据，离散傅里叶变换时的每相邻两帧的基础帧移参数可取值为512个点位数，则对于目标采样率为sr的目标音频数据，傅里叶变换参数的动态缩放比例为sr/16000，目标帧移参数为512*（sr/16000）。也即是说，当sr为16kHz时，目标帧移参数取值为512，与基础帧移参数相同；当sr大于16kHz，目标帧移参数取值大于512（进行动态同比例放大）；当sr小于16kHz，目标帧移参数取值小于512（进行动态同比例缩小）。需要说明的是，基础帧移参数和固定采样率的取值可以根据实际情况的不同具有不同的取值，本申请对此不作限制。

可选地，基于音乐时长、目标帧移参数以及目标采样率计算目标音频数据对应的分帧数的具体实施方式可以包括：根据音乐时长和目标采样率，计算目标音频数据包括的时间点位的点位数；对点位数和目标帧移参数进行求和运算，并根据求和运算结果和目标帧移参数之间的比值，得到目标音频数据对应的分帧数。

在本申请实施例中，可以先确定目标音乐的起始时间点和结束时间点，将起始时间点和结束时间点之间的时间差值作为音乐时长；或者可以从目标音乐的存储信息中读取有关音乐时长的信息；又或者，当目标音乐为按照固定时长截取的音乐片段时，音乐时长为预设的截取时长。

其中，图4为本申请实施例提供的一种音频数据分帧原理示意图，如图4所示，音频数据被分帧为4帧，为保证处理的平滑性，会在相邻的帧与帧之间设置重叠部分，则每一帧包括帧移部分和重叠部分。假设每一帧所包含的点位数为win_length，帧移部分所包含的点位数（即目标帧移参数）为hop_length，音乐时长为dur，目标采样率为sr，则目标音频数据所包含的点位数为sr*dur。为了保证目标音频数据所包含的点位数sr*dur满足傅里叶变换点位数的要求，需要在分帧前对其进行首尾补充点位操作。例如，若在音频数据的起始点位之前补充pad_l个点位数，在结束点位之后补充pad_r个点位数，则根据图4中的分帧原理，补充点位后目标音频数据的点位数满足下述公式。

pad_l+pad_r+sr*dura=win_length+hop_length*(N - 1)

需要说明的是，此处补充点位的数量不超过一帧所包括点位数的一半，则win_length-pad_l-pad_r≥0，将其带入上述公式，则hop_length*N≤sr*dura+hop_length。再有，由于最后一个音频帧在进行下一分帧时无法满足帧移点位数，则win_length-pad_r-hop_length<pad_l，将其带入上述公式，则sr*dura+hop_length<hop_length*(N+1)。由此可见，hop_length*N=sr*dura+hop_length，则最终的分帧数为N=（sr*dur+hop_length）/hop_length。由于hop_length=基础帧移参数*（sr/固定采样率），在该公式中为一常量，则对于同一目标音乐，尽管可采取不同的目标采样率得到包括不同点位数的目标音频数据，但其音乐时长dur相同，则按照上述公式得到的分帧数N也相同，也即是说不同目标音频数据对应的频谱图组可以得到相同的时间维度表示。

S303、基于计算出的傅里叶变换参数对目标音频数据进行变采样离散傅里叶变换，得到目标频谱图。

其中，变采样离散傅里叶变换是指根据动态调整得到的傅里叶变换参数进行的离散傅里叶变换，该过程可以使得不同的加载采样率对应的目标音乐的目标频谱图具有相同的时间维度。

在一种可能实施方式中，步骤S303的具体实现方式包括：基于目标帧移参数和分帧数对目标音频数据进行分帧加窗处理，得到多个音频帧；分别对多个音频帧中的每个音频帧进行离散傅里叶变换，得到每个音频帧对应的频谱图；根据各个音频帧之间的时序先后关系，将每个音频帧对应的频谱图进行依序组合，得到目标频谱图。

其中，可以先根据目标帧移参数、分帧数以及音乐时长确定每个音频帧的帧长，再根据帧长和目标帧移参数对目标音频数据进行分帧。加窗操作使用的窗函数包括以下窗函数中任意一种窗函数：矩形窗、汉明窗、海宁窗，窗函数，本申请对此不作限制。假设对目标音频数据继续分帧处理得到I个音频帧

，则对每个音频帧

进行离散傅里叶变化得到一个频谱图

，则I个音频帧可得到I个频谱图，将其按照时序顺序进行组合，可得到时间维度为N的目标频谱图

。

S304、根据目标频谱图对目标音乐的类别进行预测，得到目标音乐的类别预测标签。

可选的，根据目标频谱图对目标音乐的类别进行预测，得到目标音乐的类别预测标签可以包括下述操作步骤：将目标频谱图转化为目标对数梅尔谱图，调用目标模型或者待优化的分类模型对目标对数梅尔谱图进行处理，得到目标音乐的类别预测标签。其中，当目标音乐为样本音乐时，调用待优化的分类模型对目标对数梅尔谱图进行处理；当目标音乐为任意输入的新音乐时，调用目标模型对目标对数梅尔谱图进行处理。待优化的分类模型为训练过程中用于训练预测音乐类别标签的神经网络模型，目标模型为训练完成的（已优化的）分类模型，可用于实际应用中对音乐的类别标签进行预测。目标模型的训练过程可以参见下述图5所示的实施例。

在一种可能实施方式中，将目标频谱图转化为目标对数梅尔谱图包括：对于每个音频帧所对应的频谱图（频谱图为频率和幅度值的对应关系），将其转化为功率谱图（频谱图为频率和能量的对应关系），再将每个音频帧所对应的功率谱图通过梅尔滤波器组，得到每个音频帧的对数梅尔谱，将每个音频帧对应的对数梅尔谱按照时序先后进行排列，得到目标对数梅尔谱图。其中，将每个音频帧所对应的功率谱图通过梅尔滤波器组时，首先可将频谱图中的普通频率标度转化为梅尔频率标度，其映射关系可以为

或者

，

为梅尔频率，

为普通频率，通过该转换，可以使得人耳对于频率的感知由非线性关系转化为线性关系，更符合人耳的听觉特性。接着，可以通过转化后的梅尔频率标度设计梅尔滤波器组，梅尔滤波器组中的每个滤波器包括一定频率范围内的能量权重，将该能量权重与对应频率范围内的能量进行乘积运算，将乘积运算的结果相加后进行对数运算（对能量进行压缩，符合人耳对声音能量的感知），即可到每个音频帧所对应的对数梅尔谱。通过该方式得到的目标对数梅尔谱图可以在后续预测类别标签时对其提取梅尔倒谱系数等音频特征，该音频特征符合人耳感知，能够提升预测的准确率。

需要说明的是，上述调用目标模型对目标对数梅尔谱图进行处理时，还可以将目标音频数据的目标频谱图也作为目标模型的输入，以便目标模型在提取音频特征时还可以提取基频、频谱包络等音频特征，基于多模态的音频特征对目标音乐的所属类别标签进行预测，进一步提高标签预测的准确性。

在一种可能实施方式中，上述目标音乐的类别预测标签可以为风格、语种、演唱者等标签信息中的任意一种。例如当类别预测标签为风格类标签时，可以包括古典主义音乐、乡村音乐、爵士、摇滚、重金属音乐等；当类别预测标签为语种类标签时，可以包括中文音乐、日语音乐、英语音乐等；当类别预测标签为演唱者类标签时，可以包括歌手1、歌手2、歌手3等。本申请实施例对类别预测标签的种类不作限制，可以根据具体实施方式确定。

本申请可在加载目标音乐得到目标音频数据后，根据音乐加载时所使用目标采样率来动态计算傅里叶变换系数，从而基于动态计算得到的傅里叶变换系数来对目标音频数据进行变采样离散傅里叶变换，来得到目标频谱图，进而基于该目标频谱图来预测得到目标音乐的类别预测标签。由此可见，在整个音乐标签的预测过程中，频谱图的生成与加载音乐时所采用的采样率相关，这样可使得本申请实施例针对采用任一采样率所得到的音频数据，均可对其进行傅里叶变换，使得本申请实施例具有较高的适用性。并且，通过参考音乐加载时所采用的采样率来进行变采样傅里叶变换，可使得在加载目标音乐得到目标音频数据的过程中，无需对目标音乐进行数据插分等处理，这样不仅可减少处理过程的耗时，提高了处理效率，还可有效节省标签预测所需的成本。

基于上述图3所示的方法实施例的相关描述，当目标音乐为样本音乐时，下面结合图5对上述所提及的分类模型的训练（或优化）过程（或目标模型的确定过程）进行阐述：

参见图5，是本申请实施例提供的一种分类模型的训练方法的流程示意图。该方法包括步骤S501~步骤S506，可由上述所提及的计算机设备（如终端或服务器）执行，也可以由终端和服务器共同执行；为便于阐述，后续均以计算机设备执行该方法为例进行说明，通过该方法可以对分类模型进行训练以得到目标模型，得到的目标模型可以应用于图3所对应实施例中的步骤S304。其中：

S501、获取用于对分类模型进行模型训练的多个样本音乐，并遍历多个样本音乐，将当前遍历的样本音乐作为目标音乐。

可选的，在获取用于对分类模型进行模型训练的多个样本音乐时，需要对每个样本音乐的时长进行标准化，以使得每个样本音乐的时长相同。例如，可以将每个样本音乐的时长预设为60s，当获取到时长超过60s的音乐时，随机截取其中的60s作为样本音乐，当获取到时长不足60s的音乐时，不将其作为样本音乐。通过该方式，可以使得每个样本音乐的目标频谱图具有相同的时间维度。

可以理解的是，获取用于模型训练的多个样本音乐时还需要尽可能考虑当前多个样本音乐在类别标签上数据分布的多样性，以提升预测的准确性。示例性地，当该分类模型用于对风格类的音乐进行标签预测时，用于模型训练的多个样本音乐应该包括多种风格的音乐；当该分类模型用于对演唱者类的音乐进行标签预测时，用于模型训练的多个样本音乐应该包括多个演唱者的音乐。

S502、从目标音乐对应的多个加载采样率中，随机选取一个加载采样率作为目标采样率，按照目标采样率加载目标音乐，得到目标音频数据。

可以理解的是，目标音乐本身具有一个原始加载采样率，该原始加载采样率为目标音乐的存储采样率，则随机选取加载采样率，并对目标音乐进行采样可以理解为对目标音乐的一个重采样操作，目标音频数据为重采样操作下所读取的点位数，该重采样操作可以增加训练数据的多样性和随机性，使得训练得到的分类模型具有更强的泛化能力（适用性）。例如，多个加载采样率包括但不限于48000Hz、44100Hz、32000Hz、24000Hz、22050Hz、16000Hz、12050Hz、8000Hz等，以60s的目标音乐为例，选取48000Hz对其进行采样，则目标音频数据包括60*48000=2880000个点位数。

S503、对目标音频数据进行变采样离散傅里叶变换，得到目标频谱图，根据目标频谱图对目标音乐的类别进行预测，得到目标音乐的类别预测标签。

可选的，得到目标频谱图的具体实现方式可以参见图3实施例中步骤S303的相应描述。根据目标频谱图对目标音乐的类别进行预测，得到目标音乐的类别预测标签可以包括：将目标频谱图转化为目标对数梅尔谱图，调用分类模型对目标对数梅尔谱图进行处理，得到目标音乐的类别预测标签。

需要说明的是，若目标频谱图是通过对目标音频数据进行分帧得到多个音频帧后，对每个音频帧对应的频谱图进行依序组合所得到的，则由于对目标音频数据进行分帧所得到的分帧数等于N=（sr*dur+hop_length）/hop_length，而hop_length=基础帧移参数*（sr/固定采样率），因此可知分帧数本质上是取决于音乐时长（dur）这一变量的。那么，对于采用不同目标采样率加载的同一目标音乐，在进行变采样离散傅里叶变换时，便可以得到数量相同的音频帧（也即是上述所说的时间维度或分帧数相同），且不同目标采样率下音频帧所包含的点位数不同不影响整体的时域信息。基于此，不同目标采样率所对应的目标频谱图和目标对数梅尔谱图所包含的频域信息也基本相似。例如，图6为同一个音乐分别采取加载采样率22050和44100得到的对数梅尔频谱图（a）和（b），两个对数梅尔频谱图基本相似，则通过两个对数梅尔频谱图得到的类别预测标签也相同。

其中，分类模型可以为深度神经网络模型，例如卷积神经网络（convolutionalneural networks，CNN）模型及其变形、长短期记忆网络（long short-term memorynetworks，LSTM）模型等，本申请对此不作限制，将目标频谱图转化为目标对数梅尔谱图的具体实现方式参见图3实施例中步骤S304中的相应描述。

下面以CNN模型为例，对得到目标音乐的类别预测标签的过程进行详细说明；示例性的，参见图7所示：CNN模型可包括5个卷积块、全局池化层、Dropout层、全连接层+线性整流函数（rectified linear unit，relu）、全连接层。每个卷积块由卷积层、按批标准化层、relu、卷积层、按批标准化层、relu、池化层、Dropout层组成。其中，通过该CNN模型预测目标音乐的类别预测标签的大致过程包括：依次通过5个卷积块对目标对数梅尔谱中的卷积特征进行多维度提取；将提取得到的卷积特征通过全局池化层进行特征压缩得到池化特征；将池化特征经过Dropout层进行随机丢弃得到音频局部特征；通过两个全连接层将所有的音频局部特征与权重矩阵进行运算，得到综合后的音频特征；将综合后的音频特征映射到音乐的类别标签空间中，获得目标音乐为各种类别的预测概率；从预测概率中选取最大预测概率所对应的类别为目标音乐的类别预测标签。

在该过程中，5个卷积块一共包括了10个卷积层，每个卷积块的两个卷积层中使用按批标准化层、池化层可以减少卷积特征提取过程中训练参数的数据量，提升训练效果。线性整流函数relu可用于增加CNN模型的非线性映射能力。全局池化层和Dropout层可以进一步减少训练参数的数据量，防止训练过拟合。需要说明的是，池化层和全局池化层可以采用最大池化或平均池化的方式，Dropout层的Dropout率可以按照实际情况设定，本申请不作限制。

S504、获取目标音乐的类别标注标签，并根据类别标注标签和目标音乐的类别预测标签之间的差异，更新优化分类模型的模型参数。

其中，目标音乐的类别标注标签为人为进行标注的类别标签（例如可以通过专家标注或统计用户的大量标注等来确定类别标注标签），类别标注标签为目标音乐的真实标签。

可选的，分类模型根据预测目标音乐的类别标签之间的差异可以由损失函数计算，示例性地，损失函数可以为0-1损失函数、平方损失函数、绝对值损失函数、对数损失函数等中的任意一种。例如，当采用的损失函数为0-1损失函数时，当类别预测标签和类别标注标签相同时，损失函数的值为0，当类别预测标签和类别标注标签不同时，损失函数的值为1；或者，当采用的损失函数为平方误差损失函数时，损失函数的值为类别预测标签和类别标注标签的差值的平方。

基于此，可以将损失函数的值通过梯度下降算法进行参数优化，沿梯度的反方向不断更新分类模型的模型参数。

S505、继续遍历多个样本音乐，并在多个样本音乐中的每个样本音乐均被遍历后，将当前通过多个样本音乐优化得到的分类模型作为一个候选模型进行保存。

其中，每次遍历一个样本音乐时，分类模型都会根据该样本音乐更新一次分类模型的参数，当分类模型更新模型参数的次数与样本音乐的数量相同时，说明所有样本音乐均已通过分类模型得到类别预测标签并参与模型参数更新，此时得到的分类模型为已优化的分类模型，可作为一个候选模型。

在一种可能实施方式中，还可以每次从多个样本音乐中确定本次输入分类模型的样本音乐子集，将样本音乐子集同时输入分类模型以得到样本音乐子集中每个样本音乐的类别预测标签。在该种情况下，可以通过样本音乐子集的所有类别预测标签和类别标注标签确定分类模型的训练损失值，例如该训练损失值可以通过均方误差、均方根误差、平均绝对误差、交叉熵误差等计算得到。该方式得到的训练损失值可以采用小批量梯度下降算法对模型参数进行一次更新优化。继续确定新的样本音乐子集，当多个样本音乐中每个样本音乐均被选取到过样本音乐子集后，将当前的优化得到的分类模型作为一个候选模型。通过该方式可以加快分类模型的训练速度，提高处理效率。

S506、重新遍历多个样本音乐，直至多个样本音乐的被遍历次数达到次数阈值；确定每次通过遍历多个样本音乐所得到的候选模型，从确定的多个候选模型中选取一个候选模型作为目标模型。

其中，次数阈值的取值情况可以根据实际情况设定，本申请对此不作限制。示例性地，当次数阈值设定为5时，多个样本音乐中的每个样本音乐均被遍历5次，且可以得到5个候选模型。可选的，从确定的多个候选模型中选取一个候选模型作为目标模型，包括：获取多个测试音乐和测试音乐对应的类别标注标签，将多个测试音乐输入分别输入所有的候选模型，每个候选模型可以输出多个测试音乐对应的多个类别预测标签，根据多个类别预测标签和多个类别标注标签确定每个候选模型的预测准确率，将所有候选模型的预测准确率进行由高至低排序，预测准确率最高的候选模型即可作为目标模型。例如，将100个测试音乐输入上述5个候选模型，每个候选模型预测类别准确的测试音乐个数分别为85、90、95、92、87，则每个候选模型的预测准确率为85%、90%、95%、92%、87%，则目标模型为预测准确率为95%的候选模型。

基于图5所示的实施例，通过随机选取不同加载采样率的样本音乐输入分类模型对模型进行训练，可以使得到的目标模型对不同加载采样率的任意新音乐进行类别预测，提高了模型的适用性。

基于上述音乐标签的预测方法实施例的描述，本申请实施例还提出了一种音乐标签预测装置，该音乐标签预测装置是运行于计算机设备中的一个计算机程序（包括程序代码）。该音乐标签预测装置可以执行图3以及图5所示的方法。请参见图8，该音乐标签预测装置可以运行如下单元：

加载单元801，用于按照目标采样率加载目标音乐，目标音乐对应多个加载采样率，目标采样率是所述多个加载采样率中的其中一个；

处理单元802，用于在通过加载目标音乐得到目标音频数据后，根据目标采样率动态计算目标音频数据对应的傅里叶变换参数；

处理单元802，还用于基于计算出的傅里叶变换参数对目标音频数据进行变采样离散傅里叶变换，得到目标频谱图；

预测单元803，用于根据目标频谱图对目标音乐的类别进行预测，得到目标音乐的类别预测标签。

在一种可能实施方式中，处理单元802在用于根据目标采样率动态计算目标音频数据对应的傅里叶变换参数时，具体包括：

根据目标采样率，对目标音频数据进行变采样离散傅里叶变换时所需的帧移参数进行动态计算，得到目标帧移参数；

确定目标音乐的音乐时长，并基于音乐时长、目标帧移参数以及目标采样率计算目标音频数据对应的分帧数；

将目标帧移参数和分帧数，添加至目标音频数据对应的傅里叶变换参数中。

在一种可能实施方式中，处理单元802在用于根据目标采样率，对目标音频数据进行变采样离散傅里叶变换时所需的帧移参数进行动态计算，得到目标帧移参数时，具体包括：

确定基准帧移参数，以及基准帧移参数所对应的固定采样率；其中，基准帧移参数是指任一音频数据进行离散傅里叶变换时所需的帧移参数；

计算目标采样率和固定采样率之间的比例，并根据计算得到的比例对基准帧移参数进行动态缩放处理，得到目标音频数据在进行变采样离散傅里叶变换时所需的目标帧移参数。

在一种可能实施方式中，处理单元802在用于基于音乐时长、目标帧移参数以及目标采样率计算目标音频数据对应的分帧数时，具体包括：

根据音乐时长和目标采样率，计算目标音频数据包括的时间点位的点位数；

对点位数和目标帧移参数进行求和运算，并根据求和运算结果和目标帧移参数之间的比值，得到目标音频数据对应的分帧数。

在一种可能实施方式中，目标音乐的类别预测标签是通过调用目标模型进行标签预测得到的，目标音乐被下载至多个终端设备中，加载采样率是指终端设备存储目标音乐时所使用的采样率；在这种情况下，处理单元802，还用于：

响应于多个终端设备中的目标终端设备上传目标音乐的请求，从请求中解析出目标终端设备对应的加载采样率；

将解析出的加载采样率确定为目标采样率，并触发执行按照目标采样率加载目标音乐的步骤。

在一种可能实施方式中，目标音乐的类别预测标签是通过调用待优化的分类模型进行标签预测得到的，目标音乐是用于对分类模型进行模型训练的样本音乐，加载采样率是指为分类模型的训练过程所预设的采样率；在这种情况下，处理单元802还用于：

获取用于对分类模型进行模型训练的多个样本音乐；

遍历多个样本音乐，将当前遍历的样本音乐作为目标音乐；

从目标音乐对应的多个加载采样率中，随机选取一个加载采样率作为目标采样率，并触发执行按照目标采样率加载目标音乐的步骤。

在一种可能实施方式中，处理单元802还用于：

获取目标音乐的类别标注标签；

根据类别标注标签和目标音乐的类别预测标签之间的差异，计算分类模型通过所述目标音乐产生的损失值；

基于所述分类模型通过所述目标音乐产生的损失值，更新优化所述分类模型的模型参数；

继续遍历多个样本音乐，并在多个样本音乐中的每个样本音乐均被遍历后，将当前通过多个样本音乐优化得到的分类模型作为一个候选模型进行保存；

重新遍历多个样本音乐，直至多个样本音乐的被遍历次数达到次数阈值；确定每次通过遍历多个样本音乐所得到的候选模型，并从确定的多个候选模型中选取一个候选模型作为目标模型，目标模型用于对任一音乐进行类别预测。

根据本申请的另一种实施例，图8所示的音乐标签预测装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，音乐标签预测装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3或图5中所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图8中所示的音乐标签预测装置设备，以及来实现本申请实施例的音乐标签的预测方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供了一种计算机设备。请参见图9，该计算机设备至少包括处理器901、输入接口902、输出接口903以及计算机存储介质904。其中，计算机设备内的处理器901、输入接口902、输出接口903以及计算机存储介质904可通过总线或其他方式连接。计算机存储介质 904可以存储在计算机设备的存储器中，该计算机存储介质904用于存储计算机程序，所述计算机程序包括程序指令，所述处理器901用于执行所述计算机存储介质904存储的程序指令。处理器901（或称中央处理器（central processing unit，CPU））是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例所述的处理器901可以用于进行一系列的音乐标签预测，具体包括：按照目标采样率加载目标音乐，目标音乐对应多个加载采样率，目标采样率是所述多个加载采样率中的其中一个；在通过加载目标音乐得到目标音频数据后，根据目标采样率动态计算目标音频数据对应的傅里叶变换参数；基于计算出的傅里叶变换参数对目标音频数据进行变采样离散傅里叶变换，得到目标频谱图；根据目标频谱图对目标音乐的类别进行预测，得到目标音乐的类别预测标签，等等。

本申请实施例还提供了一种计算机存储介质（Memory），所述计算机存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序（包括程序代码）。需要说明的是，此处的计算机存储介质可以是高速 RAM 存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图3或图5所示的信息处理方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器901加载并执行如下步骤：

按照目标采样率加载目标音乐，目标音乐对应多个加载采样率，目标采样率是所述多个加载采样率中的其中一个；

在通过加载目标音乐得到目标音频数据后，根据目标采样率动态计算目标音频数据对应的傅里叶变换参数；

基于计算出的傅里叶变换参数对目标音频数据进行变采样离散傅里叶变换，得到目标频谱图；

根据目标频谱图对目标音乐的类别进行预测，得到目标音乐的类别预测标签。

在一种可能实施方式中，在根据目标采样率动态计算目标音频数据对应的傅里叶变换参数时，所述一条或多条指令可由处理器901加载并具体执行：

在一种可能实施方式中，在根据目标采样率，对目标音频数据进行变采样离散傅里叶变换时所需的帧移参数进行动态计算，得到目标帧移参数时，所述一条或多条指令可由处理器901加载并具体执行：

在一种可能实施方式中，在基于音乐时长、目标帧移参数以及目标采样率计算目标音频数据对应的分帧数时，所述一条或多条指令可由处理器901加载并具体执行：

在一种可能实施方式中，目标音乐的类别预测标签是通过调用目标模型进行标签预测得到的，目标音乐被下载至多个终端设备中，加载采样率是指终端设备存储目标音乐时所使用的采样率；相应的，所述一条或多条指令还可由处理器901加载并具体执行：

在一种可能实施方式中，目标音乐的类别预测标签是通过调用待优化的分类模型进行标签预测得到的，目标音乐是用于对分类模型进行模型训练的样本音乐，加载采样率是指为分类模型的训练过程所预设的采样率；相应的，所述一条或多条指令还可由处理器901加载并具体执行：

获取用于对分类模型进行模型训练的多个样本音乐；

遍历多个样本音乐，将当前遍历的样本音乐作为目标音乐；

在一种可能实施方式中，所述一条或多条指令还可由处理器901加载并具体执行：

获取目标音乐的类别标注标签；

需要说明的是，根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机存储介质中。计算机设备的处理器从计算机存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图3或图5所示的音乐标签的预测方法实施例方面的各种可能实施方式中提供的方法。

并且，应理解的是，以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音乐标签的预测方法，其特征在于，包括：

在通过加载所述目标音乐得到目标音频数据后，根据所述目标采样率，对所述目标音频数据进行变采样离散傅里叶变换时所需的帧移参数进行动态计算，得到目标帧移参数；所述目标帧移参数是根据基准帧移参数对应的固定采样率和所述目标采样率之间的比例，对所述基准帧移参数进行动态缩放处理得到的；所述基准帧移参数是指任一音频数据进行离散傅里叶变换时所需的帧移参数；

确定所述目标音乐的音乐时长，并基于所述音乐时长、所述目标帧移参数以及所述目标采样率计算所述目标音频数据对应的分帧数；

将所述目标帧移参数和所述分帧数，添加至所述目标音频数据对应的傅里叶变换参数中；

基于计算出的傅里叶变换参数对所述目标音频数据进行变采样离散傅里叶变换，得到目标频谱图；所述变采样离散傅里叶变换是指根据动态调整得到的傅里叶变换参数进行的离散傅里叶变换；

2.如权利要求1所述的方法，其特征在于，所述根据所述目标采样率，对所述目标音频数据进行变采样离散傅里叶变换时所需的帧移参数进行动态计算，得到目标帧移参数，包括：

确定所述基准帧移参数，以及所述基准帧移参数所对应的固定采样率；

计算所述目标采样率和所述固定采样率之间的比例，并根据计算得到的比例对所述基准帧移参数进行动态缩放处理，得到所述目标音频数据在进行变采样离散傅里叶变换时所需的目标帧移参数。

3.如权利要求1或2所述的方法，其特征在于，所述基于所述音乐时长、所述目标帧移参数以及所述目标采样率计算所述目标音频数据对应的分帧数，包括：

根据所述音乐时长和所述目标采样率，计算所述目标音频数据包括的时间点位的点位数；

对所述点位数和所述目标帧移参数进行求和运算，并根据求和运算结果和所述目标帧移参数之间的比值，得到所述目标音频数据对应的分帧数。

4.如权利要求1所述的方法，其特征在于，所述目标音乐的类别预测标签是通过调用目标模型进行标签预测得到的，所述目标音乐被下载至多个终端设备中，加载采样率是指终端设备存储所述目标音乐时所使用的采样率；所述方法包括：

响应于所述多个终端设备中的目标终端设备上传所述目标音乐的请求，从所述请求中解析出所述目标终端设备对应的加载采样率；

将解析出的加载采样率确定为目标采样率，并触发执行所述按照目标采样率加载目标音乐的步骤。

5.如权利要求1所述的方法，其特征在于，所述目标音乐的类别预测标签是通过调用待优化的分类模型进行标签预测得到的，所述目标音乐是用于对所述分类模型进行模型训练的样本音乐，加载采样率是指为所述分类模型的训练过程所预设的采样率；所述方法包括：

获取用于对所述分类模型进行模型训练的多个样本音乐，并遍历所述多个样本音乐，将当前遍历的样本音乐作为目标音乐；

从所述目标音乐对应的多个加载采样率中，随机选取一个加载采样率作为目标采样率，并触发执行所述按照目标采样率加载目标音乐的步骤。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述目标音乐的类别标注标签，并根据所述类别标注标签和所述目标音乐的类别预测标签之间的差异，计算所述分类模型通过所述目标音乐产生的损失值；

继续遍历所述多个样本音乐，并在所述多个样本音乐中的每个样本音乐均被遍历后，将当前通过所述多个样本音乐优化得到的分类模型作为一个候选模型进行保存；

重新遍历所述多个样本音乐，直至所述多个样本音乐的被遍历次数达到次数阈值；确定每次通过遍历所述多个样本音乐所得到的候选模型，并从确定的多个候选模型中选取一个候选模型作为目标模型，所述目标模型用于对任一音乐进行类别预测。

7.一种音乐标签预测装置，其特征在于，包括：

处理单元，用于在通过加载所述目标音乐得到目标音频数据后，根据所述目标采样率，对所述目标音频数据进行变采样离散傅里叶变换时所需的帧移参数进行动态计算，得到目标帧移参数；所述目标帧移参数是根据基准帧移参数对应的固定采样率和所述目标采样率之间的比例，对所述基准帧移参数进行动态缩放处理得到的；所述基准帧移参数是指任一音频数据进行离散傅里叶变换时所需的帧移参数；确定所述目标音乐的音乐时长，并基于所述音乐时长、所述目标帧移参数以及所述目标采样率计算所述目标音频数据对应的分帧数；将所述目标帧移参数和所述分帧数，添加至所述目标音频数据对应的傅里叶变换参数中；

所述处理单元，还用于基于计算出的傅里叶变换参数对所述目标音频数据进行变采样离散傅里叶变换，得到目标频谱图；所述变采样离散傅里叶变换是指根据动态调整得到的傅里叶变换参数进行的离散傅里叶变换；

8.一种计算机设备，包括输入接口和输出接口，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令；

其中，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6中任一项所述的方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-6任一项所述的方法。