CN111192601A

CN111192601A - 音乐标注方法、装置、电子设备及介质

Info

Publication number: CN111192601A
Application number: CN201911361180.5A
Authority: CN
Inventors: 陈剑超; 肖龙源; 李稀敏; 蔡振华; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-22

Abstract

本申请提供一种音乐标注方法及装置、一种电子设备以及一种计算机可读介质。其中，所述方法包括：接收待标注的音乐数据；将所述音乐数据输入卷积循环神经网络模型中进行音乐标签预测，获得所述卷积循环神经网络模型输出的音乐标签预测结果；根据所述音乐标签预测结果对所述音乐数据进行标注；其中，所述卷积循环神经网络模型是以音乐数据和对应的音乐标签为样本集训练建立的。本申请中新型的用于音乐自动标注的卷积循环神经网络，利用卷积神经网络提取深层特征，利用循环神经网络保存时域信息，然后将两种不同类别的网络提取出的结果进行整合，音乐标注结果准确，从而可以节约大量的人力和时间成本，有利于音乐标签的标准化和统一化。

Description

音乐标注方法、装置、电子设备及介质

技术领域

本申请涉及音乐标注技术领域，具体涉及一种音乐标注方法及装置、一种电子设备以及一种计算机可读介质。

背景技术

音乐检索和音乐推荐作为大数据时代的发展产物，已经逐渐走进人们的日常生活，得到了广泛的应用。音乐检索的常见方法是，根据用户输入的关键词，在数据库中寻找拥有该关键词的歌曲进行匹配。音乐推荐的常见方法是，根据用户之前的收听历史，通过歌曲间的关联关系，为该用户推荐与收听历史相似的其他歌曲。在以上两个过程中，音乐标注都有着十分重要的地位。

音乐标注的目的是为音乐标注一个所属的标签，常见的音乐标签类别有流派(如古典、爵士、摇滚等)、演奏乐器(如吉他、弦乐、钢琴等)、情绪(如开心、舒缓、哀伤等)、创作年代等。

对于音乐标注而言，传统标注模型的建立往往有以下几种方式：从一组音频特征向量表示的歌曲出发，逐个学习每种音乐标签的标注模型，从而使其具备预测能力。可见，现有的这种建模方式会产生很大的冗余，导致音乐标注需要大量的人力和时间成本，不利于音乐标签的标准化和统一化。

发明内容

本申请的目的是提供一种音乐标注方法及装置、一种电子设备以及一种计算机可读介质。

本申请第一方面提供一种音乐标注方法，包括：

接收待标注的音乐数据；

将所述音乐数据输入卷积循环神经网络模型中进行音乐标签预测，获得所述卷积循环神经网络模型输出的音乐标签预测结果；

根据所述音乐标签预测结果对所述音乐数据进行标注；

其中，所述卷积循环神经网络模型是以音乐数据和对应的音乐标签为样本集训练建立的。

在一些可能的实现方式中，所述卷积循环神经网络模型包括：并行的卷积神经网络和循环神经网络，以及与所述卷积神经网络和循环神经网络均连接的全连接层。

在一些可能的实现方式中，通过以下方式训练建立所述卷积循环神经网络模型：

收集音乐数据及对应的音乐标签，构成样本集；

对音乐数据进行采样，转换为梅尔频谱图并进行数据切片，得到梅尔频谱序列；

利用音乐数据对应的梅尔频谱图和音乐标签对卷积循环神经网络模型中的卷积神经网络进行训练；

利用音乐数据对应的梅尔频谱序列和音乐标签对卷积循环神经网络模型中的循环神经网络进行训练；

将训练好的卷积循环神经网络模型和参数进行保存。

在一些可能的实现方式中，所述方法还包括：

对所述卷积循环神经网络模型进行预设评估指标的计算，得到对所述卷积循环神经网络模型进行分类能力评价的评价值。

本申请第二方面提供一种音乐标注装置，包括：

接收模块，用于接收待标注的音乐数据；

预测模块，用于将所述音乐数据输入卷积循环神经网络模型中进行音乐标签预测，获得所述卷积循环神经网络模型输出的音乐标签预测结果；

标注模块，用于根据所述音乐标签预测结果对所述音乐数据进行标注；

在一些可能的实现方式中，所述装置还包括：训练模块，用于通过以下方式训练建立所述卷积循环神经网络模型：

收集音乐数据及对应的音乐标签，构成样本集；

将训练好的卷积循环神经网络模型和参数进行保存。

在一些可能的实现方式中，所述装置还包括：

评价模块，用于对所述卷积循环神经网络模型进行预设评估指标的计算，得到对所述卷积循环神经网络模型进行分类能力评价的评价值。

本申请第三方面提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。

本申请第四方面提供一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。

相较于现有技术，本申请提供的音乐标注方法、装置、电子设备及介质，接收待标注的音乐数据；将所述音乐数据输入卷积循环神经网络模型中进行音乐标签预测，获得所述卷积循环神经网络模型输出的音乐标签预测结果；根据所述音乐标签预测结果对所述音乐数据进行标注；其中，所述卷积循环神经网络模型是以音乐数据和对应的音乐标签为样本集训练建立的。本申请中新型的用于音乐自动标注的卷积循环神经网络，利用卷积神经网络提取深层特征，利用循环神经网络保存时域信息，然后将两种不同类别的网络提取出的结果进行整合，音乐标注结果准确，从而可以节约大量的人力和时间成本，有利于音乐标签的标准化和统一化。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的一些实施方式所提供的一种音乐标注方法的流程图；

图2示出了本申请的一些具体实施方式所提供的一种卷积循环神经网络模型的结构图；

图3示出了本申请的一些具体实施方式所提供的一种卷积循环神经网络模型建立的流程图；

图4示出了本申请的一些实施方式所提供的一种音乐标注装置的示意图；

图5示出了本申请的一些实施方式所提供的一种电子设备的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

音频检索可以归结为一个模式匹配问题。一个音频检索系统通常包括训练阶段(数据库生成)和模式匹配(数据库查询)两个阶段。

音频检索第一步是建立数据库：对音频数据进行特征提取，将音频数据装入数据库的原始音频库部分，将特征装入特征库部分，通过特征对音频数据聚类，将聚类信息装入聚类参数库部分。数据库建立以后就可以进行音频信息检索。

音频检索技术主要采用特征样本查询方式，用户通过查询界面确定样本并设定属性值，然后提交查询，系统对样本提取特征，结合属性值确定查询特征向量，而后检索引擎对特征向量与聚类参数集匹配，按相关性从大到小得顺序在特征库和原始音频库中匹配一定数量的相应数据，并通过查询接口返回给用户。其中，原始音频库存放的是音频数据，特征库存放音频数据的特征，按记录存放，聚类参数库是对音频特征进行聚类所得的参数集。

本申请实施例提供一种音乐标注方法及装置、一种电子设备以及计算机可读介质，下面结合附图进行说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种音乐标注方法的流程图，如图1所示，所述音乐标注方法，可以包括以下步骤：

步骤S101：接收待标注的音乐数据；

本实施例中，所述音乐数据可以是任意格式，例如可以是一段MP3音频。

步骤S102：将所述音乐数据输入卷积循环神经网络模型中进行音乐标签预测，获得所述卷积循环神经网络模型输出的音乐标签预测结果；

具体的，可以对音乐数据进行数据预处理后输入所述卷积循环神经网络模型，所述数据预处理为从时序信号中提取出包含丰富音乐信息的梅尔频谱图。举例来说，首先对原始音频进行12kHz的采样，然后进行512点的短时傅里叶变换(STFT)，帧移为帧长的一半即256点。经过STFT后对其进行对数操作，得到对数幅度频谱。接着将其通过梅尔滤波器组映射成梅尔尺度，得到对数幅度梅尔频谱，即卷积循环神经网络的输入。数据预处理的具体操作通过Librosa实现。最后得到所述卷积循环神经网络模型输出的音乐标签预测结果，该结果中包括预测得到的各个类型的音乐标签及对应的概率。

步骤S103：根据所述音乐标签预测结果对所述音乐数据进行标注。

具体的，选取音乐标签预测结果中预测概率最大的音乐标签，对所述音乐数据进行标注。

上述音乐标注方法可用于客户端，本申请实施例中，所述客户端可以包括硬件，也可以包括软件。当客户端包括硬件时，其可以是具有显示屏并且支持信息交互的各种电子设备，例如，可以包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当客户端包括软件时，可以安装在上述电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

相较于现有技术，本申请实施例提供的上述音乐标注方法，通过接收待标注的音乐数据；将所述音乐数据输入卷积循环神经网络模型中进行音乐标签预测，获得所述卷积循环神经网络模型输出的音乐标签预测结果；根据所述音乐标签预测结果对所述音乐数据进行标注；其中，所述卷积循环神经网络模型是以音乐数据和对应的音乐标签为样本集训练建立的。本申请中新型的用于音乐自动标注的卷积循环神经网络，利用卷积神经网络提取深层特征，利用循环神经网络保存时域信息，然后将两种不同类别的网络提取出的结果进行整合，音乐标注结果准确，从而可以节约大量的人力和时间成本，有利于音乐标签的标准化和统一化。

本申请实施例中，所述卷积循环神经网络模型可以包括：并行的卷积神经网络和循环神经网络，以及与所述卷积神经网络和循环神经网络均连接的全连接层。所述卷积循环神经网络模型的结构如图2所示。

本实施例提供了一种新型的用于音乐自动标注的卷积循环神经网络。将卷积神经网络和循环神经网络以并行的方式结合起来，利用卷积神经网络提取深层特征，利用循环神经网络保存时域信息。首先将输入信号分别输入到卷积神经网络和循环神经网络中，然后将两种不同类别的网络提取出的结果进行整合，最后经过全连接层，得到对各个音乐标签的预测概率。

具体的，可以通过以下方式训练建立所述卷积循环神经网络模型：

收集音乐数据及对应的音乐标签，构成样本集；

将训练好的卷积循环神经网络模型和参数进行保存。

具体的，所述卷积循环神经网络模型的建立可以分为如图3所示的四个阶段：数据获取——数据预处理——模型训练——模型评估。

具体的实现步骤如下：首先，从数据集中获取数据，其数据形式是以MP3格式记录的音乐文件和以二进制数据记录的音乐标签(1为拥有该标签，0为不具有该标签)，通过对原始数据的多维度分析，确定研究对象的数据分布，根据研究对象的性质进行必要的数据整理。然后，对音频文件进行数据预处理，从时序信号中提取出包含丰富音乐信息的梅尔频谱图。接下来，将梅尔频谱图输入到卷积循环神经网络中进行模型训练，通过卷积神经网络提取深层特征，通过循环神经网络对梅尔频谱序列的时间相关性进行总结，再将两种神经网络的输出整合起来，得到输入音乐数据的标签预测结果。

具体的，将数据集划分为三个集合：训练集、验证集、测试集。由于数据集本身是按照歌曲的顺序进行音乐片段的排列，为了增强各集合样本的随机性和全面性，在划分数据集之前对其进行打乱操作。在数据集被打乱和划分之后，原始的MP3音频通过Librosa转换成梅尔频谱图，再输入通过Keras实现的循环神经网络中。考虑到模型训练存在一定的波动性，为了有效避免因一两个轮次(epoch)训练的指标下降便停止训练的情况，设定模型的收敛条件为连续条件为连续三个epoch的验证集AUC没有超过截至目前的最高值。

上述音乐标注方法，还可以包括：对所述卷积循环神经网络模型进行预设评估指标的计算，得到对所述卷积循环神经网络模型进行分类能力评价的评价值。

具体的，对输出结果进行评估指标的计算，对模型效果做出评价。

实际应用中，模型评估对于音乐自动标注任务而言，通常把每一个音乐标签的预测工作视为一个二分类问题。对于二分类问题，通常从预测值和真值得二维关系表，对预测值和真值的关系进行评估。

二分类问题经常使用到的评估指标有准确率，召回率以及兼顾以上两种指标的F1值。但对于音乐自动标注问题，不能仅仅使用单一的准确率或者召回率作为评估指标，还必须考虑到数据集的不平衡性。因此，选择的评估指标必须更加真实和全面地反应出分类器对偏斜严重的数据集的分类能力。受试者工作特征曲线ROC和受试者工作特征曲线下面积AUC可以是符合以上要求的评估指标。

在上述的实施例中，提供了一种音乐标注方法，与之相对应的，本申请还提供一种音乐标注装置。本申请实施例提供的音乐标注装置可以实施上述音乐标注方法，该音乐标注装置可以通过软件、硬件或软硬结合的方式来实现。例如，该音乐标注装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图4，其示出了本申请的一些实施方式所提供的一种音乐标注装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图4所示，所述音乐标注装置10可以包括：

接收模块101，用于接收待标注的音乐数据；

预测模块102，用于将所述音乐数据输入卷积循环神经网络模型中进行音乐标签预测，获得所述卷积循环神经网络模型输出的音乐标签预测结果；

标注模块103，用于根据所述音乐标签预测结果对所述音乐数据进行标注；

收集音乐数据及对应的音乐标签，构成样本集；

将训练好的卷积循环神经网络模型和参数进行保存。

在一些可能的实现方式中，所述装置还包括：

本申请实施例提供的音乐标注装置10，与本申请前述实施例提供的音乐标注方法出于相同的发明构思，具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的音乐标注方法对应的电子设备，所述电子设备可以是用于客户端的电子设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述音乐标注方法。

请参考图5，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图5所示，所述电子设备20包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的音乐标注方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述音乐标注方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。

本申请实施例提供的电子设备与本申请实施例提供的音乐标注方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的音乐标注方法对应的计算机可读介质，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的音乐标注方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种音乐标注方法，其特征在于，包括：

接收待标注的音乐数据；

根据所述音乐标签预测结果对所述音乐数据进行标注；

2.根据权利要求1所述的方法，其特征在于，所述卷积循环神经网络模型包括：并行的卷积神经网络和循环神经网络，以及与所述卷积神经网络和循环神经网络均连接的全连接层。

3.根据权利要求2所述的方法，其特征在于，通过以下方式训练建立所述卷积循环神经网络模型：

收集音乐数据及对应的音乐标签，构成样本集；

将训练好的卷积循环神经网络模型和参数进行保存。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种音乐标注装置，其特征在于，包括：

接收模块，用于接收待标注的音乐数据；

6.根据权利要求5所述的装置，其特征在于，所述卷积循环神经网络模型包括：并行的卷积神经网络和循环神经网络，以及与所述卷积神经网络和循环神经网络均连接的全连接层。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：训练模块，用于通过以下方式训练建立所述卷积循环神经网络模型：

收集音乐数据及对应的音乐标签，构成样本集；

将训练好的卷积循环神经网络模型和参数进行保存。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1至4任一项所述的方法。

10.一种计算机可读介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至4任一项所述的方法。