CN109102006B

CN109102006B - 一种基于音频特征诱导信息增强的音乐自动标记方法

Info

Publication number: CN109102006B
Application number: CN201810815313.0A
Authority: CN
Inventors: 张敏灵; 张倩汶
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2021-09-07
Anticipated expiration: 2038-07-24
Also published as: CN109102006A

Abstract

本发明公开一种基于音频特征诱导信息增强的音乐自动标记方法，该方法通过MFCC、Beat、LPC、CQT组合生成音频属性特征向量；利用稀疏表示法学习训练集属性特征间的结构矩阵，并将该结构矩阵作为训练集样本相互关系的监督信息诱导标记空间进行重构，生成数值标记向量，完成标记信息增强；而后利用多元回归技术得到分类预测模型；将待标记音乐送入预测模型计算标记信息值，固定阈值进行分类，实现自动标记。本发明解决传统标记系统在训练过程中标记信息单一化的问题，利用信息增强技术有效提高训练集监督信息质量，进一步提高音乐自动标记系统的准确率和泛化性。

Description

一种基于音频特征诱导信息增强的音乐自动标记方法

技术领域

本发明属于模式识别和机器学习领域，尤其涉及一种基于音频特征诱导信息增强的音乐自动标记方法。

背景技术

音乐作为人类社会生活不可缺少的一部分，通过有组织的节奏形成具象化曲调，细腻地表达着人们思想感情的动向以及现实生活的轨迹，潜移默化地影响着人们的娱乐、教育、审美等方方面面。近年来，随着互联网技术的不断革新，音乐制作与传播早已突破了时间与空间的限制，音乐作品正呈现爆发式的增长，但与此同时，带来的音乐管理与分类的难题却尤为突出。网络上参差不齐的音乐标记信息困扰着许多听众，也给音乐检索等技术的发展带来瓶颈，因此音乐标记质量受到越来越多人的重视。如果有一种技术方法能够对音乐主题、乐器、情感，场景等多种属性下标记进行分类并打上准确的多标记信息，必然能极大程度上地提高用户体验。基于此，高效准确的音乐自动标记方法已成为一个重要的研究课题。该方法下，未知音乐提交给自动标记装置，装置根据训练样例音乐对其进行快速准确的分类。一种行之有效的策略是将标记过程看成学习的过程，使用机器学习的技术对已知标记信息的音乐进行学习，最终得到一个分类模型。最后使用这个经过训练得到的模型对未知音乐进行标记。

一首音乐歌曲通常对应不同属性下的多个标记。现有的音乐标记方法往往受限于属性，比如，只能处理乐器属性的标记工作，缺少通用性；此外，已有的研究成果大多处理多分类问题而非多标记问题，比如，乐器属性下分类结果只能是钢琴、吉他、小提琴标记之一，而不能处理同时存在多个标记的情景。现如今，部分涉及多标记情景音乐自动标记的方法，则在训练过程中存在标记信息过于单一化，或者要求提供额外的辅助标记信息等限制。本发明通过音频特征诱导信息增强，挖掘特征空间与标记空间内在结构相似性，不需要额外信息，即可帮助自动标记装置增加标记信息量，提高标记性能。

发明内容

发明目的：针对以上现有技术的不足，本发明提出一种基于音频特征诱导信息增强的音乐自动标记方法，依次处理各属性下的数据，借助音频特征进行训练样本间结构信息的学习，从而获得标记间的高阶相关性，指导二值标记向数值标记转化，增加可利用信息量，为最终的分类模型提供更强大的识别性能和泛化能力。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于音频特征诱导信息增强的音乐自动标记方法，其包括以下步骤：

(1)定义第m个属性的训练集表示为D_m＝{(x_i,Y_i)|1≤i≤Q_m}，其中，x_i表示第i个音乐样本的特征向量，Y_i表示第i个音乐样本的标记向量，训练集D_m由Q_m个音乐样本组成；标记向量Y_i＝[t_i1,…,t_ij,…,t_iN]由N个标记组成，t_ij是第i个样本的第j个标记的标记值，设置每一个标记值对应一个标记；当t_ij＝1表示第i个样本的第j个标记为相关标记；当t_ij＝-1表示第i个样本的第j个标记为无关标记；

(2)获得M个属性的训练集D_m,m＝1,2,…,M，利用稀疏表示方法得到结构矩阵U_m，并获得标记增强信息R_m,，M表示属性个数，m表示属性序号；

(3)利用标记增强信息R_m，通过多输出支持向量机回归方法得到分类预测模型{W^(m),b^(m)},m＝1,2,…,M，W^(m)是第m个属性预测模型的权重矩阵，b^(m)是第m个属性预测模型的偏差矢量；

(4)提取待标记音乐样本的特征向量x，输入分类预测模型{W^(m),b^(m)},m＝1,2,…,M，实现自动对输入的音乐样本进行标记。

其中，在步骤(1)中，所述音乐样本的特征向量获取方法如下：对不同维度的特征量MFCC(Mel频率倒谱系数)、Beat(节拍)、LPC(线性预测编码)、CQT(ConstQ变换)进行拼接，形成最终的音频特征向量。

其中，步骤(2)中，获得稀疏表示方法得到结构矩阵U_m和获得标记增强信息R_m方法如下：

(2.1)获取音乐数据集属性个数M，初始化当前处理属性序号m＝1；

(2.2)获取当前属性序号下，训练集样本个数Q_m，初始化当前处理样本序号q＝1；

(2.3)令i＝q，特征向量x_i作为学习目标，将训练集剩余特征向量X′_i＝{X-x_i}作为字典，X为训练集特征向量集合X＝{x_i|1≤i≤Q_m}，利用字典X′_i对x_i进行重构，通过交替方向乘子法最小化求解公式(1),获得重构系数向量a_i：

norm(,′inf′)设置’inf’无穷范数，是行和最大值运算，‖‖₂是二范数运算，‖‖₁是一范数运算；

(2.4)递增q，q＝q+1，重复步骤(2.3)～(2.4)，直到q>Q_m，计算出Q_m个重构系数向量a_i,i＝1,2,…,Q_m，构造Q_m×Q_m维结构矩阵

u_ij表示结构矩阵U_m的第i行第j列的元素，j＝1,2,…,Q_m，结构矩阵U_m的a₁₁表示重构系数向量a₁的第1个元素，

表示重构系数向量a₁的第Q_m-1个元素，其它可类推；

(2.5)利用步骤(2.4)得到的结构矩阵U_m通过二次规划法最小化求解公式(2)，获得标记增强信息

公式(2)使用符号一致性t_ijr_ij≥0约束，u_ji是结构矩阵U_m的第j行第i列的元素，t_ij是矩阵

第i行第j列的元素，

是Q_m×N维增强信息矩阵，r_ij是矩阵R_m第i行第j列的元素，r_i表示矩阵R_m的第i行，r_j表示矩阵R_m的第j行；

(2.6)递增m，m＝m+1，重复步骤(2.2)～(2.6)，依次计算M个属性对应的M个标记增强信息R_m,m＝1,2,…,M。

其中，所述通过多输出支持向量机回归方法得到分类预测模型{W^(m),b^(m)}方法如下：

(3.1)音乐数据集属性个数M，初始化当前处理属性序号m＝1；

(3.2)将音乐多标记训练集的原始标记矩阵

换为增强信息矩阵

即训练集第i个样本的标记向量Y_i换为第i个样本的标记增强信息向量R_mi，其中，R_mi表示的是R_m的第i行；符号表达为

利用多输出支持向量机回归方法，通过多轮迭代优化公式(3)目标函数：

其中W＝[ω₁,…,ω_j,…,ω_N]是模型权重矩阵，ω_j是权重向量，

b＝[b₁,…,b_j,…,b_N]^T是偏差矢量，其中，b_j是偏差值，调和系数C₁＝2,C₂＝10,C₃＝1，j＝1….N；

①首项

控制生成模型复杂度；

②第二项为∈-非敏感误差项，其目的在于忽略半径为∈范围内的损失：

其中，s_i计算预测值与数值标记间相似度：

是特征向量向高维再生希尔伯特向量的映射函数，∈＝0.001，r_i ^T＝[r_i1,r_i2,…,r_iN]^T表示

第i行的转置；

③第三项为符号一致项：

其中，e_ij为原始二值标记值t_ij与学习值

两项的乘积，即e_ij＝t_ij

④第四项为稀疏项：

其中，

其中，b_j是偏差值；

(3.3)根据步骤(3.2)，采用拟牛顿迭代方法最小化目标函数F(W,b)，获得第m个属性对应的分类预测模型{W^(m),b^(m)}，即求得第m个属性对应的W＝[ω₁,…,ω_j,…,ω_N]、b＝[b₁,…,b_j,…,b_N]^T；

(3.4)递增m，m＝m+1，重复步骤(3.2)～(3.4)，直到计算出M个属性各自的分类预测模型{W^(m),b^(m)},m＝1,2,…,M。

其中，所述步骤(4)中，提取待标记音乐样本的特征向量x，输入分类预测模型

{W^(m),b^(m)},实现自动对输入的音乐样本进行标记方法如下：计算标记信息向量

是特征向量向高维再生希尔伯特向量的映射函数，

表示该待标记音乐样本第m个属性下第n个标记的标记信息值，N是标记个数，设定阈值0进行分类，若

则为相关标记，否则为无关标记，根据对应的标记进行音乐样本标记，实现音乐样本的自动标记。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

本发明可以迅速有效地训练出用于音乐自动标记的分类模型，利用学习得到的标记高阶信息，模型不需要额外信息辅助，即可完成未知音乐标记工作。针对每一个音乐属性，新特征和增强版标记信息共同作用，将帮助最终的分类模型更具判别力与泛化性。

附图说明

图1是音乐自动标记装置的工作流程图；

图2是本发明方法的流程图；

图3是本发明增强信息生成模块的流程图；

图4是本发明学习最终分类标记模型的流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

如图1所示，mp3音乐模块和音乐标记模块中存放的是原始的音频资料和标记资料，前期需完成对音乐属性及标记的定义。表1展示了一种属性及标记的定义方式。

表1属性及标记情况

属性序号	属性	属性标记
			1	情感	惊喜、愉悦、放松、安静、悲伤、生气
2	场景	校园、舞厅、商场、餐厅

这是一个多属性多标记问题，其属性个数M＝2。属性序号m＝1时，标记个数N＝6；属性序号m＝2时，标记个数N＝4。以歌曲《小苹果》为例，m＝1时，相关标记为{惊喜、愉悦、放松}，无关标记为{安静、悲伤、生气}；m＝2时，相关标记为{舞厅、商场}，无关标记为{校园、餐厅}。以上信息在训练数据中将通过有序标记向量表示，向量元素1表示相关标记，-1表示无关标记，同样以歌曲《小苹果》为例，m＝1时，标记向量[1,1,1,-1,-1,-1]；m＝2时，标记向量[-1,1,1,-1]。

本发明通过提取不同维数的特征量MFCC(Mel频率倒谱系数)、Beat(节拍)、LPC(线性预测编码)、CQT(ConstQ变换)，然后对不同维数的特征量进行拼接，形成最终的音频特征向量。比如：自定义上述每个特征量的提取维数，MFCC为26维向量、Beat为12维向量、LPC为22维向量、CQT为12维向量，然后将以上4个特征量提取的向量进行拼接，形成最终的72维音频特征向量。由此，每一首音乐可由一个特征向量进行表示，对应一组标记向量。在得到特征向量和标记向量后，利用稀疏表示方法学习特征空间的结构矩阵，并利用该结构矩阵诱导标记信息增强，实现二值标记向数值标记转化，提高标记空间信息携带量。利用增强后的标记信息通过多元回归技术中经典的多输出支持向量机回归方法生成分类预测模型。基于分类预测模型对音乐数据库中的待标记音乐进行自动标记工作，如图1所示，如果抽检准确率达标则结束，否则通过用户反馈调整训练集改善模型，获得新的分类预测模型并将标记结构重新送检，直至系统性能满足预设的指标要求。

如图2所示，本发明提出了一种基于音频特征诱导信息增强的音乐自动标记方法，具体步骤如下：

步骤10、假设第m个属性的训练集表示为D_m＝{(x_i,Y_i)|1≤i≤Q_m}，其中，x_i表示第i个样本的特征向量，Y_i表示第i个样本的标记向量，训练集D_m由Q_m个音乐样本组成，标记向量Y_i＝[t_i1,…,t_ij,…,t_iN]由N个标记组成，t_ij是第i个样本的第j个标记的标记值，并且设置每一个标记值对应一个具体的属性标记；当t_ij＝1表示第i个样本的第j个标记为相关标记；当t_ij＝-1表示第i个样本的第j个标记为无关标记。

步骤11、依据音乐数据库标记查询信息，获得M个属性，每个属性分别对应N个标记，获得M个属性的训练集D_m,m＝1,2,…,M，利用稀疏表示方法得到结构矩阵U_m，m＝1,2,…,M，并获得标记增强信息R_m,m＝1,2,…,M，其详细流程如图3所示。

步骤12、利用标记增强信息R_m,m＝1,2,…,M，通过多输出支持向量机回归方法得到分类预测模型{W^(m),b^(m)},m＝1,2,…,M，W^(m)是第m个属性预测模型的权重矩阵，b^(m)是第m个属性预测模型的偏差矢量。其详细流程如图4所示。

步骤13、提取待标记音乐样本的特征向量x，输入分类预测模型{W^(m),b^(m)},m＝1,2,…,M，实现自动对输入的音乐样本进行标记。

图3给出了图2中步骤11的执行过程，详细说明了本发明如何利用音频特征学习结构矩阵并诱导标记信息增强的。M表示属性个数，m表示属性序号，m的执行序列为m＝1,2,…,M；Q_m表示第m个属性训练集拥有样本个数，q表示样本序号，q的执行序列为q＝1,2,…,Q_m。具体步骤如下：

(1)获取音乐数据集属性个数M，初始化当前处理属性序号m＝1；

(2)获取当前属性序号下，训练集样本个数Q_m，初始化当前处理样本序号q＝1；

(3)令i＝q，特征向量x_i作为学习目标，将训练集剩余特征向量X′_i＝{X-x_i}作为字典，X为训练集特征向量集合X＝{x_i|1≤i≤Q_m}，利用字典X′_i对x_i进行重构，通过交替方向乘子法最小化求解公式(1),获得重构系数向量a_i：

(4)递增q，重复步骤(3)～(4)，直到q>Q_m计算出Q_m个重构系数向量a_i,i＝1,2,…,Q_m，构造Q_m×Q_m维结构矩阵

u_ij表示结构矩阵U_m的第i行第j列的元素，j＝1,2,…,Q_m；

(5)利用步骤(4)得到的结构矩阵U_m通过二次规划法最小化求解公式(2)，获得标记增强信息

公式考虑符号一致性t_ijr_ij≥0约束，u_ji是结构矩阵U_m的第j行第i列的元素，t_ij是矩阵

第i行第j列的元素，

(5)递增m，m＝m+1，重复步骤(2)～(5)，依次计算M个属性对应的M个标记增强信息R_m,m＝1,2,…,M。

图4给出了图2中步骤12的详细描述，具体说明了如何结合步骤11所生成的增强版标记信息R_m完成分类预测模型的建立。该步骤的核心技术是多输出支持向量机回归，本发明对多输出支持向量机回归进行了针对性的改进，以期能更好的适应音乐数据情景。

(1)音乐数据集属性个数M，初始化当前处理属性序号m＝1；

(2)音乐多标记训练集的原始标记矩阵

换为增强信息矩阵

即训练集第i个样本的标记向量Y_i换为第i个样本的标记增强信息向量R_mi，其中R_mi表示的是R_m的第i行；符号表达为

其中W＝[ω₁,…,ω_j,…,ω_N]是模型权重矩阵，ω_j是权重向量，b＝[b₁,…,b_j,…,b_N]^T是偏差矢量，其中，b_j是偏差值，调和系数C₁＝2,C₂＝10,C₃＝1，j＝1….N。

①首项

控制生成模型复杂度；

其中，s_i计算预测值与数值标记间相似度：

第i行的转置；

③第三项为符号一致项：

其中，e_ij为原始二值标记值t_ij与学习值

两项的乘积，即e_ij＝t_ij

保证标记空间信息增强值符号与原始符号尽可能一致；

④第四项为稀疏项：

其中，

该项保证学习值满足标记空间稀疏准则，其中，b_j是偏差值。

(3)根据步骤(2)，采用拟牛顿迭代方法最小化目标函数F(W,b)，获得第m个属性对应的分类预测模型{W^(m),b^(m)}，即求得第m个属性对应的W＝[ω₁,…,ω_j,…,ω_N]、b＝[b₁,…,b_j,…,b_N]^T。

(4)递增m，m＝m+1，重复步骤(2)～(4)，直到计算出M个属性各自的分类预测模型{W^(m),b^(m)},m＝1,2,…,M。

所述步骤13，提取待标记音乐样本的特征向量x，输入分类预测模型{W^(m),b^(m)},实现自动对输入的音乐样本进行标记方法如下，m＝1,2,…,M，其实现方法如下：

计算标记信息向量

是特征向量向高维再生希尔伯特向量的映射函数，

表示该待标记音乐样本第m个属性下第n个标记的标记信息值，N是标记个数。设定阈值0进行分类，若

则为相关标记，否则为无关标记，最终实现自动标记。

本发明给出了一种基于音频特征诱导信息增强的音乐自动标记方法，该方法利用稀疏表示法解决现有技术在训练过程中标记信息单一化的问题，通过音频特征学习结构信息，诱导标记空间信息增强，有效提高音乐自动标记的准确率。基于这种方法进行学习和训练，可以提高模型训练效率，提高自动标记系统的有效性、稳定性和鲁棒性。

实施例1：

为了证明本发明的实施效果，接下来以emotions音频数据集为例说明。该数据集总计包含593首音乐样本，涉及“情感”属性下“惊喜”、“愉悦”、“放松”、“安静”、“悲伤”、“生气”6个情感标记。随机取数据集中的ceil(10％×593)＝60首音频作为测试集，ceil()表示向上取整，剩下的533首音频作为训练集，执行十次计算性能。该数据集属性个数M＝1，训练集样本个数Q_m＝533.本方法将使用基于音频特征诱导信息增强的音乐自动标记方法进行训练。具体实现步骤如下：

(1)在“情感”属性下，m＝1，训练集表示为D₁＝{(x_i,Y_i)|1≤i≤533}，提取训练集533首音频的72维音频属性特征向量，特征向量集合X＝{x_i|1≤i≤533}，第i个样本的标记向量Y_i＝[t_i1,t_i2,…,t_i6]，t_ij∈{1,-1}，1表示相关标记，-1表示无关标记；

(2)令i＝1,…,533，特征向量x_i作为学习目标，将训练集剩余特征向量X′_i＝{X-x_i}作为字典，利用字典X′_i对x_i进行重构，通过交替方向乘子法最小化求解公式(1),获得重构系数向量a_i,i＝1,…,533，由此构造结构矩阵U₁＝[u_ij]_533×533。将该结构矩阵作为监督信息，借助公式(2)诱导标记空间进行重构，生成增强标记信息矩阵R₁＝[r_ij]_533×6。

(3)对于每一个属性，将训练集中的标记向量Y_i＝[t_i1,t_i2,…,t_i6]替换为增强标记信息向量R_1i＝[r_i1,r_i2,…,r_i6]，新训练集表示为

设置公式参数C₁＝2,C₂＝10,C₃＝1，利用多元回归技术通过公式(3)得到分类预测模型{W⁽¹⁾,b⁽¹⁾}；

(4)提取待标记音乐样本的72维特征向量x，送入分类预测模型{W⁽¹⁾,b⁽¹⁾}，计算标记信息向量

是特征向量向高维再生希尔伯特向量的映射函数，

设定阈值0进行分类，若

则为相关标记，否则为无关标记，实现自动标记；

本发明对分类精度进行了统计，统计结果表明本发明中的方法优于其他对比方法，如表2所示。实验采用十倍交叉验证，对比算法采用模式识别和机器学习领域先进的二阶方法CLR，高阶方法RAKEL、特征侧方法RELIAB。

表2本发明与现有技术的对比表

	精度值
		本发明	0.815±0.020
CLR	0.762±0.024
		RAKEL	0.766±0.031
RELIAB	0.797±0.028

Claims

1.一种基于音频特征诱导信息增强的音乐自动标记方法，其特征在于，其包括以下步骤：

(1)定义第m个属性的训练集表示为D_m＝{(x_i，Y_i)|1≤i≤Q_m}，其中，x_i表示第i个音乐样本的特征向量，Y_i表示第i个音乐样本的标记向量，训练集D_m由Q_m个音乐样本组成；标记向量Y_i＝[t_i1，...，t_ij，...，t_iN]由N个标记组成，t_ij是第i个样本的第j个标记的标记值，设置每一个标记值对应一个标记；当t_ij＝1表示第i个样本的第j个标记为相关标记；当t_ij＝-1表示第i个样本的第j个标记为无关标记；

(2)获得M个属性的训练集D_m，m＝1，2，...，M，利用稀疏表示方法得到结构矩阵U_m，并获得标记增强信息R_m，M表示属性个数，m表示属性序号；获得稀疏表示方法得到结构矩阵U_m和获得标记增强信息R_m方法如下：