CN109102006B - 一种基于音频特征诱导信息增强的音乐自动标记方法 - Google Patents

一种基于音频特征诱导信息增强的音乐自动标记方法 Download PDF

Info

Publication number
CN109102006B
CN109102006B CN201810815313.0A CN201810815313A CN109102006B CN 109102006 B CN109102006 B CN 109102006B CN 201810815313 A CN201810815313 A CN 201810815313A CN 109102006 B CN109102006 B CN 109102006B
Authority
CN
China
Prior art keywords
vector
music
information
matrix
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810815313.0A
Other languages
English (en)
Other versions
CN109102006A (zh
Inventor
张敏灵
张倩汶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810815313.0A priority Critical patent/CN109102006B/zh
Publication of CN109102006A publication Critical patent/CN109102006A/zh
Application granted granted Critical
Publication of CN109102006B publication Critical patent/CN109102006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开一种基于音频特征诱导信息增强的音乐自动标记方法,该方法通过MFCC、Beat、LPC、CQT组合生成音频属性特征向量;利用稀疏表示法学习训练集属性特征间的结构矩阵,并将该结构矩阵作为训练集样本相互关系的监督信息诱导标记空间进行重构,生成数值标记向量,完成标记信息增强;而后利用多元回归技术得到分类预测模型;将待标记音乐送入预测模型计算标记信息值,固定阈值进行分类,实现自动标记。本发明解决传统标记系统在训练过程中标记信息单一化的问题,利用信息增强技术有效提高训练集监督信息质量,进一步提高音乐自动标记系统的准确率和泛化性。

Description

一种基于音频特征诱导信息增强的音乐自动标记方法
技术领域
本发明属于模式识别和机器学习领域,尤其涉及一种基于音频特征诱导信息增强的音乐自动标记方法。
背景技术
音乐作为人类社会生活不可缺少的一部分,通过有组织的节奏形成具象化曲调,细腻地表达着人们思想感情的动向以及现实生活的轨迹,潜移默化地影响着人们的娱乐、教育、审美等方方面面。近年来,随着互联网技术的不断革新,音乐制作与传播早已突破了时间与空间的限制,音乐作品正呈现爆发式的增长,但与此同时,带来的音乐管理与分类的难题却尤为突出。网络上参差不齐的音乐标记信息困扰着许多听众,也给音乐检索等技术的发展带来瓶颈,因此音乐标记质量受到越来越多人的重视。如果有一种技术方法能够对音乐主题、乐器、情感,场景等多种属性下标记进行分类并打上准确的多标记信息,必然能极大程度上地提高用户体验。基于此,高效准确的音乐自动标记方法已成为一个重要的研究课题。该方法下,未知音乐提交给自动标记装置,装置根据训练样例音乐对其进行快速准确的分类。一种行之有效的策略是将标记过程看成学习的过程,使用机器学习的技术对已知标记信息的音乐进行学习,最终得到一个分类模型。最后使用这个经过训练得到的模型对未知音乐进行标记。
一首音乐歌曲通常对应不同属性下的多个标记。现有的音乐标记方法往往受限于属性,比如,只能处理乐器属性的标记工作,缺少通用性;此外,已有的研究成果大多处理多分类问题而非多标记问题,比如,乐器属性下分类结果只能是钢琴、吉他、小提琴标记之一,而不能处理同时存在多个标记的情景。现如今,部分涉及多标记情景音乐自动标记的方法,则在训练过程中存在标记信息过于单一化,或者要求提供额外的辅助标记信息等限制。本发明通过音频特征诱导信息增强,挖掘特征空间与标记空间内在结构相似性,不需要额外信息,即可帮助自动标记装置增加标记信息量,提高标记性能。
发明内容
发明目的:针对以上现有技术的不足,本发明提出一种基于音频特征诱导信息增强的音乐自动标记方法,依次处理各属性下的数据,借助音频特征进行训练样本间结构信息的学习,从而获得标记间的高阶相关性,指导二值标记向数值标记转化,增加可利用信息量,为最终的分类模型提供更强大的识别性能和泛化能力。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于音频特征诱导信息增强的音乐自动标记方法,其包括以下步骤:
(1)定义第m个属性的训练集表示为Dm={(xi,Yi)|1≤i≤Qm},其中,xi表示第i个音乐样本的特征向量,Yi表示第i个音乐样本的标记向量,训练集Dm由Qm个音乐样本组成;标记向量Yi=[ti1,…,tij,…,tiN]由N个标记组成,tij是第i个样本的第j个标记的标记值,设置每一个标记值对应一个标记;当tij=1表示第i个样本的第j个标记为相关标记;当tij=-1表示第i个样本的第j个标记为无关标记;
(2)获得M个属性的训练集Dm,m=1,2,…,M,利用稀疏表示方法得到结构矩阵Um,并获得标记增强信息Rm,,M表示属性个数,m表示属性序号;
(3)利用标记增强信息Rm,通过多输出支持向量机回归方法得到分类预测模型{W(m),b(m)},m=1,2,…,M,W(m)是第m个属性预测模型的权重矩阵,b(m)是第m个属性预测模型的偏差矢量;
(4)提取待标记音乐样本的特征向量x,输入分类预测模型{W(m),b(m)},m=1,2,…,M,实现自动对输入的音乐样本进行标记。
其中,在步骤(1)中,所述音乐样本的特征向量获取方法如下:对不同维度的特征量MFCC(Mel频率倒谱系数)、Beat(节拍)、LPC(线性预测编码)、CQT(ConstQ变换)进行拼接,形成最终的音频特征向量。
其中,步骤(2)中,获得稀疏表示方法得到结构矩阵Um和获得标记增强信息Rm方法如下:
(2.1)获取音乐数据集属性个数M,初始化当前处理属性序号m=1;
(2.2)获取当前属性序号下,训练集样本个数Qm,初始化当前处理样本序号q=1;
(2.3)令i=q,特征向量xi作为学习目标,将训练集剩余特征向量X′i={X-xi}作为字典,X为训练集特征向量集合X={xi|1≤i≤Qm},利用字典X′i对xi进行重构,通过交替方向乘子法最小化求解公式(1),获得重构系数向量ai
Figure BDA0001740184590000021
norm(,′inf′)设置’inf’无穷范数,是行和最大值运算,‖‖2是二范数运算,‖‖1是一范数运算;
(2.4)递增q,q=q+1,重复步骤(2.3)~(2.4),直到q>Qm,计算出Qm个重构系数向量ai,i=1,2,…,Qm,构造Qm×Qm维结构矩阵
Figure BDA0001740184590000031
uij表示结构矩阵Um的第i行第j列的元素,j=1,2,…,Qm,结构矩阵Um的a11表示重构系数向量a1的第1个元素,
Figure BDA0001740184590000032
表示重构系数向量a1的第Qm-1个元素,其它可类推;
(2.5)利用步骤(2.4)得到的结构矩阵Um通过二次规划法最小化求解公式(2),获得标记增强信息
Figure BDA0001740184590000033
Figure BDA0001740184590000034
公式(2)使用符号一致性tijrij≥0约束,uji是结构矩阵Um的第j行第i列的元素,tij是矩阵
Figure BDA0001740184590000038
第i行第j列的元素,
Figure BDA0001740184590000039
是Qm×N维增强信息矩阵,rij是矩阵Rm第i行第j列的元素,ri表示矩阵Rm的第i行,rj表示矩阵Rm的第j行;
(2.6)递增m,m=m+1,重复步骤(2.2)~(2.6),依次计算M个属性对应的M个标记增强信息Rm,m=1,2,…,M。
其中,所述通过多输出支持向量机回归方法得到分类预测模型{W(m),b(m)}方法如下:
(3.1)音乐数据集属性个数M,初始化当前处理属性序号m=1;
(3.2)将音乐多标记训练集的原始标记矩阵
Figure BDA00017401845900000310
换为增强信息矩阵
Figure BDA0001740184590000035
即训练集第i个样本的标记向量Yi换为第i个样本的标记增强信息向量Rmi,其中,Rmi表示的是Rm的第i行;符号表达为
Figure BDA0001740184590000036
利用多输出支持向量机回归方法,通过多轮迭代优化公式(3)目标函数:
Figure BDA0001740184590000037
其中W=[ω1,…,ωj,…,ωN]是模型权重矩阵,ωj是权重向量,
b=[b1,…,bj,…,bN]T是偏差矢量,其中,bj是偏差值,调和系数C1=2,C2=10,C3=1,j=1….N;
①首项
Figure BDA0001740184590000041
控制生成模型复杂度;
②第二项为∈-非敏感误差项,其目的在于忽略半径为∈范围内的损失:
Figure BDA0001740184590000042
其中,si计算预测值与数值标记间相似度:
Figure BDA0001740184590000043
Figure BDA0001740184590000044
是特征向量向高维再生希尔伯特向量的映射函数,∈=0.001,ri T=[ri1,ri2,…,riN]T表示
Figure BDA0001740184590000047
第i行的转置;
③第三项为符号一致项:
Figure BDA0001740184590000045
其中,eij为原始二值标记值tij与学习值
Figure BDA0001740184590000048
两项的乘积,即eij=tij
Figure BDA0001740184590000049
④第四项为稀疏项:
Figure BDA0001740184590000046
其中,
Figure BDA00017401845900000410
其中,bj是偏差值;
(3.3)根据步骤(3.2),采用拟牛顿迭代方法最小化目标函数F(W,b),获得第m个属性对应的分类预测模型{W(m),b(m)},即求得第m个属性对应的W=[ω1,…,ωj,…,ωN]、b=[b1,…,bj,…,bN]T
(3.4)递增m,m=m+1,重复步骤(3.2)~(3.4),直到计算出M个属性各自的分类预测模型{W(m),b(m)},m=1,2,…,M。
其中,所述步骤(4)中,提取待标记音乐样本的特征向量x,输入分类预测模型
{W(m),b(m)},实现自动对输入的音乐样本进行标记方法如下:计算标记信息向量
Figure BDA00017401845900000411
Figure BDA00017401845900000412
是特征向量向高维再生希尔伯特向量的映射函数,
Figure BDA00017401845900000413
Figure BDA00017401845900000414
表示该待标记音乐样本第m个属性下第n个标记的标记信息值,N是标记个数,设定阈值0进行分类,若
Figure BDA0001740184590000051
则为相关标记,否则为无关标记,根据对应的标记进行音乐样本标记,实现音乐样本的自动标记。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
本发明可以迅速有效地训练出用于音乐自动标记的分类模型,利用学习得到的标记高阶信息,模型不需要额外信息辅助,即可完成未知音乐标记工作。针对每一个音乐属性,新特征和增强版标记信息共同作用,将帮助最终的分类模型更具判别力与泛化性。
附图说明
图1是音乐自动标记装置的工作流程图;
图2是本发明方法的流程图;
图3是本发明增强信息生成模块的流程图;
图4是本发明学习最终分类标记模型的流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
如图1所示,mp3音乐模块和音乐标记模块中存放的是原始的音频资料和标记资料,前期需完成对音乐属性及标记的定义。表1展示了一种属性及标记的定义方式。
表1属性及标记情况
属性序号 属性 属性标记
1 情感 惊喜、愉悦、放松、安静、悲伤、生气
2 场景 校园、舞厅、商场、餐厅
这是一个多属性多标记问题,其属性个数M=2。属性序号m=1时,标记个数N=6;属性序号m=2时,标记个数N=4。以歌曲《小苹果》为例,m=1时,相关标记为{惊喜、愉悦、放松},无关标记为{安静、悲伤、生气};m=2时,相关标记为{舞厅、商场},无关标记为{校园、餐厅}。以上信息在训练数据中将通过有序标记向量表示,向量元素1表示相关标记,-1表示无关标记,同样以歌曲《小苹果》为例,m=1时,标记向量[1,1,1,-1,-1,-1];m=2时,标记向量[-1,1,1,-1]。
本发明通过提取不同维数的特征量MFCC(Mel频率倒谱系数)、Beat(节拍)、LPC(线性预测编码)、CQT(ConstQ变换),然后对不同维数的特征量进行拼接,形成最终的音频特征向量。比如:自定义上述每个特征量的提取维数,MFCC为26维向量、Beat为12维向量、LPC为22维向量、CQT为12维向量,然后将以上4个特征量提取的向量进行拼接,形成最终的72维音频特征向量。由此,每一首音乐可由一个特征向量进行表示,对应一组标记向量。在得到特征向量和标记向量后,利用稀疏表示方法学习特征空间的结构矩阵,并利用该结构矩阵诱导标记信息增强,实现二值标记向数值标记转化,提高标记空间信息携带量。利用增强后的标记信息通过多元回归技术中经典的多输出支持向量机回归方法生成分类预测模型。基于分类预测模型对音乐数据库中的待标记音乐进行自动标记工作,如图1所示,如果抽检准确率达标则结束,否则通过用户反馈调整训练集改善模型,获得新的分类预测模型并将标记结构重新送检,直至系统性能满足预设的指标要求。
如图2所示,本发明提出了一种基于音频特征诱导信息增强的音乐自动标记方法,具体步骤如下:
步骤10、假设第m个属性的训练集表示为Dm={(xi,Yi)|1≤i≤Qm},其中,xi表示第i个样本的特征向量,Yi表示第i个样本的标记向量,训练集Dm由Qm个音乐样本组成,标记向量Yi=[ti1,…,tij,…,tiN]由N个标记组成,tij是第i个样本的第j个标记的标记值,并且设置每一个标记值对应一个具体的属性标记;当tij=1表示第i个样本的第j个标记为相关标记;当tij=-1表示第i个样本的第j个标记为无关标记。
步骤11、依据音乐数据库标记查询信息,获得M个属性,每个属性分别对应N个标记,获得M个属性的训练集Dm,m=1,2,…,M,利用稀疏表示方法得到结构矩阵Um,m=1,2,…,M,并获得标记增强信息Rm,m=1,2,…,M,其详细流程如图3所示。
步骤12、利用标记增强信息Rm,m=1,2,…,M,通过多输出支持向量机回归方法得到分类预测模型{W(m),b(m)},m=1,2,…,M,W(m)是第m个属性预测模型的权重矩阵,b(m)是第m个属性预测模型的偏差矢量。其详细流程如图4所示。
步骤13、提取待标记音乐样本的特征向量x,输入分类预测模型{W(m),b(m)},m=1,2,…,M,实现自动对输入的音乐样本进行标记。
图3给出了图2中步骤11的执行过程,详细说明了本发明如何利用音频特征学习结构矩阵并诱导标记信息增强的。M表示属性个数,m表示属性序号,m的执行序列为m=1,2,…,M;Qm表示第m个属性训练集拥有样本个数,q表示样本序号,q的执行序列为q=1,2,…,Qm。具体步骤如下:
(1)获取音乐数据集属性个数M,初始化当前处理属性序号m=1;
(2)获取当前属性序号下,训练集样本个数Qm,初始化当前处理样本序号q=1;
(3)令i=q,特征向量xi作为学习目标,将训练集剩余特征向量X′i={X-xi}作为字典,X为训练集特征向量集合X={xi|1≤i≤Qm},利用字典X′i对xi进行重构,通过交替方向乘子法最小化求解公式(1),获得重构系数向量ai
Figure BDA0001740184590000071
norm(,′inf′)设置’inf’无穷范数,是行和最大值运算,‖‖2是二范数运算,‖‖1是一范数运算;
(4)递增q,重复步骤(3)~(4),直到q>Qm计算出Qm个重构系数向量ai,i=1,2,…,Qm,构造Qm×Qm维结构矩阵
Figure BDA0001740184590000072
uij表示结构矩阵Um的第i行第j列的元素,j=1,2,…,Qm
(5)利用步骤(4)得到的结构矩阵Um通过二次规划法最小化求解公式(2),获得标记增强信息
Figure BDA0001740184590000075
Figure BDA0001740184590000073
公式考虑符号一致性tijrij≥0约束,uji是结构矩阵Um的第j行第i列的元素,tij是矩阵
Figure BDA0001740184590000076
第i行第j列的元素,
Figure BDA0001740184590000077
是Qm×N维增强信息矩阵,rij是矩阵Rm第i行第j列的元素,ri表示矩阵Rm的第i行,rj表示矩阵Rm的第j行;
(5)递增m,m=m+1,重复步骤(2)~(5),依次计算M个属性对应的M个标记增强信息Rm,m=1,2,…,M。
图4给出了图2中步骤12的详细描述,具体说明了如何结合步骤11所生成的增强版标记信息Rm完成分类预测模型的建立。该步骤的核心技术是多输出支持向量机回归,本发明对多输出支持向量机回归进行了针对性的改进,以期能更好的适应音乐数据情景。
(1)音乐数据集属性个数M,初始化当前处理属性序号m=1;
(2)音乐多标记训练集的原始标记矩阵
Figure BDA0001740184590000078
换为增强信息矩阵
Figure BDA0001740184590000074
即训练集第i个样本的标记向量Yi换为第i个样本的标记增强信息向量Rmi,其中Rmi表示的是Rm的第i行;符号表达为
Figure BDA0001740184590000086
利用多输出支持向量机回归方法,通过多轮迭代优化公式(3)目标函数:
Figure BDA0001740184590000081
其中W=[ω1,…,ωj,…,ωN]是模型权重矩阵,ωj是权重向量,b=[b1,…,bj,…,bN]T是偏差矢量,其中,bj是偏差值,调和系数C1=2,C2=10,C3=1,j=1….N。
①首项
Figure BDA0001740184590000087
控制生成模型复杂度;
②第二项为∈-非敏感误差项,其目的在于忽略半径为∈范围内的损失:
Figure BDA0001740184590000082
其中,si计算预测值与数值标记间相似度:
Figure BDA0001740184590000083
Figure BDA0001740184590000088
是特征向量向高维再生希尔伯特向量的映射函数,∈=0.001,ri T=[ri1,ri2,…,riN]T表示
Figure BDA0001740184590000089
第i行的转置;
③第三项为符号一致项:
Figure BDA0001740184590000084
其中,eij为原始二值标记值tij与学习值
Figure BDA00017401845900000810
两项的乘积,即eij=tij
Figure BDA00017401845900000811
保证标记空间信息增强值符号与原始符号尽可能一致;
④第四项为稀疏项:
Figure BDA0001740184590000085
其中,
Figure BDA00017401845900000812
该项保证学习值满足标记空间稀疏准则,其中,bj是偏差值。
(3)根据步骤(2),采用拟牛顿迭代方法最小化目标函数F(W,b),获得第m个属性对应的分类预测模型{W(m),b(m)},即求得第m个属性对应的W=[ω1,…,ωj,…,ωN]、b=[b1,…,bj,…,bN]T
(4)递增m,m=m+1,重复步骤(2)~(4),直到计算出M个属性各自的分类预测模型{W(m),b(m)},m=1,2,…,M。
所述步骤13,提取待标记音乐样本的特征向量x,输入分类预测模型{W(m),b(m)},实现自动对输入的音乐样本进行标记方法如下,m=1,2,…,M,其实现方法如下:
计算标记信息向量
Figure BDA0001740184590000091
Figure BDA0001740184590000092
是特征向量向高维再生希尔伯特向量的映射函数,
Figure BDA0001740184590000093
Figure BDA0001740184590000094
表示该待标记音乐样本第m个属性下第n个标记的标记信息值,N是标记个数。设定阈值0进行分类,若
Figure BDA0001740184590000095
则为相关标记,否则为无关标记,最终实现自动标记。
本发明给出了一种基于音频特征诱导信息增强的音乐自动标记方法,该方法利用稀疏表示法解决现有技术在训练过程中标记信息单一化的问题,通过音频特征学习结构信息,诱导标记空间信息增强,有效提高音乐自动标记的准确率。基于这种方法进行学习和训练,可以提高模型训练效率,提高自动标记系统的有效性、稳定性和鲁棒性。
实施例1:
为了证明本发明的实施效果,接下来以emotions音频数据集为例说明。该数据集总计包含593首音乐样本,涉及“情感”属性下“惊喜”、“愉悦”、“放松”、“安静”、“悲伤”、“生气”6个情感标记。随机取数据集中的ceil(10%×593)=60首音频作为测试集,ceil()表示向上取整,剩下的533首音频作为训练集,执行十次计算性能。该数据集属性个数M=1,训练集样本个数Qm=533.本方法将使用基于音频特征诱导信息增强的音乐自动标记方法进行训练。具体实现步骤如下:
(1)在“情感”属性下,m=1,训练集表示为D1={(xi,Yi)|1≤i≤533},提取训练集533首音频的72维音频属性特征向量,特征向量集合X={xi|1≤i≤533},第i个样本的标记向量Yi=[ti1,ti2,…,ti6],tij∈{1,-1},1表示相关标记,-1表示无关标记;
(2)令i=1,…,533,特征向量xi作为学习目标,将训练集剩余特征向量X′i={X-xi}作为字典,利用字典X′i对xi进行重构,通过交替方向乘子法最小化求解公式(1),获得重构系数向量ai,i=1,…,533,由此构造结构矩阵U1=[uij]533×533。将该结构矩阵作为监督信息,借助公式(2)诱导标记空间进行重构,生成增强标记信息矩阵R1=[rij]533×6
(3)对于每一个属性,将训练集中的标记向量Yi=[ti1,ti2,…,ti6]替换为增强标记信息向量R1i=[ri1,ri2,…,ri6],新训练集表示为
Figure BDA0001740184590000101
设置公式参数C1=2,C2=10,C3=1,利用多元回归技术通过公式(3)得到分类预测模型{W(1),b(1)};
(4)提取待标记音乐样本的72维特征向量x,送入分类预测模型{W(1),b(1)},计算标记信息向量
Figure BDA0001740184590000102
Figure BDA0001740184590000103
是特征向量向高维再生希尔伯特向量的映射函数,
Figure BDA0001740184590000104
设定阈值0进行分类,若
Figure BDA0001740184590000105
则为相关标记,否则为无关标记,实现自动标记;
本发明对分类精度进行了统计,统计结果表明本发明中的方法优于其他对比方法,如表2所示。实验采用十倍交叉验证,对比算法采用模式识别和机器学习领域先进的二阶方法CLR,高阶方法RAKEL、特征侧方法RELIAB。
表2本发明与现有技术的对比表
精度值
本发明 0.815±0.020
CLR 0.762±0.024
RAKEL 0.766±0.031
RELIAB 0.797±0.028

Claims (4)

1.一种基于音频特征诱导信息增强的音乐自动标记方法,其特征在于,其包括以下步骤:
(1)定义第m个属性的训练集表示为Dm={(xi,Yi)|1≤i≤Qm},其中,xi表示第i个音乐样本的特征向量,Yi表示第i个音乐样本的标记向量,训练集Dm由Qm个音乐样本组成;标记向量Yi=[ti1,...,tij,...,tiN]由N个标记组成,tij是第i个样本的第j个标记的标记值,设置每一个标记值对应一个标记;当tij=1表示第i个样本的第j个标记为相关标记;当tij=-1表示第i个样本的第j个标记为无关标记;
(2)获得M个属性的训练集Dm,m=1,2,...,M,利用稀疏表示方法得到结构矩阵Um,并获得标记增强信息Rm,M表示属性个数,m表示属性序号;获得稀疏表示方法得到结构矩阵Um和获得标记增强信息Rm方法如下:
(2.1)获取音乐数据集属性个数M,初始化当前处理属性序号m=1;
(2.2)获取当前属性序号下,训练集样本个数Qm,初始化当前处理样本序号q=1;
(2.3)令i=q,特征向量xi作为学习目标,将训练集剩余特征向量X′i={X-xi}作为字典,X为训练集特征向量集合X={xi|1≤i≤Qm},利用字典X′i对xi进行重构,通过交替方向乘子法最小化求解公式(1),获得重构系数向量ai
Figure FDA0003158535270000011
norm(,′inf′)是行和最大值运算,’inf’表示设置无穷范数,|| ||2是二范数运算,|| ||1是一范数运算;
(2.4)递增q,q=q+1,重复步骤(2.3)~(2.4),直到q>Qm,计算出Qm个重构系数向量ai,i=1,2,...,Qm,构造Qm×Qm维结构矩阵
Figure FDA0003158535270000012
Figure FDA0003158535270000013
uij表示结构矩阵Um的第i行第j列的元素,j=1,2,...,Qm,结构矩阵Um的a11表示重构系数向量a1的第1个元素,
Figure FDA0003158535270000014
表示重构系数向量a1的第Qm-1个元素,其它可类推;
(2.5)利用步骤(2.4)得到的结构矩阵Um通过二次规划法求解最小化公式(2),获得标记增强信息
Figure FDA0003158535270000021
Figure FDA0003158535270000022
公式(2)使用符号一致性tijrij≥0约束,uji是结构矩阵Um的第j行第i列的元素,tij是矩阵
Figure FDA0003158535270000023
第i行第j列的元素,
Figure FDA0003158535270000024
是Qm×N维增强信息矩阵,rij是矩阵Rm第i行第j列的元素,ri表示矩阵Rm的第i行,rj表示矩阵Rm的第j行;
(2.6)递增m,m=m+1,重复步骤(2.2)~(2.6),依次计算M个属性对应的M个标记增强信息Rm,m=1,2,...,M;
(3)利用标记增强信息Rm,通过多输出支持向量机回归方法得到分类预测模型{W(m),b(m)},m=1,2,...,M,W(m)是第m个属性预测模型的权重矩阵,b(m)是第m个属性预测模型的偏差矢量;
(4)提取待标记音乐样本的特征向量x,输入分类预测模型{W(m),b(m)},m=1,2,...,M,实现自动对输入的音乐样本进行标记。
2.根据权利要求1所述一种基于音频特征诱导信息增强的音乐自动标记方法,其特征在于,在步骤(1)中,所述音乐样本的特征向量获取方法如下:提取音乐样本不同维数的特征量MFCC、Beat、LPC、CQT,并对上述特征量拼接,得到音乐样本的特征向量。
3.根据权利要求1所述一种基于音频特征诱导信息增强的音乐自动标记方法,其特征在于,所述通过多输出支持向量机回归方法得到分类预测模型{W(m),b(m)}方法如下:
(3.1)音乐数据集属性个数M,初始化当前处理属性序号m=1;
(3.2)将音乐多标记训练集的原始标记矩阵
Figure FDA0003158535270000025
换为增强信息矩阵
Figure FDA0003158535270000026
即训练集第i个样本的标记向量Yi换为第i个样本的标记增强信息向量Rmi,其中,Rmi表示的是Rm的第i行;符号表达为
Figure FDA0003158535270000027
利用多输出支持向量机回归方法,通过多轮迭代优化公式(3)目标函数:
Figure FDA0003158535270000031
其中W=[ω1,...,ωj,...,ωN]是模型权重矩阵,ωj是权重向量,b=[b1,...,bj,...,bN]T是偏差矢量,其中,bj是偏差值,调和系数C1=2,C2=10,C3=1,j=1....N;
①首项
Figure FDA0003158535270000032
控制生成模型复杂度;
②第二项为∈-非敏感误差项,其目的在于忽略半径为∈范围内的损失:
Figure FDA0003158535270000033
其中,si计算预测值与数值标记间相似度:
Figure FDA0003158535270000034
Figure FDA0003158535270000035
是特征向量向高维再生希尔伯特向量的映射函数,∈=0.001,ri T=[ri1,ri2,...,riN]T表示
Figure FDA0003158535270000036
第i行的转置;
③第三项为符号一致项:
Figure FDA0003158535270000037
其中,eij为原始二值标记值tij与学习值
Figure FDA0003158535270000038
两项的乘积,即
Figure FDA0003158535270000039
④第四项为稀疏项:
Figure FDA00031585352700000310
其中,
Figure FDA00031585352700000311
其中,bj是偏差值;
(3.3)根据步骤(3.2),采用拟牛顿迭代方法求解最小化目标函数F(W,b),获得第m个属性对应的分类预测模型{W(m),b(m)},即求得第m个属性对应的
W=[ω1,...,ωj,...,ωN]、b=[b1,...,bj,...,bN]T
(3.4)递增m,m=m+1,重复步骤(3.2)~(3.4),直到计算出M个属性各自的分类预测模型{W(m),b(m)},m=1,2,...,M。
4.根据权利要求3所述一种基于音频特征诱导信息增强的音乐自动标记方法,其特征在于,所述步骤(4)中,提取待标记音乐样本的特征向量x,输入分类预测模型{W(m),b(m)},实现自动对输入的音乐样本进行标记方法如下:计算标记信息向量
Figure FDA0003158535270000041
Figure FDA0003158535270000042
是特征向量向高维再生希尔伯特向量的映射函数,
Figure FDA0003158535270000043
Figure FDA0003158535270000044
表示该待标记音乐样本第m个属性下第n个标记的标记信息值,N是标记个数,设定阈值0进行分类,若
Figure FDA0003158535270000045
则为相关标记,否则为无关标记,实现音乐样本的自动标记。
CN201810815313.0A 2018-07-24 2018-07-24 一种基于音频特征诱导信息增强的音乐自动标记方法 Active CN109102006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810815313.0A CN109102006B (zh) 2018-07-24 2018-07-24 一种基于音频特征诱导信息增强的音乐自动标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810815313.0A CN109102006B (zh) 2018-07-24 2018-07-24 一种基于音频特征诱导信息增强的音乐自动标记方法

Publications (2)

Publication Number Publication Date
CN109102006A CN109102006A (zh) 2018-12-28
CN109102006B true CN109102006B (zh) 2021-09-07

Family

ID=64847359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810815313.0A Active CN109102006B (zh) 2018-07-24 2018-07-24 一种基于音频特征诱导信息增强的音乐自动标记方法

Country Status (1)

Country Link
CN (1) CN109102006B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109982137A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、视频标记方法、装置、终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882530A (zh) * 2012-09-17 2013-01-16 南京邮电大学 一种压缩感知信号重构方法
CN104050653A (zh) * 2014-07-07 2014-09-17 西安电子科技大学 基于非负结构稀疏的高光谱图像超分辨率算法
CN104899596A (zh) * 2015-03-16 2015-09-09 景德镇陶瓷学院 一种多标签分类方法及其装置
CN105069481A (zh) * 2015-08-19 2015-11-18 西安电子科技大学 基于空间金字塔稀疏编码的自然场景多标记分类方法
CN106157944A (zh) * 2015-05-14 2016-11-23 仁宝电脑工业股份有限公司 节拍标记方法
CN108133387A (zh) * 2017-12-21 2018-06-08 北京联合大学 基于软信息的多标记k近邻算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882530A (zh) * 2012-09-17 2013-01-16 南京邮电大学 一种压缩感知信号重构方法
CN104050653A (zh) * 2014-07-07 2014-09-17 西安电子科技大学 基于非负结构稀疏的高光谱图像超分辨率算法
CN104899596A (zh) * 2015-03-16 2015-09-09 景德镇陶瓷学院 一种多标签分类方法及其装置
CN106157944A (zh) * 2015-05-14 2016-11-23 仁宝电脑工业股份有限公司 节拍标记方法
CN105069481A (zh) * 2015-08-19 2015-11-18 西安电子科技大学 基于空间金字塔稀疏编码的自然场景多标记分类方法
CN108133387A (zh) * 2017-12-21 2018-06-08 北京联合大学 基于软信息的多标记k近邻算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Leveraging Implicit Relative Labeling-Importance Information for Effective Multi-Label Learning》;YuKun Li,et al;《2015 IEEE International Conference on Data Mining》;20151231;全文 *
《Optimal parameter selection for the alternating direction method of multipliers (ADMM): quadratic problems》;Euhanna Ghadimi,et al;《arXiv:1306.2454v2》;20140412;全文 *
《几类基于增广拉格朗日函数的求解约束优化问题的方法》;陈亮;《中国博士学位论文全文数据库 基础科学辑》;20170615(第6期);全文 *
《基于稀疏重构的空间邻近目标红外单帧图像超分辨率方法》;张慧等;《光学学报》;20130430;第33卷(第4期);全文 *

Also Published As

Publication number Publication date
CN109102006A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN111694924A (zh) 一种事件抽取方法和系统
CN111309965B (zh) 音频匹配方法、装置、计算机设备及存储介质
CN105679324B (zh) 一种声纹识别相似度评分的方法和装置
Falahzadeh et al. Deep convolutional neural network and gray wolf optimization algorithm for speech emotion recognition
WO2023272748A1 (zh) 一种面向学术精准推荐的异质科研信息集成方法及系统
Lian et al. Unsupervised representation learning with future observation prediction for speech emotion recognition
Vignolo et al. Feature optimisation for stress recognition in speech
Chattopadhyay et al. A feature selection model for speech emotion recognition using clustering-based population generation with hybrid of equilibrium optimizer and atom search optimization algorithm
CN113112994A (zh) 基于图卷积神经网络的跨语料库情感识别方法
CN109637527A (zh) 对话语句的语义解析方法及系统
Sonkamble et al. Speech recognition using vector quantization through modified K-MeansLBG Algorithm
Wu et al. Automatic chord estimation based on a frame-wise convolutional recurrent neural network with non-aligned annotations
CN111680169A (zh) 一种基于bert模型技术的电力科技成果数据抽取方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
Awasthi et al. Teaching keyword spotters to spot new keywords with limited examples
CN113506553B (zh) 一种基于迁移学习的音频自动标注方法
CN109102006B (zh) 一种基于音频特征诱导信息增强的音乐自动标记方法
Zhang et al. Supervised and unsupervised sound retrieval by vocal imitation
Fang et al. Deep feature learning for cover song identification
CN115796029A (zh) 基于显式及隐式特征解耦的nl2sql方法
Zhang et al. Speech emotion recognition method in educational scene based on machine learning
Fang et al. Deep learning of chroma representation for cover song identification in compression domain
Peeters The deep learning revolution in mir: The pros and cons, the needs and the challenges
Toman et al. Content-based audio retrieval by using elitism GA-KNN approach
Qian A music retrieval approach based on hidden markov model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant