CN109102006A - 一种基于音频特征诱导信息增强的音乐自动标记方法 - Google Patents

一种基于音频特征诱导信息增强的音乐自动标记方法 Download PDF

Info

Publication number
CN109102006A
CN109102006A CN201810815313.0A CN201810815313A CN109102006A CN 109102006 A CN109102006 A CN 109102006A CN 201810815313 A CN201810815313 A CN 201810815313A CN 109102006 A CN109102006 A CN 109102006A
Authority
CN
China
Prior art keywords
vector
music
matrix
information
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810815313.0A
Other languages
English (en)
Other versions
CN109102006B (zh
Inventor
张敏灵
张倩汶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810815313.0A priority Critical patent/CN109102006B/zh
Publication of CN109102006A publication Critical patent/CN109102006A/zh
Application granted granted Critical
Publication of CN109102006B publication Critical patent/CN109102006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开一种基于音频特征诱导信息增强的音乐自动标记方法,该方法通过MFCC、Beat、LPC、CQT组合生成音频属性特征向量;利用稀疏表示法学习训练集属性特征间的结构矩阵,并将该结构矩阵作为训练集样本相互关系的监督信息诱导标记空间进行重构,生成数值标记向量,完成标记信息增强;而后利用多元回归技术得到分类预测模型;将待标记音乐送入预测模型计算标记信息值,固定阈值进行分类,实现自动标记。本发明解决传统标记系统在训练过程中标记信息单一化的问题,利用信息增强技术有效提高训练集监督信息质量,进一步提高音乐自动标记系统的准确率和泛化性。

Description

一种基于音频特征诱导信息增强的音乐自动标记方法
技术领域
本发明属于模式识别和机器学习领域,尤其涉及一种基于音频特征诱导信息增强的音乐自动标记方法。
背景技术
音乐作为人类社会生活不可缺少的一部分,通过有组织的节奏形成具象化曲调,细腻地表达着人们思想感情的动向以及现实生活的轨迹,潜移默化地影响着人们的娱乐、教育、审美等方方面面。近年来,随着互联网技术的不断革新,音乐制作与传播早已突破了时间与空间的限制,音乐作品正呈现爆发式的增长,但与此同时,带来的音乐管理与分类的难题却尤为突出。网络上参差不齐的音乐标记信息困扰着许多听众,也给音乐检索等技术的发展带来瓶颈,因此音乐标记质量受到越来越多人的重视。如果有一种技术方法能够对音乐主题、乐器、情感,场景等多种属性下标记进行分类并打上准确的多标记信息,必然能极大程度上地提高用户体验。基于此,高效准确的音乐自动标记方法已成为一个重要的研究课题。该方法下,未知音乐提交给自动标记装置,装置根据训练样例音乐对其进行快速准确的分类。一种行之有效的策略是将标记过程看成学习的过程,使用机器学习的技术对已知标记信息的音乐进行学习,最终得到一个分类模型。最后使用这个经过训练得到的模型对未知音乐进行标记。
一首音乐歌曲通常对应不同属性下的多个标记。现有的音乐标记方法往往受限于属性,比如,只能处理乐器属性的标记工作,缺少通用性;此外,已有的研究成果大多处理多分类问题而非多标记问题,比如,乐器属性下分类结果只能是钢琴、吉他、小提琴标记之一,而不能处理同时存在多个标记的情景。现如今,部分涉及多标记情景音乐自动标记的方法,则在训练过程中存在标记信息过于单一化,或者要求提供额外的辅助标记信息等限制。本发明通过音频特征诱导信息增强,挖掘特征空间与标记空间内在结构相似性,不需要额外信息,即可帮助自动标记装置增加标记信息量,提高标记性能。
发明内容
发明目的:针对以上现有技术的不足,本发明提出一种基于音频特征诱导信息增强的音乐自动标记方法,依次处理各属性下的数据,借助音频特征进行训练样本间结构信息的学习,从而获得标记间的高阶相关性,指导二值标记向数值标记转化,增加可利用信息量,为最终的分类模型提供更强大的识别性能和泛化能力。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于音频特征诱导信息增强的音乐自动标记方法,其包括以下步骤:
(1)定义第m个属性的训练集表示为Dm={(xi,Yi)|1≤i≤Qm},其中,xi表示第i个音乐样本的特征向量,Yi表示第i个音乐样本的标记向量,训练集Dm由Qm个音乐样本组成;标记向量Yi=[ti1,…,tij,…,tiN]由N个标记组成,tij是第i个样本的第j个标记的标记值,设置每一个标记值对应一个标记;当tij=1表示第i个样本的第j个标记为相关标记;当tij=-1表示第i个样本的第j个标记为无关标记;
(2)获得M个属性的训练集Dm,m=1,2,…,M,利用稀疏表示方法得到结构矩阵Um,并获得标记增强信息Rm,,M表示属性个数,m表示属性序号;
(3)利用标记增强信息Rm,通过多输出支持向量机回归方法得到分类预测模型{W(m),b(m)},m=1,2,…,M,W(m)是第m个属性预测模型的权重矩阵,b(m)是第m个属性预测模型的偏差矢量;
(4)提取待标记音乐样本的特征向量x,输入分类预测模型{W(m),b(m)},m=1,2,…,M,实现自动对输入的音乐样本进行标记。
其中,在步骤(1)中,所述音乐样本的特征向量获取方法如下:对不同维度的特征量MFCC(Mel频率倒谱系数)、Beat(节拍)、LPC(线性预测编码)、CQT(ConstQ变换)进行拼接,形成最终的音频特征向量。
其中,步骤(2)中,获得稀疏表示方法得到结构矩阵Um和获得标记增强信息Rm方法如下:
(2.1)获取音乐数据集属性个数M,初始化当前处理属性序号m=1;
(2.2)获取当前属性序号下,训练集样本个数Qm,初始化当前处理样本序号q=1;
(2.3)令i=q,特征向量xi作为学习目标,将训练集剩余特征向量X′i={X-xi}作为字典,X为训练集特征向量集合X={xi|1≤i≤Qm},利用字典X′i对xi进行重构,通过交替方向乘子法最小化求解公式(1),获得重构系数向量ai
norm(,′inf′)设置’inf’无穷范数,是行和最大值运算,‖‖2是二范数运算,‖‖1是一范数运算;
(2.4)递增q,q=q+1,重复步骤(2.3)~(2.4),直到q>Qm,计算出Qm个重构系数向量ai,i=1,2,…,Qm,构造Qm×Qm维结构矩阵uij表示结构矩阵Um的第i行第j列的元素,j=1,2,…,Qm,结构矩阵Um的a11表示重构系数向量a1的第1个元素,表示重构系数向量a1的第Qm-1个元素,其它可类推;
(2.5)利用步骤(2.4)得到的结构矩阵Um通过二次规划法最小化求解公式(2),获得标记增强信息
公式(2)使用符号一致性tijrij≥0约束,uji是结构矩阵Um的第j行第i列的元素,tij是矩阵第i行第j列的元素,是Qm×N维增强信息矩阵,rij是矩阵Rm第i行第j列的元素,ri表示矩阵Rm的第i行,rj表示矩阵Rm的第j行;
(2.6)递增m,m=m+1,重复步骤(2.2)~(2.6),依次计算M个属性对应的M个标记增强信息Rm,m=1,2,…,M。
其中,所述通过多输出支持向量机回归方法得到分类预测模型{W(m),b(m)}方法如下:
(3.1)音乐数据集属性个数M,初始化当前处理属性序号m=1;
(3.2)将音乐多标记训练集的原始标记矩阵换为增强信息矩阵
即训练集第i个样本的标记向量Yi换为第i个样本的标记增强信息向量Rmi,其中,Rmi表示的是Rm的第i行;符号表达为利用多输出支持向量机回归方法,通过多轮迭代优化公式(3)目标函数:
其中W=[ω1,…,ωj,…,ωN]是模型权重矩阵,ωj是权重向量,
b=[b1,…,bj,…,bN]T是偏差矢量,其中,bj是偏差值,调和系数C1=2,C2=10,C3=1,j=1….N;
①首项控制生成模型复杂度;
②第二项为∈-非敏感误差项,其目的在于忽略半径为∈范围内的损失:
其中,si计算预测值与数值标记间相似度:
是特征向量向高维再生希尔伯特向量的映射函数,∈=0.001,ri T=[ri1,ri2,…,riN]T表示第i行的转置;
③第三项为符号一致项:
其中,eij为原始二值标记值tij与学习值两项的乘积,即eij=tij
④第四项为稀疏项:
其中,其中,bj是偏差值;
(3.3)根据步骤(3.2),采用拟牛顿迭代方法最小化目标函数F(W,b),获得第m个属性对应的分类预测模型{W(m),b(m)},即求得第m个属性对应的W=[ω1,…,ωj,…,ωN]、b=[b1,…,bj,…,bN]T
(3.4)递增m,m=m+1,重复步骤(3.2)~(3.4),直到计算出M个属性各自的分类预测模型{W(m),b(m)},m=1,2,…,M。
其中,所述步骤(4)中,提取待标记音乐样本的特征向量x,输入分类预测模型
{W(m),b(m)},实现自动对输入的音乐样本进行标记方法如下:计算标记信息向量 是特征向量向高维再生希尔伯特向量的映射函数, 表示该待标记音乐样本第m个属性下第n个标记的标记信息值,N是标记个数,设定阈值0进行分类,若则为相关标记,否则为无关标记,根据对应的标记进行音乐样本标记,实现音乐样本的自动标记。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
本发明可以迅速有效地训练出用于音乐自动标记的分类模型,利用学习得到的标记高阶信息,模型不需要额外信息辅助,即可完成未知音乐标记工作。针对每一个音乐属性,新特征和增强版标记信息共同作用,将帮助最终的分类模型更具判别力与泛化性。
附图说明
图1是音乐自动标记装置的工作流程图;
图2是本发明方法的流程图;
图3是本发明增强信息生成模块的流程图;
图4是本发明学习最终分类标记模型的流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
如图1所示,mp3音乐模块和音乐标记模块中存放的是原始的音频资料和标记资料,前期需完成对音乐属性及标记的定义。表1展示了一种属性及标记的定义方式。
表1属性及标记情况
属性序号 属性 属性标记
1 情感 惊喜、愉悦、放松、安静、悲伤、生气
2 场景 校园、舞厅、商场、餐厅
这是一个多属性多标记问题,其属性个数M=2。属性序号m=1时,标记个数N=6;属性序号m=2时,标记个数N=4。以歌曲《小苹果》为例,m=1时,相关标记为{惊喜、愉悦、放松},无关标记为{安静、悲伤、生气};m=2时,相关标记为{舞厅、商场},无关标记为{校园、餐厅}。以上信息在训练数据中将通过有序标记向量表示,向量元素1表示相关标记,-1表示无关标记,同样以歌曲《小苹果》为例,m=1时,标记向量[1,1,1,-1,-1,-1];m=2时,标记向量[-1,1,1,-1]。
本发明通过提取不同维数的特征量MFCC(Mel频率倒谱系数)、Beat(节拍)、LPC(线性预测编码)、CQT(ConstQ变换),然后对不同维数的特征量进行拼接,形成最终的音频特征向量。比如:自定义上述每个特征量的提取维数,MFCC为26维向量、Beat为12维向量、LPC为22维向量、CQT为12维向量,然后将以上4个特征量提取的向量进行拼接,形成最终的72维音频特征向量。由此,每一首音乐可由一个特征向量进行表示,对应一组标记向量。在得到特征向量和标记向量后,利用稀疏表示方法学习特征空间的结构矩阵,并利用该结构矩阵诱导标记信息增强,实现二值标记向数值标记转化,提高标记空间信息携带量。利用增强后的标记信息通过多元回归技术中经典的多输出支持向量机回归方法生成分类预测模型。基于分类预测模型对音乐数据库中的待标记音乐进行自动标记工作,如图1所示,如果抽检准确率达标则结束,否则通过用户反馈调整训练集改善模型,获得新的分类预测模型并将标记结构重新送检,直至系统性能满足预设的指标要求。
如图2所示,本发明提出了一种基于音频特征诱导信息增强的音乐自动标记方法,具体步骤如下:
步骤10、假设第m个属性的训练集表示为Dm={(xi,Yi)|1≤i≤Qm},其中,xi表示第i个样本的特征向量,Yi表示第i个样本的标记向量,训练集Dm由Qm个音乐样本组成,标记向量Yi=[ti1,…,tij,…,tiN]由N个标记组成,tij是第i个样本的第j个标记的标记值,并且设置每一个标记值对应一个具体的属性标记;当tij=1表示第i个样本的第j个标记为相关标记;当tij=-1表示第i个样本的第j个标记为无关标记。
步骤11、依据音乐数据库标记查询信息,获得M个属性,每个属性分别对应N个标记,获得M个属性的训练集Dm,m=1,2,…,M,利用稀疏表示方法得到结构矩阵Um,m=1,2,…,M,并获得标记增强信息Rm,m=1,2,…,M,其详细流程如图3所示。
步骤12、利用标记增强信息Rm,m=1,2,…,M,通过多输出支持向量机回归方法得到分类预测模型{W(m),b(m)},m=1,2,…,M,W(m)是第m个属性预测模型的权重矩阵,b(m)是第m个属性预测模型的偏差矢量。其详细流程如图4所示。
步骤13、提取待标记音乐样本的特征向量x,输入分类预测模型{W(m),b(m)},m=1,2,…,M,实现自动对输入的音乐样本进行标记。
图3给出了图2中步骤11的执行过程,详细说明了本发明如何利用音频特征学习结构矩阵并诱导标记信息增强的。M表示属性个数,m表示属性序号,m的执行序列为m=1,2,…,M;Qm表示第m个属性训练集拥有样本个数,q表示样本序号,q的执行序列为q=1,2,…,Qm。具体步骤如下:
(1)获取音乐数据集属性个数M,初始化当前处理属性序号m=1;
(2)获取当前属性序号下,训练集样本个数Qm,初始化当前处理样本序号q=1;
(3)令i=q,特征向量xi作为学习目标,将训练集剩余特征向量X′i={X-xi}作为字典,X为训练集特征向量集合X={xi|1≤i≤Qm},利用字典X′i对xi进行重构,通过交替方向乘子法最小化求解公式(1),获得重构系数向量ai
norm(,′inf′)设置’inf’无穷范数,是行和最大值运算,‖‖2是二范数运算,‖‖1是一范数运算;
(4)递增q,重复步骤(3)~(4),直到q>Qm计算出Qm个重构系数向量ai,i=1,2,…,Qm,构造Qm×Qm维结构矩阵uij表示结构矩阵Um的第i行第j列的元素,j=1,2,…,Qm
(5)利用步骤(4)得到的结构矩阵Um通过二次规划法最小化求解公式(2),获得标记增强信息
公式考虑符号一致性tijrij≥0约束,uji是结构矩阵Um的第j行第i列的元素,tij是矩阵第i行第j列的元素,是Qm×N维增强信息矩阵,rij是矩阵Rm第i行第j列的元素,ri表示矩阵Rm的第i行,rj表示矩阵Rm的第j行;
(5)递增m,m=m+1,重复步骤(2)~(5),依次计算M个属性对应的M个标记增强信息Rm,m=1,2,…,M。
图4给出了图2中步骤12的详细描述,具体说明了如何结合步骤11所生成的增强版标记信息Rm完成分类预测模型的建立。该步骤的核心技术是多输出支持向量机回归,本发明对多输出支持向量机回归进行了针对性的改进,以期能更好的适应音乐数据情景。
(1)音乐数据集属性个数M,初始化当前处理属性序号m=1;
(2)音乐多标记训练集的原始标记矩阵换为增强信息矩阵
即训练集第i个样本的标记向量Yi换为第i个样本的标记增强信息向量Rmi,其中Rmi表示的是Rm的第i行;符号表达为利用多输出支持向量机回归方法,通过多轮迭代优化公式(3)目标函数:
其中W=[ω1,…,ωj,…,ωN]是模型权重矩阵,ωj是权重向量,b=[b1,…,bj,…,bN]T是偏差矢量,其中,bj是偏差值,调和系数C1=2,C2=10,C3=1,j=1….N。
①首项控制生成模型复杂度;
②第二项为∈-非敏感误差项,其目的在于忽略半径为∈范围内的损失:
其中,si计算预测值与数值标记间相似度:
是特征向量向高维再生希尔伯特向量的映射函数,∈=0.001,ri T=[ri1,ri2,…,riN]T表示第i行的转置;
③第三项为符号一致项:
其中,eij为原始二值标记值tij与学习值两项的乘积,即eij=tij 保证标记空间信息增强值符号与原始符号尽可能一致;
④第四项为稀疏项:
其中,该项保证学习值满足标记空间稀疏准则,其中,bj是偏差值。
(3)根据步骤(2),采用拟牛顿迭代方法最小化目标函数F(W,b),获得第m个属性对应的分类预测模型{W(m),b(m)},即求得第m个属性对应的W=[ω1,…,ωj,…,ωN]、b=[b1,…,bj,…,bN]T
(4)递增m,m=m+1,重复步骤(2)~(4),直到计算出M个属性各自的分类预测模型{W(m),b(m)},m=1,2,…,M。
所述步骤13,提取待标记音乐样本的特征向量x,输入分类预测模型{W(m),b(m)},实现自动对输入的音乐样本进行标记方法如下,m=1,2,…,M,其实现方法如下:
计算标记信息向量 是特征向量向高维再生希尔伯特向量的映射函数, 表示该待标记音乐样本第m个属性下第n个标记的标记信息值,N是标记个数。设定阈值0进行分类,若则为相关标记,否则为无关标记,最终实现自动标记。
本发明给出了一种基于音频特征诱导信息增强的音乐自动标记方法,该方法利用稀疏表示法解决现有技术在训练过程中标记信息单一化的问题,通过音频特征学习结构信息,诱导标记空间信息增强,有效提高音乐自动标记的准确率。基于这种方法进行学习和训练,可以提高模型训练效率,提高自动标记系统的有效性、稳定性和鲁棒性。
实施例1:
为了证明本发明的实施效果,接下来以emotions音频数据集为例说明。该数据集总计包含593首音乐样本,涉及“情感”属性下“惊喜”、“愉悦”、“放松”、“安静”、“悲伤”、“生气”6个情感标记。随机取数据集中的ceil(10%×593)=60首音频作为测试集,ceil()表示向上取整,剩下的533首音频作为训练集,执行十次计算性能。该数据集属性个数M=1,训练集样本个数Qm=533.本方法将使用基于音频特征诱导信息增强的音乐自动标记方法进行训练。具体实现步骤如下:
(1)在“情感”属性下,m=1,训练集表示为D1={(xi,Yi)|1≤i≤533},提取训练集533首音频的72维音频属性特征向量,特征向量集合X={xi|1≤i≤533},第i个样本的标记向量Yi=[ti1,ti2,…,ti6],tij∈{1,-1},1表示相关标记,-1表示无关标记;
(2)令i=1,…,533,特征向量xi作为学习目标,将训练集剩余特征向量X′i={X-xi}作为字典,利用字典X′i对xi进行重构,通过交替方向乘子法最小化求解公式(1),获得重构系数向量ai,i=1,…,533,由此构造结构矩阵U1=[uij]533×533。将该结构矩阵作为监督信息,借助公式(2)诱导标记空间进行重构,生成增强标记信息矩阵R1=[rij]533×6
(3)对于每一个属性,将训练集中的标记向量Yi=[ti1,ti2,…,ti6]替换为增强标记信息向量R1i=[ri1,ri2,…,ri6],新训练集表示为设置公式参数C1=2,C2=10,C3=1,利用多元回归技术通过公式(3)得到分类预测模型{W(1),b(1)};
(4)提取待标记音乐样本的72维特征向量x,送入分类预测模型{W(1),b(1)},计算标记信息向量 是特征向量向高维再生希尔伯特向量的映射函数,设定阈值0进行分类,若则为相关标记,否则为无关标记,实现自动标记;
本发明对分类精度进行了统计,统计结果表明本发明中的方法优于其他对比方法,如表2所示。实验采用十倍交叉验证,对比算法采用模式识别和机器学习领域先进的二阶方法CLR,高阶方法RAKEL、特征侧方法RELIAB。
表2本发明与现有技术的对比表
精度值
本发明 0.815±0.020
CLR 0.762±0.024
RAKEL 0.766±0.031
RELIAB 0.797±0.028

Claims (5)

1.一种基于音频特征诱导信息增强的音乐自动标记方法,其特征在于,其包括以下步骤:
(1)定义第m个属性的训练集表示为Dm={(xi,Yi)|1≤i≤Qm},其中,xi表示第i个音乐样本的特征向量,Yi表示第i个音乐样本的标记向量,训练集Dm由Qm个音乐样本组成;标记向量Yi=[ti1,...,tij,...,tiN]由N个标记组成,tij是第i个样本的第j个标记的标记值,设置每一个标记值对应一个标记;当tij=1表示第i个样本的第j个标记为相关标记;当tij=-1表示第i个样本的第j个标记为无关标记;
(2)获得M个属性的训练集Dm,m=1,2,...,M,利用稀疏表示方法得到结构矩阵Um,并获得标记增强信息Rm,,M表示属性个数,m表示属性序号;
(3)利用标记增强信息Rm,通过多输出支持向量机回归方法得到分类预测模型{W(m),b(m)},m=1,2,...,M,W(m)是第m个属性预测模型的权重矩阵,b(m)是第m个属性预测模型的偏差矢量;
(4)提取待标记音乐样本的特征向量x,输入分类预测模型{W(m),b(m)},m=1,2,...,M,实现自动对输入的音乐样本进行标记。
2.根据权利要求1所述一种基于音频特征诱导信息增强的音乐自动标记方法,其特征在于,在步骤(1)中,所述音乐样本的特征向量获取方法如下:提取音乐样本不同维数的特征量MFCC、Beat、LPC、CQT,并对上述特征量拼接,得到音乐样本的特征向量。
3.根据权利要求1所述一种基于音频特征诱导信息增强的音乐自动标记方法,其特征在于,在步骤(2)中,获得稀疏表示方法得到结构矩阵Um和获得标记增强信息Rm方法如下:
(2.1)获取音乐数据集属性个数M,初始化当前处理属性序号m=1;
(2.2)获取当前属性序号下,训练集样本个数Qm,初始化当前处理样本序号q=1;
(2.3)令i=q,特征向量xi作为学习目标,将训练集剩余特征向量X'i={X-xi}作为字典,X为训练集特征向量集合X={xi|1≤i≤Qm},利用字典X′i对xi进行重构,通过交替方向乘子法最小化求解公式(1),获得重构系数向量ai
norm(,'inf′)是行和最大值运算,’inf’表示设置无穷范数,|| ||2是二范数运算,|| ||1是一范数运算;
(2.4)递增q,q=q+1,重复步骤(2.3)~(2.4),直到q>Qm,计算出Qm个重构系数向量ai,i=1,2,...,Qm,构造Qm×Qm维结构矩阵uij表示结构矩阵Um的第i行第j列的元素,j=1,2,...,Qm,结构矩阵Um的a11表示重构系数向量a1的第1个元素,表示重构系数向量a1的第Qm-1个元素,其它可类推;
(2.5)利用步骤(2.4)得到的结构矩阵Um通过二次规划法求解最小化公式(2),获得标记增强信息
公式(2)使用符号一致性tijrij≥0约束,uji是结构矩阵Um的第j行第i列的元素,tij是矩阵第i行第j列的元素,是Qm×N维增强信息矩阵,rij是矩阵Rm第i行第j列的元素,ri表示矩阵Rm的第i行,rj表示矩阵Rm的第j行;
(2.6)递增m,m=m+1,重复步骤(2.2)~(2.6),依次计算M个属性对应的M个标记增强信息Rm,m=1,2,...,M。
4.根据权利要求1所述一种基于音频特征诱导信息增强的音乐自动标记方法,其特征在于,所述通过多输出支持向量机回归方法得到分类预测模型{W(m),b(m)}方法如下:
(3.1)音乐数据集属性个数M,初始化当前处理属性序号m=1;
(3.2)将音乐多标记训练集的原始标记矩阵换为增强信息矩阵
即训练集第i个样本的标记向量Yi换为第i个样本的标记增强信息向量Rmi,其中,Rmi表示的是Rm的第i行;符号表达为利用多输出支持向量机回归方法,通过多轮迭代优化公式(3)目标函数:
其中W=[ω1,...,ωj,...,ωN]是模型权重矩阵,ωj是权重向量,b=[b1,...,bj,...,bN]T是偏差矢量,其中,bj是偏差值,调和系数C1=2,C2=10,C3=1,j=1....N;
①首项控制生成模型复杂度;
②第二项为∈-非敏感误差项,其目的在于忽略半径为∈范围内的损失:
其中,si计算预测值与数值标记间相似度:
是特征向量向高维再生希尔伯特向量的映射函数,∈=0.001,ri T=[ri1,ri2,...,riN]T表示第i行的转置;
③第三项为符号一致项:
其中,eij为原始二值标记值tij与学习值两项的乘积,即
④第四项为稀疏项:
其中,其中,bj是偏差值;
(3.3)根据步骤(3.2),采用拟牛顿迭代方法求解最小化目标函数F(W,b),获得第m个属性对应的分类预测模型{W(m),b(m)},即求得第m个属性对应的
W=[ω1,...,ωj,...,ωN]、b=[b1,...,bj,...,bN]T
(3.4)递增m,m=m+1,重复步骤(3.2)~(3.4),直到计算出M个属性各自的分类预测模型{W(m),b(m)},m=1,2,...,M。
5.根据权利要求4所述一种基于音频特征诱导信息增强的音乐自动标记方法,其特征在于,所述步骤(4)中,提取待标记音乐样本的特征向量x,输入分类预测模型{W(m),b(m)},实现自动对输入的音乐样本进行标记方法如下:计算标记信息向量 是特征向量向高维再生希尔伯特向量的映射函数, 表示该待标记音乐样本第m个属性下第n个标记的标记信息值,N是标记个数,设定阈值0进行分类,若则为相关标记,否则为无关标记,实现音乐样本的自动标记。
CN201810815313.0A 2018-07-24 2018-07-24 一种基于音频特征诱导信息增强的音乐自动标记方法 Active CN109102006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810815313.0A CN109102006B (zh) 2018-07-24 2018-07-24 一种基于音频特征诱导信息增强的音乐自动标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810815313.0A CN109102006B (zh) 2018-07-24 2018-07-24 一种基于音频特征诱导信息增强的音乐自动标记方法

Publications (2)

Publication Number Publication Date
CN109102006A true CN109102006A (zh) 2018-12-28
CN109102006B CN109102006B (zh) 2021-09-07

Family

ID=64847359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810815313.0A Active CN109102006B (zh) 2018-07-24 2018-07-24 一种基于音频特征诱导信息增强的音乐自动标记方法

Country Status (1)

Country Link
CN (1) CN109102006B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109982137A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、视频标记方法、装置、终端及存储介质
CN114333856A (zh) * 2021-12-24 2022-04-12 南京西觉硕信息科技有限公司 给定线性预测系数时后半帧语音信号的求解方法、装置及系统
CN114420157A (zh) * 2021-12-30 2022-04-29 阿里云计算有限公司 音乐表征方法、音乐任务处理方法、服务器及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882530A (zh) * 2012-09-17 2013-01-16 南京邮电大学 一种压缩感知信号重构方法
CN104050653A (zh) * 2014-07-07 2014-09-17 西安电子科技大学 基于非负结构稀疏的高光谱图像超分辨率算法
CN104899596A (zh) * 2015-03-16 2015-09-09 景德镇陶瓷学院 一种多标签分类方法及其装置
CN105069481A (zh) * 2015-08-19 2015-11-18 西安电子科技大学 基于空间金字塔稀疏编码的自然场景多标记分类方法
CN106157944A (zh) * 2015-05-14 2016-11-23 仁宝电脑工业股份有限公司 节拍标记方法
CN108133387A (zh) * 2017-12-21 2018-06-08 北京联合大学 基于软信息的多标记k近邻算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882530A (zh) * 2012-09-17 2013-01-16 南京邮电大学 一种压缩感知信号重构方法
CN104050653A (zh) * 2014-07-07 2014-09-17 西安电子科技大学 基于非负结构稀疏的高光谱图像超分辨率算法
CN104899596A (zh) * 2015-03-16 2015-09-09 景德镇陶瓷学院 一种多标签分类方法及其装置
CN106157944A (zh) * 2015-05-14 2016-11-23 仁宝电脑工业股份有限公司 节拍标记方法
CN105069481A (zh) * 2015-08-19 2015-11-18 西安电子科技大学 基于空间金字塔稀疏编码的自然场景多标记分类方法
CN108133387A (zh) * 2017-12-21 2018-06-08 北京联合大学 基于软信息的多标记k近邻算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
EUHANNA GHADIMI,ET AL: "《Optimal parameter selection for the alternating direction method of multipliers (ADMM): quadratic problems》", 《ARXIV:1306.2454V2》 *
YUKUN LI,ET AL: "《Leveraging Implicit Relative Labeling-Importance Information for Effective Multi-Label Learning》", 《2015 IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 *
张慧等: "《基于稀疏重构的空间邻近目标红外单帧图像超分辨率方法》", 《光学学报》 *
陈亮: "《几类基于增广拉格朗日函数的求解约束优化问题的方法》", 《中国博士学位论文全文数据库 基础科学辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109982137A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、视频标记方法、装置、终端及存储介质
CN114333856A (zh) * 2021-12-24 2022-04-12 南京西觉硕信息科技有限公司 给定线性预测系数时后半帧语音信号的求解方法、装置及系统
CN114420157A (zh) * 2021-12-30 2022-04-29 阿里云计算有限公司 音乐表征方法、音乐任务处理方法、服务器及存储介质

Also Published As

Publication number Publication date
CN109102006B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
Latif et al. Multi-task semi-supervised adversarial autoencoding for speech emotion recognition
Fernández et al. AI methods in algorithmic composition: A comprehensive survey
CN111694924A (zh) 一种事件抽取方法和系统
CN109102006B (zh) 一种基于音频特征诱导信息增强的音乐自动标记方法
CN111783459A (zh) 一种基于改进Transformer+CRF的老挝语命名实体识别方法
CN105679324B (zh) 一种声纹识别相似度评分的方法和装置
Falahzadeh et al. Deep convolutional neural network and gray wolf optimization algorithm for speech emotion recognition
CN111309965A (zh) 音频匹配方法、装置、计算机设备及存储介质
CN111680169A (zh) 一种基于bert模型技术的电力科技成果数据抽取方法
Wu et al. Automatic chord estimation based on a frame-wise convolutional recurrent neural network with non-aligned annotations
Awasthi et al. Teaching keyword spotters to spot new keywords with limited examples
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN113705222B (zh) 槽识别模型训练方法及装置和槽填充方法及装置
Sonkamble et al. Speech recognition using vector quantization through modified K-MeansLBG Algorithm
Zhang et al. Speech emotion recognition method in educational scene based on machine learning
Zhang et al. Supervised and unsupervised sound retrieval by vocal imitation
CN115796029A (zh) 基于显式及隐式特征解耦的nl2sql方法
Peeters The deep learning revolution in mir: The pros and cons, the needs and the challenges
CN115589446A (zh) 一种基于预训练与提示的会议摘要生成方法及系统
Fang et al. Deep learning of chroma representation for cover song identification in compression domain
CN110059314B (zh) 一种基于增强学习的关系抽取方法
Toman et al. Content-based audio retrieval by using elitism GA-KNN approach
Dieleman Learning feature hierarchies for musical audio signals
Majumder et al. Human Speech Emotion Recognition Using CNN
Darshan et al. Speech Emotion Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant