CN109492664A - 一种基于特征加权模糊支持向量机的音乐流派分类方法及系统 - Google Patents

一种基于特征加权模糊支持向量机的音乐流派分类方法及系统 Download PDF

Info

Publication number
CN109492664A
CN109492664A CN201811140315.0A CN201811140315A CN109492664A CN 109492664 A CN109492664 A CN 109492664A CN 201811140315 A CN201811140315 A CN 201811140315A CN 109492664 A CN109492664 A CN 109492664A
Authority
CN
China
Prior art keywords
class
music
training
feature
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811140315.0A
Other languages
English (en)
Other versions
CN109492664B (zh
Inventor
贾连印
左喻灏
丁家满
游进国
李晓武
雷妍
沈兵林
胡俊涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201811140315.0A priority Critical patent/CN109492664B/zh
Publication of CN109492664A publication Critical patent/CN109492664A/zh
Application granted granted Critical
Publication of CN109492664B publication Critical patent/CN109492664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及一种基于特征加权模糊支持向量机的音乐流派分类方法及系统,属于音乐内容检索及模式识别技术领域。本发明的分类器选择模糊支持向量机,能够根据不同输入样本对分类贡献的不同,赋以相应隶属度,目的在于能够很好的减少噪声的影响;用reliefF特征选择算法计算出的各特征权重,用于对模糊支持向量机的隶属度的确定方法,考虑到了不同权重的特征对分类影响大小的不同;针对盲区不可分点,用该点到各个类中心的加权欧氏距离进行多类别概率划分,符合当下音乐多元化的实质。

Description

一种基于特征加权模糊支持向量机的音乐流派分类方法及 系统
技术领域
本发明涉及一种基于特征加权模糊支持向量机的音乐流派分类方法及系统,属于音乐内容检索及模式识别技术领域。
背景技术
音乐是人们用来表现生活、抒发情感的一种艺术。音乐流派是人类创造的分类标签,由专家们通过一定的相似性将音乐进行组织整理。随着音乐数据的不断增多,越来越庞大的数字音乐数据库需要智能化、自动化的分类管理,音乐流派的分类受到社会和学界越来越广泛的关注。然而,当下音乐的发展趋势越来越多元化,一首音乐作品可能会融入多种流派。
音乐流派分类系统有三个组成部分:音乐特征的提取及选择;分类器的选择及模型训练;分类效果测试及对比。国内外研究,主要围绕着新特征的引入以及分类器最优适配选择进行开展。目前,主流的音乐流派分类系统主要集中于音色、节奏、基因频率等音频的声学特征进行提取,且多采用支持向量机(SVM)分类器对音乐流派分类,取得了良好的效果。然而,目前的研究工作,鲜有考虑到音乐流派具有模糊性这一特点,其最终仅输出一个可能性最大的流派,导致音乐流派信息的不完整,不能跟上如今音乐更加多元化的发展趋势。此外,SVM分类器受噪点影响较大的问题,在对音乐流派分类上也没有得到很好的解决。
发明内容
本发明提供了一种基于特征加权模糊支持向量机的音乐流派分类方法及系统,该发明考虑到了不同权重的特征对分类的贡献程度的不同,能够很好的降低噪点影响;对在盲区的不可分点的多类别概率划分,符合当下音乐多元化的实质。
本发明的技术方案是:一种基于特征加权模糊支持向量机的音乐流派分类方法,包括:
特征权重的计算及特征选择步骤,先将原始音乐数据集归一化处理并分为归一化音乐训练集和归一化音乐测试集,然后在归一化音乐训练集上使用reliefF特征选择算法得到各个特征的权重,将特征权重按照从大到小累加直到超过所有特征权重之和的设定比值,将剩余未被累加的特征移除得到最终的音乐训练集和音乐测试集;其中,原始音乐数据集包含类别属性和特征属性;
隶属度确定步骤,求出最终的音乐训练集按照类别属性下的各个类中心,并基于音乐训练集里的每个音乐训练样本到所属类的类中心的加权欧式距离来确定每个训练样本的隶属度;
分类模型的训练步骤,将最终的音乐训练集按照一类对其余的方式分组,并由隶属度确定步骤得到的各训练样本的隶属度作为各训练样本在构造最优分类面判别式的惩罚系数,对每组分别求出最优分类面,将各组最优分类面合并作为最终的分类模型;
音乐流派分类步骤,将最终的音乐测试集代入分类模型,如果音乐测试集中的测试样本落入相应的类别,则输出测试样本所对应的音乐流派类别结果;如果测试集中的测试样本散落在分类模型得出的不可分区域,则该测试样本作为不可分点,针对不可分点,按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,类别概率低于设定最小类别概率阈值的类别标签被剔除,并将剩余类别类别概率重新百分比计算并按类别概率从大到小排序,以此作为该不可分点的类别概率输出结果;其中,不可分区域为不可让样本落入唯一类别的区域。
所述特征权重的计算及特征选择步骤,具体为:
原始音乐数据集包含类别属性和特征属性,针对原始音乐数据集的各特征属性分别采用0均值归一化的方法进行归一化、原始音乐数据集的类别属性不变,得到归一化音乐数据集,将归一化音乐数据集按照1:1的比例拆分为归一化音乐训练集和归一化音乐测试集;
采用reliefF特征选择算法对归一化音乐训练集进行特征权重计算,得到每一个特征的特征权重;
将特征权重按照从大到小排序,依次累加直到超过所有特征权重之和的80%,将剩余特征权重对应的特征在归一化音乐训练集和归一化音乐测试集上移除,得到最终的音乐训练集和音乐测试集。
所述隶属度确定步骤,具体为:
分别对最终的音乐训练集里的每个类别,求取该类别内所有样本分别在各个特征上的平均值,以此作为该类别的类中心;
分别对音乐训练集里的每个类别,求取该类别里各个样本到该类别中心的加权欧氏距离;
分别对音乐训练集里的每个类别,取该类别下的最大加权欧式距离作为该类别特征空间超球体半径,将该类别里各个样本到该类别中心的加权欧氏距离与该类别特征空间超球体半径的作除,将数值1与作除的结果作差来确定该类别下各个样本的隶属度。
所述分类模型的训练步骤,具体为:
先将最终的音乐训练集按照一类对其余的方式分组,假设共有c个类别,第一组把类别1的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,第二组把类别2的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,以此类推共分为c组;
采用模糊支持向量机思想,将隶属度确定步骤得到的每个音乐训练样本的隶属度,作为各训练样本在分别构造c个类别的最优分类面判别式的惩罚系数;
对每组训练集分别求出该组正类对应的类别的最优分类面,将各组最优分类面合并作为最终的分类模型。
所述按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,具体为:按照计算类别概率;其中表示不可分点x#分属于第k个类别的类别概率,表示不可分点x#到各个类类中心的加权欧式距离的最大值,表示不可分点x#到第k个类类中心Ok的加权欧式距离,表示最小类别概率,c表示类别的个数。
一种基于特征加权模糊支持向量机的音乐流派分类系统,包括:
特征权重的计算及特征选择装置,用于先将原始音乐数据集归一化处理并分为归一化音乐训练集和归一化音乐测试集,然后在归一化音乐训练集上使用reliefF特征选择算法得到各个特征的权重,将特征权重按照从大到小累加直到超过所有特征权重之和的设定比值,将剩余未被累加的特征移除得到最终的音乐训练集和音乐测试集;其中,原始音乐数据集包含类别属性和特征属性;
隶属度确定装置,用于求出最终的音乐训练集按照类别属性下的各个类中心,并基于音乐训练集里的每个音乐训练样本到所属类的类中心的加权欧式距离来确定每个训练样本的隶属度;
分类模型的训练装置,用于将最终的音乐训练集按照一类对其余的方式分组,并由隶属度确定装置得到的各训练样本的隶属度作为各训练样本在构造最优分类面判别式的惩罚系数,对每组分别求出最优分类面,将各组最优分类面合并作为最终的分类模型;
音乐流派分类装置,用于将最终的音乐测试集代入分类模型,如果音乐测试集中的测试样本落入相应的类别,则输出测试样本所对应的音乐流派类别结果;如果测试集中的测试样本散落在分类模型得出的不可分区域,则该测试样本作为不可分点,针对不可分点,按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,类别概率低于设定最小类别概率阈值的类别标签被剔除,并将剩余类别类别概率重新百分比计算并按类别概率从大到小排序,以此作为该不可分点的类别概率输出结果;其中,不可分区域为不可让样本落入唯一类别的区域。
所述特征权重的计算及特征选择装置,具体用于:
原始音乐数据集包含类别属性和特征属性,针对原始音乐数据集的各特征属性分别采用0均值归一化的方法进行归一化、原始音乐数据集的类别属性不变,得到归一化音乐数据集,将归一化音乐数据集按照1:1的比例拆分为归一化音乐训练集和归一化音乐测试集;
采用reliefF特征选择算法对归一化音乐训练集进行特征权重计算,得到每一个特征的特征权重;
将特征权重按照从大到小排序,依次累加直到超过所有特征权重之和的80%,将剩余特征权重对应的特征在归一化音乐训练集和归一化音乐测试集上移除,得到最终的音乐训练集和音乐测试集。
所述隶属度确定装置,具体用于:
分别对最终的音乐训练集里的每个类别,求取该类别内所有样本分别在各个特征上的平均值,以此作为该类别的类中心;
分别对音乐训练集里的每个类别,求取该类别里各个样本到该类别中心的加权欧氏距离;
分别对音乐训练集里的每个类别,取该类别下的最大加权欧式距离作为该类别特征空间超球体半径,将该类别里各个样本到该类别中心的加权欧氏距离与该类别特征空间超球体半径的作除,将数值1与作除的结果作差来确定该类别下各个样本的隶属度。
所述分类模型的训练装置,具体用于:
先将最终的音乐训练集按照一类对其余的方式分组,假设共有c个类别,第一组把类别1的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,第二组把类别2的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,以此类推共分为c组;
采用模糊支持向量机思想,将隶属度确定装置得到的每个音乐训练样本的隶属度,作为各训练样本在分别构造c个类别的最优分类面判别式的惩罚系数;
对每组训练集分别求出该组正类对应的类别的最优分类面,将各组最优分类面合并作为最终的分类模型。
所述按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,具体为:按照计算类别概率;其中表示不可分点x#分属于第k个类别的类别概率,表示不可分点x#到各个类类中心的加权欧式距离的最大值,表示不可分点x#到第k个类类中心Ok的加权欧式距离,表示最小类别概率,c表示类别的个数。
本发明的有益效果是:本发明的分类器选择模糊支持向量机,能够根据不同输入样本对分类贡献的不同,赋以相应隶属度,目的在于能够很好的减少噪声的影响;用reliefF特征选择算法计算出的各特征权重,用于对模糊支持向量机的隶属度的确定方法,考虑到了不同权重的特征对分类影响大小的不同;针对盲区不可分点,用该点到各个类中心的加权欧氏距离进行多类别概率划分,符合当下音乐多元化的实质。
附图说明
图1是基于模糊支持向量机的音乐流派分类方法模块图;
图2是特征权重计算及特征选择流程图;
图3是隶属度确定模块图;
图4是模型训练模块图;
图5不可分点的划分流程图;
图6是支持向量机不可分区域的展示图。
具体实施方式
实施例1:如图1所示,一种基于特征加权模糊支持向量机的音乐流派分类方法,包括:
S1、特征权重的计算及特征选择步骤,先将原始音乐数据集归一化处理并分为归一化音乐训练集和归一化音乐测试集,然后在归一化音乐训练集上使用reliefF特征选择算法得到各个特征的权重,将特征权重按照从大到小累加直到超过所有特征权重之和的设定比值,将剩余未被累加的特征移除得到最终的音乐训练集和音乐测试集;其中,原始音乐数据集包含类别属性和特征属性;
S2、隶属度确定步骤,求出最终的音乐训练集按照类别属性下的各个类中心,并基于音乐训练集里的每个音乐训练样本到所属类的类中心的加权欧式距离来确定每个训练样本的隶属度;
S3、分类模型的训练步骤,将最终的音乐训练集按照一类对其余的方式分组,并由隶属度确定步骤得到的各训练样本的隶属度作为各训练样本在构造最优分类面判别式的惩罚系数,对每组分别求出最优分类面,将各组最优分类面合并作为最终的分类模型;
S4音乐流派分类步骤,将最终的音乐测试集代入分类模型,如果音乐测试集中的测试样本落入相应的类别,则输出测试样本所对应的音乐流派类别结果;如果测试集中的测试样本散落在分类模型得出的不可分区域,则该测试样本作为不可分点,针对不可分点,按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,类别概率低于设定最小类别概率阈值的类别标签被剔除,并将剩余类别类别概率重新百分比计算并按类别概率从大到小排序,以此作为该不可分点的类别概率输出结果(指这些不可分点的测试样本会输出保留类别下的类别概率输出结果);其中,不可分区域为不可让样本落入唯一类别的区域。
进一步地,可以设置步骤S1中,所述特征权重的计算及特征选择步骤(参见图2),具体为:
步骤S101:原始音乐数据集包含类别属性和特征属性,针对原始音乐数据集的各特征属性分别采用0均值归一化的方法进行归一化、原始音乐数据集的类别属性不变,得到归一化音乐数据集,将归一化音乐数据集按照1∶1的比例拆分为归一化音乐训练集和归一化音乐测试集:
给定原始音乐数据集J共有c个类别,数据集包含类别属性以及音色、节奏、基因频率等相关的音频声学特征T,特征数为n,Tj表示第j个特征,j=1,2,...,n。
由于特征属性上存在量纲的不同,针对原始音乐数据集的各特征属性分别采用0均值归一化的方法进行归一化,计算公式如下:其中x′i,j表示样本xi归一化之后的第j个特征上的值,xi,j表示原样本xi在第j个特征上的值,μj为所有音乐样本在第j个特征上的均值,Sj为所有音乐样本在第j个特征上的标准差,对n维特征都按照上述公式归一化得到对应的值,和保持不变的类别属性一起构成归一化音乐数据集J’,将归一化音乐数据集按照样本序号取前一半作为归一化音乐训练集D,后一半作为归一化音乐测试集G。其中归一化音乐训练集D的样本总个数为s,第i个归一化训练样本表示为(xi,Yi),Yi为训练样本xi的类别标签;Dk表示第k个类别下的音乐训练集,k=1,2,...,c。
步骤S102,采用reliefF特征选择算法对归一化音乐训练集进行特征权重计算,得到每一个特征的特征权重:
1)、训练集为D,特征总个数n,设样本抽样次数m,最近邻样本个数r,各个特征的特征权重集W初始化置为0。
2)、一次抽样更新权值的算法如下:
a、从D中随机选择一个样本x;
b、从x的同类样本集中找到x的r个最近样本集H,Ha表示同类样本集的第a个样本,a=1,2,...,r;从x的每一个不同类样本集中找到r个最近邻样本集F,Fk表示从第k类样本集找到的r个最近邻样本集,Fk,b表示第k类样本集的第b个样本,b=1,2,...,r。
c、对特征权重集W,计算一次抽样下每个特征的特征权值的更新,公式如下:
其中Wj表示第j个特征的特征权重,class(x)表示样本x拥有的类标签,diff(Tj,x.Ha)是样本x和Ha在特征Tj上的距离(a=1,2,...,r),diff(Tj,r,Fk,b)是样本x和Fk,b在特征Tj上的距离(b=1,2,...,r)。Pk表示第k类样本在归一化音乐训练集D中出现的概率,P(class(x))表示样本x所属类在归一化音乐训练集D中出现的概率。
3)、m次抽样下,将n个特征的特征权重更新m次。
步骤S103,将特征权重按照从大到小排序,依次累加直到超过所有特征权重之和的80%,剩余特征权重对应的特征被移除,剩余n′个特征的特征权重集W′,Wj′表示降维后特征权重集的第j个特征的特征权值(j=1,2,...,n′),归一化音乐训练集D和归一化音乐测试集G经过特征降维得到最终的音乐训练集D′和音乐测试集G′。
进一步地,可以设置步骤S2中,所述隶属度确定步骤(参见图3),具体为:
步骤S2中,分别对最终的音乐训练集里的每个类别,求取该类别内所有样本分别在各个特征上的平均值,以此作为该类别的类中心:对音乐数据集的第k个类别对应的训练集D′k,求该类别里所有数据分别在n′个特征上的平均值,n′个特征平均值构成的点称为第k个类别的类中心,用Ok表示。按照上述方式对训练集求取所有类的类中心。
步骤S202,分别对音乐训练集里的每个类别,求取该类别里各个样本到该类别中心的加权欧氏距离:对音乐训练集的第k个类别的训练集D′k,计算该类别里所有数据到第k类类中心Ok的加权欧氏距离,D′k内一个样本用x′k表示,其到第k类类中心Ok的加权欧式距离计算公式如下:其中,x′k,j表示样本x′k的第j个特征的值,ok,j是类中心Ok的第j个维度的值,Wj′是第j个特征的特征权重(j=1,2,...,n′),由此计算出第k个类别的训练集D′k内所有样本各自到第k类类中心Ok的加权欧氏距离。按照上述方式分别对所有类,求取类别训练集里所有数据到该类类中心的加权欧氏距离。
步骤S203,分别对音乐训练集里的每个类别,取该类别下的最大加权欧式距离作为该类别特征空间超球体半径,将该类别里各个样本到该类别中心的加权欧氏距离与该类别特征空间超球体半径的作除,将数值1与作除的结果作差来确定该类别下各个样本的隶属度:对音乐数据集的第k个类别的训练集D′k,取D′k的所有样本各自到类中心Ok加权欧式距离的最大距离dk max,以此作为第k类别的特征空间超球体半径。按照上一步的方法,分别对所有类求取特征空间超球体半径。不失为一般性,仍对于训练集D′k内一个样本x′k,根据如下公式计算x′k属于第k类别的隶属度:其中,为步骤S202求得的样本x′k到所属第k类类中心Ok的加权欧式距离,dk max为第k类别的特征空间超球体半径,由此计算出训练集D′k内所有样本各自在第k类别的隶属度。重复上述过程,为每一个音乐训练样本x′计算其隶属度,即第i个样本的隶属度用ψi表示。
进一步地,可以设置步骤S3中,所述分类模型的训练步骤(参见图4),具体为:
步骤S301,先将最终的音乐训练集按照一类对其余的方式分组,假设共有c个类别,第一组把类别1的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,第二组把类别2的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,以此类推共分为c组;
步骤S302,采用模糊支持向量机思想,将隶属度确定步骤得到的每个音乐训练样本的隶属度,作为各训练样本在分别构造c个类别的最优分类面判别式的惩罚系数:为方便理解,以下针对第一组构造模糊支持向量机的过程进行阐述,第一组训练集的正类样本为类别为1的训练样本,其余类别下的训练样本合起来定为负样本。第一组总样本个数为n。模糊支持向量机是在支持向量机基础上提出来的,在支持向量机方法中,最优分类面的训练结果允许数据点存在偏移,因此在最终优化问题的目标函数引入了松弛变量对应数据点允许的偏移量,并为了限制其取值加入了惩罚因子C,惩罚因子越大则对偏移样本的约束程度就越大,说明对应的这个样本产生偏移对计算出最优分类面的影响越大,支持向量机在这一过程对所有的松弛变量都使用共同的惩罚因子。模糊支持向量机根据每一个训练样本对分类的贡献程度不同给其赋予相应的隶属度,通过隶属度控制惩罚因子,隶属度越小对应惩罚因子越小,对模型的训练影响就越小,则噪点数据被赋予很小的隶属度就可以减少噪点数据对最优分类面构造的影响。
模糊支持向量机的目标函数如下:
s.t.yi[(w*x)+b]≥1-ξi,ξi≥0(i=1,2,...,n)
其中,w为最优分类面的线性系数,b为偏置,ψi为步骤S2的隶属度确认方法分别求出来的每个音乐训练样本的隶属度,Cψi为隶属度控制下的惩罚因子。
求解上述目标函数,需要将其转化为一个对偶问题,在以下步骤中用到的核函数为SVM常用的高斯径向基核函数K<xi,xj>,K〈xi,xj>表示任意两个训练样本xi与训练样本xj在高斯径向基核函数下的内积,具体的对偶问题如下:
求出拉格朗日乘子αi和偏置b,得到最优分类面的决策函数:
其中,yi表示第i个模糊样本是否属于第1类,属于则为1,不属于则为-1,K〈xi,xj>表示任意两个训练样本xi与训练样本xj在高斯径向基核函数下的内积,b为求出的偏置。
步骤S303,对每组训练集分别求出该组正类对应的类别的最优分类面,将各组最优分类面合并作为最终的分类模型:
由以上S302步骤,求出了第一组训练集下的决策函数,也即第一个类别的最优分类面,以此类推分别求出其余类别的最优分类面,所有的分类面一起构成了最终的多分类模型。
音乐测试集的一个测试样本则通过分别代入各个类别的决策函数,通过各类别对应的f(x)值是否为正来判断是否属于该类别(f(x)大于0,则属于;否则不属于)。
由于可能存在着不可让样本落入唯一类别的区域不可分区域,如图6所示的阴影部分,需要进一步的划分。
进一步地,可以设置步骤S4,不可分点的类别概率划分(参见图5),具体为:
音乐测试集在不可分区域上的数据,表征为其流派信息不显著划定为一具体的流派,因此考虑对其做多类别概率划分,从而更为完整的确定其流派信息。
步骤S401,在采用一对多策略求出来的分类模型,存在着不可让样本落入唯一类别的区域不可分区域,而分布在这些区域的测试样本都是不可分点,针对这些不可分点,按照其到各个类中心的加权欧氏距离之间的比值关系来确定分属于各个类别的类别概率:
首先,对于不可分区域内的一个不可分点x#,求其到每个类中心的加权欧氏距离,沿用步骤S202里的加权欧氏距离计算公式,到第k个类别类中心Ok的加权欧氏距离用表示(k=1,2,...,c),得到c个分别到各个类中心的加权欧氏距离。
为区别于前述训练集各个样本隶属度计算公式,在此不可分区域内的一个不可分点x#分属于各个类别的程度用类别概率这一概念描述;则,加权欧式距离越大对应的类别概率越小,对应的属于各个类别的程度大小关系正比于距离长度倒数的平方关系,到所有的类中心的加权欧式距离最大的对应的类别概率最小,加权欧式距离的最大值用表示,对应的最小类别概率用表示,第k个类别的类别概率用表示,计算公式为:
由上将不可分点x#分别属于c个类的类别概率相加且和为1,用百分比表示即为100%,公式表述如下:由此求出不可分的最小类别概率进而求出所有类别的概率。
步骤S402,设定一个最小类别概率阈值,类别概率低于该阈值的类别标签被剔除,并将剩余类别类别概率重新百分比计算并按类别概率从大到小排序,以此作为该不可分点的类别概率输出结果:
设定一个最小类别概率阈值10%,类别概率低于该阈值的类别都被剔除。
计算剩下类别概率占剩下类别概率总和的百分比,并按照从大到小的顺序输出。
如不可分点x#,类别概率大于10%的类别有β个,对应的β个类别用Y1…Yβ表示,这β个类别概率再分别计算所占剩下类别概率总和的百分比,计算之后的类别概率用表示,则对于不可分点x#的输出结果表示为:
一种基于特征加权模糊支持向量机的音乐流派分类系统,包括:特征权重的计算及特征选择装置,用于先将原始音乐数据集归一化处理并分为归一化音乐训练集和归一化音乐测试集,然后在归一化音乐训练集上使用reliefF特征选择算法得到各个特征的权重,将特征权重按照从大到小累加直到超过所有特征权重之和的设定比值,将剩余未被累加的特征移除得到最终的音乐训练集和音乐测试集;其中,原始音乐数据集包含类别属性和特征属性;隶属度确定装置,用于求出最终的音乐训练集按照类别属性下的各个类中心,并基于音乐训练集里的每个音乐训练样本到所属类的类中心的加权欧式距离来确定每个训练样本的隶属度;分类模型的训练装置,用于将最终的音乐训练集按照一类对其余的方式分组,并由隶属度确定装置得到的各训练样本的隶属度作为各训练样本在构造最优分类面判别式的惩罚系数,对每组分别求出最优分类面,将各组最优分类面合并作为最终的分类模型;音乐流派分类装置,用于将最终的音乐测试集代入分类模型,如果音乐测试集中的测试样本落入相应的类别,则输出测试样本所对应的音乐流派类别结果;如果测试集中的测试样本散落在分类模型得出的不可分区域,则该测试样本作为不可分点,针对不可分点,按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,类别概率低于设定最小类别概率阈值的类别标签被剔除,并将剩余类别类别概率重新百分比计算并按类别概率从大到小排序,以此作为该不可分点的类别概率输出结果;其中,不可分区域为不可让样本落入唯一类别的区域。
进一步地,可以设置所述特征权重的计算及特征选择装置,具体用于:原始音乐数据集包含类别属性和特征属性,针对原始音乐数据集的各特征属性分别采用0均值归一化的方法进行归一化、原始音乐数据集的类别属性不变,得到归一化音乐数据集,将归一化音乐数据集按照1∶1的比例拆分为归一化音乐训练集和归一化音乐测试集;采用reliefF特征选择算法对归一化音乐训练集进行特征权重计算,得到每一个特征的特征权重;将特征权重按照从大到小排序,依次累加直到超过所有特征权重之和的80%,将剩余特征权重对应的特征在归一化音乐训练集和归一化音乐测试集上移除,得到最终的音乐训练集和音乐测试集。
进一步地,可以设置所述隶属度确定装置,具体用于:分别对最终的音乐训练集里的每个类别,求取该类别内所有样本分别在各个特征上的平均值,以此作为该类别的类中心;分别对音乐训练集里的每个类别,求取该类别里各个样本到该类别中心的加权欧氏距离;分别对音乐训练集里的每个类别,取该类别下的最大加权欧式距离作为该类别特征空间超球体半径,将该类别里各个样本到该类别中心的加权欧氏距离与该类别特征空间超球体半径的作除,将数值1与作除的结果作差来确定该类别下各个样本的隶属度。
进一步地,可以设置所述分类模型的训练装置,具体用于:先将最终的音乐训练集按照一类对其余的方式分组,假设共有c个类别,第一组把类别1的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,第二组把类别2的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,以此类推共分为c组;采用模糊支持向量机思想,将隶属度确定装置得到的每个音乐训练样本的隶属度,作为各训练样本在分别构造c个类别的最优分类面判别式的惩罚系数;对每组训练集分别求出该组正类对应的类别的最优分类面,将各组最优分类面合并作为最终的分类模型。
进一步地,可以设置所述按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,具体为:按照 计算类别概率;其中表示不可分点x#分属于第k个类别的类别概率,表示不可分点x#到各个类类中心的加权欧式距离的最大值,表示不可分点x#到第k个类类中心Ok的加权欧式距离,表示最小类别概率,c表示类别的个数。
上面结合图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种基于特征加权模糊支持向量机的音乐流派分类方法,其特征在于:包括:
特征权重的计算及特征选择步骤,先将原始音乐数据集归一化处理并分为归一化音乐训练集和归一化音乐测试集,然后在归一化音乐训练集上使用reliefF特征选择算法得到各个特征的权重,将特征权重按照从大到小累加直到超过所有特征权重之和的设定比值,将剩余未被累加的特征移除得到最终的音乐训练集和音乐测试集;其中,原始音乐数据集包含类别属性和特征属性;
隶属度确定步骤,求出最终的音乐训练集按照类别属性下的各个类中心,并基于音乐训练集里的每个音乐训练样本到所属类的类中心的加权欧式距离来确定每个训练样本的隶属度;
分类模型的训练步骤,将最终的音乐训练集按照一类对其余的方式分组,并由隶属度确定步骤得到的各训练样本的隶属度作为各训练样本在构造最优分类面判别式的惩罚系数,对每组分别求出最优分类面,将各组最优分类面合并作为最终的分类模型;
音乐流派分类步骤,将最终的音乐测试集代入分类模型,如果音乐测试集中的测试样本落入相应的类别,则输出测试样本所对应的音乐流派类别结果;如果测试集中的测试样本散落在分类模型得出的不可分区域,则该测试样本作为不可分点,针对不可分点,按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,类别概率低于设定最小类别概率阈值的类别标签被剔除,并将剩余类别类别概率重新百分比计算并按类别概率从大到小排序,以此作为该不可分点的类别概率输出结果;其中,不可分区域为不可让样本落入唯一类别的区域。
2.根据权利要求1所述的基于特征加权模糊支持向量机的音乐流派分类方法,其特征在于:所述特征权重的计算及特征选择步骤,具体为:
原始音乐数据集包含类别属性和特征属性,针对原始音乐数据集的各特征属性分别采用0均值归一化的方法进行归一化、原始音乐数据集的类别属性不变,得到归一化音乐数据集,将归一化音乐数据集按照1∶1的比例拆分为归一化音乐训练集和归一化音乐测试集;
采用reliefF特征选择算法对归一化音乐训练集进行特征权重计算,得到每一个特征的特征权重;
将特征权重按照从大到小排序,依次累加直到超过所有特征权重之和的80%,将剩余特征权重对应的特征在归一化音乐训练集和归一化音乐测试集上移除,得到最终的音乐训练集和音乐测试集。
3.根据权利要求1所述的基于特征加权模糊支持向量机的音乐流派分类方法,其特征在于:所述隶属度确定步骤,具体为:
分别对最终的音乐训练集里的每个类别,求取该类别内所有样本分别在各个特征上的平均值,以此作为该类别的类中心;
分别对音乐训练集里的每个类别,求取该类别里各个样本到该类别中心的加权欧氏距离;
分别对音乐训练集里的每个类别,取该类别下的最大加权欧式距离作为该类别特征空间超球体半径,将该类别里各个样本到该类别中心的加权欧氏距离与该类别特征空间超球体半径的作除,将数值1与作除的结果作差来确定该类别下各个样本的隶属度。
4.根据权利要求1所述的基于特征加权模糊支持向量机的音乐流派分类方法,其特征在于:所述分类模型的训练步骤,具体为:
先将最终的音乐训练集按照一类对其余的方式分组,假设共有c个类别,第一组把类别1的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,第二组把类别2的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,以此类推共分为c组;
采用模糊支持向量机思想,将隶属度确定步骤得到的每个音乐训练样本的隶属度,作为各训练样本在分别构造c个类别的最优分类面判别式的惩罚系数;
对每组训练集分别求出该组正类对应的类别的最优分类面,将各组最优分类面合并作为最终的分类模型。
5.根据权利要求1所述的基于特征加权模糊支持向量机的音乐流派分类方法,其特征在于:所述按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,具体为:按照 计算类别概率;其中表示不可分点x#分属于第k个类别的类别概率,表示不可分点x#到各个类类中心的加权欧式距离的最大值,表示不可分点x#到第k个类类中心Ok的加权欧式距离,表示最小类别概率,c表示类别的个数。
6.一种基于特征加权模糊支持向量机的音乐流派分类系统,其特征在于:包括:
特征权重的计算及特征选择装置,用于先将原始音乐数据集归一化处理并分为归一化音乐训练集和归一化音乐测试集,然后在归一化音乐训练集上使用reliefF特征选择算法得到各个特征的权重,将特征权重按照从大到小累加直到超过所有特征权重之和的设定比值,将剩余未被累加的特征移除得到最终的音乐训练集和音乐测试集;其中,原始音乐数据集包含类别属性和特征属性;
隶属度确定装置,用于求出最终的音乐训练集按照类别属性下的各个类中心,并基于音乐训练集里的每个音乐训练样本到所属类的类中心的加权欧式距离来确定每个训练样本的隶属度;
分类模型的训练装置,用于将最终的音乐训练集按照一类对其余的方式分组,并由隶属度确定装置得到的各训练样本的隶属度作为各训练样本在构造最优分类面判别式的惩罚系数,对每组分别求出最优分类面,将各组最优分类面合并作为最终的分类模型;
音乐流派分类装置,用于将最终的音乐测试集代入分类模型,如果音乐测试集中的测试样本落入相应的类别,则输出测试样本所对应的音乐流派类别结果;如果测试集中的测试样本散落在分类模型得出的不可分区域,则该测试样本作为不可分点,针对不可分点,按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,类别概率低于设定最小类别概率阈值的类别标签被剔除,并将剩余类别类别概率重新百分比计算并按类别概率从大到小排序,以此作为该不可分点的类别概率输出结果;其中,不可分区域为不可让样本落入唯一类别的区域。
7.根据权利要求6所述的基于特征加权模糊支持向量机的音乐流派分类系统,其特征在于:所述特征权重的计算及特征选择装置,具体用于:
原始音乐数据集包含类别属性和特征属性,针对原始音乐数据集的各特征属性分别采用0均值归一化的方法进行归一化、原始音乐数据集的类别属性不变,得到归一化音乐数据集,将归一化音乐数据集按照1∶1的比例拆分为归一化音乐训练集和归一化音乐测试集;
采用reliefF特征选择算法对归一化音乐训练集进行特征权重计算,得到每一个特征的特征权重;
将特征权重按照从大到小排序,依次累加直到超过所有特征权重之和的80%,将剩余特征权重对应的特征在归一化音乐训练集和归一化音乐测试集上移除,得到最终的音乐训练集和音乐测试集。
8.根据权利要求6所述的基于特征加权模糊支持向量机的音乐流派分类系统,其特征在于:所述隶属度确定装置,具体用于:
分别对最终的音乐训练集里的每个类别,求取该类别内所有样本分别在各个特征上的平均值,以此作为该类别的类中心;
分别对音乐训练集里的每个类别,求取该类别里各个样本到该类别中心的加权欧氏距离;
分别对音乐训练集里的每个类别,取该类别下的最大加权欧式距离作为该类别特征空间超球体半径,将该类别里各个样本到该类别中心的加权欧氏距离与该类别特征空间超球体半径的作除,将数值1与作除的结果作差来确定该类别下各个样本的隶属度。
9.根据权利要求6所述的基于特征加权模糊支持向量机的音乐流派分类系统,其特征在于:所述分类模型的训练装置,具体用于:
先将最终的音乐训练集按照一类对其余的方式分组,假设共有c个类别,第一组把类别1的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,第二组把类别2的训练样本定为正样本,其余类别下的训练样本合起来定为负样本,以此类推共分为c组;
采用模糊支持向量机思想,将隶属度确定装置得到的每个音乐训练样本的隶属度,作为各训练样本在分别构造c个类别的最优分类面判别式的惩罚系数;
对每组训练集分别求出该组正类对应的类别的最优分类面,将各组最优分类面合并作为最终的分类模型。
10.根据权利要求6所述的基于特征加权模糊支持向量机的音乐流派分类系统,其特征在于:所述按照其到各个类中心的加权欧氏距离来确定分属于各个类别的类别概率,具体为:按照 计算类别概率;其中表示不可分点x#分属于第k个类别的类别概率,表示不可分点x#到各个类类中心的加权欧式距离的最大值,表示不可分点x#到第k个类类中心Ok的加权欧式距离,表示最小类别概率,c表示类别的个数。
CN201811140315.0A 2018-09-28 2018-09-28 一种基于特征加权模糊支持向量机的音乐流派分类方法及系统 Active CN109492664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811140315.0A CN109492664B (zh) 2018-09-28 2018-09-28 一种基于特征加权模糊支持向量机的音乐流派分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811140315.0A CN109492664B (zh) 2018-09-28 2018-09-28 一种基于特征加权模糊支持向量机的音乐流派分类方法及系统

Publications (2)

Publication Number Publication Date
CN109492664A true CN109492664A (zh) 2019-03-19
CN109492664B CN109492664B (zh) 2021-10-22

Family

ID=65690724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811140315.0A Active CN109492664B (zh) 2018-09-28 2018-09-28 一种基于特征加权模糊支持向量机的音乐流派分类方法及系统

Country Status (1)

Country Link
CN (1) CN109492664B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978068A (zh) * 2019-04-02 2019-07-05 广东电网有限责任公司 一种基于多元模糊支持向量数据描述的高压电缆缺陷识别方法
CN110853606A (zh) * 2019-11-26 2020-02-28 Oppo广东移动通信有限公司 一种音效配置方法、装置及计算机可读存储介质
US20210294840A1 (en) * 2020-03-19 2021-09-23 Adobe Inc. Searching for Music

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030040904A1 (en) * 2001-08-27 2003-02-27 Nec Research Institute, Inc. Extracting classifying data in music from an audio bitstream
CN1979491A (zh) * 2005-12-10 2007-06-13 三星电子株式会社 对音乐文件分类的方法及其系统
CN101398825A (zh) * 2007-09-29 2009-04-01 三星电子株式会社 用于快速音乐分类和检索的方法和设备
CN104598880A (zh) * 2015-03-06 2015-05-06 中山大学 一种基于模糊支持向量机的行为识别方法
CN105184316A (zh) * 2015-08-28 2015-12-23 国网智能电网研究院 一种基于特征权学习的支持向量机电网业务分类方法
CN106446931A (zh) * 2016-08-30 2017-02-22 苏州大学 基于支持向量数据描述的特征提取及分类方法及其系统
CN106548212A (zh) * 2016-11-25 2017-03-29 中国传媒大学 一种二次加权的knn音乐流派分类方法
CN107943865A (zh) * 2017-11-10 2018-04-20 阿基米德(上海)传媒有限公司 一种适用于多场景、多类型的音频分类标签方法及系统
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030040904A1 (en) * 2001-08-27 2003-02-27 Nec Research Institute, Inc. Extracting classifying data in music from an audio bitstream
CN1979491A (zh) * 2005-12-10 2007-06-13 三星电子株式会社 对音乐文件分类的方法及其系统
CN101398825A (zh) * 2007-09-29 2009-04-01 三星电子株式会社 用于快速音乐分类和检索的方法和设备
CN104598880A (zh) * 2015-03-06 2015-05-06 中山大学 一种基于模糊支持向量机的行为识别方法
CN105184316A (zh) * 2015-08-28 2015-12-23 国网智能电网研究院 一种基于特征权学习的支持向量机电网业务分类方法
CN106446931A (zh) * 2016-08-30 2017-02-22 苏州大学 基于支持向量数据描述的特征提取及分类方法及其系统
CN106548212A (zh) * 2016-11-25 2017-03-29 中国传媒大学 一种二次加权的knn音乐流派分类方法
CN107943865A (zh) * 2017-11-10 2018-04-20 阿基米德(上海)传媒有限公司 一种适用于多场景、多类型的音频分类标签方法及系统
CN108319987A (zh) * 2018-02-20 2018-07-24 东北电力大学 一种基于支持向量机的过滤-封装式组合流量特征选择方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ALEX ALEXANDRIDIS等: "《Music Genre Classification Using Radial Basis Function Networks and Particle Swarm Optimization》", 《2014 6TH COMPUTER SCIENCE AND ELECTRONIC ENGINEERING CONFERENCE(CEEC)》 *
N. SCARINGELLA等: "《Automatic genre classification of music content: a survey》", 《IEEE SIGNAL PROCESSING MAGAZINE》 *
向毅等: "《人工蜂群算法优化支持向量机及其在音乐流派自动分类中的应用》", 《数学的实践与认识》 *
孙辉等: "《基于多核学习支持向量机的音乐流派分类》", 《计算机应用》 *
李洁等: "《基于特征加权的模糊聚类新算法》", 《电子学报》 *
汪廷华等: "《特征加权支持向量机》", 《电子与信息学报》 *
甄超等: "《多模态音乐流派分类研究》", 《JOURNAL OF FRONTIERS OF COMPUTER SCIENCE AND TECHNOLOGY》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978068A (zh) * 2019-04-02 2019-07-05 广东电网有限责任公司 一种基于多元模糊支持向量数据描述的高压电缆缺陷识别方法
CN110853606A (zh) * 2019-11-26 2020-02-28 Oppo广东移动通信有限公司 一种音效配置方法、装置及计算机可读存储介质
US20210294840A1 (en) * 2020-03-19 2021-09-23 Adobe Inc. Searching for Music
US11461649B2 (en) * 2020-03-19 2022-10-04 Adobe Inc. Searching for music
US20230097356A1 (en) * 2020-03-19 2023-03-30 Adobe Inc. Searching for Music
US11636342B2 (en) 2020-03-19 2023-04-25 Adobe Inc. Searching for music

Also Published As

Publication number Publication date
CN109492664B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
US20050100209A1 (en) Self-optimizing classifier
Kim Data classification based on tolerant rough set
CN109934269B (zh) 一种电磁信号的开集识别方法和装置
US6185531B1 (en) Topic indexing method
CN109492664B (zh) 一种基于特征加权模糊支持向量机的音乐流派分类方法及系统
CN109873779B (zh) 一种基于lstm的分级式无线信号调制类型识别方法
Tang et al. Classification for overlapping classes using optimized overlapping region detection and soft decision
CN112861984B (zh) 一种基于特征融合与集成学习的语音情感分类方法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
US7233692B2 (en) Method and computer program product for identifying output classes with multi-modal dispersion in feature space and incorporating multi-modal structure into a pattern recognition system
CN107886130A (zh) 一种基于聚类和相似度加权的kNN快速分类方法
CN111309577A (zh) 一种面向Spark的批处理应用执行时间预测模型构建方法
CN109460872B (zh) 一种面向移动通信用户流失不平衡数据预测方法
US7164791B2 (en) Method and computer program product for identifying and incorporating new output classes in a pattern recognition system during system operation
CN111191033A (zh) 一种基于分类效用的开集分类方法
CN114722918A (zh) 一种基于dna甲基化的肿瘤分类方法
Bama et al. Efficient classification using average weighted pattern score with attribute rank based feature selection
Hu et al. Fingerprint classification based on genetic programming
CN113239199A (zh) 一种基于多方数据集的信用分类方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
Balkema et al. Music playlist generation by assimilating GMMs into SOMs
CN116956160A (zh) 一种基于自适应树种算法的数据分类预测方法
CN116432664A (zh) 一种高质量数据扩增的对话意图分类方法及系统
CN116108177A (zh) 一种语音交互与品牌定位关系的评价方法及装置
CN115587884A (zh) 一种基于改进的极限学习机的用户贷款违约预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant