CN102737069A - 一种语义增强的音乐评论分类方法 - Google Patents

一种语义增强的音乐评论分类方法 Download PDF

Info

Publication number
CN102737069A
CN102737069A CN2011100970521A CN201110097052A CN102737069A CN 102737069 A CN102737069 A CN 102737069A CN 2011100970521 A CN2011100970521 A CN 2011100970521A CN 201110097052 A CN201110097052 A CN 201110097052A CN 102737069 A CN102737069 A CN 102737069A
Authority
CN
China
Prior art keywords
music
comment
sorter
vector
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100970521A
Other languages
English (en)
Other versions
CN102737069B (zh
Inventor
王朝坤
王建民
郑伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201110097052.1A priority Critical patent/CN102737069B/zh
Publication of CN102737069A publication Critical patent/CN102737069A/zh
Application granted granted Critical
Publication of CN102737069B publication Critical patent/CN102737069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种语义增强的音乐评论分类方法,用于对音乐评论进行自动分类,它根据乐评内容将其划分为专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论五大类,只需要对少量乐评进行手工分类,即可实现对大量类别未知乐评的自动分类。本发明方法的优点是不仅对音乐评论本身进行分析,同时它还运用了与被评论对象相关的音乐短语,如音乐元数据、歌词等,来增强分析的准确性;同时,本发明方法还提供了一种有效合并两个分类器输出的方法,显著提高了预测的准确性。

Description

一种语义增强的音乐评论分类方法
技术领域
本发明涉及文本信息挖掘技术领域,特别是涉及一种语义增强的音乐评论分类方法。
背景技术
一则音乐评论(简称作乐评)指的是对于一则音乐对象进行的评论。这里的音乐对象可以是一场音乐会或音乐剧、一首乐曲的旋律或歌词、整张音乐专辑的安排、音乐艺术家的表演等与音乐相关的人或事物。
随着互联网的普及和快速发展,社交网络、博客、在线多媒体系统等互联网应用也随之快速发展。功能强大、操作便捷、高实时性的交互是这些网络应用共同具备的典型特性。作为一种重要的交互载体,评论成为这些应用的核心功能之一。在音乐社区、音乐在线商店中,对音乐对象的评论往往是不可或缺的组成部分。这些音乐评论往往包含了大量的有价值的信息。由于互联网中每时每刻都会产生大量的音乐评论,对这些乐评进行人工分类已经远远不能满足人们的需求。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新地提出一种能够对音乐评论的内容进行自动分类的工具,以实现对未知音乐评论的自动分类,满足实际应用的需求。
发明内容
本发明所要解决的技术问题是提供一种语义增强的音乐评论分类方法,用以完成对音乐评论的分类,有效满足实际应用的需求。
为了解决上述问题,本发明公开了一种语义增强的音乐评论分类方法,所述方法包括:
收集与被评论音乐对象相关的信息短语,将所收集的信息短语集合用作语义音乐字典;
将对音乐的评价分为专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论五类;
针对五类评价中的每一类分析预设条数的评价,将每条评价根据语义音乐字典按照最长匹配的原则分割成若干个短语,将每条评价分割后得到的所有短语组成的集合记作D;
复制集合D得到集合PR1,使用tf-idf模型对每条评论生成一个向量,建立分类器f1
复制集合D得到集合PR2,使用熵模型对每条评论生成另外一个向量,建立分类器f2
获取未分类的评论,按照集合PR1提取基于tf-idf的向量,使用分类器f1其进行分类,按照集合PR2提取基于熵的向量,使用分类器f2其进行分类;
合并分类器f1和f2的分类结果。
优选的,所述音乐对象相关的信息短语包括歌曲艺术家(歌手)、曲作家、词作家的姓名,专辑名和专辑中歌曲的名字,该音乐的歌词。
优选的,所述音乐相关的信息通过音乐爬虫在音乐网站中获取。
优选的,所述方法在建立分类器f1时还包括:
优化集合PR1
优选的,所述方法在建立分类器f2时还包括:
优化集合PR2
与现有技术相比,本发明具有以下优点:
本发明不仅对乐评内容本身进行分析,同时还运用了与被评论对象相关的音乐短语,如音乐元数据、歌词等,来增强分析的准确性使用两个不同的分类器进行预测,并提供了一种有效合并两个分类器输出的方法,显著提高了预测的准确性。
附图说明
图1是本发明实施例所述的一种语义增强的音乐评论分类方法流程图;
图2是本发明实施例所述的建立分类方法时的原理框图;
图3是本发明实施例所述的使用分类方法时的原理框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一:
参照图1,示出了本发明的一种语义增强的音乐评论分类方法流程图,所述方法具体包括:
步骤S101,收集与被评论音乐对象相关的信息短语,将所收集的信息短语集合用作语义音乐字典;
步骤S102,将对音乐的评价分为专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论五类;
步骤S103,针对五类评价中的每一类分析预设条数的评价,将每条评价根据语义音乐字典按照最长匹配的原则分割成若干个短语,将每条评价分割后得到的所有短语组成的集合记作D;
步骤S104,复制集合D得到集合PR1,使用tf-idf模型对每条评论生成一个向量,建立分类器f1
步骤S105,复制集合D得到集合PR2,使用熵模型对每条评论生成另外一个向量,建立分类器f2
需要说明的是,上述在尽力分类器的同时,相应的优化其所对应的集合PR1以及PR2
步骤S106,获取未分类的评论,按照集合PR1提取基于tf-idf的向量,使用分类器f1其进行分类,按照集合PR2提取基于熵的向量,使用分类器f2其进行分类;
步骤S107,合并分类器f1和f2的分类结果。
以下通过实际中的具体应用,对本发明所述的方案做更为详尽的介绍,实际中将乐评自动划分为专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论五类。其原理框图如图2和图3所示,包括以下各步骤:
1、依次收集与被评论音乐对象相关的信息短语,具体的所述信息短语包括:歌曲艺术家(歌手)、曲作家、词作家的姓名,专辑名和专辑中歌曲的名字,该音乐的歌词,用户在网站上对该音乐对象添加的标签,通用的形容词短语。将这些短语的集合称作语义音乐字典;
在本实施例中,与被评价音乐对象相关的信息短语主要指歌曲的元数据,包括艺术家(歌手)、曲作家、词作家的姓名,专辑名和专辑中歌曲的名字,歌词等信息,可以通过音乐爬虫在很多音乐网站中获取。
2、选取n条乐评进行手工分类。将这n条乐评的集合记作{rj|j=1,2,...,n};
在本实施例中,可以对每类手工分析200条乐评,即n=1000。
3、将每条乐评根据步骤1中生成的语义音乐字典按照最长匹配的原则分割成若干个短语。如果乐评中包含了语义音乐字典中不存在的短语,则忽略这个短语。将这n条乐评分割后得到的所有的短语组成的集合记作D(如果集合中有重复短语,则只保留一份);
在本实施例中,对乐评分词时采用最长匹配原则,例如:当乐评中含有“清华大学软件学院”,字典中含有“清华大学”、“清华”、“大学”、“软件”、“学院”时,该乐评的分词结果是{清华大学,软件,学院}。
4、复制D,得到它的一个副本,记作R。使用上述n条已分类的乐评建立第一个分类器,记作f1,具体步骤如下:
4.1、引入一个临时变量R0,其初始值为R,即R0=R。
在本实施例中,R0是短语集合R的拷贝,R0是一个临时变量。
4.2、使用tf-idf模型对这n条乐评中的每条乐评生成一个向量。首先,统计R0中每个短语在每条乐评中出现的次数fji。然后,计算R0中每个短语pi在每条乐评rj中的词频
Figure BDA0000055495320000041
接下来计算R0中每个短语pi的逆文本频率
Figure BDA0000055495320000042
其中ni表示这n条乐评中包含短语pi的乐评的总数。最后将词频和逆文本频率相乘wji=tfji·idfi,即可得到向量dj=(wj1,wj2,...,wiq)T,其中,i=1,2,...,|R0|,j=1,2,...,n;
在本实施例中,生成向量的维度等于短语集合R0的大小。
4.3、将步骤4.2中得到的n个向量随机分成数量相同的5组。使用其中的4组向量训练一个支撑向量机分类器,用另外1组测试该分类器的分类精度(分类正确的乐评数目除以总乐评数目)。这个过程重复5次,每次都用1组不同的向量作为测试向量,最后记录这5次精度的平均值,记作Pre;
在本实施例中,使用交叉验证的方法,即将这n个向量随机分成5组。第一次用第1~4组建立分类器,第5组测试分类器精度;第二次用第1、2、3、5组建立分类器,第4组测试分类器精度;第二次用第1、3、4、5组建立分类器,第3组测试分类器精度......以此类推,共进行五次,并将这5次测试的精度取平均值。其中,精度指分类器分类正确的数据的总数除以待分类数据的总数。
4.4、对R中每个短语pi,令R0=R\{pi}并执行步骤4.2~4.3得到一个精度的平均值,记作Prei,其中i=1,2,...,|R|;
在本实施例中,将对步骤4.2~4.3重复|R|次,|R|为短语集合|R|的大小。其中,第i次执行步骤4.2~4.3时,令R0=R\{pi}。
4.5、如果Pre≥max{Prei|i=1,2,...,|R|},将这时的短语集合R记作RP1,将此时的分类器记作f1,将分类器输出的混淆矩阵记作M1,并转至步骤5;否则,得到q=argmaxi{Prei|i=1,2,...,|R|},R=R\{pq},转至步骤4.1;
在本实施例中,q的含义是,当取R=R\{pq}时分类器精度最高。混淆矩阵是一个N行N列的矩阵,N指类别总数,即N=5。混淆矩阵M第i行第j列元素Mij指实际类别为ci并被分类器预测成cj的乐评的总数。
5、令R=D,使用已手工分类的n条乐评建立第二个分类器,记作f2,具体步骤如下:
5.1、令临时变量R0=R;
在本实施例中,R0是短语集合R的拷贝,R0是一个临时变量。
5.2、使用熵模型对这n条乐评中的每条乐评生成另外一个向量。首先,将5个候选类别依次记作c1,c2,c3,c4,c5并计算R0中每个短语pi在每个类别上的ck其中nik表示这n条乐评中属于类别ck并且包含短语pi的乐评的数目,ni表示这n条乐评中包含短语pi的乐评的总数。然后,计算乐评rj的类别ck上的熵
Figure BDA0000055495320000052
其中E(rj)[k]是向量E(rj)的第k个元素。最后,归一化得到向量
Figure BDA0000055495320000061
其中k=1,2,...,5,i=1,2,...,|R0|,j=1,2,...,n;
在本实施例中,生成向量的维度等于类别的总数目,即生成向量为5维。c1,c2,c3,c4,c5依次指专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论5类。
5.3、将步骤5.2中得到的n个向量随机分成数量相同的5组。使用其中的4组向量训练一个支撑向量机分类器,用另外1组测试该分类器的分类精度(分类正确的乐评数目除以总乐评数目)。这个过程重复5次,每次都用1组不同的向量作为测试向量,最后记录这5次精度的平均值,记作Pre;
在本实施例中,同样使用交叉验证的方法,即将这n个向量随机分成5组。第一次用第1~4组建立分类器,第5组测试分类器精度;第二次用第1、2、3、5组建立分类器,第4组测试分类器精度;第二次用第1、3、4、5组建立分类器,第3组测试分类器精度......以此类推,共进行五次,并将这5次测试的精度取平均值。其中,精度指分类器分类正确的数据的总数除以待分类数据的总数。
5.4、对R中每个短语pi,令R0=R\{pi}并执行步骤5.2~5.3得到一个精度的平均值,记作Prei,其中i=1,2,...,|R|;
在本实施例中,将对步骤4.2~4.3重复|R|次,|R|为短语集合|R|的大小。其中,第i次执行步骤5.2~5.3时,令R0=R\{pi}。
5.5、如果Pre≥max{Prei|i=1,2,...,|R|},将这时的短语集合R记作RP2,将此时的分类器记作f2,将分类器输出的混淆矩阵记作M2,分类方法建立完毕;否则,得到q=argmaxi{Prei|i=1,2,...,|R|},R=R\{pq},转至步骤5.1;
在本实施例中,q的含义是,当取R=R\{pq}时分类器精度最高。
(二)使用分类方法
6、当输入一条未分类的乐评时,将该乐评记作r;
6.1、将乐评r根据短语集合PR1分割成短语,使用步骤4.2中的方法由乐评r生成向量,并将该向量输入分类器f1,得到分类结果cf1
在本实施例中,将乐评r按照PR1进行分词,分词时采用最长匹配原则。
6.2、将乐评r根据短语集合PR2分割成短语,使用步骤5.2中的方法由乐评r生成向量,并将该向量输入分类器f2,得到分类结果cf2
在本实施例中,将乐评r按照PR2进行分词,分词时采用最长匹配原则。
7、通过步骤4.5中记录的混淆矩阵M1和步骤5.5中记录的混淆矩阵M2合并步骤6中的两个分类结果cf1和cf2
7.1、根据混淆矩阵M1计算分类器f1在每个类别上的散度。首先计算最大熵
Figure BDA0000055495320000071
和类别熵
Figure BDA0000055495320000072
Figure BDA0000055495320000073
分类器f1在类别cj上的散度Divf(cj)=E(cj)-Ef(cj)。上式中N表示类别总数,即为N=5;Mij表示矩阵混淆矩阵M1的第i行第j列元素的值;i,j=1,2,...,5;
在本实施例中,熵是信息理论中的专有名词,在此步骤中只需按照公式计算即可。由于有5个类别,故共需要计算Divf(c1),Divf(c2),Divf(c3),Divf(c4),Divf(c5)的值。
7.2、根据混淆矩阵M1计算分类器f1在预测每个类别时条件概率。当分类器预测类别是ci,真实类别cj时的条件概率是
Figure BDA0000055495320000074
其中i,j=1,2,...,5;
在本实施例中,共需计算5×5=25个条件概率值,分别是Pf(A=c1|P=c1),Pf(A=c2|P=c1),...,Pf  (A=c5|P=c1);Pf  (A=c1|P=c2),Pf  (A=c2|P=c2),...,Pf(A=c5|P=c2);...;Pf(A=c1|P=c5),Pf(A=c2|P=c5),...,Pf(A=c5|P=c5)。
7.3、对分类器f2,重复步骤7.1和7.2得到分类器f2在在每个类别上的散度和在预测每个类别时的条件概率;
在本实施例中,针对分类器f2重复步骤7.1和7.2即可。
8、对于未分类乐评r,计算它属于每个类别的得分,例如对于类别cj,其得分为
Figure BDA0000055495320000075
j=1,2,...,5。
在本实施例中,需计算每个类别的得分,共5个得分,分别是Score1(r),Score2(r),Score3(r),Score4(r),Score5(r)。
9、选择得分最高的类别作为最终的预测结果。
在本实施例中,只需从Score1(r),Score2(r),Score3(r),Score4(r),Score5(r)中找到最大值并将得分取最大值时j的值输出即可。
以上对本发明所提供的一种语义增强的音乐评论分类方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.一种语义增强的音乐评论分类方法,其特征在于,所述方法包括:
收集与被评论音乐对象相关的信息短语,将所收集的信息短语集合用作语义音乐字典;
将对音乐的评价分为专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论五类;
针对五类评价中的每一类分析预设条数的评价,将每条评价根据语义音乐字典按照最长匹配的原则分割成若干个短语,将每条评价分割后得到的所有短语组成的集合记作D;
复制集合D得到集合PR1,使用tf-idf模型对每条评论生成一个向量,建立分类器f1
复制集合D得到集合PR2,使用熵模型对每条评论生成另外一个向量,建立分类器f2
获取未分类的评论,按照集合PR1提取基于tf-idf的向量,使用分类器f1其进行分类,按照集合PR2提取基于熵的向量,使用分类器f2其进行分类;
合并分类器f1和f2的分类结果。
2.根据权利要求1所述的方法,其特征在于:
所述音乐对象相关的信息短语包括歌曲艺术家(歌手)、曲作家、词作家的姓名,专辑名和专辑中歌曲的名字,该音乐的歌词。
3.根据权利要求2所述的方法,其特征在于:
所述音乐相关的信息通过音乐爬虫在音乐网站中获取。
4.根据权利要求1所述的方法,其特征在于,所述方法在建立分类器f1时还包括:
优化集合PR1
5.根据权利要求1所述的方法,其特征在于,所述方法在建立分类器f2时还包括:
优化集合PR2
CN201110097052.1A 2011-04-15 2011-04-15 一种语义增强的音乐评论分类方法 Active CN102737069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110097052.1A CN102737069B (zh) 2011-04-15 2011-04-15 一种语义增强的音乐评论分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110097052.1A CN102737069B (zh) 2011-04-15 2011-04-15 一种语义增强的音乐评论分类方法

Publications (2)

Publication Number Publication Date
CN102737069A true CN102737069A (zh) 2012-10-17
CN102737069B CN102737069B (zh) 2014-03-05

Family

ID=46992589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110097052.1A Active CN102737069B (zh) 2011-04-15 2011-04-15 一种语义增强的音乐评论分类方法

Country Status (1)

Country Link
CN (1) CN102737069B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951485A (zh) * 2014-09-02 2015-09-30 腾讯科技(深圳)有限公司 音乐文件的数据处理方法和装置
CN105446988A (zh) * 2014-06-30 2016-03-30 华为技术有限公司 预测类别的方法和装置
CN105989375A (zh) * 2015-01-30 2016-10-05 富士通株式会社 对手写字符图像进行分类的分类器、分类装置和分类方法
CN108363769A (zh) * 2018-02-07 2018-08-03 大连大学 基于语义的音乐检索数据集的建立方法
CN110188356A (zh) * 2019-05-30 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAO HU等: "Mining music reviews:promising preliminary results", 《CUMLATIVEISMIR PROCEEDINGS》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446988A (zh) * 2014-06-30 2016-03-30 华为技术有限公司 预测类别的方法和装置
CN105446988B (zh) * 2014-06-30 2018-10-30 华为技术有限公司 预测类别的方法和装置
CN104951485A (zh) * 2014-09-02 2015-09-30 腾讯科技(深圳)有限公司 音乐文件的数据处理方法和装置
CN105989375A (zh) * 2015-01-30 2016-10-05 富士通株式会社 对手写字符图像进行分类的分类器、分类装置和分类方法
CN108363769A (zh) * 2018-02-07 2018-08-03 大连大学 基于语义的音乐检索数据集的建立方法
CN110188356A (zh) * 2019-05-30 2019-08-30 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置
CN110188356B (zh) * 2019-05-30 2023-05-19 腾讯音乐娱乐科技(深圳)有限公司 信息处理方法及装置

Also Published As

Publication number Publication date
CN102737069B (zh) 2014-03-05

Similar Documents

Publication Publication Date Title
Seroussi et al. Authorship attribution with topic models
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
Venugopalan et al. Exploring sentiment analysis on twitter data
Annett et al. A comparison of sentiment analysis techniques: Polarizing movie blogs
Turnbull et al. Five Approaches to Collecting Tags for Music.
CN103631961B (zh) 一种情感词与评价对象的关系识别方法
Aslam et al. Convolutional neural network based classification of app reviews
Dutta et al. Ensemble algorithms for microblog summarization
Wu et al. Characterizing Wikipedia pages using edit network motif profiles
CN102737069B (zh) 一种语义增强的音乐评论分类方法
KR20140067065A (ko) 차트 추천 기법
CN103869999B (zh) 对输入法所产生的候选项进行排序的方法及装置
CN103324758A (zh) 一种新闻分类方法和系统
Lisena et al. MIDI2vec: Learning MIDI embeddings for reliable prediction of symbolic music metadata
CN116151220A (zh) 分词模型训练方法、分词处理方法和装置
Singhi et al. Can song lyrics predict hits
JP5347878B2 (ja) 文献間関係解析装置、該プログラム、及び該方法
Viveros-Jiménez et al. Improving the boilerpipe algorithm for boilerplate removal in news articles using html tree structure
Goienetxea et al. Towards the use of similarity distances to music genre classification: A comparative study
JP6522446B2 (ja) ラベル付与装置、方法およびプログラム
Banados et al. Optimizing support vector machine in classifying sentiments on product brands from Twitter
Cumming et al. Using corpus studies to find the origins of the madrigal
CN114510568A (zh) 作者姓名消歧方法及作者姓名消歧装置
Xi et al. The design and construction based on the ASEAN piano music library and display platform
Kavitha Twitter sentiment analysis based on adaptive deep recurrent neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant