CN102737069A

CN102737069A - 一种语义增强的音乐评论分类方法

Info

Publication number: CN102737069A
Application number: CN2011100970521A
Authority: CN
Inventors: 王朝坤; 王建民; 郑伟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-04-15
Filing date: 2011-04-15
Publication date: 2012-10-17
Anticipated expiration: 2031-04-15
Also published as: CN102737069B

Abstract

本发明提供了一种语义增强的音乐评论分类方法，用于对音乐评论进行自动分类，它根据乐评内容将其划分为专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论五大类，只需要对少量乐评进行手工分类，即可实现对大量类别未知乐评的自动分类。本发明方法的优点是不仅对音乐评论本身进行分析，同时它还运用了与被评论对象相关的音乐短语，如音乐元数据、歌词等，来增强分析的准确性；同时，本发明方法还提供了一种有效合并两个分类器输出的方法，显著提高了预测的准确性。

Description

一种语义增强的音乐评论分类方法

技术领域

本发明涉及文本信息挖掘技术领域，特别是涉及一种语义增强的音乐评论分类方法。

背景技术

一则音乐评论(简称作乐评)指的是对于一则音乐对象进行的评论。这里的音乐对象可以是一场音乐会或音乐剧、一首乐曲的旋律或歌词、整张音乐专辑的安排、音乐艺术家的表演等与音乐相关的人或事物。

随着互联网的普及和快速发展，社交网络、博客、在线多媒体系统等互联网应用也随之快速发展。功能强大、操作便捷、高实时性的交互是这些网络应用共同具备的典型特性。作为一种重要的交互载体，评论成为这些应用的核心功能之一。在音乐社区、音乐在线商店中，对音乐对象的评论往往是不可或缺的组成部分。这些音乐评论往往包含了大量的有价值的信息。由于互联网中每时每刻都会产生大量的音乐评论，对这些乐评进行人工分类已经远远不能满足人们的需求。

因此，目前需要本领域技术人员迫切解决的一个技术问题就是：如何能够创新地提出一种能够对音乐评论的内容进行自动分类的工具，以实现对未知音乐评论的自动分类，满足实际应用的需求。

发明内容

本发明所要解决的技术问题是提供一种语义增强的音乐评论分类方法，用以完成对音乐评论的分类，有效满足实际应用的需求。

为了解决上述问题，本发明公开了一种语义增强的音乐评论分类方法，所述方法包括：

收集与被评论音乐对象相关的信息短语，将所收集的信息短语集合用作语义音乐字典；

将对音乐的评价分为专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论五类；

针对五类评价中的每一类分析预设条数的评价，将每条评价根据语义音乐字典按照最长匹配的原则分割成若干个短语，将每条评价分割后得到的所有短语组成的集合记作D；

复制集合D得到集合PR₁，使用tf-idf模型对每条评论生成一个向量，建立分类器f₁；

复制集合D得到集合PR₂，使用熵模型对每条评论生成另外一个向量，建立分类器f₂；

获取未分类的评论，按照集合PR₁提取基于tf-idf的向量，使用分类器f₁其进行分类，按照集合PR₂提取基于熵的向量，使用分类器f₂其进行分类；

合并分类器f₁和f₂的分类结果。

优选的，所述音乐对象相关的信息短语包括歌曲艺术家(歌手)、曲作家、词作家的姓名，专辑名和专辑中歌曲的名字，该音乐的歌词。

优选的，所述音乐相关的信息通过音乐爬虫在音乐网站中获取。

优选的，所述方法在建立分类器f₁时还包括：

优化集合PR₁。

优选的，所述方法在建立分类器f₂时还包括：

优化集合PR₂。

与现有技术相比，本发明具有以下优点：

本发明不仅对乐评内容本身进行分析，同时还运用了与被评论对象相关的音乐短语，如音乐元数据、歌词等，来增强分析的准确性使用两个不同的分类器进行预测，并提供了一种有效合并两个分类器输出的方法，显著提高了预测的准确性。

附图说明

图1是本发明实施例所述的一种语义增强的音乐评论分类方法流程图；

图2是本发明实施例所述的建立分类方法时的原理框图；

图3是本发明实施例所述的使用分类方法时的原理框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一：

参照图1，示出了本发明的一种语义增强的音乐评论分类方法流程图，所述方法具体包括：

步骤S101，收集与被评论音乐对象相关的信息短语，将所收集的信息短语集合用作语义音乐字典；

步骤S102，将对音乐的评价分为专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论五类；

步骤S103，针对五类评价中的每一类分析预设条数的评价，将每条评价根据语义音乐字典按照最长匹配的原则分割成若干个短语，将每条评价分割后得到的所有短语组成的集合记作D；

步骤S104，复制集合D得到集合PR₁，使用tf-idf模型对每条评论生成一个向量，建立分类器f₁；

步骤S105，复制集合D得到集合PR₂，使用熵模型对每条评论生成另外一个向量，建立分类器f₂；

需要说明的是，上述在尽力分类器的同时，相应的优化其所对应的集合PR₁以及PR₂。

步骤S106，获取未分类的评论，按照集合PR₁提取基于tf-idf的向量，使用分类器f₁其进行分类，按照集合PR₂提取基于熵的向量，使用分类器f₂其进行分类；

步骤S107，合并分类器f₁和f₂的分类结果。

以下通过实际中的具体应用，对本发明所述的方案做更为详尽的介绍，实际中将乐评自动划分为专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论五类。其原理框图如图2和图3所示，包括以下各步骤：

1、依次收集与被评论音乐对象相关的信息短语，具体的所述信息短语包括：歌曲艺术家(歌手)、曲作家、词作家的姓名，专辑名和专辑中歌曲的名字，该音乐的歌词，用户在网站上对该音乐对象添加的标签，通用的形容词短语。将这些短语的集合称作语义音乐字典；

在本实施例中，与被评价音乐对象相关的信息短语主要指歌曲的元数据，包括艺术家(歌手)、曲作家、词作家的姓名，专辑名和专辑中歌曲的名字，歌词等信息，可以通过音乐爬虫在很多音乐网站中获取。

2、选取n条乐评进行手工分类。将这n条乐评的集合记作{r_j|j＝1，2，...，n}；

在本实施例中，可以对每类手工分析200条乐评，即n＝1000。

3、将每条乐评根据步骤1中生成的语义音乐字典按照最长匹配的原则分割成若干个短语。如果乐评中包含了语义音乐字典中不存在的短语，则忽略这个短语。将这n条乐评分割后得到的所有的短语组成的集合记作D(如果集合中有重复短语，则只保留一份)；

在本实施例中，对乐评分词时采用最长匹配原则，例如：当乐评中含有“清华大学软件学院”，字典中含有“清华大学”、“清华”、“大学”、“软件”、“学院”时，该乐评的分词结果是{清华大学，软件，学院}。

4、复制D，得到它的一个副本，记作R。使用上述n条已分类的乐评建立第一个分类器，记作f₁，具体步骤如下：

4.1、引入一个临时变量R₀，其初始值为R，即R₀＝R。

在本实施例中，R₀是短语集合R的拷贝，R₀是一个临时变量。

4.2、使用tf-idf模型对这n条乐评中的每条乐评生成一个向量。首先，统计R₀中每个短语在每条乐评中出现的次数f_ji。然后，计算R₀中每个短语p_i在每条乐评r_j中的词频

接下来计算R₀中每个短语p_i的逆文本频率

其中n_i表示这n条乐评中包含短语p_i的乐评的总数。最后将词频和逆文本频率相乘w_ji＝tf_ji·idf_i，即可得到向量d_j＝(w_j1，w_j2，...，w_iq)^T，其中，i＝1，2，...，|R₀|，j＝1，2，...，n；

在本实施例中，生成向量的维度等于短语集合R₀的大小。

4.3、将步骤4.2中得到的n个向量随机分成数量相同的5组。使用其中的4组向量训练一个支撑向量机分类器，用另外1组测试该分类器的分类精度(分类正确的乐评数目除以总乐评数目)。这个过程重复5次，每次都用1组不同的向量作为测试向量，最后记录这5次精度的平均值，记作Pre；

在本实施例中，使用交叉验证的方法，即将这n个向量随机分成5组。第一次用第1～4组建立分类器，第5组测试分类器精度；第二次用第1、2、3、5组建立分类器，第4组测试分类器精度；第二次用第1、3、4、5组建立分类器，第3组测试分类器精度......以此类推，共进行五次，并将这5次测试的精度取平均值。其中，精度指分类器分类正确的数据的总数除以待分类数据的总数。

4.4、对R中每个短语p_i，令R₀＝R\{p_i}并执行步骤4.2～4.3得到一个精度的平均值，记作Pre_i，其中i＝1，2，...，|R|；

在本实施例中，将对步骤4.2～4.3重复|R|次，|R|为短语集合|R|的大小。其中，第i次执行步骤4.2～4.3时，令R₀＝R\{p_i}。

4.5、如果Pre≥max{Pre_i|i＝1，2，...，|R|}，将这时的短语集合R记作RP₁，将此时的分类器记作f₁，将分类器输出的混淆矩阵记作M₁，并转至步骤5；否则，得到q＝argmax_i{Pre_i|i＝1，2，...，|R|}，R＝R\{p_q}，转至步骤4.1；

在本实施例中，q的含义是，当取R＝R\{p_q}时分类器精度最高。混淆矩阵是一个N行N列的矩阵，N指类别总数，即N＝5。混淆矩阵M第i行第j列元素M_ij指实际类别为c_i并被分类器预测成c_j的乐评的总数。

5、令R＝D，使用已手工分类的n条乐评建立第二个分类器，记作f₂，具体步骤如下：

5.1、令临时变量R₀＝R；

5.2、使用熵模型对这n条乐评中的每条乐评生成另外一个向量。首先，将5个候选类别依次记作c₁，c₂，c₃，c₄，c₅并计算R₀中每个短语p_i在每个类别上的c_k熵其中n_ik表示这n条乐评中属于类别c_k并且包含短语p_i的乐评的数目，n_i表示这n条乐评中包含短语p_i的乐评的总数。然后，计算乐评r_j的类别c_k上的熵

其中E(r_j)[k]是向量E(r_j)的第k个元素。最后，归一化得到向量

其中k＝1，2，...，5，i＝1，2，...，|R₀|，j＝1，2，...，n；

在本实施例中，生成向量的维度等于类别的总数目，即生成向量为5维。c₁，c₂，c₃，c₄，c₅依次指专辑评论、艺术家评论、旋律评论、歌词评论和外部特征评论5类。

5.3、将步骤5.2中得到的n个向量随机分成数量相同的5组。使用其中的4组向量训练一个支撑向量机分类器，用另外1组测试该分类器的分类精度(分类正确的乐评数目除以总乐评数目)。这个过程重复5次，每次都用1组不同的向量作为测试向量，最后记录这5次精度的平均值，记作Pre；

在本实施例中，同样使用交叉验证的方法，即将这n个向量随机分成5组。第一次用第1～4组建立分类器，第5组测试分类器精度；第二次用第1、2、3、5组建立分类器，第4组测试分类器精度；第二次用第1、3、4、5组建立分类器，第3组测试分类器精度......以此类推，共进行五次，并将这5次测试的精度取平均值。其中，精度指分类器分类正确的数据的总数除以待分类数据的总数。

5.4、对R中每个短语p_i，令R₀＝R\{p_i}并执行步骤5.2～5.3得到一个精度的平均值，记作Pre_i，其中i＝1，2，...，|R|；

在本实施例中，将对步骤4.2～4.3重复|R|次，|R|为短语集合|R|的大小。其中，第i次执行步骤5.2～5.3时，令R₀＝R\{p_i}。

5.5、如果Pre≥max{Pre_i|i＝1，2，...，|R|}，将这时的短语集合R记作RP₂，将此时的分类器记作f₂，将分类器输出的混淆矩阵记作M₂，分类方法建立完毕；否则，得到q＝argmax_i{Pre_i|i＝1，2，...，|R|}，R＝R\{p_q}，转至步骤5.1；

在本实施例中，q的含义是，当取R＝R\{p_q}时分类器精度最高。

(二)使用分类方法

6、当输入一条未分类的乐评时，将该乐评记作r；

6.1、将乐评r根据短语集合PR₁分割成短语，使用步骤4.2中的方法由乐评r生成向量，并将该向量输入分类器f₁，得到分类结果c_f1；

在本实施例中，将乐评r按照PR₁进行分词，分词时采用最长匹配原则。

6.2、将乐评r根据短语集合PR₂分割成短语，使用步骤5.2中的方法由乐评r生成向量，并将该向量输入分类器f₂，得到分类结果c_f2；

在本实施例中，将乐评r按照PR₂进行分词，分词时采用最长匹配原则。

7、通过步骤4.5中记录的混淆矩阵M₁和步骤5.5中记录的混淆矩阵M₂合并步骤6中的两个分类结果c_f1和c_f2；

7.1、根据混淆矩阵M₁计算分类器f₁在每个类别上的散度。首先计算最大熵

和类别熵

分类器f₁在类别c_j上的散度Div_f(c_j)＝E(c_j)-E_f(c_j)。上式中N表示类别总数，即为N＝5；M_ij表示矩阵混淆矩阵M₁的第i行第j列元素的值；i，j＝1，2，...，5；

在本实施例中，熵是信息理论中的专有名词，在此步骤中只需按照公式计算即可。由于有5个类别，故共需要计算Div_f(c₁)，Div_f(c₂)，Div_f(c₃)，Div_f(c₄)，Div_f(c₅)的值。

7.2、根据混淆矩阵M₁计算分类器f₁在预测每个类别时条件概率。当分类器预测类别是c_i，真实类别c_j时的条件概率是

其中i，j＝1，2，...，5；

7.3、对分类器f₂，重复步骤7.1和7.2得到分类器f₂在在每个类别上的散度和在预测每个类别时的条件概率；

在本实施例中，针对分类器f₂重复步骤7.1和7.2即可。

8、对于未分类乐评r，计算它属于每个类别的得分，例如对于类别c_j，其得分为

j＝1，2，...，5。

在本实施例中，需计算每个类别的得分，共5个得分，分别是Score₁(r)，Score₂(r)，Score₃(r)，Score₄(r)，Score₅(r)。

9、选择得分最高的类别作为最终的预测结果。

在本实施例中，只需从Score₁(r)，Score₂(r)，Score₃(r)，Score₄(r)，Score₅(r)中找到最大值并将得分取最大值时j的值输出即可。

以上对本发明所提供的一种语义增强的音乐评论分类方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语义增强的音乐评论分类方法，其特征在于，所述方法包括：

合并分类器f₁和f₂的分类结果。

2.根据权利要求1所述的方法，其特征在于：

所述音乐对象相关的信息短语包括歌曲艺术家(歌手)、曲作家、词作家的姓名，专辑名和专辑中歌曲的名字，该音乐的歌词。

3.根据权利要求2所述的方法，其特征在于：

所述音乐相关的信息通过音乐爬虫在音乐网站中获取。

4.根据权利要求1所述的方法，其特征在于，所述方法在建立分类器f₁时还包括：

优化集合PR₁。

5.根据权利要求1所述的方法，其特征在于，所述方法在建立分类器f₂时还包括：

优化集合PR₂。