CN103365997B

CN103365997B - 一种基于集成学习的观点挖掘方法

Info

Publication number: CN103365997B
Application number: CN201310293788.5A
Authority: CN
Inventors: 林煜明; 王晓玲; 周傲英
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2013-07-12
Filing date: 2013-07-12
Publication date: 2016-12-28
Anticipated expiration: 2033-07-12
Also published as: CN103365997A

Abstract

本发明公开了一种基于集成学习的观点挖掘方法，根据训练的元分类器选择一组元分类器组，将元分类器组的预测结果整合为训练集成分类器的样本，从而得到集成分类器，通过集成分类器的集成学习，对样本进行预测。本发明选择最优的元分类器组对观点进行第一次预测，将预测结果训练集成分类器进行二次学习和预测，生成最终的观点挖掘结果，本发明分类结果的多样性互补，其分类效果优于最好的单分类器，增强了整个分类模型的泛化能力，从而进一步提高了观点挖掘的准确度。

Description

一种基于集成学习的观点挖掘方法

技术领域

本发明涉及数据库技术领域和信息检索技术领域，具体设计一种基于集成学习的观点挖掘方法。

背景技术

随着Web2.0技术的普及与发展，越来越多的用户在各种网络社交平台上发布内容，以此描述、分享和传播身边发生的事情。这富含用户观点的些用户生成内容(UserGenerated Content，UGC)逐渐在网络数据中占据主导的地位，自动识别用户的观点对很多的现实应用具有重要的价值，例如网络舆情分析与监控、商务/政务智能系统、推荐系统等。

观点挖掘也称观点分析、情感分类，其主要目标在于识别用户对目标对象所持的总体情感倾向。目前这一领域的技术主要集中在机器学习的方法，在词袋(bag-of-words)模型的基础上，由多种的特征表示(如unigram、bigram等)和学习方法(如最大熵分类、支持向量机等)通过训练得到的分类模型被用于识别用户的观点。然而，由于每个分类模型都有自身的针对性和局限性，没有一个分类模型能够在所有的分析领域中都达到最佳的效果，例如对于电影评论的观点识别，效果最佳的是支持向量机分类器，但对于电子产品而言，最大熵分类器达到的分类性能最优。甚至存在某个分类模型对于一个分析领域效果优越，但是在另一个分析领域的应用中却很差的情况。由此可见，对于普通用户而言，面对某一特定的领域时往往很难在众多的模型中做出一个最佳的选择。因此，需要设计一种有效的方法使用户在不需要具备特定领域知识的情况下，对于不同的分析领域都能够达到最佳的用户观点识别效果。

发明内容

本发明克服了现有技术中无法在所有分析领域中达到最优效果的缺陷，提出了一种基于集成学习的观点挖掘方法。

本发明提出了一种基于集成学习的观点挖掘方法，用于统筹分析每个分类器对不同分析领域进行预测时的不同预测结果，提升观点分析的效果，包括如下步骤：样本获取步骤，将已标注样本分为互不相交的大小不相等的第一集合T₁和第二集合T₂；元分类器训练步骤，在所述第一集合T₁上分别训练多个概念分类器，得到多个元分类器；元分类器选取步骤，根据所述元分类器的准确度与分类结果的多样性，选取一组元分类器作为元分类器组；样本预测步骤，利用所述元分类器组对所述第二集合T₂中的已标注样本进行预测，生成的预测结果与已标注样本的已有标签相整合，得到新的已标注样本；集成分类器训练步骤，使用所述新的已标注样本确定集成分类模型的参数，得到集成分类器；观点挖掘步骤，对于一个观点挖掘实例，通过所述元分类器组分别对所述观点挖掘实例进行预测，得到多个预测结果，将所述多个预测结果合并后作为所述集成分类器的输入，由所述集成分类器进行预测产生最终的观点挖掘结果。

本发明提出了一种基于集成学习的观点挖掘方法，其中，样本获取步骤中的所述已标注样本为根据特征类型与特征加权法经向量化处理的样本。

本发明提出了一种基于集成学习的观点挖掘方法，其中，所述第一集合T₁中的已标注样本数量大于所述第二集合T₂中的已标注样本数量，即|T₁|＞|T₂|。

本发明提出了一种基于集成学习的观点挖掘方法，其中，选取所述元分类器组的要求如下式表示：

\underset{| S | = k}{\max_{S &SubsetEqual; D}} Ψ (S),

Ψ (S) = λ \underset{C_{i} &Element; S}{Σ} A (C_{i}) + (1 - λ) \underset{C_{i}, C_{j} &Element; S}{Σ} (1 - κ (C_{i}, C_{j}));

式中，D表示元分类器的集合，Ci表示一个元分类器，A(Ci)表示元分类器Ci的准确度，dist(Ci，Cj)表示元分类器Ci和Cj间分类结果的差异度，κ(C_i，C_j)为元分类器C_i和C_j间分类结果的Fleiss Kappa值，λ为调整准确度与多样性的权重，λ为0到1间的实数。

本发明提出了一种基于集成学习的观点挖掘方法，其中，进一步包括：样本获取步骤中通过k折交叉验证方法生成多个不同的已标注样本。

本发明提出了一种基于集成学习的观点挖掘方法，其中，进一步包括：所述元分类器组中至少包括三个元分类器。

本发明提出了一种基于集成学习的观点挖掘方法，其中，所述元分类器选取步骤中，根据设定的特征类型、特征函数以及分类方法自动选择元分类器组进行观点预测。

本发明提出了一种基于集成学习的观点挖掘方法，其中，进一步包括：在所述元分类器选取步骤中，通过贪心方法选择元分类器作为所述元分类器组。

本发明观点挖掘方法具有优越的预测效果。只需要指定可选用的特征类型、特征加权方法和分类方法，本发明观点挖掘方法自动选择和集成一组优化的元分类器。本发明的预测效果优越于传统单分类器方法的效果，解决了用户面临的分类器难以选择的问题。

本发明观点挖掘方法在不同的分析领域中部能发挥优越的预测效果，不需要针对特定的分析领域对分类模型进行调整。

在元分类器的选择中，本发明通过2-近似的贪心方法，有效地解决了元分类器的组合爆炸问题，使本发明观点挖掘方法现实可用。

本发明观点挖掘方法中可添加不同的分类器，本发明观点挖掘方法可应用到其他的分类问题，例如传统文本分类、图像识别等。

本发明观点挖掘方法中，各元分类器的训练过程相互独立，各元分类器之间具有良好的并行性，在元分类器组的选择方法甚至可以采用map-reduce的模式进行，进一步提高了本发明观点挖掘方法的预测性能。

附图说明

图1是本发明基于集成学习的观点挖掘方法的流程图。

图2是本发明基于集成学习的观点挖掘方法的示意图。

图3是实施例中不同领域上的情感分类准确度比较的柱状图。

图4是实施例中使用ACS集成时分类器个数对分类准确度影响的示意图。

图5是实施例中使用投票集成时分类器个数对分类准确度影响的示意图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明的基于集成学习的观点挖掘方法，针对每个分类器对不同的分析领域预测时具有各自的特点和适用性，充分利用预测结果间的多样性进行相互补充，以进一步提升用户观点识别的效果。本发明的基于集成学习的观点挖掘方法能够有效地解决用户面对不同的分析领域时难以选择最优的分类模型，同时能够达到比传统单分类器方法更高的预测准确度。如图1与图2所示，本发明观点挖掘方法包括如下步骤：

S1，样本获取步骤，将已标注样本分为互不相交的大小不相等的第一集合T₁和第二集合T₂；

S2，元分类器训练步骤，在所述第一集合T₁上分别训练多个概念分类器，得到多个元分类器；

S3，元分类器选取步骤，根据所述元分类器的准确度与分类结果的多样性，选取一组元分类器作为元分类器组；

S4，样本预测步骤，利用所述元分类器组对所述第二集合T₂中的已标注样本进行预测，生成的预测结果与已标注样本的已有标签相整合，得到新的已标注样本；

S5，集成分类器训练步骤，使用所述新的已标注样本确定集成分类模型的参数，得到集成分类器；

S6，观点挖掘步骤，对于一个观点挖掘实例，通过所述元分类器组分别对所述观点挖掘实例进行预测，得到多个预测结果，将所述多个预测结果合并后作为所述集成分类器的输入，由所述集成分类器进行预测产生最终的观点挖掘结果。

本发明中，概念分类器不能直接用于观点分析，需要通过一些已标注样本进行训练，这些已标注样本称为训练集。概念分类器的训练即在训练集上通过计算确定分类模型的各种参数。经过训练后则可得到分类器实例，这些分类器实例可以用来识别用户的观点倾向。这种用于预测的观点的分类器称为元分类器，这些元分类器产生的结果在集成分类器的作用下整合得到最终的预测结果。

在S1样本获取步骤中的样本包括文本或图像等已标注样本。在分析观点前必须对样本进行常用的预处理。例如，对于英文的文本需要将所有单词小写化、词干化、否定词的处理等，中文的文本需要分词、词性标注等。再根据概念分类器的其中两个基本因素(特征类型和特征加权方法)将该文本向量化，结合样本的已有标签生成符合分类方法的待分析样本。具体地，在对于文本的分析过程中，本发明根据文本在指定的特征类型和特征加权方法的基础上采用词袋框架进行矩阵化。一个概念分类器的构成包括三个基本的因素：特征类型、特征加权方法和分类方法。特征是描述文本的基本单元，观点分析中常用的特征类型包括一元文法(unigram)和二元文法(bigram)等。在表示文本的矩阵中，一个分量表示一种特征在该文本中的值，这个值可用特征在文本中出现的频率(Term Frequency，TF)表示，也可以只描述该特征是否在文本中是否出现过，还可以通过其它观点分析中特有的加权方法来刻画，例如delta tfidf等。表1描述了5个文档采用unigram的特征和TF进行矩阵化后的结果，其中，矩阵中的每一行表示一个文档，每一列的值描述了该特征在每个文档中出现的频率，例如最左上角的“3”表示特征“opinion”在文档1中出现了3次。在文本矩阵化的基础上，通过特定分类方法可识别用户的观点类型，常用的分类方法包括朴素贝叶斯分类、最大熵分类和支持向量机等。

表1 文本矩阵化结果

本发明采用称为stacking的集成学习技术，该技术主要将元分类器的预测结果作为第二级分类器的训练样本。假设T为所有标注样本的集合，将T划分为大小不等的两个不相交子集：第一集合T₁和第二集合T₂，其中，第一集合T₁中所含已标注样本的数量大于第二集合T₂中所含已标注样本的数量，即|T₁|＞|T₂|。第一集合T₁作为训练集用于训练元分类器，为了能够尽可能提高元分类器的准确度，通常第一集合T₁占所有已标注样本T中的大部分。

本发明基于集成学习的观点挖掘方法的关键在于如何选择一组最优的元分类器。本发明中选取准确度高、差异性大的分类器，能够是集成模型具有更好的泛化能力。因为准确度高的元分类器能够保证基本的预测准确度，而利用分类器间的差异性则能进一步提高最终的预测效果。由于本发明在元分类器的预测结果基础上训练集成分类器，因此通过元分类器的预测结果的多样性来衡量分类器的差异性。具体实施过程中，预先设定特征类型、特征函数以及分类方法等信息，系统根据设定的特征类型、特征函数以及分类方法自动选择一组最优地元分类器作为元分类器组进行观点预测。

假设选取k个元分类器，经过训练后得到的分类器实体集合D＝{C_i|i＝1..N}，A(C_i)表示分类器C_i的准确度，dist(C_i，C_j)表示分类器C_i和C_j间分类结果的差异度，则选择的分类器集合S应该满足以下目标函数：

\underset{| S | = k}{\max_{S &SubsetEqual; D}} Ψ (S),

其中，

Ψ (S) = λ \underset{C_{i} &Element; S}{Σ} A (C_{i}) + (1 - λ) \underset{C_{i}, C_{j} &Element; S}{Σ} dist (C_{i}, C_{j});

本发明中采用Fleiss Kappa值度量分类结果的相似度，因此上式可变为：

Ψ (S) = λ \underset{C_{i} &Element; S}{Σ} A (C_{i}) + (1 - λ) \underset{C_{i}, C_{j} &Element; S}{Σ} (1 - κ (C_{i}, C_{j}));

(式1)

上式中，D表示元分类器的集合，Ci表示一个元分类器，A(Ci)表示元分类器Ci的准确度，dist(Ci，Cj)表示元分类器Ci和Cj间分类结果的差异度，κ(C_i，C_j)为元分类器C_i和C_j间分类结果的Fleiss Kappa值，λ为调整准确度与多样性的权重，λ为0到1间的实数。当λ为1时，则表示只选出k个准确度最高的元分类器。反之，当λ为0时表示选出k个分类结果最不一致的元分类器。实际上这两种极端的情况部不是最理想的。直观上，应该侧重准确度的同时结合分类器的多样性，例如λ设置为0.8。

对于上述目标函数的求解，当k增大时，组合的数量呈指数级增长。这种组合爆炸问题使得求最优解需要的时间急剧增长，造成方法在现实中不可使用的情况。本发明根据元分类器的准确度和分类结果的多样性采用贪心方法求取近似解，该贪心方法可证明是2-近似的。贪心方法如下方法1所示。具体地，贪心方法中，2是一个紧的上界，通常由该方法得到的近似解与最优解非常接近。此外，对于元分类器个数的选择，当元分类器个数超过3时，分类器个数对整个模型的分类准确度影响不大(＜1％)。这是因为当元分类器的个数越多，在考虑元分类器准确度的基础上，其预测结果在多样性提高的方面就越来越难以获取，因此即使增加更多的元分类器，也不会很大程度上提高分类的效果。另一方面，增加元分类器意味着需要训练更多的概念分类器，这会产生时间和计算资源方面的开销。本发明可根据具体的情况在预测准确度和开销之间选择平衡点。

进一步地，在训练集成分类器时，首先对于第二集合T₂中的每个已标注样本，每个元分类器都可产生一个预测结果，因此需要经过有效地整合为新的已标注样本，用来训练集成分类器。采用将步骤S1中划分出来的较小的第二集合T₂通过步骤S4选择出来的k个元分类器的每个元分类器对第二集合T₂中的每个样本进行测试，得到k个预测结果。将预测结果与其本身相对应的样本的真实标签形成一个新的已标注样本作为集成分类器的输入，用于集成分类器进行二次学习和预测。具体描述如方法2所示：

在实际的应用中，本发明采用最大熵分类方法作为集成分类的方法。因为T₂中样本较少，由此产生的训练样本也偏少。因此，为了提高集成分类器的泛化能力，本发明采用交叉验证的方式为集成分类器产生更多的训练样本。例如采用10折交叉验证产生训练样本时，首先将所有已标注样本划分成大小相等且不相交的10部份，其中9份已标注样本作为第一集合T₁，剩余1份作为第二集合T₂，按照方法2中的步骤4～6生成新的训练集，然后将第二集合T₂与第一集合T₁中的一份进行交换，重复上面的过程，直到每份样本部被预测一次。

为了验证本发明提出基于集成学习的观点识别方法的有效性，本实施例中将Amazon上的评论作为观点分析的对象，包括四类商品：书籍(B)、厨房用具(K)、电子产品(E)、DVD(D)。将四和五星的评论作为肯定的评论，一和二星的评论作为否定的评论，由此可得到关于每类商品的肯定和否定评论各1000个。通过5折交叉验证的方法进行二次学习时的训练样本生成和观点分析实验。

本实施例中采用多分类器集成学习来解决用户难以选择分类器进行观点挖掘的问题。首先使用文中提出的CSGA贪心方法(Classifier Selection Greedy Algorithm)选择一组元分类器，将这组元分类器的预测结果通过方法ACS(Assembling Classifiers byStacking)整合为最后的观点挖掘结果。投票的方式是最常用的多分类器集成方法，因此将其与方法ACS进行比较，以此来验证方法ACS的有效性。另一方面，为了验证本发明观点挖掘方法在不同的分析领域中都能发挥好的效果，我们针对上面提到的多个不同领域的评论进行实验。

图3显示的是在不同的领域中情感分类准确度的比较，图3中，avg_single表示24个分类器的平均预测准确度；best_single表示最好的单分类器观点挖掘结果；random_ACS表示随机选择一组元分类器后使用ACS方法集成；CSGA_voting表示使用CSGA方法选择优化的元分类器组后通过投票的方式进行集成；CSGA_ACS表示本发明使用CSGA方法选择优化的元分类器组后通过ACS集成分类得到的观点挖掘结果。如图3所示，采用多个分类器集成的方法比单分类器方法对于所有领域在分类准确度上都有较大的提高，但是由于对于不同的分析领域，效果最好的单分类器往往不是固定的，通常较难选取分类效果最好的分类器，而本发明提出采用多分类器集成方法的效果在不同的分析领域均优于最好的单分类器方法。对于使用ACS方法集成的两种途径，通过随机选择元分类器组的方法得到的观点挖掘结果的准确度低于使用CSGA方法选择元分类器组的方法，以证明本发明中通过CSGA方法能够选出更好的元分类器组。此外，对于CSGA方法选择的元分类器组，在大多数情况下通过ACS方法集成优于通过投票方式集成，除了在各别(例如，厨房用具)领域，两种集成方法的效果基本一致。以上结果可能由于对于此领域中的数据单分类器的性能部比较高，元分类器的分类结果间差异性不大，因此两者的效果基本一致。但对于单分类器性能不是很高的领域，例如书籍和DVD的评论，通过ACS方法集成的准确度比投票的准确度有较大的提升。

本发明中元分类器的数量对于分类准确度也会产生影响。使用ACS方法进行多分类器的集成时分类器数量对最终分类准确度的影响如图4所示。在所有的领域中，选择的分类器数量从3增加到7时并未使分类效果发生大的变化(变化范围在1％内)。其中，5个选择的分类器即可达到理想的效果。这是因为元分类器数量的增多使分类器间的差异性会越来越难以获取，因此分类的效果也不会发生大的变化。当采用投票的方式进行集成时，由图5可以看出不同的分类器数量对最后预测的准确度影响较大(在所有领域中变化范围均大于1％)。从这个角度看，使用ACS方法进行集成要优越于使用投票的方式进行集成。衡量近似方法的一个最重要的指标就是近似率(最优值/近似值)。根据目标函数(式1)计算出24个分类器中所有5个分类器组的值，选择其中的最大值作为最优值。表2显示了四个领域中采用不同λ值时CSGA方法选出的成员分类器组对应近似值的近似率。表2中的实验结果表明，在本文的观点分析实验中CSGA方法选择的成员分类器组对应的目标函数值非常接近最优值，进一步说明了文中提出的贪心方法的有效性。

表2 采用不同λ值时CSGA方法的近似率

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于集成学习的观点挖掘方法，用于统筹分析每个分类器对不同分析领域进行预测时的不同预测结果，提升观点分析的效果，其特征在于，包括如下步骤：

样本获取步骤，将已标注样本分为互不相交的大小不相等的第一集合T₁和第二集合T₂；

元分类器训练步骤，在所述第一集合T₁上分别训练多个概念分类器，得到多个元分类器；

元分类器选取步骤，根据所述元分类器的准确度与分类结果的多样性，选取一组元分类器作为元分类器组；

样本预测步骤，利用所述元分类器组对所述第二集合T₂中的已标注样本进行预测，生成的预测结果与已标注样本的已有标签相整合，得到新的已标注样本；

集成分类器训练步骤，使用所述新的已标注样本确定集成分类模型的参数，得到集成分类器；

观点挖掘步骤，对于一个观点挖掘实例，通过所述元分类器组对所述观点挖掘实例进行预测，得到多个预测结果，将所述多个预测结果合并后作为所述集成分类器的输入，由所述集成分类器进行预测产生最终的观点挖掘结果；

选取所述元分类器组的要求如下式表示：

\underset{| S | = k}{\underset{S &SubsetEqual; D}{m a x}} ψ (S), ψ (S) = λ \underset{C_{i} &Element; S}{Σ} A (C_{i}) + (1 - λ) \underset{C_{i}, C_{j} &Element; S}{Σ} (1 - κ (C_{i}, C_{j}));

式中，D表示元分类器的集合，C_i表示一个元分类器，A(C_i)表示元分类器C_i的准确度，κ(C_i,C_j)为元分类器C_i和C_j间分类结果的Fleiss Kappa值，λ为调整准确度与多样性的权重，λ为0到1间的实数；

样本获取步骤中的所述已标注样本为根据特征类型与特征加权法经向量化处理的样本。

2.如权利要求1所述的基于集成学习的观点挖掘方法，其特征在于，所述第一集合T₁中的已标注样本数量大于所述第二集合T₂中的已标注样本数量。

3.如权利要求1所述的基于集成学习的观点挖掘方法，其特征在于，进一步包括：样本获取步骤中通过k折交叉验证方法生成多个不同的已标注样本。

4.如权利要求1所述的基于集成学习的观点挖掘方法，其特征在于，进一步包括：所述元分类器组中至少包括三个元分类器。

5.如权利要求1所述的基于集成学习的观点挖掘方法，其特征在于，所述元分类器选取步骤中，根据设定的特征类型、特征函数以及分类方法自动选择元分类器组进行观点预测。

6.如权利要求1所述的基于集成学习的观点挖掘方法，其特征在于，进一步包括：在所述元分类器选取步骤中，通过贪心方法选择元分类器作为所述元分类器组。