CN102789498B

CN102789498B - 基于集成学习的中文评论文本的情感分类方法与系统

Info

Publication number: CN102789498B
Application number: CN201210245263.XA
Authority: CN
Inventors: 钱钢; 王海; 沈玲玲; 乔爱萍
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-07-16
Filing date: 2012-07-16
Publication date: 2014-08-06
Anticipated expiration: 2032-07-16
Also published as: CN102789498A

Abstract

本发明涉及模式识别领域，公开了一种基于集成学习的中文评论文本的情感分类方法和基于该方法的系统。包括：a)从网页中获取中文评论文本，并进行预处理，b)并行地序列训练多分类器系统，c)用基分类器对待分类的评论文本分类，将分类输出转化为直觉模糊数，d)结合基分类器的权重和引导变量，融合待分类的评论文本的情感倾向，并做出分类决策。本发明具有以下优点：训练和分类速度极快；采取序列学习策略，便于发现新兴词汇，降低对语料库的要求；通过集成学习来提高分类准确率，因而基于该方法的系统能更好地支持管理或购买决策。

Description

基于集成学习的中文评论文本的情感分类方法与系统

技术领域

本发明是针对评论文本的情感分类方法的研究，涉及模式识别领域，特别是涉及一种基于集成学习的中文评论文本的情感分类方法与基于该方法的系统。

背景技术

互联网的普及以及多种新型网络媒体的出现不仅给人们带来了海量的信息，同时也给人们提供了各种表达自己情感的舞台，比如BLOG，BBS，新闻评论等在线评论平台。于是如何科学高效的管理这些包含个人情感色彩的网络的在线评论对个人、企业、社会安全都尤为重要。然而，这些评论文本相比普通文本有明显的不同：一是评论文本没有固定的语法结构，长度短，甚至随着时间的推移不断地出现新词汇，也称之为新型文本；二是对其管理的首要任务是了解网民对评论主体的情感态度，比如酒店经理最关心的是顾客对酒店的服务满意与否。

现有的评论文本的情感分类方法可以分为两类。一类是借鉴传统文本分类的方法，利用特征表示文本，利用机器学习的方法预测情感倾向。但由于没有考虑特征之间的关系，分类性能不够好。另一类方法分别累计文本中的积极（Pos）情感和消极（Neg）情感，从而判断文本的整体情感倾向。这类方法更适合情感分类问题。其中两个关键问题是情感特征之间的关系的描述和所表达情感的累加方式。现有技术表明：定量描述特征的模糊性可以提高分类效果。然而，现有方法均只利用特征对文本属于某类别的支持程度，直接忽视特征对文本不属于某类别的支持程度，没有充分利用从语料库中提取的信息。

在具体的情感分类技术中，主要需要解决的问题有两个：特征选择与分类算法。这两个问题都是相对于传统的文本分类而言的。特征选择方法有n-gram(unigram,bigram,trigram)、词性、语义树等，但这些方法孰优孰劣尚在争论之中。分类算法的研究已经从传统的机器学习算法转向基于总体情感倾向合成的方法，即先确定每个特征的情感倾向，然后集结文本中的所有特征的情感倾向，得到文本的情感倾向，而这种方法都可以用一定形式的集结算子来表示。名称为“Ensemble of feature sets and classification algorithms for sentiment classification”，作者为Rui Xia，Chengqing Zong，Shoushan Li发表于《Information Science》的文献（一下称为文献1）首次提出了利用分类器集成的方法来提高分类器集成的效果。然而，现有的研究在以下方面有待改进：

(1)文献1提出的基于集成学习的解决方案中基分类器的类型为NaiveBayes分类器、最大熵分类器和支持向量机。当基分类器数量较大时，这些传统的分类器将给系统带来很大的时间和空间的开销。这在很大程度上限制了该技术的应用范围。

(2)集成学习虽然能很好的改善单分类器的不稳定性，但传统的集成学习方法只简单的考虑分类器对样本属于类别的支持程度，忽视了分类器输出同时还包含着样本不属于类别的程度，没有定量地考虑分类器输出的模糊的或概率的不确定性。这就导致了集成分类方法有时并没有很大程度地改善分类性能。

(3)现有技术中的分类器训练过程均为一次性完成的，这就要求在系统开始运行时就准备好一个足够充分的训练语料库。然而语料库的准备是很困难的。更重要的是，一次性训练好的分类器无法捕捉一些新兴词汇在表达情感时的作用。

发明内容

为了解决上述问题，提高中文评论文本的情感倾向的辨识率，为企业管理者以及潜在客户提供更有效的决策支持，本发明公开了一种基于集成学习的中文评论文本的情感分类方法及基于该方法的系统，该方法主要通过序列学习来训练多个基分类器，再通过直觉模糊集结算子集成多个基分类器的分类结果，进而预测评论文本的情感倾向。

为了实现上述发明目的，本发明采用的技术方案如下：

基于集成学习的中文评论文本的情感分类方法，包括以下步骤：

步骤101：从网页中获取中文评论文本，并进行预处理；

步骤102：并行地序列训练多分类器系统；

步骤103：用基分类器对待分类的中文评论文本分类，将分类输出转化为直觉模糊矩阵；

步骤104：结合基分类器的权重和引导变量，融合待分类的中文评论文本的情感倾向，并作出分类决策。

本发明还提供了一种基于上述情感分类方法的系统，包括初始化模块M1、基分类器训练模块M2和分类模块M3，其中初始化模块M1、基分类器训练模块M2和分类模块M3依次串行连接，同时初始化模块M1和分类模块M3串行连接。

a)初始化模块M1：从网页中获取评论文本，并初始化。包含评论获取单元U11、文本向量初始化单元U12；

b)基分类器训练模块M2：按训练语料准备就绪的时间顺序，并行地序列训练多个ELM（Extreme Learning Machine）分类器，并计算相关参数值。包含基分类器训练单元U21、权重、引导变量获取单元U22；

c)分类模块M3：用基分类器训练单元U22中训练的分类器模型对待分类样本分类，其输出汇总为分类器输出矩阵，将基分类器输出矩阵转换为直觉模糊矩阵，结合分类器权重和引导变量融合直觉模糊信息并做出分类决策。包含基分类器调用单元U31、输出转换单元U32、基分类器融合单元U33和分类决策单元U34；

相比本领域的现有技术，本发明的适用于中文评论文本的情感分类方法具有以下优点：

(1)本发明采用的基分类器为ELM分类器，比文献1的基分类器具有更好的辨识率和稳定性，而且训练速度极其迅速，能够满足对时间敏感的网络应用的需求。

(2)本发明技术在融合多分类器的输出时采用直觉模糊集的引导型加权融合方法，该方法同时考虑了待分类样本属于某类别的隶属度和非隶属度，量化了分类器的不确定性，并融入分类器的融合过程中，降低了系统的不确定性，提高集成学习的效率。

(3)本发明采用序列学习策略，一方面降低了对语料库的初始准备的要求，另一方面通过及时补充新的训练语料来捕获新兴词汇对表达情感倾向的影响。

附图说明

图1是本发明基于集成学习的中文评论文本的情感分类方法的流程图。

图2是本发明分类方法中多分类器系统训练的流程图。

图3是本发明分类方法中分类器输出转换与融合的流程图。

图4是本发明实施例在第一个语料库上的测试结果图。

图5是本发明实施例在第二个语料库上的测试结果图。

图6是本发明实施例在第三个语料库上的测试结果图。

图7是实现本发明分类方法的模块的结构图。

具体实施方式

以下结合附图和具体实施例对本发明作具体说明。

本发明的基于集成学习的中文评论文本的情感分类方法如图1所示，包括以下步骤：

步骤101：从网络中获取中文评论文本，并进行预处理；

步骤102：并行地序列训练多分类器系统；

步骤103：用基分类器对待分类的中文评论文本分类，将分类输出转化为直觉模糊数；

步骤104：结合基分类器的权重和引导变量，融合待分类的中文评论文本的情感倾向，并做出分类决策。

以下进一步详细的说明本发明中的各个细节问题。

评论文本的情感分类是将文本按其表达的情感倾向分为若干类别。分类的粒度根据实际应用需要大小不一，可以粗略的分为2类（褒义（POS类）、贬义（NEG类）），也可以分为3类（褒义（POS类）、贬义（NEG类）和中性（NEUTRAL类）），还可以更详细地分为5类（将POS类和NEG类分别按其程度各分为2类）。本发明对情感类别的粒度不做具体的限制，根据集体的应用环境的需要进行设置。同时本发明技术可以适用于任何粒度级别的类别。设将样本记为(x;y)或x，其中x是一个向量，包含样本所有特征的取值，y为类标号。记类别总数为C，若C＝3，则当x属于POS类，y＝1；当x属于NEG类，y＝-1，当x属于NEUTRAL类，y＝0。

1、评论文本获取与预处理

网民将自己关于产品或服务的主观感受以文字的形式发表在网页上。由于网页都是格式化的，从中将每一篇评论截取下来保存为一篇文本。选取同一种（或同一类）评论对象，如酒店评论，的所有评论文本经人工标注后形成训练语料库。

不论是语料库中的已标注的评论文本，还是新的待分类的评论文本，都需要进行预处理，其任务是将评论文本转化为一个向量x。首先利用bi-gram方法获得特征，并利用基于Fisher判别的特征约简算法从中提取N_FEATURE个特征，然后利用Binary-based方法获得评论文本对应的向量的每个特征的值。对于已标注评论文本，类标号y已知；对于待分类评论文本，类标号y未知。

2、多分类器系统训练

本发明区采用集成学习的策略提高分类精度，同时通过序列学习策略来训练多个ELM分类器，如图2所示，包含如下步骤：

步骤201：初始训练阶段。只有少量的初始训练样本准备就绪，其中N₀≥L，L为ELM分类器的隐层节点数，Q为系统中的ELM分类器的数量。对每个ELM分类器，记为ELM_q（q＝1,2,…,Q），执行：

（a）随机生成参数和 i＝1,2,…,L；

（b）计算隐层输出矩阵

其中，G为激励函数，对于加性节点，取Sigmoid函数；对于RBF型节点，取Gaussian函数。

（c）计算输出权重

β_{(0)}^{(q)} = P_{0}^{(q)} {(H_{0}^{(q)})}^{T} T_{0},

其中

P_{0}^{(q)} = {({(H_{0}^{(q)})}^{T} H_{0}^{(q)})}^{- 1};

t为C维行向量，当样本属于某一类，t对应的分量为1，其它分量均为0。

（d）k＝0。

步骤202：序列学习阶段。当第k+1组新的训练样本准备就绪，其中N_k+1为该组样本总数，对每个ELM分类器，执行：

（e）计算隐层输出矩阵

（f）计算机输出权重

P_{k + 1}^{(q)} = P_{k}^{(q)} - P_{k}^{(q)} {(H_{k + 1}^{(q)})}^{T} {(I + H_{k +}^{(q)} P_{k}^{(q)} {(H_{k + 1}^{(q)})}^{T})}^{- 1} H_{k + 1}^{(q)} P_{k}^{(q)}

β_{(k + 1)}^{(q)} = β_{(k)}^{(q)} + P_{k + 1}^{(q)} {(H_{k + 1}^{(q)})}^{T} (T_{k + 1} - H_{k + 1}^{(q)} β_{(k)}^{(q)})

其中，

T_{k + 1} = {[t_{Σ_{j = 0}^{k} N_{j} + 1}, . . ., t_{Σ_{j = 0}^{k + 1} N_{j}}]}_{N_{k + 1} \times m}^{T} .

（g）k＝k+1，转入步骤（e）。

步骤203：获取输出权重的范数||β^(q)||，其中q＝1,2,…,Q。

其中Q个ELM分类器的训练可以并行执行，以提高训练速度。

3、分类决策

当包含有多个ELM分类器的多分类器系统训练好之后，就可以用来对经过预处理后的待分类的评论文本进行分类了。与现有的集成学习方法不一样，本发明将基分类器的输出转换为直觉模糊数，基分类器的输出首先按输出权重的范数升序排列，再对其加权，利用直觉模糊集结算子融合基分类器的输出信息，如图3所示，包含如下步骤：

步骤301：将待分类评论文本(x;y)输入到Q个基分类器，输出汇总成矩阵：

(\begin{matrix} y_{1,1} & . . . & y_{1, c} & . . . & y_{1, C} \\ . & . & . \\ . & . & . \\ . & . & . \\ y_{q, 1} & . . . & y_{q, c} & . . . & q_{q, C} \\ . & . & . \\ . & . & . \\ . & . & . \\ y_{Q, 1} & . . . & y_{Q, c} & . . . & y_{Q, C} \end{matrix})

其中(y_q,1，…,y_q,c，…,y_q,C)为第q（q＝1,2,…,Q）个基分类器的输出，分别代表了待分类评论属于C个类别的程度；

步骤302：将Q个基分类器的输出的每一项转化为对应的直觉模糊数：

(\begin{matrix} (μ_{1,1}, v_{1,1}) & . . . & (μ_{1, c}, v_{1, c}) & . . . & (μ_{1, C}, v_{1, C}) \\ . & . & . \\ . & . & . \\ . & . & . \\ (μ_{q, 1}, v_{q, 1}) & . . . & (μ_{q, c}, v_{q, c}) & . . . & (μ_{q, C}, v_{q, C}) \\ . & . & . \\ . & . & . \\ . & . & . \\ (μ_{Q, 1}, v_{Q, 1}) & . . . & (μ_{Q, 1}, v_{Q, 1}) & . . . & (μ_{Q, C}, v_{Q, C}) \end{matrix})

其中，μ_q,c＝(y_q,c-MIN)/(MAX-MIN)，v_q,c＝(MAX-y_q,c)/(MAX-MIN)，q＝1,2,…,Q，c＝1,…,C，MAX和MIN分别为ELM分类器的最大和最小输出数值。事实上，μ_q,c和v_q,c分别代表了待分类评论文本属于以及不属于类别的程度；

步骤303：计算待分类评论文本属于以及不属于各类别的程度：

(μ_{c}, v_{c}) = (1 - Π_{q = 1}^{Q} {(1 - μ_{σ (q), c})}^{w_{c}}, Π_{q = 1}^{Q} {(v_{σ (q), c})}^{w_{c}}), c = 1, . . ., C

其中，μ_σ(q),c和v_σ(q),c分别是三元组＜||β^(q)||,μ_q,c,v_q,c＞中第q小的||β^(q)||对应的μ_q,c，μ_q,c，w＝(w₁,w₂,…,w_n)^T是权重向量，w_j∈[0,1]且

步骤304：分类。C个步骤503获得的直觉模糊数的最大值就对应待分类评论文本的类别，即：

c^{*} = \underset{c = 1, . . ., C}{\arg \max} {(μ_{c}, v_{c})} .

其中，步骤301中调用基分类器对待分类评论文本分类的过程可以并行执行。步骤303融合了步骤302中得到的直觉模糊数，该公式依据直觉模糊数的引导型有序加权平均算子得到，权重w是一个逐项不增的向量，表示各个基分类器之间的相对重要性。步骤304中的直觉模糊数的大小比较为现有技术。所以，这一过程通过输出向量的范数来区分ELM分类器的优劣，再对性能较好的基分类器赋予较高的权重，从而定量考虑了每个基分类器的不确定性，提高了分类性能。

4、实用性验证

从网络上选择公开的已标注的评论文本进行实用性测试。需要说明的是，本实施例中初始化的参数值、以及用到的基分类器的分类算法仅为说明本发明技术有效性、实用性的目的，而不是对本发明的限制。本实施例中测试的语料库信息如下表1所示。实验中，取类别数C＝2，特征数N_FEATURE值见表1，ELM分类器采用加性节点，且函数G：y＝1(1+e^-x)，输入权重和偏差均在[-1,1]范围内随机产生，隐层节点数L＝200，初始化阶段的训练文本数N₀＝L+100。实验均在CPU2.93GHz、3GB RAM的PC机得Matlab7.7.0上完成。

表1本发明实施例中测试的数据库基本信息

表2显示了本发明采用的ELM分类器在情感分类问题中的时间消耗比其他两种现有技术（SVM和NB）要少的多，并且在时间和准确率上相比其他两种方法要稳定得多，在多数情况下准确率高于其他两种方法。在表2中，性能的评价与比较通过以下准则来度量：训练和测试时间及其方差（SD）、训练和测试准确率及其方差。每个实验单元均由50次重复实验完成，并计算平均值和方差。

表2本发明实施例中测试的ELM,SVM和NB的性能对照表

本发明实施例同时还测试了本发明的集成学习方法相对于其他现有集成学习方法的优越性。评价指标为分类准确率。测试结果分别见图4、图5和图6。其中，BIC表示选择性能最好的单个基分类器用于分类；WA表示利用基分类器的准确率对基分类器输出作加权平均；本发明方法1表示权重向量w取w＝(1Q,1/Q,…,1Q)^T；本发明方法2表示权重向量w的前一半分量为2/Q，后一半分量均为0。

本发明还提供了一种基于上述情感分类方法的系统，包含初始化模块M1、基分类器训练模块M2和分类模块M3，如图7所示，其中初始化模块M1、基分类器训练模块M2和分类模块M3依次串行连接，同时初始化模块M1和分类模块M3串行连接。

初始化模块M1：从网页中获取评论文本，并初始化。其中包括：

评论获取单元U11：用于从格式化的网页中自动获取特点领域的评论内容并保存为独立的文本；

文本向量初始化单元U12：利用特征抽取及表示方法将评论文本转化为向量形式。

其中评论获取单元U11，文本向量初始化单元U12依次串行连接。

基分类器训练模块M2：按训练语料准备就绪的时间顺序，并行地序列训练多个ELM分类器，并计算相关参数值。其中包括：

基分类器训练单元U21：序列地训练一个包含多个ELM分类器的多分类器系统；

权重、引导变量获取单元U22：计算每个基分类器的输出向量的范数作为引导变量值，并确定权重向量的值。

其中基分类器训练单元U21，权重、引导变量获取单元U22依次串行连接。

分类模块M3：用基分类器训练单元U22中训练的分类器模型对待分类样本分类，其输出汇总为分类器输出矩阵，将基分类器输出矩阵转换为直觉模糊矩阵，结合分类器权重和引导变量融合直觉模糊信息并做出分类决策。其中包括：

基分类器调用单元U31：调用M2中训练的基分类器对经过初始化的待分类评论文本，汇总各个基分类器的输出；

输出转换单元U32：将基分类器的输出的每一项转化为对应的直觉模糊数；

基分类器融合单元U33：结合基分类器的引导变量与权重，融合待分类评论文本属于以及不属于各类别的程度；

分类决策单元U34：比较U33的融合结果的大小，并做出分类决策。

其中基分类器调用单元U31，输出转换单元U32，基分类器融合单元U33，和分类决策单元U34依次串行连接。

上述的基于本发明情感分类方法的系统具有明显的效益，可以应用在：(1)可以集成在企业管理者的决策支持系统上，通过自动分析顾客对产品或服务的情感态度对企业的品牌建设等战略决策提供科学的决策支持。(2)通过实施例的测试表明，本发明集成学习系统的基分类器具有极快的训练和分类速度，能用于在线系统等对时间要求很高的场合。

Claims

1.基于集成学习的中文评论文本的情感分类方法，其特征在于，所述方法包括：

步骤101：从网页中获取中文评论文本，并进行预处理；

步骤102：并行地序列训练多分类器系统；

步骤104：结合基分类器的权重和引导变量，融合待分类的中文评论文本的情感倾向，并做出分类决策；

所述步骤102包括如下步骤：

步骤201：只有少量的初始训练样本准备就绪，其中N₀≥L，L为ELM分类器的隐层节点数，Q为系统中的ELM分类器的数量，对每个ELM分类器，记为ELM_q（q＝1,2,…,Q），执行：

（a）随机生成参数和i＝1,2,…,L；

（b）计算隐层输出矩阵

其中，G为激励函数，对于加性节点，取Sigmoid函数；对于RBF型节点，取Gaussian函数；

（c）计算输出权重,其中T₀＝[t₁,…,t_N0]^T，t为C维行向量，当样本属于某一类，t对应的分量为1，其它分量均为0，C为类别总数；

（d）k＝0；

步骤202：当第k+1组新的训练样本准备就绪，其中N_k+1为该组样本总数，对每个ELM分类器，执行：

（e）计算隐层输出矩阵

（f）计算机输出权重

其中，

（g）k＝k+1，转入步骤（e）；

步骤203：获取输出权重的范数||β^(q)||，其中q＝1,2,…,Q；

其中Q个ELM分类器的训练可以并行执行，以提高训练速度。

2.如权利要求1所述的基于集成学习的中文评论文本的情感分类方法，其特征在于，所述步骤101包括：从格式化的网页中截取评论内容保存为文本，利用bi-gram方法获得分类特征，并利用基于Fisher判别的特征约简算法从中提取N_FEATURE个特征，然后利用Binary-based方法获得评论文本对应的向量的每个特征的值。

3.如权利要求1所述的基于集成学习的中文评论文本的情感分类方法，其特征在于，所述步骤103和步骤104包含如下步骤：

其中(y_q,1,…,y_q,c,…,y_q,C)为第q（q＝1,2,…,Q）个基分类器的输出，分别代表了待分类评论属于C个类别的程度；

其中，μ_q,c＝(y_q,c-MIN)(MAX-MIN)，v_q,c＝(MAX-y_q,c)(MAX-MIN)，q＝1,2,…,Q，c＝1,…,C，MAX和MIN分别为ELM分类器的最大和最小输出数值，事实上，μ_q,c和v_q,c分别代表了待分类评论文本属于以及不属于类别的程度；

其中，μ_σ(q),c和v_σ(q),c分别是三元组＜||β^(q)|||μ_q,c,v_q,c＞中第q小的||β^(q)||对应的μ_q,c，μ_q,c，w＝(w₁,w₂,…,w_n)^T是权重向量，w_j∈[0,1]且

步骤304：分类：C个步骤503获得的直觉模糊数的最大值就对应待分类评论文本的类别，即：

4.一种基于如权利要求1所述的情感分类方法的系统，其特征在于，所述系统包括初始化模块M1、基分类器训练模块M2和分类模块M3，其中初始化模块M1、基分类器训练模块M2和分类模块M3依次串行连接，同时初始化模块M1和分类模块M3串行连接。

5.如权利要求4所述的系统，其特征在于，所述初始化模块M1包括：

文本向量初始化单元U12：利用特征抽取及表示方法将评论文本转化为向量形式；

6.如权利要求4所述的系统，其特征在于，所述基分类器训练模块M2包括：

权重、引导变量获取单元U22：计算每个基分类器的输出向量的范数作为引导变量值，并确定权重向量的值；

7.如权利要求4所述的系统，其特征在于，所述分类模块M3包括：

分类决策单元U34：比较U33的融合结果的大小，并做出分类决策；