CN109471942B

CN109471942B - 基于证据推理规则的中文评论情感分类方法及装置

Info

Publication number: CN109471942B
Application number: CN201811317738.5A
Authority: CN
Inventors: 周谧; 贺洋; 刘心报; 裴军; 骆焜亮
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2021-09-07
Anticipated expiration: 2038-11-07
Also published as: CN109471942A

Abstract

本发明提供了一种基于证据推理规则的中文评论情感分类方法及装置。所述方法包括：对获取的中文评论文本进行预处理；提取预处理后的中文评论文本的特征，得到向量化表示的中文评论文本；将所述中文评论文本划分为训练数据和测试数据，并利用所述中文评论文本训练预先设置的多个基分类器；利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测，得到每个基分类器的权重；基于所述每个基分类器的权重以及可靠度，利用证据推理规则融合各基分类器的输出概率，得到中文评论文本的情感分类结果。这样，本发明使用证据推理规则来融合不同基分类器的输出结果，并考虑到不同分类器的权重值和可靠度，最终融合结果更加可靠准确。

Description

基于证据推理规则的中文评论情感分类方法及装置

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种基于证据推理规则的中文评论情感分类方法及装置。

背景技术

中文文本情感极性判断问题是一类典型的二分类问题，涉及多个领域，如自然语言处理、人工智能、文本挖掘等。针对某一特定行业的评论文本语料，对其进行情感极性判断主要是利用计算机技术检测和提取文本文档中用户的主观信息、观点和情绪，从而挖掘出用户的情感倾向。

目前，现有流行的情感分析方法的构思为：将文本情感分析问题转化为分类问题，通过文本预处理、情感特征提取和特征权重计算等步骤，将文本向量化表示，从而利用机器学习算法来对文本做出情感预测。

在情感特征选择方面，以往的研究主要通过选取或改进不同的特征提取方法来获得更好的分类效果。在分类算法选取上，现有文献采用投票算法集成朴素贝叶斯、支持向量机和Bagging三种分类算法，有效提高了文本情感分类的准确率。还有文献通过对比多种特征提取方法，使用证据理论集成多个分类器对中文微博观点句进行识别，实验表明该方法具有不错的准确率。

然而，在使用传统TFIDF方法计算中文文本情感特征权重时，没有考虑到特征词在不同类别间的分布情况，很容易赋予高权重给那些在类别间分布均匀对类别区分不强的特征词。因此，不准确的特征权重值会影响最终的文本情感分类效果。以及，在用集成算法解决中文文本情感分类问题时，如果采用投票法、Boosting等算法集成多个分类器进行文本情感分类，虽然能很好的改善单分类器的不稳定性，但这些方法只是简单的考虑了分类器对样本属于类别的支持程度，忽略了分类器输出结果中同时还包含着样本不属于该类别的概率，没有充分利用分类器的输出信息，导致这些集成分类方法有时并没有明显改善分类结果。

另外，若使用证据理论集成多个分类器进行文本情感分类，此方法虽考虑到分类器输出概率的不确定性，但没有对各分类器的权重和可靠度予以考虑，容易在融合高冲突的分类器输出结果时出现反常识的结果，导致分类效果不佳。

发明内容

针对现有技术中的缺陷，本发明提供了一种基于证据推理规则的中文评论情感分类方法及装置，用于解决相关技术中存在的技术问题。

第一方面，本发明实施例提供了一种基于证据推理规则的中文评论情感分类方法，所述方法包括：

对获取的中文评论文本进行预处理；

提取预处理后的中文评论文本的特征，得到向量化表示的中文评论文本；

将所述中文评论文本划分为训练数据和测试数据，并利用所述中文评论文本训练预先设置的多个基分类器；

利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测，得到每个基分类器的权重；

基于所述每个基分类器的权重以及可靠度，利用证据推理规则融合各基分类器的输出概率，得到中文评论文本的情感分类结果。

可选地，对获取的中文评论文本进行预处理，包括：

从各汽车评论网站上爬取评论内容，并保存为中文评论文本；所述评论内容包括评论信息和对应的情感类别；所述情感类别包括积极或者消极；

对所述中文评论文本进行预处理；所述预处理包括：删除重复及4个字符长度以下的评论内容；使用jieba分词工具对所述中文评论文本分词；基于预先设置的《中文停用词表》，去掉停用词。

可选地，提取预处理后的中文评论文本的特征，得到向量化表示的中文评论文本，包括：

利用主题模型Unigram model、主题模型bigram model和主题模型Unigram model及主题模型bigram model组合共三种方法对预处理后的中文评论文本进行情感特征表示，保留其中效果较好的；

基于卡方检验方法CHI提取中文评论文本中各评论内容的特征词；

使用改进的TFIDF算法计算各特征词的权重，得到向量化表示的中文评论文本。

可选地，改进的TFIDF算法的公式为：

改进的

其中，t表示词语；c表示文本类别，包括积极文本或消极文本；N表示训练数据中评论语句总数；A表示c类语料中t出现的次数；B表示非c类语料中t出现的次数；C表示属于类别c中没有出现词语t的语句数量；D表示非c类中没有出现词语t的语句数量。

可选地，所述基分类器的数量为3个，包括逻辑回归算法、朴素贝叶斯算法和支持向量机算法。

可选地，利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测，得到每个基分类器的权重，包括：

步骤1：将中文评论文本输入各基分类器，得到各基分类器的输出概率

步骤2：根据下面的欧氏距离衡量公式计算第i个基分类器的支持度：

其中，

表示第i个基分类器支持该文本情感属于θ_j类别的概率，且有

步骤3：根据下式计算第i个基分类器内部对不同类别判断的差异性：

其中，

表示基分类器对不同类别情感判断的差异程度，除以分母则是对公式的正则化，能更好地衡量差异性；

步骤4：根据所述支持度和所述差异性按下式计算第i个基分类器的权重：

步骤5：针对不同训练样本得到的

按照步骤1～步骤4重复计算即可得到一个不断迭代更新的权重值。

可选地，证据推理规则的融合规则定义为：

假设识别框架Θ＝{θ₁,θ₂,…,θ_n}，有e₁和e₂两个证据，对应的基本概率分配分别为

和

对应的证据权重分别为w₁和w₂，对应的证据可靠度分别为r₁和r₂，得到：

其中，p(Θ)为识别框架的幂集；β_θ,i为第i个证据支持评价对象在θ等级上的置信度，可以理解为第i个分类器的某类别输出概率；

表示混合权重；所以两个证据组合规则为

其中，上式满足

和

第二方面，本发明实施例提供了一种基于证据推理规则的中文评论情感分类装置，所述装置包括：

预处理模块，用于对获取的中文评论文本进行预处理；

特征提取模块，用于提取预处理后的中文评论文本的特征，得到向量化表示的中文评论文本；

分类器训练模块，用于将所述中文评论文本划分为训练数据和测试数据，并利用所述中文评论文本训练预先设置的多个基分类器；

权重预测模块，用于利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测，得到每个基分类器的权重；

概率融合模块，用于基于所述每个基分类器的权重以及可靠度，利用证据推理规则融合各基分类器的输出概率，得到中文评论文本的情感分类结果。

由上述技术方案可知，本发明实施例中通过对获取的中文评论文本进行预处理；提取预处理后的中文评论文本的特征，得到向量化表示的中文评论文本；然后将所述中文评论文本划分为训练数据和测试数据，并利用所述中文评论文本训练预先设置的多个基分类器；之后，利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测，得到每个基分类器的权重；最后，基于所述每个基分类器的权重以及可靠度，利用证据推理规则融合各基分类器的输出概率，得到中文评论文本的情感分类结果。这样，本发明使用证据推理规则来融合不同基分类器的输出结果，并考虑到不同分类器的权重值和可靠度，最终融合结果更加可靠准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种基于证据推理规则的中文评论情感分类方法的流程示意图；

图2为本发明一实施例提供的另一种基于证据推理规则的中文评论情感分类方法的流程示意图；

图3是本发明一实施例提供的基于证据推理规则的中文评论情感分类装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例提供的基于证据推理规则的中文评论情感分类方法的流程示意图，可以应用于智能设备、个人计算机、服务器等电子设备。参见图1，一种基于证据推理规则的中文评论情感分类方法包括：

101，对获取的中文评论文本进行预处理；

102，提取预处理后的中文评论文本的特征，得到向量化表示的中文评论文本；

103，将所述中文评论文本划分为训练数据和测试数据，并利用所述中文评论文本训练预先设置的多个基分类器；

104，利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测，得到每个基分类器的权重；

105，基于所述每个基分类器的权重以及可靠度，利用证据推理规则融合各基分类器的输出概率，得到中文评论文本的情感分类结果。

下面结合附图1、图2和实施例对基于证据推理规则的中文评论情感分类方法的各步骤作详细描述。

首先，介绍101，对获取的中文评论文本进行预处理的步骤。

本实施例中，电子设备内可以预先存储爬虫算法，通过调用爬虫算法从例如汽车评论网站等指定网站上爬取相关的评论内容，并以文本形式保存为中文评论文本。其中，评论内容包括评论信息和对应的情感类别；情感类别包括积极或者消极。当然，技术人员还可以对情感类别继续分类，例如积极可以包括非常积极和一般积极等，同样可以实现本申请的方案，在此不作限定。

本实施例中，电子设备对中文评论文本进行预处理，包括：

(1)删除重复以及4个字符长度以下的评论内容；(2)使用jieba分词工具对中文评论文本分词；(3)基于哈尔滨工业大学信息检索实验室提供的《中文停用词表》，去掉一些无意义的停用词，从而得到预处理后的中文评论文本。

其次，介绍102，提取预处理后的中文评论文本的特征，得到向量化表示的中文评论文本的步骤。

本实施例中，电子设备可以利用主题模型Unigram model、主题模型bigram model和主题模型Unigram model及主题模型bigram model组合共三种方法对预处理后的中文评论文本进行情感特征表示，保留其中效果较好的；其中，效果较好是指各方式中在对测试数据进行情感预测时，在精准率Precision、召回率recall、F1值和总体准确率Accuracy等四个指标上数值较大的模型。可理解的是，上述四个指标不一定都最优，主要F1值和Accuracy最优时即为效果较好。

本实施例中，电子设备基于卡方检验方法CHI提取中文评论文本中各评论内容的特征词。其中卡方检验方法CHI的计算公式为：

式中，t表示词语；c表示文本类别，c为积极文本或消极文本；N表示训练数据集中评论语句总数；A表示c类语料中t出现的次数；B表示非c类语料中t出现的次数；C表示属于类别c中没有出现词语t的语句数量；D表示非c类中没有出现词语t的语句数量。

本实施例中，使用改进的TFIDF算法计算各特征词的权重，得到向量化表示的中文评论文本。

传统的TFIDF权重计算方法实际上词频(Term Frequency,TF)值乘以逆向文档频率(Inverse Document Frequency,IDF)值。其中TF值表示某一特征词在文档中出现的次数，对于特定的特征词t_i的词频，其计算公式如下：

IDF也叫逆文档频率，是一个词语普遍重要性的度量，表示包含该特征词的文档数越少，越能说明该特征词类别区分能力强。计算公式如下：

因此，归一化后的传统tf_i*idf_i，公式如下：

上述传统TFIDF方法忽略了特征词在不同类别间的分布情况，很容易赋予高权重给那些在情感类别间分布均匀对情感类别区分不强的特征词。

考虑到特征词的卡方值能有效反映该特征在不同情感类间的分布情况，本实施例中引入卡方值来改进TFIDF算法，且考虑到本申请中特征词的卡方值都偏小，因此，改进的TFIDF算法是乘以CHI值的根号3次方，改进的TFIDF算法公式如下：

改进的

本实施例中，例如TFIDF算法可以计算出中文评论文本中各特征词的权重，然后将中文评论文本采用特征词和权重进行表示，即可以得到向量化表示的中文评论文本。

需要说明的是，由于各评论内容提取出的特征词不同，为方便处理，本实施例中特征词的数量参数设置为k个。若特征词数量参数较多，则选择权重较大的k个特征词为评论内容对应的特征词。

再次，介绍103，将所述中文评论文本划分为训练数据和测试数据，并利用所述中文评论文本训练预先设置的多个基分类器的步骤。

本实施例中，电子设备将向量化表示的中文评论文本划分为训练数据train和测试数据test，并继续调用预先设置的多个基分类器。本实施例中，基分类器为3个，分别为逻辑回归算法(LR)、朴素贝叶斯算法(NB)和支持向量机算法(SVM)，并设置对应算法的执行参数(台惩罚参数C，迭代次数maxcycle)。最后，利用训练数据train对各基分数器进行训练，完成各基分类器的训练。

之后，介绍104，利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测，得到每个基分类器的权重的步骤。

本实施例中，将测试数据test输入到各训练后的基分数器，由各基分类器对测试数据test进行情感倾向性预测，得到不同基分类器的模型准确率Accuracy_i(i＝1,2,…,n)和对应类别的支持概率

其中，j表示文本情感类别，i表示分类器的编号。之后，电子设备按照不同基分类器的输出结果之间的欧氏距离和某单一分类器内部对不同情感类别判断的差异性动态形成第i个基分类器的权重w_i。

本发明提出根据不同分类器输出结果之间的欧氏距离和某单一分类器内部对不同类别判断的差异性动态形成分类器的权重，距离越小，类别判断差异性越大，赋予的权重就越大。获取权重的步骤包括：

步骤1：获取基分类器的输出概率

因一个评论内容对应各基分类器的输出概率。所以，当训练样本数量比较多时，可以将所有的输出结果存储起来。

步骤2：根据下面的欧氏距离衡量公式计算第i个基分类器的支持度ed_i：

其中，

步骤3：根据下式计算第i个基分类器内部对不同情感类别判断的差异性：

其中，

步骤5：针对不同训练样本得到的

最后，介绍105，基于所述每个基分类器的权重以及可靠度，利用证据推理规则融合各基分类器的输出概率，得到中文评论文本的情感分类结果的步骤。

本实施例中，引入证据推理规则对基分类器进行融合，即将不同基分类器的输出概率作为证据推理规则中的置信度，并考虑到各基分类器的权重和可靠度，以证据之间的欧氏距离和证据内部对不同情感类别判断的差异性动态形成基分类器的权重，以基分类器的准确率作为该基分类器的可靠度，然后利用证据推理规则进行融合得到最终的情感分类结果。

可理解的是，本实施例中证据看成是每个基分类器判断中文评论文本的情感所属某一类别的概率，比如逻辑回归分类器判断一个中文评论文本的情感所属积极的概率0.8，消极概率0.2，这就是证据。

其中，证据推理规则的融合规则定义如下所示：

和

表示混合权重；所以两个证据组合规则为

其中，上式满足

和

因此，基于以上公式可以融合两个基分类器的输出结果，当基分类器数目为n时，对上述公式进行迭代即可得到融合n个基分类器的最终结果，此时只需比较不同类别的支持概率大小即可判断该中文评论文本的情感倾向性，得到中文评论文本的情感分类结果。

至此，本实施例中提供了改进的TFIDF权重计算方法，将特征词的卡方值引入到TFIDF计算公式中，考虑到提取的特征词的卡方值均偏小，故改进的TFIDF算法是乘以卡方值的根号3次方，从而能够更加准确可靠地进行文本情感极性识别。

并且，本实施例中使用unigram+bigram方法进行特征表示，基于卡方检验方法进行特征提取，利用改进的TFIDF算法计算特征权重，然后选取了三个基分类器进行集成，可以有效改善文本情感分类的性能。

第二方面，本发明实施例提供了一种基于证据推理规则的中文评论情感分类装置，参见图3，所述装置包括：

预处理模块301，用于对获取的中文评论文本进行预处理；

特征提取模块302，用于提取预处理后的中文评论文本的特征，得到向量化表示的中文评论文本；

分类器训练模块303，用于将所述中文评论文本划分为训练数据和测试数据，并利用所述中文评论文本训练预先设置的多个基分类器；

权重预测模块304，用于利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测，得到每个基分类器的权重；

概率融合模块305，用于基于所述每个基分类器的权重以及可靠度，利用证据推理规则融合各基分类器的输出概率，得到中文评论文本的情感分类结果。

需要说明的是，本发明实施例提供的基于证据推理规则的中文评论情感分类装置与上述方法是一一对应的关系，上述方法的实施细节同样适用于上述装置，本发明实施例不再对上述系统进行详细说明。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。