CN109471942B - 基于证据推理规则的中文评论情感分类方法及装置 - Google Patents

基于证据推理规则的中文评论情感分类方法及装置 Download PDF

Info

Publication number
CN109471942B
CN109471942B CN201811317738.5A CN201811317738A CN109471942B CN 109471942 B CN109471942 B CN 109471942B CN 201811317738 A CN201811317738 A CN 201811317738A CN 109471942 B CN109471942 B CN 109471942B
Authority
CN
China
Prior art keywords
chinese
chinese comment
text
comment text
base classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811317738.5A
Other languages
English (en)
Other versions
CN109471942A (zh
Inventor
周谧
贺洋
刘心报
裴军
骆焜亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201811317738.5A priority Critical patent/CN109471942B/zh
Publication of CN109471942A publication Critical patent/CN109471942A/zh
Application granted granted Critical
Publication of CN109471942B publication Critical patent/CN109471942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于证据推理规则的中文评论情感分类方法及装置。所述方法包括:对获取的中文评论文本进行预处理;提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本;将所述中文评论文本划分为训练数据和测试数据,并利用所述中文评论文本训练预先设置的多个基分类器;利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重;基于所述每个基分类器的权重以及可靠度,利用证据推理规则融合各基分类器的输出概率,得到中文评论文本的情感分类结果。这样,本发明使用证据推理规则来融合不同基分类器的输出结果,并考虑到不同分类器的权重值和可靠度,最终融合结果更加可靠准确。

Description

基于证据推理规则的中文评论情感分类方法及装置
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于证据推理规则的中文评论情感分类方法及装置。
背景技术
中文文本情感极性判断问题是一类典型的二分类问题,涉及多个领域,如自然语言处理、人工智能、文本挖掘等。针对某一特定行业的评论文本语料,对其进行情感极性判断主要是利用计算机技术检测和提取文本文档中用户的主观信息、观点和情绪,从而挖掘出用户的情感倾向。
目前,现有流行的情感分析方法的构思为:将文本情感分析问题转化为分类问题,通过文本预处理、情感特征提取和特征权重计算等步骤,将文本向量化表示,从而利用机器学习算法来对文本做出情感预测。
在情感特征选择方面,以往的研究主要通过选取或改进不同的特征提取方法来获得更好的分类效果。在分类算法选取上,现有文献采用投票算法集成朴素贝叶斯、支持向量机和Bagging三种分类算法,有效提高了文本情感分类的准确率。还有文献通过对比多种特征提取方法,使用证据理论集成多个分类器对中文微博观点句进行识别,实验表明该方法具有不错的准确率。
然而,在使用传统TFIDF方法计算中文文本情感特征权重时,没有考虑到特征词在不同类别间的分布情况,很容易赋予高权重给那些在类别间分布均匀对类别区分不强的特征词。因此,不准确的特征权重值会影响最终的文本情感分类效果。以及,在用集成算法解决中文文本情感分类问题时,如果采用投票法、Boosting等算法集成多个分类器进行文本情感分类,虽然能很好的改善单分类器的不稳定性,但这些方法只是简单的考虑了分类器对样本属于类别的支持程度,忽略了分类器输出结果中同时还包含着样本不属于该类别的概率,没有充分利用分类器的输出信息,导致这些集成分类方法有时并没有明显改善分类结果。
另外,若使用证据理论集成多个分类器进行文本情感分类,此方法虽考虑到分类器输出概率的不确定性,但没有对各分类器的权重和可靠度予以考虑,容易在融合高冲突的分类器输出结果时出现反常识的结果,导致分类效果不佳。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于证据推理规则的中文评论情感分类方法及装置,用于解决相关技术中存在的技术问题。
第一方面,本发明实施例提供了一种基于证据推理规则的中文评论情感分类方法,所述方法包括:
对获取的中文评论文本进行预处理;
提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本;
将所述中文评论文本划分为训练数据和测试数据,并利用所述中文评论文本训练预先设置的多个基分类器;
利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重;
基于所述每个基分类器的权重以及可靠度,利用证据推理规则融合各基分类器的输出概率,得到中文评论文本的情感分类结果。
可选地,对获取的中文评论文本进行预处理,包括:
从各汽车评论网站上爬取评论内容,并保存为中文评论文本;所述评论内容包括评论信息和对应的情感类别;所述情感类别包括积极或者消极;
对所述中文评论文本进行预处理;所述预处理包括:删除重复及4个字符长度以下的评论内容;使用jieba分词工具对所述中文评论文本分词;基于预先设置的《中文停用词表》,去掉停用词。
可选地,提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本,包括:
利用主题模型Unigram model、主题模型bigram model和主题模型Unigram model及主题模型bigram model组合共三种方法对预处理后的中文评论文本进行情感特征表示,保留其中效果较好的;
基于卡方检验方法CHI提取中文评论文本中各评论内容的特征词;
使用改进的TFIDF算法计算各特征词的权重,得到向量化表示的中文评论文本。
可选地,改进的TFIDF算法的公式为:
改进的
Figure GDA0003126149000000041
Figure GDA0003126149000000042
其中,t表示词语;c表示文本类别,包括积极文本或消极文本;N表示训练数据中评论语句总数;A表示c类语料中t出现的次数;B表示非c类语料中t出现的次数;C表示属于类别c中没有出现词语t的语句数量;D表示非c类中没有出现词语t的语句数量。
可选地,所述基分类器的数量为3个,包括逻辑回归算法、朴素贝叶斯算法和支持向量机算法。
可选地,利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重,包括:
步骤1:将中文评论文本输入各基分类器,得到各基分类器的输出概率
Figure GDA0003126149000000043
步骤2:根据下面的欧氏距离衡量公式计算第i个基分类器的支持度:
Figure GDA0003126149000000044
其中,
Figure GDA0003126149000000045
表示第i个基分类器支持该文本情感属于θj类别的概率,且有
Figure GDA0003126149000000046
步骤3:根据下式计算第i个基分类器内部对不同类别判断的差异性:
Figure GDA0003126149000000051
其中,
Figure GDA0003126149000000052
表示基分类器对不同类别情感判断的差异程度,除以分母则是对公式的正则化,能更好地衡量差异性;
步骤4:根据所述支持度和所述差异性按下式计算第i个基分类器的权重:
Figure GDA0003126149000000053
步骤5:针对不同训练样本得到的
Figure GDA0003126149000000054
按照步骤1~步骤4重复计算即可得到一个不断迭代更新的权重值。
可选地,证据推理规则的融合规则定义为:
假设识别框架Θ={θ12,…,θn},有e1和e2两个证据,对应的基本概率分配分别为
Figure GDA0003126149000000055
Figure GDA0003126149000000056
对应的证据权重分别为w1和w2,对应的证据可靠度分别为r1和r2,得到:
Figure GDA0003126149000000057
其中,p(Θ)为识别框架的幂集;βθ,i为第i个证据支持评价对象在θ等级上的置信度,可以理解为第i个分类器的某类别输出概率;
Figure GDA0003126149000000058
Figure GDA0003126149000000059
表示混合权重;所以两个证据组合规则为
Figure GDA00031261490000000510
Figure GDA00031261490000000511
Figure GDA00031261490000000512
其中,上式满足
Figure GDA00031261490000000513
Figure GDA00031261490000000514
Figure GDA0003126149000000061
第二方面,本发明实施例提供了一种基于证据推理规则的中文评论情感分类装置,所述装置包括:
预处理模块,用于对获取的中文评论文本进行预处理;
特征提取模块,用于提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本;
分类器训练模块,用于将所述中文评论文本划分为训练数据和测试数据,并利用所述中文评论文本训练预先设置的多个基分类器;
权重预测模块,用于利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重;
概率融合模块,用于基于所述每个基分类器的权重以及可靠度,利用证据推理规则融合各基分类器的输出概率,得到中文评论文本的情感分类结果。
由上述技术方案可知,本发明实施例中通过对获取的中文评论文本进行预处理;提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本;然后将所述中文评论文本划分为训练数据和测试数据,并利用所述中文评论文本训练预先设置的多个基分类器;之后,利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重;最后,基于所述每个基分类器的权重以及可靠度,利用证据推理规则融合各基分类器的输出概率,得到中文评论文本的情感分类结果。这样,本发明使用证据推理规则来融合不同基分类器的输出结果,并考虑到不同分类器的权重值和可靠度,最终融合结果更加可靠准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的一种基于证据推理规则的中文评论情感分类方法的流程示意图;
图2为本发明一实施例提供的另一种基于证据推理规则的中文评论情感分类方法的流程示意图;
图3是本发明一实施例提供的基于证据推理规则的中文评论情感分类装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的基于证据推理规则的中文评论情感分类方法的流程示意图,可以应用于智能设备、个人计算机、服务器等电子设备。参见图1,一种基于证据推理规则的中文评论情感分类方法包括:
101,对获取的中文评论文本进行预处理;
102,提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本;
103,将所述中文评论文本划分为训练数据和测试数据,并利用所述中文评论文本训练预先设置的多个基分类器;
104,利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重;
105,基于所述每个基分类器的权重以及可靠度,利用证据推理规则融合各基分类器的输出概率,得到中文评论文本的情感分类结果。
下面结合附图1、图2和实施例对基于证据推理规则的中文评论情感分类方法的各步骤作详细描述。
首先,介绍101,对获取的中文评论文本进行预处理的步骤。
本实施例中,电子设备内可以预先存储爬虫算法,通过调用爬虫算法从例如汽车评论网站等指定网站上爬取相关的评论内容,并以文本形式保存为中文评论文本。其中,评论内容包括评论信息和对应的情感类别;情感类别包括积极或者消极。当然,技术人员还可以对情感类别继续分类,例如积极可以包括非常积极和一般积极等,同样可以实现本申请的方案,在此不作限定。
本实施例中,电子设备对中文评论文本进行预处理,包括:
(1)删除重复以及4个字符长度以下的评论内容;(2)使用jieba分词工具对中文评论文本分词;(3)基于哈尔滨工业大学信息检索实验室提供的《中文停用词表》,去掉一些无意义的停用词,从而得到预处理后的中文评论文本。
其次,介绍102,提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本的步骤。
本实施例中,电子设备可以利用主题模型Unigram model、主题模型bigram model和主题模型Unigram model及主题模型bigram model组合共三种方法对预处理后的中文评论文本进行情感特征表示,保留其中效果较好的;其中,效果较好是指各方式中在对测试数据进行情感预测时,在精准率Precision、召回率recall、F1值和总体准确率Accuracy等四个指标上数值较大的模型。可理解的是,上述四个指标不一定都最优,主要F1值和Accuracy最优时即为效果较好。
本实施例中,电子设备基于卡方检验方法CHI提取中文评论文本中各评论内容的特征词。其中卡方检验方法CHI的计算公式为:
Figure GDA0003126149000000091
式中,t表示词语;c表示文本类别,c为积极文本或消极文本;N表示训练数据集中评论语句总数;A表示c类语料中t出现的次数;B表示非c类语料中t出现的次数;C表示属于类别c中没有出现词语t的语句数量;D表示非c类中没有出现词语t的语句数量。
本实施例中,使用改进的TFIDF算法计算各特征词的权重,得到向量化表示的中文评论文本。
传统的TFIDF权重计算方法实际上词频(Term Frequency,TF)值乘以逆向文档频率(Inverse Document Frequency,IDF)值。其中TF值表示某一特征词在文档中出现的次数,对于特定的特征词ti的词频,其计算公式如下:
Figure GDA0003126149000000101
IDF也叫逆文档频率,是一个词语普遍重要性的度量,表示包含该特征词的文档数越少,越能说明该特征词类别区分能力强。计算公式如下:
Figure GDA0003126149000000102
因此,归一化后的传统tfi*idfi,公式如下:
Figure GDA0003126149000000103
上述传统TFIDF方法忽略了特征词在不同类别间的分布情况,很容易赋予高权重给那些在情感类别间分布均匀对情感类别区分不强的特征词。
考虑到特征词的卡方值能有效反映该特征在不同情感类间的分布情况,本实施例中引入卡方值来改进TFIDF算法,且考虑到本申请中特征词的卡方值都偏小,因此,改进的TFIDF算法是乘以CHI值的根号3次方,改进的TFIDF算法公式如下:
改进的
Figure GDA0003126149000000104
本实施例中,例如TFIDF算法可以计算出中文评论文本中各特征词的权重,然后将中文评论文本采用特征词和权重进行表示,即可以得到向量化表示的中文评论文本。
需要说明的是,由于各评论内容提取出的特征词不同,为方便处理,本实施例中特征词的数量参数设置为k个。若特征词数量参数较多,则选择权重较大的k个特征词为评论内容对应的特征词。
再次,介绍103,将所述中文评论文本划分为训练数据和测试数据,并利用所述中文评论文本训练预先设置的多个基分类器的步骤。
本实施例中,电子设备将向量化表示的中文评论文本划分为训练数据train和测试数据test,并继续调用预先设置的多个基分类器。本实施例中,基分类器为3个,分别为逻辑回归算法(LR)、朴素贝叶斯算法(NB)和支持向量机算法(SVM),并设置对应算法的执行参数(台惩罚参数C,迭代次数maxcycle)。最后,利用训练数据train对各基分数器进行训练,完成各基分类器的训练。
之后,介绍104,利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重的步骤。
本实施例中,将测试数据test输入到各训练后的基分数器,由各基分类器对测试数据test进行情感倾向性预测,得到不同基分类器的模型准确率Accuracyi(i=1,2,…,n)和对应类别的支持概率
Figure GDA0003126149000000111
Figure GDA0003126149000000112
其中,j表示文本情感类别,i表示分类器的编号。之后,电子设备按照不同基分类器的输出结果之间的欧氏距离和某单一分类器内部对不同情感类别判断的差异性动态形成第i个基分类器的权重wi
本发明提出根据不同分类器输出结果之间的欧氏距离和某单一分类器内部对不同类别判断的差异性动态形成分类器的权重,距离越小,类别判断差异性越大,赋予的权重就越大。获取权重的步骤包括:
步骤1:获取基分类器的输出概率
Figure GDA0003126149000000121
因一个评论内容对应各基分类器的输出概率。所以,当训练样本数量比较多时,可以将所有的输出结果存储起来。
步骤2:根据下面的欧氏距离衡量公式计算第i个基分类器的支持度edi
Figure GDA0003126149000000122
其中,
Figure GDA0003126149000000123
表示第i个基分类器支持该文本情感属于θj类别的概率,且有
Figure GDA0003126149000000124
步骤3:根据下式计算第i个基分类器内部对不同情感类别判断的差异性:
Figure GDA0003126149000000125
其中,
Figure GDA0003126149000000126
表示基分类器对不同类别情感判断的差异程度,除以分母则是对公式的正则化,能更好地衡量差异性;
步骤4:根据所述支持度和所述差异性按下式计算第i个基分类器的权重:
Figure GDA0003126149000000127
步骤5:针对不同训练样本得到的
Figure GDA0003126149000000128
按照步骤1~步骤4重复计算即可得到一个不断迭代更新的权重值。
最后,介绍105,基于所述每个基分类器的权重以及可靠度,利用证据推理规则融合各基分类器的输出概率,得到中文评论文本的情感分类结果的步骤。
本实施例中,引入证据推理规则对基分类器进行融合,即将不同基分类器的输出概率作为证据推理规则中的置信度,并考虑到各基分类器的权重和可靠度,以证据之间的欧氏距离和证据内部对不同情感类别判断的差异性动态形成基分类器的权重,以基分类器的准确率作为该基分类器的可靠度,然后利用证据推理规则进行融合得到最终的情感分类结果。
可理解的是,本实施例中证据看成是每个基分类器判断中文评论文本的情感所属某一类别的概率,比如逻辑回归分类器判断一个中文评论文本的情感所属积极的概率0.8,消极概率0.2,这就是证据。
其中,证据推理规则的融合规则定义如下所示:
假设识别框架Θ={θ12,…,θn},有e1和e2两个证据,对应的基本概率分配分别为
Figure GDA0003126149000000131
Figure GDA0003126149000000132
对应的证据权重分别为w1和w2,对应的证据可靠度分别为r1和r2,得到:
Figure GDA0003126149000000133
其中,p(Θ)为识别框架的幂集;βθ,i为第i个证据支持评价对象在θ等级上的置信度,可以理解为第i个分类器的某类别输出概率;
Figure GDA0003126149000000134
Figure GDA0003126149000000135
表示混合权重;所以两个证据组合规则为
Figure GDA0003126149000000136
Figure GDA0003126149000000141
Figure GDA0003126149000000142
其中,上式满足
Figure GDA0003126149000000143
Figure GDA0003126149000000144
Figure GDA0003126149000000145
因此,基于以上公式可以融合两个基分类器的输出结果,当基分类器数目为n时,对上述公式进行迭代即可得到融合n个基分类器的最终结果,此时只需比较不同类别的支持概率大小即可判断该中文评论文本的情感倾向性,得到中文评论文本的情感分类结果。
至此,本实施例中提供了改进的TFIDF权重计算方法,将特征词的卡方值引入到TFIDF计算公式中,考虑到提取的特征词的卡方值均偏小,故改进的TFIDF算法是乘以卡方值的根号3次方,从而能够更加准确可靠地进行文本情感极性识别。
并且,本实施例中使用unigram+bigram方法进行特征表示,基于卡方检验方法进行特征提取,利用改进的TFIDF算法计算特征权重,然后选取了三个基分类器进行集成,可以有效改善文本情感分类的性能。
第二方面,本发明实施例提供了一种基于证据推理规则的中文评论情感分类装置,参见图3,所述装置包括:
预处理模块301,用于对获取的中文评论文本进行预处理;
特征提取模块302,用于提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本;
分类器训练模块303,用于将所述中文评论文本划分为训练数据和测试数据,并利用所述中文评论文本训练预先设置的多个基分类器;
权重预测模块304,用于利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重;
概率融合模块305,用于基于所述每个基分类器的权重以及可靠度,利用证据推理规则融合各基分类器的输出概率,得到中文评论文本的情感分类结果。
至此,本实施例中提供了改进的TFIDF权重计算方法,将特征词的卡方值引入到TFIDF计算公式中,考虑到提取的特征词的卡方值均偏小,故改进的TFIDF算法是乘以卡方值的根号3次方,从而能够更加准确可靠地进行文本情感极性识别。
并且,本实施例中使用unigram+bigram方法进行特征表示,基于卡方检验方法进行特征提取,利用改进的TFIDF算法计算特征权重,然后选取了三个基分类器进行集成,可以有效改善文本情感分类的性能。
需要说明的是,本发明实施例提供的基于证据推理规则的中文评论情感分类装置与上述方法是一一对应的关系,上述方法的实施细节同样适用于上述装置,本发明实施例不再对上述系统进行详细说明。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (7)

1.一种基于证据推理规则的中文评论情感分类方法,其特征在于,所述方法包括:
对获取的中文评论文本进行预处理;
提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本;
将所述中文评论文本划分为训练数据和测试数据,并利用所述中文评论文本训练预先设置的多个基分类器;
利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重;
基于所述每个基分类器的权重以及可靠度,利用证据推理规则融合各基分类器的输出概率,得到中文评论文本的情感分类结果;
所述利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重,包括:
步骤1:将中文评论文本输入各基分类器,得到各基分类器的输出概率
Figure FDA0003126148990000011
步骤2:根据下面的欧氏距离衡量公式计算第i个基分类器的支持度:
Figure FDA0003126148990000012
其中,
Figure FDA0003126148990000013
表示第i个基分类器支持该文本情感属于θj类别的概率,且有
Figure FDA0003126148990000021
步骤3:根据下式计算第i个基分类器内部对不同类别判断的差异性:
Figure FDA0003126148990000022
其中,
Figure FDA0003126148990000023
表示基分类器对不同类别情感判断的差异程度,除以分母则是对公式的正则化,能更好地衡量差异性;
步骤4:根据所述支持度和所述差异性按下式计算第i个基分类器的权重:
Figure FDA0003126148990000024
步骤5:针对不同训练样本得到的
Figure FDA0003126148990000025
按照步骤1~步骤4重复计算即可得到一个不断迭代更新的权重值。
2.根据权利要求1所述的中文评论情感分类方法,其特征在于,对获取的中文评论文本进行预处理,包括:
从各汽车评论网站上爬取评论内容,并保存为中文评论文本;所述评论内容包括评论信息和对应的情感类别;所述情感类别包括积极或者消极;
对所述中文评论文本进行预处理;所述预处理包括:删除重复及4个字符长度以下的评论内容;使用jieba分词工具对所述中文评论文本分词;基于预先设置的《中文停用词表》,去掉停用词。
3.根据权利要求1所述的中文评论情感分类方法,其特征在于,提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本,包括:
利用主题模型Unigram model、主题模型bigram model和主题模型Unigram model及主题模型bigram model组合共三种方法对预处理后的中文评论文本进行情感特征表示,保留其中效果较好的;
基于卡方检验方法CHI提取中文评论文本中各评论内容的特征词;
使用改进的TFIDF算法计算各特征词的权重,得到向量化表示的中文评论文本。
4.根据权利要求3所述的中文评论情感分类方法,其特征在于,改进的TFIDF算法的公式为:
改进的
Figure FDA0003126148990000031
Figure FDA0003126148990000032
其中,t表示词语;c表示文本类别,包括积极文本或消极文本;N表示训练数据中评论语句总数;A表示c类语料中t出现的次数;B表示非c类语料中t出现的次数;C表示属于类别c中没有出现词语t的语句数量;D表示非c类中没有出现词语t的语句数量。
5.根据权利要求1所述的中文评论情感分类方法,其特征在于,所述基分类器的数量为3个,包括逻辑回归算法、朴素贝叶斯算法和支持向量机算法。
6.根据权利要求1所述的中文评论情感分类方法,其特征在于,证据推理规则的融合规则定义为:
假设识别框架Θ={θ12,…,θn},有e1和e2两个证据,对应的基本概率分配分别为
Figure FDA0003126148990000033
Figure FDA0003126148990000034
对应的证据权重分别为w1和w2,对应的证据可靠度分别为r1和r2,得到:
Figure FDA0003126148990000041
其中,p(Θ)为识别框架的幂集;βθ,i为第i个证据支持评价对象在θ等级上的置信度,可以理解为第i个分类器的某类别输出概率;
Figure FDA0003126148990000042
Figure FDA0003126148990000043
表示混合权重;所以两个证据组合规则为
Figure FDA0003126148990000044
Figure FDA0003126148990000045
Figure FDA0003126148990000046
其中,上式满足
Figure FDA0003126148990000047
Figure FDA0003126148990000048
Figure FDA0003126148990000049
7.一种基于证据推理规则的中文评论情感分类装置,其特征在于,所述装置包括:
预处理模块,用于对获取的中文评论文本进行预处理;
特征提取模块,用于提取预处理后的中文评论文本的特征,得到向量化表示的中文评论文本;
分类器训练模块,用于将所述中文评论文本划分为训练数据和测试数据,并利用所述中文评论文本训练预先设置的多个基分类器;
权重预测模块,用于利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重;
概率融合模块,用于基于所述每个基分类器的权重以及可靠度,利用证据推理规则融合各基分类器的输出概率,得到中文评论文本的情感分类结果;
所述利用训练后的所述多个基分类器对所述测试数据进行情感倾向性预测,得到每个基分类器的权重,包括:
步骤1:将中文评论文本输入各基分类器,得到各基分类器的输出概率
Figure FDA0003126148990000051
步骤2:根据下面的欧氏距离衡量公式计算第i个基分类器的支持度:
Figure FDA0003126148990000052
其中,
Figure FDA0003126148990000053
表示第i个基分类器支持该文本情感属于θj类别的概率,且有
Figure FDA0003126148990000054
步骤3:根据下式计算第i个基分类器内部对不同类别判断的差异性:
Figure FDA0003126148990000055
其中,
Figure FDA0003126148990000056
表示基分类器对不同类别情感判断的差异程度,除以分母则是对公式的正则化,能更好地衡量差异性;
步骤4:根据所述支持度和所述差异性按下式计算第i个基分类器的权重:
Figure FDA0003126148990000057
步骤5:针对不同训练样本得到的
Figure FDA0003126148990000058
按照步骤1~步骤4重复计算即可得到一个不断迭代更新的权重值。
CN201811317738.5A 2018-11-07 2018-11-07 基于证据推理规则的中文评论情感分类方法及装置 Active CN109471942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811317738.5A CN109471942B (zh) 2018-11-07 2018-11-07 基于证据推理规则的中文评论情感分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811317738.5A CN109471942B (zh) 2018-11-07 2018-11-07 基于证据推理规则的中文评论情感分类方法及装置

Publications (2)

Publication Number Publication Date
CN109471942A CN109471942A (zh) 2019-03-15
CN109471942B true CN109471942B (zh) 2021-09-07

Family

ID=65666770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811317738.5A Active CN109471942B (zh) 2018-11-07 2018-11-07 基于证据推理规则的中文评论情感分类方法及装置

Country Status (1)

Country Link
CN (1) CN109471942B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832588A (zh) * 2019-04-18 2020-10-27 四川大学 一种基于集成分类的暴恐图像标注方法
CN110489557A (zh) * 2019-08-22 2019-11-22 电子科技大学成都学院 一种SVM与Bootstrapping相融合的股评类文本情感分析方法
CN110889436B (zh) * 2019-11-06 2022-07-22 西北工业大学 一种基于可信度估计的水下多类目标分类方法
CN111143552B (zh) * 2019-12-05 2023-06-27 支付宝(杭州)信息技术有限公司 文本信息的类别预测方法和装置、服务器
CN111128242B (zh) * 2020-01-02 2023-01-24 渤海大学 一种基于双深度网络的多模式情感信息融合与识别方法
CN111723208B (zh) * 2020-06-28 2023-04-18 西南财经大学 基于条件分类树的法律判决文书多分类方法、装置和终端
CN112214991B (zh) * 2020-10-10 2024-05-14 上海海事大学 一种基于多特征融合加权的微博文本立场检测方法
CN112487795A (zh) * 2020-10-28 2021-03-12 中国科学院信息工程研究所 上下文讽刺检测方法、装置、电子设备及存储介质
CN112507115B (zh) * 2020-12-07 2023-02-03 重庆邮电大学 一种弹幕文本中情感词的分类方法、装置及存储介质
CN112699239A (zh) * 2020-12-31 2021-04-23 杭州电子科技大学 基于集成分类器动态选择策略的文本情感分类方法
CN115457966B (zh) * 2022-09-16 2023-05-12 东北农业大学 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004796A (zh) * 2010-12-24 2011-04-06 钱钢 一种网页文本的无阻滞层次分类方法与装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN103886108A (zh) * 2014-04-13 2014-06-25 北京工业大学 一种不均衡文本集的特征选择和权重计算方法
CN103903430A (zh) * 2014-04-14 2014-07-02 东南大学 一种采用多源同构数据的行程时间动态融合预测方法
CN103995876A (zh) * 2014-05-26 2014-08-20 上海大学 一种基于卡方统计和smo算法的文本分类方法
CN107315797A (zh) * 2017-06-19 2017-11-03 江西洪都航空工业集团有限责任公司 一种网络新闻获取及文本情感预测系统
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090271358A1 (en) * 2008-04-28 2009-10-29 Eric Lindahl Evidential Reasoning Network and Method

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004796A (zh) * 2010-12-24 2011-04-06 钱钢 一种网页文本的无阻滞层次分类方法与装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN103886108A (zh) * 2014-04-13 2014-06-25 北京工业大学 一种不均衡文本集的特征选择和权重计算方法
CN103903430A (zh) * 2014-04-14 2014-07-02 东南大学 一种采用多源同构数据的行程时间动态融合预测方法
CN103995876A (zh) * 2014-05-26 2014-08-20 上海大学 一种基于卡方统计和smo算法的文本分类方法
CN107315797A (zh) * 2017-06-19 2017-11-03 江西洪都航空工业集团有限责任公司 一种网络新闻获取及文本情感预测系统
CN108228853A (zh) * 2018-01-11 2018-06-29 北京信息科技大学 一种微博谣言识别方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Evidential reasoning rule for evidence combination;Jian-Bo Yang et al.;《Artificial Intelligence》;20130923;第1-29页 *
基于动词名词和CHI特征选择的中文人物社会关系抽取;曾辉 等;《计算机应用研究》;20170630;第34卷(第6期);第1631-1635页 *
基于层次分类和证据推理规则的高速列车转向架故障诊断研究;杨帆;《万方学位论文数据库》;20170802;全文 *
基于证据理论的多分类器中文微博观点句识别;郭云龙 等;《计算机工程》;20140430;第40卷(第4期);第159-163页 *
文本特征提取方法研究综述;徐冠华 等;《软件导刊》;20180531;第17卷(第5期);第13-18页 *

Also Published As

Publication number Publication date
CN109471942A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
KR102020756B1 (ko) 머신러닝을 이용한 리뷰 분석 방법
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN110413780B (zh) 文本情感分析方法和电子设备
Chalapathy et al. An investigation of recurrent neural architectures for drug name recognition
CN107491531A (zh) 基于集成学习框架的中文网络评论情感分类方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
Balli et al. Sentimental analysis of Twitter users from Turkish content with natural language processing
Tyagi et al. Sentiment analysis of product reviews using support vector machine learning algorithm
CN111027306A (zh) 一种基于关键词抽取和词移距离的知识产权匹配技术
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Alfikri et al. Detailed analysis of extrinsic plagiarism detection system using machine learning approach (naive bayes and svm)
CN108694176B (zh) 文档情感分析的方法、装置、电子设备和可读存储介质
Dhar et al. Bengali news headline categorization using optimized machine learning pipeline
CN114662477A (zh) 基于中医对话的停用词表生成方法、装置及存储介质
Izzah et al. Modified TF-Assoc term weighting method for text classification on news dataset from twitter
Kavitha et al. A review on machine learning techniques for text classification
CN113032573A (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
Yülüce et al. Author identification with machine learning algorithms
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
Diwakar et al. Proposed machine learning classifier algorithm for sentiment analysis
CN117216275A (zh) 一种文本处理方法、装置、设备以及存储介质
Shushkevich et al. Misogyny detection and classification in english tweets: The experience of the itt team
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant