CN107491531A - 基于集成学习框架的中文网络评论情感分类方法 - Google Patents

基于集成学习框架的中文网络评论情感分类方法 Download PDF

Info

Publication number
CN107491531A
CN107491531A CN201710713966.3A CN201710713966A CN107491531A CN 107491531 A CN107491531 A CN 107491531A CN 201710713966 A CN201710713966 A CN 201710713966A CN 107491531 A CN107491531 A CN 107491531A
Authority
CN
China
Prior art keywords
mrow
msub
word
attribute
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710713966.3A
Other languages
English (en)
Other versions
CN107491531B (zh
Inventor
黄佳锋
黄英仁
卢昕
刘志煌
薛云
蔡倩华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Airlines Intellectual Property Services Ltd
Nanjing Silicon Intelligence Technology Co Ltd
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201710713966.3A priority Critical patent/CN107491531B/zh
Publication of CN107491531A publication Critical patent/CN107491531A/zh
Application granted granted Critical
Publication of CN107491531B publication Critical patent/CN107491531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种基于集成学习框架的中文网络评论情感分类方法。本发明采用词性组合模式、保序子矩阵模式和频繁词序列模式作为输入特征,在特征层面上考虑中文语序信息、间隔词组特征以及句子长度大小的影响等因素,并且利用语义相似度克服了特征向量稀疏问题;解决了评论文本特征繁多的问题,保证基分类器间独立性的同时,尽量提高基分类器的分类性能;采用基于产品属性构造基分类器算法综合评论文本中每个属性的情感信息,进而判别评论的句子级情感倾向,使得最终的分类结果更加精确。本发明适用于各种领域的电商网络评论情感分类,可以使潜在消费者在购买前了解商品的评价信息,也可以使商家更加充分地了解消费者的意见,从而提高服务质量。

Description

基于集成学习框架的中文网络评论情感分类方法
技术领域
本发明属于自然语言处理技术与情感计算领域,具体地说是一种基于集成学习框架的中文网络评论情感分类方法。
背景技术
随着电子商务行业的发展,网络购物越来越受到人们的认可,由此也产生了大量的网络评论文本数据。面对这些海量的网络评论,一方面消费者需要快速了解评论的情感倾向,从其他消费者的经验中得到对该物品的评价信息,优化自己的购买决策;另一方面商家也需要从消费者的网络评论情感倾向中总结得到商品的市场反馈信息,对商品进行改善。因此,如何对评论文本进行情感分类已经成为自然语言处理领域的一个重要研究课题。
文本情感分类常用的技术分为基于规则的方法和基于统计的方法。基于规则的方法主要从语言学角度出发,利用人工词典和语言学规则进行情感倾向性分析。基于统计的方法则从机器学习的角度出发,Bo pang等人最早利用人工标注的影评语料进行特征提取和分类模型构建,自动化地实现情感分类任务。但是基于规则的方法所描述的语言规则非常有限,难以处理复杂的、非结构化的中文网络评论文本;而基于统计的方法一般很难通过单个算法构造一个高准确率的分类模型,并且对于众多问题,没有一种统一的行之有效的方法,即某些模型可能只对一类或几类问题有效,而在其它问题上的效果不好,泛化能力差。为了改善这些缺陷,集成学习技术应运而生。在文本情感分类任务上,已经有学者利用集成学习技术来提高分类准确率。Xia R等人利用了基于词性和基于词语关系的两种语义信息作为特征,把朴素贝叶斯、最大熵和支持向量机三个常用的文本分类器作为基分类器,并使用了固定组合、加权组合和元分类器组合三种集成策略进行情感分类对比实验,验证了集成学习在文本情感分类任务上的有效性。
但是在针对中文网络评论文本的情感分类任务上,目前还存在以下三个挑战:第一,中文网络评论具有表达多样化、句子长度不一致的特点,在特征提取时,以TF-IDF为代表的单词权重计算方法,容易造成文本特征语义信息缺失、特征向量稀疏等问题。第二,由于中文网络评论文本的复杂性,从中提取到的特征通常达到上千个,经典的RandomSubspace集成学习方法虽然可以解决特征繁多问题,但是由于特征子空间是完全随机抽取的,难以保证基分类器的性能。第三,一个评论文本很可能包含多个产品属性词语,这些属性共同决定着评论的情感倾向,以往的句子级情感分类方法通常把评论中的所有属性都当成一个整体,没有单独分析每个属性带有的情感信息,容易造成情感类别误判。
针对上述问题,本发明提出一种针对中文网络评论进行情感分类的集成学习框架,主要包括以下部分:1)采用词性组合模式、保序子矩阵模式和频繁词序列模式作为输入特征,在特征层面上考虑中文语序信息、间隔词组特征以及句子长度大小的影响等因素,使得特征携带更完整的语义信息和情感信息,并且利用语义相似度克服了特征向量稀疏问题;2)采用基于信息增益的随机子空间算法,解决了评论文本复杂多样而造成的特征繁多问题,并且在Random Subspace的基础上考虑了特征的重要度权值,根据重要度权值抽取特征子空间,保证基分类器间独立性的同时,尽量提高基分类器的分类性能;3)采用基于产品属性构造基分类器算法,考虑不同产品属性对应不完全相同的特征集合、相同的特征在不同产品属性中可能起到的不同影响,并且综合了评论文本中不同产品属性的情感分类概率,使得最终的分类结果更加精确。
发明内容
在针对中文网络评论文本的情感分类任务上,为了克服现有技术存在的上述不足,本发明提出基于集成学习框架的中文网络评论情感分类方法。
本发明至少通过如下技术方案之一实现。
基于集成学习框架的中文网络评论情感分类方法,其包括以下步骤:
(1)输入某一领域比如酒店领域的中文网络评论大数据集及该领域的评测数据集,并对大数据集和评测数据集进行中文分词和词性标注,并将评测数据集划分成训练集、验证集和测试集;
(2)类序列规则(Class Sequence Rules,CSR)是传统序列模式挖掘的变种,它在序列模式挖掘的基础上考虑了类信息。本发明在Pei等人提出的PrefixSpan频繁序列模式挖掘算法(Pei Jian,Han Jiawei,Mortazavi-Asl Behzad,et al.Mining SequentialPatterns by Pattern-Growth:The Prefixspan Approach[J].IEEE Transactions onKnowledge and Data Engineering,2004,16(11):1424-1440)的基础上进行改进,考虑加入由类信息所决定的置信度,实现基于类序列规则的产品属性提取方法,在中文网络评论大数据集中提取出相应领域的产品属性集合,并划分产品属性类别;
(3)在评测数据集的训练集中提取出三种特征模式,分别为词性组合模式、频繁词序列模式和保序子矩阵模式;
(4)将评测数据集中的训练集、验证集和测试集和三种特征模式集合分别根据产品属性类别中的产品属性进行归类;
(5)本发明在Ho等人提出的随机子空间算法(Ho Tin Kam.The Random SubspaceMethod for Constructing Decision Forests[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,1998,20(8):832-844)基础上进行改进,提出了一种基于信息增益的随机子空间算法,对于每个产品属性类别中的训练集评论语料和特征模式集合,分别采用基于信息增益的随机子空间算法构建集成分类器,从而得到对应产品属性类别测试集中样本的输出分类概率结果;
(6)判断测试集中每个评论文本所属的产品属性类别,本发明提出了基于产品属性构造基分类器算法对评论进行集成情感分类,集成评论文本中每个属性在步骤(5)得到的分类概率,从而得到测试集中样本的最终分类结果,并计算分类准确率。
上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(1)具体是:对某一领域比如酒店领域的中文网络评论大数据集及该领域的评测数据集进行预处理,包括去除空白行、去除重复行,然后按照3:1:1的比例将其中的评测数据集同时随机划分成训练集、验证集和测试集,且保证三者中积极和消极的评论数基本平衡,使用中科院ICTCLAS对中文评论语料进行中文分词和词性标注。
上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(2)包括以下步骤:
(2-1)将中文网络评论大数据集DataSet中经过中文分词和词性标注处理后,得到词性序列,例如“房间/n,很/d,舒服/a,&,服务/n,很/d,好/a,&,价格/n,不/d,便宜/a”,并将结果存入数据库DB中;
(2-2)从中文网络评论大数据集DataSet中人工抽取部分属性词和情感词作为种子词,形成种子属性词AspectWords和种子情感词SentimentWords,并规定在评论语料中标注这些种子词时,用符号“#”表示属性词,用符号“*”表示情感词;
(2-3)类序列规则(Class Sequence Rules,CSR)是传统序列模式挖掘的变种,它在序列模式挖掘的基础上考虑了类信息,首先需要给定类标签,一个类序列规则包含一个序列模式和一个类标签,通过将模式和类信息结合起来,找到与类信息具有高度相关性的序列模式。本发明将属性词和情感词搭配信息作为类序列规则中的类信息,对数据库DB进行一次扫描,根据种子属性词AspectWords和种子情感词SentimentWords,对数据库DB中部分序列标注样本进行种子词标注得到类信息,然后去掉词语,只保留词性和类信息,得到带有类信息的词性序列,例如“#/n,/d,*/a,&,#/n,/d,*/a,&,#/n,/d,*/a,&”(“&”表示标点符号,作为评论中每个分句的分隔符)。
(2-4)在Pei等人提出的PrefixSpan频繁序列模式挖掘算法(Pei Jian,HanJiawei,Mortazavi-Asl Behzad,et al.Mining Sequential Patterns by Pattern-Growth:The Prefixspan Approach[J].IEEE Transactions on Knowledge and DataEngineering,2004,16(11):1424-1440)的基础上进行改进,考虑加入由类信息所决定的置信度,挖掘满足最小支持度min_sup=α×num和最小置信度min_con的频繁词性序列集合frePOS,其中α为最小支持度比例,num为DataSet数目大小;
(2-5)将中文网络评论大数据集DataSet的所有评论的标点符号作为分句的分隔符,筛选frePOS中满足所有元素都在中文网络评论大数据集DataSet的所有评论中同一分句的频繁词性序列,作为提取产品属性的类序列规则CSRS
(2-6)利用类序列规则CSRS中的词性序列和类信息,将中文网络评论大数据集DataSet中所有满足条件的属性词语提取出来,从而得到产品属性词语集合A;
(2-7)为了对产品属性类别进行划分,首先需要确定产品属性类别基准词,第一,产品属性类别之间尽可能没有交集词语;第二,每个产品属性类别集合要囊括尽可能多的同类属性词语;
(2-8)采用Mikolov等人在2013年提出的著名的word2vec词向量训练工具(Mikolov Tomas,Chen Kai,Corrado Greg,et al.Efficient Estimation of WordRepresentations in Vector Space[J].Computer Science,2013)对中文网络评论大数据集进行训练,得到产品属性类别集合的词嵌入矩阵W∈Rd×|A|,其中W的每一列代表一个属性词向量,d表示向量的维度,A表示属性词表,|A|表示词表规模;假设产品属性类别基准词的词嵌入矩阵Wbase∈Rd×n,Xi是W中的第i属性词向量,Xj是Wbase中的第j属性类别基准词向量,采用余弦距离来衡量Xi和Xj之间的语义相似度,计算公式如式(8)所示:
(2-9)根据上式,分别计算产品属性类别集合中的每一个属性词和n个属性类别基准词之间的语义相似度,并设定超参数最小相似度min_Sim,如果属性词与多个属性类别基准词之间的相似度大于min_Sim,则选取与该属性词的相似度最大的属性类别基准词作为属性类别标记;如果属性词语全部n个属性类别基准词之间的相似度都小于min_Sim,则将该属性词的属性类别归类为“其它”。
上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(3)包括以下步骤:
(3-1)在第一种特征提取方法中,本发明通过词性组合模式来挖掘连续词组特征。本发明结合中文网络评论的特点,总结归纳了下面八种词性组合模式,如表1所示。
其中,词语的词性表示参考中科院《计算所汉语词性标记集》,“d”表示副词,“a”表示形容词,“v”表示动词,“n”表示名词,“ude1”表示助词“的”。
(3-2)根据语料进行分词和词性标注的结果,然后通过词性组合规则挖掘得到词性组合模式feature_pos,将其作为情感分类任务的输入特征之一。
(3-3)在PrefixSpan频繁序列模式挖掘算法的基础上加上一些实验超参数的限制,从而保证挖掘出有效的频繁词序列模式,实验超参数包括最小支持度min_sup、最大间隔阈值max_gap和最小区分阈值min_dist。最后挖掘得到的频繁词序列模式feature_freseq作为情感分类任务的输入特征之一。
改进的Prefixspan算法(PrefixSpan频繁序列模式挖掘算法)具体描述如下:
输入:类信息{C1,C2,...,Cn},词性序列S,最小支持阈值min_sup,最小置信度min_con
输出:满足类序列规则的词性序列模式
参数:α为一个序列模式;
l为α的长度;
SD|α如果α不为空,SD|α是α的投影数据库,否则就是词性序列数据库S算法的具体操作步骤如下:
1)对投影数据库SD|α进行一次扫描,根据事先定义好的类信息{C1,C2,...,Cn},标注部分样本作为投影数据库,建立序列与类信息之间的映射关系。
2)寻找满足最小支持度阈值min_sup的频繁项目b,其中b可以集合成为α的最后一个元素或者<b>可以被追加到α上,形成一个序列模式。
3)对于每一个连续的项b,将其添加到α上形成一个序列α',并且输出α'。
4)对于每一个α',创建一个α'投影数据库SD|α'。
5)重复以上步骤搜索出其他前缀的频繁词性序列。
6)扫描原始数据库,对于每一种频繁词性序列,根据类信息计算它的置信度,如果置信度大于设定的最小置信度min_con,则输出该词性序列模式。
(3-4)利用公共子序列挖掘得到评测数据集的向量矩阵表示Wtfidf的全部保序子矩阵模式;首先将Wtfidf每一行的非零值按从小到大排序,然后用各值所在列的列号去替换真实值,得到各行的列号序列;然后对每两行列号序列取交集,利用动态规划的思想挖掘每两行之间的所有公共子序列;最后递归地对满足最小列阈值min_column要求的公共子序列进行行拼接,输出满足最小行阈值min_row要求以及各行都来自于同一类情感标签评论的保序子矩阵模式feature_opsm,连同(3-2)得到的词性组合模式feature_pos和频繁词序列模式feature_freseq,一起作为情感分类任务的输入特征。
上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(4)包括以下步骤:
(4-1)匹配前述步骤(1)中的训练集TrainSet和测试集TestSet中每个评论是否包含产品属性类别集合A中每个属性类别的词语,如果包含A中一个类别的任一属性词语,则该评论属于该产品属性类别的数据;如果不包含任何属性词语,则该评论属于产品属性类别外的数据,该属性类别定义为“无属性”;最后分别将TrainSet和TestSet分成p+1份,表示成TrainSet1,TrainSet2,...,TrainSetp+1和TestSet1,TestSet2,...,TestSetp+1,其中p>0,表示预先设定的产品属性类别数。
(4-2)匹配特征模式集合T中的每一个特征是否出现于TrainSet1,TrainSet2,...,TrainSetp+1,从而将T根据属性类别分成p+1份,表示成T1,T2,...,Tp+1
上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(5)包括以下步骤:
(5-1)采用基于信息增益的随机子空间算法计算特征模式集合T={t1,t2,...,ti,...,tm}中的每个特征的信息增益量,得到m个特征的信息增益量集合IG={Ig1,Ig2,...,Igi,...,Igm},第i个特征ti的信息增益量计算式子如下:
其中,表示除了特征ti以外的其他特征集合,数据样本的类别标签集合C={C1,C2,...,Cj,...,Cn},i表示特征ti的序号,j表示类别标签Cj的序号,n表示类别标签的个数,H表示信息熵,P表示计算概率;
(5-2)将T所有特征的信息增益量进行归一化处理,得到m个特征的重要度权值δ={δ12,...,δi,...,δm},第i个特征ti的归一化计算式子如下:
其中,Igj表示第j个特征tj的信息增益量。
(5-3)将第i个特征ti的重要度权值δi作为ti的抽取概率,从特征集合T中随机抽取R个特征,构成第s个特征子空间Tsubs={t1,t2,...,tr,...,tR},其中s>0。
(5-4)匹配前述步骤(1)中的训练集TrainSet和测试集TestSet中每个评论是否包含Tsubs中的特征,如果包含特征tr,则第r个维度的值为1,反之为0,从而将每个评论文本全部转化成一个R维的特征向量,最后将TrainSet和TestSet转化成矩阵形式其中Ntrain表示TrainSet的评论数目,Ntest表示TestSet的评论数目。
(5-5)将TrainMatrixs作为训练数据,输入步骤(5)分类器进行训练,得到第s个基分类器,再将TestMatrixs作为测试数据,输入该基分类器进行分类,得到测试数据集在该基分类器上的输出分类概率结果n为分类类别数,Ps(Cj,x)表示TestSet中评论x的被判别为Cj类的概率。
上述的基于集成学习框架的中文网络评论情感分类方法中,步骤(6)具体是:查找测试集TestSet中评论x所属的属性类别,假设所属的属性类别有q个,则采用相对多数投票法将对应的各个基分类器的输出进行集成,取最有把握的分类概率结果,从而得到测试数据集在集成分类器的输出分类概率结果TestSet中评论x的输出分类概率P(y(x),x)及其所属类别y(x)的计算式子如下:
P(y(x),x)=max(Ps(Cj,x))(s=1,2,...,S;j=1,2,...,n)
其中n为分类类别数,最终得到测试数据集TestSet在集成分类器的输出分类结果
与现有技术相比,本发明具有如下优点和技术效果:
1)本发明采用词性组合模式、保序子矩阵模式和频繁词序列模式作为输入特征,在特征层面上考虑中文语序信息、间隔词组特征以及句子长度大小的影响等因素,并且利用语义相似度克服了特征向量稀疏问题;
2)采用基于信息增益的随机子空间算法解决评论文本特征繁多的问题,并且在Random Subspace的基础上考虑了特征的重要度权值,保证基分类器间独立性的同时,尽量提高基分类器的分类性能;采用基于产品属性构造基分类器算法综合评论文本中每个属性的情感信息,进而判别评论的句子级情感倾向,使得最终的分类结果更加精确。
3)本发明能够准确地挖掘出电商评论的情感分类特征,适用于各种领域的电商网络评论情感分类,一方面可以使潜在消费者在购买商品前了解商品的评价信息,另一方面可以使商家更加充分地了解消费者的意见,从而提高服务质量,具有极大的实用价值。
附图说明
图1是实例中的流程示意图。
图2是将不同输入特征向量的单分类器和本发明的方法进行对比的实验结果图。
图3是将不同的经典集成学习算法和本发明的方法进行对比的实验结果图。
具体实施方式
以下结合附图和实例对本发明的实施方式作进一步说明,但本发明的实施和保护不限于此。
本实例的一种基于集成学习框架的中文网络评论情感分类方法,主要包括以下部分:1)采用词性组合模式、保序子矩阵模式和频繁词序列模式作为输入特征,在特征层面上考虑中文语序信息、间隔词组特征以及句子长度大小的影响等因素,使得特征携带更完整的语义信息和情感信息,并且利用语义相似度克服了特征向量稀疏问题;2)采用基于信息增益的随机子空间算法,解决了评论文本复杂多样而造成的特征繁多问题,并且在RandomSubspace的基础上考虑了特征的重要度权值,根据重要度权值抽取特征子空间,保证基分类器间独立性的同时,尽量提高基分类器的分类性能;3)采用基于产品属性构造基分类器算法,考虑不同产品属性对应不完全相同的特征集合、相同的特征在不同产品属性中可能起到的不同影响,并且综合了评论文本中不同产品属性的情感分类概率,使得最终的分类结果更加精确。下面将进行详细地介绍。
图1为一种基于集成学习框架的中文网络评论情感分类方法的流程示意图,具体描述如下:
(1)输入某一领域比如酒店领域的中文网络评论大数据集及该领域的评测数据集,并对大数据集和评测数据集数据进行中文分词和词性标注,并将评测数据集划分成训练集、验证集和测试集;
(2)类序列规则(Class Sequence Rules,CSR)是传统序列模式挖掘的变种,它在序列模式挖掘的基础上考虑了类信息。本发明在Pei等人提出的PrefixSpan频繁序列模式挖掘算法(Pei Jian,Han Jiawei,Mortazavi-Asl Behzad,et al.Mining SequentialPatterns by Pattern-Growth:The Prefixspan Approach[J].IEEE Transactions onKnowledge and Data Engineering,2004,16(11):1424-1440)的基础上进行改进,考虑加入由类信息所决定的置信度,实现基于类序列规则的产品属性提取方法,在中文网络评论大数据集中提取出相应领域的产品属性集合,并划分产品属性类别属性类别,具体过程是:
(2-1)将中文网络评论大数据集DataSet中经过中文分词和词性标注处理后,得到词性序列,例如“房间/n,很/d,舒服/a,&,服务/n,很/d,好/a,&,价格/n,不/d,便宜/a”,并将结果存入数据库DB中;
(2-2)从中文网络评论大数据集DataSet中人工抽取部分属性词和情感词作为种子词,形成种子属性词AspectWords和种子情感词SentimentWords,并规定在评论语料中标注这些种子词时,用符号“#”表示属性词,用符号“*”表示情感词;
(2-3)类序列规则(Class Sequence Rules,CSR)是传统序列模式挖掘的变种,它在序列模式挖掘的基础上考虑了类信息,首先需要给定类标签,一个类序列规则包含一个序列模式和一个类标签,通过将模式和类信息结合起来,找到与类信息具有高度相关性的序列模式。本发明将属性词和情感词搭配信息作为类序列规则中的类信息,对数据库DB进行一次扫描,根据种子属性词AspectWords和种子情感词SentimentWords,对数据库DB中部分序列标注样本进行种子词标注得到类信息,然后去掉词语,只保留词性和类信息,得到带有类信息的词性序列,例如“#/n,/d,*/a,&,#/n,/d,*/a,&,#/n,/d,*/a,&”(“&”表示标点符号,作为评论中每个分句的分隔符)。
(2-4)在Pei等人提出的PrefixSpan频繁序列模式挖掘算法(Pei Jian,HanJiawei,Mortazavi-Asl Behzad,et al.Mining Sequential Patterns by Pattern-Growth:The Prefixspan Approach[J].IEEE Transactions on Knowledge and DataEngineering,2004,16(11):1424-1440)的基础上进行改进,考虑加入由类信息所决定的置信度,挖掘满足最小支持度min_sup=α×num和最小置信度min_con的频繁词性序列集合frePOS,其中α为最小支持度比例,num为DataSet数目大小;
(2-5)将中文网络评论大数据集DataSet的所有评论的标点符号作为分句的分隔符,筛选frePOS中满足所有元素都在中文网络评论大数据集DataSet的所有评论中同一分句的频繁词性序列,作为提取产品属性的类序列规则CSRS
(2-6)利用类序列规则CSRS中的词性序列和类信息,将中文网络评论大数据集DataSet中所有满足条件的属性词语提取出来,从而得到产品属性词语集合A;
(2-7)为了对产品属性类别进行划分,首先需要确定产品属性类别基准词,第一,产品属性类别之间尽可能没有交集词语;第二,每个产品属性类别集合要囊括尽可能多的同类属性词语;
(2-8)采用Mikolov等人在2013年提出的著名的word2vec词向量训练工具(Mikolov Tomas,Chen Kai,Corrado Greg,et al.Efficient Estimation of WordRepresentations in Vector Space[J].Computer Science,2013)对中文网络评论大数据集进行训练,得到产品属性类别集合的词嵌入矩阵W∈Rd×|A|,其中W的每一列代表一个属性词向量,d表示向量的维度,A表示属性词表,|A|表示词表规模;假设产品属性类别基准词的词嵌入矩阵Wbase∈Rd×n,Xi是W中的第i属性词向量,Xj是Wbase中的第j属性类别基准词向量,采用余弦距离来衡量Xi和Xj之间的语义相似度,计算公式如式(8)所示:
(2-9)根据上式,分别计算产品属性类别集合中的每一个属性词和n个属性类别基准词之间的语义相似度,并设定超参数最小相似度min_Sim,如果属性词与多个属性类别基准词之间的相似度大于min_Sim,则选取与该属性词的相似度最大的属性类别基准词作为属性类别标记;如果属性词语全部n个属性类别基准词之间的相似度都小于min_Sim,则将该属性词的属性类别归类为“其它”。
(3)在评测数据集的训练集中提取出三种特征模式,分别为词性组合模式、频繁词序列
模式和保序子矩阵模式,具体过程是:
(3-1)在第一种特征提取方法中,本发明通过词性组合模式来挖掘连续词组特征。本发明结合中文网络评论的特点,总结归纳了下面八种词性组合模式,如表1所示。
其中,词语的词性表示参考中科院《计算所汉语词性标记集》,“d”表示副词,“a”表示形容词,“v”表示动词,“n”表示名词,“ude1”表示助词“的”。
(3-2)根据语料进行分词和词性标注的结果,然后通过词性组合规则挖掘得到词性组合模式feature_pos,将其作为情感分类任务的输入特征之一。
(3-3)在PrefixSpan频繁序列模式挖掘算法的基础上加上一些实验超参数的限制,从而保证挖掘出有效的频繁词序列模式,实验超参数包括最小支持度min_sup、最大间隔阈值max_gap和最小区分阈值min_dist。最后挖掘得到的频繁词序列模式feature_freseq作为情感分类任务的输入特征之一。
改进的Prefixspan算法具体如下所示:
输入:类信息{C1,C2,...,Cn},词性序列S,最小支持阈值min_sup,最小置信度min_con
输出:满足类序列规则的词性序列模式
参数:α一个序列模式;
lα的长度
SD|α如果α不为空,SD|α是α的投影数据库,否则就是词性序列数据库S算法的具体操作步骤如下:
1)对投影数据库SD|α进行一次扫描,根据事先定义好的类信息{C1,C2,...,Cn},标注部分样本作为投影数据库,建立序列与类信息之间的映射关系。
2)寻找满足最小支持度阈值min_sup的频繁项目b,其中b可以集合成为α的最后一个元素或者<b>可以被追加到α上,形成一个序列模式。
3)对于每一个连续的项b,将其添加到α上形成一个序列α',并且输出α'。
4)对于每一个α',创建一个α'投影数据库SD|α'。
5)重复以上步骤搜索出其他前缀的频繁词性序列。
6)扫描原始数据库,对于每一种频繁词性序列,根据类信息计算它的置信度,如果置信度大于设定的最小置信度min_con,则输出该词性序列模式。
(3-4)利用公共子序列挖掘得到评测数据集的向量矩阵表示Wtfidf(Wtfidf的含义是?)的全部保序子矩阵模式;首先将Wtfidf每一行的非零值按从小到大排序,然后用各值所在列的列号去替换真实值,得到各行的列号序列;然后对每两行列号序列取交集,利用动态规划的思想挖掘每两行之间的所有公共子序列;最后递归地对满足最小列阈值min_column要求的公共子序列进行行拼接,输出满足最小行阈值min_row要求以及各行都来自于同一类情感标签评论的保序子矩阵模式feature_opsm,连同(3-2)得到的词性组合模式feature_pos和频繁词序列模式feature_freseq,一起作为情感分类任务的输入特征。
(4)将评测数据集中的训练集、验证集和测试集和三种特征模式集合分别根据产品属性类别中的产品属性进行归类,具体过程是:
(4-1)匹配前述步骤(1)中的训练集TrainSet和测试集TestSet中每个评论是否包含产品属性类别集合A中每个属性类别的词语,如果包含A中一个类别的任一属性词语,则该评论属于该产品属性类别的数据;如果不包含任何属性词语,则该评论属于产品属性类别外的数据,该属性类别定义为“无属性”;最后分别将TrainSet和TestSet分成p+1份,表示成TrainSet1,TrainSet2,...,TrainSetp+1和TestSet1,TestSet2,...,TestSetp+1,其中p>0,表示预先设定的产品属性类别数。
(4-2)匹配特征模式集合T中的每一个特征是否出现于TrainSet1,TrainSet2,...,TrainSetp+1,从而将T根据属性类别分成p+1份,表示成T1,T2,...,Tp+1
(5)本发明在Ho等人提出的随机子空间算法(Ho Tin Kam.The Random SubspaceMethod for Constructing Decision Forests[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,1998,20(8):832-844)基础上进行改进,提出了一种基于信息增益的随机子空间算法,对于每个产品属性类别中的训练集评论语料和特征模式集合,分别采用基于信息增益的随机子空间算法构建集成分类器,从而得到对应产品属性类别测试集中样本的输出分类概率结果,具体过程是:
(5-1)采用基于信息增益的随机子空间算法计算特征模式集合T={t1,t2,...,ti,...,tm}中的每个特征的信息增益量,得到m个特征的信息增益量集合IG={Ig1,Ig2,...,Igi,...,Igm},第i个特征ti的信息增益量计算式子如下:
其中,表示除了特征ti以外的其他特征集合,数据样本的类别标签集合C={C1,C2,...,Cj,...,Cn},i表示特征ti的序号,j表示类别标签Cj的序号,n表示类别标签的个数,H表示信息熵,P表示计算概率;
(5-2)将T所有特征的信息增益量进行归一化处理,得到m个特征的重要度权值δ={δ12,...,δi,...,δm},第i个特征ti的归一化计算式子如下:
其中,Igj表示第j个特征tj的信息增益量。
(5-3)将第i个特征ti的重要度权值δi作为ti的抽取概率,从特征集合T中随机抽取R个特征,构成第s个特征子空间Tsubs={t1,t2,...,tr,...,tR},其中s>0。
(5-4)匹配前述步骤(1)中的训练集TrainSet和测试集TestSet中每个评论是否包含Tsubs中的特征,如果包含特征tr,则第r个维度的值为1,反之为0,从而将每个评论文本全部转化成一个R维的特征向量,最后将TrainSet和TestSet转化成矩阵形式其中Ntrain表示TrainSet的评论数目,Ntest表示TestSet的评论数目。
(5-5)将TrainMatrixs作为训练数据,输入步骤(5)分类器进行训练,得到第s个基分类器,再将TestMatrixs作为测试数据,输入该基分类器进行分类,得到测试数据集在该基分类器上的输出分类概率结果n为分类类别数,Ps(Cj,x)表示TestSet中评论x的被判别为Cj类的概率。
(6)判断测试集中每个评论文本所属的产品属性类别,本发明提出了基于产品属性构造基分类器算法对评论进行集成情感分类,集成评论文本中每个属性在步骤(5)得到的分类概率,从而得到测试集中样本的最终分类结果,并计算分类准确率,具体过程是:查找测试集TestSet中评论x所属的属性类别,假设所属的属性类别有q个,则采用相对多数投票法将对应的各个基分类器的输出进行集成,取最有把握的分类概率结果,从而得到测试数据集在集成分类器的输出分类概率结果TestSet中评论x的输出分类概率P(y(x),x)及其所属类别y(x)的计算式子如下:
P(y(x),x)=max(Ps(Cj,x))(s=1,2,...,S;j=1,2,...,n)
其中n为分类类别数,最终得到测试数据集TestSet在集成分类器的输出分类结果
针对本发明方法进行实验论证,具体包括:
1、标准数据集:
本发明使用中国情感语料库ChnSentiCorp中的中文酒店评论数据ChnSentiCorp-Htl-ba-4000作为标准数据集验证基于集成学习框架的中文网络评论情感分类方法的有效性,包括2,000个积极情感评论文本和2,000个消极情感评论文本,经过去重等预处理操作后,剩余共3,147个评论文本。在基于词嵌入的近义词中,采用Sougou新闻语料作为word2vec训练语料,语料大小为2.01GB。另外,本发明在大众点评网站上爬取了102,268个酒店评论文本,作为提取酒店领域产品属性的评论语料。
2、评价指标:
本发明使用目前文本情感分类领域常用的评价指标:平均分类准确率(AverageAccuracy)作为本实施例的评价指标,其计算公式如下式所示:
上式中,TP(True Positive)表示分类模型正确预测的积极样本数,TN(TrueNegative)表示分类模型正确预测的消极样本数,FP(False Positive)表示分类模型错误预测的积极样本数,FN(False Negative)表示分类模型错误预测的消极样本数。
3、实验流程
为了验证本发明所提方法的有效性,本发明在实验方案中设置了两组对比实验,第一组将本发明提出的方法和单分类器进行对比,单分类器分别采用不同的输入特征向量;第二组将本发明的方法和经典集成学习分类算法进行对比。分类器包括LogisticsRegression(LR),Decision Tree(DT),Support Vector Machine(SVM)。本发明采用了Scikit-Learn和WEKA来实现方案中的对比实验,参数统一取默认值。
另外,本发明的实验框架存在一些超参数,如基于信息增益的随机子空间算法中的特征子空间数目S,对于这些超参数的确定,本发明使用控制变量法进行调参。在确定某个超参数时,首先设置一组该超参数的值,然后保持其它超参数不变,通过验证集在实验中的平均分类准确率确定最优值。最终得到的最优超参数值如表2所示:
表2最优超参数值
4、实验结果
第一组对比实验将不同输入特征向量的单分类器和本发明的方法进行对比,实验结果如表3和图2所示,其中不同的输入特征向量分别如下:
“lexicon+TF-IDF”:表示输入特征是基于情感词典提取的词语,再使用TF-IDF方法对评论文本进行向量化,其中情感词典采用知网“情感分析词语集(beta版)”和“台湾大学简体中文情感极性词典NTUSD”的并集;
“word2vec”:表示采用word2vec对评论语料进行训练,得到词向量,再将词向量相加求平均得到评论的输入特征向量;
“pos+freseq+opsm”:表示文中提到的三种特征进行合并,词性组合模式feature_pos、频繁词序列模式feature_freseq和保序子矩阵模式feature_opsm,再根据特征是否在评论中出现生成0/1输入特征向量。
第二组对比实验将不同的经典集成学习算法和本发明的方法进行对比,集成学习算法包括Bagging、Boosting、Random Subspace,“Random Subspace_IG”代表基于信息增益的随机子空间算法,输入特征向量采用“pos+freseq+opsm”形式,实验结果如表4和图3所示。
综合表4和表5的实验结果可以看出:1)在单分类器实验中,“pos+freseq+opsm”的分类准率均高于“lexicon+TF-IDF”和“word2vec”,主要是因为前者采用三种特征模式作为输入特征,考虑了句子语序信息、句子长度大小的影响、间隔词组特征等因素,并且利用语义相似度克服了“lexicon+TF-IDF”的特征向量稀疏问题;2)Random Subspace的情感分类准确率均高于单分类器实验中的“pos+freseq+opsm”,主要原因是“pos+freseq+opsm”将feature_pos、feature_freseq和feature_opsm三种特征模式简单地进行合并,造成特征向量非常稀疏,而Random Subspace则采用随机划分特征子空间的方法解决了特征稀疏问题;3)“Random Subspace_IG”的情感分类准确率稍高于经典的Random Subspace,主要原因是“Random Subspace_IG”在Random Subspace基础上考虑了特征的重要度权值,根据重要度权值抽取特征子空间,在保证基分类器之间独立性的同时,尽量提高基分类器的分类性能;4)本发明方法的实验效果均好于三种经典集成分类算法和“Random Subspace_IG”,特别是在LR分类算法上达到了90.3%的平均分类准确率,主要原因是本发明的方法考虑了不同产品属性对应不完全相同的特征集合、相同的特征在不同产品属性中可能起到的不同影响,并且综合了评论文本中不同产品属性的输出分类概率,使得最终的分类结果更加精确。

Claims (7)

1.基于集成学习框架的中文网络评论情感分类方法,其特征在于,包括以下步骤:
(1)输入某一领域比如酒店领域的中文网络评论大数据集及该领域的评测数据集,并对大数据集和评测数据集进行中文分词和词性标注,并将评测数据集划分成训练集、验证集和测试集;
(2)类序列规则是传统序列模式挖掘的变种,它在序列模式挖掘的基础上考虑了类信息;PrefixSpan频繁序列模式挖掘算法的基础上进行改进,考虑加入由类信息所决定的置信度,实现基于类序列规则的产品属性提取方法,在中文网络评论大数据集中提取出相应领域的产品属性集合,并划分产品属性类别;
(3)在评测数据集的训练集中提取出三种特征模式,分别为词性组合模式、频繁词序列模式和保序子矩阵模式;
(4)将评测数据集中的训练集、验证集和测试集和三种特征模式集合分别根据产品属性类别中的产品属性进行归类;
(5)本发明在Ho等人提出的随机子空间算法基础上进行改进,提出了一种基于信息增益的随机子空间算法,对于每个产品属性类别中的训练集评论语料和特征模式集合,分别采用基于信息增益的随机子空间算法构建集成分类器,从而得到对应产品属性类别测试集中样本的输出分类概率结果;
(6)判断测试集中每个评论文本所属的产品属性类别,基于产品属性构造基分类器算法对评论进行集成情感分类,集成评论文本中每个属性在步骤(5)得到的分类概率,从而得到测试集中样本的最终分类结果,并计算分类准确率。
2.如权利要求1所述基于集成学习框架的中文网络评论情感分类方法,其特征在于所述步骤(1)具体是:对某一领域比如酒店领域的中文网络评论大数据集及该领域的评测数据集进行预处理,包括去除空白行、去除重复行,然后按照3:1:1的比例将其中的评测数据集同时随机划分成训练集、验证集和测试集,且保证三者中积极和消极的评论数基本平衡,使用中科院ICTCLAS对中文评论语料进行中文分词和词性标注。
3.如权利要求1所述基于集成学习框架的中文网络评论情感分类方法,其特征在于所述步骤(2)包括以下步骤:
(2-1)将中文网络评论大数据集DataSet中经过中文分词和词性标注处理后,得到词性序列,例如“房间/n,很/d,舒服/a,&,服务/n,很/d,好/a,&,价格/n,不/d,便宜/a”,并将结果存入数据库DB中;
(2-2)从中文网络评论大数据集DataSet中人工抽取部分属性词和情感词作为种子词,形成种子属性词AspectWords和种子情感词SentimentWords,并规定在评论语料中标注这些种子词时,用符号“#”表示属性词,用符号“*”表示情感词;
(2-3)类序列规则是传统序列模式挖掘的变种,它在序列模式挖掘的基础上考虑了类信息,首先需要给定类标签,一个类序列规则包含一个序列模式和一个类标签,通过将模式和类信息结合起来,找到与类信息具有高度相关性的序列模式。本发明将属性词和情感词搭配信息作为类序列规则中的类信息,对数据库DB进行一次扫描,根据种子属性词AspectWords和种子情感词SentimentWords,对数据库DB中部分序列标注样本进行种子词标注得到类信息,然后去掉词语,只保留词性和类信息,得到带有类信息的词性序列;
(2-4)在PrefixSpan频繁序列模式挖掘算法的基础上进行改进,加入由类信息所决定的置信度,挖掘满足最小支持度min_sup=α×num和最小置信度min_con的频繁词性序列集合frePOS,其中α为最小支持度比例,num为DataSet数目大小;
(2-5)将中文网络评论大数据集DataSet的所有评论的标点符号作为分句的分隔符,筛选frePOS中满足所有元素都在中文网络评论大数据集DataSet的所有评论中同一分句的频繁词性序列,作为提取产品属性的类序列规则CSRS
(2-6)利用类序列规则CSRS中的词性序列和类信息,将中文网络评论大数据集DataSet中所有满足条件的属性词语提取出来,从而得到产品属性词语集合A;
(2-7)为了对产品属性类别进行划分,首先需要确定产品属性类别基准词,第一,产品属性类别之间尽可能没有交集词语;第二,每个产品属性类别集合要囊括尽可能多的同类属性词语;
(2-8)采用word2vec词向量训练工具对中文网络评论大数据集进行训练,得到产品属性类别集合的词嵌入矩阵W∈Rd×|A|,其中W的每一列代表一个属性词向量,d表示向量的维度,A表示属性词表,|A|表示词表规模;假设产品属性类别基准词的词嵌入矩阵Wbase∈Rd×n,Xi是W中的第i属性词向量,Xj是Wbase中的第j属性类别基准词向量,采用余弦距离来衡量Xi和Xj之间的语义相似度,计算公式如式(8)所示:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>X</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>&amp;CenterDot;</mo> <msub> <mi>X</mi> <mi>j</mi> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>&amp;times;</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>X</mi> <mi>j</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>;</mo> </mrow>
(2-9)根据上式,分别计算产品属性类别集合中的每一个属性词和n个属性类别基准词之间的语义相似度,并设定超参数最小相似度min_Sim,如果属性词与多个属性类别基准词之间的相似度大于min_Sim,则选取与该属性词的相似度最大的属性类别基准词作为属性类别标记;如果属性词语全部n个属性类别基准词之间的相似度都小于min_Sim,则将该属性词的属性类别归类为“其它”。
4.如权利要求1所述基于集成学习框架的中文网络评论情感分类方法,其特征在于所述步骤(3)包括以下步骤:
(3-1)第一种特征提取方法是通过词性组合模式来挖掘连续词组特征;结合中文网络评论的特点,得出八种词性组合模式;
(3-2)根据语料进行分词和词性标注的结果,然后通过词性组合规则挖掘得到词性组合模式feature_pos,将其作为情感分类任务的输入特征之一;
(3-3)在PrefixSpan频繁序列模式挖掘算法的基础上加上一些实验超参数的限制,从而保证挖掘出有效的频繁词序列模式,所述实验超参数包括最小支持度min_sup、最大间隔阈值max_gap和最小区分阈值min_dist;最后挖掘得到的频繁词序列模式feature_freseq作为情感分类任务的输入特征之一;
(3-4)利用公共子序列挖掘得到评测数据集的向量矩阵Wtfidf的全部保序子矩阵模式;首先将Wtfidf每一行的非零值按从小到大排序,然后用各值所在列的列号去替换真实值,得到各行的列号序列;然后对每两行列号序列取交集,利用动态规划的思想挖掘每两行之间的所有公共子序列;最后递归地对满足最小列阈值min_column要求的公共子序列进行行拼接,输出满足最小行阈值min_row要求以及各行都来自于同一类情感标签评论的保序子矩阵模式feature_opsm,连同(3-2)得到的词性组合模式feature_pos和频繁词序列模式feature_freseq,一起作为情感分类任务的输入特征。
5.如权利要求1所述基于集成学习框架的中文网络评论情感分类方法,其特征在于所述步骤(4)包括以下步骤:
(4-1)匹配前述步骤(1)中的训练集TrainSet和测试集TestSet中每个评论是否包含产品属性类别集合A中每个属性类别的词语,如果包含A中一个类别的任一属性词语,则该评论属于该产品属性类别的数据;如果不包含任何属性词语,则该评论属于产品属性类别外的数据,该属性类别定义为“无属性”;最后分别将TrainSet和TestSet分成p+1份,表示成TrainSet1,TrainSet2,...,TrainSetp+1和TestSet1,TestSet2,...,TestSetp+1,其中p>0,是预先设定的产品属性类别数;
(4-2)匹配特征模式集合T中的每一个特征是否出现于TrainSet1,TrainSet2,...,TrainSetp+1,从而将T根据属性类别分成p+1份,表示成T1,T2,...,Tp+1
6.如权利要求1所述基于集成学习框架保序子矩阵和频繁序列挖掘的中文网络评论情感分类方法,其特征在于所述步骤(5)包括以下步骤:
(5-1)采用基于信息增益的随机子空间算法算法计算特征模式集合T={t1,t2,...,ti,...,tm}中的每个特征的信息增益量,得到m个特征的信息增益量集合IG={Ig1,Ig2,...,Igi,...,Igm},第i个特征ti的信息增益量计算式子如下:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>Ig</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>H</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>H</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>|</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>t</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mover> <mi>t</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>log</mi> <mn>2</mn> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mover> <mi>t</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,表示除了特征ti以外的其他特征集合,数据样本的类别标签集合C={C1,C2,...,Cj,...,Cn},i表示特征ti的序号,j表示类别标签Cj的序号,n表示类别标签的个数,H表示信息熵,P表示计算概率;
(5-2)将T所有特征的信息增益量进行归一化处理,得到m个特征的重要度权值δ={δ12,...,δi,...,δm},第i个特征ti的归一化计算式子如下:
<mrow> <msub> <mi>&amp;delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>Ig</mi> <mi>i</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mrow> <mo>|</mo> <mrow> <msub> <mi>Ig</mi> <mi>j</mi> </msub> </mrow> <mo>|</mo> </mrow> </mrow> </mfrac> </mrow>
其中,Igj表示第j个特征tj的信息增益量;
(5-3)将第i个特征ti的重要度权值δi作为ti的抽取概率,从特征集合T中随机抽取R个特征,构成第s个特征子空间Tsubs={t1,t2,...,tr,...,tR},其中s>0;
(5-4)匹配前述步骤(1)中的训练集TrainSet和测试集TestSet中每个评论是否包含Tsubs中的特征,如果包含特征tr,则第r个维度的值为1,反之为0,从而将每个评论文本全部转化成一个R维的特征向量,最后将TrainSet和TestSet转化成矩阵形式其中Ntrain表示TrainSet的评论数目,Ntest表示TestSet的评论数目。;
(5-5)将TrainMatrixs作为训练数据,输入步骤(5)中的分类器进行训练,得到第s个基分类器,再将TestMatrixs作为测试数据,输入该基分类器进行分类,得到测试数据集在该基分类器上的输出分类概率结果n为分类类别数,Ps(Cj,x)表示TestSet中评论x的被判别为Cj类的概率。
7.如权利要求1所述基于集成学习框架的中文网络评论情感分类方法,其特征在于所述步骤(6)具体是:查找测试集TestSet中评论x所属的属性类别,假设所属的属性类别有q个,则采用相对多数投票法将对应的各个基分类器的输出进行集成,取最有把握的分类概率结果,从而得到测试数据集在集成分类器的输出分类概率结果TestSet中评论x的输出分类概率P(y(x),x)及其所属类别y(x)的计算式子如下:
P(y(x),x)=max(Ps(Cj,x)) (s=1,2,...,S;j=1,2,...,n)
<mrow> <mi>y</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>argmax</mi> <msub> <mi>C</mi> <mi>j</mi> </msub> </munder> <mrow> <mo>(</mo> <msub> <mi>P</mi> <mi>s</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>C</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>x</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mi>s</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>S</mi> <mo>;</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>
其中n为分类类别数,最终得到测试数据集TestSet在集成分类器的输出分类结果
<mrow> <mi>Y</mi> <mo>&amp;Element;</mo> <msup> <mi>R</mi> <mrow> <mn>1</mn> <mo>&amp;times;</mo> <msub> <mi>N</mi> <mrow> <mi>t</mi> <mi>s</mi> <mi>e</mi> <mi>t</mi> </mrow> </msub> </mrow> </msup> <mo>.</mo> </mrow> 4
CN201710713966.3A 2017-08-18 2017-08-18 基于集成学习框架的中文网络评论情感分类方法 Active CN107491531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710713966.3A CN107491531B (zh) 2017-08-18 2017-08-18 基于集成学习框架的中文网络评论情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710713966.3A CN107491531B (zh) 2017-08-18 2017-08-18 基于集成学习框架的中文网络评论情感分类方法

Publications (2)

Publication Number Publication Date
CN107491531A true CN107491531A (zh) 2017-12-19
CN107491531B CN107491531B (zh) 2019-05-17

Family

ID=60645311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710713966.3A Active CN107491531B (zh) 2017-08-18 2017-08-18 基于集成学习框架的中文网络评论情感分类方法

Country Status (1)

Country Link
CN (1) CN107491531B (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417210A (zh) * 2018-01-10 2018-08-17 苏州思必驰信息科技有限公司 一种词嵌入语言模型训练方法、词语识别方法及系统
CN108647205A (zh) * 2018-05-02 2018-10-12 深圳前海微众银行股份有限公司 细粒度情感分析模型构建方法、设备及可读存储介质
CN108710802A (zh) * 2018-06-08 2018-10-26 南京大学 一种特征优选的Android勒索软件检测方法
CN108717407A (zh) * 2018-05-11 2018-10-30 北京三快在线科技有限公司 实体向量确定方法及装置,信息检索方法及装置
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN108804524A (zh) * 2018-04-27 2018-11-13 成都信息工程大学 基于层次化分类体系的情感判别和重要性划分方法
CN108804416A (zh) * 2018-05-18 2018-11-13 大连民族大学 基于机器学习的影评情感倾向性分析的训练方法
CN109145187A (zh) * 2018-07-23 2019-01-04 浙江大学 基于评论数据的跨平台电商欺诈检测方法和系统
CN109190121A (zh) * 2018-09-03 2019-01-11 重庆工商大学 基于汽车本体和词性规则的汽车评论情感分析方法
CN109213831A (zh) * 2018-08-14 2019-01-15 阿里巴巴集团控股有限公司 事件检测方法和装置、计算设备及存储介质
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN109933648A (zh) * 2019-02-28 2019-06-25 北京学之途网络科技有限公司 一种真实用户评论的区分方法和区分装置
CN110008332A (zh) * 2019-02-13 2019-07-12 阿里巴巴集团控股有限公司 通过强化学习提取主干词的方法及装置
CN110362808A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362809A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362810A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110377915A (zh) * 2019-07-25 2019-10-25 腾讯科技(深圳)有限公司 文本的情感分析方法、装置、存储介质及设备
CN110390018A (zh) * 2019-07-25 2019-10-29 哈尔滨工业大学 一种基于lstm的社交网络评论生成方法
CN110555104A (zh) * 2018-03-26 2019-12-10 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110838343A (zh) * 2019-11-15 2020-02-25 山东中医药大学 一种基于多模态指纹图谱的中药药性识别方法及系统
WO2020056621A1 (zh) 2018-09-19 2020-03-26 华为技术有限公司 一种意图识别模型的学习方法、装置及设备
CN111126046A (zh) * 2019-12-06 2020-05-08 腾讯云计算(北京)有限责任公司 语句特征的处理方法和装置、存储介质
CN111143569A (zh) * 2019-12-31 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质
CN111159409A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN111177392A (zh) * 2019-12-31 2020-05-19 腾讯云计算(北京)有限责任公司 一种数据处理方法及装置
CN111241271A (zh) * 2018-11-13 2020-06-05 网智天元科技集团股份有限公司 文本情感分类方法、装置及电子设备
CN111400496A (zh) * 2020-03-18 2020-07-10 江苏海洋大学 一种面向用户行为分析的大众口碑情感分析方法
CN111565322A (zh) * 2020-05-14 2020-08-21 北京奇艺世纪科技有限公司 一种用户情感倾向信息获得方法、装置及电子设备
CN111695359A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111931481A (zh) * 2020-07-03 2020-11-13 北京新联财通咨询有限公司 文本情感识别方法、装置、存储介质及计算机设备
CN112417157A (zh) * 2020-12-15 2021-02-26 华南师范大学 一种基于深度学习网络的文本属性词的情感分类方法
CN112685558A (zh) * 2019-10-18 2021-04-20 普天信息技术有限公司 一种情感分类模型的训练方法及装置
CN112686056A (zh) * 2021-03-22 2021-04-20 华南师范大学 一种情感分类方法
CN112905736A (zh) * 2021-01-27 2021-06-04 郑州轻工业大学 一种基于量子理论的无监督文本情感分析方法
CN112988975A (zh) * 2021-04-09 2021-06-18 北京语言大学 一种基于albert和知识蒸馏的观点挖掘方法
CN113449100A (zh) * 2020-03-26 2021-09-28 北京国双科技有限公司 文本的评论性质识别方法、机器学习模型训练方法及装置
CN113792148A (zh) * 2021-11-15 2021-12-14 成都晓多科技有限公司 一种基于序列到序列的评论方面类别检测方法及系统
CN112685558B (zh) * 2019-10-18 2024-05-17 普天信息技术有限公司 一种情感分类模型的训练方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789498B (zh) * 2012-07-16 2014-08-06 钱钢 基于集成学习的中文评论文本的情感分类方法与系统
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789498B (zh) * 2012-07-16 2014-08-06 钱钢 基于集成学习的中文评论文本的情感分类方法与系统
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置

Cited By (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417210A (zh) * 2018-01-10 2018-08-17 苏州思必驰信息科技有限公司 一种词嵌入语言模型训练方法、词语识别方法及系统
CN108417210B (zh) * 2018-01-10 2020-06-26 苏州思必驰信息科技有限公司 一种词嵌入语言模型训练方法、词语识别方法及系统
CN110555104A (zh) * 2018-03-26 2019-12-10 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362810A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362809A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN110362808A (zh) * 2018-03-26 2019-10-22 优酷网络技术(北京)有限公司 文本分析方法及装置
CN108804512B (zh) * 2018-04-20 2020-11-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN108804524A (zh) * 2018-04-27 2018-11-13 成都信息工程大学 基于层次化分类体系的情感判别和重要性划分方法
CN108804524B (zh) * 2018-04-27 2020-03-27 成都信息工程大学 基于层次化分类体系的情感判别和重要性划分方法
CN108647205B (zh) * 2018-05-02 2022-02-15 深圳前海微众银行股份有限公司 细粒度情感分析模型构建方法、设备及可读存储介质
CN108647205A (zh) * 2018-05-02 2018-10-12 深圳前海微众银行股份有限公司 细粒度情感分析模型构建方法、设备及可读存储介质
CN108717407B (zh) * 2018-05-11 2022-08-09 北京三快在线科技有限公司 实体向量确定方法及装置,信息检索方法及装置
CN108717407A (zh) * 2018-05-11 2018-10-30 北京三快在线科技有限公司 实体向量确定方法及装置,信息检索方法及装置
CN108804416A (zh) * 2018-05-18 2018-11-13 大连民族大学 基于机器学习的影评情感倾向性分析的训练方法
CN108710802A (zh) * 2018-06-08 2018-10-26 南京大学 一种特征优选的Android勒索软件检测方法
CN109145187A (zh) * 2018-07-23 2019-01-04 浙江大学 基于评论数据的跨平台电商欺诈检测方法和系统
CN109213831A (zh) * 2018-08-14 2019-01-15 阿里巴巴集团控股有限公司 事件检测方法和装置、计算设备及存储介质
CN109190121A (zh) * 2018-09-03 2019-01-11 重庆工商大学 基于汽车本体和词性规则的汽车评论情感分析方法
WO2020056621A1 (zh) 2018-09-19 2020-03-26 华为技术有限公司 一种意图识别模型的学习方法、装置及设备
CN111241271A (zh) * 2018-11-13 2020-06-05 网智天元科技集团股份有限公司 文本情感分类方法、装置及电子设备
CN111241271B (zh) * 2018-11-13 2023-04-25 网智天元科技集团股份有限公司 文本情感分类方法、装置及电子设备
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN110008332A (zh) * 2019-02-13 2019-07-12 阿里巴巴集团控股有限公司 通过强化学习提取主干词的方法及装置
CN109933648A (zh) * 2019-02-28 2019-06-25 北京学之途网络科技有限公司 一种真实用户评论的区分方法和区分装置
CN110390018A (zh) * 2019-07-25 2019-10-29 哈尔滨工业大学 一种基于lstm的社交网络评论生成方法
CN110377915B (zh) * 2019-07-25 2022-11-29 腾讯科技(深圳)有限公司 文本的情感分析方法、装置、存储介质及设备
CN110377915A (zh) * 2019-07-25 2019-10-25 腾讯科技(深圳)有限公司 文本的情感分析方法、装置、存储介质及设备
CN112685558A (zh) * 2019-10-18 2021-04-20 普天信息技术有限公司 一种情感分类模型的训练方法及装置
CN112685558B (zh) * 2019-10-18 2024-05-17 普天信息技术有限公司 一种情感分类模型的训练方法及装置
CN110838343A (zh) * 2019-11-15 2020-02-25 山东中医药大学 一种基于多模态指纹图谱的中药药性识别方法及系统
CN110838343B (zh) * 2019-11-15 2022-03-01 山东中医药大学 一种基于多模态指纹图谱的中药药性识别方法及系统
CN111126046B (zh) * 2019-12-06 2023-07-14 腾讯云计算(北京)有限责任公司 语句特征的处理方法和装置、存储介质
CN111126046A (zh) * 2019-12-06 2020-05-08 腾讯云计算(北京)有限责任公司 语句特征的处理方法和装置、存储介质
CN111143569B (zh) * 2019-12-31 2023-05-02 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质
CN111177392A (zh) * 2019-12-31 2020-05-19 腾讯云计算(北京)有限责任公司 一种数据处理方法及装置
CN111143569A (zh) * 2019-12-31 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质
CN111159409A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN111400496A (zh) * 2020-03-18 2020-07-10 江苏海洋大学 一种面向用户行为分析的大众口碑情感分析方法
CN111400496B (zh) * 2020-03-18 2023-05-09 江苏海洋大学 一种面向用户行为分析的大众口碑情感分析方法
CN113449100A (zh) * 2020-03-26 2021-09-28 北京国双科技有限公司 文本的评论性质识别方法、机器学习模型训练方法及装置
WO2021190275A1 (zh) * 2020-03-26 2021-09-30 北京国双科技有限公司 文本的评论性质识别方法、机器学习模型训练方法及装置
CN111565322A (zh) * 2020-05-14 2020-08-21 北京奇艺世纪科技有限公司 一种用户情感倾向信息获得方法、装置及电子设备
CN111565322B (zh) * 2020-05-14 2022-03-04 北京奇艺世纪科技有限公司 一种用户情感倾向信息获得方法、装置及电子设备
CN111695359B (zh) * 2020-06-12 2023-10-03 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111695359A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111931481A (zh) * 2020-07-03 2020-11-13 北京新联财通咨询有限公司 文本情感识别方法、装置、存储介质及计算机设备
CN112417157A (zh) * 2020-12-15 2021-02-26 华南师范大学 一种基于深度学习网络的文本属性词的情感分类方法
CN112905736A (zh) * 2021-01-27 2021-06-04 郑州轻工业大学 一种基于量子理论的无监督文本情感分析方法
CN112905736B (zh) * 2021-01-27 2023-09-19 郑州轻工业大学 一种基于量子理论的无监督文本情感分析方法
CN112686056A (zh) * 2021-03-22 2021-04-20 华南师范大学 一种情感分类方法
CN112988975A (zh) * 2021-04-09 2021-06-18 北京语言大学 一种基于albert和知识蒸馏的观点挖掘方法
CN113792148B (zh) * 2021-11-15 2022-02-11 成都晓多科技有限公司 一种基于序列到序列的评论方面类别检测方法及系统
CN113792148A (zh) * 2021-11-15 2021-12-14 成都晓多科技有限公司 一种基于序列到序列的评论方面类别检测方法及系统

Also Published As

Publication number Publication date
CN107491531B (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
Gu et al. " what parts of your apps are loved by users?"(T)
US8676730B2 (en) Sentiment classifiers based on feature extraction
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
US9015168B2 (en) Device and method for generating opinion pairs having sentiment orientation based impact relations
CN103646088A (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
Hamouda et al. Building machine learning based senti-word lexicon for sentiment analysis
Shirsat et al. Document level sentiment analysis from news articles
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN107315738A (zh) 一种文本信息的创新度评估方法
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
Lalata et al. A sentiment analysis model for faculty comment evaluation using ensemble machine learning algorithms
Al Qundus et al. Exploring the impact of short-text complexity and structure on its quality in social media
Zhao et al. Sentiment analysis on the online reviews based on hidden Markov model
CN112905739A (zh) 虚假评论检测模型训练方法、检测方法及电子设备
Shekhawat Sentiment classification of current public opinion on brexit: Naïve Bayes classifier model vs Python’s Textblob approach
Haque et al. Opinion mining from bangla and phonetic bangla reviews using vectorization methods
Rakhmanov A comparative study on vectorization and classification techniques in sentiment analysis to classify student-lecturer comments
CN114971730A (zh) 文案素材提取方法及其装置、设备、介质、产品
Reddy et al. N-gram approach for gender prediction
Kamal Review mining for feature based opinion summarization and visualization
Raviya et al. An Approach for Recommender System Based on Multilevel Sentiment Analysis Using Hybrid Deep Learning Models
Nguyen et al. Analyzing customer experience in hotel services using topic modeling
CN103646017A (zh) 用于命名的缩略词生成系统及其工作方法
Soni et al. Comparative analysis of rotten tomatoes movie reviews using sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210706

Address after: 210012 4th floor, building C, Wanbo Science Park, 20 Fengxin Road, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: NANJING SILICON INTELLIGENCE TECHNOLOGY Co.,Ltd.

Address before: Room 614-615, No.1, Lane 2277, Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Patentee before: Shanghai Airlines Intellectual Property Services Ltd.

Effective date of registration: 20210706

Address after: Room 614-615, No.1, Lane 2277, Zuchongzhi Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120

Patentee after: Shanghai Airlines Intellectual Property Services Ltd.

Address before: 510275 science and Technology Department of South China Normal University, Shipai, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: SOUTH CHINA NORMAL University