CN109492105A - 一种基于多特征集成学习的文本情感分类方法 - Google Patents

一种基于多特征集成学习的文本情感分类方法 Download PDF

Info

Publication number
CN109492105A
CN109492105A CN201811335524.0A CN201811335524A CN109492105A CN 109492105 A CN109492105 A CN 109492105A CN 201811335524 A CN201811335524 A CN 201811335524A CN 109492105 A CN109492105 A CN 109492105A
Authority
CN
China
Prior art keywords
text
word
emotion
words
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811335524.0A
Other languages
English (en)
Other versions
CN109492105B (zh
Inventor
陈福
陈小波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wujie Data Technology Co ltd
Original Assignee
Shanghai Wen Jun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wen Jun Information Technology Co Ltd filed Critical Shanghai Wen Jun Information Technology Co Ltd
Priority to CN201811335524.0A priority Critical patent/CN109492105B/zh
Publication of CN109492105A publication Critical patent/CN109492105A/zh
Application granted granted Critical
Publication of CN109492105B publication Critical patent/CN109492105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

本发明公开了一种基于多特征集成学习的文本情感分类方法。本方法为:文本预处理。构造词语词典和情感词典。文本在每种词典上的向量化表示。训练基分类器:在每种文本向量化表示的基础上训练分类器。最后将基分类器集成,通过多个基分类器的线性组合来决定预测文本情感的最终分类。本发明具有以下优点:通过设计词语词典和情感词典,在两个互补的特征空间对文本进行表示,可以提取文本中更丰富的情感特征。同时,集成学习可以将不同特征空间中的情感鉴别结果进行融合,提高了文本情感分类的准确度。

Description

一种基于多特征集成学习的文本情感分类方法
技术领域
本发明属于自然语言处理技术与模式识别领域,具体地说是一种基于多特征集成学习的文本情感分类方法。
背景技术
随着互联网技术的深入发展和广泛应用,人们能在网络上搜索到各种各样的信息,这些信息主要以文本、图片、音频和视频等形式表现。其中,文本是一种传递信息的重要形式。情感分类是一种按照文本所表达的情感将其分为正面、负面等类别。研究情感分类可以自动挖掘文本所蕴含的态度,可以被应用在很多场景中。如分析网民对热点事件的态度、发现购买者对产品的评价等。
文本情感分析技术可分为两类:基于情感词典的文本情感分析和基于机器学习的文本情感分析。基于情感词典的方法是采用现有的情感词典,计算文本中每个情感词语的极性及其强弱,并将这些词语的判别结果组合,得到整个文本的情感。基于机器学习的方法需要采集大量文本,并进行人工情感标注。然后使用带标注的文本作为训练数据,在特定的分类器上进行学习,得到将文本映射为对应情感的鉴别函数。由于文本内容的复杂性,基于机器学习的方法在实际问题中的分类效果往往优于基于情感词典的方法。基于机器学习的方法一般包括特征提取、特征选择、训练分类器等步骤。其中,常用的分类器一般包括支持向量机、逻辑回归、朴素贝叶斯分类器等。
传统的文本情感分析算法往往只考虑在一个词典上对文本进行向量化表示,得到文本特征空间,这种单一特征空间的方法难以表达文本中复杂的情感,本发明通过设计词语词典和情感词典,在两个互补的特征空间对文本进行表示,可以提取文本中更丰富的情感特征。同时,提出集成学习方法将不同特征空间中的情感鉴别结果进行融合,充分利用互补信息,提高了文本情感分类的准确度。
发明内容
本发明为了克服现有技术存在的不足之处,提出一种基于多特征融合集成学习的文本情感分类方法,以期能解决单一特征鉴别信息不足的问题,从而进一步提高文本情感分类的准确性。
本发明为解决技术问题采用如下技术方案:
本发明一种基于多特征融合集成学习的文本情感分类方法的特点是按如下步骤进行:
步骤1:数据获取。获取文本集合D={D1,D2,…,DN}及对应的情感标签集合Y={y1,y2,…,yN},Di表示第i个文本,yi表示第i个文本的情感类别:如果Di的情感为正面,则yi=1,如果Di的情感为负面,则yi=2,如果Di的情感为中性,则yi=3,1≤i≤N,N为文本集合D中的文本总数;
步骤:2:对文本集合D中的每个文本Di进行分词,并对分词结果进行去除停用词,从而获得第i个文本的词语集合cij表示第i个文本中的第j个词语;1≤j≤mi,mi为第i个文本中的词语总数;
步骤3:将文本集合D中N个文本的词语集合取并集,从而得到所述文本集合D的全体词语集合T={t1,t2,…,tK},tk表示所述全体词语集合T中的第k个词语,K表示所述全体词语集合T所包含的词语总数,1≤k≤K;
步骤4:从全体词语集合T中选出少量词语集合其中t(k)∈T,k=1,2,…,K1,K1为子集大小,K1≤K
步骤4.1:根据所述情感标签集合Y,使用特征选择方法计算所述全体词语集合T中第k个词语tk的重要性得分rk,从而获得K个词语的重要性得分集合R={r1,r2,…,rK};
步骤4.2:将全体词语集合T={t1,t2,…,tK}根据重要性得分rk按从大到小顺序排序,重要性高的词语排在前面,重要性低的词语排在后面,得到排序后的词语集合{t(1),t(2),…,t(K))},满足t(k)∈T,k=1,2,…,K,且r(1)≥r(2)≥…≥r(K)
步骤4.3:根据排序结果选出排在最前面的K1个词语构成词语子集
步骤5:将所述文本集合D在词语子集TA上表示成向量形式{X1,X2,…,XN}:
步骤5.1:将所述文本集合D中的所有文本映射到所述词语子集TA上,第i个文本Di中第k个词语t(k)的权重wik利用如下TF-IDF计算:
其中,wik表示第i个文本Di中第k个词语t(k)的权重,DFk表示出现词语t(k)的文本个数,TFik表示词语t(k)在文本Di中出现的次数;
步骤5.2:重复步骤5.1,从而获得第i个文本Di中在所述词语集合TA上的向量表示Xi={wi1,wi2,…wiK},进而获得所述文本集合D的1-gram向量表示{X1,X2,…,XN};
步骤6:搜集多个情感极性词典,并将这些词典合并,去除重复情感词语,获得情感词语集合S={s1,s2,…,sQ},sq表示所述情感词语集合S中的第q个词语,Q表示所述情感词语集合S所包含的情感词语总数,1≤q≤Q;
步骤7:从情感词语集合S中选出情感词语子集其中s(q)∈S,q=1,2,…,K2,K2为子集大小,K2≤Q:
步骤7.1:根据所述情感标签集合Y,使用特征选择方法计算所述情感词语集合S中第q个词语sq的重要性得分gq,从而获得Q个词语的重要性得分集合G={g1,g2,…,gQ};
步骤7.2:将情感词语集合S={s1,s2,…,sQ}根据重要性得分gq按从大到小顺序排序,重要性高的词语排在前面,重要性低的词语排在后面,得到排序后的词语集合{s(1),s(2),…,s(Q))},满足s(q)∈S,q=1,2,…,Q,且s(1)≥s(2)≥…≥s(Q)
步骤7.3:根据排序结果选出排在最前面的K2个词语构成情感词语子集
步骤8:将所述文本集合D在情感词语子集SA上表示成向量形式{Z1,Z2,…,ZN}:
步骤8.1:将所述文本集合D中的所有文本映射到所述情感词语子集SA上,并利用TF-IDF计算第i个文本Di中第q个词语sq的权重ziq
步骤8.2:重复步骤8.1,从而获得第i个文本Di在所述情感词语子集SA上的向量表示Zi={zi1,zi2,…,ziQ},进而获得所述文本集合D的情感向量表示{Z1,Z2,…,ZN};
步骤9:选择基分类器类型,以所述文本集合D在词语集合TA上的向量表示{X1,X2,…,XN}和对应的情感标签Y={y1,y2,…,yN}为训练数据,学习得到基分类器1,假设表示基分类器1预测的x∈{X1,X2,…,XN}属于类别yi的概率;
步骤10:选择基分类器类型,以所述文本集合D在词语集合SA上的向量表示{Z1,Z2,…,ZN}和对应的情感标签Y={y1,y2,…,yN}为训练数据,学习得到基分类器2,假设表示基分类器2预测的z∈{Z1,Z2,…,ZN}属于类别yi的概率;
步骤11:以加权线性组合的方式将基分类器1和基分类器2进行集成,获得最终的集成分类器
其中,fyi表示文本属于类别yi的概率,α表示基分类器1的重要性。
与已有技术相比,本发明有益效果体现在:
1、本发明通过构建词语词典和情感词典,对文本包含的正负面信息进行更完备的描述,克服了单一词典无法表达复杂情感上的缺陷。
2、本发明分别在词语词典和情感词典上构建基分类器,并采用线性组合的方式将两个基分类器的结果进行集成,克服了单一分类器在情感分类中正确率较低的缺陷。
3、本发明可以应用于对互联网上采集的新闻、产品评论等文本进行情感分析,还可应用于舆情监控和信息预测等领域,本发明应用广泛。
附图说明
图1为本发明提供的技术方案过程的示意图。
具体实施方式
本发明为了克服现有技术存在的不足之处,提出一种基于多特征融合集成学习的文本情感分类方法,以期能解决单一特征鉴别信息不足的问题,从而进一步提高文本情感分类的准确性。
为更为具体地描述本发明,下面结合附图和具体实施方式对本发明的技术方案进行详细说明。
图1所示的是本实施例一种基于多特征融合集成学习的文本情感分类方法的流程图,
具体过程为:
步骤1:数据获取。获取文本集合D={D1,D2,…,DN}及对应的情感标签集合Y={y1,y2,…,yN},Di表示第i个文本,yi表示第i个文本的情感类别:如果Di的情感为正面,则yi=1,如果Di的情感为负面,则yi=2,如果Di的情感为中性,则yi=3,1≤i≤N,N为文本集合D中的文本总数;
步骤:2:对文本集合D中的每个文本Di进行分词,并对分词结果进行去除停用词,从而获得第i个文本的词语集合cij表示第i个文本中的第j个词语;1≤j≤mi,mi为第i个文本中的词语总数;
中文分词操作主要基于字符串匹配原理,现有的开源中文分词软件包括结巴(Jieba)分词、中科院汉语分词系统(ICTCLAS)。此步骤采用结巴(Jieba)分词进行分词操作。
去停用词即去掉分词词语中与文本情感判断不太相关的词语,如空格、特殊字符、人名、时间日期、不含语义信息的词等。
步骤3:将文本集合D中N个文本的词语集合取并集,从而得到所述文本集合D的全体词语集合T={t1,t2,…,tK},tk表示所述全体词语集合T中的第k个词语,K表示所述全体词语集合T所包含的词语总数,1≤k≤K;
步骤4:从全体词语集合T中选出词语子集其中t(k)∈T,k=1,2,…,K1,K1为子集大小,K1≤K
步骤4.1:根据所述情感标签集合Y,使用特征选择方法计算所述全体词语集合T中第k个词语tk的重要性得分rk,从而获得K个词语的重要性得分集合R={r1,r2,…,rK};
常用的特征选择方法可以分为无监督方法和有监督方法,包括卡方检验、Fisher得分、信息增益等。本步骤采用卡方检验,第k个词语tk的重要性得分rk的具体计算公式为:
其中Aki为所述N个文本中包括词语tk且属于情感类别yi的文本数,Bki为所述N个文本中包括词语tk且不属于情感类别yi的文本数,Cki为所述N个文本中不包括词语tk且属于情感类别yi的文本数,Dki为所述N个文本中不包括词语tk且不属于情感类别yi的文本数。
步骤4.2:将全体词语集合T={t1,t2,…,tK}根据重要性得分rk按从大到小顺序排序,重要性高的词语排在前面,重要性低的词语排在后面,得到排序后的词语集合{t(1),t(2),…,t(K))},满足t(k)∈T,k=1,2,…,K,且r(1)≥r(2)≥…≥r(K)
步骤4.3:根据上述排序结果选出排在最前面的K1个词语构成词语子集
步骤5:将所述文本集合D在词语集合TA上表示成向量形式{X1,X2,…,XN}:
步骤5.1:将所述文本集合D中的所有文本映射到所述词语集合TA上,第i个文本Di中第k个词语t(k)的权重wik利用如下TF-IDF计算:
其中,wik表示第i个文本Di中第k个词语t(k)的权重,DFk表示出现词语t(k)的文本个数,TFik表示词语t(k)在文本Di中出现的次数;
步骤5.2:重复步骤5.1,从而获得第i个文本Di中在所述词语集合TA上的向量表示Xi={wi1,wi2,…,wiK},进而获得所述文本集合D的1-gram向量表示{X1,X2,…,XN};
步骤6:,搜集多个情感极性词典,并将这些词典合并,去除重复情感词语,获得情感词语集合S={s1,s2,…,sQ},sq表示所述情感词语集合S中的第q个词语,Q表示所述情感词语集合S所包含的情感词语总数,1≤q≤Q;
此步骤,搜集了目前常用的3种情感词典,即台湾中文情感极性词典、知网情感分析用语词典和哈工大信息检索研究中心同义词词林扩展版;
步骤7:从情感词语集合S中选出情感词语子集其中s(q)∈S,q=1,2,…,K2,k2为子集大小,K2≤Q:
步骤7.1:根据所述情感标签集合Y,使用特征选择方法计算所述情感词语集合S中第q个词语sq的重要性得分gq,从而获得Q个词语的重要性得分集合G={g1,g2,…,gQ};
此步骤中,采用与步骤4.1中类似的卡方检验计算所有情感词语的重要性得分。
步骤7.2:将情感词语集合S={s1,s2,…,sQ}根据重要性得分gq按从大到小顺序排序,重要性高的词语排在前面,重要性低的词语排在后面,得到排序后的词语集合{s(1),S(2),…,s(Q))},满足s(q)∈T,q=1,,…,Q,且s(1)≥s(2)≥…≥s(Q)
步骤7.3:根据排序结果选出排在最前面的K2个词语构成情感词语子集
步骤8:将所述文本集合D在情感词语子集SA上表示成向量形式{Z1,Z2,…,ZN}:
步骤8.1:将所述文本集合D中的所有文本映射到所述情感词语子集SA上,并利用与步骤5.1类似的方法计算第i个文本Di中第q个词语Sq的TF-IDF权重ziq
步骤8.2:重复步骤8.1,从而获得第i个文本Di在所述情感词语子集SA上的向量表示Zi={zi1,zi2,…,ziQ},进而获得所述文本集合D的情感向量表示{Z1,Z2,…,ZN};
步骤9:选择基分类器类型,以所述文本集合D在词语集合TA上的向量表示{X1,X2,…,XN}和所述情感标签Y={y1,y2,…,yN}为训练数据,学习得到基分类器1;
常用的分类器包括支持向量机(SVM)、逻辑回归(Logistic regression)、朴素贝叶斯分类器等。本步骤采用逻辑回归,对文本在词语集合TA上的向量表示x∈{X1,X2,…,XN},基分类器1预测其属干类别yi的概率为:
其中,为基分类器1的系数,yi=1表示正面情感,yi=2表示负面情感,yi=3表示中性情感;
步骤10:选择基分类器类型,以所述文本集合D在词语集合SA上的向量表示{Z1,Z2,…,ZN}和所述情感标签Y={y1,y2,…,yN}为训练数据,学习得到基分类器2;
本步骤同样采用逻辑回归,对文本在词语集合SA上的向量表示z∈{Z1,Z2,…,ZN},基分类器2预测其属于类别yi的概率为:
其中,为基分类器2的系数,yi=1表示正面情感,yi=2表示负面情感,yi=3表示中性情感;
步骤11:以加权线性组合的方式将基分类器1和基分类器2进行集成,获得最终的集成分类器
其中,fyi表示文本属于类别yi的概率,α表示基分类器1的重要性;
α的取值介于0到1之间,α越大表明基分类器相对于基分类器更重要,比如若α=0.5说明两个分类器同等重要。
从互联网上使用网络爬虫爬取的语料,进行人工情感标注,正面负面中性各1000篇,每类中90%的文本被应用于训练本发明的文本情感分类模型,剩余10%用于测试模型的分类性能,可得本发明的分类正确率是正面72%,负面68%,中性75%。

Claims (5)

1.一种基于多特征集成学习的文本情感分类方法,其特征在于包括如下步骤:
步骤1:数据获取;获取文本集合D={D1,D2,…,DN}及对应的情感标签集合Y={y1,y2,…,yN},Di表示第i个文本,yi表示第i个文本的情感类别:如果Di的情感为正面,则yi=1,如果Di的情感为负面,则yi=2,如果Di的情感为中性,则yi=3,1≤i≤N,N为文本集合D中的文本总数;
步骤2:对文本集合D中的每个文本Di进行分词,并对分词结果进行去除停用词,从而获得第i个文本的词语集合cij表示第i个文本中的第j个词语;1≤j≤mi,mi为第i个文本中的词语总数;
步骤3:将文本集合D中N个文本的词语集合取并集,从而得到所述文本集合D的全体词语集合T={t1,t2,…,tK},tk表示所述全体词语集合T中的第k个词语,K表示所述全体词语集合T所包含的词语总数,1≤k≤K;
步骤4:从全体词语集合T中选出词语子集其中t(k)∈T,k=1,2,…,K1,K1为子集大小,K1≤K;
步骤5:将所述文本集合D在词语集合TA上表示成向量形式{X1,X2,…,XN};
步骤6:搜集多个情感极性词典,并将这些词典合并,去除重复情感词语,获得情感词语集合S={s1,s2,…,sQ},sq表示所述情感词语集合s中的第q个词语,Q表示所述情感词语集合s所包含的情感词语总数,1≤q≤Q;
步骤7:从情感词语集合s中选出情感词语子集其中s(q)∈T,q=1,2,…,K2,K2为子集大小,K2≤Q;
步骤8:将所述文本集合D在情感词语子集SA上表示成向量形式{Z1,Z2,…,ZN};
步骤9:选择基分类器类型,以所述文本集合D在词语子集TA上的向量表示{X1,X2,…,XN}和对应的情感标签Y={y1,y2,…,yN}为训练数据,学习得到基分类器1,假设表示基分类器1预测的x∈{X1,X2,…,XN}属于类别yi的概率;
步骤10:选择基分类器类型,以所述文本集合D在情感词语子集SA上的向量表示{Z1,Z2,…,ZN}和对应的情感标签Y={y1,y2,…,yN}为训练数据,学习得到基分类器2,假设表示基分类器2预测的z∈{Z1,Z2,…,ZN}属于类别yi的概率;
步骤11:以加权线性组合的方式将基分类器1和基分类器2进行集成,获得最终的集成分类器其中,fyi表示文本属于类别yi的概率,α表示基分类器1的重要性。
2.根据权利要求1所述的一种基于多特征集成学习的文本情感分类方法,其特征在于,步骤4包括:
步骤4.1:根据所述情感标签集合Y,使用特征选择方法计算所述全体词语集合T中第k个词语tk的重要性得分rk,从而获得K个词语的重要性得分集合R={r1,r2,…,rK};
步骤4.2:将全体词语集合T={t1,t2,…,tK}根据重要性得分rk按从大到小顺序排序,重要性高的词语排在前面,重要性低的词语排在后面,得到排序后的词语集合{t(1),t(2),…,t(k)},满足t(k)∈T,k=1,2,…,K,且r(1)≥r(2)≥…≥r(K)
步骤4.3:根据排序结果选出排在最前面的K1个词语构成词语子集
3.根据权利要求1所述的一种基于多特征集成学习的文本情感分类方法,其特征在于,步骤5包括:
步骤5.1:将所述文本集合D中的所有文本映射到所述词语子集TA上,第i个文本Di中第k个词语t(k)的权重wik利用如下TF-IDF计算:
其中,wik表示第i个文本Di中第k个词语t(k)的权重,DFk表示出现词语t(k)的文本个数,TFik表示词语t(k)在文本Di中出现的次数;
步骤5.2:重复步骤5.1,从而获得第i个文本Di中在所述词语子集TA上的向量表示Xi={wi1,wi2,…,wiK},进而获得所述文本集合D的1-gram向量表示{X1,X2,…,XN}。
4.根据权利要求1所述的一种基于多特征集成学习的文本情感分类方法,其特征在于,步骤7包括:
步骤7.1:根据所述情感标签集合Y,使用特征选择方法计算所述情感词语集合S中第q个词语sq的重要性得分gq,从而获得Q个词语的重要性得分集合G={g1,g2,…,gQ};
步骤7.2:将情感词语集合S={s1,s2,…,sQ}根据重要性得分gq按从大到小顺序排序,重要性高的词语排在前面,重要性低的词语排在后面,得到排序后的词语集合{s(1),s(2),…,s(Q)},满足s(q)∈T,q=1,2,…,Q,且s(1)≥s(2)≥…≥s(Q)
步骤7.3:根据排序结果选出排在最前面的K2个词语构成情感词语子集
5.根据权利要求1所述的一种基于多特征集成学习的文本情感分类方法,其特征在于,步骤8包括:
步骤8.1:将所述文本集合D中的所有文本映射到所述情感词语子集SA上,并利用TF-IDF计算第i个文本Di中第q个词语sq的权重ziq
步骤8.2:重复步骤8.1,从而获得第i个文本Di在所述情感词语子集SA上的向量表示Zi={zi1,zi2,…,ziQ},进而获得所述文本集合D的情感向量表示{Z1,Z2,…,ZN}。
CN201811335524.0A 2018-11-10 2018-11-10 一种基于多特征集成学习的文本情感分类方法 Active CN109492105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811335524.0A CN109492105B (zh) 2018-11-10 2018-11-10 一种基于多特征集成学习的文本情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811335524.0A CN109492105B (zh) 2018-11-10 2018-11-10 一种基于多特征集成学习的文本情感分类方法

Publications (2)

Publication Number Publication Date
CN109492105A true CN109492105A (zh) 2019-03-19
CN109492105B CN109492105B (zh) 2022-11-15

Family

ID=65695452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811335524.0A Active CN109492105B (zh) 2018-11-10 2018-11-10 一种基于多特征集成学习的文本情感分类方法

Country Status (1)

Country Link
CN (1) CN109492105B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475648A (zh) * 2020-03-30 2020-07-31 东软集团股份有限公司 一种文本分类模型生成方法、文本分类方法及装置、设备
CN111832588A (zh) * 2019-04-18 2020-10-27 四川大学 一种基于集成分类的暴恐图像标注方法
CN112214994A (zh) * 2020-10-10 2021-01-12 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质
CN112507115A (zh) * 2020-12-07 2021-03-16 重庆邮电大学 一种弹幕文本中情感词的分类方法、装置及存储介质
CN113220878A (zh) * 2021-05-06 2021-08-06 西安电子科技大学 一种基于知识图谱的ocr识别结果分类方法
CN113269271A (zh) * 2021-04-30 2021-08-17 清华大学 用于人工智能文本分析的双词典模型的初始化方法及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
WO2017101342A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 情感分类方法及装置
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN107562722A (zh) * 2017-08-14 2018-01-09 上海文军信息技术有限公司 基于大数据的互联网舆情监测分析系统
CN108376133A (zh) * 2018-03-21 2018-08-07 北京理工大学 基于情感词扩充的短文本情感分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
WO2017101342A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 情感分类方法及装置
CN105824922A (zh) * 2016-03-16 2016-08-03 重庆邮电大学 一种融合深层特征和浅层特征的情感分类方法
CN107562722A (zh) * 2017-08-14 2018-01-09 上海文军信息技术有限公司 基于大数据的互联网舆情监测分析系统
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN108376133A (zh) * 2018-03-21 2018-08-07 北京理工大学 基于情感词扩充的短文本情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱军等: "基于情感词典和集成学习的情感极性分类方法", 《计算机应用》 *
胡家珩等: "基于深度学习的领域情感词典自动构建――以金融领域为例", 《数据分析与知识发现》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832588A (zh) * 2019-04-18 2020-10-27 四川大学 一种基于集成分类的暴恐图像标注方法
CN111475648A (zh) * 2020-03-30 2020-07-31 东软集团股份有限公司 一种文本分类模型生成方法、文本分类方法及装置、设备
CN111475648B (zh) * 2020-03-30 2023-11-14 东软集团股份有限公司 一种文本分类模型生成方法、文本分类方法及装置、设备
CN112214994A (zh) * 2020-10-10 2021-01-12 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质
CN112214994B (zh) * 2020-10-10 2021-06-01 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质
CN112507115A (zh) * 2020-12-07 2021-03-16 重庆邮电大学 一种弹幕文本中情感词的分类方法、装置及存储介质
CN112507115B (zh) * 2020-12-07 2023-02-03 重庆邮电大学 一种弹幕文本中情感词的分类方法、装置及存储介质
CN113269271A (zh) * 2021-04-30 2021-08-17 清华大学 用于人工智能文本分析的双词典模型的初始化方法及设备
CN113269271B (zh) * 2021-04-30 2022-11-15 清华大学 用于人工智能文本分析的双词典模型的初始化方法及设备
CN113220878A (zh) * 2021-05-06 2021-08-06 西安电子科技大学 一种基于知识图谱的ocr识别结果分类方法

Also Published As

Publication number Publication date
CN109492105B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN109829159B (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN106776581A (zh) 基于深度学习的主观性文本情感分析方法
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN105550269A (zh) 一种有监督学习的产品评论分析方法及系统
CN105930411A (zh) 一种分类器训练方法、分类器和情感分类系统
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN105824959A (zh) 舆情监控方法及系统
CN108536870A (zh) 一种融合情感特征和语义特征的文本情感分类方法
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN108038099B (zh) 基于词聚类的低频关键词识别方法
Wang et al. Semi-supervised latent Dirichlet allocation and its application for document classification
CN109960756A (zh) 新闻事件信息归纳方法
CN110162592A (zh) 一种基于万有引力改进的TextRank的新闻关键词提取方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN109213853A (zh) 一种基于cca算法的中文社区问答跨模态检索方法
Gupta et al. Vico: Word embeddings from visual co-occurrences
CN110532379A (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
Hong et al. Understanding blooming human groups in social networks
CN106055560A (zh) 一种基于统计机器学习方法的分词字典数据采集方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN110287298A (zh) 一种基于问句主题的自动问答答案选择方法
Shao et al. An optimized mining algorithm for analyzing students’ learning degree based on dynamic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221011

Address after: 201100 5th and 6th floor, 380 Xinsong Road, Minhang District, Shanghai

Applicant after: Shanghai WuJie Data Technology Co.,Ltd.

Address before: Room 1449, No. 4999, Zhongchun Road, Minhang District, Shanghai, 201100

Applicant before: SHANGHAI WENJUN INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant