CN103116637A - 一种面向中文Web评论的文本情感分类方法 - Google Patents

一种面向中文Web评论的文本情感分类方法 Download PDF

Info

Publication number
CN103116637A
CN103116637A CN 201310050250 CN201310050250A CN103116637A CN 103116637 A CN103116637 A CN 103116637A CN 201310050250 CN201310050250 CN 201310050250 CN 201310050250 A CN201310050250 A CN 201310050250A CN 103116637 A CN103116637 A CN 103116637A
Authority
CN
China
Prior art keywords
feature
text
classification
words
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201310050250
Other languages
English (en)
Inventor
李千目
倪铭
印杰
侯君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU POLICE INSTITUTE
Wuxi Nanligong Technology Development Co Ltd
Original Assignee
JIANGSU POLICE INSTITUTE
Wuxi Nanligong Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU POLICE INSTITUTE, Wuxi Nanligong Technology Development Co Ltd filed Critical JIANGSU POLICE INSTITUTE
Priority to CN 201310050250 priority Critical patent/CN103116637A/zh
Publication of CN103116637A publication Critical patent/CN103116637A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明属于数据处理技术领域,公开了一种面向中文Web评论的文本情感分类方法。本发明包括训练过程和分类过程,训练过程为:训练文本预处理→特征选择→文本的向量化表示→训练分类器;分类过程为:测试文本预处理→特征选择→分类器分类→输出分类结果。本方法在原始文档分类方法的基础上加入使用文档频率(DF)、信息增益(IG)以及建立否定词、程度副词和动态情感词的情感词典判别各特征中文词语的情感倾向进行选取特征词、计算特征权值并构建特征向量,并使用NaiveBayes分类算法来训练得到分类器,对文本进行情感分类,为使用者提供有效的数据挖掘从而进行分析处理。

Description

一种面向中文 Web 评论的文本情感分类方法
技术领域
本发明属于数据处理技术领域,具体地涉及一种面向中文Web评论的文本情感分类方法。
背景技术
文本作为一种重要的信息交互媒介,主要的功能是传情达意,基于内容的研究已经很成熟,近些年来越来越多的研究开始集中到“传情”上即情感分析,主要的研究内容包括词语的语义倾向识别、基于情感的文本分类、观点提取、主观性分析等。对一篇文档而言,能对其语义倾向起到决定性作用的主要是构成这篇文档所用的词语。所以,对文本进行基于情感的文本分类的基础是判定词的语义倾向。但是目前,不论是英语还是汉语,都没有一个完整的涵盖词语语义倾向的词典,也不可能有这样的一个完备的词典,因为很多的词语在不同语境中它的语义倾向也不尽相同。Hatzivassiloglou等根据词语之间关系来判定其语义倾向,他们注意到形容词的语义倾向受连接它们的连接词“and”、“but”等约束,知道其中一个词的语义倾向,就可以推测出另一个。如“excellent and X”,可以推测X也是褒义的。根据语言学上连接词对语义倾向约束性的分析,他们提出了一种四步法的有监督学习算法来判断一个形容词的语义倾向。Turney在其论文中介绍了两种利用词语与具有明显语义倾向的种子词语之间统计关系来自动识别词语语义倾向的方法: PMI2IR和LSA。Esuli 通过对一个词语的注释(从词典中获得)进行训练和分类,从而判断其他词语的语义倾向。
基于情感的文本分类研究大多是通过统计正面或负面语义倾向的词语特征数目来对文本进行分类。如Turney就使用一无指导学习方法,利用前面提到的PMI2IR方法计算出文本中出现的符合规则的短语的语义倾向,通过对文档中所有短语的语义倾向的平均值的正负来判断文档描述的对象是否值得推荐。PangBo最早利用机器学习方法来解决基于情感的文本分类问题,应用朴素贝叶斯、最大熵、SVM对电影评论进行分类。SVM在几种分类方法中效果最好,分类准确率最高达到约80%。
事实上,对一篇文章而言,它表达的情感的正面或负面是通过主观语句体现出来的,如“产品质量好!”。但是像“它的售价刚好是50元!”这样的客观语句,虽然有“好”这一特征词,但并不应该能起到任何作用。但是如果能区分一篇文章中的主观语句和客观语句,只对主观语句进行特征选择,会对分类的准确率有很大提高。Bruce、Wiebe等利用贝叶斯分类器对句子的主客观性进行分类。PangBo把主客观语句分类转换成求图的最小截问题,实现一个Cut2based分类器,对主客观语句进行分类。
近年,基于情感的文本分类逐渐被应用到更多的领域中。例如,微软公司开发的商业智能系统Pulse,它能够从大量的评论文本数据中,利用文本聚类技术提取出用户对产品细节的看法;产品信息反馈系统OpinionObserver,利用网络上丰富的顾客评论资源,对评论的主观内容进行分析处理,提取产品各个特征及消费者对其的评价,并给出一个可视化结果;Sanjiv从网络上的股评信息中获取某只股票的市场评价,对股票的价格进行预测。
中文的基于情感的文本分类研究还不是很多。基于HowNet,朱嫣岚在其论文中提出了两种词语语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。Yuen通过计算词语和具有强烈感情色彩的语素或单个汉字之间在LI2VAC文集上的统计关系来判定词语语义倾向。T’sou利用词语的语义倾向来计算新闻文本的语义倾向,衡量公众对名人的评价。
发明内容
1、本发明的目的。
本发明的目的在于提出一种面向中文Web评论的文本情感分类方法,有效地应用于中文评论文本的情感分析。
2、本发明所采用的技术方案
1.一种面向中文Web评论的文本情感分类方法,整个过程可分为两个部分:训练过程和分类过程;
训练过程按照以下步骤进行:
步骤一、训练文本预处理;
步骤二、特征选择:用频数等统计量来计算文本中的词条在类别中的分布情况,经过特征选择,得到该类别的局部特征,所有类别的局部特征词集合的并集构成训练集的全局特征词集合;
步骤三、文本的向量化表示:将每个类别映射到全局特征词集合上,进行向量化表示,便可得到类别的特征向量,特征向量包括权重和特征词个数;
步骤四、训练分类器。
分类过程按照以下步骤进行:
测试文本预处理→特征选择→分类器分类→输出分类结果,具体处理如下:
步骤一、测试文本预处理将测试文本化成全局特征词集合上的特征向量;
步骤二、特征选择;
步骤三、分类器分类:选择相应的分类方法,计算待测文本向量和类别向量之间的相似度,相似度值最大的类别就是待测样本最终的分类;
步骤四、输出分类结果。
优选的,所述的训练过程中的步骤一中训练文本预处理使用中文分词器或去除停用词文本预处理方法对评论数据集进行预处理。
优选的,所述的训练过程中和分类过程的步骤二中的特征选择通过特征选择方法和权重计算方法选择特征以及计算特征权重,将所有评论文本表示为向量。
优选的,所述的训练过程中的步骤三中训练分类器通过手工标注褒贬类别包括正面和负面的评论文本对NaiveBayes分类器进行训练。
优选的,所述的特征选择方法和权重计算方法如下:
步骤一、使用文档频率的方法对文档进行初步特征选择,并计算各特征的权重,即文档频率。
步骤二、针对中文词组、语句在不同环境下情感倾向不同的特殊性,在特征词的文档频率的统计过程中,运用混合单词特征,否定词特征,情感修饰特征,情感转移特征句法特征的情感分析方法来动态改变特征值的词性或者特征的权重。
步骤三、通过信息增益的方法筛选出对文档情感倾向影响较大的特征词,设定一个阈值,从原始特征空间中移除低于特定阈值的词条,保留高于阈值的词条作为表示文档的特征。
3、本发明的有益效果。
本发明提出了一种面向中文Web评论的文本情感分类方法,通过训练过程和分类过程将文本情感进行有效的分类,为使用者提供有效的数据挖掘从而进行分析处理。
附图说明
图1是文本分类流程图。
图2是文本预处理流程图。
具体实施方式
实施例1
文本情感分类的总体过程如图1所示。整个过程可分为两个部分:训练过程和分类过程。
训练过程的基本流程为:训练文本预处理→特征选择→文本的向量化表示→训练分类器。具体处理如下:
1、给定经过人工分类的训练文本集
Figure 909008DEST_PATH_IMAGE001
,对其进行一些预处理,如中文分词,停用词过滤等。
2、用频数等统计量来计算文本中的词条在类别中的分布情况,经过特征选择,得到该类别的局部特征.设所选特征词的集合
Figure 605886DEST_PATH_IMAGE003
,其中
Figure 814144DEST_PATH_IMAGE004
为类别
Figure 628517DEST_PATH_IMAGE002
中的第个特征词,
Figure 780329DEST_PATH_IMAGE006
表示该类别的特征词总数。所有类别的局部特征词集合的并集
Figure 979229DEST_PATH_IMAGE007
构成训练集的全局特征词集合
Figure 648108DEST_PATH_IMAGE008
3、将每个类别映射到
Figure 707386DEST_PATH_IMAGE010
上,进行向量化表示,便可得到类别的特征向量
Figure 967783DEST_PATH_IMAGE012
,其中
Figure 459944DEST_PATH_IMAGE013
表示全局特征词
Figure 701570DEST_PATH_IMAGE014
在类别
Figure 976693DEST_PATH_IMAGE011
中的权重(用某一特征权重计算方法得到),n表示中的特征词个数。
分类过程的基本流程为:测试文本预处理→特征选择→分类器分类→输出分类结果。具体处理如下:
1、将测试文本
Figure 768380DEST_PATH_IMAGE015
化成特征空间
Figure 497301DEST_PATH_IMAGE008
上的特征向量,得到特征向量
Figure 576116DEST_PATH_IMAGE016
,其中,
Figure 136410DEST_PATH_IMAGE017
表示特征词
Figure 908057DEST_PATH_IMAGE014
在文本的权重。
2、选择相应的分类方法,计算待测文本向量和类别向量之间的相似度,相似度值最大的类别就是待测样本最终的分类。
整个过程中,关键问题有以下几点:文本预处理、特征选择、文本的向量化表示和分类器的选取。根据文本分类流程,本方法步骤如下:
1、使用中文分词器、去除停用词等文本预处理方法对评论数据集进行预处理;
2、通过一定的特征选择方法和权重计算方法选择特征以及计算特征权重,将所有评论文本表示为向量;
3、通过手工标注褒贬类别(正面和负面)的评论文本对NaiveBayes分类器进行训练;
4、在允许一定误差的情况下,使用训练好的分类器实现评论的情感分析。
在上述步骤2中的特征选择方法和权重计算方法如下:
1、使用文档频率(DF)的方法对文档进行初步特征选择,并计算各特征的权重,即文档频率。
2、针对中文词组、语句在不同环境下情感倾向不同的特殊性,在特征词的文档频率的统计过程中,运用混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析方法来动态改变特征值的词性或者特征的权重。
3、通过信息增益(IG)的方法筛选出对文档情感倾向影响较大的特征词,设定一个阈值,从原始特征空间中移除低于特定阈值的词条,保留高于阈值的词条作为表示文档的特征。
实施例2、向量空间模型
向量空间模型(Vector Space Model,VSM),由哈佛大学的Salton等人在1975提出,并首先作为一种索引方式得到应用。
VSM的基本思想是用词袋(Bag of words,Bow)表示文本,每个词条作为特征空间坐标系的一维,将文本看作特征空间的一个向量,用两个向量之间的夹角来衡量两个文本之间的相似度。
在VSM中,每篇文档被映射到一组规范正交化特征向量张成的向量空间中的一个点。假设由n个特征项词条组成的集合为F=(t1,t2,…,tn),则文档试形式化为n维空间的一个向量di=(wi1,wi2,…,wik,…,win),wik表示di的第k个特征项词条tk的权重。向量每一维的值表示了特征项在文档中的权重,用以刻画该特征项在描述此文档内容时所起作用的重要程度,权值越大,表示该特征项在文档中的分量越重,即该特征项越能反映试的内容。
二、文档频率
文档频率(Document Frequency,DF)指词条t在训练语料中出现该词条的文档数。文档频率通过设置阀值去掉了低频词,当低频词为噪音时,的确可提高分类效果,但低频词也可能带有很大信息量,这时直接去掉低频词会损失一部分特征,会影响分类效果。但是文档频率方法具有实现简单、算法复杂度低等优点,能够胜任大规模的分类任务。
三、信息增益
信息增益(Information Gain,IG)通常指该特征在文本中出现前后的信息嫡之差,用来衡量特征中包含的类别信息。对于词条t和文档类别c,IG考察c中出现和不出现t的文档频数来衡量t对于c的信息增益。我们采用如下的定义式:
Figure 52785DEST_PATH_IMAGE018
其中表示
Figure 347818DEST_PATH_IMAGE020
类文档在语料中出现的概率,
Figure 848069DEST_PATH_IMAGE021
表示语料中包含词条
Figure 268686DEST_PATH_IMAGE022
的文档的概率,
Figure 554305DEST_PATH_IMAGE023
表示文档包含词条
Figure 667755DEST_PATH_IMAGE024
时属于
Figure 592985DEST_PATH_IMAGE020
类的条件概率,
Figure 879610DEST_PATH_IMAGE025
表示语料中不包含词条
Figure 941107DEST_PATH_IMAGE024
的文档的概率,
Figure 225458DEST_PATH_IMAGE026
表示文档不包含词条
Figure 637985DEST_PATH_IMAGE024
时属于
Figure 977568DEST_PATH_IMAGE020
的条件概率,C表示类别数。
本次实验对在语料中出现的每个词条计算其信息增益值,从原始特征空间中移除低于特定阀值的词条,保留高于阀值的词条作为表示文档的特征。IG不但考虑了类别信息,而且考虑了低频词对分类结果的影响,因此一般情况下分类效果较好。
四、NaïveBayes分类器
NaïveBayes分类器是一种概率分类器,它利用类别的先验概率和特征分布相对于类别的条件概率来计算未知文档属于某一类别的概率。假设文档中特征分布相互独立,NaïveBayes分类器用数学形式来表示,即:
Figure 159151DEST_PATH_IMAGE027
对于不同的类别,上式的分母不变,故只要选择使得分子最大的类别,即认为是待分类文档的目标类别。通过对训练样本的学习,得到
Figure 348823DEST_PATH_IMAGE019
Figure 248646DEST_PATH_IMAGE028
的估计:
Figure 877074DEST_PATH_IMAGE029
Figure 178742DEST_PATH_IMAGE030
NaïveBayes分类器最根本的特点是假设文档中词语的出现是互相独立的,这样的概率方法很简单但确是一种有效的文本分类方法。基于情感的文本分类同样采用文本向量空间模型来表示一个文档,表示为属性值形式,因此可以应用NaïveBayes分类器,一个文档正负面分类就是该文档中的词语在此处被观察到的概率最大的分类。
五、构建词典
加载常用评价字典、否定字典、程度字典。建立如下情感字典:
领域常用评价字典:因为不同的领域有不同的情感字典,领域情感字典的建立需要大量的资源,目前系统只包含宾馆酒店常用评价词,日后逐步建立相关领域结构体系,完善对应评价字典。
否定字典:文本的情感倾向主要取决于其中的情感词,但是如果仅仅根据情感词来判断是不够的,因为有时候情感词在文本跟其他一些词搭配会表现出与原倾向截然相反的倾向。例:“该房间采光不好”,这个例子中含有情感词“好”,从情感词词典中可以判断该词为褒义,仅从情感词角度分析就会得出文本为褒义,但是由于前面有修饰词“不”,表示的是否定的转义,所以句子最终倾向应为贬义。由此可知在构建特征权值是,需要对出现此类情况的词和词组进行单独考虑。本方法的否定词词典是通过HowNet和人工整理获得的,在HowNet词典中寻找含有否定意义的义原,例如:{neg|否}、{deny|否认}、{impossible|不会}等,通过这些义原,查询到含有否定意义的否定词,并结合数据集评论文本出现频率较高的否定词,经过人工整理得到了以下的否定副词辞典:不、没、没有、不用、甭、未、勿、休、否、否认、不必、不够、无、非、不是、并非、失、免、缺等。
程度字典:基于Hownet提供的中文情感分析用词语集中的程度级别词语表,其包含6个程度级别的程度词共219个,经过人工过滤和调整,保留原来的4个级别分类,减少了生僻字词,只保留最常用的程度词114 个,程度词级别及其自定义强度如表1所示。
表1 程度副词
Figure 539316DEST_PATH_IMAGE032
六、构建特征向量
1、文本预处理,流程如图2所示,过程如下:
(1)分词。使用中科院ICTCLAS2011分词器对文本进行中文分词,并进行词性标注。
(2)停用词过滤。首先利用ICTCIAS分词系统的词性标注,通过词性筛选过滤掉文本中大部分无意义词条,来达到初次降低词语维数的目的;然后利用通过总结得到的针对中文Web评论特征的停用词表,进一步过滤文本中的停用词。
2、特征选择并构建向量,过程如下:
(1)将经过预处理的文本按照词组统计各词组的文档频率,在统计的过程中,根据构建的词典对每个词组进行情感倾向判断,并根据不同的情感倾向以及可能对文本最终情感分类的影响改变该特征词组的权值。方法为:若该词组为否定词,则将下一个词组与该词组连接成一个新的词组作为一个特征词组,这样即可将类似“不好”、“不错”、“不便宜”等词的原意表示在特征词中。若该词组为程度词,则改变下一个词组的权值,将下一次词组的权重值乘上该程度词的强度值作为新的权重。
(2)计算各特征权值的信息增益值(IG),设定特定的阈值,从原始特征向量中移除低于特定阀值的词条,保留高于阀值的词条作为表示文档的特征。
上述实施例不以任何方式限制本发明,凡是采用等同替换或等效变换的方式获得的技术方案均落在本发明的保护范围内。

Claims (5)

1.一种面向中文Web评论的文本情感分类方法,其特征在于:整个过程可分为两个部分:训练过程和分类过程;
训练过程按照以下步骤进行:
步骤一、训练文本预处理;
步骤二、特征选择:用频数等统计量来计算文本中的词条在类别中的分布情况,经过特征选择,得到该类别的局部特征,所有类别的局部特征词集合的并集构成训练集的全局特征词集合;
步骤三、文本的向量化表示:将每个类别映射到全局特征词集合上,进行向量化表示,便可得到类别的特征向量,特征向量包括权重和特征词个数;
步骤四、训练分类器;
分类过程按照以下步骤进行:
测试文本预处理→特征选择→分类器分类→输出分类结果;具体处理如下:
步骤一、测试文本预处理将测试文本化成全局特征词集合上的特征向量;
步骤二、特征选择;
步骤三、分类器分类:选择相应的分类方法,计算待测文本向量和类别向量之间的相似度,相似度值最大的类别就是待测样本最终的分类;
步骤四、输出分类结果。
2.根据权利要求1所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的训练过程中的步骤一中训练文本预处理使用中文分词器或去除停用词文本预处理方法对评论数据集进行预处理。
3.根据权利要求1或2所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的训练过程中和分类过程的步骤二中的特征选择通过特征选择方法和权重计算方法选择特征以及计算特征权重,将所有评论文本表示为向量。
4.根据权利要求1所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的训练过程中的步骤三中训练分类器通过手工标注褒贬类别包括正面和负面的评论文本对NaiveBayes分类器进行训练。
5.根据权利要求3所述的面向中文Web评论的文本情感分类方法,其特征在于:所述的特征选择方法和权重计算方法如下:
步骤一、使用文档频率的方法对文档进行初步特征选择,并计算各特征的权重,即文档频率;
步骤二、针对中文词组、语句在不同环境下情感倾向不同的特殊性,在特征词的文档频率的统计过程中,运用混合单词特征,否定词特征,情感修饰特征,情感转移特征句法特征的情感分析方法来动态改变特征值的词性或者特征的权重;
步骤三、通过信息增益的方法筛选出对文档情感倾向影响较大的特征词,设定一个阈值,从原始特征空间中移除低于特定阈值的词条,保留高于阈值的词条作为表示文档的特征。
CN 201310050250 2013-02-08 2013-02-08 一种面向中文Web评论的文本情感分类方法 Pending CN103116637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201310050250 CN103116637A (zh) 2013-02-08 2013-02-08 一种面向中文Web评论的文本情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201310050250 CN103116637A (zh) 2013-02-08 2013-02-08 一种面向中文Web评论的文本情感分类方法

Publications (1)

Publication Number Publication Date
CN103116637A true CN103116637A (zh) 2013-05-22

Family

ID=48415010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201310050250 Pending CN103116637A (zh) 2013-02-08 2013-02-08 一种面向中文Web评论的文本情感分类方法

Country Status (1)

Country Link
CN (1) CN103116637A (zh)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678720A (zh) * 2014-01-02 2014-03-26 中国标准化研究院 用户反馈数据处理方法和装置
CN103729456A (zh) * 2014-01-07 2014-04-16 合肥工业大学 一种基于微博群环境的微博多模态情感分析方法
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104317890A (zh) * 2014-10-23 2015-01-28 苏州大学 一种文本连接词的识别方法及装置
CN104346336A (zh) * 2013-07-23 2015-02-11 广州华久信息科技有限公司 一种基于机器文本对骂的情感发泄方法及系统
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法
CN104809477A (zh) * 2015-05-12 2015-07-29 河海大学 一种基于几何语义的遗传规划分类方法
CN105224689A (zh) * 2015-10-30 2016-01-06 北京信息科技大学 一种东巴文献分类方法
CN105468731A (zh) * 2015-11-20 2016-04-06 成都科来软件有限公司 一种文本情感分析特征验证的前置处理方法
CN105912576A (zh) * 2016-03-31 2016-08-31 北京外国语大学 情感分类方法及系统
CN106021413A (zh) * 2016-05-13 2016-10-12 清华大学 基于主题模型的自展式特征选择方法及系统
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
CN106485634A (zh) * 2016-09-27 2017-03-08 北京百度网讯科技有限公司 基于人工智能的民意调查方法及装置
CN106528533A (zh) * 2016-11-08 2017-03-22 浙江理工大学 一种基于动态情感词和特殊修饰词的文本情感分析方法
CN106570076A (zh) * 2016-10-11 2017-04-19 深圳大学 一种计算机文本分类系统
CN106649260A (zh) * 2016-10-19 2017-05-10 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法
CN106776931A (zh) * 2016-12-01 2017-05-31 珠海市魅族科技有限公司 一种评论数据的处理方法及处理装置
CN106803096A (zh) * 2016-12-27 2017-06-06 上海大汉三通通信股份有限公司 一种短信类型识别方法、系统及短信管理平台
CN106815253A (zh) * 2015-12-01 2017-06-09 慧科讯业有限公司 一种基于混合数据类型数据的挖掘方法
CN107045497A (zh) * 2017-05-04 2017-08-15 成都华栖云科技有限公司 一种快速的新闻文本内容情感分析系统及方法
CN107133214A (zh) * 2017-05-05 2017-09-05 中国计量大学 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法
CN107169086A (zh) * 2017-05-12 2017-09-15 北京化工大学 一种文本分类方法
CN107220293A (zh) * 2017-04-26 2017-09-29 天津大学 基于情绪的文本分类方法
CN107391575A (zh) * 2017-06-20 2017-11-24 浙江理工大学 一种基于词向量模型的隐式特征识别方法
CN107402917A (zh) * 2017-07-28 2017-11-28 中央民族大学 藏文短文本情感分析方法及装置
CN107544961A (zh) * 2017-08-29 2018-01-05 中国地质大学(武汉) 一种社交媒体评论的情感分析方法、设备及其存储设备
CN108153733A (zh) * 2017-12-26 2018-06-12 北京小度信息科技有限公司 评论质量的分类方法及装置
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN108304490A (zh) * 2018-01-08 2018-07-20 有米科技股份有限公司 基于文本的相似度确定方法、装置及计算机设备
CN108509492A (zh) * 2018-02-12 2018-09-07 郑长敬 基于房地产行业的大数据处理及系统
CN108596637A (zh) * 2018-04-24 2018-09-28 北京航空航天大学 一种电商服务问题自动发现系统
CN108647212A (zh) * 2018-05-18 2018-10-12 大连民族大学 机器学习的影评情感倾向性分析中形成特征集合的方法
CN108694165A (zh) * 2017-04-10 2018-10-23 南京理工大学 面向产品评论的跨领域对偶情感分析方法
CN108733652A (zh) * 2018-05-18 2018-11-02 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法
CN108804416A (zh) * 2018-05-18 2018-11-13 大连民族大学 基于机器学习的影评情感倾向性分析的训练方法
CN108959479A (zh) * 2018-06-21 2018-12-07 成都睿码科技有限责任公司 一种基于文本相似度的事件情感分类方法
CN109189919A (zh) * 2018-07-27 2019-01-11 广州市香港科大霍英东研究院 文本多视角情感分类的方法、系统、终端及存储介质
CN109241518A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种基于情感分析的检测网络水军方法
CN109471942A (zh) * 2018-11-07 2019-03-15 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109492105A (zh) * 2018-11-10 2019-03-19 上海文军信息技术有限公司 一种基于多特征集成学习的文本情感分类方法
CN109657057A (zh) * 2018-11-22 2019-04-19 天津大学 一种结合svm和文档向量的短文本情感分类方法
CN109726226A (zh) * 2019-01-03 2019-05-07 中国联合网络通信集团有限公司 群组对话框排序方法及装置
CN109918579A (zh) * 2019-01-29 2019-06-21 罗向阳 基于语义特性提取位置指示词的位置推断方法
CN109948148A (zh) * 2019-02-28 2019-06-28 北京学之途网络科技有限公司 一种文本信息情感判定方法和判定装置
CN110019772A (zh) * 2017-08-14 2019-07-16 普天信息技术有限公司 一种文本情绪分类方法及系统
CN110347822A (zh) * 2019-06-03 2019-10-18 佛山科学技术学院 一种评论文本的情感倾向分析方法及装置
CN110413772A (zh) * 2019-06-20 2019-11-05 平安科技(深圳)有限公司 识别中文情感的方法及装置、计算机设备、存储介质
CN110427566A (zh) * 2019-07-23 2019-11-08 复旦大学 一种基于社群系统的服务管理系统
CN110895562A (zh) * 2018-09-13 2020-03-20 阿里巴巴集团控股有限公司 反馈信息处理方法及装置
CN111597330A (zh) * 2019-02-21 2020-08-28 中国科学院信息工程研究所 一种基于支持向量机的面向智能专家推荐的用户画像方法
CN111723208A (zh) * 2020-06-28 2020-09-29 西南财经大学 基于条件分类树的法律判决文书多分类方法、装置和终端
CN112084306A (zh) * 2020-09-10 2020-12-15 北京天融信网络安全技术有限公司 一种敏感词挖掘方法、装置、存储介质及电子设备
CN112328790A (zh) * 2020-11-06 2021-02-05 渤海大学 语料库的快速文本分类方法
CN112347259A (zh) * 2020-11-17 2021-02-09 河北工程大学 一种结合词典与机器学习的评论文本情感分析方法

Cited By (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346336A (zh) * 2013-07-23 2015-02-11 广州华久信息科技有限公司 一种基于机器文本对骂的情感发泄方法及系统
CN104731812A (zh) * 2013-12-23 2015-06-24 北京华易互动科技有限公司 一种基于文本情感倾向识别的舆情检测方法
CN103678720A (zh) * 2014-01-02 2014-03-26 中国标准化研究院 用户反馈数据处理方法和装置
CN103678720B (zh) * 2014-01-02 2017-02-22 中国标准化研究院 用户反馈数据处理方法和装置
CN103729456B (zh) * 2014-01-07 2016-09-28 合肥工业大学 一种基于微博群环境的微博多模态情感分析方法
CN103729456A (zh) * 2014-01-07 2014-04-16 合肥工业大学 一种基于微博群环境的微博多模态情感分析方法
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104239436B (zh) * 2014-08-27 2018-01-02 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104317890A (zh) * 2014-10-23 2015-01-28 苏州大学 一种文本连接词的识别方法及装置
CN104317890B (zh) * 2014-10-23 2018-05-01 苏州大学 一种文本连接词的识别方法及装置
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104573046B (zh) * 2015-01-20 2018-07-31 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104809477B (zh) * 2015-05-12 2018-08-28 河海大学 一种基于几何语义的遗传规划分类方法
CN104809477A (zh) * 2015-05-12 2015-07-29 河海大学 一种基于几何语义的遗传规划分类方法
CN105224689A (zh) * 2015-10-30 2016-01-06 北京信息科技大学 一种东巴文献分类方法
CN105468731B (zh) * 2015-11-20 2018-10-02 成都科来软件有限公司 一种文本情感分析特征验证的前置处理方法
CN105468731A (zh) * 2015-11-20 2016-04-06 成都科来软件有限公司 一种文本情感分析特征验证的前置处理方法
CN106815253A (zh) * 2015-12-01 2017-06-09 慧科讯业有限公司 一种基于混合数据类型数据的挖掘方法
CN105912576A (zh) * 2016-03-31 2016-08-31 北京外国语大学 情感分类方法及系统
CN105912576B (zh) * 2016-03-31 2020-06-09 北京外国语大学 情感分类方法及系统
CN106021413A (zh) * 2016-05-13 2016-10-12 清华大学 基于主题模型的自展式特征选择方法及系统
CN106021413B (zh) * 2016-05-13 2019-07-02 清华大学 基于主题模型的自展式特征选择方法及系统
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
CN106485634A (zh) * 2016-09-27 2017-03-08 北京百度网讯科技有限公司 基于人工智能的民意调查方法及装置
CN106570076A (zh) * 2016-10-11 2017-04-19 深圳大学 一种计算机文本分类系统
CN106649260A (zh) * 2016-10-19 2017-05-10 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法
CN106649260B (zh) * 2016-10-19 2022-01-25 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法
CN106528533A (zh) * 2016-11-08 2017-03-22 浙江理工大学 一种基于动态情感词和特殊修饰词的文本情感分析方法
CN106776931A (zh) * 2016-12-01 2017-05-31 珠海市魅族科技有限公司 一种评论数据的处理方法及处理装置
CN108241867A (zh) * 2016-12-26 2018-07-03 阿里巴巴集团控股有限公司 一种分类方法及装置
CN106803096A (zh) * 2016-12-27 2017-06-06 上海大汉三通通信股份有限公司 一种短信类型识别方法、系统及短信管理平台
CN108694165B (zh) * 2017-04-10 2021-11-09 南京理工大学 面向产品评论的跨领域对偶情感分析方法
CN108694165A (zh) * 2017-04-10 2018-10-23 南京理工大学 面向产品评论的跨领域对偶情感分析方法
CN107220293A (zh) * 2017-04-26 2017-09-29 天津大学 基于情绪的文本分类方法
CN107220293B (zh) * 2017-04-26 2020-08-18 天津大学 基于情绪的文本分类方法
CN107045497A (zh) * 2017-05-04 2017-08-15 成都华栖云科技有限公司 一种快速的新闻文本内容情感分析系统及方法
CN107133214A (zh) * 2017-05-05 2017-09-05 中国计量大学 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法
CN107169086A (zh) * 2017-05-12 2017-09-15 北京化工大学 一种文本分类方法
CN107391575A (zh) * 2017-06-20 2017-11-24 浙江理工大学 一种基于词向量模型的隐式特征识别方法
CN107391575B (zh) * 2017-06-20 2020-08-04 浙江理工大学 一种基于词向量模型的隐式特征识别方法
CN109241518B (zh) * 2017-07-11 2021-01-22 北京交通大学 一种基于情感分析的检测网络水军方法
CN109241518A (zh) * 2017-07-11 2019-01-18 北京交通大学 一种基于情感分析的检测网络水军方法
CN107402917A (zh) * 2017-07-28 2017-11-28 中央民族大学 藏文短文本情感分析方法及装置
CN110019772A (zh) * 2017-08-14 2019-07-16 普天信息技术有限公司 一种文本情绪分类方法及系统
CN107544961A (zh) * 2017-08-29 2018-01-05 中国地质大学(武汉) 一种社交媒体评论的情感分析方法、设备及其存储设备
CN108153733B (zh) * 2017-12-26 2021-07-09 北京星选科技有限公司 评论质量的分类方法及装置
CN108153733A (zh) * 2017-12-26 2018-06-12 北京小度信息科技有限公司 评论质量的分类方法及装置
CN108304490B (zh) * 2018-01-08 2020-12-15 有米科技股份有限公司 基于文本的相似度确定方法、装置及计算机设备
CN108304490A (zh) * 2018-01-08 2018-07-20 有米科技股份有限公司 基于文本的相似度确定方法、装置及计算机设备
CN108509492A (zh) * 2018-02-12 2018-09-07 郑长敬 基于房地产行业的大数据处理及系统
CN108596637A (zh) * 2018-04-24 2018-09-28 北京航空航天大学 一种电商服务问题自动发现系统
CN108596637B (zh) * 2018-04-24 2022-05-06 北京航空航天大学 一种电商服务问题自动发现系统
CN108733652B (zh) * 2018-05-18 2022-08-09 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法
CN108647212A (zh) * 2018-05-18 2018-10-12 大连民族大学 机器学习的影评情感倾向性分析中形成特征集合的方法
CN108733652A (zh) * 2018-05-18 2018-11-02 大连民族大学 基于机器学习的影评情感倾向性分析的测试方法
CN108804416A (zh) * 2018-05-18 2018-11-13 大连民族大学 基于机器学习的影评情感倾向性分析的训练方法
CN108959479A (zh) * 2018-06-21 2018-12-07 成都睿码科技有限责任公司 一种基于文本相似度的事件情感分类方法
CN108959479B (zh) * 2018-06-21 2022-03-25 成都睿码科技有限责任公司 一种基于文本相似度的事件情感分类方法
CN109189919A (zh) * 2018-07-27 2019-01-11 广州市香港科大霍英东研究院 文本多视角情感分类的方法、系统、终端及存储介质
CN109189919B (zh) * 2018-07-27 2020-11-13 广州市香港科大霍英东研究院 文本多视角情感分类的方法、系统、终端及存储介质
CN110895562A (zh) * 2018-09-13 2020-03-20 阿里巴巴集团控股有限公司 反馈信息处理方法及装置
CN109471942A (zh) * 2018-11-07 2019-03-15 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109471942B (zh) * 2018-11-07 2021-09-07 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109492105B (zh) * 2018-11-10 2022-11-15 上海五节数据科技有限公司 一种基于多特征集成学习的文本情感分类方法
CN109492105A (zh) * 2018-11-10 2019-03-19 上海文军信息技术有限公司 一种基于多特征集成学习的文本情感分类方法
CN109657057A (zh) * 2018-11-22 2019-04-19 天津大学 一种结合svm和文档向量的短文本情感分类方法
CN109726226A (zh) * 2019-01-03 2019-05-07 中国联合网络通信集团有限公司 群组对话框排序方法及装置
CN109918579A (zh) * 2019-01-29 2019-06-21 罗向阳 基于语义特性提取位置指示词的位置推断方法
CN111597330A (zh) * 2019-02-21 2020-08-28 中国科学院信息工程研究所 一种基于支持向量机的面向智能专家推荐的用户画像方法
CN109948148A (zh) * 2019-02-28 2019-06-28 北京学之途网络科技有限公司 一种文本信息情感判定方法和判定装置
CN110347822A (zh) * 2019-06-03 2019-10-18 佛山科学技术学院 一种评论文本的情感倾向分析方法及装置
CN110413772A (zh) * 2019-06-20 2019-11-05 平安科技(深圳)有限公司 识别中文情感的方法及装置、计算机设备、存储介质
CN110427566A (zh) * 2019-07-23 2019-11-08 复旦大学 一种基于社群系统的服务管理系统
CN111723208A (zh) * 2020-06-28 2020-09-29 西南财经大学 基于条件分类树的法律判决文书多分类方法、装置和终端
CN111723208B (zh) * 2020-06-28 2023-04-18 西南财经大学 基于条件分类树的法律判决文书多分类方法、装置和终端
CN112084306A (zh) * 2020-09-10 2020-12-15 北京天融信网络安全技术有限公司 一种敏感词挖掘方法、装置、存储介质及电子设备
CN112084306B (zh) * 2020-09-10 2023-08-29 北京天融信网络安全技术有限公司 一种关键词挖掘方法、装置、存储介质及电子设备
CN112328790A (zh) * 2020-11-06 2021-02-05 渤海大学 语料库的快速文本分类方法
CN112347259A (zh) * 2020-11-17 2021-02-09 河北工程大学 一种结合词典与机器学习的评论文本情感分析方法

Similar Documents

Publication Publication Date Title
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
Long et al. A review selection approach for accurate feature rating estimation
CN108763214B (zh) 一种针对商品评论的情感词典自动构建方法
CN103034626A (zh) 情感分析系统及方法
Probierz et al. Rapid detection of fake news based on machine learning methods
Sharma et al. An artificial neural network based approach for sentiment analysis of opinionated text
CN108596637B (zh) 一种电商服务问题自动发现系统
Zabha et al. Developing cross-lingual sentiment analysis of Malay Twitter data using lexicon-based approach
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
Mozafari et al. Emotion detection by using similarity techniques
Reddy et al. Profile specific document weighted approach using a new term weighting measure for author profiling
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN114997288A (zh) 一种设计资源关联方法
Jain et al. Sentiment analysis: An empirical comparative study of various machine learning approaches
Karo et al. Karonese sentiment analysis: a new dataset and preliminary result
Trupthi et al. Possibilistic fuzzy C-means topic modelling for twitter sentiment analysis
Chen et al. Using deep belief nets for Chinese named entity categorization
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Mohsen et al. A performance comparison of machine learning classifiers for Covid-19 Arabic Quarantine tweets sentiment analysis
Xie et al. Construction of unsupervised sentiment classifier on idioms resources
CN110348497A (zh) 一种基于WT-GloVe词向量构建的文本表示方法
Prakash et al. Lexicon Based Sentiment Analysis (LBSA) to Improve the Accuracy of Acronyms, Emoticons, and Contextual Words
Bai et al. An ensemble approach for cyber bullying: Text messages and images
US20220269704A1 (en) Irrelevancy filtering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130522