CN108108462A - 一种基于特征分类的文本情感分析方法 - Google Patents
一种基于特征分类的文本情感分析方法 Download PDFInfo
- Publication number
- CN108108462A CN108108462A CN201711477206.3A CN201711477206A CN108108462A CN 108108462 A CN108108462 A CN 108108462A CN 201711477206 A CN201711477206 A CN 201711477206A CN 108108462 A CN108108462 A CN 108108462A
- Authority
- CN
- China
- Prior art keywords
- feature
- text
- classification
- weight
- represent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Abstract
本发明是一种基于特征分类的文本情感分析方法,包含如下步骤:对文本进行基本的预处理;对文本进行特征选择;对特征进行权重计算并对所求权重进行归一化处理;将特征和权重生成特征向量,并划分出测试集与训练集;采用朴素贝叶斯构建分类器并对训练集进行训练;使用分类器对测试集进行分析并判断其情感倾向,同时计算分类的精确率,召回率和F值。本发明有益效果:本发明针对现有方法没有将情感词考虑到特征选择与权重计算的缺点进行了改进,增加了情感词在特征中的比重,并有效的提升了情感分析的正确率。
Description
技术领域
本发明涉及智能信息处理技术领域,具体地说是一种基于特征分类的文本情感分析方法。
背景技术
随着互联网的快速发展,网络的功能越来越全面,使用也越来越便捷,其中移动互联网的迅猛发展与手机用户的大规模增长,各种功能的APP也在这瞬息万变的网络环下不断的发展与更替。Twitter、Facebook、微博等社交平台由于其具有即时性与便捷性等优点,在飞速发展的网络空间也快速的崛起,并逐步由单一web端逐步向以移动端为主的双平台发展。微博评论与实时短文本中有许多都包含用户个人的情感与倾向,对用户进行个性化推荐以及网络舆情的监控都具有十分重要的意义,如何借用计算机技术获取和分析这些评论中的情感信息吸引了广大专家学者的竞相研究,其中涉及人工智能、自然语言处理、数据分析与挖掘等多重领域。
传统的文本情感分类方法在特征选择与权重计算的过程中常用点互信息或信息熵来选择文本特征,或者单纯的通过词频或反文档词频来计算权重,这些特征选择与权重计算的算法在进行单纯的文本分类可以取得很好的效果,但使用在判断文本情感倾向性时并没有考虑到情感词与修饰词的影响,无法使文本情感分类达到更好的分类效果。
发明内容
本发明所要解决的技术问题是提供一种基于特征分类的文本情感分析方法,解决目前现有方法中忽略情感词影响的问题,提高文本情感分析的正确率。
本发明为解决上述技术问题所采用的技术方案是:一种基于特征分类的文本情感分析方法,包括以下步骤:
步骤一、对文本进行预处理;
步骤二、对步骤一预处理后的文本进行特征选择,具体方法为:
(1)采用以下公式进行特征选择:NCHI(t,c)=CHI(t,c)×f(t),其中
t表示特征项,c表示类别,f表示特征词t的频数,A表示包含特征t且属于类别c的文本数目,B表示包含特征t但不属于类别c的文本数目,C表示不包含特征t但属于类别c的文本数目,D表示即不包含特征t也不属于类别c的文本数目;
(2)选择合适的特征维度;
步骤三、对步骤二选择的特征进行权重计算并对计算得到的权重进行归一化处理;
步骤四、将步骤三得到的特征和权重生成特征向量,并划分测试集与训练集;
步骤五、采用朴素贝叶斯构建分类器并对训练集进行训练;
步骤六、使用分类器对测试集进行分析并判断其情感倾向,同时计算分类的精确率、召回率和F值。
优选的,所述对文本进行预处理的方法为:
步骤1.1、将文本中既不包含情感倾向还会对情感信息分类造成干扰的冗余信息进行数据清理;
步骤1.2、对文本进行分词处理;
步骤1.3、整理归纳得到常用的停用词,构建符合情感分类的停用词表,并对文本进行去除停用词的处理。
优选的,所述步骤1.1中对文本进行数据清理包括:(1)删除话题;(2)删除提到的人;(3)删除回复;(4)删除来源,(5)删除链接。
优选的,所述步骤三中,对特征进行权重计算,公式为:
其中,Dk表示第k个分类中文档的总数,tfik表示特征词ti在文档Dk中出现的次数,即词频,dik表示Dk中包含特征词ti的文档数目,f1(ti)表示特征词ti是否为情感词,若为情感词则值为1,若为非情感词则为0;f2(ti)表示特征词ti是否为修饰词,若为修饰词则值为1,若为非修饰词则值为0。
优选的,所述步骤三中,对计算得到的权重进行归一化处理的方法为:使用线性函数对所求权重进行归一化处理,将权重映射到[0,1]之间,归一化公式为:其中X*为归一化后的数据,X为原始数据,Xmax、Xmax分别为原始数据集的最大值和最小值。
优选的,所述步骤四中,将特征和权重生成特征向量,并划分测试集与训练集的具体方法为:
步骤4.1、将选择的特征与计算的权重输入到特征向量中,文本d的一个n维向量为d′=[(t1,w1),(t2,w2),(t3,w3),……(tn,wn)],其中ti表示文本的第n个特征,wi表示第n个特征的权重;
步骤4.2、将特征向量划分训练集与测试集,其中90%为训练集,10%为测试集。
优选的,所述特征维度选择5950。
本发明的有益效果是:本发明的文本情感分析方法在分析并得到网络文本的情感倾向时考虑到情感词与修饰词的影响,具有较高的精确率,通过特征选择与权重计算的算法计算出的权重相对于传统算法对文本情感分析有较好的识别效果,在特征选择的过程中考虑的也更为周全,同时具有一定的普适性,对其他形式的文本情感分析也有较好的效果。
附图说明
图1为本发明所涉及的文本情感分析方法的流程示意图;
图2为本发明实验权重维度选择图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式(实施例)进行描述,使本领域的技术人员能够更好地理解本发明。
一种基于特征分类的文本情感分析方法,包括以下步骤:
步骤一、对文本进行基本的预处理,包括:
1.1、将文本中既不包含情感倾向还会对情感信息分类造成干扰的冗余信息进行数据清理,因为网络中收集的文本除包含用户的评论之外还包含话题等其他信息,具体为:(1)删除话题,例如:清理前:这是荣耀手机#极限少女养成营#,她们去鸟巢滑行,清理后:这是荣耀手机,她们去鸟巢滑行;(2)删除提到的人,例如:清理前:@三木摄影全球旅拍用镜头诠释西藏的神秘,清理后:用镜头诠释西藏的神秘;(3)删除回复,例如:倍感欣慰//蒙牛是很差劲,清理后:倍感欣慰;(4)删除来源,例如:清理前:湖北大学的研究生廖可富,1年申请16项发明专利,目前已拿到9项专利证书(武汉晚报),清理后:湖北大学的研究生廖可富,1年申请16项发明专利,目前已拿到9项专利证书;(5)删除链接,例如:清理前:今天,给大家支两招https://mp.weixin.qq.com,清理后:今天,给大家支两招。
1.2由于中文的特殊性,为了更方便的提取文本中的特征,对文本进行分词处理。
1.3中文中常有一些为了连贯句子而出现的停用词,这些词语通常不具有情感倾向,通过整理归纳常用的几种停用词表,构建一个新的更符合情感分类的新停用词表,并对文本进行去停用词的处理。
步骤二、采用公式NCHI(t,c)=CHI(t,c)×f(t)对文本进行特征选择,公式中,t表示特征项,c表示类别,f表示特征词t的频数,A表示包含特征t且属于类别c的文本数目,B表示包含特征t但不属于类别c的文本数目,C表示不包含特征t但属于类别c的文本数目,D表示即不包含特征t也不属于类别c的文本数目;然后通过实验选择合适的特征维度。
步骤三、采用公式对特征进行权重计算,其中Dk表示第k个分类中文档的总数,tfik表示特征词ti在文档Dk中出现的次数,即词频,dik表示Dk中包含特征词ti的文档数目,f1(ti)表示特征词ti是否为情感词,若为情感词则值为1,若为非情感词则为0;f2(ti)表示特征词ti是否为修饰词,若为修饰词则值为1,若为非修饰词则值为0。
步骤四、使用线性函数归一化对步骤三所求权重进行归一化处理,将权重映射到[0,1]之间,其归一化公式为其中X*为归一化后的数据,X为原始数据,Xmax、Xmax分别为原始数据集的最大值和最小值。
步骤五、将选择的特征与计算的权重输入到特征向量中,文本d的一个n维向量为d′=[(t1,w1),(t2,w2),(t3,w3),……(tn,wn)],其中ti表示文本的第n个特征,wi表示第n个特征的权重;将特征向量划分训练集与测试集,其中90%为训练集,10%为测试集。
步骤六、采用朴素贝叶斯构建分类器并对训练集进行训练。
步骤七、使用分类器对测试集进行分析并判断其情感倾向,同时计算分类的精确率P,召回率R和F值,其公式分别为: 其中TP表示标记为积极的句子被正确判断为积极类的数量,FN表示标记为你积极的句子被错误判断为消极的数量,FP表示标记为消极被错误判断为积极类的句子数量,TN表示标记为消极被正确判断为消极类的句子数量。
Claims (7)
1.一种基于特征分类的文本情感分析方法,其特征在于:包括以下步骤:
步骤一、对文本进行预处理;
步骤二、对步骤一预处理后的文本进行特征选择,具体方法为:
(1)采用以下公式进行特征选择:NCHI(t,c)=CHI(t,c)×f(t),其中
t表示特征项,c表示类别,f表示特征词t的频数,A表示包含特征t且属于类别c的文本数目,B表示包含特征t但不属于类别c的文本数目,C表示不包含特征t但属于类别c的文本数目,D表示即不包含特征t也不属于类别c的文本数目;
(2)选择合适的特征维度;
步骤三、对步骤二选择的特征进行权重计算并对计算得到的权重进行归一化处理;
步骤四、将步骤三得到的特征和权重生成特征向量,并划分测试集与训练集;
步骤五、采用朴素贝叶斯构建分类器并对训练集进行训练;
步骤六、使用分类器对测试集进行分析并判断其情感倾向,同时计算分类的精确率、召回率和F值。
2.根据权利要求1所述的一种基于特征分类的文本情感分析方法,其特征在于:所述对文本进行预处理的方法为:
步骤1.1、将文本中既不包含情感倾向还会对情感信息分类造成干扰的冗余信息进行数据清理;
步骤1.2、对文本进行分词处理;
步骤1.3、整理归纳得到常用的停用词,构建符合情感分类的停用词表,并对文本进行去除停用词的处理。
3.根据权利要求2所述的一种基于特征分类的文本情感分析方法,其特征在于:所述步骤1.1中对文本进行数据清理包括:(1)删除话题;(2)删除提到的人;(3)删除回复;(4)删除来源,(5)删除链接。
4.根据权利要求1所述的一种基于特征分类的文本情感分析方法,其特征在于:所述步骤三中,对特征进行权重计算,公式为:其中,Dk表示第k个分类中文档的总数,tfik表示特征词ti在文档Dk中出现的次数,即词频,dik表示Dk中包含特征词ti的文档数目,f1(ti)表示特征词ti是否为情感词,若为情感词则值为1,若为非情感词则为0;f2(ti)表示特征词ti是否为修饰词,若为修饰词则值为1,若为非修饰词则值为0。
5.根据权利要求1所述的一种基于特征分类的文本情感分析方法,其特征在于:所述步骤三中,对计算得到的权重进行归一化处理的方法为:使用线性函数对所求权重进行归一化处理,将权重映射到[0,1]之间,归一化公式为:其中X*为归一化后的数据,X为原始数据,Xmax、Xmax分别为原始数据集的最大值和最小值。
6.根据权利要求1所述的一种基于特征分类的文本情感分析方法,其特征在于:所述步骤四中,将特征和权重生成特征向量,并划分测试集与训练集的具体方法为:
步骤4.1、将选择的特征与计算的权重输入到特征向量中,文本d的一个n维向量为d′=[(t1,w1),(t2,w2),(t3,w3),……(tn,wn)],其中ti表示文本的第n个特征,wi表示第n个特征的权重;
步骤4.2、将特征向量划分训练集与测试集,其中90%为训练集,10%为测试集。
7.根据权利要求1所述的一种基于特征分类的文本情感分析方法,其特征在于:所述特征维度选择5950。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711477206.3A CN108108462A (zh) | 2017-12-29 | 2017-12-29 | 一种基于特征分类的文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711477206.3A CN108108462A (zh) | 2017-12-29 | 2017-12-29 | 一种基于特征分类的文本情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108108462A true CN108108462A (zh) | 2018-06-01 |
Family
ID=62214847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711477206.3A Pending CN108108462A (zh) | 2017-12-29 | 2017-12-29 | 一种基于特征分类的文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108108462A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214445A (zh) * | 2018-08-27 | 2019-01-15 | 陆柒(北京)科技有限公司 | 一种基于人工智能的多标签分类方法 |
CN109213860A (zh) * | 2018-07-26 | 2019-01-15 | 中国科学院自动化研究所 | 融合用户信息的文本情感分类方法及装置 |
CN109299246A (zh) * | 2018-12-04 | 2019-02-01 | 北京容联易通信息技术有限公司 | 一种文本分类方法及装置 |
CN109948148A (zh) * | 2019-02-28 | 2019-06-28 | 北京学之途网络科技有限公司 | 一种文本信息情感判定方法和判定装置 |
CN110727798A (zh) * | 2019-10-15 | 2020-01-24 | 东北大学 | 一种基于朴素贝叶斯分类的节日情感分析方法 |
CN113657106A (zh) * | 2021-07-05 | 2021-11-16 | 西安理工大学 | 基于归一化词频权重的特征选择方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110208511A1 (en) * | 2008-11-04 | 2011-08-25 | Saplo Ab | Method and system for analyzing text |
CN104346459A (zh) * | 2014-11-10 | 2015-02-11 | 南京信息工程大学 | 一种基于术语频率和卡方统计的文本分类特征选择方法 |
CN105205090A (zh) * | 2015-05-29 | 2015-12-30 | 湖南大学 | 基于网页链接分析和支持向量机的网页文本分类算法研究 |
CN106502990A (zh) * | 2016-10-27 | 2017-03-15 | 广东工业大学 | 一种微博特征项提取方法和改进tf‑idf归一化方法 |
-
2017
- 2017-12-29 CN CN201711477206.3A patent/CN108108462A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110208511A1 (en) * | 2008-11-04 | 2011-08-25 | Saplo Ab | Method and system for analyzing text |
CN104346459A (zh) * | 2014-11-10 | 2015-02-11 | 南京信息工程大学 | 一种基于术语频率和卡方统计的文本分类特征选择方法 |
CN105205090A (zh) * | 2015-05-29 | 2015-12-30 | 湖南大学 | 基于网页链接分析和支持向量机的网页文本分类算法研究 |
CN106502990A (zh) * | 2016-10-27 | 2017-03-15 | 广东工业大学 | 一种微博特征项提取方法和改进tf‑idf归一化方法 |
Non-Patent Citations (3)
Title |
---|
李平: "基于混合卡方统计量与逻辑回归的文本情感分析", 《计算机工程》 * |
杨鼎: "一种基于情感词典和朴素贝叶斯的中文文本情感分类方法", 《计算机应用研究》 * |
陈闯闯: "中文微博细粒度情感判别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213860A (zh) * | 2018-07-26 | 2019-01-15 | 中国科学院自动化研究所 | 融合用户信息的文本情感分类方法及装置 |
CN109214445A (zh) * | 2018-08-27 | 2019-01-15 | 陆柒(北京)科技有限公司 | 一种基于人工智能的多标签分类方法 |
CN109299246A (zh) * | 2018-12-04 | 2019-02-01 | 北京容联易通信息技术有限公司 | 一种文本分类方法及装置 |
CN109299246B (zh) * | 2018-12-04 | 2021-08-03 | 北京容联易通信息技术有限公司 | 一种文本分类方法及装置 |
CN109948148A (zh) * | 2019-02-28 | 2019-06-28 | 北京学之途网络科技有限公司 | 一种文本信息情感判定方法和判定装置 |
CN110727798A (zh) * | 2019-10-15 | 2020-01-24 | 东北大学 | 一种基于朴素贝叶斯分类的节日情感分析方法 |
CN113657106A (zh) * | 2021-07-05 | 2021-11-16 | 西安理工大学 | 基于归一化词频权重的特征选择方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108462A (zh) | 一种基于特征分类的文本情感分析方法 | |
CN105808526B (zh) | 商品短文本核心词提取方法和装置 | |
CN107193801A (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN102929861B (zh) | 一种文本情感指数计算方法和系统 | |
Islam et al. | Supervised approach of sentimentality extraction from bengali facebook status | |
CN106202372A (zh) | 一种网络文本信息情感分类的方法 | |
CN109271634A (zh) | 一种基于用户情感倾向感知的微博文本情感极性分析方法 | |
CN106294845B (zh) | 基于权重学习和多特征抽取的多情绪分类方法及装置 | |
CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
CN110164447A (zh) | 一种口语评分方法及装置 | |
CN109858034A (zh) | 一种基于注意力模型和情感词典的文本情感分类方法 | |
Gaikwad et al. | Multiclass mood classification on Twitter using lexicon dictionary and machine learning algorithms | |
CN109299277A (zh) | 舆情分析方法、服务器及计算机可读存储介质 | |
CN110633367A (zh) | 一种基于情感词典与微博文本数据的七情感分类方法 | |
CN107895027A (zh) | 个性情感知识图谱建立方法及装置 | |
CN108733675A (zh) | 基于大量样本数据的情感评价方法及装置 | |
CN106126605A (zh) | 一种基于用户画像的短文本分类方法 | |
CN105869058B (zh) | 一种多层潜变量模型用户画像提取的方法 | |
CN104573030A (zh) | 一种文本情绪预测方法及装置 | |
Krchnavy et al. | Sentiment analysis of social network posts in Slovak language | |
Ke et al. | A novel approach for cantonese rumor detection based on deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180601 |