CN107220293B - 基于情绪的文本分类方法 - Google Patents

基于情绪的文本分类方法 Download PDF

Info

Publication number
CN107220293B
CN107220293B CN201710283976.8A CN201710283976A CN107220293B CN 107220293 B CN107220293 B CN 107220293B CN 201710283976 A CN201710283976 A CN 201710283976A CN 107220293 B CN107220293 B CN 107220293B
Authority
CN
China
Prior art keywords
emotion
corpus
text
classification
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710283976.8A
Other languages
English (en)
Other versions
CN107220293A (zh
Inventor
侯庆志
王正凯
喻梅
王建荣
徐天一
成基元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710283976.8A priority Critical patent/CN107220293B/zh
Publication of CN107220293A publication Critical patent/CN107220293A/zh
Application granted granted Critical
Publication of CN107220293B publication Critical patent/CN107220293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Abstract

本发明属于数据挖掘、自然语言处理和信息检索领域,为提出一种基于情绪的文本分类算法(Emotion Text Classification,ETC),它将情绪因素与语料库扩展的情感分类算法结合,并对原始语料库的分类情感极性值,通过集成模型获得原始语料库的最终分类情感极性值。本发明采用的技术方案是,基于情绪的文本分类方法,步骤如下:步骤一:获取中文情绪词典;步骤二:紧张词和放松词强度检测;步骤三:文本情感分类;步骤四:集成分类预测。本发明主要应用于数据挖掘、自然语言处理和信息检索场合。

Description

基于情绪的文本分类方法
技术领域
本发明属于数据挖掘、自然语言处理和信息检索领域,涉及短文本情感分析技术,尤其是一种基于情感分析的文本分类方法。
背景技术
国外研究人员在情感分析领域中贡献了许多具有权威性的数据集,并广泛应用于各个会议和比赛;然而在中文文本情感分析领域中,完全满足研究需要、且具有足够权威性的已标注数据集则相对较少;同时,语料库扩展能够去掉部分噪声,在一定程度上缓解特征稀疏性问题,增加文本内容的语义相关空间,形成语义相近且拥有不同词语的文本,能够有效提高情感分析技术的实验效果。
目前主要的比较精确的文本分类算法为语料库扩展的情感分类算法(DataExpansion Sentiment Analysis,DESA),该算法虽然可以在一定程度上提高情感分析技术的准确率,但该方法只分析了扩展语料库文本中的事件和观点,并未考虑用户的情绪。
发明内容
为克服现有技术的不足,本发明旨在提出一种基于情绪的文本分类算法(EmotionText Classification,ETC),它将情绪因素与语料库扩展的情感分类算法结合,并对原始语料库的分类情感极性值,通过集成模型获得原始语料库的最终分类情感极性值。本发明采用的技术方案是,基于情绪的文本分类方法,步骤如下:
步骤一:获取中文情绪词典:使用英文紧张词和放松词标注词典,通过翻译工具转换成中文,并向中文词典中手动添加部分相关的词语;
步骤二:紧张词和放松词强度检测:根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理;
步骤三:文本情感分类:采用支持向量机算法SVM(Support Vector Machine)对新的特征向量进行分类,得到原始语料库的情感倾向值;
步骤四:集成分类预测,将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。
验证步骤:使用准确率Precision Rate、召回率Recall Rate、F值F-measure作为验证研究课题意义的实验评价标准,准确率、召回率、F值的计算方法如下:
Figure GDA0001359702080000011
Figure GDA0001359702080000021
Figure GDA0001359702080000022
其中,ni表示真实类别i包含的文本上,nj表示分类后类别j包含的文本数,ni,j表示分类后类别j中属于真实类别i的文档数,Precision(i,j)表示准确率,分类正确的信息条数与所有的信息条数之比,Recall(i,j)表示召回率,分类正确的信息条数与样本中正确的信息条数之比,F表示准确率与召回率的调和平均数。
基于情绪的情感分析算法加入紧张词和放松词强度检测部分,使用Adaboost算法预测原始文本的情感极值,从而提高情感分析技术的实验效果。
一个具体实施方案包括:
步骤S0101:获取原始语料库,并根据研究目的将原始语料库中的所有信息构造成相应的字符串并按照需求对其进行初步匹配,去除无用数据信息,构造文本和其真实情感极性值TrueValue的匹配对集合;
步骤S0201:文本内容通常包含微博平台自身规定的特有的符号,并将剩余部分进行文本分词处理;
步骤S0301:数据预处理之后,需要对语料库文本进行否定词检测,根据不同情感类别对语料库进行扩展,产生新的语料库文本;并根据原始语料库的原始极性值O_Senti,赋予新构造的语料库文本以新的极性值N_Senti;并将新的扩展语料库加入原始语料库集,形成扩展语料库;
步骤S0302:使用英文紧张词和放松词标注词典,通过翻译工具转换成中文,并向中文词典中手动添加部分相关的词语;
步骤S0401:获取扩展语料库,通过R语言中中文分词软件包Rwordseg对文本内容分词处理;
步骤S0501:通过相应的特征选择算法,提取并整理文本内容中的特征;
步骤S0601:根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理;
步骤S0602:将步骤S0501中的特征向量空间作为输入,使用随机森林算法进行文本情感分类,判断扩展语料库的情感倾向;
步骤S0701:采用SVM算法对新的特征向量进行分类,得到原始语料库的情感倾向值;
步骤S0702:从步骤S0602中取得原始语料库文本的分类极性O_Senti和新构造的语料库文本的分类极性N_Senti,使用Adaboost算法进行分类,构造多分类器模型,获得原始语料库的最终分类情感极性;
步骤S0801:将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。
本发明的特点及有益效果是:
将DESA算法对扩展语料库和对原始语料库的实验结果与ETC算法的结果进行详细的对比,基于情绪的情感分析算法实验效果包括准确率、F值都更为理想。
附图说明:
图1为ETC的算法流程图。
图2为ETC与DESA准确率对比效果。
通过图2可知,ETC对于积极类别准确率效果较差,相比于DESA(扩展语料库)低了7%,比DESA(原始语料库)高了2%;而ETC对于中立类别和消极类别的准确率效果较佳,分别比DESA(扩展语料库)提高了8%和4.6%,分别比DESA(原始语料库)提高了4%和15%;总体准确率ETC比DESA(扩展语料库)提高3.2%,比DESA(原始语料库)提高6.9%。
具体实施方式
本发明提出一种基于情绪的文本分类算法,包含以下步骤:
步骤一:获取中文情绪词典。使用英文紧张词和放松词标注词典,通过百度翻译等工具转换成中文,并向中文词典中手动添加部分相关的词语。
步骤二:紧张词和放松词强度检测。根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理。
步骤三:文本情感分类。采用支持向量机算法(Support Vector Machine,SVM)对新的特征向量进行分类,得到原始语料库的情感倾向值。
步骤四:集成分类预测。将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。
本发明使用准确率(Precision Rate)、召回率(Recall Rate)、F值(F-measure)作为验证研究课题意义的实验评价标准。准确率、召回率、F值的计算方法如下:
几种实验评价标准的具体计算方法如公式(1),公式(2),公式(3)所示。
Figure GDA0001359702080000031
Figure GDA0001359702080000032
Figure GDA0001359702080000033
其中,ni表示真实类别i包含的文本上,nj表示分类后类别j包含的文本数,ni,j表示分类后类别j中属于真实类别i的文档数,Precision(i,j)表示准确率,分类正确的信息条数与所有的信息条数之比,Recall(i,j)表示召回率,分类正确的信息条数与样本中正确的信息条数之比,F表示准确率与召回率的调和平均数。
基于情绪的情感分析算法加入紧张词和放松词强度检测部分,使用Adaboost算法预测原始文本的情感极值,从而提高情感分析技术的实验效果。
通过翻译工具将文献《Stress and relaxation magnitude detection forsocial media texts》构造的英文紧张词和放松词词典进行中文翻译,去除其中重复部分,共得到2043个标注词语;然后手动添加74个中文相似语义的词汇,按照出现在已标注词语中的紧张值和放松值对其同义词进行标注,共得到2117个标注词语。
通过调整SVM分类算法对不同情感类别的权重值,发现消极、中立和积极三个类别的权重比为40:32:40时,SVM分类算法达到较佳的实验效果。
通过SVM分类算法得到紧张词和放松词强度检测的情感分析结果,将其与语料库扩展的情感分类算法所预测的原始语料库文本的情感极性O_Senti进行匹配,将匹配对作为实验输入,采用Adaboost模型进行集成,获得最终结果。经过参数调整,设置分类树个数参数为15。
将DESA算法对扩展语料库和对原始语料库的实验结果与ETC算法的结果进行详细的对比,准确率效果比较如图1所示,F值效果比较如图2所示。
本发明提供了一种基于情绪的文本分类算法,它的具体实施方案包括:
步骤S0101:获取原始语料库,并根据研究目的将原始语料库中的所有信息构造成相应的字符串并按照需求对其进行初步匹配,去除无用数据信息,构造文本和其真实情感极性值TrueValue的匹配对集合。
步骤S0201:文本内容通常包含微博平台自身规定的特有的符号,并将剩余部分进行文本分词处理。
步骤S0301:数据预处理之后,需要对语料库文本进行否定词检测,根据不同情感类别对语料库进行扩展,产生新的语料库文本;并根据原始语料库的原始极性值O_Senti,赋予新构造的语料库文本以新的极性值N_Senti;并将新的扩展语料库加入原始语料库集,形成扩展语料库。
步骤S0302:使用英文紧张词和放松词标注词典,通过百度翻译等工具转换成中文,并向中文词典中手动添加部分相关的词语。
步骤S0401:获取扩展语料库,通过R语言中中文分词软件包Rwordseg对文本内容分词处理。
步骤S0501:通过相应的特征选择算法,提取并整理文本内容中的特征,构造尽可能贴近原始文本内容含义的特征集,形成特征向量空间。
步骤S0601:根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理。
步骤S0602:将步骤S0501中的特征向量空间作为输入,使用随机森林算法进行文本情感分类,判断扩展语料库的情感倾向。
步骤S0701:采用SVM算法对新的特征向量进行分类,得到原始语料库的情感倾向值。
步骤S0702:从步骤S0602中取得原始语料库文本的分类极性O_Senti和新构造的语料库文本的分类极性N_Senti,使用Adaboost算法进行分类,构造多分类器模型,获得原始语料库的最终分类情感极性。
步骤S0801:将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。
本发明所述的一种基于情绪词典进行文本分类的方法,它是在语料库扩展的情感分类算法基础上考虑了情绪的因素的文本分类算法。实验证明,基于情绪的文本分类算法的分类效果更准确。
ETC的F值对于积极类别略低于DESA(扩展语料库)和DESA(原始语料库);而ETC的F值对于中立类别比DESA(扩展语料库)提高了5.5%,比DESA(原始语料库)提高了5.6%;ETC的F值对于消极类别比DESA(扩展语料库)提高了4.1%,比DESA(原始语料库)提高了27%;总体F值ETC比DESA(扩展语料库)提高3.1%,比DESA(原始语料库)提高11%。通过对比准确率和F值,实验结果证明基于情绪的情感分析算法实验效果较好。

Claims (4)

1.一种基于情绪的文本分类方法,其特征是,步骤如下:
步骤一:获取中文情绪词典:使用英文紧张词和放松词标注词典,通过翻译工具转换成中文,并向中文词典中手动添加部分相关的词语;
步骤二:紧张词和放松词强度检测:根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理并形成新的特征向量;
步骤三:文本情感分类:采用支持向量机算法SVM(Support Vector Machine)对所述新的特征向量进行分类,得到原始语料库的情感倾向值;
步骤四:集成分类预测,将紧张词和放松词强度检测的情感分析结果提取出来,并结合语料库扩展的情感分类算法的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;语料库扩展指对语料库文本进行否定词检测,根据不同情感类别对语料库进行扩展,产生新的语料库文本;并根据原始语料库的原始极性值O_Senti,赋予新构造的语料库文本以新的极性值N_Senti;并将新的扩展语料库加入原始语料库集,形成扩展语料库;
情感分类算法的最终分类情感极性是指,使用Adaboost算法对文本的分类极性进行分类,构造多分类器模型,获得所输入语料库的最终分类情感极性;
使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。
2.如权利要求1所述的基于情绪的文本分类方法,其特征是,验证步骤:使用准确率Precision Rate、召回率Recall Rate、F值F-measure作为验证研究课题意义的实验评价标准,准确率、召回率、F值的计算方法如下:
Figure FDA0002386593400000011
Figure FDA0002386593400000012
Figure FDA0002386593400000013
其中,ni表示真实类别i包含的文本上,nj表示分类后类别j包含的文本数,ni,j表示分类后类别j中属于真实类别i的文档数,Precision(i,j)表示准确率,分类正确的信息条数与所有的信息条数之比,Recall(i,j)表示召回率,分类正确的信息条数与样本中正确的信息条数之比,F表示准确率与召回率的调和平均数。
3.如权利要求1所述的基于情绪的文本分类方法,其特征是,基于情绪的情感分析算法加入紧张词和放松词强度检测部分,使用Adaboost算法预测原始文本的情感极值,从而提高情感分析技术的实验效果。
4.如权利要求1所述的基于情绪的文本分类方法,其特征是,具体步骤细化如下:
步骤S0101:获取原始语料库,并根据研究目的将原始语料库中的所有信息构造成相应的字符串并按照需求对其进行初步匹配,去除无用数据信息,构造文本和其真实情感极性值TrueValue的匹配对集合;
步骤S0201:文本内容通常包含微博平台自身规定的特有的符号,并将剩余部分进行文本分词处理;
步骤S0301:数据预处理之后,需要对语料库文本进行否定词检测,根据不同情感类别对语料库进行扩展,产生新的语料库文本;并根据原始语料库的原始极性值O_Senti,赋予新构造的语料库文本以新的极性值N_Senti;并将新的扩展语料库加入原始语料库集,形成扩展语料库;
步骤S0302:使用英文紧张词和放松词标注词典,通过翻译工具转换成中文,并向中文词典中手动添加部分相关的词语;
步骤S0401:获取扩展语料库,通过R语言中中文分词软件包Rwordseg对文本内容分词处理;
步骤S0501:通过相应的特征选择算法,提取并整理文本内容中的特征;
步骤S0601:根据中文情绪词典,检测原始语料库文本是否包含紧张词和放松词,提取原始语料库文本内容中最大的紧张值Stress和最大的放松值Relation,使之作为特征集的一部分进行处理;
步骤S0602:将步骤S0501中的特征作为输入,使用随机森林算法进行文本情感分类,判断扩展语料库的情感倾向;
步骤S0701:采用SVM算法对新的特征向量进行分类,得到原始语料库的情感倾向值;
步骤S0702:将取得原始语料库文本的分类极性O_Senti和从步骤S0602中扩展语料库的分类极性N_Senti,使用Adaboost算法进行分类,构造多分类器模型,获得语料库扩展的最终分类情感极性;
步骤S0801:将紧张词和放松词强度检测的情感分析结果提取出来,并结合S0702获得的最终分类情感极性一起输入Adaboost算法,构造最终分类器H(X)={h1(x),h2(x),…,ht(x)},其中X为数据集,x为数据实例,hi(x)为弱分类器;使用最终分类器进行集成,获得该语料库文本的最终分类情感极性。
CN201710283976.8A 2017-04-26 2017-04-26 基于情绪的文本分类方法 Active CN107220293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710283976.8A CN107220293B (zh) 2017-04-26 2017-04-26 基于情绪的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710283976.8A CN107220293B (zh) 2017-04-26 2017-04-26 基于情绪的文本分类方法

Publications (2)

Publication Number Publication Date
CN107220293A CN107220293A (zh) 2017-09-29
CN107220293B true CN107220293B (zh) 2020-08-18

Family

ID=59944527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710283976.8A Active CN107220293B (zh) 2017-04-26 2017-04-26 基于情绪的文本分类方法

Country Status (1)

Country Link
CN (1) CN107220293B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109846496B (zh) * 2017-11-30 2022-06-10 昆山光微电子有限公司 智能可穿戴设备情绪感知功能的硬件实现方法及组合
CN111145871A (zh) * 2018-11-02 2020-05-12 京东方科技集团股份有限公司 情绪干预方法、装置和系统,以及计算机可读存储介质
CN109871889B (zh) * 2019-01-31 2019-12-24 内蒙古工业大学 突发事件下大众心理评估方法
CN109979592A (zh) * 2019-03-25 2019-07-05 广东邮电职业技术学院 心理健康预警方法、用户终端、服务器与系统
CN110427609B (zh) * 2019-06-25 2020-08-18 首都师范大学 一种写人作文篇章结构合理性自动评测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127042A (zh) * 2007-09-21 2008-02-20 浙江大学 一种基于语言模型的情感分类方法
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN103617245A (zh) * 2013-11-27 2014-03-05 苏州大学 一种双语情感分类方法及装置
CN105389303A (zh) * 2015-10-27 2016-03-09 北京信息科技大学 一种异源语料自动融合方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127042A (zh) * 2007-09-21 2008-02-20 浙江大学 一种基于语言模型的情感分类方法
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN103617245A (zh) * 2013-11-27 2014-03-05 苏州大学 一种双语情感分类方法及装置
CN105389303A (zh) * 2015-10-27 2016-03-09 北京信息科技大学 一种异源语料自动融合方法

Also Published As

Publication number Publication date
CN107220293A (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN107220293B (zh) 基于情绪的文本分类方法
Devika et al. Sentiment analysis: a comparative study on different approaches
CN107451126B (zh) 一种近义词筛选方法及系统
CN109960799B (zh) 一种面向短文本的优化分类方法
CN108509629B (zh) 一种基于情感词典和支持向量机的文本情感分析方法
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
TW201430832A (zh) 自動語音識別方法和系統
CN108804595B (zh) 一种基于word2vec的短文本表示方法
WO2020063071A1 (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN114266256A (zh) 一种领域新词的提取方法及系统
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN105354184A (zh) 一种使用优化的向量空间模型实现文档自动分类的方法
Li A classification retrieval approach for English legal texts
Villegas et al. Vector-based word representations for sentiment analysis: a comparative study
Çano Albmore: A corpus of movie reviews for sentiment analysis in albanian
Wei et al. The instructional design of Chinese text classification based on SVM
CN112528653B (zh) 短文本实体识别方法和系统
Thilagavathi et al. Document clustering in forensic investigation by hybrid approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant