CN106202584A - 一种基于标准词典和语义规则的微博情感分析方法 - Google Patents
一种基于标准词典和语义规则的微博情感分析方法 Download PDFInfo
- Publication number
- CN106202584A CN106202584A CN201610836065.9A CN201610836065A CN106202584A CN 106202584 A CN106202584 A CN 106202584A CN 201610836065 A CN201610836065 A CN 201610836065A CN 106202584 A CN106202584 A CN 106202584A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- dictionary
- microblog
- text
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明公开一种基于标准词典和语义规则的微博情感分析方法,包括:收集微博数据并对每条微博的情感值进行人工标记打分;建议相应的标准微博情感词典,建立情感词典数据库;基于标准情感词典,加入语义规则辅助,并对语义规则参数进行调参优化;基于真实数据集实验,得出最终的分类正确率和准确率。采用本发明的技术方案,通过引入标准情感词典、微博表情词典和语义规则,能够很好的分析出每条微博用户的情感倾向,具有更好的分类正确率和准确率。
Description
技术领域
本发明属于模式识别方法,尤其涉及一种基于标准词典和语义规则的微博情感分析方法。
背景技术
随着网络技术的快速发展,社交媒体的涌现使网络用户体验到了前所未有的便捷。社交媒体(如Facebook,Twitter、新浪微博等)为用户提供了共享信息和公开发表个人言论的平台,随着产生的海量微博数据背后隐含大量的信息,如果能够有效利用这些数据,可以获得巨大的潜在价值:对消费者来说,将某类产品评价进行汇总分析可以为其提供购买参考;对商业公司来说,分析产品评价可以作为其后续营销策略改进的基础;对政府部门来说,掌握舆情的发展可以更好地维护社会稳定。
当前情感分析方法有基于语义分析和基于机器学习这两种方法。基于语义分析通过统计微博文本中情感词的情感值来计算语句和文本的情感值,而基于机器学习通过构造分类器,使用标注好的训练集训练分类器,并区分训练集中的正例和反例,常用算法有朴素贝叶斯算法、K最近邻算法、中心向量算法和支持向量机(SVM)算法等。但是,传统算法在分析情感的过程中,仍面临着一些有待解决的重要问题:1)虽然基于语义情感分析算法能够把词语从句子中孤立出来,但是忽略了词语上下文关系及句法规则;2)虽然基于机器学习的方法对新闻、论坛等长文本情况处理效果较好,但是对微博短文本的分析效果不够理想。
发明内容
鉴于现有分析方法对反映微博信息情感倾向不够完善的缺点,本发明提供一种基于标准词典和语义规则的微博情感分析方法,采用情感词典加语义规则的计算模型来计算微博情感,并利用表情词典对最终的结果加以修正,提高情感倾向分析的分类准确率。
一种基于标准词典和语义规则的微博情感分析方法,包括如下步骤:
步骤S1、收集微博数据集
收集新浪微博真实微博数据集,并对每条微博的情感倾向值进行人工打分;
步骤S2、对微博数据做归一化文本预处理
将收集到的微博数据做文本预处理工作,删去特殊字符和移除文本中存在的微博表情符号,将微博文本统一划分为只含有微博表情的部分和利于程序分析的纯文本部分;
步骤S3、建立微博标准情感词典数据库
微博标准情感词典数据库包含微博情感词词典、褒义词基准词典、贬义词基准词典、程度副词词典、否定副词词典和微博表情词典;词典包含因素有词语名称、词语强度、词语极性、词语词性,其中,分析微博情感时,需要进行分句、去停用词、分词操作,分词后的微博由各种成分的词组成,此时需要在微博标准情感词典数据库中进行检索,确定微博中情感词的情感值;
步骤S4、建立微博分析核心算法
词语情感值E(wi)可以表示E(wi)=v×Neg×Deg,其中,v表示情感词,Neg表示情感词对应的否定副词,Deg表示情感程度副词。如果用E(S)表示整个句子的情感值,E(si)表示第i个分句si的分句情感值,那么E(si)的情感值为其中,Ri表示当前分句的句间关系系数;整句情感值E(S)可以表示为,其中,Pi表示句型系数;如果用E(text)表示文本的情感值,那么将微博文本与微博表情进行有效的结合,确定表情与文本所占的比例,微博情感的最终表达式为E(microblog)=0.4E(emoticon)+0.6E(text),其中,E(emoticon)表示微博表情的情感值;
步骤5、基于真实数据集实验,获得分类正确率
将步骤S1和步骤S2中得到的数据,输入到步骤S4所建立的情感分析算法之中,对每条微博数据进行分析,将分析的结果与人工标注的结果进行比对,采用在正向、负向以及中性微博上的正确率、召回率、F值(F-Measure)作为微博情感极性判别的标准,将三者的值取平均得到最终的分类正确率。
作为优选,还包括在微博分析核心算法中加入语义规则辅助,并对语义参数进行调参,所述语义规则包括句式关系和句间关系,其用于辅助分析微博文本。
与现有技术相比,本发明具有以下明显的优势和有益效果:
(1)本发明提出一种基于标准词典和语义规则的微博情感分析算法,实验表明该算法对于正向、负向和中性三类情感数据具有较高的分类正确率。
(2)本发明在分析微博文本时考虑到了语义规则,包含了句式关系与句间关系来处理复杂中文语义情境,并能够自适应地选取语义参数。
附图说明
图1为本发明所提出的基于标准词典和语义规则的微博情感分析算法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
如图1所示,本发明实施例提供一种基于标准词典和语义规则的微博情感分析方法,包括
以下步骤:
步骤1、收集微博数据集
从新浪微博数据收集1万条微博数据,并对每条微博的情感倾向值进行人工打分;情感极性分为正向、负向和中性,打分区在[-1,1]之间。
步骤2、对微博数据做归一化文本预处理
将收集到的微博数据做文本预处理工作,删去特殊字符和移除文本中存在的微博表情符号,将微博文本统一划分为只含有微博表情的部分和利于程序分析的纯文本部分,并对文本部分进行分词和分句的操作。
步骤3、建立微博标准情感词典数据库
建立在本算法下的标准微博情感词典组合,算法涉及的标准情感词典由6部分组成,包含微博情感词词典、褒义词基准词典、贬义词基准词典、程度副词词典、否定副词词典和微博表情词典;词典包含因素有词语名称、词语强度、词语极性、词语词性等。将组合词典导入数据库中,创建标准词典数据库以便于词语检索。分析微博情感时,需要进行分句、去停用词、分词等操作,分词后的微博由各种成分的词组成,此时需要在微博标准情感词典数据库中进行检索,确定微博中情感词的情感值。
步骤4、建立微博分析核心算法
词语情感值E(wi)可以表示E(wi)=v×Neg×Deg。其中,v表示情感词,Neg表示情感词对应的否定副词,Deg表示情感程度副词。如果用E(S)表示整个句子的情感值,E(si)表示第i个分句si的分句情感值,那么E(si)的情感值为其中,Ri表示当前分句的句间关系系数。因此,整句情感值E(S)可以表示为,其中,Pi表示句型系数。如果用E(text)表示文本的情感值,那么将微博文本与微博表情进行有效的结合,确定表情与文本所占的比例,因此,微博情感的最终表达式为E(microblog)=0.4E(emoticon)+0.6E(text),其中,E(emoticon)表示微博表情的情感值,
步骤5、在算法中加入语义规则辅助,并对语义参数进行调参
在步骤4的核心算法中加入语义规则来辅助分析微博文本情感值,语义规则包括句式关系Pi和句间关系Ri。本算法考虑到的句式关系包括感叹句、疑问句(包括反义疑问句)和陈述句,句间关系包括转这句、递进句和假设句。句式关系和句间关系的引入,将文本从整句细分到分句的层面进行分析。
进一步在参数值的选取方面进行了调参实验来优化。实验数据选取为特定相关句式和句间关系的微博,以0.1为区间间隔,调整每个子区间的语义参数。其中,以陈述句为基准句型,设定该句式参数值为1.0。基于微博数据,以准率为衡量标准,当准确率达到最大值时选取其所对应的参数值点作为该句式或句间关系的句子参数。
步骤6,基于真实数据集实验,获得分类正确率
将步骤1和步骤2中得到的真实微博数据,应用于步骤4和步骤5的完整算法之中,对每条微博数据进行分析,将分析的结果与人工标注的结果进行比对,采用在正向、负向以及中性微博上的正确率、召回率、F值(F-Measure)作为微博情感极性判别的标准,将三者的值取平均得到最终的分类正确率。同时引入准确率,进而判断微博打分的准确性。
为了验证本发明的有效性,以及与传统微博情感分析方法相比性能的优劣,进行了一组对比实验,三种分类方法的分类结果如表1所示,准确率如表2所示。
表1 本发明方法与两种传统微博情感分析方法的分类结果比较
在表1中,由于中性区间的扩大,导致3种方法表现出正向、负向数值高,中性数值低的特点,使得正确率计算公式中的分母增大,数值减小。同理,由于情感词库中负向情感词不够完善以及修辞手法的表现方式不同,使得部分负向情感的微博不能准确识别,导致召回率呈现与正确率相同的特点。对于F值,当文本情感值判定有偏差时,表情加权可以对其进行修正,所以其结果准确程度相对于语义规则来说更高。
表2 本发明方法与两种传统微博情感分析方法的准确率比较
由表1与表2可以看出,运用本发明方法充分借鉴了前两种方法的优势,在进行三类视频情感识别时,其分类正确率和准确率都得到有效的提高。
Claims (2)
1.一种基于标准词典和语义规则的微博情感分析方法,包括如下步骤:
步骤S1、收集微博数据集
收集新浪微博真实微博数据集,并对每条微博的情感倾向值进行人工打分;
步骤S2、对微博数据做归一化文本预处理
将收集到的微博数据做文本预处理工作,删去特殊字符和移除文本中存在的微博表情符号,将微博文本统一划分为只含有微博表情的部分和利于程序分析的纯文本部分;
步骤S3、建立微博标准情感词典数据库
微博标准情感词典数据库包含微博情感词词典、褒义词基准词典、贬义词基准词典、程度副词词典、否定副词词典和微博表情词典;词典包含因素有词语名称、词语强度、词语极性、词语词性,其中,分析微博情感时,需要进行分句、去停用词、分词操作,分词后的微博由各种成分的词组成,此时需要在微博标准情感词典数据库中进行检索,确定微博中情感词的情感值;
步骤S4、建立微博分析核心算法
词语情感值E(wi)可以表示E(wi)=v×Neg×Deg,其中,v表示情感词,Neg表示情感词对应的否定副词,Deg表示情感程度副词。如果用E(S)表示整个句子的情感值,E(si)表示第i个分句si的分句情感值,那么E(si)的情感值为其中,Ri表示当前分句的句间关系系数;整句情感值E(S)可以表示为,其中,Pi表示句型系数;如果用E(text)表示文本的情感值,那么将微博文本与微博表情进行有效的结合,确定表情与文本所占的比例,微博情感的最终表达式为E(microblog)=0.4E(emoticon)+0.6E(text),其中,E(emoticon)表示微博表情的情感值;
步骤5、基于真实数据集实验,获得分类正确率
将步骤S1和步骤S2中得到的数据,输入到步骤S4所建立的情感分析算法之中,对每条微博数据进行分析,将分析的结果与人工标注的结果进行比对,采用在正向、负向以及中性微博上的正确率、召回率、F值(F-Measure)作为微博情感极性判别的标准,将三者的值取平均得到最终的分类正确率。
2.如权利要求1所述的基于标准词典和语义规则的微博情感分析方法,其特征在于,还包括在微博分析核心算法中加入语义规则辅助,并对语义参数进行调参,所述语义规则包括句式关系和句间关系,其用于辅助分析微博文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610836065.9A CN106202584A (zh) | 2016-09-20 | 2016-09-20 | 一种基于标准词典和语义规则的微博情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610836065.9A CN106202584A (zh) | 2016-09-20 | 2016-09-20 | 一种基于标准词典和语义规则的微博情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106202584A true CN106202584A (zh) | 2016-12-07 |
Family
ID=58067926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610836065.9A Pending CN106202584A (zh) | 2016-09-20 | 2016-09-20 | 一种基于标准词典和语义规则的微博情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202584A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038249A (zh) * | 2017-04-28 | 2017-08-11 | 安徽博约信息科技股份有限公司 | 基于词典的网络舆情信息情感分类方法 |
CN107102984A (zh) * | 2017-04-21 | 2017-08-29 | 中央民族大学 | 一种藏语微博情感倾向性分析方法和系统 |
CN107688630A (zh) * | 2017-08-21 | 2018-02-13 | 北京工业大学 | 一种基于语义的弱监督微博多情感词典扩充方法 |
CN107885883A (zh) * | 2017-12-01 | 2018-04-06 | 北京国信宏数科技有限公司 | 一种基于社会媒体的宏观经济领域情感分析方法及系统 |
CN107908715A (zh) * | 2017-11-10 | 2018-04-13 | 中国民航大学 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
CN108038243A (zh) * | 2017-12-28 | 2018-05-15 | 广东欧珀移动通信有限公司 | 音乐推荐方法、装置、存储介质及电子设备 |
CN108694165A (zh) * | 2017-04-10 | 2018-10-23 | 南京理工大学 | 面向产品评论的跨领域对偶情感分析方法 |
CN109145306A (zh) * | 2018-09-11 | 2019-01-04 | 刘瑞军 | 文本驱动的三维表情生成方法 |
CN109213989A (zh) * | 2017-07-01 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 分析语言的弹幕分发方法、存储介质、电子设备及系统 |
CN109344331A (zh) * | 2018-10-26 | 2019-02-15 | 南京邮电大学 | 一种基于在线社会网络的用户情感分析方法 |
CN112000804A (zh) * | 2020-08-18 | 2020-11-27 | 安徽理工大学 | 一种微博热点话题用户群情感倾向性分析方法 |
CN112115707A (zh) * | 2020-09-08 | 2020-12-22 | 九江学院 | 一种用于弹幕情感分析且基于表情和语气的情感词典构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
US20160188703A1 (en) * | 2014-12-30 | 2016-06-30 | Facebook, Inc. | Contrastive multilingual business intelligence |
CN105843796A (zh) * | 2016-03-28 | 2016-08-10 | 北京邮电大学 | 一种微博情感倾向分析方法及装置 |
-
2016
- 2016-09-20 CN CN201610836065.9A patent/CN106202584A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
US20160188703A1 (en) * | 2014-12-30 | 2016-06-30 | Facebook, Inc. | Contrastive multilingual business intelligence |
CN105843796A (zh) * | 2016-03-28 | 2016-08-10 | 北京邮电大学 | 一种微博情感倾向分析方法及装置 |
Non-Patent Citations (1)
Title |
---|
赵天奇等: "语义规则与表情加权融合的微博情感分析方法", 《重庆邮电大学学报( 自然科学版)》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694165B (zh) * | 2017-04-10 | 2021-11-09 | 南京理工大学 | 面向产品评论的跨领域对偶情感分析方法 |
CN108694165A (zh) * | 2017-04-10 | 2018-10-23 | 南京理工大学 | 面向产品评论的跨领域对偶情感分析方法 |
CN107102984A (zh) * | 2017-04-21 | 2017-08-29 | 中央民族大学 | 一种藏语微博情感倾向性分析方法和系统 |
CN107038249A (zh) * | 2017-04-28 | 2017-08-11 | 安徽博约信息科技股份有限公司 | 基于词典的网络舆情信息情感分类方法 |
CN109213989A (zh) * | 2017-07-01 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 分析语言的弹幕分发方法、存储介质、电子设备及系统 |
CN107688630A (zh) * | 2017-08-21 | 2018-02-13 | 北京工业大学 | 一种基于语义的弱监督微博多情感词典扩充方法 |
CN107688630B (zh) * | 2017-08-21 | 2020-05-22 | 北京工业大学 | 一种基于语义的弱监督微博多情感词典扩充方法 |
CN107908715A (zh) * | 2017-11-10 | 2018-04-13 | 中国民航大学 | 基于Adaboost和分类器加权融合的微博情感极性判别方法 |
CN107885883A (zh) * | 2017-12-01 | 2018-04-06 | 北京国信宏数科技有限公司 | 一种基于社会媒体的宏观经济领域情感分析方法及系统 |
CN108038243A (zh) * | 2017-12-28 | 2018-05-15 | 广东欧珀移动通信有限公司 | 音乐推荐方法、装置、存储介质及电子设备 |
CN109145306A (zh) * | 2018-09-11 | 2019-01-04 | 刘瑞军 | 文本驱动的三维表情生成方法 |
CN109344331A (zh) * | 2018-10-26 | 2019-02-15 | 南京邮电大学 | 一种基于在线社会网络的用户情感分析方法 |
CN112000804A (zh) * | 2020-08-18 | 2020-11-27 | 安徽理工大学 | 一种微博热点话题用户群情感倾向性分析方法 |
CN112000804B (zh) * | 2020-08-18 | 2022-08-02 | 安徽理工大学 | 一种微博热点话题用户群情感倾向性分析方法 |
CN112115707A (zh) * | 2020-09-08 | 2020-12-22 | 九江学院 | 一种用于弹幕情感分析且基于表情和语气的情感词典构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN104778209B (zh) | 一种针对千万级规模新闻评论的观点挖掘方法 | |
CN103150367B (zh) | 一种中文微博的情感倾向分析方法 | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
CN107609132A (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN101520802A (zh) | 一种问答对的质量评价方法和系统 | |
CN102880600B (zh) | 基于通用知识网络的词语语义倾向性预测方法 | |
CN104731770A (zh) | 基于规则和统计模型的中文微博情感分析方法 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN103473380B (zh) | 一种计算机文本情感分类方法 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
CN106294326B (zh) | 一种新闻报道情感倾向分析方法 | |
CN106021288A (zh) | 一种基于自然语言分析的随堂测试答案快速自动分类方法 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN107704996A (zh) | 一种基于情感分析的教师评价系统 | |
CN104346326A (zh) | 一种情绪文本的情绪特征确定方法及装置 | |
CN110263153A (zh) | 面向多源信息的混合文本话题发现方法 | |
CN103530286A (zh) | 一种跨语言情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161207 |
|
RJ01 | Rejection of invention patent application after publication |