CN105243095A - 一种基于微博文本的情绪分类方法及系统 - Google Patents

一种基于微博文本的情绪分类方法及系统 Download PDF

Info

Publication number
CN105243095A
CN105243095A CN201510577717.7A CN201510577717A CN105243095A CN 105243095 A CN105243095 A CN 105243095A CN 201510577717 A CN201510577717 A CN 201510577717A CN 105243095 A CN105243095 A CN 105243095A
Authority
CN
China
Prior art keywords
microblogging text
user
module
microblogging
mood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510577717.7A
Other languages
English (en)
Inventor
李寿山
黄磊
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangjiagang Institute of Industrial Technologies Soochow University
Original Assignee
Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangjiagang Institute of Industrial Technologies Soochow University filed Critical Zhangjiagang Institute of Industrial Technologies Soochow University
Priority to CN201510577717.7A priority Critical patent/CN105243095A/zh
Publication of CN105243095A publication Critical patent/CN105243095A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于微博文本的情绪分类方法及系统,所述方法包括以下步骤。收集一定数量微博用户发表的微博文本,并将收集到的微博文本进行情绪类型标注。利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本,并利用所述训练样本及贝叶斯工具包构建贝叶斯分类器。利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。如此,以较高的准确率达到了对微博文本进行情绪分类。

Description

一种基于微博文本的情绪分类方法及系统
技术领域
本发明属于自然语言处理和社交网络领域,具体涉及一种基于微博文本的情绪分类方法及系统。
背景技术
互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪等各种情感的公共平台,并且产生大量的社交网站,同时微型博客(Microblog)也随之产生,成为又一个跨时代产品。根据人民网报道,截至2013年底,中国微博用户数为2.81亿人,每天发布和转发微博信息达2.5亿条。在这些庞大的短文本信息中,有很大一部分是带有情感的文本信息。处理和分析这些海量的带情感的数据信息蕴含着巨大的商业价值。例如,微博监管、突发事件预警、舆情发现、舆论引导和商业竞争情报分析等工作的实现。因此,对于微博情绪分析的研究,具有较高的理论价值和应用价值。
所谓文本情绪分析,一般包含两个任务:一是情绪识别,即通过对文本进行分析,判断该文本是否含有情绪;二是情绪分类,即指对含有情绪的文本进行分析,进行情绪具体类别的判别。本发明的研究主要针对文本情绪分类。
举例说明具体的情绪分类,例如微博:“明天不用上班了,休息一天,真好该微博文本含有快乐的情绪。
微博文本的情绪分类是将微博文本作为研究对象。由于社交网络刚刚起步相关研究较少,因此关于微博文本情绪分类的研究也比较缺乏。因此,本发明提供一种基于微博文本的情绪分类方法及系统。
发明内容
本发明提供一种基于微博文本的情绪分类方法,包括以下步骤:
S1、收集一定数量微博用户发表的微博文本,并将收集到的微博文本进行情绪类型标注;
S2、利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本,并利用所述训练样本及贝叶斯工具包构建贝叶斯分类器;
S3、利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。
优选的,步骤S1中收集微博用户发表的微博文本的过程包括以下步骤:
S11、构建一个空的用户列表,并在微博选取一个用户作为种子用户加入所述空的用户列表中;
S12、抓取所述种子用户的用户信息及其发表的微博文本,并将所述种子用户的关注用户和粉丝用户加入用户列表中,并继续抓取所述关注用户和粉丝用户的用户信息及其发表的微博文本;
S13、重复步骤S12,直至达到所需用户数量。
优选的,在步骤S12中,所述用户信息包括用户名、认证类型、关注用户和粉丝用户。
优选的,所述情绪类型包括快乐、愤怒、悲伤、恐惧、正面复合、中性复合、反面复合及无情绪类型。
优选的,在步骤S2中,采用中国科学院计算技术研究所的分词软件ICTCLAS将标注好的微博文本进行分词处理。
优选的,在步骤S2中,所述贝叶斯工具包由Mallet提供。
优选的,所述贝叶斯分类器采用朴素贝叶斯模型。
本发明还提供一种基于微博文本的情绪分类系统,包括微博文本获取模块、情绪标注模块、训练样本获取模块、分类器构建模块及分类模块,所述微博文本获取模块连接情绪标注模块,所述情绪标注模块连接训练样本获取模块,训练样本获取模块连接分类器构建模块,所述分类器构建模块连接分类模块:所述微博文本获取模块,用于收集微博用户发表的微博文本;所述情绪标注模块,用于将收集到的微博文本进行情绪类型标注;所述训练样本获取模块,用于利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本;所述分类器构建模块,用于利用所述训练样本及贝叶斯工具包构建贝叶斯分类器;所述分类模块,用于利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。
根据本发明提供的基于微博文本的情绪分类方法及系统,所述方法包括以下步骤。收集一定数量微博用户发表的微博文本,并将收集到的微博文本进行情绪类型标注。利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本,并利用所述训练样本及贝叶斯工具包构建贝叶斯分类器。利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。如此,以较高的准确率达到了对微博文本进行情绪分类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明较佳实施例提供的基于微博文本的情绪分类方法流程图;
图2是本发明较佳实施例提供的收集微博用户发表的微博文本的流程图;
图3是本发明较佳实施例提供的基于微博文本的情绪分类系统示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1是本发明较佳实施例提供的基于微博文本的情绪分类方法流程图。如图1所示,本发明较佳实施例提供的基于微博文本的情绪分类方法包括步骤S1~S3。
步骤S1:收集一定数量微博用户发表的微博文本,并将收集到的微博文本进行情绪类型标注。
具体而言,本实施例中,所述微博是以腾讯微博为例说明,具体通过腾讯微博提供的API收集用户发表的微博文本。其它实施例中,也可使用其他社交网站的用户发表的文本信息。所述收集一定数量微博用户发表的微博文本过程作如下分解。
图2是本发明较佳实施例提供的收集微博用户发表的微博文本的流程图。如图2所示,本发明较佳实施例提供的收集微博用户发表的微博文本流程包括步骤S11~S13。
步骤S11:构建一个空的用户列表,并在微博选取一个用户作为种子用户加入所述空的用户列表中。
步骤S12:抓取所述种子用户的用户信息及其发表的微博文本,并将所述种子用户的关注用户和粉丝用户加入用户列表中,并继续抓取所述关注用户和粉丝用户的用户信息及其发表的微博文本。
本步骤中,所述用户信息包括用户名、认证类型、关注用户和粉丝用户。
步骤S13:重复步骤S12,直至达到所需用户数量。
接下来,将收集到的微博文本进行情绪类型标注。于此,所述情绪类型包括快乐、愤怒、悲伤、恐惧、正面复合、中性复合、反面复合及无情绪类型。表1所示是不同微博文本对应的情绪类型示例。
表1
上述情绪类型仅作示例使用,在实际应用时,情绪类型可再进行细分,然而,对此本发明并不作限定。
步骤S2:利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本,并利用所述训练样本及贝叶斯工具包构建贝叶斯分类器。
本步骤中,是采用中国科学院计算技术研究所的分词软件ICTCLAS将标注好的微博文本进行分词处理。所述贝叶斯工具包由Mallet提供。
步骤S3:利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。
具体而言,所述贝叶斯分类器采用朴素贝叶斯模型。朴素贝叶斯分类方法具体如下。
计算文档D属于ci类的概率为:
P ( c i | D ) = P ( c i ) Π t P ( t | c i ) T F ( t , D ) Σ m P ( c m ) Π t ∈ V P ( t | c m ) T F ( t , D )
P ( t | c i ) = 1 + T F ( t , c i ) | V | + Σ i T F ( t , c i )
其中P(ci)为一个文档属于ci类的概率,P(t|ci)是对在ci类文档中特征t出现的条件概率的拉普拉斯概率估计,TF(t,ci)是ci类文档中特征t出现的频度,|V|为所有文档中包含的不同特征的总数目,TF(t,D)是在文档D中特征t出现的频度。
经实验数据验证,采用本发明提供的基于微博文本的情绪分类方法及系统,对微博文本的情绪分类取得较好的结果。表2是具体分类结果。如表2所示:
表2
图3是本发明较佳实施例提供的基于微博文本的情绪分类系统示意图。如图3所示,本发明较佳实施例提供的基于微博文本的情绪分类系统包括微博文本获取模块1、情绪标注模块2、训练样本获取模块3、分类器构建模块4及分类模块5,所述微博文本获取模块1连接情绪标注模块2,所述情绪标注模块2连接训练样本获取模块3,训练样本获取模块3连接分类器构建模块4,所述分类器构建模块4连接分类模块5。所述微博文本获取模块1,用于收集微博用户发表的微博文本;所述情绪标注模块2,用于将收集到的微博文本进行情绪类型标注。所述训练样本获取模块3,用于利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本。所述分类器构建模块4,用于利用所述训练样本及贝叶斯工具包构建贝叶斯分类器。所述分类模块5,用于利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。
关于上述系统的操作流程同上述方法类似,故于此不再赘述。
综上所述,根据本发明较佳实施例提供的基于微博文本的情绪分类方法及系统,所述方法包括以下步骤。收集一定数量微博用户发表的微博文本,并将收集到的微博文本进行情绪类型标注。利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本,并利用所述训练样本及贝叶斯工具包构建贝叶斯分类器。利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。如此,以较高的准确率达到了对微博文本进行情绪分类。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于微博文本的情绪分类方法,其特征在于,包括以下步骤:
S1、收集一定数量微博用户发表的微博文本,并将收集到的微博文本进行情绪类型标注;
S2、利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本,并利用所述训练样本及贝叶斯工具包构建贝叶斯分类器;
S3、利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。
2.根据权利要求1所述的方法,其特征在于,步骤S1中收集微博用户发表的微博文本的过程包括以下步骤:
S11、构建一个空的用户列表,并在微博选取一个用户作为种子用户加入所述空的用户列表中;
S12、抓取所述种子用户的用户信息及其发表的微博文本,并将所述种子用户的关注用户和粉丝用户加入用户列表中,并继续抓取所述关注用户和粉丝用户的用户信息及其发表的微博文本;
S13、重复步骤S12,直至达到所需用户数量。
3.根据权利要求2所述的方法,其特征在于,在步骤S12中,所述用户信息包括用户名、认证类型、关注用户和粉丝用户。
4.根据权利要求1所述的方法,其特征在于,所述情绪类型包括快乐、愤怒、悲伤、恐惧、正面复合、中性复合、反面复合及无情绪类型。
5.根据权利要求1所述的方法,其特征在于,在步骤S2中,采用中国科学院计算技术研究所的分词软件ICTCLAS将标注好的微博文本进行分词处理。
6.根据权利要求1所述的方法,其特征在于,在步骤S2中,所述贝叶斯工具包由Mallet提供。
7.根据权利要求1所述的方法,其特征在于,所述贝叶斯分类器采用朴素贝叶斯模型。
8.一种基于微博文本的情绪分类系统,其特征在于,包括微博文本获取模块、情绪标注模块、训练样本获取模块、分类器构建模块及分类模块,所述微博文本获取模块连接情绪标注模块,所述情绪标注模块连接训练样本获取模块,训练样本获取模块连接分类器构建模块,所述分类器构建模块连接分类模块:
所述微博文本获取模块,用于收集微博用户发表的微博文本;
所述情绪标注模块,用于将收集到的微博文本进行情绪类型标注;
所述训练样本获取模块,用于利用分词软件将标注好的微博文本进行分词处理,并将经过分词处理的微博文本作为训练样本;
所述分类器构建模块,用于利用所述训练样本及贝叶斯工具包构建贝叶斯分类器;
所述分类模块,用于利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果,并根据所述分类结果确定情绪类型。
CN201510577717.7A 2015-09-11 2015-09-11 一种基于微博文本的情绪分类方法及系统 Pending CN105243095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510577717.7A CN105243095A (zh) 2015-09-11 2015-09-11 一种基于微博文本的情绪分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510577717.7A CN105243095A (zh) 2015-09-11 2015-09-11 一种基于微博文本的情绪分类方法及系统

Publications (1)

Publication Number Publication Date
CN105243095A true CN105243095A (zh) 2016-01-13

Family

ID=55040744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510577717.7A Pending CN105243095A (zh) 2015-09-11 2015-09-11 一种基于微博文本的情绪分类方法及系统

Country Status (1)

Country Link
CN (1) CN105243095A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777361A (zh) * 2017-01-20 2017-05-31 清华大学 基于段向量模型的微博文本情绪分类方法和分类系统
CN108897784A (zh) * 2018-06-08 2018-11-27 北京航空航天大学 一个基于社交媒体的突发事件多维分析系统
CN109918556A (zh) * 2019-03-08 2019-06-21 北京工业大学 一种综合微博用户社交关系和微博文本特征抑郁情绪识别方法
CN111354361A (zh) * 2018-12-21 2020-06-30 深圳市优必选科技有限公司 一种情感交流的方法、系统及机器人

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777361A (zh) * 2017-01-20 2017-05-31 清华大学 基于段向量模型的微博文本情绪分类方法和分类系统
CN108897784A (zh) * 2018-06-08 2018-11-27 北京航空航天大学 一个基于社交媒体的突发事件多维分析系统
CN111354361A (zh) * 2018-12-21 2020-06-30 深圳市优必选科技有限公司 一种情感交流的方法、系统及机器人
CN109918556A (zh) * 2019-03-08 2019-06-21 北京工业大学 一种综合微博用户社交关系和微博文本特征抑郁情绪识别方法
CN109918556B (zh) * 2019-03-08 2021-06-25 北京工业大学 一种综合微博用户社交关系和文本特征抑郁情绪识别方法

Similar Documents

Publication Publication Date Title
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN104239539B (zh) 一种基于多种信息融合的微博信息过滤方法
CN103150367B (zh) 一种中文微博的情感倾向分析方法
Venugopalan et al. Exploring sentiment analysis on twitter data
CN104281653B (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN105550269A (zh) 一种有监督学习的产品评论分析方法及系统
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN107609132A (zh) 一种基于语义本体库中文文本情感分析方法
CN105824959A (zh) 舆情监控方法及系统
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN107704558A (zh) 一种用户意见抽取方法及系统
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN105354305A (zh) 一种网络谣言的识别方法及装置
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN102708164A (zh) 电影期望值的计算方法及系统
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
CN108733675B (zh) 基于大量样本数据的情感评价方法及装置
CN105809186A (zh) 情感分类的方法及系统
CN105243095A (zh) 一种基于微博文本的情绪分类方法及系统
CN110134934A (zh) 文本情感分析方法和装置
CN103530286A (zh) 一种跨语言情感分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160113