CN104199981A - 一种基于微博文本的个人和机构用户分类方法及系统 - Google Patents

一种基于微博文本的个人和机构用户分类方法及系统 Download PDF

Info

Publication number
CN104199981A
CN104199981A CN201410495083.6A CN201410495083A CN104199981A CN 104199981 A CN104199981 A CN 104199981A CN 201410495083 A CN201410495083 A CN 201410495083A CN 104199981 A CN104199981 A CN 104199981A
Authority
CN
China
Prior art keywords
user
microblogging
microblogging text
module
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410495083.6A
Other languages
English (en)
Inventor
李寿山
薛云霞
周国栋
王红玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201410495083.6A priority Critical patent/CN104199981A/zh
Publication of CN104199981A publication Critical patent/CN104199981A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于微博文本的个人和机构用户分类方法及系统,本发明方法包括以下步骤。S1、根据微博网站提供的API收集用户发表的微博文本,并对收集到的用户类型进行标注。S2、将标注好的微博文本进行分词处理后作为训练样本,并利用所述训练样本构建贝叶斯分类器。S3、根据所述贝叶斯分类器对待测用户进行分类,并根据分类结果确定用户类别。本发明对于微博用户的自动分类,具有较高的准确性。

Description

一种基于微博文本的个人和机构用户分类方法及系统
技术领域
本发明属于自然语言处理和社交网络领域,尤其涉及一种基于微博文本的个人和机构用户分类方法及系统。
背景技术
互联网的开放性、虚拟性与共享性使其渐渐成为人们表达观点、态度、感觉、情绪等各种情感的公共平台,并且产生大量的社交网站,同时微型博客(Microblog)也随之产生,成为又一个跨时代产品。用户通过微博发表的文本中蕴含了大量的信息,且越来越多的研究工作开始关注微博,其中重要的一类研究是微博用户特征分析。
所谓微博用户特征分析,就是通过对微博用户的信息和关系数据进行决策树分析、相关性分析和关联规则来挖掘用户特征,并根据这些特征进行用户分类、用户挖掘及影响力探测等。其中微博用户分类是微博用户特征分析的一项基本内容,具体来讲,是将微博用户划分为特定类别,比如:名人、媒体、博主、和组织;或者广播人、一般人和垃圾虫。然而,由于社交网络刚刚起步相关研究较少,因此关于用户类别的研究也比较缺乏。
但是,已有的研究主要是针对Twitter等外文网站,且利用的信息是网站提供的社交网络信息。然而,相对于社交网络信息,文本信息,例如,用户名和所发微博等,更容易获取且更具普遍性。
鉴于上述原因,本发明提供一种基于微博文本的个人和机构用户分类方法及系统。
发明内容
本发明提供一种基于微博文本的个人和机构用户分类方法,包括以下步骤。
S1、根据微博网站提供的API收集用户发表的微博文本,并对收集到的用户类型进行标注。
S2、将标注好的微博文本进行分词处理后作为训练样本,并利用所述训练样本构建贝叶斯分类器。
S3、根据所述贝叶斯分类器对待测用户进行分类,并根据分类结果确定用户类别。
优选的,在步骤S1中,收集用户发表的微博文本过程包括以下步骤。
S101、构建一个用户列表,并初始化为空;
S102、随机选择一个用户作为种子用户,并将所有微博用户加入用户列表中。
S103、从所述用户列表取出一个用户,通过微博网站提供的API抓取用户信息及该用户发表过的微博文本,并将关注用户和粉丝用户加入到用户队列中。
S104、重复S103直到达到所需的用户规模。
优选的,在步骤S103中,所述用户信息包括用户名、认证类型、关注用户和粉丝用户。
优选的,在步骤S1中,根据抓取的用户信息中的认证类型,将用户标注为个人用户和机构用户两种类型。
优选的,在步骤S2中,采用分词软件ICTCLAS将标注好的微博文本进行分词操作,并将所述经过分词操作的微博文本作为训练样本。
优选的,步骤S2是利用所述训练样本及Mallet提供的贝叶斯工具包构建贝叶斯分类器。
优选的,在步骤S3中,利用贝叶斯分类器对待测用户进行分类的过程为:
对于某待测用户,获取该用户发表的微博文本;
利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果。
本发明还提供一种基于微博文本的个人和机构用户分类系统,包括用户微博文本获取模块、用户类别标注模块、训练语料获取模块、分类器构建模块及待测用户分类模块,所述用户微博文本获取模块连接用户类别标注模块,所述用户类别标注模块连接训练语料获取模块,所述训练语料获取模块连接分类器构建模块,所述分类器构建模块连接待测用户分类模块。所述用户微博文本获取模块,用于获取用户微博文本及认证类型等信息。所述用户类别标注模块,用于对获取的用户进行极性标注,即将用户标注为个人用户和机构用户。所述训练语料获取模块,用于获取已标注类别的用户的微博,并将其作为训练样本。所述分类器构建模块,用于利用所述已获取的微博训练样本构建贝叶斯分类器。所述待测用户分类模块,用于利用所述贝叶斯分类器对待测用户进行分类。
通过本发明提供的基于微博文本的个人和机构用户分类方法及系统,对收集到的用户类型进行标注后,将标注好的微博文本进行处理作为训练样本,并构建贝叶斯分类器。最后根据贝叶斯分类器对待测用户进行分类,以确定用户类别。如此,通过对微博文本信息的处理,达到了对个人和机构用户自动分类的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明较佳实施例提供的基于微博文本的个人和机构用户分类方法流程图;
图2是本发明较佳实施例提供的基于微博文本的个人和机构用户分类系统示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1是本发明较佳实施例提供的基于微博文本的个人和机构用户分类方法流程图。如图1所示,本发明较佳实施例提供的基于微博文本的个人和机构用户分类方法包括步骤S1~S3。
步骤S1:根据微博网站提供的API收集用户发表的微博文本,并对收集到的用户类型进行标注。
具体而言,本实施例中,所述微博网站为新浪微博,在其他实施例中,可根据需要自行设定,对此本发明并不作限定。本步骤中,所述API解释为:Application Programming Interface,即应用程序编程接口。其中,对用户类型进行标注的过程为:根据抓取的用户信息中的认证类型,将用户标注为个人用户和机构用户两种类型。
表1为用户认证类型说明。如表1所示,蓝V用户标注为机构用户,黄V、微女郎、达人用户及普通用户标注为个人用户。
表1
本实施例中,所述收集用户发表的微博文本过程还包括步骤S101~S104。
S101、构建一个用户列表,并初始化为空。
S102、随机选择一个用户作为种子用户,并将所有微博用户加入用户列表中。
S103、从所述用户列表取出一个用户,通过微博网站提供的API抓取用户信息及该用户发表过的微博文本,并将关注用户和粉丝用户加入到用户队列中。
于此,所述用户信息包括用户名、认证类型、关注用户和粉丝用户。
S104、重复S103直到达到所需的用户规模。
步骤S2:将标注好的微博文本进行分词处理后作为训练样本,并利用所述训练样本构建贝叶斯分类器。
具体而言,本步骤中,是采用分词软件ICTCLAS将标注好的微博文本进行分词操作,并将所述经过分词操作的微博文本作为训练样本。
此外,本步骤是利用训练样本及Mallet提供的贝叶斯工具包构建贝叶斯分类器。于此,Mallet为基于java的自然语言处理工具箱,包括分档的分类、句类、主题模型及信息抽取等其他机器学习在文本方面的应用。
步骤S3:根据所述贝叶斯分类器对待测用户进行分类,并根据分类结果确定用户类别。
具体而言,上述利用贝叶斯分类器对待测用户进行分类的过程为:对于某待测用户,获取该用户发表的微博文本;利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果。
其中,朴素贝叶斯分类方法具体如下。
计算文档D属于ci类的概率为:
P ( c i | D ) = P ( c i ) Π t P ( t | c i ) TF ( t , D ) Σ m P ( c m ) Π t ∈ V P ( t | c m ) TF ( t , D )
P ( t | c i ) = 1 + TF ( t , c i ) | V | + Σ i TF ( t , c i )
于此,P(ci)为一个文档属于ci类的概率,P(t|ci)是对在ci类文档中特征t出现的条件概率的拉普拉斯概率估计,TF(t,ci)是ci类文档中特征t出现的频度,|V|为所有文档中包含的不同特征的总数目,TF(t,D)是在文档D中特征t出现的频度。
通过实验发现,采用本发明提供的基于微博文本的个人和机构用户分类方法对微博用户进行分类的准确率为0.84,其中训练样本包含个人用户和机构用户各1000,测试样本包含个人用户和机构用户各200。
图2是本发明较佳实施例提供的基于微博文本的个人和机构用户分类系统示意图。如图2所示,本发明较佳实施例提供的基于微博文本的个人和机构用户分类系统包括用户微博文本获取模块1、用户类别标注模块2、训练语料获取模块3、分类器构建模块4及待测用户分类模块5,所述用户微博文本获取模块1连接用户类别标注模块2,所述用户类别标注模块2连接训练语料获取模块3,所述训练语料获取模块3连接分类器构建模块4,所述分类器构建模块4连接待测用户分类模块5。所述用户微博文本获取模块1,用于获取用户微博文本及认证类型等信息。所述用户类别标注模块2,用于对获取的用户进行极性标注,即将用户标注为个人用户和机构用户。所述训练语料获取模块3,用于获取已标注类别的用户的微博,并将其作为训练样本。所述分类器构建模块4,用于利用所述已获取的微博训练样本构建贝叶斯分类器。所述待测用户分类模块5,用于利用所述贝叶斯分类器对待测用户进行分类。关于上述系统的操作流程同与本发明方法类似,故于此不再赘述。
通过本发明较佳实施例提供的基于微博文本的个人和机构用户分类方法及系统,根据API收集用户发表的微博文本,并对收集到的用户类型进行标注,有效利用了用户提供的文本信息。之后将标注好的微博文本进行处理作为训练样本,并构建贝叶斯分类器,最后根据贝叶斯分类器对待测用户进行分类并确定用户类别。如此,达到了对个人和机构用户自动分类的效果,且具有较高的准确率。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于微博文本的个人和机构用户分类方法,其特征在于,包括以下步骤:
S1、根据微博网站提供的API收集用户发表的微博文本,并对收集到的用户类型进行标注;
S2、将标注好的微博文本进行分词处理后作为训练样本,并利用所述训练样本构建贝叶斯分类器;
S3、根据所述贝叶斯分类器对待测用户进行分类,并根据分类结果确定用户类别。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,收集用户发表的微博文本过程包括以下步骤:
S101、构建一个用户列表,并初始化为空;
S102、随机选择一个用户作为种子用户,并将所有微博用户加入用户列表中;
S103、从所述用户列表取出一个用户,通过微博网站提供的API抓取用户信息及该用户发表过的微博文本,并将关注用户和粉丝用户加入到用户队列中;
S104、重复S103直到达到所需的用户规模。
3.根据权利要求2所述的方法,其特征在于,在步骤S103中,所述用户信息包括用户名、认证类型、关注用户和粉丝用户。
4.根据权利要求1所述的方法,其特征在于,在步骤S1中,根据抓取的用户信息中的认证类型,将用户标注为个人用户和机构用户两种类型。
5.根据权利要求1所述的方法,其特征在于,在步骤S2中,采用分词软件ICTCLAS将标注好的微博文本进行分词操作,并将所述经过分词操作的微博文本作为训练样本。
6.根据权利要求1所述的方法,其特征在于,步骤S2是利用所述训练样本及Mallet提供的贝叶斯工具包构建贝叶斯分类器。
7.根据权利要求1所述的方法,其特征在于,在步骤S3中,利用贝叶斯分类器对待测用户进行分类的过程为:
对于某待测用户,获取该用户发表的微博文本;
利用所述贝叶斯分类器,对用户微博文本进行分类,得到分类结果。
8.一种基于微博文本的个人和机构用户分类系统,其特征在于,包括用户微博文本获取模块、用户类别标注模块、训练语料获取模块、分类器构建模块及待测用户分类模块,所述用户微博文本获取模块连接用户类别标注模块,所述用户类别标注模块连接训练语料获取模块,所述训练语料获取模块连接分类器构建模块,所述分类器构建模块连接待测用户分类模块,
所述用户微博文本获取模块,用于获取用户微博文本及认证类型等信息;
所述用户类别标注模块,用于对获取的用户进行极性标注,即将用户标注为个人用户和机构用户;
所述训练语料获取模块,用于获取已标注类别的用户的微博,并将其作为训练样本;
所述分类器构建模块,用于利用所述已获取的微博训练样本构建贝叶斯分类器;
所述待测用户分类模块,用于利用所述贝叶斯分类器对待测用户进行分类。
CN201410495083.6A 2014-09-24 2014-09-24 一种基于微博文本的个人和机构用户分类方法及系统 Pending CN104199981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410495083.6A CN104199981A (zh) 2014-09-24 2014-09-24 一种基于微博文本的个人和机构用户分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410495083.6A CN104199981A (zh) 2014-09-24 2014-09-24 一种基于微博文本的个人和机构用户分类方法及系统

Publications (1)

Publication Number Publication Date
CN104199981A true CN104199981A (zh) 2014-12-10

Family

ID=52085274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410495083.6A Pending CN104199981A (zh) 2014-09-24 2014-09-24 一种基于微博文本的个人和机构用户分类方法及系统

Country Status (1)

Country Link
CN (1) CN104199981A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809104A (zh) * 2015-05-11 2015-07-29 苏州大学 一种微博文本情绪识别方法及系统
CN106651167A (zh) * 2016-12-16 2017-05-10 成都生命基线科技有限公司 一种生物信息工程师技能评级系统
CN107908620A (zh) * 2017-11-15 2018-04-13 珠海金山网络游戏科技有限公司 一种基于工作文档预判用户职业的方法和装置
CN110516066A (zh) * 2019-07-23 2019-11-29 同盾控股有限公司 一种文本内容安全防护方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102946331A (zh) * 2012-10-10 2013-02-27 北京交通大学 一种社交网络僵尸用户检测方法及装置
CN103294833A (zh) * 2012-11-02 2013-09-11 中国人民解放军国防科学技术大学 基于用户的关注关系的垃圾用户发现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102946331A (zh) * 2012-10-10 2013-02-27 北京交通大学 一种社交网络僵尸用户检测方法及装置
CN103294833A (zh) * 2012-11-02 2013-09-11 中国人民解放军国防科学技术大学 基于用户的关注关系的垃圾用户发现方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BALACHANDER KRISHNAMURTHY ET AL: ""A Few Chirps About Twitter"", 《WOSN"08》 *
LALINDRA DE SILVA ET AL: ""User Type Classification of Tweets with Implications for Event Recognition"", 《PROCEEDINGS OF THE JOINT WORKSHOP ON SOCIAL DYNAMICS AND PERSONAL ATTRIBUTES IN SOCIAL MEDIA, PAGES 98–108》 *
MUNMUN DE CHOUDHURY ET AL: ""Unfolding the Event Landscape on Twitter:Classification and Exploration of User Categories"", 《PROCEEDINGS OF THE ACM 2012 CONFERENCE ON COMPUTER SUPPORTED COOPERATIVE WORK》 *
尹杰: ""基于用户分析的微博信息过滤研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
葛红美 等: ""一种基于时间片的微博用户分类方法"", 《小型微型计算机系统》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809104A (zh) * 2015-05-11 2015-07-29 苏州大学 一种微博文本情绪识别方法及系统
CN106651167A (zh) * 2016-12-16 2017-05-10 成都生命基线科技有限公司 一种生物信息工程师技能评级系统
CN107908620A (zh) * 2017-11-15 2018-04-13 珠海金山网络游戏科技有限公司 一种基于工作文档预判用户职业的方法和装置
CN110516066A (zh) * 2019-07-23 2019-11-29 同盾控股有限公司 一种文本内容安全防护方法和装置

Similar Documents

Publication Publication Date Title
Huang et al. Detecting suicidal ideation in Chinese microblogs with psychological lexicons
Mishra et al. Sentiment analysis of Twitter data: Case study on digital India
Saif et al. Evaluation datasets for Twitter sentiment analysis: a survey and a new dataset, the STS-Gold
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
Stamatatos et al. Overview of the PAN/CLEF 2015 evaluation lab
CN103150367B (zh) 一种中文微博的情感倾向分析方法
CN104598535B (zh) 一种基于最大熵的事件抽取方法
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
Liew et al. EmoTweet-28: A fine-grained emotion corpus for sentiment analysis
CN104408093A (zh) 一种新闻事件要素抽取方法与装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN103699626A (zh) 一种微博用户个性化情感倾向分析方法及系统
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN102163187A (zh) 文档标记方法和装置
CN102682130A (zh) 一种文本情感分类方法及系统
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
CN104199981A (zh) 一种基于微博文本的个人和机构用户分类方法及系统
Al-Osaimi et al. Role of emotion icons in sentiment classification of Arabic tweets
CN104598648A (zh) 一种微博用户交互式性别识别方法及装置
Babić et al. COVID-19-related communication on twitter: analysis of the croatian and polish attitudes
Ashraf et al. Author profiling on bi-lingual tweets
CN106485525A (zh) 信息处理方法及装置
CN105243095A (zh) 一种基于微博文本的情绪分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141210

RJ01 Rejection of invention patent application after publication